Python OLS 双向逐步回归

article/2025/9/3 5:23:02

算法基本思路:首先需要确定一个因变量y以此构建一元回归方程,再找到已通过显著性检验的一元线性回归方程中F值最大的解释变量x0,将其并入回归方程中,再分别将剩余的解释变量与解释变量x0作为OLS函数的自变量集拟合回归方程,同样找出其中F值最大的自变量集,如果该自变量集均能通过显著性检验则将该解释变量并入回归方程中并进行下一轮的迭代,否则舍弃该解释变量,并找出F值第二大的自变量集继续对其进行显著性检验。

import pandas as pd
import numpy as np
import statsmodels.api as smdef test_significance(data, dv, src_idvs):model = sm.OLS(data.loc[:, dv], data.loc[:, src_idvs]).fit()for p in model.pvalues:if p > 0.05:return Falseelse:return Truedef find_max_F(data, dv, idvs, res_idvs):F_max = -1idv_F_max = Noneres_model = Nonefor idv in idvs:new_idvs = res_idvs.copy()new_idvs.append(idv)  # 加入新解释变量找出F最大值model = sm.OLS(data.loc[:, dv], sm.add_constant(data.loc[:, new_idvs])).fit()F = model.fvalueif F > F_max:F_max = Fidv_F_max = idvres_model = modelreturn F_max, idv_F_max, res_modeldef stepwise_regression(data, dv, idvs=None):  # 向前向后逐步回归res_idvs = []src_idvs = idvs.copy()res_models = []for step in range(len(idvs)):isExit = Falsewhile True:F, idv, model = find_max_F(data, dv, src_idvs, res_idvs)  # 求出F最大值以及对应的解释变量if model == None:  # 多元线性拟合失败print("第{0}步拟合线性失败".format(step + 1))isExit = Truebreakres_idvs.append(idv)# 没有新解释变量并入回归方程中if model.f_pvalue >= 0.05 or not test_significance(data, dv, res_idvs):res_idvs.pop()  # 移除该解释变量src_idvs.remove(idv)print("第{0}步移除解释变量{1}".format(step + 1, idv))if len(src_idvs) == 0:  # 该轮for循环并没有解释变量能够并入回归方程中isExit = Truebreakelse:  # 找到新解释变量,结束While循环print("第{0}步并入解释变量{1}".format(step + 1, idv))res_models.append(model)breakif isExit:  # 提前结束逐步回归breakelse:src_idvs = []for idv in idvs:if idv not in res_idvs:src_idvs.append(idv)return res_idvs, res_modelsdata = pd.read_excel('./normalization.xlsx')equations = []
stdouts = []
for column in data.columns:idvs = list(data.columns.copy())idvs.remove(column)res, models = stepwise_regression(data=data, dv=column, idvs=idvs)equation = 'y = 'stdout = 'y为' + column + '、'for index in range(len(res)):equation += str(models[index].params[1]) + ' * x' + str(index)stdout += 'x' + str(index) + '为' +  res[index]if index != len(res) - 1:equation += ' + 'stdout += '、'equations.append(equation)stdouts.append(stdout)with open(file='./MultivariateLinearity.txt', mode='w', encoding='utf-8') as f:for index in range(len(equations)):f.write(equations[index] + '\n其中: ' + stdouts[index] + '\n')

以下是data数据集格式,一个解释变量为一列

 以下是将方程以及变量解释输出至.txt文件的最终结果


http://chatgpt.dhexx.cn/article/Byn9gVrA.shtml

相关文章

逐步回归分析

逐步回归分析 在实际问题中,首先碰到的问题是如何确定自变量。通常是根据所研究的问题,结合经济理论,罗列出对因变量可能有影响的一些因素作为自变量。 因此,我们需要挑选出对因变量有显著影响的自变量,构造最优的回归方程。 逐步回归的基本思想是:将变量一个一个引入,…

向前逐步回归

向前逐步回归 我们在进行拟合的时候,没有必要将所有变量都引入到我们的函数之中,这种操作往往会导致过拟合,而过拟合带来的致命影响就是泛化能力差,最小二乘法估计参数的时候无法终止学习的过程。向前逐步回归的引入则可以控制学…

SPSSAU中逐步回归法——探索分析单支股票数据(实践)

数据说明: 还是选择万兴科技的股票数据来做回归分析,和《股票时序分析和时序模型(实践)》这篇文章使用数据一致。需要说明由于spssau免费账号最多输入50项数据,所以使用的都是近50期数据。 spssau上的相关分析图 pyth…

多元逐步回归算法

先谈一下个人对多元逐步回归的理解:多元逐步回归的最本质的核心是最小二乘原理,本方法中调用smf方法。# encoding: utf-8""" 功能:多元逐步回归 描述:基于python实现多元逐步回归的功能 作者:CHEN_C_W …

【模型开发】逐步回归

1.定义 当变量中含有对被解释变量影响不大的解释变量时,可能因为误差平方和的自由度减小而使方差的估计增大,从而影响回归预测的精度,适当的选择一个变量建立一个最优的回归方程十分重要。 逐步回归(Stepwise Regression&#xff…

matlab逐步回归分析法,天大matlab大作业逐步回归分析方法.doc

天大matlab大作业逐步回归分析方法.doc 逐步回归分析方法在实际中,影响Y的因素很多,这些因素可能存在多重共线性(相关性),这就对系数的估计带来不合理的解释,从而影响对Y的分析和预测。“最优”的回归方程就是包含所有对Y有影响的…

【R语言数据科学】(十九):变量选择(一)逐步回归法

【R语言数据科学】 🌸个人主页:JOJO数据科学📝个人介绍:统计学top3高校统计学硕士在读💌如果文章对你有帮助,欢迎✌关注、👍点赞、✌收藏、👍订阅专栏✨本文收录于【R语言数据科学】本系列主要介绍R语言在数据科学领域的应用包括: R语言编程基础、R语言可视化、R…

4.1程序控制流图

程序控制流图,简称流图,是对程序流程图进行简化后得到的,它可以更加突出的表示程序控制流的结构。 控制流图中包括两种图形符号: 节点控制流线 复合条件要分解为简单条件 判定节点(谓词节点) 由判定节点发…

流程控制(上)

大家好,我是Python领域的博主。 如果你是编程爱好者可以小编一起学习,在这里我每天都会发Python的基础知识,以及相关的代码。 如果文章有什么错误的地方,请不吝赐教。 觉得博主文章写的还错的话,请三连支持一下博主哦 …

使用soot和graphviz画Java的控制流图

辛苦两天了,啥也不说,先来张图: 看着可真漂亮,O(∩_∩)O哈哈~ 实验环境是Ubuntu。 1.JDK的版本必须是1.7或者以下,JDK1.8不行,总会报错, 2.下载sootclasses-2.5.0.jar包:http://d…

软件测试----------------- 控制流图 圈复杂度 独立路径 测试用例

最近在学软件测试,学到了画,控制流图 圈复杂度 独立路径 测试用例,这里,有些不理解,就网上查了下,发现好多老哥写错了,大佬写的甚至收费79。 我试着写写,如果有不足的,大…

LLVM CFG控制流图可视化

LLVM CFG控制流图可视化 准备 安装必要组件 sudo apt-get install -y graphviz-doc libgraphviz-dev graphviz示例程序 /// file 1.c int x 10; int y 11; int main(){int z 12; for (int i 0;i < 10;i){z * x * y;} return 0; }生成LLVM IR 文件 clang -S -em…

白盒测试--控制流测试(白盒测试,逻辑覆盖,路径测试(基路径测试、循环测试),控制流图)

文章目录 白盒测试概念白盒测试方法--控制流测试语句覆盖判定覆盖&#xff08;分支覆盖&#xff09;条件覆盖判定-条件覆盖条件组合覆盖路径覆盖 路径测试基路径测试循环测试 控制流图基本控制流图复合逻辑下的控制流图图矩阵环形复杂度 白盒测试概念 又叫结构测试&#xff0c…

控制流分析(Control Flow Analysis)

控制流(Control Flow)&#xff1a;操作的序列 控制流分析(Control Flow Analysis)&#xff1a;通过分析程序去发现每一过程内控制流层次结构。 控制流分析的原因&#xff1a; 控制流分析(CFA)能够帮助我们理解控制流图&#xff08;control-flow graphs,CFG&#xff09;的结构…

程序流图画法详解

程序流图一般是软件评测师考试中的第一道大题&#xff0c;同时也是必考大题&#xff0c;多层嵌套的循环程序绘制流程图时十分繁琐&#xff0c;本人在经过练习真题以及查阅资料后有了一些绘制控制流图的小经验&#xff0c;如有不对请指出。下面以2017年的软件评测师下午第一套真…

对Python控制流图(Control Flow Graph)-(CFG)的一些探索

对Python控制流图&#xff08;Control Flow Graph&#xff09;-&#xff08;CFG&#xff09;的一些探索 粗浅的了解 1.定义 控制流图(Control Flow Graph, CFG)也叫控制流程图&#xff0c;是一个过程或程序的抽象表现&#xff0c;是用在编译器中的一个抽象数据结构&#xff…

中间表示- 控制流图

基本概念 基本块&#xff1a;是语句的一个序列&#xff0c;从第一条执行到最后一条 不能从中间进入&#xff0c;不能从中间退出&#xff0c;即跳转指令只能出现在最后 控制流图&#xff1a;控制流图是一个有向图G(V&#xff0c;E) 节点V&#xff1a;是基本块边E&#xff1a…

控制流图分类

The if Statement if (x < y) {y 0;x x 1; } else {x y; } if (x < y) {y 0;x x 1; } The if-return Statement if (x < y) {return; } print (x); return; 注意&#xff1a;2到3 没有边 while and for Loops x 0; while (x < y) {y f (x, y);x x …

【浅析】程序分析中的数据流图(data flow graph)和控制流图(control flow graph)

文章目录 前言1、data flow graphs2、Control Flow Graph小结 前言 创作开始时间&#xff1a;2021年4月9日09:17:11 如题。看了一些网页文献&#xff0c;大概对这两种流图有了一定的理解&#xff0c;这里简单地记录一下&#xff0c;尤其是一些例子&#xff0c;感觉比较直观。…

软件测试之控制流图以及环形复杂度独立路径求解问题

首先需要明确的是&#xff0c;控制流图并不等于流程图&#xff0c;可以理解为控制流图的出现是为了后续的环形复杂度的计算和写出独立路径和配以相应的测试用例。 所以控制流图是核心&#xff0c;画图的时候务必谨慎再谨慎&#xff0c;要不然可能你后面的全部崩盘。 控制流图考…