好好谈谈共线性问题

article/2025/9/20 1:59:47

好好谈谈共线性问题

8 人 赞同了该文章
共线性,即 同线性或同线型。统计学中,共线性即 多重共线性。
多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确 相关关系或高度相关关系而使模型估计失真或难以估计准确。
一般来说,由于经济数据的限制使得模型设计不当,导致设计 矩阵中解释变量间存在普遍的相关关系。完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。


1、先谈谈共线性的一般性的影响

太多相关度很高的特征并没有提供太多的信息量,并没有提高数据可以达到的上限,相反,数据集拥有更多的特征意味着更容易收到噪声的影响,更容易收到特征偏移的影响等等,简单举个例子,N个特征全都不受到到内在或者外在因素干扰的概率为k,则2N个特征全部不受到内在或外在因素干扰的概率必然远小于k。这个问题实际上对于各类算法都存在着一定的不良影响;

2、然后谈谈线性回归和逻辑回归是怎么受到共线性影响的。

逻辑回归的梯度更新公式:

转为代码:

weights = weights - alpha * dataMatrix.transpose()* error

其中alpha为学习率,dataMatrix.transpose()为原始数据的矩阵,error=y_pred-y_true.

从这里可以看出,共线性问题对于逻辑回归损失函数的最优化没影响,参数都是一样更新,一样更新到收敛为止。所以对于预测来说没什么影响。

那共线性会引发什么问题。。。。:

1、模型参数估计不准确,有时甚至会出现回归系数的符号与实际情况完全相反的情况,比如逻辑上应该系数为正的特征系数 算出来为负。

2、本应该显著的自变量不显著,本不显著的自变量却呈现出显著性(也就是说,无法从p-值的大小判断出变量是否显著——下面会给一个例子)

3、多重共线性使参数估计值的方差增大,模型参数不稳定,也就是每次训练得到的权重系数差异都比较大。

其实多重共线性这样理解会简单很多:

假设原始的线性回归公式为:

y=w1*x1+w2*x2+w3*x3

训练完毕的线性回归公式为:

y=5x1+7x2+10x3,

此时加入一个新特征x4,假设x4和x3高度相关,x4=2x3,则

y=w1*x1+w2*x2+w3*x3+w4*x4=w1*x1+w2*x2+(w3+2w4)*x3

因为我们之前拟合出来的最优的回归方程为:

y=5x1+7x2+10x3

显然w3+2w4可以合并成一个新的权重稀疏 w5,则

y=w1*x1+w2*x2+w5*x3,显然:

y=w1*x1+w2*x2+w3*x3和y=w1*x1+w2*x2+w5*x3是等价的。。。。

那么最终最优的模型应该也是 y=5x1+7x2+10x3

但是考虑到引入了x4,所以w4和w3的权重是分开计算出来的,这就导致了

w5=10=w3+2w4,显然这个方程有无穷多的解,比如w3=4,w4=3,或者w4=-1,w3=12等,因此导致了模型系数估计的不稳定并且可能会出现负系数的问题。



下面的图和链接都不错。



glfkuan:模型中存在共线性问题,该怎么破? zhuanlan.zhihu.com图标

先从线性回归说起。

关于statsmodel,这里也介绍了每个指标的含义:

https://blog.csdn.net/zm147451753/article/details/83107535 blog.csdn.net

这一篇已经解释的非常好了。做一些补充吧。打比赛的时候线性回归的这些检验基本没什么人做,但是业务上经常要求做各种各样的检验。statsmodel的检验项目比较全面,实际上逻辑回归与线性回归比我们想象的要复杂。

DF Residuals:

残差的自由度(等于 观测数也就是样本数(No. Observations)-参数数目(Df Model+1(常量参数,权重加上偏置的数量)))

Df Model:

模型参数个数(不包含常量参数)


R-squared:可决系数

上面 分子就是我们训练出的模型预测的所有误差。
下面 分母就是不管什么我们猜的结果就是y的平均数。(瞎猜的误差)


adj-R-squared:修正可决系数:

右边式子的R就是原始的R-sqaure,n是样本数量,p是特征的数量。

F-statistic:

Prob:p-value

统计显著性值,


还是系统性的回顾一下回归统计学方面的知识吧,好多细节都忘记了。

编辑于 2019-11-04
回归分析
计量经济学
统计学
赞同 8​ 2 条评论
分享
收藏

http://chatgpt.dhexx.cn/article/7ohZcvRD.shtml

相关文章

树莓派中SIM7600G-H 4G DONGLE模块使用记录(一)PPP拨号上网/4G上网

项目场景: 如何使用SIM7600系列的4G通信模块进行PPP网上拨号以实现4G通信,在讲解前,未搭建好树莓派远程连接桌面的读者可以先转向树莓派4B环境搭建电脑远程连接打开文件管理闪退(上)。 模块简介: SIM7600X 4G DONGLE是一款工业级…

Linux系统下使用4G模块EC20实现拨号上网

驱动的实现过程 实现4G功能分为两步,第一步内核能成功识别出该设备,第二步实现拨号上网.最后提一下自带的定位功能 一.添加内核USB驱动 这里直接使用内核已经存在的USB驱动,只需要让内核能识别出该USB设备,并自动加载驱动生成对应的/devUSB*设备节点 获取EC20的PID和VID 把模块…

4G模块适配与调试

笔记目录 RK平台4G模块适配1、识别VID、PID2、添加VID\PID到android的option驱动中3、插上sim卡,4G模块一定要接上天线4、根据安卓系统和安卓版本发给模块厂要求其提供ril库5、预置ril库6、在framework中添加根据pid和vid关联ril库的代码7、可以通过一下命令查看ril…

Linux 4G模块pppd拨号上网脚本解析

在编写脚本之前,要先安装好ppp相关驱动,pppd 已知pppd位于 /usr/sbin , chat 位于 /usr/sbin , options 位于 /etc/ppp 。 要编写脚本,就要切换目录到 /etc/ppp/peers,若没有peers目录则自行创建。因为是在/etc目录之下&#xf…

4G模块的使用

一、4G相关知识 4G是第四代通讯技术。能够传输高质量视频图像。4G的下载速度达100Mbps,比目前的拨号上网快2000倍,上传的速度也能达到20Mbps,并能够满足几乎所有用户对于无线服务的要求。此外,4G可以在DSL和有线电视调…

4G模块使用总结

4G模块使用总结 一、APN名称 2G: 移动的CMWAP 联通的UNIWAP 移动的CMNET 联通的UNINET 3G/4G: 移动CMNET 联通3GNET 电信CTNET 二、模块信息参数获取 AT/r //检测串口通信状态 ATE设置回显功能 ATE0:回显关闭 ATE1:回显开启 ATCGMI 返回模块厂家信息 ATCGMM 返回模块型…

4G传输模块的功能应用

4G传输模块主要用在物联网中的数据传输方面,这种模块支持主动采集、多种协议、GPRS定位以及各种网络协议,并且接口丰富,还可以实时查看程序参数配置,接下来,安传物联的编辑就来为大家介绍一下这种常用的模块吧 一、主动…

同时挂载二维码模块与4G模块时,导致4G模块连不上网都是USB设备)

一、BUG现象 今天公司设备出现一个问题,在RK3399上的USB上插着三个设备,分别是4G模块、二维码模块与身份证模块,在这三个设备同时插在设备上时再开机,会出现4G模块连不上网络的情况,无论怎么插拔4G模块都无法联网。而…

工业4G路由器 小体积4G LTE通信模块转有线转WiFi充电桩视频安防监控物联网路由器上网CPE

4G LTE代表第四代长期演进,这是一种用于通过蜂窝网络提供高速数据传输的无线通信技术。它是移动网络技术的最新标准,提供比其前身3G更快的数据传输速度。它广泛用于移动设备、物联网设备和机器对机器通信。 近年来,随着物联网技术的快速发展…

如何在飞腾平台使用4G模块拨号上网

经常看到在笔记本上可以通过插无线网卡进行wifi连接上网,鲜有使用4G模块进行上网的。但是在某些场景下,没有wifi信号,要如何解决上网问题呢?一般可以通过usb共享手机网络,或者外接4G网卡进行上网。通常在windows 平台上…

windows10使用4G模块上网

1、硬件配置 1)华为4G模块:HUAWEI ME909s-821 2)PCIE转USB开发板 3)联通4G手机SIM卡 4)装有windows10的电脑 2、软件环境 下载安装华为4G模块驱动:http://www.ddooo.com/softdown/73296.htm 3、环境搭建…

实现4G模块EC20在linux系统下的拨号上网

前言: 为了方便查看博客,特意申请了一个公众号,附上二维码,有兴趣的朋友可以关注,和我一起讨论学习,一起享受技术,一起成长。 1.实验目的: 实现4G模块EC20在linux系统下的拨号上网…

4G无线模块 电力通信模块

4G无线模块TD210,标准通讯接口及协议,电力规约、环保212、MODBUS-RTU协议等,通过串口的形式采集各种电力参数,电压,电流,有功功率,无功功率,有功电度,无功电度&#xff0…

thinkpad x270 加装内置4G模块实现移动上网的记录

手上有一个thinkpad x270,固态硬盘,运行流畅,看到新出产的x1、x13标配4G上网,不免心中有点馋,因此计划对x270加装4g模块。 通过观看拆机视频,发现这货与x250等机型一样,有一个m.2 key B 的接口…

Ubuntu下使用4g模块、4G模组上网,USB接口,图形界面

Ubuntu下4g上网配置。 一、接入网卡并查看。 msubuntu:~$ l /dev/ttyU* /dev/ttyUSB0 /dev/ttyUSB1 /dev/ttyUSB2 /dev/ttyUSB3 msubuntu:~$Interface Description: Interface Description DM InterfaceDiagnose portNMEA InterfaceFor GPS NMEA message outpu…

树莓派搭载EC200U 4G模块(USB网卡上网和PPP拨号上网)

文章目录 一、EC200U模块4G模块介绍二、USB转串口驱动设置(1)打开树莓派的串口(2)lsusb是否有EC200U模块(3)添加 VID 和 PID 信息 三、USB网卡驱动上网四、PPP协议(1)PPP协议介绍1.1…

配置 4G 模块为WAN口上网

配置 4G 模块为WAN口上网 将Linux板卡配置为交换机或路由器,提供类似路由器的上网功能。这里以4G网卡作为WAN进行上网。 一、使用网桥上网 1. 配置4G模块为默认网关 先配置好4G模块为默认路由网关。 这里需要先将4G模块配置为路由模式。4G模块路由模式和网卡模…

safeAreaLayoutGuide

https://www.jianshu.com/p/9d68a220983b Safe Area Layout Guide对应的SafeArea特性使用(DeploymentTarget9.0及后) 解决方案: 1. DeploymentTarget 9.0及后 2. DeploymentTarget 8.0

Safety-0

写在前面 好记性不如烂笔头,很多知识久了不用会渐渐生疏,故此以文章的形式进行记录。但干干的知识点又不符合本人的风格,故此产生了Safety,一个主要用于记录学习Mybatis和SpringBoot的项目。 Safety 是基于Mybatis实现的加解密插…

NetworkSecurity

一、CSRF 参考链接 1.定义 (Cross Site Request Forgery, 跨站域请求伪造)是一种网络的攻击方式,它在 2007 年曾被列为互联网 20 大安全隐患之一,也被称为“One Click Attack”或者Session Riding,通常缩写为CSRF或者XSRF&#…