python机器学习| 岭回归介绍及实现

article/2025/9/13 2:36:33

岭回归介绍及实现

  • 1 岭回归的引入
  • 2 岭回归的原理
    • 2.1 原理介绍
    • 2.2 原理代码实现
  • 3 API 实现

1 岭回归的引入

在线性回归-正规方程和梯度下降中,我们介绍了基于正规方程或者梯度下降的优化算法,来寻找最优解。
在正规方程解中,它是基于直接求导得到最优解,公式如下:
在这里插入图片描述
但是,遇到如下情况的时候,正规方程无法求解。

  • 数据中有多余的特征,例如数据中有两组特征是线性相关的,此时需要删除其中一组特征。
  • 特征数大于样本数。如果数据的特征(X)比样本点(y)还多,即数据特征n,样本个数m,如果n>m,那么计算(𝑋𝑇𝑋)−1时会出错。因为(𝑋𝑇𝑋)不是满秩矩阵,所以不可逆。

矩阵可逆的条件可以参考学习:
(1)线性代数学习笔记——第二十讲——矩阵秩的定义
(2)矩阵不可逆的条件
(3)可逆矩阵的等价条件
在这里插入图片描述
所以,为了解决这个问题,统计学家引入了岭回归的概念(ridge regression)。下面介绍一下:

岭回归(英文名:ridge regression, Tikhonov regularization):一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。

病态矩阵的意思是:矩阵中某个元素的一个很小的变动,会引起最后计算结果误差很大。

2 岭回归的原理

2.1 原理介绍

岭回归的原理学习自:
岭回归原理及代码实现

岭回归最早是用来处理特征数多于样本的情况,现在也用于在估计中加入偏差,从而得到更好的估计。同时也可以解决多重共线性的问题。岭回归是一种有偏估计

它是相对于对于OLS(最小二乘法)这种无偏估计来说的。对于一个适定问题,X通常是列满秩的,那么我们可以采用最小二乘法,定义损失函数为残差的平方,最小化损失函数,求导求出最优解。
在这里插入图片描述
在这里插入图片描述
但是,正如开头所讲的问题,面临X不满足列满秩下或者某些列之间的线性相关性比较大时,XTX的行列式接近于0,即XTX接近于奇异,上述问题变为一个不适定问题,此时,计算【(XTX)-1】时误差会很大,传统的最小二乘法缺乏稳定性与可靠性。就像我开头讲的,不可逆了,正规方程不管用。
所以,为了解决上述问题,我们需要将不适定问题转化为适定问题:我们为上述损失函数加上一个正则化项(如降低某些特征的权重),变为
在这里插入图片描述
其中,我们定义
在这里插入图片描述
于是:
在这里插入图片描述

岭系数为在这里插入图片描述
𝐼为单位矩阵(对角线上全为1,其他元素全为0)
在这里插入图片描述
整体而言,岭回归是对最小二乘回归的一种补充,它损失了无偏性,来换取高的数值稳定性,从而得到较高的计算精度。总结:
在这里插入图片描述
在这里插入图片描述

2.2 原理代码实现

"""
原理的代码实现
"""
import numpy as np
from numpy import genfromtxt
import matplotlib.pyplot as plt
import pandas as pd# 读入数据
data = genfromtxt(r"longley.csv", delimiter=',')
# print(pd.read_csv(r"longley.csv", delimiter=','))
# print(data)# 切分数据
x_data = data[1:, 2:]
# np.newaxis 变成二维
y_data = data[1:, 1, np.newaxis]
# print(x_data)
print(y_data)# print(np.mat(x_data).shape)  # 16个数据,6个特征
# print(np.mat(y_data).shape)  # 16个数据
# 给样本添加偏置项(常数b)
X_data = np.concatenate((np.ones((16, 1)), x_data), axis=1)
# print(X_data.shape)# 岭回归标准方程法求解回归参数
def weights(xArr, yArr, lam=0.2):  # 设置岭系数为0.2xMat = np.mat(xArr)yMat = np.mat(yArr)xTx = xMat.T * xMat  # 矩阵乘法  xMat.shape => (16,7)rxTx = xTx + np.eye(xMat.shape[1]) * lam  # 岭回归求解的括号的部分# 计算矩阵的值,如果值为0,说明该矩阵没有逆矩阵if np.linalg.det(rxTx) == 0.0:print("This matrix cannot do inverse")return# xTx.I为xTx的逆矩阵ws = rxTx.I * xMat.T * yMatreturn wsws = weights(X_data, y_data)
# print(ws)# 计算预测值
print(np.mat(X_data)*np.mat(ws))

3 API 实现

法1:

sklearn.linear_model.Ridge(alpha=1.0, fit_intercept=True,solver="auto", normalize=False)

  • 具有I2正则化的线性回归
  • alpha:正则化力度,也叫 λ
  • λ取值:0~1 1~10
  • solver:会根据数据自动选择优化方法

sag:如果数据集、特征都比较大,选择该随机梯度下降优化)

  • normalize:数据是否进行标准化

normalize=False:可以在fit之前调用preprocessing.StandardScaler标准化数据

  • Ridge.coef_:回归权重

  • Ridge.intercept_:回归偏置

  • Ridge方法相当于SGDRegressor(penalty=‘l2’, loss=“squared_loss”),只不过SGDRegressor实现了一个普通的随机梯度下降学习,推荐使用Ridge(实现了SAG)

法2:
sklearn.linear_model.RidgeCV(_BaseRidgeCV, RegressorMixin)
具有l2正则化的线性回归,可以进行交叉验证
coef_:回归系数

class _BaseRidgeCV(LinearModel):def __init__(self, alphas=(0.1, 1.0, 10.0),fit_intercept=True, normalize=False,scoring=None,cv=None, gcv_mode=None,store_cv_values=False):

下面以波士顿房价为例

from sklearn.linear_model import Ridge
from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_errordef ridge_demo():# 1 数据加载data = load_boston()#2 数据集的划分x_train, x_test, y_train, y_test = train_test_split(data.data, data.target, random_state=22)#3 特征工程 - 标准化transfer = StandardScaler()x_train = transfer.fit_transform(x_train)x_test = transfer.fit_transform(x_test)#4 岭回归estimator = Ridge(alpha=1) # 法1# estimator = RidgeCV(alphas=(0.1, 1, 10))  # 法2estimator.fit(x_train, y_train)# 5 模型评估# 5.1 获取系数等值y_predict = estimator.predict(x_test)print("预测值为:\n", y_predict)print("模型中的系数为:\n", estimator.coef_)print("模型中的偏置为:\n", estimator.intercept_)# 5.2 评价# 均方误差error = mean_squared_error(y_test, y_predict)print("误差为:\n", error)if __name__ == '__main__':ridge_demo()

http://chatgpt.dhexx.cn/article/cMEAMyED.shtml

相关文章

岭回归与lasso回归算法

模型压缩与正则化主要包含岭回归(Ridge regression)和Lasso两种方法,二者的主要原理是将系数往等于0的方向压缩。 岭回归 lasso 全称:Least absolute shrinkage and selection operator最小绝对缩减和选择算子 一、岭回归示…

岭回归-回归实操

python 岭回归算法之回归实操 基本概念 正则化 正则化是指对模型做显式约束,以避免过拟合。本文用到的岭回归就是L2正则化。(从数学的观点来看,岭回归惩罚了系数的L2范数或w的欧式长度) 正则化的具体原理就不在这里多叙述了&a…

线性回归与岭回归

目录 一、什么是线性回归 1.线性回归简述 2.数组和矩阵 3.线性回归的算法 二、权重的求解 1.正规方程 2.梯度下降 三、线性回归案例 1.案例概述 2.数据获取 3.数据分割 4.数据标准化 5.模型训练 6.回归性能评估 7.梯度下降与正规方程区别 四、岭回归Ridge 1.过拟…

什么是岭回归?

问题引出: 当使用最小二乘法解决一下线性回归: 假设:已知x1,x2与y的关系服从线性回归模型: y102x13x2c 当x1和x2存在线性相关性时,使用最小二乘法来预测回归模型,就变得困难起来,因此物品们必须使用逐步回…

岭回归总结

岭回归存在的目的: 解决多重共线性下,最小二乘估计失效的问题 岭回归的作用:(在引入变量太多,又存在多重共线性,难以抉择去留哪个变量时可以通过该方法筛选变量) 1.找出多重共线性的变量,并提剔除部分 2…

岭回归(ridge regression)

岭回归(ridge regression) 在处理回归问题时,常遇到的问题 在处理复杂的数据的回归问题时,普通的线性回归会遇到一些问题,主要表现在:   预测精度:这里要处理好这样一对为题,即样…

【回归分析】一文读懂岭回归,附案例教学

1、作用 岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强…

人工智能——岭回归(Python)

目录 1 概述 1.1 线性回归 1.2 岭回归 1.3 过拟合 2 sklearn中的岭回归 3 案例 3.1 数据介绍: 3.2 实验目的: 3.3 数据特征如下: 4 Python实现 4.1 代码 4.2 结果 5 正则化 1 概述 1.1 线性回归 对于一般地线性回归问题&am…

岭回归(Ridge Regression)和Lasso回归

1、岭回归(Ridge Regression) 标准线性回归(简单线性回归)中: 如果想用这个式子得到回归系数,就要保证(X^TX)是一个可逆矩阵。 下面的情景:如果特征的数据比样本点还要多,数据特征…

岭回归详解 从零开始 从理论到实践

岭回归详解 从零开始 从理论到实践 一、岭回归的理解1.1、LinearRegression的回顾1.2、岭回归 - Ridge Regression 二、sklearn的使用2.1、方法、参数与属性2.1.1、特征标准化 - StandardScaler2.1.2、岭回归 - Ridge2.1.3、内置交叉验证岭回归 - RidgeCV 2.2、实例应用2.2、简…

分布式之Quorum NWR算法

写在前面 假设现在我们实现了AP 系统,但是公司突然要对某些业务进行实时的数据计算,并且要求按照强一致性的方式来读取数据,此时作为系统设计这的我们该怎么办呢?单独为这部分业务实时抽出最新数据?还是修改原有系统&…

glusterfs:Server-quorum和Client Quorum

overview 这两个参数在容错场景中发挥着巨大的作用。用户借助这两个参数 既可以手动控制存在多少个活着的节点表示集群健康,也可以把这个控制权交给集群。 Server-quorum 由两个参数组成 cluster.server-quorum-type: none | server 如果设置为server表示启动了s…

Quorum机制

/******************************************************** 原文链接:http://www.cnblogs.com/jzhlin/archive/2012/07/23/2605077.html ********************************************************/ 分布式系统的设计中会涉及到许多的协议、机制用来解决可靠性问…

Elasticsearch:理解 Master,Elections,Quorum 及 脑裂

集群中的每个节点都可以分配多个角色:master、data、ingest、ml(机器学习)等。 我们在当前讨论中感兴趣的角色之一是 master 角色。 在 Elasticsearch 的配置中,我们可以配置一个节点为 master 节点。master 角色的分配表明该节点…

Quorum简介部署

文章目录 简介账户/密钥管理隐私私有交易管理器 (Private transaction Manager)enclave公有/私有状态 状态验证交易和合约隐私 (Transaction and Contract Privacy)参考 简介 GoQuorum基于geth,在其基础上增加了一些联盟链需要的组件,主要包括以下几点&…

分布式系统理论之Quorum机制

一,Quorum机制介绍 对于数据存储而言,为了提高可用性(Availability),采用了副本备份,比如对于HDFS,默认每块数据存三份。某数据块所在的机器宕机了,就去该数据块副本所在的机器上读…

Hyperledger/Quorum等区块链技术综述

[1]邵奇峰,张召,朱燕超,周傲英.企业级区块链技术综述[J].软件学报,2019,30(09):2571-2592. 摘要:在传统跨机构交易的企业应用中,各个机构都是独立记录己方的交易数据,机构间数据的差异会引起争议,通常需要人工对账或中介机构来解决,因而增加了结算时间和交易费用.区…

基于以太坊项目quorum多机多节点搭建_1

准备工作 环境搭建 我这里使用4台虚拟机来模拟实际网络,在这四台虚拟机里分别搭建了quorum节点。 我这里使用quorum maker 工具来搭建quorum quorum maker 是一个带UI界面的自动化搭建quorum的工具。 quorum maker 安装 git clone https://github.com/synechr…

Quorum白皮书

Quorum白皮书下载

【quorum源码】quorum tessera源码剖析

目录 概述1. 项目结构2. 数据库结构3. 主要流程3.1 服务启动3.2 交易处理3.3 加密交易 4. Restful API4.1 Q2TRestApp4.2 ThirdPartyRestApp4.3 P2PRestApp4.4 EnclaveApplication 5. 一些核心接口App、Enclave相关的类图:com.quorum.tessera.server.TesseraServerc…