机器学习模型——回归模型

article/2025/9/18 5:37:32

目录

  • 线性回归
    • 特点
    • 最小二乘法
    • 代码实现
  • 多项式回归
    • 特点
  • 岭回归
    • 特点:
    • 共线性collinearity
    • 优化函数
    • 代码实现
  • 套索回归Lasso
    • 岭回归和套索回归对比
    • 代码实现
  • 弹性回归网络
    • 特点:


线性回归

线性回归指的是全部由线性变量组成的回归模型

特点

建模速度快、对每个变量可以通过系数进行解释、对异常值很敏感
在这里插入图片描述

最小二乘法

通过数据点找到参数w和b,使得对训练集的预测值y与真实的回归目标值y’之间的MSE(均方误差)最小。
在这里插入图片描述
适用范围:
线性回归模型简单,但要求数据对目标变量成线性关系,所以如果面对非线性关系,需要转换非线性模型
特征变量较多的数据集

代码实现

from sklearn.linear_model import LinearRegression
reg = LinearRegression()
reg.fit(X,y)
print('直线的系数是:{:.2f}'.format(reg.coef_[0]))
print('直线的截距是:{:.2f}'.format(reg.intercept_))

多项式回归

非线性模型——多项式回归

特点

拟合非线性变量,需要一些数据的先验知识来选择指数,选择不当会产生过拟合
在这里插入图片描述
在这里插入图片描述

岭回归

L2正则化的线性模型——岭回归

L2正则化保留全部特征变量,但会降低特征的系数值来避免过拟合

特点:

1、领回归的假设和最小平方回归相同,但是在最小平方回归的时候我们假设数据服从高斯分布使用的是极大似然估计(MLE),在领回归的时候由于添加了偏差因子,即w的先验信息,使用的是极大后验估计(MAP)来得到最终的参数
2、没有特征选择功能

共线性collinearity

自变量之间存在的,近似线性的关系。

回归分析需要我们了解每个变量与目标变量之间的关系,如果有两个变量x1和x2存在高共线性,那么x1的改变会影响x2也发生改变,这样就没办法确定是否是x1单独改变而对目标变量造成了影响,因为x1改变总是会混杂x2的作用,这样就造成了分析误差,所以回归分析时需要排除高共线性的影响。
判断高共线性的存在:
1、理论上变量x1与Y高度相关,但回归系数很低,不明显,有可能是因为x2的存在
2、添加或删除x1特征变量,回归系数发生明显变化,(x2会变化明显)
3、X特征变量具有较高的成对相关性(pairwise correlations)(检查相关矩阵)>0.7
4、回归分析时,直接查看VIF值,如果全部小于10(严格是5),则说明模型没有多重共线性问题,模型构建良好;反之若VIF大于10说明模型构建较差。
解决方法:
请添加图片描述
处理原则:
1、多共线性是普遍存在的,轻微的多重共线性问题可不采取措施,如果VIF值大于10说明共线性很严重,这种情况需要处理,如果VIF值在5以下不需要处理,如果VIF介于5~ 10之间视情况而定。
2、严重的多重共线性问题,一 般可根据经验或通过分析回归结果发现。如影响系数符号,重要的解释变量t值很低。要根据不同情况采取必要措施。
3、如果模型仅用于预测,则只要拟合程度好,可不处理多重共线性问题,存在多重共线性的模型用于预测时,往往不影响预测结果。

优化函数

岭回归是针对模型中存在的共线性关系的为变量增加一个小的平方偏差因子(也就是正则项)

代码实现

from sklearn.linear_model import Ridge
ridge = Ridge(alpha=1)		#
ridge.fit(X,y)
print('岭回归的训练集得分是:{:.2f}'.format(ridge.score(X_train,y_train)))
print('岭回归的测试集得分是:{:.2f}'.format(ridge.score(X_test,y_test)))

套索回归Lasso

L1正则化的线性模型——套索回归

在回归优化函数中增加了一个偏置项以减少共线性的影响
套索回归会让模型更容易理解

岭回归和套索回归对比

岭回归和Lasso回归之间的差异可以归结为L1正则和L2正则之间的差异:
内置的特征选择(Built-in feature selection):这是L1范数很有用的一个属性,二L2范数不具有这种特性。因为L1范数倾向于产生稀疏系数。例如,模型中有100个系数,但其中只有10个系数是非零系数,也就是说只有这10个变量是有用的,其他90个都是没有用的。而L2范数产生非稀疏系数,所以没有这种属性。因此可以说Lasso回归做了一种参数选择形式,未被选中的特征变量对整体的权重为0。

稀疏性:指矩阵或向量中只有极少个非零系数。L1范数具有产生具有零值或具有很少大系数的非常小值的许多系数的属性。
计算效率:L1范数咩有解析解,但L2范数有。这使得L2范数的解可以通过计算得到。L1范数的解具有稀疏性,这使得它可以与稀疏算法一起使用,这使得在计算上更有效率。

代码实现

from sklearn.linear_model import Lasso
lasso = Lasso(alpha=0.1, max_iter=10000)		#max_iter最大迭代次数
lasso.fit(X,y)
print('Lasso回归的训练集得分是:{:.2f}'.format(lasso.score(X_train,y_train)))
print('Lasso回归的测试集得分是:{:.2f}'.format(lasso.score(X_test,y_test)))

弹性回归网络

弹性回归网络是Lesso回归和岭回归技术的混合体。它使用了L1和L2正则化

特点:

1、鼓励在高度相关变量的情况下的群体效应,而不像Lasso那样将其中一些置为0.当多个特征和另一个特征相关的时候弹性网络非常有用。Lasso倾向于随机选择其中一个,而弹性网络倾向于选择两个。
2、 对所选变量的数量没有限制。


http://chatgpt.dhexx.cn/article/uNZ5g978.shtml

相关文章

机器学习基础:模型评估(上)

目录 1. 什么是一个优秀的分类器 2. 选择测试数据集 2.1 切分训练测试集 2.1.1 简单随机划分(random handout) 2.1.2 留一法(leave-one-out) 2.1.3 留一法交叉验证(leave-one-out cross validation) …

【零基础强化学习】强化学习中的有模型和无模型

递归与动态规划🤔 写在前面关于Planning 与 Learning关于有模型和无模型写在最后谢谢点赞交流!(❁◡❁) 更多代码: gitee主页:https://gitee.com/GZHzzz 博客主页: CSDN:https://blog.csdn.net/gzhzzaa 写在前面 作…

【机器学习】哪些模型可以解释?

模型解释是有监督机器学习中的一项重要任务。解释模型对于理解支配数据的动态至关重要。让我们看看一些易于解释的模型。 为什么我们需要解释我们的模型? 数据科学家的角色是从原始数据中提取信息。他们不是工程师,也不是软件开发人员。他们挖掘内部数据…

机器学习建模

文章目录 1.机器学习模型概述1.1 模型与算法1.2 机器学习中的三要素1.3 机器学习模型 2.传统机器学习模型(单模型)2.1 按任务类型划分2.1.1 分类2.1.2 回归 2.2 按性质划分2.2.1 非概率模型(决策函数)2.2.2 概率模型 2.3 按知识体…

机器学习(三):线性模型

📢📢📢📣📣📣 🌻🌻🌻Hello,大家好我叫是Dream呀,一个有趣的Python博主,多多关照😜😜😜 &#x1f3…

机器学习基础:模型评估(下)

目录 1. 引言 2. 进一步评估 3. 机器学习中的偏差和方差种类 3.1 过拟合 3.2 欠拟合 3.3 训练曲线观察泛化性 3.4 模型偏差和方差(bias and variance) 3.4.1 偏差 Bias 3.4.2 方差 Variance 3.4.3 方差偏差总结 4. 模型的泛化性(G…

机器学习基础模型

文章目录 朴素贝叶斯——概率模型朴素贝叶斯分类原理贝叶斯定理的公式朴素贝叶斯的优缺点以及优化 决策树——不需要进行归一化决策树基本模型介绍?决策树的特性?信息增益和信息增益比?有什么不同(信息增益作为分类指标有什么问题…

3.1 机器学习模型

3.1 机器学习模型 李沐 B站:https://space.bilibili.com/1567748478/channel/collectiondetail?sid28144 课程主页:https://c.d2l.ai/stanford-cs329p/ 1. 机器学习算法类型: 监督学习:顾名思义就是监督着模型去学习,…

机器学习之神经网络学习及其模型

1、神经元模型 历史上,科学家一直希望模拟人的大脑,造出可以思考的机器。人为什么能够思考?科学家发现,原因在于人体的神经网络。 神经网络最基本的成分是神经元模型 其中,W表示的是向量,代表的是权重&am…

机器学习建模分析

机器学习 机器学习分类 1、递进关系:深度学习–>机器学习–>人工智能 2、机器学习任务分为两大类方法: (1)有监督的学习:利用经验数据,学习表示事物的模型,关注利用模型预测未来&#x…

机器学习——神经网络模型

在“M-P神经元模型”中,神经元接收到来自个其他神经元传递过来的输入信号,这些输入信号通过带权重的连接进行传递,神经元接收到的总输入值将与神经元的阈值进行比较,然后通过“激活函数”处理以产生神经元的输出。常用Sigmoid函数…

机器学习模型

一、LR 1. 逻辑回归与线性回归的区别 引入sigmoid函数映射,使样本映射到[0,1]之间的数值,从而来处理分类问题。是广义线性模型,本质上还是线性回归。逻辑回归是假设变量服从伯努利分布,线性回归假设变量服从高斯分布。逻辑回归是…

我们如何学习 2:如何建立模型

我们如何学习 2:如何建立模型 战略性资源学习:构建一颗知识树提炼概念建立连接结构分析纵向拆解横向拆解 加强连接 战略性资源 每个人都有天生的学习能力,所以都能学习 —— 但是学习了如何学习,能让我们更聪明、更高效地学习 如…

机器学习中的模型是什么?

在机器学习中,模型是指一种数学函数,它能够将输入数据映射到预测输出。模型是机器学习算法的核心部分,通过学习训练数据来自适应地调整模型参数,以最小化预测输出与真实标签之间的误差。 机器学习中的模型是什么? 机器…

机器学习 —— 简单模型的构建

文章目录 对于简单线性模型的机器学习对简单像素图片的学习构建简单的卷积神经网络一维卷积二维卷积三维卷积 对于简单线性模型的机器学习 对于以下对应 x x x, y y y的值来预测当 x 10 x 10 x10时 y y y的值 xy-1-30-111233547 通过找规律发现这是一个关于 y 2 x − 1 y…

机器学习——线性模型学习

线性回归 线性回归多元线性回归对数线性回归对数几率回归线性判别分析(LDA)多分类任务中的LDA 多分类学习OvR、OvOMvM 线性回归 主要目标确定 如何确定w和b呢?关键在于如何衡量f(x)与y的差别 此种衡量误差的方法称为均方误差也称为欧式距离…

机器学习-模型训练

目录 1.逻辑回归模型 2. KNN模型 3.随机森林模型 4.决策树模型 5.贝叶斯模型 6.支持向量机模型 步骤: 导入必要的第三方库读取数据划分数据集可选操作,引入停用词,当作参数传入特征提取器特征提取提取的向量当作特征传入逻辑回归模型…

机器学习——训练模型

机器学习——训练模型 线性回归 y ^ h Θ ( x ) Θ ∗ x 其中 Θ 是模型的参数向量,其中包括偏置项 Θ 0 和特征权重 Θ 1 至 Θ n x 是实例的特征向量,包括从 x 0 至 x n , x 0 始终为 0 Θ ∗ x 是向量 Θ 与 x 点积 h Θ 是假设函数,使…

从机器学习到大模型(零基础)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 目录 前言 一、机器学习 1.监督学习 (1)线性回归模型 (2)多元线性回归模型 (3)二元分类模型 &a…

模型学习

LeNet AlexNet LeNet: 在大的真实数据集上的表现并不尽如⼈意。 1.神经网络计算复杂。 2.还没有⼤量深⼊研究参数初始化和⾮凸优化算法等诸多领域。 神经网络的特征提取:通过学习得到数据的多级表征,并逐级表示越来越抽象的概念或模式。 神经网络发展…