回归问题(Regression)

article/2025/9/26 3:11:46

Regression

  • 前言
  • Dependent vs. Explanatory Variables
    • Handle Numerical Labels
    • squared error和variance什么区别
  • Linear Regression
    • Linear Regression in 1 Dimension
  • Least Squares (最小二乘,重点)
    • Least Squares Objective
    • Minimizing a Differential Function
    • Finding Least Squares Solution
    • Least Squares Objective / Solution (Another View)
    • Motivation: Combining Explanatory Variables
  • Different Notation
    • Different Notations for Least Squares
    • Notation
    • Least Squares in d-Dimensions
  • Summary

前言

本文将基于UoA的课件介绍机器学习中的回归问题。

涉及的英语比较基础,所以为节省时间(不是full-time,还有其他三门课程,所以时间还是比较紧的),只在我以为需要解释的地方进行解释。

此文不用于任何商业用途,仅仅是个人学习过程笔记以及心得体会,侵必删。

Dependent vs. Explanatory Variables

问题引入
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

这里只是说有监督学习预测的趋势说法,可以是“与…有关”或者“可以帮助预测…”并不能直接说:“导致…”

在这里插入图片描述

Handle Numerical Labels

离散化处理Numerical Labels
在这里插入图片描述

squared error和variance什么区别

Squared error和variance都是衡量一个模型(或预测值)与真实值之间差异的指标,但它们从不同的角度衡量这种差异。

Squared error(平方误差)是将每个预测值与对应的真实值之差平方后的平均值,它衡量的是预测值与真实值之间的偏差大小,越大则表示模型的预测效果越差。平方误差在回归分析中广泛使用。

Variance(方差)则是用来描述模型的波动性,它表示模型在不同的数据集上产生的预测结果的差异。一个具有高方差的模型对训练数据的过度拟合,很可能在新数据上表现不佳。相反,一个具有低方差的模型可能过于简单,不能很好地捕捉到数据中的复杂关系。

总之,平方误差和方差都是衡量模型的预测效果的指标,但平方误差更注重衡量偏差的大小,而方差更注重衡量模型的波动性。

Linear Regression

线性回归用于建立一个预测模型,将输入变量(或自变量)和输出变量(或因变量)之间的线性关系拟合到一个线性方程中。它是一种最简单和最常用的回归分析方法之一。

线性回归的目标是找到一条最佳的直线来拟合数据,使预测值和实际值的差异最小。这条直线被称为回归线,其方程为 y = b0 + b1x1 + b2x2 + … + bnxn,其中y是因变量,x1,x2,…,xn是自变量,b0,b1,b2,…,bn是回归系数。

线性回归的过程可以用最小二乘法来实现,即通过最小化实际值和预测值之间的残差平方和来确定回归系数。在实际应用中,可以使用不同的变体,例如岭回归和Lasso回归,以避免过度拟合和提高预测精度。

线性回归可以用于很多实际问题,例如房价预测、销售预测、股票价格预测等。它是机器学习和统计学中最基础的算法之一,也是其他高级算法的基础。

Linear Regression in 1 Dimension

就,比较简单,没啥好说的在这里插入图片描述如下图所示:
在这里插入图片描述

Least Squares (最小二乘,重点)

最小二乘是一种常用的回归分析方法,用于拟合数据集中的观测值和预测值之间的关系。在最小二乘中,通过最小化预测值与实际值之间的残差平方和,来确定回归方程的系数。在线性回归中,最小二乘法的目标是找到一条直线,使得这条直线与数据集中所有的点的距离平方和最小。

Least Squares Objective

这里也比较简单,没啥可说的。
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Minimizing a Differential Function

在这里插入图片描述机器学习中最小化可微函数的一个简单方法。如果要找到函数f的最小值,我们可以用以下步骤:

  1. 求函数f的导数
  2. 找到导数f′(w)等于0的点w
  3. 选择最小的那个点,并检查f′′(w)是否为正数。

其中,f(w) = Σ(wxi − yi)²是一个常见的函数形式,它表示对于一组数据集合,每个样本的预测值与真实值的差值的平方之和。这个函数也可以写成f(w) = 1/2Σ(wxi − yi)²,或者f(w) = 1/nΣ(wxi − yi)²,或者f(w) = 1/2nΣ(wxi − yi)² + 1000,它们的最小值点相同。

我们可以把f乘以一个正的常数而不改变最小值点,因为导数在同样的位置为0。这个技巧在机器学习中经常被用到。

Finding Least Squares Solution

如何找到使平方误差和最小的解w。
在这里插入图片描述平方误差和是指预测值与真实值之差的平方之和。我们可以把平方误差和的计算式表示为f(w) = 1/2Σ(wxi − yi)²。

通过对f(w)求导,我们可以得到f(w)的导数f′(w) = wa − b,其中a = Σ(xi)²,b = Σxiyi,n是数据点的数量。令f′(w)等于0,解出w的值,即可得到最小平方误差的解w。

公式中的w = b/a,即最小二乘解,也可以写成w = Σ(xi yi)/Σ(xi²),它表示所有样本中x和y的乘积之和除以x的平方和,是一种用于解决回归问题的常见方法。

如何验证上面的公式w=b/a是最小化平方误差和的最小值。
在这里插入图片描述

我们可以通过检查它的二阶导数来证明这个公式是一个最小值。对公式f′(w) = wa − b求二阶导数,可以得到f′′(w) = Σ(xi)²,因为所有的x²都是正数,所以f′′(w)是非负数。如果我们有一个非零的特征(即存在一个xi不等于0),则f′′(w)大于0,这意味着w=b/a确实是平方误差和的最小值。

Least Squares Objective / Solution (Another View)

最小二乘法是如何最小化一个二次函数

在这里插入图片描述
这个二次函数是由n个二次项的和组成,每个二次项都是由一个变量wx减去对应的目标值yi并平方得到的。最小化这个二次函数意味着找到最优的w,使得所有wx和yi之间的差距的平方和最小。因为每个二次项都是正的,所以这个二次函数是凸的,只有一个最小值。找到这个最小值,就是最小二乘法的解。

Motivation: Combining Explanatory Variables

如何将多个解释变量(explanatory variables)结合起来建模

在这里插入图片描述以肺癌为例,吸烟并不是唯一导致肺癌的因素,还有其他环境因素如石棉暴露等。我们如何将吸烟和石棉这两个因素的综合影响建模呢?

一种简单的方法是使用二维线性函数来表示这个综合影响,形式为:
ˆy = w1xi1 + w2xi2

其中,w1是特征1(吸烟)的权重,w2是特征2(石棉)的权重,xi1和xi2分别是特征1和特征2的取值。通过乘以相应的权重,将特征1和特征2的值结合起来,得到最终的预测值ˆy。例如,假设我们认为吸烟每天10支烟和暴露在石棉环境中对肺癌的影响分别为25单位,那么对于一个给定的样本,我们可以计算出预测的肺癌发病率ˆyi为10乘以吸烟量加上25乘以石棉暴露量。这样就将多个解释变量的影响结合起来建模,从而更全面地理解和预测目标变量的变化。

Different Notation

Different Notations for Least Squares

在这里插入图片描述在d维特征空间中,我们使用d维线性模型来描述因变量和自变量之间的关系。这个模型可以写成以下形式:

y_hat = w1 * x1 + w2 * x2 + … + wd * xd

其中,wi代表第i个特征的权重,xi代表第i个特征的值。我们也可以使用求和符号来简化这个表达式:

y_hat = Σ(wi * xi)

此外,我们还可以使用向量的形式来表示线性模型,这个形式更加简洁:

y_hat = w.T * x

其中,w是特征权重向量,x是特征向量。通过对训练数据的学习,我们可以得到最佳的特征权重,进而用于预测新的数据点的输出。

Notation

所有的向量都默认为列向量。

在这里插入图片描述特征权重向量w、输出向量y和输入向量xi的形式可以表示为列向量,其中wi、yi和xij分别表示向量的第i个元素。

因此,wT xi是一个标量,表示特征权重向量w与输入向量xi的转置之间的点积。它可以通过将w的元素与xi的对应元素相乘,然后将结果相加得到。这个计算可以通过向量和的形式表示为Σ(wj * xij),其中j从1到d,表示特征的索引。

此外,输入矩阵X的每一行实际上是输入向量xi的转置,即xT i,其中i从1到n,表示样本的索引。这种表示方式在某些数学运算中更加方便,例如在矩阵乘法中,可以直接将X与权重向量w相乘,得到输出向量y。

Least Squares in d-Dimensions

在这里插入图片描述在d维空间中的线性最小二乘模型通过最小化以下目标函数来实现:
f(w) = 1/2 * Σ(wxi - yi)^2,其中i从1到n,表示样本的索引。

在这里,w是一个向量,而不再是单一的标量。wT xi (预测值)表示向量w与向量xi的内积,即特征的线性组合。

同样,Σ(wxi - yi)^2 (误差)仍然表示真实值yi与我们的预测值wT xi之间的平方差的累加和。

这种方法可以追溯到1801年,高斯(Gauss)将其用于预测小行星谷神星(Ceres)的位置。

在d维空间中,我们如何找到最佳的权重向量w呢?我们是否可以将每个变量的偏导数设为0来解决这个问题呢?

是的,我们可以使用偏导数来找到最佳的权重向量w。具体来说,我们可以对f(w)关于每个分量wj求偏导数,并将其设置为0,从而解出每个分量wj的最优值。这是因为,当所有偏导数都为0时,f(w)取得最小值。这个方法被称为正规方程(normal equation)方法。具体求解方法是,令偏导数为0,得到一个线性方程组,将其解出即可得到权重向量w的值。

Summary

在这里插入图片描述回归分析是一种解决数值型响应变量yi的问题的方法。最小二乘法是拟合线性模型的经典方法,对于只有一个特征的情况,它有一个简单的封闭形式的解决方案,并且可以推广到多个特征的情况。在二维空间中,回归分析的模型是一个二维线性函数。此外,还有许多其他的回归模型,如模型树、回归树等。


http://chatgpt.dhexx.cn/article/CIQqplt7.shtml

相关文章

Fama-Macbeth回归图形化:EAP.fama_macbeth.Fama_macbeth_regress.plot()

实证资产定价(Empirical asset pricing)已经发布于Github和Pypi. 包的具体用法(Documentation)博主将会陆续在CSDN中详细介绍,也可以通过Pypi直接查看。 Pypi: pip install --upgrade EAP HomePage: EAP Empirical Asset Prici…

[MATLAB]一元线性回归(regress参数检验说明)

今天学习了统计回归模型,统计回归模型是基于统计理论建立的最基本最常用的一类数据驱动模型。本篇博文主要围绕regress函数的参数进行讲解! 一元线性回归模型的概念 这也要从一个女装公司讲起! 问:请用函数关系描述身高与腿长的…

matlab中的regress函数总结

clc cleardataxlsread(ty_num.xlsx); %第三列是全区;第四列是偶极子data1xlsread(w_E.xlsx); %第一列是w,第二列是东%设置x的值,第1列全为1 x(:,2)data(:,1); x(:,1)1;ydata1(:,3); [b,bint,r,rint,stats]regress(y,x);b的值为系数&#xff0…

回归(regression)

1. 回归(regression) 1.1 起源与定义 回归最早是被高尔顿提出的。他通过研究发现:如果父母都比较高一些,那么生出的子女身高会低于父母的平均身高;反之,如果父母双亲都比较矮一些,那么生出的子…

STATA regress回归结果分析

对于STATA回归结果以前一直不清不楚,每次都需要baidu一波,因此今天将结果相关分析记录下: 如上图 上面左侧的表是用来计算下面数据的,分析过程中基本不会用到 右侧从上往下 1.Number of obs 是样本容量 2.F是模型的F检验值&a…

MATLAB regress命令

1 regress命令 用于一元及多元线性回归,本质上是最小二乘法。在Matlab 命令行窗口输入help regress ,会弹出和regress的相关信息,一一整理。 调用格式: B regress(Y,X)[B,BINT] regress(Y,X)[B,BINT,R] regress(Y,X)[B,BINT,R…

MATLAB回归分析命令——regress命令

题目 假设向量y[7613.51 7850.91 8381.86 9142.81 10813.6 8631.43 8124.94 9429.79 10230.81 10163.61 9737.56 8561.06 7781.82 7110.97]; x1[7666 7704 8148 8571 8679 7704 6471 5870 5289 3815 3335 2927 2758 2591]; x2[16.22 16.85 17.93 17.28 17.23 17 19 18.22…

matlab中多元线性回归regress函数精确剖析(附实例代码)

matlab中多元线性回归regress函数精确剖析(附实例代码) 目录 前言 一、何为regress? 二、regress函数中的参数 三、实例分析 总结 前言 regress函数功能十分强大,它可以用来做多元线性回归分析,它不仅能得出线性回归函数中各个系数&#…

Ubuntu 下安装 Yar 扩展遇到的问题以及解决方案

本文为原创,转载请注明出处。 昨天在ubuntu上安装完yar之后发现yar还是不能用,感觉有些不对劲。 通过在微博上请教 Laruence 大神和公司的大大之后,问题解决了,下面就来分享这一成果。 如果还没有做好安装工作,请看…

最新yar扩展安装和使用

先说windows客户端的安装 yar扩展下载地址:https://pecl.php.net/package/yar 下载对应的版本 点击DLL可以查看支持的PHP版本,我本地是phpstudy搭建的环境,php版本是7.19.nts 所以我下载了7.1 Non Thread Safe (NTS) x64 解压后里面的php_yar.dll和php_yar.pdb文件…

yarn使用简介

yarn简介: yarn是facebook发布的一款取代npm的包管理工具。 yarn的特点: 速度超快。Yarn 缓存了每个下载过的包,所以再次使用时无需重复下载。 同时利用并行下载以最大化资源利用率,因此安装速度更快。超级安全。 在执行代码之前…

yar安装使用

1.安装 pecl install yar vim /etc/php.ini 加上extensionyar.so 查看支持的配置&#xff1a; php --re yar - Dependencies { Dependency [ json (Required) ] } - INI { Entry [ yar.packager <PERDIR> ] //打包协议 Current php } …

phpstudy安装yar扩展

最近因为项目需要yar扩展&#xff0c;本地开发环境使用phpstudy搭建&#xff0c;yar不是phpstudy的常用扩展&#xff0c;无法在扩展列表里面找到&#xff0c;所以需要自己安装。 0x01 Yar(Yet Another RPC framework for PHP) 是一个轻量级, 高效的RPC框架, 它提供了一种简单…

Yarn基本介绍(一)

1、简介 Yarn是Hadoop的分布式资源调度平台&#xff0c;负责为集群的运算提供运算资源。如果把分布式计算和单个计算机对应的话&#xff0c;HDFS就相当于计算机的文件系统&#xff0c;Yarn就是计算机的操作系统&#xff0c;MapReduce就是计算机上的应用程序。 2、组成部分 Y…

使用yaf+yar实现基于http的rpc服务

什么是RPC RPC&#xff0c;全称是Remote Procedure Call&#xff0c;远程服务调用&#xff0c;是一种通过网络从远程计算机程序上请求服务&#xff0c;而不需要了解底层网络技术的协议。简单一点来理解就是网络上的一个节点请求另一个节点提供的服务。 什么是YAF Yaf&#x…

yaf yar微服务/hprose微服务 镜像初始化 —— k8s从入门到高并发系列教程 (四)

前面的教程已经在docker镜像 软件 层面上初步安装了企业常用的插件&#xff0c;但目前还没有写任何代码。本教程带你初始化yaf框架&#xff0c;并基于yar框架和hprose跨语言微服务框架打包两个微服务代码&#xff0c;在容器间调用。 yaf是一个用c语言写的&#xff0c;用于php项…

YAR 并行RPC框架研究

前几天,部门召开了PHP技术峰会 学习会议,大家分别对这次会议的PPT 做了简单的介绍, 其中提到了 鸟哥【惠新辰】的一篇PPT《微博LAMP 演变》,如果谁有需要可以去谷歌搜,或者去 http://www.laruence.com/2013/08/15/2913.html 他的博客去看一下,我就不提供下载链接了。 …

Yarn概述

Yarn Yarn是Hadoop的分布式资源调度平台&#xff0c;负责为集群的运算提供运算资源。如果把分布式计算机和单个计算机相对应的话&#xff0c;HDFS就相当于计算机的文件系统&#xff0c;Yarn就是计算机的操作系统&#xff0c;MapReduce就是计算机上的应用程序。 Yarn的基本组成…

Yarn介绍

Yarn介绍 一&#xff0c;介绍二&#xff0c; yarn 框架三&#xff0c;ResourceManager3.1&#xff0c;ApplicationsManager3.2&#xff0c;Scheduler 四&#xff0c;NodeManager五&#xff0c;ApplicationMaster六&#xff0c;客户端提交任务到yarn中运行的流程。 YARN的基本思…

Yarn

应用场景 当部署好hadoop集群后,搭建了YARN集群,开启了hadoop的HDFS和YARN服务,访问主节点IP和8088端口的YARN监控界面,发现这个All Applications界面中的开始执行时间和结束执行时间不对,应该往后加8个小时才对,导致在页面中对任务监控的时候容易出错,所以现在要进行修…