Regression

前言
Dependent vs. Explanatory Variables
- Handle Numerical Labels
- squared error和variance什么区别
Linear Regression
- Linear Regression in 1 Dimension
Least Squares （最小二乘，重点）
- Least Squares Objective
- Minimizing a Differential Function
- Finding Least Squares Solution
- Least Squares Objective / Solution (Another View)
- Motivation: Combining Explanatory Variables
Different Notation
- Different Notations for Least Squares
- Notation
- Least Squares in d-Dimensions
Summary

前言

本文将基于UoA的课件介绍机器学习中的回归问题。

涉及的英语比较基础，所以为节省时间（不是full-time，还有其他三门课程，所以时间还是比较紧的），只在我以为需要解释的地方进行解释。

此文不用于任何商业用途，仅仅是个人学习过程笔记以及心得体会，侵必删。

Dependent vs. Explanatory Variables

问题引入
在这里插入图片描述

在这里插入图片描述

这里只是说有监督学习预测的趋势说法，可以是“与…有关”或者“可以帮助预测…”并不能直接说：“导致…”

在这里插入图片描述

Handle Numerical Labels

离散化处理Numerical Labels
在这里插入图片描述

squared error和variance什么区别

Squared error和variance都是衡量一个模型（或预测值）与真实值之间差异的指标，但它们从不同的角度衡量这种差异。

Squared error（平方误差）是将每个预测值与对应的真实值之差平方后的平均值，它衡量的是预测值与真实值之间的偏差大小，越大则表示模型的预测效果越差。平方误差在回归分析中广泛使用。

Variance（方差）则是用来描述模型的波动性，它表示模型在不同的数据集上产生的预测结果的差异。一个具有高方差的模型对训练数据的过度拟合，很可能在新数据上表现不佳。相反，一个具有低方差的模型可能过于简单，不能很好地捕捉到数据中的复杂关系。

总之，平方误差和方差都是衡量模型的预测效果的指标，但平方误差更注重衡量偏差的大小，而方差更注重衡量模型的波动性。

Linear Regression

线性回归用于建立一个预测模型，将输入变量（或自变量）和输出变量（或因变量）之间的线性关系拟合到一个线性方程中。它是一种最简单和最常用的回归分析方法之一。

线性回归的目标是找到一条最佳的直线来拟合数据，使预测值和实际值的差异最小。这条直线被称为回归线，其方程为 y = b0 + b1x1 + b2x2 + … + bnxn，其中y是因变量，x1，x2，…，xn是自变量，b0，b1，b2，…，bn是回归系数。

线性回归的过程可以用最小二乘法来实现，即通过最小化实际值和预测值之间的残差平方和来确定回归系数。在实际应用中，可以使用不同的变体，例如岭回归和Lasso回归，以避免过度拟合和提高预测精度。

线性回归可以用于很多实际问题，例如房价预测、销售预测、股票价格预测等。它是机器学习和统计学中最基础的算法之一，也是其他高级算法的基础。

Linear Regression in 1 Dimension

就，比较简单，没啥好说的在这里插入图片描述如下图所示：

Least Squares （最小二乘，重点）

最小二乘是一种常用的回归分析方法，用于拟合数据集中的观测值和预测值之间的关系。在最小二乘中，通过最小化预测值与实际值之间的残差平方和，来确定回归方程的系数。在线性回归中，最小二乘法的目标是找到一条直线，使得这条直线与数据集中所有的点的距离平方和最小。

Least Squares Objective

这里也比较简单，没啥可说的。
在这里插入图片描述

在这里插入图片描述

Minimizing a Differential Function

在这里插入图片描述机器学习中最小化可微函数的一个简单方法。如果要找到函数f的最小值，我们可以用以下步骤：

求函数f的导数
找到导数f′(w)等于0的点w
选择最小的那个点，并检查f′′(w)是否为正数。

其中，f(w) = Σ(wxi − yi)²是一个常见的函数形式，它表示对于一组数据集合，每个样本的预测值与真实值的差值的平方之和。这个函数也可以写成f(w) = 1/2Σ(wxi − yi)²，或者f(w) = 1/nΣ(wxi − yi)²，或者f(w) = 1/2nΣ(wxi − yi)² + 1000，它们的最小值点相同。

我们可以把f乘以一个正的常数而不改变最小值点，因为导数在同样的位置为0。这个技巧在机器学习中经常被用到。

Finding Least Squares Solution

如何找到使平方误差和最小的解w。
在这里插入图片描述平方误差和是指预测值与真实值之差的平方之和。我们可以把平方误差和的计算式表示为f(w) = 1/2Σ(wxi − yi)²。

通过对f(w)求导，我们可以得到f(w)的导数f′(w) = wa − b，其中a = Σ(xi)²，b = Σxiyi，n是数据点的数量。令f′(w)等于0，解出w的值，即可得到最小平方误差的解w。

公式中的w = b/a，即最小二乘解，也可以写成w = Σ(xi yi)/Σ(xi²)，它表示所有样本中x和y的乘积之和除以x的平方和，是一种用于解决回归问题的常见方法。

如何验证上面的公式w=b/a是最小化平方误差和的最小值。
在这里插入图片描述

我们可以通过检查它的二阶导数来证明这个公式是一个最小值。对公式f′(w) = wa − b求二阶导数，可以得到f′′(w) = Σ(xi)²，因为所有的x²都是正数，所以f′′(w)是非负数。如果我们有一个非零的特征（即存在一个xi不等于0），则f′′(w)大于0，这意味着w=b/a确实是平方误差和的最小值。

Least Squares Objective / Solution (Another View)

最小二乘法是如何最小化一个二次函数

在这里插入图片描述
这个二次函数是由n个二次项的和组成，每个二次项都是由一个变量wx减去对应的目标值yi并平方得到的。最小化这个二次函数意味着找到最优的w，使得所有wx和yi之间的差距的平方和最小。因为每个二次项都是正的，所以这个二次函数是凸的，只有一个最小值。找到这个最小值，就是最小二乘法的解。

Motivation: Combining Explanatory Variables

如何将多个解释变量（explanatory variables）结合起来建模

在这里插入图片描述以肺癌为例，吸烟并不是唯一导致肺癌的因素，还有其他环境因素如石棉暴露等。我们如何将吸烟和石棉这两个因素的综合影响建模呢？

一种简单的方法是使用二维线性函数来表示这个综合影响，形式为：
ˆy = w1xi1 + w2xi2

其中，w1是特征1（吸烟）的权重，w2是特征2（石棉）的权重，xi1和xi2分别是特征1和特征2的取值。通过乘以相应的权重，将特征1和特征2的值结合起来，得到最终的预测值ˆy。例如，假设我们认为吸烟每天10支烟和暴露在石棉环境中对肺癌的影响分别为25单位，那么对于一个给定的样本，我们可以计算出预测的肺癌发病率ˆyi为10乘以吸烟量加上25乘以石棉暴露量。这样就将多个解释变量的影响结合起来建模，从而更全面地理解和预测目标变量的变化。

Different Notation

Different Notations for Least Squares

在这里插入图片描述在d维特征空间中，我们使用d维线性模型来描述因变量和自变量之间的关系。这个模型可以写成以下形式：

y_hat = w1 * x1 + w2 * x2 + … + wd * xd

其中，wi代表第i个特征的权重，xi代表第i个特征的值。我们也可以使用求和符号来简化这个表达式：

y_hat = Σ(wi * xi)

此外，我们还可以使用向量的形式来表示线性模型，这个形式更加简洁：

y_hat = w.T * x

其中，w是特征权重向量，x是特征向量。通过对训练数据的学习，我们可以得到最佳的特征权重，进而用于预测新的数据点的输出。

Notation

所有的向量都默认为列向量。

在这里插入图片描述特征权重向量w、输出向量y和输入向量xi的形式可以表示为列向量，其中wi、yi和xij分别表示向量的第i个元素。

因此，wT xi是一个标量，表示特征权重向量w与输入向量xi的转置之间的点积。它可以通过将w的元素与xi的对应元素相乘，然后将结果相加得到。这个计算可以通过向量和的形式表示为Σ(wj * xij)，其中j从1到d，表示特征的索引。

此外，输入矩阵X的每一行实际上是输入向量xi的转置，即xT i，其中i从1到n，表示样本的索引。这种表示方式在某些数学运算中更加方便，例如在矩阵乘法中，可以直接将X与权重向量w相乘，得到输出向量y。

Least Squares in d-Dimensions

在这里插入图片描述在d维空间中的线性最小二乘模型通过最小化以下目标函数来实现：
f(w) = 1/2 * Σ(wxi - yi)^2，其中i从1到n，表示样本的索引。

在这里，w是一个向量，而不再是单一的标量。wT xi (预测值)表示向量w与向量xi的内积，即特征的线性组合。

同样，Σ(wxi - yi)^2 (误差)仍然表示真实值yi与我们的预测值wT xi之间的平方差的累加和。

这种方法可以追溯到1801年，高斯（Gauss）将其用于预测小行星谷神星（Ceres）的位置。

在d维空间中，我们如何找到最佳的权重向量w呢？我们是否可以将每个变量的偏导数设为0来解决这个问题呢？

是的，我们可以使用偏导数来找到最佳的权重向量w。具体来说，我们可以对f(w)关于每个分量wj求偏导数，并将其设置为0，从而解出每个分量wj的最优值。这是因为，当所有偏导数都为0时，f(w)取得最小值。这个方法被称为正规方程（normal equation）方法。具体求解方法是，令偏导数为0，得到一个线性方程组，将其解出即可得到权重向量w的值。