Lasso线性回归学习笔记(公式与代码实现)

article/2025/9/28 22:24:18

目录

  • Lasso线性回归学习笔记(公式与代码实现)
    • 1 为什么要在线性回归中引入正则化项(简介)
    • 2 常见正则化项
    • 3 损失函数图像与正则化之后的图像
      • 3.1损失函数图像
      • 3.2 加了 L~1~ 正则项之后的损失函数图像
    • 4 L~1~ 范数正则化的解中有更多零的原因
    • 5 Lasso 线性回归
    • 6 Lasso线性回归的优化算法(求最优解)
      • 6.1 梯度下降(Gradient Descent)
        • - 为什么梯度方向是函数上升最快方向?
        • - 向量的方向角和方向余弦
        • - 方向导数
        • -方向导数与梯度的关系
      • 6.2 近端梯度下降(Proximal Gradient Descent)
        • - 大致思想
        • - 推导过程
    • 7 代码实现

Lasso线性回归学习笔记(公式与代码实现)

1 为什么要在线性回归中引入正则化项(简介)

 (主要参考《机器学习》周志华 第三章)

首先,多元线性回归的基本形式为 f ( x ) = w T x + b f(\pmb{x})=\pmb{w}^T\pmb{x}+b f(xxx)=wwwTxxx+b,为便于讨论,把 w \pmb{w} www b b b 吸收入向量形式 w ^ = ( w ; b ) \hat{\pmb{w}}=(\pmb{w};b) www^=(www;b),相应的,把数据集 D D D 表示为一个 m × ( d + 1 ) m\times(d+1) m×(d+1) 大小的矩阵 X \pmb{X} XXX (其中 m m m为样本条数, d d d为特征数),即
X = ( x 11 x 12 ⋯ x 1 d 1 x 21 x 22 ⋯ x 2 d 1 ⋮ ⋮ ⋱ ⋮ ⋮ x m 1 x m 2 ⋯ x m d 1 ) \pmb{X}=\left( \begin{matrix} x_{11} & x_{12} & \cdots &x_{1d} & 1 \\ x_{21} & x_{22} & \cdots &x_{2d} & 1 \\ \vdots & \vdots & \ddots &\vdots & \vdots \\ x_{m1} & x_{m2} & \cdots &x_{md} & 1 \\ \end{matrix} \right) XXX=x11x21xm1x12x22xm2x1dx2dxmd111
再把标记也写成向量形式 y = ( y 1 ; y 2 ; ⋯ ; y m ) y=(y_1;y_2;\cdots;y_m) y=(y1;y2;;ym)
则根据最小二乘法,参数估计值 w ^ ∗ \hat{\pmb{w}}^* www^应该满足
w ^ ∗ = arg min ⁡ w ^ ( y − X w ^ ) T ( y − X w ^ ) \hat{\pmb{w}}^*= {\underset {\hat{w}}{\operatorname {arg\,min} }}(\pmb{y}-\pmb{X}\hat{\pmb{w}})^T(\pmb{y}-\pmb{X}\hat{\pmb{w}}) www^=w^argmin(yyyXXXwww^)T(yyyXXXwww^)
E w ^ = ( y − X w ^ ) T ( y − X w ^ ) E_{\hat{w}}=(\pmb{y}-\pmb{X}\hat{\pmb{w}})^T(\pmb{y}-\pmb{X}\hat{\pmb{w}}) Ew^=(yyyXXXwww^)T(yyyXXXwww^),对 w ^ \hat{\pmb{w}} www^求导得到(相关矩阵求导知识链接

∂ E w ^ ∂ w ^ = 2 X T ( X w ^ − y ) \frac{\partial E_{\hat{w}}}{\partial \hat w}=2\pmb X^T(\pmb X \hat{\pmb{w}}-\pmb y) w^Ew^=2XXXT(XXXwww^yyy)

令上式得零则可得到 w ^ \hat{\pmb{w}} www^ 的最优解,有两种情况:

  • 情况一:当 X T X \pmb X^T \pmb X XXXTXXX 为满秩矩阵时,即可逆,令上式得零,可直接通过移项求的
    w ^ ∗ = ( X T X ) − 1 X T y \hat{\pmb{w}}^*=(\pmb X^T \pmb X)^{-1} \pmb X^T \pmb y www^=(XXXTXXX)1XXXTyyy
  • 情况二:然而现实任务中 X T X \pmb X^T \pmb X XXXTXXX 往往不是满秩矩阵,例如在高维数据中,变量的数目会超过样例数目,导致 X \pmb X XXX 的列数多于行数,而 X T X \pmb X^T \pmb X XXXTXXX 秩等于 X \pmb X XXX 的秩,显然 X T X \pmb X^T \pmb X XXXTXXX 不满秩,此时可解出多个 w ^ \hat{\pmb{w}} www^ (个人参考了《2022张宇线代9讲》P29 矩阵方程),它们都能使均方误差最小化,选择哪一个作为输出,常见的做法是引入正则化(regularization)项。

2 常见正则化项

首先介绍常见范数——P-范数 (范数详见百度百科),即
∣ ∣ x ∣ ∣ p = ( ∣ x 1 ∣ p + ∣ x 2 ∣ p + ⋯ + ∣ x n ∣ p ) 1 p ||\pmb x||_p=(|x_1|^p+|x_2|^p+\cdots+|x_n|^p)^{\frac{1}{p}} xxxp=(x1p+x2p++xnp)p1
L1范数正则化项,即令 p p p = 1,并针对参数向量,即为 λ ∣ ∣ w ∣ ∣ 1 \lambda ||\pmb w||_1 λwww1 ,其中 λ \lambda λ 为正则化参数。对于 L1 正则化, λ \lambda λ 越大可以使越多的参数为零或接近零。

类似地,L2范数正则化项为 λ ∣ ∣ w ∣ ∣ 2 2 \lambda ||\pmb w||_2^2 λwww22

3 损失函数图像与正则化之后的图像

(参考文章链接,下面是利用网站GeoGebra画出的函数图像)

3.1损失函数图像

为了可视化,假设一个回归函数及相应的损失函数如下:
回归函数: f ( x i ) = w 1 x i + b f(x_i)=w_1x_i+b f(xi)=w1xi+b
损失函数(均方差): L = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 L=\frac{1}{m}\sum\limits_{i=1}^m(f(x_i)-y_i)^2 L=m1i=1m(f(xi)yi)2其中m表示样本量,

为了保持简单,只取一个样本点(1,1)代入上面的代价函数方程中,即 L = ( w 1 + b − 1 ) 2 L=(w_1+b-1)^2 L=(w1+b1)2
以下则是上式的图像

在这里插入图片描述
可以看出,有无穷多个解可以使损失函数达到最小值。根据前面的论证,在只有一个样本点情况下,外加上最后一列是 1,得到的反应数据集 D D D 的矩阵 X \pmb{X} XXX是一行两列, X T X \pmb X^T \pmb X XXXTXXX 不是满秩矩阵,解不唯一,没毛病。

3.2 加了 L1 正则项之后的损失函数图像

加了 L1 正则项之后的损失函数: L = w 1 + b − 1 + ∣ w 1 ∣ L=w_1+b-1+|w_1| L=w1+b1+w1 (令 λ = 1 \lambda=1 λ=1
上式图像为
在这里插入图片描述
可以看出,有唯一最优解了

4 L1 范数正则化的解中有更多零的原因

在这里插入图片描述
(《机器学习》周志华 p253)

经典图片了,不多说了。

5 Lasso 线性回归

就是在损失函数中加入 L1正则化项的线性回归,值得注意的是在测试集中验证预测效果的时候的损失函数是不带正则化项的。

6 Lasso线性回归的优化算法(求最优解)

6.1 梯度下降(Gradient Descent)

- 为什么梯度方向是函数上升最快方向?

(参考:为什么梯度反方向是函数下降最快的方向?、《2022张宇高数18讲(第17讲)》)

首先介绍经典的梯度下降算法。
可能都知道,梯度下降算法的迭代公式是
w ^ k + 1 = w ^ k − η ∂ L ( w ^ k ) ∂ w ^ \hat{\pmb w}^{k+1}=\hat{\pmb w}^k- \eta \frac{\partial L(\hat{\pmb w}^k) } {\partial\hat{ \pmb w}} www^k+1=www^kηwww^L(www^k)
其中 w ^ = ( w ; b ) \hat{\pmb{w}}=(\pmb{w};b) www^=(www;b),而
∂ L ( w ^ k ) ∂ w ^ \frac{\partial L(\hat{\pmb w}^k) }{\partial\hat{ \pmb w}} www^L(www^k)
便是优化目标中的损失函数 L ( w ^ ) L(\hat{\pmb{w}}) L(www^) 的梯度,接下来只要弄清为什么梯度方向是函数上升最快的方向,便就清楚这个式子了。

- 向量的方向角和方向余弦

(1)非零向量 a \pmb a aaa x x x 轴、 y y y 轴、 z z z 轴正向的夹角 α \alpha α β \beta β γ \gamma γ 称为 a \pmb a aaa 的方向角。
(2) c o s α cos\alpha cosα c o s β cos\beta cosβ c o s γ cos\gamma cosγ 称为 a \pmb a aaa 的方向余弦,且 c o s α = a x ∣ a ∣ cos\alpha=\frac{a_x}{|a|} cosα=aax c o s β = a y ∣ a ∣ cos\beta=\frac{a_y}{|a|} cosβ=aay c o s γ = a z ∣ a ∣ cos\gamma=\frac{a_z}{|a|} cosγ=aaz
(3)由(2)可知 a ∣ a ∣ = ( c o s α , c o s β , c o s γ ) \frac{a}{|a|}=(cos\alpha,cos\beta,cos\gamma) aa=(cosαcosβcosγ) 称为向量 a \pmb a aaa 的单位向量
以上基础知识有利于从二元直接向更多元推广。

- 方向导数

要想解决以上疑问,首先要知道方向导数。在许多问题中,不仅要知道函数在坐标轴方向上的变化率(即偏导数),而且还要设法求得函数在某点沿着其他特定方向上的变化率。这就是方向倒数。

  • 首先给出明确定义:(此部分我感觉参考文章写的更好理解,以下定义更精确、好推广)
    设二元函数 u = u ( x , y ) u=u(x,y) u=u(x,y)在点 P 0 ( x 0 , y 0 ) P_0(x_0,y_0) P0(x0,y0) 有定义, l l l 为从 P 0 P_0 P0 出发的射线, P ( x , y ) P(x,y) P(x,y) 为在 l l l 上的任一点,则
    { x − x 0 = Δ x = t c o s α y − y 0 = Δ y = t c o s β \left\{ \begin{aligned} x -x_0 = \Delta x = t cos\alpha\\ y-y_0 = \Delta y = t cos\beta\\ \end{aligned} \right. {xx0=Δx=tcosαyy0=Δy=tcosβ
    其中 t = ( Δ x ) 2 + ( Δ y ) 2 t=\sqrt{(\Delta x)^2+(\Delta y)^2} t=(Δx)2+(Δy)2 表示 P P P P 0 P_0 P0 之间的距离。
    则极限
    l i m t → 0 + u ( P ) − u ( P 0 ) t = l i m t → 0 + u ( x 0 + t c o s α , y 0 + t c o s β ) − u ( x 0 , y 0 ) t \underset{t\rightarrow 0^+}{lim}\frac{u(P)-u(P_0)}{t} \\ =\underset{t\rightarrow 0^+}{lim}\frac{u(x_0+ t cos\alpha,y_0+ t cos\beta)-u(x_0,y_0)}{t} t0+limtu(P)u(P0)=t0+limtu(x0+tcosα,y0+tcosβ)u(x0,y0)
    此极限便是函数 u u u 在点 P 0 P_0 P0 沿方向 l \pmb l lll 的方向导数,记作
    ∂ u ∂ l ∣ P 0 \frac{\partial u}{\partial \pmb l}|_{P_0} llluP0

  • 方向导数计算公式:设函数 u = u ( x , y ) u=u(x,y) u=u(x,y) 在点 P 0 P_0 P0 点出可微分,则 u u u 在点 P 0 P_0 P0 处沿任意方向 l \pmb l lll 的方向导数都存在,且
    ∂ u ∂ l ∣ P 0 = l i m t → 0 + u ( P ) − u ( P 0 ) t = l i m t → 0 + u ( x 0 + Δ x , y 0 + Δ y ) − u ( x 0 , y 0 ) ( Δ x ) 2 + ( Δ y ) 2 = ∗ l i m t → 0 + u x ′ ( P 0 ) Δ x + u y ′ ( P 0 ) Δ y + o ( t ) ( Δ x ) 2 + ( Δ y ) 2 = u x ′ ( P 0 ) c o s α + u y ′ ( P 0 ) c o s β \begin{aligned} \frac{\partial u}{\partial \pmb l}|_{P_0} =& \underset{t\rightarrow 0^+}{lim}\frac{u(P)-u(P_0)}{t} \\ =& \underset{t\rightarrow 0^+}{lim}\frac{u(x_0+\Delta x,y_0+\Delta y)-u(x_0,y_0)}{\sqrt{(\Delta x)^2+(\Delta y)^2}}\\ \overset{*}{=}& \underset{t\rightarrow 0^+}{lim}\frac{u_x^\prime(P_0)\Delta x + u_y^\prime(P_0)\Delta y + o(t)}{\sqrt{(\Delta x)^2+(\Delta y)^2}}\\ =& u_x^\prime(P_0) cos\alpha + u_y^\prime(P_0) cos\beta \end{aligned} llluP0====t0+limtu(P)u(P0)t0+lim(Δx)2+(Δy)2 u(x0+Δx,y0+Δy)u(x0,y0)t0+lim(Δx)2+(Δy)2 ux(P0)Δx+uy(P0)Δy+o(t)ux(P0)cosα+uy(P0)cosβ
    其中 c o s α cos\alpha cosα c o s β cos\beta cosβ 为方向 l \pmb l lll 的方向余弦, = ∗ \overset{*}{=} = 部分利用的多元函数的泰勒展开式

-方向导数与梯度的关系

从上式可以看出,方向导数其实就是 梯度 g r a d u = ( u x ′ , u y ′ ) \pmb{grad} \, u = (u_x^\prime,u_y^\prime) gradgradgradu=(ux,uy) 与 方向余弦组成的单位向量 I = ( c o s α , c o s β ) I=(cos\alpha,cos\beta) I=(cosα,cosβ) 的内积,即
∂ u ∂ l = g r a d u ⋅ I = ∣ g r a d u ∣ ∣ I ∣ c o s θ = ∣ g r a d u ∣ c o s θ \frac{\partial u}{\partial \pmb l}=\pmb{grad} \, u \cdot I=|\pmb{grad} \, u| \, |I| \, cos\theta =|\pmb{grad} \, u| \, cos\theta lllu=gradgradgraduI=gradgradgraduIcosθ=gradgradgraducosθ
其中 θ \theta θ 为两向量之间的夹角。

那么如果此时想让 ∂ u ∂ l \frac{\partial u}{\partial \pmb l} lllu 最大,自然是 θ \theta θ 0 o 0^o 0o 的时候,也就是方向与梯度一致的时候的方向导数最大,即变化率最大且是正的,那么如果沿着该方向前进,可以上升(增加)的最快;同理,如果 θ \theta θ 18 0 o 180^o 180o 的时候,也就是方向与梯度相反的时候的方向导数最小且为负(两者的绝对值相同),那么沿着该方向前进就可以下降(减小)的最快。

【注】以上证明角度最直观好想,对于梯度下降算法的证明还有其他角度,例如在一定条件下直接利用泰勒展开近似目标函数,然后直接求解,得到的就是梯度下降迭代式,在下文中的近端梯度下降其实就利用到了这个思想。

6.2 近端梯度下降(Proximal Gradient Descent)

参考文章(
近端梯度下降法,
《机器学习》(周志华)P253,
《机器学习公式详解》(俗称南瓜书)P122(pdf页数),
矩阵微分与向量函数泰勒展开)

近端梯度下降法是众多梯度下降 (gradient descent) 方法中的一种,将proximal翻译成“近端”可能是想表达 “接近,近似” 的意思,但在这点上,经典梯度算法其实也是近似的。与经典的梯度下降法相比,近端梯度下降法 主要是想解决目标函数中存在不可微或不方便微分的部分。如对于凸优化问题,当其目标函数存在 L1正则化项,近端梯度下降法就会派上用场。
(个人理解:其实就是在经典梯度下降的基础上,最后用分段函数的方法对L1正则化项求导)

具体来说,设优化目标
m i n f ( x ) + λ ∣ ∣ x ∣ ∣ 1 min \, f(\pmb x)+\lambda ||\pmb x||_1 minf(xxx)+λxxx1
∇ \nabla 表示微分算子, ∇ f ( x ) \nabla f(\pmb x) f(xxx) 即为 ∂ f ( x ) ∂ x \frac{\partial f(x)}{\partial x} xf(x) x x x 为向量,粗的打不出来了)

- 大致思想

(1)在一定条件下,通过泰勒展开式将目标函数可微的部分化简
(2)以分段函数的形式,对 ∣ ∣ x ∣ ∣ 1 ||\pmb x||_1 xxx1 求导,令导数得零,最后自然得到了分段函数形式的迭代公式 (加粗的是向量)。

- 推导过程


L-Lipschitz 条件简介:它是一个比“连续”更强的光滑性条件.直觉上,利普希茨连续函数限制了函数改变的速度,符合利普希茨条件的函数的斜率,必小于一个称为利普希茨常数的实数 L(该常数依函数而定,在梯度下降中,可以将此参数理解为学习率 η \eta η 的倒数,在训练中应该自己给出)(以上仅为个人理解,详见百度百科)

f ( x ) f(\pmb x) f(xxx) 可导,且 ∇ f ( x ) \nabla f(\pmb x) f(xxx)满足 L-Lipschitz 条件,即存在常数 L > 0 L>0 L>0 使得
∣ ∇ f ( x ′ ) − ∇ f ( x ) ∣ ∣ x ′ − x ∣ ≤ L \frac{|\nabla f(\pmb x^\prime)-\nabla f(\pmb x)|}{|\pmb x^\prime-\pmb x|} \leq L xxxxxxf(xxx)f(xxx)L
(上式可看成是 f ( x ) f(\pmb x) f(xxx) 的二阶导数恒不大于 L L L ,即 ∇ 2 f ( x ) ≤ L \nabla^2 f(\pmb x) \leq L 2f(xxx)L )
则在 x k x_k xk 附近可将 f ( x ) f(x) f(x) 通过二阶泰勒展开式近似为
f ( x ) ^ ≈ f ( x k ) + ( ∇ f ( x k ) , ( x − x k ) ) + ∇ 2 f ( x k ) 2 ∣ ∣ x − x k ∣ ∣ 2 2 ≤ f ( x k ) + ( ∇ f ( x k ) , ( x − x k ) ) + L 2 ∣ ∣ x − x k ∣ ∣ 2 2 = L 2 ∣ ∣ x − ( x k − 1 L ∇ f ( x k ) ) ∣ ∣ 2 2 + c o n s t \begin{aligned} \hat{f(\pmb x)} \approx& f(\pmb x_k)+(\nabla f(\pmb x_k),(\pmb x-\pmb x_k))+\frac{\nabla^2f(x_k)}{2}||\pmb x - \pmb x_k||_2^2\\ \leq& f(\pmb x_k) + (\nabla f(\pmb x_k),(\pmb x-\pmb x_k))+\frac{L}{2}||\pmb x - \pmb x_k||_2^2\\ =& \frac{L}{2}||\pmb x- (\pmb x_k-\frac{1}{L} \nabla f(\pmb x_k))||_2^2 + const \end{aligned} f(xxx)^=f(xxxk)+(f(xxxk),(xxxxxxk))+22f(xk)xxxxxxk22f(xxxk)+(f(xxxk),(xxxxxxk))+2Lxxxxxxk222Lxxx(xxxkL1f(xxxk))22+const
其中 c o n s t const const 是与 x \pmb x xxx 无关的常数(后续的求解过程也是求导,就直接忽略了,上述具体推导过程参见《机器学习公式详解》(俗称南瓜书)第11章)
也就是说在 x k \pmb x_k xxxk 附近可将目标函数进行简化,那么问题可转化为在这个小范围内寻找可使目标函数最小的 x k + 1 \pmb x_{k+1} xxxk+1,然后再进行迭代(对于经典梯度下降算法来说,其实也是这么个思想),即
x k + 1 = a r g m i n x L 2 ∣ ∣ x − ( x k − 1 L ∇ f ( x k ) ) ∣ ∣ 2 2 + λ ∣ ∣ x ∣ ∣ 1 \pmb x_{k+1}=\underset{x}{arg\,min}\frac{L}{2}||\pmb x- (\pmb x_k-\frac{1}{L} \nabla f(\pmb x_k))||_2^2 + \lambda||\pmb x||_1 xxxk+1=xargmin2Lxxx(xxxkL1f(xxxk))22+λxxx1
x i x^i xi 表示 x \pmb x xxx 的第 i i i 个分量,将上式按分量展开可看出,其中不存在 x i x j ( i ≠ j ) x^ix^j(i \neq j) xixj(i=j) 这样的项,也就是说各分量直间互不影响,假设只有一个分量 x 1 x^1 x1 带入展开,求导,令导得零,便可以求得这个小范围内的最小值点,推广可得上式解为:
可先计算 z = x k − 1 L ∇ f ( x k ) \pmb z=\pmb x_k-\frac{1}{L} \nabla f(\pmb x_k) zzz=xxxkL1f(xxxk)
x k + 1 i = { z i − λ / L , λ / L < z i 0 , ∣ z i ∣ ≤ λ / L z i + λ / L , z i < − λ / L x_{k+1}^i= \left\{ \begin{aligned} z^i& -\lambda/L, &\lambda /L& < z^i\\ 0&, &|z^i|& \leq \lambda/L\\ z^i& +\lambda/L, &z^i&<-\lambda/L \end{aligned} \right. xk+1i=zi0ziλ/L,,+λ/L,λ/Lzizi<ziλ/L<λ/L
(如果不考虑 L1 正则化项,该步骤得解就是 经典梯度下降 的迭代公式)

7 代码实现

import numpy as np# 导入数据
filepath = "D:\\机器学习\\housing.csv"
data = np.loadtxt(filepath, delimiter=',', skiprows=1, encoding='utf-8')
# 选择特征与标签
x = data[0:20, 1:]
y = data[0:20, 0]
# 加一列
X = np.column_stack((x, np.ones((x.shape[0], 1))))
# 划分训练集与测试集
X_train, y_train = x[:10], y[:10]
X_test, y_test = x[10:], y[10:]print(X_train.shape, y_train.shape, X_test.shape, y_test.shape)# 定义初始化参数
def initialize(dims):w = np.zeros((dims))return w# 在 MSE 基础上定义 Lasso 损失函数值def l1_loss(X, y, w, lambda_):num_train = X.shape[0]y_hat = np.dot(X, w)loss = np.sum((y_hat - y) ** 2) / num_train + np.sum(lambda_ * abs(w))return y_hat, loss, num_train# 定义训练过程def lasso_train(X, y, learn_rate=50, lambda_=50, epochs=300):loss_list = []w = initialize(X.shape[1])temporary_para = lambda_ * learn_ratefor i in range(epochs):y_hat, loss, num_train = l1_loss(X, y, w, lambda_)z = w - learn_rate * (np.dot(X.T, (y_hat - y)) * 2 / num_train)a = np.dot(X.T, (y_hat - y))b = X.Tc = (y_hat - y)y_hat[0]w_list = []for z_i in z:if z_i > temporary_para:w_i = z_i - temporary_paraelif z_i < temporary_para:w_i = z_i + temporary_paraelse:w_i = 0w_list.append(w_i)w = np.array(w_list)loss_list.append(loss)if i % 50 == 0:print('epoch %d loss %f' % (i, loss))params = wreturn loss, loss_list, paramsloss, loss_list, params = lasso_train(X,y,learn_rate=50,lambda_=50,epochs=300)

http://chatgpt.dhexx.cn/article/rSss3FNi.shtml

相关文章

机器学习算法系列(五)- Lasso回归算法(Lasso Regression Algorithm)

阅读本文需要的背景知识点&#xff1a;线性回归算法、一丢丢编程知识 最近笔者做了一个基于人工智能实现音乐转谱和人声分离功能的在线应用——反谱&#xff08;Serocs&#xff09;&#xff0c;感兴趣的读者欢迎试用与分享&#xff0c;感谢您的支持&#xff01;serocs.cn 一、…

学习机器学习和深度学习的方法和步骤

学习机器学习和深度学习的方法和步骤 相信很多人都在找学习机器学习和深度学习的步骤和教程。作为过来人和大家一起交流一下。 我自己制作的一个思维导图希望对大家有帮助。

机器学习算法介绍

前言 谷歌董事长施密特曾说过&#xff1a;虽然谷歌的无人驾驶汽车和机器人受到了许多媒体关注&#xff0c;但是这家公司真正的未来在于机器学习&#xff0c;一种让计算机更聪明、更个性化的技术。 也许我们生活在人类历史上最关键的时期&#xff1a;从使用大型计算机&#xf…

机器学习之【提升方法】

机器学习【提升方法】 一、Adaboost的起源1.强可学习与弱可学习 二、怎样实现弱学习转为强学习1.怎样获得不同的弱分类器?BaggingBagging的弊端 2.怎样组合弱分类器? 三、Adaboost的提出四、Adaboost的基本概念五、Adaboost算法六、示例七、Boosting illustration 一、Adaboo…

(四)机器学习方法的分类

文章目录 一、监督学习二、非监督学习三、半监督学习四、增强学习五、机器学习的其他分类1. 批量学习&#xff08;Batch Learning&#xff09;2. 在线学习&#xff08;Online Learning&#xff09;3. 参数学习&#xff08;Parametric Learning&#xff09;4. 非参数学习 在上一…

【机器学习】之机器学习方法的分类

1&#xff0c;监督学习 给机器的训练数据拥有标记和答案 例如&#xff1a; 图像已经积累了标定信息银行已经积累了客户的信息和信用卡的信息 2&#xff0c;非监督学习 给机器的训练数据没有标记或答案 对没有标记的数据进行分类 – 聚类分析 对数据进行降维处理 特征提取…

机器学习常用方法

在本篇文章中&#xff0c;我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习&#xff0c;并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇&#xff0c;从这里开始&#xff0c;必须对机器学习了解才能进一步介绍EasyPR的内核。…

机器学习的几种学习方式

根据数据类型的不同&#xff0c;对一个问题的建模有不同的方式&#xff0c;人们首先会考虑算法的学习方式。将算法按照学习方式分类可以让人们在建模和算法选择时&#xff0c;根据输入数据来选择最合适的算法&#xff0c;从而获得最好的结果。 在机器学习领域&#xff0c;有以…

机器学习--机器学习的基本方法

文章目录 1.1统计分析1.1.1 统计基础1.1.2 常见的概率分布2.1.3参数估计1.1.4 假设与检验1.1.5线性回归1.1.6逻辑回归1.1.7判别分析1.1.8 非线性判决 1.1统计分析 统计学是研究如何收集资料&#xff0c;整理资料和进行量化分析&#xff0c;判断的一门学科。在科学计算&#xf…

机器学习的四种学习方法

文章目录 监督学习&#xff08;Supervised Learning&#xff09;无监督学习&#xff08;Unsupervised Learning&#xff09;半监督学习&#xff08;Semi-supervised Learning)强化学习&#xff08;Reinforcement Learning)应用 监督学习&#xff08;Supervised Learning&#x…

机器学习方法的基本分类

目录 1、监督学习&#xff08;supervised learning&#xff09; 2、无监督学习&#xff08;unsupervised learning&#xff09; 3、强化学习&#xff08;reinforcement learning&#xff09; 4、半监督学习&#xff08;semi-supervised learning&#xff09;与主动学习&…

机器学习的常用方法

转自 史上最强----机器学习经典总结---入门必读----心血总结-----回味无穷 在这个部分我会简要介绍一下机器学习中的经典代表方法。这部分介绍的重点是这些方法内涵的思想&#xff0c;数学与实践细节不会在这讨论。 1、回归算法 在大部分机器学习课程中&#xff0c;回归算法都…

机器学习的三种方法

目录 介绍 鸢尾花(Iris)数据集 梯度下降 逻辑回归 使用逻辑回归处理鸢尾花(Iris)数据集 反向传播 使用反向传播处理鸢尾花(Iris)数据集 支持向量机 用支持向量机处理鸢尾花(Iris)数据集 结论 下载Iris_Data-3.7 KB下载LogiticRegression_Iris-309.7 KB下载LogiticReg…

机器学习的方法

机器学习(machine learning)是一门多领域交叉学科,涉及了概率论、统计学、算法复杂度等多门学科。专门研究计算机怎样模拟或实现人的学习行为,它能够发现和挖掘数据所包含的潜在价值。机器学习已经成为了人工智能的一个分支,通过自学习算法,发现和挖掘数据潜在的规律,从…

机器学习中常见4种学习方法、13种算法

机器学习中常见4种学习方法、13种算法 一. 4大主要学习方法 1.1 监督式学习 在监督式学习下&#xff0c;输入数据被称为“训练数据”&#xff0c;每组训练数据有一个明确的标识或结果&#xff0c;如对防垃圾邮件系统中“垃圾邮件”“非垃圾邮件”&#xff0c;对手写数字识别中…

机器学习的13种算法和4种学习方法,推荐给大家

机器学习的算法很多。很多时候困惑人们都是&#xff0c;很多算法是一类算法&#xff0c;而有些算法又是从其他算法中延伸出来的。这里&#xff0c;我们从两个方面来给大家介绍&#xff0c;第一个方面是学习的方式&#xff0c;第二个方面是算法的分类。 一、4大主要学习方式 1…

好用的浏览器主页有哪些?

浏览器主页由于有个网址就能用&#xff0c;越来越受到年轻人的喜爱&#xff0c;而且浏览器主页非常的方便&#xff0c;我为什么说方便呢&#xff1f;举个例子哈&#xff0c;当我们在外边用电脑时&#xff0c;发现电脑自带的浏览器完全不符合自己的使用习惯&#xff0c;没有自己…

看完这6款浏览器的对比,你还使用国产浏览器吗

市面上的国产浏览器实在是太多了&#xff0c;曾几时&#xff0c;我也曾因为选择使用哪款浏览器而纠结过。是用搜狗浏览器好&#xff0c;还是360极速浏览器好&#xff0c;或者是多御浏览器&#xff1f;直到我学习了计算机&#xff0c;慢慢地开始使用国外浏览器&#xff0c;偶尔也…

目前主流浏览器市场及浏览器内核介绍

主流浏览器 以下的数据来源于国际知名的统计网站statcounter&#xff0c;数据的统计时间为2021年08月 – 2022年08月 主流电脑浏览器 全球 国内 主流手机浏览器 全球 国内 由此数据可看到&#xff0c;谷歌浏览器的市场份额占比遥遥领先 浏览器内核 1. Trident IE的内…

五大主流浏览器和四大浏览器内核

1.浏览器 任何上过网的用户对浏览器是再熟悉不过了&#xff0c;只是用户看到仅仅只是浏览器本身&#xff0c;却很少能看到浏览器最核心的部分—浏览器内核。从第一款libwww&#xff08;Library WorldWideWeb&#xff09;浏览器发展至今已经经历了无数竞争与淘汰了。现在国内常…