前置内容

深度学习计算量过大，成本过高，因此提出宽度学习（BLS，Broad Learning System）。我们首先要知道，BLS的网络结构不是固定的，就像第三十三课的级联相关网络。但是级联相关网络还是在往深处走，宽度学习才是真正往宽处走。

级联相关网络的训练
第三十三课的级联相关网络的训练可以展示为以下形式：
fig1
其中，candidate neuron即为候选神经元（即要加入的新节点），训练过程如下：

首先，候选神经元连结到所有的输入和隐层神经元（即图中的有向虚线），并且候选神经元的输出不连结到网络上；
然后冻结固定住图中的实线部分，只训练候选神经元的权重（即图中的有向虚线）；
注意，候选神经元的训练目标是最大化候选神经元的输出和网络输出层误差之间的相关性，使用梯度上升法实现最大化；
当权重训练好之后，就将候选神经元安装到图中空白的层上，也就是第四个区域，这时候候选神经元的虚线连接权就不能再改变了；
然后将候选神经元连结到网络的输出上，这时候代表选神经元被激活，开始训练网络的所有输出连接权；
重复以上步骤；

宽度学习的基本结构：RVFLNN

BLS来源于随机向量函数连接网络 random vector functional-link neural network （RVFLNN）的结构。
fig2
RVFLNN多了一个增强层（Enhance Nodes），网络中存在3种连接：

输入-增强：非线性变换；
增强-输出：线性变换；
输入-输出：线性变换；

可以看出，RVFLNN只有增强层是真正意义上的神经网络单元，因为只有它带了激活函数。下面我们将增强层与输入节点排列到一起：
fig3
网络就变成了由A到Y的线性变换。如果我们随机初始化增强节点的参数并固定（随机初始化 $W_{h},\beta_{h}$ ），整个网络的训练就是求出A到Y之间的线性变换W： $W=A^{-1}Y$ 由于输入 $X$ 已知，可以很方便求出 $A$ ，又加上已知 $Y$ ，所以学习将变成只需要一步操作的事情。

为什么可以这样
深度学习把网络层数不断加深，就是为了增加模型的复杂度，能更好地逼近我们希望学习到的非线性函数，但是不是非线性层数越多越好？理论证明单层前馈网络（SLFN）已经可以作为函数近似器了，可见增加层数并不是必要的。RVFLNN也被证明可以用来逼近任何连续函数，其非线性近似能力就体现在增强层的非线性激活函数上，只要增强层单元数量足够多就行。

宽度学习系统

fig4

之前介绍的是RVFLNN，现在来看BLS，它对输入层做了一点改进，就是不直接用原始数据作为输入层，而是先对数据做了一些变换，相当于特征提取，将变换后的特征作为原RVFLNN的输入层，这样做的意义不是很大，只不过想告诉我们：宽度学习可以利用别的模型提取到的特征来训练，即可以和别的机器学习算法组装。现在我们不把第一层叫做输入层，而是叫它特征层。

从上图看出，我们可以使用增加特征提取器数量的方式加宽 $Z$ 的长度（使用 $n$ 个特征提取器， $n$ 越大，BLS越复杂）

当给定了特征 $Z$ ，直接计算增强 $H$ ，将两者合并为 $A = [Z ∣ H]$ ， $∣$ 表示合并。由于训练数据的标签 $Y$ 已知，计算权重 $W=A^{-1}Y$ 即可。实际计算时，也可以用岭回归求解，即优化以下问题： $argmin_{W}||AW-Y||^{2}_{2}+\lambda||W||^{2}_{2}$ 求解得到 $W=(\lambda I+AA^{T})^{-1}A^{T}Y$

岭回归

岭回归（Ridge Regression）是回归方法的一种，属于统计方法。在机器学习中也称作权重衰减。也有人称之为Tikhonov正则化。岭回归主要解决的问题是两种：

一是当特征的维度数量超过标签的维度数量的时候；
二是数据集之间具有多重共线性，即特征之间具有相关性。

一般，回归分析如下： $y=\sum_{j=1}^{p}\beta_{j}x_{j}+\beta_{0}$ 其中， $p$ 为特征维数；

使用最小二乘法求解回归问题的最小化目标为： $\widehat{\beta}=argmin_{\beta}\sum_{i=1}^{N}(y^{(i)}-\beta_{0}-\sum_{j=1}^{p}\beta_{j}x_{j}^{(i)})$ 岭回归就是要在最小化目标上加一个惩罚： $\widehat{\beta}=argmin_{\beta}\left\{[\sum_{i=1}^{N}(y^{(i)}-\beta_{0}-\sum_{j=1}^{p}\beta_{j}x_{j}^{(i)})]+\lambda\sum_{j=1}^{p}\beta_{j}^{2}\right\}$