初学者应该知道的十大机器学习算法

来源：https://builtin.com/data-science/tour-top-10-algorithms-machine-learning-newbies

机器学习算法被描述为学习一个目标函数 (f)，它最好地将输入变量 (X) 映射到输出变量 (Y)：Y = f(X)

最常见的机器学习类型是学习映射 Y = f(X) 以针对新 X 预测 Y。这称为预测建模或预测分析，目标就是要做出最准确的预测。

机器学习算法

线性回归
逻辑回归
线性判别分析
分类和回归树
朴素贝叶斯
K-最近邻 (KNN)
学习向量量化 (LVQ)
支持向量机 (SVM)
Bagging 和随机森林
Boosting 和 AdaBoost

线性回归

线性回归是统计和机器算法中最容易理解的算法之一。

线性回归的表示是一个方程，它通过找到称为系数 (B) 的输入变量的特定权重来描述最适合输入变量 (x) 和输出变量 (y) 之间关系的直线。
在这里插入图片描述
例如：y = B0 + B1 * x
我们将在给定输入 x 的情况下预测 y，线性回归学习算法的目标是找到系数 B0 和 B1 的值。

可以使用不同的技术从数据中学习线性回归模型，例如普通最小二乘的线性代数解决方案和梯度下降优化。

逻辑回归

逻辑回归是机器学习从统计学领域借用的另一种技术。它是二进制分类问题（具有两个类值的问题）的首选方法。

逻辑回归类似于线性回归，其目标是找到加权每个输入变量的系数值。与线性回归不同，输出的预测是使用称为逻辑函数的非线性函数转换的。

逻辑函数看起来像一个大 S，会将任何值转换为 0 到 1 的范围。这很有用，因为我们可以将规则应用于逻辑函数的输出以将值捕捉到 0 和 1（例如，如果小于 0.5 则输出 1) 并预测一个类值。
逻辑回归：逻辑回归曲线图，显示通过考试的概率与学习时间的关系
由于模型的学习方式，逻辑回归所做的预测也可以用作给定数据实例属于 0 类或 1 类的概率。这对于需要给出更多理由的问题是很有用一个预测。

与线性回归一样，当您删除与输出变量无关的属性以及彼此非常相似（相关）的属性时，逻辑回归的效果会更好。这是一个快速学习的模型，并且对二元分类问题有效。

线性判别分析

逻辑回归是一种传统上仅限于两类分类问题的分类算法。如果您有两个以上的类别，则线性判别分析算法是首选的线性分类技术。

LDA 的表示非常简单。它由您的数据的统计属性组成，为每个类计算。对于单个输入变量，这包括：

每个类别的平均值。
跨所有类计算的方差。

在这里插入图片描述
通过计算每个类别的判别值并针对具有最大值的类别进行预测。假设数据具有高斯分布（钟形曲线），因此最好事先从数据中删除异常值。它是分类预测建模问题的一种简单而强大的方法。

分类和回归树

决策树是预测建模机器学习的一种重要算法。

决策树模型的表示是二叉树。这是来自算法和数据结构的二叉树，没什么花哨的。每个节点代表一个输入变量 (x) 和该变量上的一个分割点（假设变量是数字）。
在这里插入图片描述
树的叶节点包含一个输出变量 (y)，用于进行预测。通过遍历树的分裂直到到达叶节点并在该叶节点处输出类值来进行预测。

树的预测速度也很快。它们通常对于广泛的问题也很准确，并且不需要对数据进行任何特殊准备。

朴素贝叶斯

朴素贝叶斯是一种简单但功能强大的预测建模算法。

该模型由两种类型的概率组成，可以直接从您的训练数据中计算出来：
1）每个类别的概率；
2）给定每个 x 值的每个类的条件概率。
计算后，概率模型可用于使用贝叶斯定理对新数据进行预测。当数据是实值时，通常假设高斯分布（钟形曲线），以便可以轻松估计这些概率。
在这里插入图片描述
朴素贝叶斯被称为朴素，因为它假设每个输入变量都是独立的。这是一个强有力的假设，对于真实数据来说是不现实的，然而，该技术在处理大量复杂问题时非常有效。

K-最近邻 (KNN)

KNN算法非常简单，非常有效。KNN 的模型表示是整个训练数据集。

通过在整个训练集中搜索 K 个最相似的实例（邻居）并汇总这些 K 个实例的输出变量，对新数据点进行预测。

对于回归问题，这可能是平均输出变量，对于分类问题，这可能是模式（或最常见的）类值。

诀窍在于如何确定数据实例之间的相似性。 在这里插入图片描述
KNN 可能需要大量内存或空间来存储所有数据，但仅在需要预测时才及时执行计算（或学习）。这个期间你可以随着时间的推移更新和管理训练实例，以保持预测的准确性。

学习向量量化 (LVQ)

K-Nearest Neighbors 的一个缺点是需要保留整个训练数据集。

学习向量量化算法（或简称 LVQ）是一种人工神经网络算法，它允许选择要挂起的训练实例数量并准确了解这些实例的外观。

在这里插入图片描述
LVQ 的表示是码本向量的集合。这些是在开始时随机选择的，并适合在学习算法的多次迭代中最好地总结训练数据集。学习后，码本向量可以像 K-Nearest Neighbors 一样用于进行预测。通过计算每个码本向量与新数据实例之间的距离，找到最相似的邻居（最佳匹配码本向量）。然后返回最佳匹配单元的类值或（回归情况下的实际值）作为预测。
如果重新调整数据以具有相同的范围，例如在 0 和 1 之间，则可以获得最佳结果。

如果发现 KNN 在你的数据集上提供了良好的结果，可以尝试使用 LVQ 来减少存储整个训练数据集的内存需求。

支持向量机 (SVM)

支持向量机可能是最受欢迎和谈论最多的机器学习算法之一。

超平面是分割输入变量空间的线。

在 SVM 中，选择一个超平面来最好地将输入变量空间中的点按它们的类（类 0 或类 1）分开。在二维中，你可以将其可视化为一条线，假设我们所有的输入点都可以被这条线完全隔开。SVM 学习算法通过超平面找到导致类的最佳分离的系数。
在这里插入图片描述
超平面和最近数据点之间的距离称为边距。
可以分离这两个类的最佳或最优超平面是具有最大边距的线。