2、机器学习三要素之数据、模型、算法

注：本系列课程源于李烨 · (微软高级软件工程师)老师的文档在gitbook 上可以买到李老师课程。

机器学习三要素包括数据、模型、算法。简单来说，这三要素之间的关系，可以用下面这幅图来表示：

总结成一句话：算法通过在数据上进行运算产生模型。

下面我们先分别来看三个要素。

数据

关于数据，其实我们之前已经给出了例子。

源数据

上一篇中，图1老鼠和其他动物和图2小马宝莉六女主就是现实中的两份样本集合。如果我们要训练“老鼠分类器”，或者做“小马种族聚类” 分析的话，它们就是原始数据（Raw Data）。

不过，我们之前也说了，计算机能够处理的是数值，而不是图片或者文字。

向量空间模型和无标注数据
那么，我们就需要构建一个向量空间模型（Vector Space Model/VSM）。VSM 负责将一个个各种格式（文字、图片、音频、视频）转化为一个个向量。

然后开发者把这些转换成的向量输入给机器学习程序，数据才能够得到处理。

比如图2小马宝莉中的6为女主角，我们要给她们做聚类，而且已经知道了，要用她们的两个特征来做聚类，这两个特征就是：独角和翅膀。

那么我们就可以定义一个二维的向量 A=[a_1,a_2]。a_1 表示是否有独角，有则 a_1 = 1, 否则 a_1 = 0。而 a_2表示有否翅膀。

那么按照这个定义，我们的6匹小马最终就会被转化为下面6个向量：

    X_1 = [1,0]X_2 = [0,0]X_3 = [0,0]X_4 = [0,1]X_5 = [0,1]X_6 = [1,0]

这样，计算机就可以对数据 X_1，……，X_6 进行处理了。这6个向量也就叫做这份数据的特征向量（Feature Vector）。

这是无标注数据。

有标注数据

和无标注对应的是有标注。

数据标注简单而言就是给训练样本打标签。这个标签是依据我们的具体需要给样本打上的。

比如，我们要给一系列图标做标注，所有图片分为两类：“猫”或者“不是猫”。那么就可以标注成下图这样：

我们把样本的标签用变量 y 表示，一般情况下，y 都是一个离散的标量值。

标注数据当然也要提取出特征向量 X。每一个标注样本既有无标注样本拥有的 X，同时还比无标注样本多了一个 y。例如：

我们用三维特征向量 X 表示老鼠分类器的源数据，每一维分别对应“耳朵是圆的”，“有细长尾巴”，“是尖鼻子”。同时用一个整型值 y 来表示是否老鼠，是的话 y=1，否则 y=0。

那么图1老鼠和其他动物对应的数据就是这样的：

    X_1 = [1,1,1]; y = 1X_2 = [1,1,1]; y = 1X_3 = [1,1,1]; y = 1X_4 = [1,1,1]; y = 1X_5 = [1,1,1]; y = 1X_6 = [0,1,1]; y = 0X_7 = [0,0,0]; y = 0X_8 = [0,1,0]; y = 0X_9 = [0,0,1]; y = 0

在数据转换到 VSM 之后，机器学习程序要做的就是把它交给算法，通过运算获得模型。

大家已经看到了，我们之所以能把具体的一些列童话人物转化为2维或者3维的向量，是因为我们已经确定了对某些人物用哪些特征。

这里其实有两步：

确定用哪些特征来表示数据；
确定用什么方式表达这些特征。
这两步做的事情就叫做特征工程。有了特征工程，才有下一步的 VSM 转换。

在机器学习中，特征工程是非常重要的。以后的章节中，我们会单独讲。