五分钟了解机器学习的基本概念

article/2025/11/7 3:15:55

1、人工智能、机器学习、深度学习之间的关系

2、什么是机器学习？

3、机器学习的常见问题之过拟合

4、如何克服过拟合？

5、机器学习的类型

6、分类和回归

1、人工智能、机器学习、深度学习之间的关系

总的来说，深度学习时机器学习的一个子类，而机器学习又是人工智能的一个子类。

人工智能是一个非常宽泛的概念，它可以代指任何形式的蕴含某些智能特性的技术，并非特指某一特定技术领域。而机器学习则指一个特定领域，用于指代人工智能的一个特定类别。而进一步的，机器学习也包含很多技术，深度学习就是其中之一。

2、什么是机器学习？

简单地说，机器学习其实就是一种对数据的建模技术，（就我个人看来也像是一种数据处理的算法模型），是一种从数据抽象出模型的技术。数据可以是各种信息，如文档、图像等等，模型就是机器学习的产物。

//就我个人的理解来看，机器学习就是通过海量的数据集合，来对你所建立的模型进行训练，使其达到一个预期的效果，最终生成一个可靠的模型。

在完成一个模型的建模之后，可以完成推理。（即根据新的数据输入，通过模型后得到一个输出）。而训练数据和输入数据之间存在的差异是机器学习面临的结构下挑战，也是一切问题的根源。

机器学习无法基于错误的训练数据来实现预期目标，就像给新生的婴儿几个苹果，一会儿告诉你是苹果，一会儿告诉你是梨子，一会儿又说是西瓜，他永远不会知道到底什么是苹果。所以，获取能够充分反应实际领域据特征的无偏训练数据至关重要。

这里需要提到一个概念，泛化（generalization）：确保模型对于训练数据与输入数据能够获得一致性能的处理过程。机器学习能否成功很大程度上取决于泛化的有效程度。

3、机器学习的常见问题之过拟合

泛化过程失效的主要诱因之一就是过拟合。这是一个训练模型时十分常见的问题。下面举一个例子进行简单的描述。

例如，我们需要利用机器学习对两类数据点进行分类。我们以两类数据的特征坐标画出一幅散点图：

此时我们需要建立一个模型对两者进行分类，实际上也就是得到一条区分两者的边界

如图所示，虽然存在一定的数据点偏离，但曲线似乎是一条比较合理的边界。

如果我们要以完美的边界对所有数据点进行划分呢？能否正确地反映普适的行为特征呢？

完美的边界如上图所示，针对这样的模型，如果有一个新的数据（正方形）输入，能否得到一个准确的划分呢？

这个完美的边界模型将黑色方形划分为△，但实际上它应该属于黑色圆更加合理，为什么对训练数据的100%准确率匹配会产生问题呢？

其实，在大量的训练数据中，存在的大量的噪声，就比如上述的一些偏离了的数据点。但机器学习无法区分噪声，如果过分要求区分所有训练集数据，他将会生成一个不合理的模型，而对后续所需要判定的实际数据的判定产生误差。

如果认为训练数据中的每一个元素都是准确的，并且精准匹配模型，这将会得到一个普适性较低的模型，这就是过拟合。就比如，你拿出三个苹果，十分强硬地和婴儿宝宝说这就是苹果，其他的就算很像也不是苹果，只有这三个才是苹果。这样，如果再拿来一个新的没有见过的苹果，婴儿宝宝也会觉得这个东西不是刚见过的苹果，所以判断失误，这其实就是过拟合的概念。