Tensorflow2.0 MSE（均方误差）和 Cross Entropy（交叉熵）

article/2025/11/6 15:50:29

什么是MSE？

参数估计中均方误差是指参数估计值与参数真值之差平方的期望值，记为MSE
MSE（均方误差）在深度学习中主要用来求损失函数，既真实值和预测值之间的误差。
在这里插入图片描述
公式中的y是真实值，out是你计算出来的值，让它们求和累加再除以N（N是你进行前向传播时你设置的batch）

在这里插入图片描述

要理解什么的交叉熵就要先知道什么是熵？
事实上，熵的英文原文为entropy，最初由德国物理学家鲁道夫·克劳修斯提出，其表达式为：在这里插入图片描述
它表示一个系系统在不受外部干扰时，其内部最稳定的状态。

1948年，香农Claude E. Shannon引入信息（熵），将其定义为离散随机事件的出现概率。一个系统越是有序，信息熵就越低；反之，一个系统越是混乱，信息熵就越高。所以说，信息熵可以被认为是系统有序化程度的一个度量。
若无特别指出，下文中所有提到的熵均为信息熵。

熵：如果一个随机变量X的可能取值为X = {x1, x2,…, xk}，其概率分布为P(X = xi) = pi（i = 1,2, …, n），则随机变量X的熵定义为：
在这里插入图片描述
把最前面的负号放到最后，便成了：

交叉熵是指两个分布之间的信息标准。叉熵可在神经网络(机器学习)中作为损失函数，p表示真实标记的分布，q则为训练后的模型的预测标记分布，交叉熵损失函数可以衡量p与q的相似性。
在这里插入图片描述

在这里插入图片描述

交叉熵作为损失函数还有一个好处是使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题，因为学习速率可以被输出的误差所控制。

损失函数梯度对比-均方差和交叉熵