第四章朴素贝叶斯法

article/2025/10/3 14:02:10

文章目录

朴素贝叶斯法的学习与分类
- 基本方法
- - 数据定义
  - 学习联合概率分布
  - - 如何求出条件概率分布？
    - 如何分类？
  - 后验概率最大化的含义
朴素贝叶斯的参数估计法
- 极大似然估计
- 学习分类算法
- 贝叶斯估计

朴素贝叶斯法（与贝叶斯估计是不同的概念）是基于 贝叶斯定理与 特征条件独立假设的分类方法。

给定训练数据集：

基于特征独立假设学习输入输出的联合概率分布；
基于此模型，对给定输入 $x$ ，利用贝叶斯定理求出后验概率最大的输出 $y$ 。

朴素贝叶斯法的学习与分类

基本方法

数据定义

设输入空间 $\mathbb{X}\subseteq R$ 为 $n$ 维向量的集合，输出空间为类标记集合 $\mathbb{Y}=\{c_1,c_2,...,c_K\}$ 。输入为特征向量 $x\in\mathbb{X}$ ，输出为类标记 $y\in\mathbb{Y}$ 。 $X$ 是定义在输入空间 $\mathbb{X}$ 上的随机变量， $Y$ 是定义在输出空间 $\mathbb{Y}$ 上的随机变量。 $P (X, Y)$ 是 $X, Y$ 的联合概率分布。

训练数据集 $T$ ，由 $P (X, Y)$ 独立同分布产生。

学习联合概率分布

首先学习先验概率分布： $P(Y=c_k),k=1,2,...,K$
接着学习条件概率分布： $P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)},X^{(2)}=x^{(2)},...,X^{(n)}=x^{(n)}|Y=c_k)$

如何求出条件概率分布？

根据我在概率论的所学，参数估计的方法有矩估计和极大似然估计。

朴素贝叶斯法对条件概率分布做了条件独立性假设。这是一个比较强的假设。具体而言，条件独立性假设是： $P(X=x|Y=c_k)=\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k)$

朴素贝叶斯实际上是学习到生成数据的机制，属于生成模型。

条件独立假设等于是说：用于分类的特征在类确定的条件下都是条件独立的。

如何分类？

朴素贝叶斯分类时，对给定的输入 $x$ ，通过学习到的模型计算后验概率分布 $P(Y=c_k|X=x)$ ，将后验概率最大的类作为 $x$ 的类输出。

后验概率的计算公式为朴素贝叶斯定理： $P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_kP(X=x|Y=c_k)P(Y=c_k)}$

于是朴素贝叶斯的分类器可以表示为 $y=\argmax_{c_k}P(Y=c_k|X=x)$

后验概率最大化的含义

在这里插入图片描述
换句话说， $f (X)$ 给出了一个分类，凡是和 $y$ 不一样的 $c_k$ ，通通都算了一遍它的条件概率的和，然后我们希望这个和要小，所以希望 $y$ 的结果是条件概率最大的 $y$ ，这样就把最大的损失给择出去了。

朴素贝叶斯的参数估计法

极大似然估计

极大似然估计的思想就是要让我观测到的，一定是概率大的。于是演变为了求频率的样子。

先验概率 $P(Y=c_k)$ 的极大似然估计是 $P(Y=c_k)=\frac{\sum_{i=1}^NI(y_i=c_k)}{N}$

设第 $j$ 个特征 $x^{(j)}$ 可能取值集合为 ${a_{j1},a_{j2},...a_{jS_j}\}$ ，则条件概率的极大似然估计是（注意，这里算的是特征的条件概率） $P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)}{\sum_{i=1}^NI(y_i=c_k)}$