朴素贝叶斯法

总述

朴素贝叶斯法是基于贝叶斯定理与特征条件独立性假设的分类方法。对于给定的训练数据集，首先基于特征独立性假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入 $x$ ，利用贝叶斯定理求出后验概率最大的输出 $y$ 。朴素贝叶斯法实际上学到了生成数据的机制，属于生成模型。

1 朴素贝叶斯法的学习与分类

1.1 基本方法

设输入空间 $x$ 包含于 $R^n$ 是 $n$ 维向量的集合，输出空间为类标记集合 $y =$ { $c_1, c_2, ..., c_k$ }。输入为特征向量 $x$ ，输出为类标记 $y$ 。 $X$ 是定义在输入空间 $x$ 上的随机变量， $Y$ 是定义在输出空间 $y$ 上的随机变量。 $p (X, Y)$ 是 $X$ 和 $Y$ 的联合概率分布。训练数据集
$T =$ { $x_1,y_1), (x_2,y_2),..., (x_N,y_N)$ }由 $p (X, Y)$ 独立同分布产生。
朴素贝叶斯法通过训练数据集 $T$ 学习联合概率分布 $p (X, Y)$ ，具体的，学习以下先验分布即条件概率分布：

先验分布： $p(Y=c_k), k=1, 2, ..., K$
条件概率分布： $p(X=x|Y=c_k)=p(X^1=x^1, X^2=x^2, ..., X^n=x^n|Y=c^k), k=1, 2, ..., K.$

由于条件概率分布 $p(X=x|Y=c^k)$ 具有指数级数量的参数（即：假设 $x^j$ 可取值 $S_j$ 个， $j = 1, 2, . . ., n$ ； $Y$ 可取值 $k$ 个，则参数个数为 $k$ × $S_1×S_2×,...,×S_n$ ），因此，朴素贝叶斯法对条件概率分布做了条件独立性的假设，其为：
Alt
以上的条件独立性假设等于是说用于分类的特征在类确定的条件下都是条件独立的。
朴素贝叶斯法分类时，对于给定的输入 $x$ ，通过学到的模型计算后验概率分布 $p(Y=c_k|X=x)$ ，将后验概率最大的类作为 $x$ 的类输出。后验概率计算根据贝叶斯定理进行：
在这里插入图片描述
朴素贝叶斯分类器可表示为：

可等价于：

1.2 后验概率最大化的含义

朴素贝叶斯法将实例分到后验概率最大的类中，这等价于期望风险最小化。假设选择0-1损失函数：
在这里插入图片描述
式中 $f (x)$ 是分类决策函数。这时，期望风险函数为
$R_exp(f)=E(L(Y,f(x)))$ 期望是对联合分布 $p (X, Y)$ 取的，由此取条件期望

为了使期望风险最小化，只需要对 $X = x$ 逐个极小化，由此得到：

这样，根据期望风险最小化准则，就得到了后验概率最大化准则：

2 朴素贝叶斯法的参数估计

2.1 极大似然估计

朴素贝叶斯法的学习意味着估计 $p(Y=c_k)$ 和 $p(X^j=x^j|Y=c_k)$ 。可以应用极大似然估计法估计相应的概率：

先验概率的极大似然估计：
条件概率的极大似然估计：

式中， $x_i^j$ 是第 $i$ 个样本的第 $j$ 个特征； $a_il$ 是第 $j$ 个特征可能取的第 $l$ 个值； $I$ 为指示函数。

2.2 学习与分类算法

算法：朴素贝叶斯算法：
输入：训练数据集 $T =$ { $x_1,y_1), (x_2,y_2),..., (x_N,y_N)$ }，其中 $x_i$ = $x_i^1, x_i^2, ..., x_i^n)^T$ ， $x_i^j$ 是第 $i$ 个样本的第 $j$ 个特征， $x_i^j$ ∈{ $a_j1, a_j2, ..., a_jS_j$ }， $a_jl$ 为第 $j$ 个特征可能取的第 $l$ 个值， $j=1, 2, ...,n, l=1, 2, ..., S_j, y_i∈$ { $c_1, c_2, ..., c_k$ }；实例 $x$ ；
输出：实例 $x$ 的分类

计算先验概率及条件概率：
对于给定的实例 $x=(x_1, x_2, ..., x_n)^T$ ，计算
确定实例 $x$ 的类

2.3 贝叶斯估计

用极大似然估计可能会出现所要估计的概率值为0的情况，这时会影响到后验概率的计算结果，使分数产生偏差。解决这一问题的方法是采用贝叶斯估计，具体地，条件概率的贝叶斯估计是
在这里插入图片描述
等价于在随机变量各个取值的频数上赋予一个整数 $\lambda>0$ 。当 $\lambda=0$ 时就是极大似然估计；常取 $\lambda=1$ ，这时称为拉普拉斯估计。
同样的，先验概率的贝叶斯估计是

总结

朴素贝叶斯法是典型的生成学习方法，生成方法由训练数据学习联合改了分布 $p (X, Y)$ ，然后计算后验概率分布 $p (Y ∣ X)$ 。具体来说，利用训练数据学习 $p (X ∣ Y)$ 和 $p (Y)$ 的估计，得到联合概率分布
$p (X, Y) = p (Y) p (X ∣ Y)$ 概率估计方法可以是极大似然估计或贝叶斯估计。