如上文提到的贝叶斯公式,《朴素贝叶斯分类: 使用案例》,可以使用它来做文本分类:
【已知:样本中每个分类下的单词概率ceilPencent, 样本的分类占比(也即概率分布)bodyPencent】
来了一篇文章, 求: 属于哪个分类?
==> 来了好多单词,求: 它们归属于哪个分类?
下面来分析一下: 哪个是P(A), 哪个是P(B) ?
什么是先验概率?后验概率?
从历史出发, 了解下贝叶斯公式的由来:贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章
在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”,如:“假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大”。而一个自然而然的问题是反过来:(这个问题,就是所谓的逆概问题)“如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,要如何反向推测出袋子里面的黑白球的比例”。
在贝叶斯去世后,理查德普莱斯在贝叶斯的论文中发现了贝叶斯的论文中的著名的定理:
....很容易看出本文中解决的相反问题更直接适用于这个目的;
因为它引起了我们的注意,清晰度和精确度:
在任何特定顺序或事件的重复性的每种情况下,有什么理由认为这种重复性或顺序来自稳定的原因或法规,而不是任何不规则的机会。(伦敦皇家学会的哲学交易,1763年)
通俗的讲,先验概率就是:人的经验知识,如:打雷了–>意味着将要下雨, 冬天来了–>会降温了…
后验概率:根据已知的结果,推测出事情发生的原因 是什么 ! 如 : 菜变酸了, 可能是什么原因呢? ( 1:加醋了, 2:变质了),到底是什么原因发生的呢? 贝叶斯可以给你提供解决思路: