机器学习:朴素贝叶斯的应用之垃圾邮件过滤

article/2025/10/4 5:34:23

机器学习:朴素贝叶斯的应用之垃圾邮件过滤

文章目录

  • 机器学习:朴素贝叶斯的应用之垃圾邮件过滤
    • 1.相关概念
      • 1.条件概率:
      • 2.贝叶斯公式:
      • 3.拉普拉斯平滑:
    • 2.朴素贝叶斯分类器
      • 1.根据已知数据计算先验概率以及条件概率
      • 2.根据MAP分类准则与贝叶斯准则判定样例
      • 注意点:
    • 3.垃圾邮件的过滤(python实现)
        • 1.数据集介绍
        • 2.数据预处理
        • 3.构造朴素贝叶斯分类器
        • 4.测试并获得测试结果
        • 完整代码

1.相关概念

1.条件概率:

条件概率是指某一事件A发生的可能性,表示P(A)。而条件概率指的是某一事件A已经发生了条件下,另一事件B发生的可能性,表示为P(B|A)。
怎么计算条件概率呢?设A,B是两个独立事件,且P(A)>0,称P(B|A)=P(AB)/P(A)为在事件A发生的条件下,事件B发生的条件概率。P(AB)表示事件A和B同时发生的概率。

image-20221129110003527

例如在上述数据中,要计算在已知Play Tennis成立时Outlook是Sunny的概率,这个时候其实就是在算条件概率。

假设事件A为Play Tennis成立,事件B为Outlook是Sunny,则根据表中数据可知P(AB)=2/14,P(A)=9/14 则P(B|A)=P(AB)/P(A)=2/9

2.贝叶斯公式:

当已知引发事件发生的各种原因的概率,想要算该事件发生的概率时,我们可以用全概率公式。image-20221129112015304

但是如若现在反过来,已知事件已经发生了,但是想要计算引发该事件的各种原因的概率时,我们就需要用到贝叶斯公式。

image-20221129112031654

简单变换可得

image-20221129112055576

3.拉普拉斯平滑:

零概率:在计算事件的概率时,如果某个事件在观察样本库(训练集)中没有出现过,会导致该事件的概率结果是0。但是对于实际情况来说这是不合理的,不能因为一个事件没有观察到,就被认为该事件一定不可能发生(即该事件的概率为0)。这时就需要我们的拉普拉斯平滑(Laplacian smoothing) 。
拉普拉斯平滑指的是,假设N表示训练数据集总共有多少种类别,Ni表示训练数据集中第i总共有多少种取值。则训练过程种在算类别的概率时分子加1,分母加N,算条件概率时分子加1,分母加Ni。

2.朴素贝叶斯分类器

由贝叶斯公式可以推断朴素贝叶斯分类器是一个生成式模型(建立条件概率模型用于求解最大化后验模型)

以上述天气与是否打球数据为例,分析贝叶斯分类器的步骤

假设要求已知样例image-20221129131530824的类别

将其归类在Play Tennis=Yes或Play Tennis=No上

1.根据已知数据计算先验概率以及条件概率

image-20221129131419359

image-20221129131720691

2.根据MAP分类准则与贝叶斯准则判定样例

image-20221129132147676

注意点:

当遇到连续型数据时通过高斯分布计算
image-20221129132510909

训练集中属性值未出现的情况下要进行“拉普拉斯修正”
image-20221129132526188

当属性数量多的情况下,导致累乘结果下溢。采用防溢出策略(累乘变累加)

image-20221129132533381

3.垃圾邮件的过滤(python实现)

1.数据集介绍

此数据集包含训练集train与测试集test ,训练集里包含24个以txt格式存储的普通邮件文本与24个以txt格式存储的垃圾邮件文本,测试集里包含普通邮件与垃圾邮件文本各一个,结构树如下

├─ Emails

│ ├─ test

│ │ ├─ normal.txt

│ │ └─ spam.txt

│ └─ Training

│ ├─ normal

│ │ ├─ 1.txt

│ │ ├─ 10.txt

│ │ ├─ 11.txt

│ │ ├─ …

│ └─ spam

│ ├─ 1.txt

│ ├─ 14.txt

│ ├─ 15.txt

│ ├─ …

2.数据预处理

邮件的具体内容基本类似:

image-20221129134930710

需要对每一封邮件进行切割处理,得到包含所有词语的列表

具体的分割方法参考Python读取有空行的txt文件+将内容分割保存到列表中

def load_file(path):cab = []for i in range(1,25):data = open(path % i)for line in data.readlines():cab.append(line.strip().split(','))cab_f = []for i in range(len(cab)):for j in range(len(cab[i])):if cab[i][j] != '':cab_f.append(cab[i][j].strip())cab_final = []for i in cab_f:for j in i.split(' '):cab_final.append(j)return cab_final

3.构造朴素贝叶斯分类器

def bayes(sample):path1 = './Emails/Training/normal/%d.txt'path2 = './Emails/Training/spam/%d.txt'normal_data = load_file(path1)spam_data = load_file(path2)# 计算p(x|C1)=p1与p(x|C2)=p2p1 = 1.0p2 = 1.0for i in range(len(sample)):x = 0.0for j in normal_data:if sample[i] == j:x = x + 1.0p1 = p1 * ((x + 1.0) / (len(normal_data) + 2.0))  # 拉普拉斯平滑for i in range(len(sample)):x = 0.0for j in spam_data:if sample[i] == j:x = x + 1.0p2 = p2 * ((x + 1.0) / (len(spam_data) + 2.0))  # 拉普拉斯平滑pc1 = len(normal_data) / (len(normal_data) + len(spam_data))pc2 = 1 - pc1if p1 * pc1 > p2 * pc2:return 'normal'else:return 'spam'

4.测试并获得测试结果

def test(path):data = open(path)cab = []for line in data.readlines():cab.append(line.strip().split(','))cab_f = []for i in range(len(cab)):for j in range(len(cab[i])):if cab[i][j] != '':cab_f.append(cab[i][j].strip())cab_final = []for i in cab_f:for j in i.split(' '):cab_final.append(j)return bayes(cab_final)print(test('Emails/test/normal.txt'))
print(test('Emails/test/spam.txt'))

输出结果:

image-20221129135707029

算法对于测试集中的邮件分类是正确的。

查看算法在训练集上多个邮件分类时的准确率

if __name__ == '__main__':sum1 = 0sum2 = 0# 再试试训练集for i in range(1, 25):if test('Emails/Training/normal/%d.txt' % i) == 'normal':sum1 = sum1 + 1for i in range(1, 25):if test('Emails/Training/spam/%d.txt' % i) == 'spam':sum2 = sum2 + 1print('normal分类正确率:', sum1 / 24)print('spam分类正确率:', sum2 / 24)

输出结果:

image-20221129135828564

算法在训练集上的分类正确率很高,分类效果很好。

完整代码

import osdef load_file(path):cab = []for i in range(1,25):data = open(path % i)for line in data.readlines():cab.append(line.strip().split(','))cab_f = []for i in range(len(cab)):for j in range(len(cab[i])):if cab[i][j] != '':cab_f.append(cab[i][j].strip())cab_final = []for i in cab_f:for j in i.split(' '):cab_final.append(j)return cab_final# 朴素贝叶斯分类器
def bayes(sample):path1 = './Emails/Training/normal/%d.txt'path2 = './Emails/Training/spam/%d.txt'normal_data = load_file(path1)spam_data = load_file(path2)# 计算p(x|C1)=p1与p(x|C2)=p2p1 = 1.0p2 = 1.0for i in range(len(sample)):x = 0.0for j in normal_data:if sample[i] == j:x = x + 1.0p1 = p1 * ((x + 1.0) / (len(normal_data) + 2.0))  # 拉普拉斯平滑for i in range(len(sample)):x = 0.0for j in spam_data:if sample[i] == j:x = x + 1.0p2 = p2 * ((x + 1.0) / (len(spam_data) + 2.0))  # 拉普拉斯平滑pc1 = len(normal_data) / (len(normal_data) + len(spam_data))pc2 = 1 - pc1if p1 * pc1 > p2 * pc2:return 'normal'else:return 'spam'# 测试
def test(path):data = open(path)cab = []for line in data.readlines():cab.append(line.strip().split(','))cab_f = []for i in range(len(cab)):for j in range(len(cab[i])):if cab[i][j] != '':cab_f.append(cab[i][j].strip())cab_final = []for i in cab_f:for j in i.split(' '):cab_final.append(j)return bayes(cab_final)if __name__ == '__main__':# print(test('Emails/test/normal.txt'))# print(test('Emails/test/spam.txt'))sum1 = 0sum2 = 0# 再试试训练集for i in range(1, 25):if test('Emails/Training/normal/%d.txt' % i) == 'normal':sum1 = sum1 + 1for i in range(1, 25):if test('Emails/Training/spam/%d.txt' % i) == 'spam':sum2 = sum2 + 1print('normal分类正确率:', sum1 / 24)print('spam分类正确率:', sum2 / 24)

http://chatgpt.dhexx.cn/article/GylmRFO4.shtml

相关文章

【机器学习】贝叶斯算法详解 + 公式推导 + 垃圾邮件过滤实战 + Python代码实现

文章目录 一、贝叶斯简介二、贝叶斯公式推导三、拼写纠正案例四、垃圾邮件过滤案例4.1 问题描述4.2 朴素贝叶斯引入 五、基于朴素贝叶斯的垃圾邮件过滤实战5.1 导入相关库5.2 邮件数据读取5.3 构建语料表(字典)5.4 构建训练集的特征向量5.5 朴素贝叶斯算…

实现垃圾邮件过滤(Python3实现)

实验代码: import os import re import string import mathDATA_DIR enron target_names [ham, spam]def get_data(DATA_DIR):subfolders [enron%d % i for i in range(1, 7)]data []target []for subfolder in subfolders:# spamspam_files os.listdir(os.pa…

机器学习之朴素贝叶斯实现垃圾邮件过滤

一.朴素贝叶斯概述 朴素贝叶斯法是基于贝叶斯定理与特征条件独立性假设的分类方法。对于给定的训练集,首先基于特征条件独立假设学习输入输出的联合概率分布(朴素贝叶斯法这种通过学习得到模型的机制,显然属于生成模型)&#xff…

基于逻辑回归方法完成垃圾邮件过滤任务

一、基于逻辑回归方法完成垃圾邮件过滤任务 1、✌ 任务描述 我们日常学习以及工作中会收到非常多的邮件,除了与学习工作相关的邮件,还会收到许多垃圾邮件,包括广告邮件、欺诈邮件等等。本任务通过邮件中包含的文本内容来判断该邮件是正常邮…

【机器学习实战】朴素贝叶斯应用之垃圾邮件过滤

1.什么是朴素贝叶斯2.贝叶斯公式3.朴素贝叶斯常用的三个模型4.朴素贝叶斯实现垃圾邮件过滤的步骤5.垃圾邮件过滤实验:(一)、准备收集好的数据集,并下载到本地文件夹(二)、朴素贝叶斯分类器训练函数&#xf…

贝叶斯垃圾邮件过滤

贝叶斯垃圾邮件过滤 译自From Wikipedia, the free encyclopedia 贝叶斯垃圾邮件过滤是一种筛选电子邮件的统计技术。在它的基本形式中,它使用天真贝叶斯分类器在词特征包上识别垃圾电子邮件,这是一种在文本分类中常用的方法。 天真贝叶斯分类器通过使用…

【布隆过滤器】如何防止缓存穿透、海量邮箱的垃圾邮件过滤等问题?

目录 一、布隆过滤器是什么? 二、布隆过滤器的模拟实现 2.1、模拟实现 2.2、布隆过滤器的优点和缺点 优点: 缺点: 2.3、布隆过滤器的删除功能 2.4、布隆过滤器的使用场景 一、布隆过滤器是什么? 它是一种概率型数据结构&am…

垃圾邮件过滤挑战

垃圾邮件过滤挑战 随着网络应用的逐渐发展,电子邮件成为人们日常工作生活中不可分割的一部分。与此同时,垃圾邮件的问题困扰着许多电子邮件的使用者,它们不仅为电子邮件的使用者带来阅读负担,更占用了有限的邮箱空间。为此本研究…

基于C#的机器学习--垃圾邮件过滤

在这一章,我们将建立一个垃圾邮件过滤分类模型。我们将使用一个包含垃圾邮件和非垃圾邮件的原始电子邮件数据集,并使用它来训练我们的ML模型。我们将开始遵循上一章讨论的开发ML模型的步骤。这将帮助我们理解工作流程。 在本章中,我们将讨论以…

基于内容的垃圾邮件过滤

1 引言 电子邮件(E-mail)以其方便、快捷、低成本的独特魅力成为人们日常生活中不可缺少的通信手段之一。但电子邮件给人们带来极大便利的同时,也日益显示出其负面影响,那就是我们每天收到的邮件中有很大一部分是那种“不请自来”…

朴素贝叶斯——垃圾邮件过滤

文章目录 利用朴素贝叶斯进行文档分类1、获取数据集2、切分文本3、构建词表和分类4、构建分类器5、测试算法 利用朴素贝叶斯进行垃圾邮件过滤1、导入数据集2、垃圾邮件预测 总结 利用朴素贝叶斯进行文档分类 1、获取数据集 下载数据集,获取到一些邮件文档。其中ha…

贝叶斯算法:垃圾邮件过滤

准备 100封邮件,50封垃圾邮件和50封正常邮件参考 : 贝叶斯算法原理 程序过程解释 垃圾邮件分类的数学基础是贝叶斯推断(bayesian inference)。整个程序过程主要有以下几个部分构成: step 1 : 提取邮件并处理 1、使用 TDirectory.GetFiles(xPat…

毕业设计-基于深度学习的垃圾邮件过滤系统的设计与实现

目录 前言 课题背景和意义 实现技术思路 实现效果图样例 前言 📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科…

机器学习:朴素贝叶斯算法与垃圾邮件过滤

简介 贝叶斯算法是由英国数学家托马斯贝叶斯提出的,这个算法的提出是为了解决“逆向概率”的问题。首先我们先来解释下正向概率与逆向概率的含义: 正向概率:假设一个箱子里有5个黄色球和5个白色球,随机从箱子里拿出一个球&#…

朴素贝叶斯算法--垃圾邮件过滤

文章目录 一、朴素贝叶斯概述1、贝叶斯决策理论2、条件概率3、朴素贝叶斯4、朴素贝叶斯一般过程 二、朴素贝叶斯算法--垃圾邮件1、准备数据:从文本中构建词向量2、训练算法:从词向量计算概率3、测试算法:根据现实情况修改分类器5、垃圾邮件分…

机器学习-朴素贝叶斯过滤垃圾邮件

一、朴素贝叶斯实现垃圾邮件分类的原理 什么是朴素贝叶斯算法:用贝叶斯定理来预测一个未知类别的样本属于各个类别的可能性,选择可能性最大的一个类别作为该样本的最终类别。 用这个算法处理垃圾邮件就可以理解为:用贝叶斯定理来预测一封由若干个单词组成…

机器学习项目(一)——垃圾邮件的过滤技术

一、垃圾邮件过滤技术项目需求与设计方案 二、数据的内容分析 (1、是否为垃圾邮件的标签,spam——是垃圾邮件;ham——不是垃圾邮件) (2、邮件的内容分析——主要包含:发件人、收件人、发件时间以及邮件的内…

多线程的闭锁和栅栏

多线程的闭锁和栅栏 JAVA并发包中有三个类用于同步一批线程的行为,分别是闭锁(Latch),信号灯(Semaphore)和栅栏(CyclicBarrier)。这里我们主要来介绍一下: 闭锁&#x…

分布式锁(Distributed Lock)理论介绍

在多线程环境中,线程之间通常使用互斥锁实现共享资源的独占访问。在多进程环境,特别是分布式环境,常使用分布式锁来实现共享资源的独占访问。简单来说,分布式锁就是指在分布式环境下,通过加解锁实现多节点对共享资源的…