基于Python数据挖掘的文本数据的分类与分析

article/2025/10/5 8:12:31

目录

  1. 数据获取 2
  2. 数据预处理 2
  3. 建立词典 4
  4. 生成词向量 6
  5. 贝叶斯分类器 7
  6. SVM 10
  7. 逻辑回归 12
  8. 实验总结与反思 14
    实验一 文本数据的分类与分析
    【实验目的】
    1.掌握数据预处理的方法,对训练集数据进行预处理;
    2.掌握文本建模的方法,对语料库的文档进行建模;
    3.掌握分类算法的原理,基于有监督的机器学习方法,训练文本分类器;
    4.利用学习的文本分类器,对未知文本进行分类判别;
    5.掌握评价分类器性能的评估方法。
    【实验类型】
    数据挖掘算法的设计与编程实现。

【实验要求】
1.文本类别数:>=10 类;
2.训练集文档数:>=50000 篇;每类平均 5000 篇。
3.测试集文档数:>=50000 篇;每类平均 5000 篇。
4.分组完成实验,组员数量<=3,个人实现可以获得实验加分。
【实验内容】
利用分类算法实现对文本的数据挖掘,主要包括:
1.语料库的构建,主要包括利用爬虫收集 Web 文档等;
2.语料库的数据预处理,包括文档建模,如去噪,分词,建立数据字典,使用词袋模型或主题模型表达文档等;
注:使用主题模型,如 LDA 可以获得实验加分;
3.选择分类算法(朴素贝叶斯(必做)、SVM/其他等),训练文本分类器,理解所选的分类算法的建模原理、实现过程和相关参数的含义;
4.对测试集的文本进行分类
5.对测试集的分类结果利用正确率和召回率进行分析评价:计算每类正确率、召回率,计算总体正确率和召回率。
【实验分析与总结】

"""
SVM建模与评价
"""import pickle
import timeimport numpy as np
import pandas as pd
from scipy.sparse import load_npz
from sklearn import metrics
from sklearn.svm import SVCclass_list = {'财经': 'Economics', '房产': 'House', '社会': 'Society', '时尚': 'Fashion', '教育': 'Education','科技': 'Technology', '时政': 'Politics', '体育': 'PE', '游戏': 'Game', '娱乐': 'Entertainment'}coo_test = load_npz('coo_test.npz')
# print(coo_test)
coo_train = load_npz('coo_train.npz')
# print(coo_train)
class_arr = np.array([int(i / 5000) for i in range(50000)])model = SVC(kernel='rbf', C=6, gamma=0.001)
start = time.time()
model.fit(coo_train.tocsr(), class_arr)
end = time.time()
print('Train time: %s Seconds' % (end - start))
start = time.time()
pre = model.predict(coo_test.tocsr())
end = time.time()
print('Test time: %s Seconds' % (end - start))
print(pre)
with open('pkls/svm_pre.pkl', 'wb') as f:pickle.dump(pre, f)# with open('pkls/svm_pre.pkl', 'rb') as f:
#     pre = pickle.load(f)# 混淆矩阵
C = metrics.confusion_matrix(class_arr, pre)
confusion_matrix = pd.DataFrame(C, columns=class_list.values(),index=class_list.values())
confusion_matrix.to_csv('Confusion_Matrix_SVM.csv')
with open('pkls/confusion_matrix_svm.pkl', 'wb') as f:pickle.dump(C, f)
print("混淆矩阵为:\n", C)
# 计算准确率(accuracy)
accuracy = metrics.accuracy_score(class_arr, pre)
print("准确率为:\n", accuracy)
# 计算精确率(precision)
precision = metrics.precision_score(class_arr, pre, average=None)
print("精确率为:\n", precision)
print('均值{:.4f}\n'.format(sum(precision) / 10))
# 计算召回率(recall)
recall = metrics.recall_score(class_arr, pre, average=None)
print("召回率为:\n", recall)
print('均值{:.4f}\n'.format(sum(recall) / 10))
# 计算F1-score(F1-score)
F1_score = metrics.f1_score(class_arr, pre, average=None)
print("F1值为:\n", F1_score)cp = metrics.classification_report(class_arr, pre)
print("---------------分类报告---------------\n", cp)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


http://chatgpt.dhexx.cn/article/Xbg1hilT.shtml

相关文章

使用VS2015编译JSBSim

1.说明 最近在研究JSBSim的代码&#xff0c;首先百度了一些JSBSim相关的文档和教程&#xff0c;有一篇《Building_JSBSim_with_Visual_Cpp_2010》讲了如何利用VS2010编译JSBSim&#xff0c;参考这个教程编译完成了一个JSBSim工程。但是这个工程是好多年以前的了&#xff0c;在…

C++学习 | VS2015下配置FFTW3库的方法,亲测实用

笔者是C的初学者&#xff0c;也是VS2015的初学者&#xff0c;最近的编程内容涉及到了傅里叶变换&#xff0c;于是查阅了很多资料&#xff0c;得知有FFTW这个十分强大的库&#xff0c;下面从下载到安装详细介绍。 一、FFTW简介 FFTW ( the Faster Fourier Transform in the W…

vs2015环境配置android,Visual Studio 2015环境搭建教程

当微软发布了Visual Studio 2015 Preview支持了wp&#xff0c;ios&#xff0c;android三大系统手机开发&#xff0c;相信也有不少朋友想迫不及待的使用这款Visual Studio 2015&#xff0c;下面小编就为大家介绍一下。 Visual Studio 2015环境搭建教程 1、安装之前先要看看自己的…

OpenCV+VS2015的详细配置(小白教程)

OpenCVVS2015的详细配置&#xff08;小白教程&#xff09; 一&#xff1a;下载安装OpenCV和VS2015配置环境变量VS2015中配置OpenCV 一&#xff1a;下载安装OpenCV和VS2015 1.下载OpenCV 进入OpenCV官网&#xff0c;下载自己想要版本。这里注意&#xff1a;OpenCV3.0是一个分界…

vs2015中用python编写程序

转载请注明出处&#xff1a;https://mp.csdn.net/postedit/81508867 python功能强大&#xff0c;但是没有专门的编写器&#xff0c;为了避免安装过多软件。在vs2015上配置使用&#xff0c;vs2015安装时直接选中python插件。本文配置中所用电脑型号是win7|64位&#xff0c;参考文…

VS2015镜像安装教程

为了更好地支持 Win10 程序的开发&#xff0c;微软发布了 VS2015。VS2015 支持开发人员编写跨平台的应用程序&#xff0c;从 Windows 到 Mac、Linux、甚至是编写 iOS 和 Android 代码&#xff01; VS2015 共有三个版本&#xff0c;分别是&#xff1a; 社区版&#xff08;Commu…

VS2015编译使用Boost库遇到的问题及正确编译使用教程

目录 背景&#xff1a; 一、VS2015Boost1.79.0时出现的问题情况 1、前言 2、问题发现 3、排查找原因 二、VS2015Boost1.69.0正确编译使用 1、执行bat文件 2、运行exe文件&#xff0c;编译lib库 3、VS2015包含库使用 背景&#xff1a; 本机电脑window10上已经安装过VS2…

VS2015 tfs的使用教程

本人文章陆续转向本人微信公账号发布 公众号&#xff1a;搬砖码农SmallNNN&#xff0c;期望您要是搬砖码农&#xff0c;一起学习探讨。 由于最新新换了工作环境&#xff0c;点击打开链接&#xff0c;看了这个文章的人大家都知道&#xff0c; 上家用的是git,这个有的教程了&am…

vs2015使用教程

一、启动 visual studio 2015 稍等片刻&#xff0c;你就会看到这个界面&#xff1a; 点击菜单&#xff1a;”文件”-“新建”-“项目”&#xff0c;会出现这个窗口&#xff1a; 选择左侧的”Visual C”下面的“win32”之后&#xff0c;选择右侧的”win32控制台应用程序”&#…

【VSCode常用插件】Path Autocomplete(@路径提示的插件)

前言❤️ 在路上&#xff0c;见识世界&#xff1b;在途中&#xff0c;认清自己 ❤️ 【VSCode常用插件】Path Autocomplete&#xff08;路径提示的插件&#xff09; 一、安装教程二、设置教程&#xff08;1&#xff09;在vscode设置打开 settings.json&#xff08;2&#xff09…

vscode最常用插件

常用插件&#xff1a; 如果喜欢中文就安装中文&#xff0c;如果不喜欢就自动忽略. 1、chinese 2、Open-In-Browser 这个是必须安装的 打开浏览器看效果使用的 快捷键是altb 3、Prettier Prettier 是目前 Web 开发中最受欢迎的代码格式化程序。安装了这个插件&#xff0c;它…

vscode常用插件 - Path Autocomplete

1. Path Autocomplete 作用: 在vscode中使用提示路劲配置 打开vscode设置 搜索 settings.json 添加以下代码 // 导入文件时是否携带文件的拓展名"path-autocomplete.extensionOnImport": true,// 配置的路径提示"path-autocomplete.pathMappings": {"…

VSCode 常用插件推荐

VS Code提供了非常丰富的插件功能&#xff0c;根据你的需要&#xff0c;安装对应的插件可以大大提高开发效率。 完成前端开发&#xff0c;常见插件介绍&#xff1a; 目录 1、Chinese (Simplified) Language Pack 2、Code Spell Checker 3、HTML CSS Support 4、JavaScrip…

前端VSCode常用插件安装和使用

本篇文章先介绍下常见的插件~~~~ VSCode常用的插件 vscode之所以被称为宇宙第一神器&#xff0c;其中丰富的插件功不可没&#xff0c;安装起来超级简单&#xff0c;给我们开发带来了极大的便捷。 注意&#xff0c;新手学习期间&#xff0c;不建议安装形形色色的插件&#xff…

VSCode常用插件和快捷键总结

码字不易&#xff0c;转载请附原链&#xff0c;搬砖繁忙回复不及时见谅。 快捷键 切换打开的项目窗口&#xff1a;Ctrl W打开最近的项目&#xff1a;Ctrl R切换打开的文件&#xff1a;Ctrl 数字键 / Ctrl tab左右切换打开的文件&#xff1a;Command alt 左/右format格式…

VSCode 工具常用插件

1、Debugger for Chrome 方便运行代码&#xff0c;浏览器打开 2、 GitLens — Git supercharged 鼠标放到代码行上可以显示&#xff0c;改行的上一次修改记录 3、Git History git log 4、 Auto Close Tag 自动完成闭合标签 5、 Auto Rename Tag 修改了前面的开始标签&#…

Vscode常用插件及设置(前端版,实时更新ing

1.open in borwser&#xff1a; 写完代码后鼠标右击将代码在浏览器中运行 2.Chinese 汉化Vscode 3.vscode-icons html、css、js、less图标显示 4.Live Server 代码块写完后使用Live Server&#xff0c;每次修改代码CtrlS后浏览器无需再刷新即可跟着变化&#xff0c; 与…

VSCode常用插件汇总

这篇博客主要是我使用vscode过程中的插件汇总&#xff0c;使用了这么长时间&#xff0c;总想有个总结&#xff0c;也方便日后查看&#xff0c;这里我将我使用的插件分为基础、框架、工具三个类型。 官网地址 VSCode插件官网地址&#xff0c;里面有很多的插件可以使用。 基础插…

【整理总结】VSCode常用插件和好用配置(小白必看)

本篇文章给大家总结分享一些VSCode常用插件和好用配置&#xff08;超详细&#xff09;,希望可以给刚入坑前端的小伙伴一些帮助。本文很长&#xff0c;如果能认真看完&#xff0c;你一定会有所收获。 一、VSCode常用插件推荐 工欲善其事&#xff0c;必先利其器。本文介绍一些前端…

VScode 常用必备插件

Visual Studio Code&#xff08;简称“VS Code”&#xff09;在前端开发的过程中必不可少&#xff0c;vscode作为代码编辑器&#xff0c;开源、免费、颜值高。更关键的是&#xff0c;丰富的插件&#xff0c;能够提高开发效率&#xff0c;你值得拥有。我们团队中大部分人都在用&…