python文本分析--停用词表的使用

article/2025/5/9 3:04:32

之前听说停用词表,没有上手使用过,真正操作的时候发现有很多东西没有学透彻。这里总结一下,去停用词的思想:在原始文本集中去掉不需要的词汇,字符。虽然有通用的停用词表,但是如果想提高后续的分词效果,还是自己建立停用表比较好。

建立停用词表,实际上就是在txt中,输入想要删除的词汇,每个词汇用空格隔开即可。可以换行。

下面是我自己操作的效果图,及代码。方便自己及大家查看。

# 停用词表 []   停用词的标准格式应该是一个词一行在txt中展示.如果一行中有多词汇,可以采用本文方法转换成标准格式
# 文本集 []
# 处理后文本本 []
stop = []
standard_stop = []
text = []
after_text = []
file_stop = r'D:\PycharmProjects\tufaci20190218\ceshi-stop-shupai.txt'  # 停用词表
file_text = r'D:\PycharmProjects\tufaci20190218\ceshi-word.txt'  # 要处理的文本集合
with open(file_stop,'r',encoding='utf-8-sig') as f :lines = f.readlines()  # lines是list类型for line in lines:lline  = line.strip()     # line 是str类型,strip 去掉\n换行符stop.append(lline)        # 将stop 是列表形式# stop 的元素是一行一行的 句子,需要进行转化为一个词一行,即下面:
for i in range(0,len(stop)):for word in stop[i].split():standard_stop.append(word)
# print(standard_stop)# 读取文本集,
with open(file_text,'r',encoding='utf-8-sig') as f :lines = f.readlines()print(lines)for line  in lines:# lline = line.strip()# print(lline)lline = line.split()# print(lline)for i in lline:if i not in  standard_stop:after_text.append(i)
print(after_text)# 将结果保存在txt中
with open(r'D:\PycharmProjects\tufaci20190218\a-ceshi-jieguo.txt','w+')as f :for i in after_text:f.write(i)


 


http://chatgpt.dhexx.cn/article/aXwIToYe.shtml

相关文章

uniapp使用阿里图标

效果图: 前言 随着uniApp的深入人心,我司也陆续做了几个使用uniapp做的移动端跨平台软件,在学习使用的过程中深切的感受到了其功能强大和便捷,今日就如何在uniapp项目中使用阿里字体图标的问题为大家献上我的一点心得&#xff0…

iconfont—阿里图标的使用

阿里图标库为我们提供了许多丰富精美的图标, 可以通过代码引入的方式将图标库引入到我们的项目中,用来美化我们的界面。iconfont 的使用方式有以下几种: 方式一:font-class 在线引入 打开网址进入首页,输入我们想要的…

java前端中的icon_阿里巴巴矢量图标库Iconfont的使用方法

前言 现在网络上有很多矢量图标库,但是能自定义的却很少,不能自定义的体积就很大,造成不必要的浪费。阿里巴巴矢量图标库Iconfont很好的规避了这个问题,能够自定义添加图标到你定义的项目中,运用也很简单。 选择图标 打…

MUI项目中使用阿里巴巴矢量图标库(保姆篇)

话不多说,直接进入主题. 一、要在MUI项目中使用阿里图标库, 就得先进入阿里图标库的官网 这里是官网网址: https://www.iconfont.cn/ 下图是首页的样子 二、使用阿里图标的方法有很多种,,这里就说一下我使用的这种 1.在搜索框中输入关键字,…

微信小程序如何使用阿里妈妈iconfont图标库

1、首先进入iconfont首页,没有账号的先注册账号 http://www.iconfont.cn/ 2、选择需要的图标,加入到你的小车中 3、在这里新建一个项目将图标加进去,这个时候就可以查看并且下载下来了 4、点击download code将图标代码下载下来,…

基于Java的阿里妈妈数据抓取技术

基于Java的阿里妈妈数据抓取技术 前言: 对于需要登录的网站爬虫最大的困难就是需要登录,然后才能获取到数据,如微博,阿里妈妈,webqq等。之前也有看过使用浏览器登录到网站后直接从浏览器中获取cookie的文章&#xff0…

uni-app中引入iconfont阿里巴巴矢量图标库

一:首先看一下图标 二:将icon.css文件放到项目中。 在static下面新建icon.css文件(一般是建在common文件下面,建在其他位置上也可以),将iconfont里面的内容复制到icon.css。 这里要对icon.css内容做一些改变…

引入阿里iconfont图标方法以及注意事项

背景 在我们做日常项目时,通常会用到icon图标或者是一些图标字体,阿里iconfont是我们选择的较多的一种,下面我将会介绍使用方法和几种常用的引用方式 iconfont新建项目 官网:https://www.iconfont.cn/ 在首页选择【图标管理】-…

如何在代码里添加并使用阿里巴巴矢量图标-iconfont,在此常用有三种引入方法

iconfont-阿里巴巴矢量图库 在登录好账号的前提下进行以下操作: 添加icon: 首先搜索你想要的icon名,比如:首页选好你想要的图——加入购物车——添加至项目(没有项目的话可以新建项目,如果需要很多icon&a…

阿里巴巴icon图标尽在掌握(前端如何引入icon库,美丽图标随你处置T.T)

前端如何引入icon库 挑选图标1.进入阿里矢量图标库[iconfont图标库地址](https://www.iconfont.cn/)2.寻找自己需要的图标加入购物车3.进入购物车,下载代码 引用图标我们先来看看下载的需要加入的css代码直接调用封装好的调用效果展示 挑选图标 1.进入阿里矢量图标…

项目中引入阿里巴巴图标——iconfont图标的使用-svg格式

项目中引入阿里巴巴图标——iconfont图标的使用-svg格式 一、下载图标 1、先进入iconfont.cn页面 iconfont官网:https://www.iconfont.cn/ 2、登陆,并选择你要用的图标进行下载 3、点击下载,并选择弹框下面的色值和大小,点击sv…

某Java大佬在地表最强Java企业(阿里)面试总结

面试题真的是博大精深,也通过这个面试题学到了很多东西,很多笔者也不是很懂,如有描述错误的地方还望大佬赐教, 每一次面试都可能问到相同的问题,一面问到,二三面还可能会问到,笔者认为这一点是整…

阿里图标库中图标的下载使用

一 iconfont-阿里巴巴矢量图标库 进去找到你想要的图标 二 点这个 三 点这个 点这个 新建自己的项目 选择这个点下载 解压出来&#xff0c;除了两个demo不要都添加到你的代码中的文件夹保存 四 main.js中全局导入 import ./xxxx/xxxx/iconfont.css 五 页面使用 <…

uniapp配置添加阿里巴巴图标icon流程步骤

文章目录 下载复制文件到项目文件夹里项目配置目录结构显示图标 下载 阿里巴巴icon官网 https://www.iconfont.cn/ 复制文件到项目文件夹里 项目配置目录结构 显示图标

阿里妈妈iconfont矢量图标的使用方法(超详细)

iconfont使用方法 1.为什么要使用iconfont&#xff1f; 之前我们一直使用的是雪碧图&#xff0c;虽然好用&#xff0c;但是也是有一定的限制的&#xff0c;比如说&#xff0c;你希望这个图标大一点&#xff0c;当然你也可以调节雪碧图的大小但是此时会出现图片不清楚的情况&am…

idea添加工作空间

1. 点击【File】&#xff0c;选择【Project Structure...】&#xff1b; 2. 点击【】&#xff0c;勾选对应项目&#xff1b;

IDEA工作空间修改

IDEA工作空间修改&#xff08;IDEA2020.1绿色免安装&#xff09;

IDEA开启后,设置工作空间位置

欢迎加群&#xff1a;854228077。 帮助更多java程序员提升技术&#xff01;资料多&#xff0c;大佬多&#xff01; 第一步:打开IDEA

IDEA更改工作空间及新建SpringBoot项目

IDEA更改工作空间其实很简单 直接新建一个SpringBoot项目举例 1、FIle——>new——>project 2、Spring initializr 3、随意 4、引入Spring Web依赖&#xff08;引不引皆可&#xff0c;后续可在POM文件中引入&#xff09; 5、唯一值得强调的地方 Project localtion&…

IDEA把多个项目放在同一个工作空间下

打开IntelliJ IDEA编译器&#xff0c;点击菜单 File->Open&#xff0c;选择工作空间根目录 点击OK后打开界面如下&#xff1a; 打开后&#xff0c;发现IDEA并没有自动识别Maven项目&#xff0c;这时候&#xff0c;需要手动在IDEA右侧的Maven Projects栏中添加项目的pom.xml文…