【python】构建停用词表(文末附链接)

article/2025/5/8 22:26:16

构建停用词表

构建停用词表是数据预处理的必要步骤,可以减小不必要的开销。

哈工大、百度、川大等停用词表见GitHub链接:https://github.com/goto456/stopwords

经实验和观察证明,’cn_stopwords.txt‘文件的停用词大多是否定词:不、不是、不得,转折词:就算、即使、但是等,这些词如果作为停用词去除的话,会改变原意。
比如:

  1. 我 不 喜欢 你 => 我 喜欢 你
  2. 就算他很坏,我也喜欢他 => 他 很坏 我 喜欢 他
  3. 他很坏,但是我喜欢他 => 他 很坏 我 喜欢 他

对于2,3,DL会认为前面是negative,后面是positive,实际上整句是positive,这样会影响网络的学习,尤其是CNN,只能提取短距离特征,‘他很坏’很大概率会被误认为是positive,进而影响后续的学习;如果保留‘就算’,那么‘就算他很坏’会被认为是positive,这是合理的,因为重点在于后半句。
因此,不考虑’cn_stopwords.txt‘作为停用词。
用python将三个词表合并、去重、写入txt:

import os# 输入你要读取的目录
path='.\stopwords-master'
files = os.listdir(path)
print(files)
stopwords = []
for file in files:if file[-3:] == 'txt': # 也可以是md,xsl等# 逐行读取,然后再数组拼接;这里不能用append,append会将数组当成一个对象接在stopwords之后:[1,2,3,[1,2,3]]stopwords += ( [line.strip() for line in open(path+'\\'+file,encoding='UTF-8').readlines()] )
# 去重
stopwords = list(set(stopwords))
print(len(stopwords))
# 保存在Stopwords.txt
with open(path+'\\'+'StopWords.txt', 'w',encoding='utf-8') as f:for stopword in stopwords:f.write(stopword+"\n")

在这里插入图片描述

此外,人工筛选了一些我认为会影响分类结果的停用词,剩余1545个停用词。
百度云:https://pan.baidu.com/s/1M7gcSs_MGFlevMB8wRhUlw
提取码:qg4p


http://chatgpt.dhexx.cn/article/ApepTZr2.shtml

相关文章

stopwords.txt中英文数据集,四川大学机器智能实验室停用词库,哈工大停用词表,中文停用词表,百度停用词表百度网盘下载

今天找stopwords.txt数据集找了好长时间,真是气死了,好多都是需要金币,这数据集不是应该共享的么。故搜集了一些数据集,主要包括四川大学机器智能实验室停用词库,哈工大停用词表,中文停用词表,百度停用词表和一些其他的stopword.t…

python停用词表整理_python停用词表

广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! stop_words:设置停用词表,这样的词我们就不会统计出来(多半是虚拟词,冠词等等),需要列表结构,所以代码中定义了一个函数来处理停用词表...前言前文给大家…

python文本分析--停用词表的使用

之前听说停用词表,没有上手使用过,真正操作的时候发现有很多东西没有学透彻。这里总结一下,去停用词的思想:在原始文本集中去掉不需要的词汇,字符。虽然有通用的停用词表,但是如果想提高后续的分词效果&…

uniapp使用阿里图标

效果图: 前言 随着uniApp的深入人心,我司也陆续做了几个使用uniapp做的移动端跨平台软件,在学习使用的过程中深切的感受到了其功能强大和便捷,今日就如何在uniapp项目中使用阿里字体图标的问题为大家献上我的一点心得&#xff0…

iconfont—阿里图标的使用

阿里图标库为我们提供了许多丰富精美的图标, 可以通过代码引入的方式将图标库引入到我们的项目中,用来美化我们的界面。iconfont 的使用方式有以下几种: 方式一:font-class 在线引入 打开网址进入首页,输入我们想要的…

java前端中的icon_阿里巴巴矢量图标库Iconfont的使用方法

前言 现在网络上有很多矢量图标库,但是能自定义的却很少,不能自定义的体积就很大,造成不必要的浪费。阿里巴巴矢量图标库Iconfont很好的规避了这个问题,能够自定义添加图标到你定义的项目中,运用也很简单。 选择图标 打…

MUI项目中使用阿里巴巴矢量图标库(保姆篇)

话不多说,直接进入主题. 一、要在MUI项目中使用阿里图标库, 就得先进入阿里图标库的官网 这里是官网网址: https://www.iconfont.cn/ 下图是首页的样子 二、使用阿里图标的方法有很多种,,这里就说一下我使用的这种 1.在搜索框中输入关键字,…

微信小程序如何使用阿里妈妈iconfont图标库

1、首先进入iconfont首页,没有账号的先注册账号 http://www.iconfont.cn/ 2、选择需要的图标,加入到你的小车中 3、在这里新建一个项目将图标加进去,这个时候就可以查看并且下载下来了 4、点击download code将图标代码下载下来,…

基于Java的阿里妈妈数据抓取技术

基于Java的阿里妈妈数据抓取技术 前言: 对于需要登录的网站爬虫最大的困难就是需要登录,然后才能获取到数据,如微博,阿里妈妈,webqq等。之前也有看过使用浏览器登录到网站后直接从浏览器中获取cookie的文章&#xff0…

uni-app中引入iconfont阿里巴巴矢量图标库

一:首先看一下图标 二:将icon.css文件放到项目中。 在static下面新建icon.css文件(一般是建在common文件下面,建在其他位置上也可以),将iconfont里面的内容复制到icon.css。 这里要对icon.css内容做一些改变…

引入阿里iconfont图标方法以及注意事项

背景 在我们做日常项目时,通常会用到icon图标或者是一些图标字体,阿里iconfont是我们选择的较多的一种,下面我将会介绍使用方法和几种常用的引用方式 iconfont新建项目 官网:https://www.iconfont.cn/ 在首页选择【图标管理】-…

如何在代码里添加并使用阿里巴巴矢量图标-iconfont,在此常用有三种引入方法

iconfont-阿里巴巴矢量图库 在登录好账号的前提下进行以下操作: 添加icon: 首先搜索你想要的icon名,比如:首页选好你想要的图——加入购物车——添加至项目(没有项目的话可以新建项目,如果需要很多icon&a…

阿里巴巴icon图标尽在掌握(前端如何引入icon库,美丽图标随你处置T.T)

前端如何引入icon库 挑选图标1.进入阿里矢量图标库[iconfont图标库地址](https://www.iconfont.cn/)2.寻找自己需要的图标加入购物车3.进入购物车,下载代码 引用图标我们先来看看下载的需要加入的css代码直接调用封装好的调用效果展示 挑选图标 1.进入阿里矢量图标…

项目中引入阿里巴巴图标——iconfont图标的使用-svg格式

项目中引入阿里巴巴图标——iconfont图标的使用-svg格式 一、下载图标 1、先进入iconfont.cn页面 iconfont官网:https://www.iconfont.cn/ 2、登陆,并选择你要用的图标进行下载 3、点击下载,并选择弹框下面的色值和大小,点击sv…

某Java大佬在地表最强Java企业(阿里)面试总结

面试题真的是博大精深,也通过这个面试题学到了很多东西,很多笔者也不是很懂,如有描述错误的地方还望大佬赐教, 每一次面试都可能问到相同的问题,一面问到,二三面还可能会问到,笔者认为这一点是整…

阿里图标库中图标的下载使用

一 iconfont-阿里巴巴矢量图标库 进去找到你想要的图标 二 点这个 三 点这个 点这个 新建自己的项目 选择这个点下载 解压出来&#xff0c;除了两个demo不要都添加到你的代码中的文件夹保存 四 main.js中全局导入 import ./xxxx/xxxx/iconfont.css 五 页面使用 <…

uniapp配置添加阿里巴巴图标icon流程步骤

文章目录 下载复制文件到项目文件夹里项目配置目录结构显示图标 下载 阿里巴巴icon官网 https://www.iconfont.cn/ 复制文件到项目文件夹里 项目配置目录结构 显示图标

阿里妈妈iconfont矢量图标的使用方法(超详细)

iconfont使用方法 1.为什么要使用iconfont&#xff1f; 之前我们一直使用的是雪碧图&#xff0c;虽然好用&#xff0c;但是也是有一定的限制的&#xff0c;比如说&#xff0c;你希望这个图标大一点&#xff0c;当然你也可以调节雪碧图的大小但是此时会出现图片不清楚的情况&am…

idea添加工作空间

1. 点击【File】&#xff0c;选择【Project Structure...】&#xff1b; 2. 点击【】&#xff0c;勾选对应项目&#xff1b;

IDEA工作空间修改

IDEA工作空间修改&#xff08;IDEA2020.1绿色免安装&#xff09;