文本情感分析:去停用词

article/2025/3/14 20:35:13

原文地址

分类目录——情感识别

随便构造了一份测试数据如下,内容是gensim下的词向量生成模型word2vec的属性说明

1582383823759

  • 一种方式,通过正则表达式,这里以去标点符号为例,在分词之前进行操作
import re# 通过正则表达式筛除string中的标点符号
def clearn_str(string):# 筛除掉中文标点string = re.sub(r'["#$%&'()*+,-/:;<=>@[\]^_`{|}~⦅⦆「」、 、〃〈〉《》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏﹑﹔·!?。。 ]', '', string)# 筛除掉英文标点string = re.sub(r'[!"#$%&\'()*+,-./:;<=>?@[\]^_`{|}~]', '', string)return string# 读取一份测试文件
with open('data.txt', encoding='utf8') as f:sentenceslist = f.read().splitlines()   # 每行作为一个元素封装成列表# ['1.sentences:可以是一个List,对于大语料集,建议', '2.sg: 用于设置训练算法,默认为0,对应CBOW算法', '3.size:是指输出的词的向量维数,默认为100。']
preprocessed = [clearn_str(x) for x in sentenceslist]
# ['1sentences可以是一个List对于大语料集建议', '2sg用于设置训练算法默认为0对应CBOW算法', '3size是指输出的词的向量维数默认为100']
  • 一种方式,分词之后去掉词列表中的停用词

    对于一份停用词列表,在nltk模块包下封装了英文的停用词表,我从网上找了一份中文的,大概是这样的

    1582421174593

    链接:https://pan.baidu.com/s/1shrhd-Kg9U1n9WXSOFdwow
    提取码:q3me

from nltk.corpus import stopwords
import jieba# 从nltk中获取英文停用词
stopwords1 = stopwords.words('english')
# ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', ...]#
with open('../data/stopwords.txt', encoding='utf8') as f:stopwords2 = f.read().splitlines()# 读取一份测试文件
with open('data.txt', encoding='utf8') as f:sentenceslist = f.read().splitlines()   # 每行作为一个元素封装成列表# ['1.sentences:可以是一个List,对于大语料集,建议', '2.sg: 用于设置训练算法,默认为0,对应CBOW算法', '3.size:是指输出的词的向量维数,默认为100。']res = [list(jieba.cut(sent)) for sent in sentenceslist]     # 用jieba分词
# [['1', '.', 'sentences', ':', '可以', '是', '一个', 'List', ',', '对于', '大', '语料', '集', ',', '建议'], ['2', '.', 'sg', ':', ' ', '用于', '设置', '训练', '算法', ',', '默认', '为', '0', ',', '对应', 'CBOW', '算法'], ['3', '.', 'size', ':', '是', '指', '输出', '的', '词', '的', '向量', '维数', ',', '默认', '为', '100', '。']]
# 去停用词
for line in res:for cell in line[:]:    # line[:],深copy,避免因为循环删除跳过对某些想的筛选if cell in stopwords2:line.remove(cell)
# [['sentences', 'List', '语料', '集', '建议'], ['sg', ' ', '用于', '设置', '训练', '算法', '默认', 'CBOW', '算法'], ['size', '指', '输出', '词', '向量', '维数', '默认', '100']]

http://chatgpt.dhexx.cn/article/AanI7KCb.shtml

相关文章

《实战》基于情感词典的文本情感分析与LDA主题分析

——基于电商领域的文本情感分析与LDA主题分析—— 一、情感分析1.1词典导入1.2 增加新词1.3合并到review_long_clean中1.4 修正情感倾向1.5计算每条评论的情感值1.6 查看情感分析效果 二、情感分析效果2.1 将数据合并2.2 结果对比2.3 情感词云 三、基于LDA模型的主题分析3.1建…

如何去做词频统计和关键词共现分析

1 对关键词的词频进行统计 下面展示一些 内联代码片。 # encodingutf-8 import openpyxl wb openpyxl.Workbook() wb openpyxl.load_workbook(copy1.xlsx) # Excel名 sh wb[all] # sheet名换一种写法 rowsh.max_row …

python3---情感分析(基于词典中文)

写在前面&#xff1a; 现有的情感分析比较常用的有两种&#xff0c;分别是基于词典的和机器学习&#xff0c;前者也属于非监督学习&#xff0c;后者自然一般属于监督学习。 刚开始学情感分析&#xff0c;下面先从**【基于词典的情感分析】**开始进行&#xff1a; 词典&#xf…

如何利用情感词典做中文文本的情感分析?

如何利用情感词典做中文文本的情感分析&#xff1f; 这是本学期在大数据哲学与社会科学实验室做的第四次分享了。 第一次分享的是&#xff1a;如何利用“wordcloudjieba”制作中文词云&#xff1f; 第二次分享的是&#xff1a;如何爬取知乎中问题的回答以及评论的数据&#…

基于情感词典的文本情感分析(一个最简单的举例能直接运行)

1. 使用情感词典进行情感分析的思路为 1&#xff09; 将Web文本进行分句&#xff0c;使其以句子为单位进行处理&#xff1b;2&#xff09; 从分句中抽取连词和否定词&#xff0c;并标记相应连词与否定词位置&#xff1b;3&#xff09; 访问情感词汇本体&#xff0c;确定词汇极性…

Python利用情感词典做情感分析

情感分析是大数据时代常见的一种分析方法&#xff0c;多用于对产品评论的情感挖掘&#xff0c;以探究顾客的满意度程度。在做情感分析时&#xff0c;有两种途径&#xff1a;一种是基于情感词典的分析方法&#xff0c;一种是基于机器学习的方法&#xff0c;两者各有利弊。 在此&…

共现分析

一、共现分析概念 “共现”指文献的特征项描述的信息共同出现的现象&#xff0c;这里的特征项包括文献的外部和内部特征&#xff0c;如题名、作者、关键词、机构等。 而“共现分析”是对共现现象的定量研究&#xff0c; 以揭示信息的内容关联和特征项所隐含的知识。 二、共…

python基于情感词典的情感分析

今天给大家分享的是通过情感词典来对文本进行情感分析最后计算出情感得分 通过情感得分来判断正负调性 主要步骤&#xff1a; 数据准备 本次情感词典采用的是BosonNLP的情感词典&#xff0c;来源于社交媒体文本&#xff0c;所以词典适用于处理社交媒体的情感分析 本次分析准备的…

python 热词分析_Python笔记:热词分析2020-01-01

热词分析在公众趋势分析、舆情分析有很宽广的应用&#xff0c;我们来看看怎么从一个TXT文件中分析出文章的热词出来&#xff0c;我们采用流行的第三方“结巴”包来实现。 首先安装第三方包(matplotlib&#xff0c;jieba&#xff0c;wordcloud&#xff0c;numpy)mmatplotlib主要…

【共词聚类分析】基于CNKI和WOS的小样本稳健性检验

很久之前的一篇文章&#xff0c;最近终于收到了Reviewers的回复&#xff08;一把心酸…其中有一个Comments如下&#xff0c;意思是我们原先的文章没法证明共词聚类方法的结论是合理的…于是打算新增加一个稳健型检验&#xff08;robust analysis&#xff09;&#xff0c;由于上…

python共词矩阵分析结果一步到位

import os import re import pandas as pd from PyPDF2 import PdfFileReader import string import yakeif __name__ __main__:# 运行第一部分代码pdf_files_path C:/Users/win10/Documents/美国智库/pdf_files# 定义一个函数&#xff0c;用于读取PDF文件并将其转化成文本de…

共词分析

一、共现分析概念及主要类型 “共现”指文献的特征项描述的信息共同出现的现象&#xff0c;这里的特征项包括文献的外部和内部特征&#xff0c;如题名、作者、关键词、机构等。而“共现分析”是对共现现象的定量研究&#xff0c;以揭示信息的内容关联和特征项所隐含的知识。常…

AD09由英文改中文菜单步骤

1&#xff1a;打开AD09&#xff0c;点击DXP&#xff0c;选择Preferences 2&#xff1a;在对话框的左边一竖列选择General 3&#xff1a;选择左边竖列后&#xff0c;在右边找到Localization选项 4&#xff1a;点击应用&#xff0c;再点击OK。 5&#xff1a;然后关闭AD09&#xf…

AD软件的常用基本设置

AD软件的基本设置 前言 工欲善其事&#xff0c;必先利其器&#xff1b;最近学弟一直在忙着画板子&#xff0c;但是效率非常低&#xff0c;在看过他的软件基本设置&#xff0c;以及对软件快捷键掌握程度后&#xff08;新手小白&#xff09;&#xff0c;我决定将常AD的常用基本…

STM32定时器做时钟源输出基于CubeMx

目录 前言 CubeMX配置 开始函数 改变频率 改占空比 结论 前言 调试使用的评估板&#xff1a;https://item.taobao.com/item.htm?spma230r.1.14.17.432b1562F8z658&id612002664117&ns1&abbucket14#detail 作者再调试AD5933过程中&#xff0c;需要输出100Hz…

Evaluation Board User Guide UG-364 文档 BUG

最近作者使用这个芯片&#xff1b;在进行硬件性能对比测试中发现ADI文档中的一个小问题&#xff1b; 相位角计算的过程中&#xff0c;就是下图 结合下面的代码&#xff0c;验证了上面文档应该是手误导致的。

2019年全国大学生电子设计竞赛D题简易电路特性测试仪试题

题目要求部分 我负责的部分就是测量阻抗的部分&#xff0c;这一次我使用的是AD5933 AD5933介绍 我这一篇主要是讲使用5933计算那个待测电路的阻抗值&#xff0c;首先就是在概括处已经说明是我们读取的数据其实是一个实部和一个虚部。 然后我们要记住的是向寄存器0x94&#xf…

电赛专题 |国一作品_线路负载及故障检测装置

有幸邀请到了在2019大学生电子设计大赛的获奖优秀队员为本公众号投稿&#xff0c;将分几次推文为大家介绍几只优秀队伍的作品。 本次推文为大家分享西安电子科技大学微电子学院的团队的作品&#xff0c;团队成员为&#xff1a;蒋昊宇 冯郑 张岳琦&#xff08;排名不分先后&…

智能电导率系统电路设计详解

电导率是一个衡量水溶液导电能力的电学物理量&#xff0c; 电阻率的倒数为电导率&#xff0c;用希腊字母κ表示&#xff0c;κ1/ρ。一般意义上&#xff0c;电导率的测量温度是标准温度&#xff08;25℃&#xff09;。在液体中&#xff0c;水的电导率是衡量水质的一个重要指标。…

AD5934阻抗变换模块实验电路板

■ 前言 本文讨论了基于AD5934构建阻抗变换模块。并对于它测试相应的阻抗进行实验。 01电路设计 1.原理图设计1 ▲ 实验电路板 原理图 2.PCB版图 ▲ 实验电路板PCB 电路板输出接口从右到左&#xff0c;前四个的功能定义如下表。后面四个是用于调试使用。 管脚(从右到左)符号功…