yes or no?基于词典的情感分析法

article/2025/10/15 4:25:41

自更博以来第一次断更,现在先把文本分析的坑补上,这篇文章着重介绍情感分析的两种基本方法之一:基于词典的情感分析(下篇讲基于监督的情感分析),建模环境为R。

目录

  • 1 背景与目的
    • 1.1 情感分析的应用场景
    • 1.2 情感分析的痛点
  • 2 方法与实现
    • 2.1 什么是基于词典的情感分析
    • 2.2 怎么做词典式情感分析
      • 2.2.1 数据介绍
      • 2.2.2 训练集分词
      • 2.2.3 情感分析(统计两性词汇数量并比较)
      • 2.2.4 测试集验证、结果评价与调优

1 背景与目的

1.1 情感分析的应用场景

顾客的评价最能反映其对商品的使用感受,对此类信息进行加工,提炼产品痛点和亮点,实现针对性改进和营销,是一个很有意义的方向。
研究这些文本内容的情感倾向(比如正、负or中),就是咱们情感分析要解决的问题。

1.2 情感分析的痛点

1)研究对象难,情感分析的研究对象是长文本,相比其它传统数据类型,难度更大,加上话语表达博大精深拐弯抹角阴阳怪气,连人都分不清的话中话,就别指望模型了;
2)建模过程难,这也是文本类分析的通病,有大量分词操作和超级稀疏矩阵,吃内存;
3)前期工作要求高,有些数据和模型几乎啥都不要可以直接上手,但情感分析不行,基于词典的情感分析需要精确度较高囊括范围较广的词典,基于监督的情感分析则需要预置情感类型准确性较高的文本进行训练,这些数据都是需要人工标注的。
情感分析前期准备工作量大,中间建模过程难,最后结果也未必如人意,但还是要做,因为大型语料以人力实现难、枯燥且不具有连续型,而一个不断训练提升的模型最后不管是从成本从效率还是准确性来说相比起来并不差。另外,以工具解放工具人,让人去干人该干的事,也是建模的初衷之一。

2 方法与实现

2.1 什么是基于词典的情感分析

简单来说就是以包含的褒义词和贬义词的数量投票
先分词,然后对比分词结果与已总结好的褒义词和贬义词词典,统计两类词汇的数量,哪边多情感偏向哪边。词典的准确性直接影响该方法的分类效果,常规情感词典参考:
在这里插入图片描述

2.2 怎么做词典式情感分析

2.2.1 数据介绍

1)语料
酒店评论文本:训练集23967条,测试集4000条(清华李军标注整理)
在这里插入图片描述
2)词典
正向词汇21563个,负向词汇24575个(上面方法介绍中提到的参考词典的分类汇总)
在这里插入图片描述

2.2.2 训练集分词

在这里插入图片描述

#文本清洗
sentence <- as.vector(test$msg)  
sentence <- gsub("[[:digit:]]*", "", sentence)  #清除数字[a-zA-Z]
sentence <- gsub("[a-zA-Z]", "", sentence)
sentence <- gsub("\\.", "", sentence)
test <- test[!is.na(sentence), ]
sentence <- sentence[!is.na(sentence)]
test <- test[!nchar(sentence) < 2, ]
sentence <- sentence[!nchar(sentence) < 2]
#将情感词典加入分词器 pos+neg 权重 去重
weight <- rep(1,nrow(pos))
pos <- cbind(pos, weight)
weight <- rep(-1,nrow(neg))
neg <- cbind(neg, weight)
posneg <- rbind(pos, neg)
names(posneg) <- c("term", "weight")
posneg <- posneg[!duplicated(posneg$term), ]
library(Rwordseg)
insertWords(posneg$term)
#分词,向量化
x <- segmentCN(strwords = sentence) 
temp <- lapply(x, length);temp <- unlist(temp)
id <- rep(test$id, temp) 
label <- rep(test$label, temp)
term <- unlist(x)
testterm <- as.data.frame(cbind(id, term, label), stringsAsFactors = F)
#去停用词
stopword <- read.csv("dict/stopword.csv", header = T, sep = ",", stringsAsFactors = F)
stopword <- stopword[!stopword$term %in% posneg$term,]
testterm <- testterm[!testterm$term%in% stopword,]

2.2.3 情感分析(统计两性词汇数量并比较)

#情感得分
library(plyr)
testterm1 <- join(testterm, posneg) #分词情感词典匹配
testterm1 <- testterm1[!is.na(testterm1$weight), ]
dictresult <- aggregate(weight ~ id, data = testterm1, sum)
dictresult$newlable<-ifelse(dictresult$weight>0,1,-1) 

2.2.4 测试集验证、结果评价与调优

#结果校验
temp <- unique(testterm[, c("id", "label")])
dictresult <- join(dictresult, temp)
evalue <- table(dictresult$newlable, dictresult$label)

在这里插入图片描述
很明显,效果并不好,仅55%,考虑从3个角度优化:
改进方向1:调整临界值
改进方向2:优化分词结果(去除高频词、重复词)
改进方向3:优化词典(校正词汇与情感)
以容易实现的法1为例,当阈值调整为1时,正确率可提升至58.9%

ss<-seq(-1,1,0.1)
pp<-c()
for (i in 1:length(ss)) {newlable<-ifelse(dictresult$weight>ss[i],1,-1)kk<-data.frame(dictresult$label,newlable)pp[i]<-sum(kk[,1]==kk[,2])/nrow(kk)
}
ss[which.max(pp)]

http://chatgpt.dhexx.cn/article/plfBCt9E.shtml

相关文章

snownlp情感分析

之前写过一篇博客&#xff0c;豆瓣短评分析&#xff0c;当时是拿分类问题来做的&#xff0c;预测的是用户给电影打的星级&#xff0c;其实也可以用snownlp对短评做情感分析。 情感分析就是用一些方法和技术来识别和提取原素材中的情感色彩&#xff0c;本篇博文主要就是介绍如何…

java 情感分析_Alink中文情感分析示例(Java版本)

Alink是基于Flink的机器学习算法平台,欢迎访问Alink的github获取下载链接及更多信息。alibaba/Alink​github.com 也欢迎加入钉钉群进行交流。 情感分析是对带有情感色彩(褒义贬义/正向负向)的主观性文本进行分析,以确定该文本的观点、喜好、情感倾向。本文将针对顾客对酒店的…

情感分析教程

作者|Zijing Zhu 编译|VK 来源|Towards Datas Science 据估计,世界上80%的数据是非结构化的。因此,从非结构化数据中提取信息是数据分析的重要组成部分。 文本挖掘是从非结构化文本数据中获取有价值的信息的过程,情感分析是文本挖掘的应用之一。它使用自然语言处理和机器学…

python 情感分析实例_基于Python的情感分析案例

**情感分析 **又称为倾向性分析和意见挖掘 它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程 其中情感分析还可以细分为情感极性 倾向 分析 情感程度分析 主客观分析等。 情感极性分析的目的是对文本进行褒义、贬义、中性的判 **情感分析&#xff1a;**又称为倾…

情感分析 综述

情感分析或观点挖掘是对人们对产品、服务、组织、个人、问题、事件、话题及其属性的观点、情感、情绪、评价和态度的计算研究。该领域的开始和快速发展与社交媒体的发展相一致&#xff0c;如评论、论坛、博客、微博、推特和社交网络&#xff0c;因为这是人类历史上第一次拥有如…

windows无法启动print spooler服务 资源不足,无法完成该操作

WIN10系统下print spooler打印服务无法启动&#xff0c;提示错误“错误0x800706b9资源不足&#xff0c;无法完成该操作”&#xff0c;可以快速的解决方法。 最近有Win10用户反馈无法打印机&#xff0c;而在启动print spooler服务&#xff08;打印服务&#xff09;时遇到错误提示…

【vSphere故障案例】案例十二:资源不足,vSphere HA故障切换级别

【vSphere故障案例】案例十二&#xff1a;资源不足&#xff0c;vSphere HA故障切换级别 2013-04-17 12:16:51标签&#xff1a;vSphere ESXi HA故障原创作品&#xff0c;允许转载&#xff0c;转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任…

解决32位程序报“内存资源不足,无法处理此命令”问题

1、先点击此链接下载插件包&#xff1a;​​​​​​​​​​​​​​​​​​​​​让32位程序能申请到4GB内存方法-C#文档类资源-CSDN文库 2、将EditBin放到程序的根目录 3、 程序的启动项的生成事件里面添加命令行 cd ..\EditBin\x64 editbin /largeaddressaware …

idea启动项目报错内存资源不足的问题

尝试一下几种方式&#xff1a; 1&#xff0c;改变idea的heap参数大小至1500 2&#xff0c;IDEA启动参数配置 -Xms128m -Xmx3072m -XX:ReservedCodeCacheSize240m -XX:UseConcMarkSweepGC -XX:SoftRefLRUPolicyMSPerMB50 -ea -XX:CICompilerCount2 -Dsun.io.useCanonPrefixCac…

Vcenter 资源不足,无法满足XXX中集群 上的vSphere HA故障切换级别

故障现象: 做Vmotion时发现报错:Vcenter 资源不足,无法满足XXX中集群 上的vSphere HA故障切换级别 点开集群摘要发现,预留cpu和内存都是100%. 解决过程如下:

海康威视4200服务器显示资源不足,硬盘录像机提示“资源不足”是什么原因 -

很多人来问重庆监控&#xff0c;画面上会提示资源不足是怎么回事&#xff1f;重庆监控来给大家科普一下&#xff1a;资源不足不是设备的故障&#xff0c;他只是一种现象提示&#xff0c;画面上无图像&#xff0c;并且叠加了“资源不足”文字提示。有些伙伴可能重启了录像机几次…

资源优化问题常见形式

1 常见优化问题形式 1.1 以最大化多用户 的 和 速率的形式 此情况下&#xff0c;无论是该和速率是作为目标函数&#xff0c;还是作为约束&#xff0c;都不是凸函数的形式&#xff0c;原因是涉及到 log(.)log(.) 的形式&#xff0c;是非凸的。常见解决方法&#xff0c;是采用 …

不要再抱怨项目资源不足了,这么办都能解决

无论是企业还是银行&#xff0c;项目管理在组织中的地位越来越重要。但笔者走访了超过200家银行和超过100家大型企业&#xff0c;项目管理存在的问题依然严峻&#xff0c;在这些组织中项目管理的成熟度水平依然有较大的提升空间。 在项目管理的十大知识领域里面&#xff0c;资…

node资源不足导致的pod pending状态

背景 linux centos7.6系统 k8s集群刚刚经历节点资源缩容&#xff1a;从8C 32缩小至4c16G 现象 恢复k8s节点后发现很多pod都处于Pending : 原因 由于资源缩容&#xff0c;每个服务占用的cpu和内存值没有改变&#xff0c;导致机器分配资源时内存或cpu不足导致 这一点可以通过…

配置的资源不足,达不到 XXX 内集群 ABC 中期望的 vSphere HA 故障切换级别

做了HA后报此错误&#xff0c;可以在群集的HA设置中修改准入控制&#xff0c;预留的故障切换为机器数量的百分比&#xff0c;当前两台设置50或再高一些即可。另外虚拟机允许的性能降低比例也不可为100。

项目管理,资源不足怎么办?

企业的项目管理活动经常会遇到很多挑战&#xff0c;资源不足可能是最常见的一个&#xff0c;也是会引起重大后果的因素之一&#xff1b;项目管理过程中的资源一般指的是人力资源&#xff0c;项目的推进执行需要大量的人力投入&#xff0c;一旦投入的资源不足&#xff0c;项目的…

复数特征值求特征向量_如何理解特征值的意义?

毕业多年,曾经有同事问我该如何理解特征值的意义? 当时,实在羞愧,我一学数学的,真不知该如何回答。 极力回想,也只能以“特征值的求法、步骤...bla...bla...”应付了事, 答非所问,简直了得! 这样的答案教科书里写得清清楚楚,网上Google/百度一大堆, 人家问的是意义,…

特征值和特征向量的实际意义

特征值和特征向量的实际意义 从定义出发&#xff0c;Axcx&#xff1a;A为矩阵&#xff0c;c为特征值&#xff0c;x为特征向量。 矩阵A乘以x表示&#xff0c;对向量x进行一次转换&#xff08;旋转或拉伸&#xff09;&#xff08;是一种线性转换&#xff09;&#xff0c;而该转换…

什么是特征向量和特征值

有振动 就有特征值 1 特征值和特征向量的由来 谈到线性代数课本里面的一些概念&#xff0c;比如行列式、矩阵乘积、线性变换、二次型等&#xff0c;或许很少人知道它们是谁发现的&#xff0c;这不像高数/数分课本上那么明显&#xff1a;柯西收敛准则、拉格朗日中值定理、魏尔…