1.目的:从用户的订单评论里,抽取观点,进行标签化,此标签可以用来作一些辅助决策或者填充到用户画像体系里。
其实评论挖掘的主要有两个部分,观点抽取和情感判断,主要的作用还是间接或直接引导用户购买意向,像淘宝,京东类似的智能展示。而评论的主语都是商家,但如果平台即是商家的话,展示评论观点就会显得比较鸡肋,因为不可能展示对自身不好的评论。因此在这种情况下,评论挖掘的意义更在于知道用户对商家的反馈,建模统计用户对商家的关注点是什么,例如是对商家的服务、价格还是app应用的反馈问题,知道这些,可以更好的对产品进行更好的决策和更改。
参考书籍:https://pan.baidu.com/s/1aHP7q8ktJWSVhTBRiziECw,美团机器学习实践。
2.例子:
输入:车子价格优惠,车况良好,服务态度很好,很周到。
输出:价格优惠、车况不错、服务好
3.方案:
a.刚开时我做的时候,是先调用了百度AI平台的观点抽取,发现不怎么好用,可能是我所在行业所导致的,有很多大量的专有词汇。
b.评论标签化,可以看成noun+adj,也就是名词和描述性词汇的结合。有一个大众的做法,就是通过依存句法分析来进行匹配,然后word2vec向量化+dbscan聚类,就可以做到类似淘宝那种评论观点显示,例子:
输入:服务很到位
依存句法分析输出后:主谓关系:服务,状中结构:很,核心关系:到位
可以看出最终的结合是主谓关系+核心关系,就可以将评论观点抽取出来。不过这种方法问题还是很大,实际运用时,不能单单只靠依存句法分析来处理,会出现很多问题的。
c.首先得建立独有的词表(跟自己行业有关),比如名词词表,像我的行业里,独有的有车况,取车,还车,手续之类独有的,描述性词表同理(这个手动去挑选比较好,如果词典比较大,再用代码去挑选)。注意:有些词汇出现的频率非常高,但是其不是名词,也不是形容词的话,这种情况要单独挑选出来处理,以免纰漏。
两个词表建立完以后,可以通过word2vec去将相似的词汇进行聚类统一(实际运用时还不如直接人工简单粗暴的好用)。这两个词表在去结合依存句法分析来进行提取,就会比较准确。
d.评论最后都抽取完以后,就可以进行统计分析了,或者出于业务角度来进行应用。