首页 > 代码库 > (1)文本倾向性分析综述

(1)文本倾向性分析综述

酒店评论情感分析系统(一)——文本倾向性分析综述

题目:对酒店的评论进行文本倾向性分析,分析对酒店的评价(包括总评和细评,细评包括价格、卫生、服务、环境四个方面)是褒还是贬。

  在学《搜索引擎》这门课的时候,老师布置的一个小型project。本科的时候一直没接触过这块,所以现在只能是从一只菜鸟一步步慢慢摸索。想在学习的过程中,对搜索引擎,文本倾向性分析,网络舆情有个初步的认识与了解。

  由于处在摸索阶段,所以文中难免会出现一些表述错误、公式错误、理解错误等等,故千万不要认为里面的思路都正确,如发现有问题,欢迎共同探讨。

  本节主要介绍文本倾向性分析的综述。

  感谢以下论文对理论知识的帮助:

       a. 历小军,戴霖等,文本倾向性分析综述,浙江大学学报,2011.07

       b.   单大甫,基于网络评论的文本倾向性分类技术的研究与实现,国防科技大学,2010.10

一、文本倾向性分析的定义与主要任务

  定义:文本倾向性分析(Sentiment Classification)就是对用户对某个事物(如产品)的看法或评论文本的挖掘,从而得到该看法或评论是属于对该事物的积极或消极意见。文本情感通常分为两类(正面、反面)或三类( 正面、反面和中立)。其中正面类别(positive)是指主题中持有积极的(支持的、健康的)态度和立场; 负面类别(negative)是指文本中持有消极的(反对的、不健康的)态度和立场;中立类别(neutral)是指文本中持中立态度和立场。从当前的研究来看,以考虑两类的研究居多。

  主要任务: (1)找出文档中能够体现情感的词或短语;

                  (2)判断所找出的词或短语的倾向性极性以及强度;

                  (3)找出所抽取的词或短语与主题的关系。

二、文本倾向性分析与主题挖掘的区分

  基于文本倾向性分析的意见挖掘,相对于主题挖掘,需要对文本进行一定的智能化理解——倾向性分析,在此基础上提取作者的意见、情感和态度等信息。

三、文本倾向性分析的主要流程

 

1)   原始素材的收集整理。一般采用爬虫工具定时进行材料搜集,例如:开源的Java爬虫软件有heritrix、nutch等;

2)   文本预处理.对收集来的素材进行噪音消除、标签过滤、分词等工作,为后续分析提供较好的原始分析文本.例如:具有良好容错性的网页分析工具Htm1Parser,分词软件有中国科学院计算机所研究室编写的ICTCLAS .

3)   主观性文本识别.利用事先建立好的语料数据库或分类器进行主客观文本识别,剔除一些不含情感元素的客观性文本,提高精确度.

4)   文本倾向性判别.针对提取的主观性文本,结合语料库,采用简单统计方法或基于机器学习或基于相关性分析的方法判断主观性文本的褒贬倾向.

四、文本倾向性分析的主要方法

4.1  基于语义的文本倾向性研究方法

  目前的方法主要是通过适当的词语提取和倾向计算,对倾向值进行简单统计求得文本的整体倾向度。

  A.先对待分析文本中的形容词或能够体现主观色彩的短语进行抽取,然后对抽取出来的形容词或短语逐一进行倾向性判断并赋予一个倾向值,最后将上述所有倾向值累加起来得到文章的总体文本倾向性。

  B.预先建立一个倾向性语义模式库,有时还会附带一个倾向性字典。然后将待估文档参照语义模式库做模式匹配,最后累加所有匹配模式对应的倾向性值从而得到整个文档的倾向性。

4.2 基于机器学习的文本倾向性研究方法

    基于机器学习的文本倾向分类流程大致如下:先对文本倾向性进行人工标注,提取文本特征表示,并将其作为训练集,通过机器学习的方法构造分类器,待测文本可以通过分类器得到文本倾向性类别信息。常用的特征表示方法有:n-gram特征表示、评价词组特征表示和单个词语特征表示等。常用的特征提取方法有:MI、信息增益((IG ), CHI统计量(CH I)和文档频率(DF)等。常用的分类方法有:中心向量分类法、KNN分类法、感知器分类法、贝叶斯分类法、最大嫡分类法和支持向量机分类法等。

4.3 基于相关性的文本倾向性研究方法

       基于相似度的方法的基本思想与K-近邻方法类似,即利用K个已标记的样本点,通过样本之间的相似度,来对新的样本进行标记。基于相似度的方法采用语句间公共单词、短语的数量以及语义词典中的词语相似度来计算语句的语义相似度。

(1)文本倾向性分析综述