基于条件随机场模型(Conditional Random Fields,CRFs)的评价对象抽取方法,本身存在着召回率不高的缺陷。同样基于句法分析、规则模型的抽取方法也无法涵盖中文语言表达的全部特征。因而许多学者将两种方法结合,戴敏等[8]使用基于CRFs的监督学习方法实现英文评价对象的抽取,并引入句法分析来提高抽取性能。王荣洋等[9]借助CRFs模型,研究多种特征在抽取任务中的效果,并将特征归纳为词法、依存关系、相对位置和语义四大类。郑敏洁等[10]通过实验,发现结合了词、句子倾向性、词性、语法依赖关系、邻近名词等特征的条件随机场方法对中文句子的抽取更有效。
有监督的观点抽取方法具有过分依赖标注数据,适用性不强的缺陷;而基于句法分析无监督的方法无法总结中文语言表达的全部特征,准确率较低。CRFs模型和句法分析结合的方法互补了以上两种,进而改善了抽取的效率。此方法主要是利用句法分析评价对象在评论句中的位置特征,将位置特征作为CRFs模型的标注特征,从而提高评价对象识别的准确率。然而,评论信息中的观点是由评价对象和评价词组合而成的,评价对象的准确识别并不意着观点的准确抽取。现有商品评论信息的观点抽取方法强调了对评价对象的识别和抽取,忽视了对观点中评价内容(即评价词)的抽取研究。因此,本文在相关学者研究的基础上,根据商品评论信息领域性强的特点,引入本体的方法,将本体和CRFs监督学习模型结合,实现商品评论中评价对象的抽取。同时借助构建的本体抽取评价词,最后利用句法分析生成商品评论信息中的观点。
1.4 观点分类综述
在观点分类方面,主要有基于机器学习和基于语义分析的观点分类方法。基于机器学习的观点分类方法利用了词语间的相似度以及文档中的词频数[11]。通过训练文本,统计相关类别下的词语出现的频度概率,再根据目标文本中相关词语的频度信息来判断出类别,具体有贝叶斯算法、最大熵算法和SVM算法等。而基于语义分析的观点分类方法是通过分析词语的语义倾向性来判别文本类别的,因词语语义倾向值计算方法的不同,往往产生不同的效果,代表性方法有Turney[12]等提出的SO-PMI和SO-LSA方法。
综合比较,前者侧重于对类别词词频的统计,并通过频度信息对观点进行层次上的分类,后者更加侧重对观点的语义倾向性进行分析,并根据倾向性特征进行语义上的分类。本文在两者的基础上,将观点的类别特征和语义特征结合,从商品评论观点的生成模式出发,按照组成观点的评价对象和评价词,对抽取出的评论观点进行分类。
1.5 论文研究内容
本文研究的核心是如何有效的对商品评论信息进行观点抽取,并对抽取出的观点进行分类,以便于后期的观点挖掘。选择汽车商品为例,主要研究对象为各汽车门户网站上有关汽车商品的测评和口碑评论信息,具体的研究内容如下:
① 商品评论信息自动采集
以汽车商品为例,根据商品评论信息在网络上的分布,研究汽车商品评论信息发布的平台、网页的信息结构、信息组织的机制。根据现有的网页信息采集技术,研究汽车商品评论的采集流程和算法,针对汽车评论门户网站的结构特征,开发针对汽车评论信息抓取的网络主题爬虫。
② 汽车评论本体构建
对汽车评论本体中的主要组成元素进行归纳,研究类与子类、类与属性、属性与属性之间的关系。进行汽车功能/性能等属性及其评价词实例的识别,研究汽车评价信息中用户观点的分类体系,最终形成汽车相关领域评价对象实例的集合。
- 上一篇:关键词共现网络中的主题突变识别与分析研究
- 下一篇:网络舆情链式效应结构关系及其演化规律分析
-
-
-
-
-
-
-
高警觉工作人群的元情绪...
巴金《激流三部曲》高觉新的悲剧命运
江苏省某高中学生体质现状的调查研究
NFC协议物理层的软件实现+文献综述
中国传统元素在游戏角色...
现代简约美式风格在室内家装中的运用
上市公司股权结构对经营绩效的影响研究
浅析中国古代宗法制度
g-C3N4光催化剂的制备和光催化性能研究
C++最短路径算法研究和程序设计