综上所述,文本情感分类是处理存在于互联网中的大量非结构文本的有效方式,可以帮助用户从海量信息中获取到自己需要的那一部分,具有显著实用价值与研究意义。
1。2 研究现状
1。3 研究内容与论文结构
文本情感分类需要分析拥有主观性情感的文本,总结情感倾向,并对未知情感进行推理,将倾向分为褒贬二类或更详尽的多元分类[ ]。
本文具体的研究内容为:
(1)研究文本的表示模型,实现了基于词袋模型与词向量模型的文本表示方法。
(2)研究特征的选择方法,实现了信息增益法与互信息法来进行特征选择。
(3)研究常见的分类算法,实现了朴素贝叶斯分类器,并与其他分类器进行分类效果的实验。
(4)设计了多种特征组合方式,并进行了分类效果实验。
本文共分四个章节,文章余下的章节安排如下:
第二章,介绍对在文本上进行对情感倾向进行分类的相关基础知识。本章介绍了一些有关基于文本的情感分类的关键技术,对于基于机器学习的文本情感分类方法进行了详细的介绍,主要有文本的表示模型,文本的预处理技术,特征的选择方法与特征权重的计算方法,分类的方法与评价的指标。最后对本章的内容进行总结。文献综述
第三章,基于特征组合的情感分类算法。首先介绍了词袋模型与词向量模型的相关知识,以及用于训练词向量的开源工具Word2Vec及其相关的理论基础。其次给出了多种特征组合的方法。
第四章,实验结果。对特征选择方法(互信息与信息增益),特征维数,分类器(朴素贝叶斯,支持向量机,K-最近邻)三个方面在分类过程中对分类结果有怎么样的影响进行了实验,对本文实现的基于特征组合的文本情感分类算法进行了评估。
2 文本情感分类基础知识
文本情感分类需要依据文本的作者在文本中所表达的情感进行分析,进而得到文本的情感极性。本章将对文本情感分类中的主要方法进行叙述,也就是以情感词典为基础的分类方法和以机器学习为基础的分类方法,着重介绍了研究过程中使用的机器学习方法,包含文本预处理,如何进行特征选择以及特征权重的赋予,文本的常见表示模型,常见的一些分类方法与分类效果的评价标准。
2。1 基于情感字典的情感分类方法
基于情感字典的文本情感分类方法[ ]主要依靠各类情感词典中给予的基准词来对文本的情感倾向进行判断。主要原理是利用比较文本中所出现的褒义与贬义词的数目来判断情感。考虑否定词,转折词等特殊的语言现象后,当前基于情感词典的情感分类方法可以总结为下式:
其中,文本中情感词汇的数量为n, 为第 的情感词的极值, 是该情感词的情感修饰词的个数, 为对应修饰词的权重。普通词汇中,褒义词具有积极的意思,一般赋予的极值比0大,贬义词具有消极的意思,一般赋予的极值比0小。特殊词汇中,转折与否定具有反转情感的功能,所以一般取-1,强化情感,弱化情感的词的权重依据强度设置,一般前者大于1,后者小于1。结合以上内容,通过上式所计算出的P值即为文本的情感极值,再依据预先设定好的情感阈值来判断文本的情感极性。
由公式(2。1)可看出,使用情感词典分类的方法重点在于情感词典的构建。情感词典构建的好坏将直接对最终的分类结果产生影响。当前在中英文领域,常用的词典有:HowNet情感词典,WordNet英文情感词典等,也可以自己来构建情感词典完成相应的任务。