该方法简单易行且效率高,但其无法识别不含有情感词但又明显情感倾向的文本,且无法识别词汇在不同语境下不同的情感倾向,这使得该方法具有一定的局限性。
2。2 基于机器学习的情感分类方法
本节着重介绍有监督学习的方法。
本节按照机器学习方法的一般步骤,依次按小节给出相关的概念,步骤如图2。1所示。
图2。1 基于机器学习方式的文本情感分析的一般步骤
2。2。1 文本预处理
文本预处理的过程主要涉及格式规范化,编码统一,去除停用词,过滤非法字符等。格式规范化与编码统一是为了将文本整理为规范的文本和编码格式,方便下一步特征提取。停用词是指虽然没有意义,但出现的非常频繁的词,例如,“的”,“啊”等[ ]。去除停用词可以一定程度上防止形成噪声以提高算法效率与准确率。过滤非法字符主要针对与文本内容无关的一些标记。如果分类文本为中文,还要对文本进行分词,这是因为中文与英文不同,不存在天然的空格来对词语进行分割,我们需要对句子进行分割来找出其中的词语,进而进行下一步的特征提取。词作为中文文本分类的一个特征,分词的效果将直接影响到分类的效果,所以分词是至关重要的一步。来*自-优=尔,论:文+网www.youerw.com
2。2。2 文本表示
一段文本原始的表示形式是一个由相应的文字和以及标点符号构造成的字符串,计算机不能直接处理这种形式的文本。为了能够有效处理真实文本,需要寻找一种理想的形式化表示方式,该方法要能够尽可能不失真的反应文档的内容且对不同文档有区分的能力。
20世纪60年代末期,向量空间模型(VSM)由G。Salton等人提出,最早用于信息检索系统中,目前是自然语言处理的常用模型。该模型的思想是将不同文本转化为向量空间内不同的点,通过度量不同点之间的距离可以得到不同文本之间的关系[ ]