摘要伴随着互联网的飞速发展,用户在网上发表的评论等带有情感的文本数目也呈几何方式增长。如何分析这些大量的带有情感的文本并从中获取到具有实际价值的信息,成为一项很有意义的工作。本文以机器学习方法为主要研究手段,对文本情感分类方法进行了一些探究,具体如下:73277
(1)研究并评价了在词袋模型与词向量模型不同的文本表示下,多个分类算法(支持向量机,朴素贝叶斯,K最近邻)的效果,以及比较了特征维数,特征选择方法(互信息和信息增益法)对分类效果的影响。
(2)实现了在特征层次进行线性组合和在分类器层次进行组合的两种不同的特征组合方法,评价了其组合效果。
实验的数据集采用互联网上采集到的评论信息,均有正确分类标注。实验中对特征选择方法,向量维数,分类器这三个方面进行了实验,实验结果表明需要根据具体的问题来在这三个方面做出合适的选择。同时也对组合使用词向量和词袋模型时的分类效果进行了实验,实验表明分类器层面进行融合与在特征层进行融合相比,具有更加好的分类效果。
毕业论文关键词 情感分类 词袋模型 词向量 特征组合
毕业设计说明书外文摘要
Title Text sentiment classification algorithm based on feature combination
Abstract With the rapid development of the Internet, the user's opinion on the Internet is also growing in size。In these views, the huge social value and economic benefits are hidden。How to analyze a large number of the text with subjectivity has became a very meaningful work。In this paper, the machine learning method is the main research means。we use it to study the text sentiment classification algorithm in the following aspects:
(1)the research study and evaluate the different text representation of word bag model and word vector model in different classifier(Support vector machine,Naive Bayes,k-Nearest Neighbor)。we compare the different feature dimension and the feature selection method (mutual information and the information gain method)。
(2)Two different feature combination methods, which are linear combination at the feature level and combination of the classifier level, are realized。
The experimental data,whitch has been marked,sets is commment collected from the Internet。Experiments show that the fusion in classifier level is better than the fusion in feature level。
Keywords Emotion classification Word bag model Word vector Feature combination
目 次
1 绪论 1
1。1 研究背景 1
1。2 研究现状 2
1。3 研究内容与论文结构 2
2 文本情感分类基础知识 4
2。1 基于情感字典的情感分类方法 4
2。2 基于机器学习的情感分类方法 4
2。2。1 文本预处理 5
2。2。2 文本表示 5
2。2。3 特征选择 6
2。2。4 特征权重 8
2。2。5 分类方法 9
2。2。6 评测指标 11
3 基于特征组合的文本情感分类算法