摘要:随着Web2.0的发展,微博渐渐成为普通大众生活中必不可少的一部分,人们利用微博进行网上交流和网上评论。不断更新的微博具有巨大的信息量,而且微博中所表达的信息都是用户的真实情感和感受,微博信息中隐藏着巨大的价值。但是目前对英文微博情感分析较多,中文微博情感分析尚处于起步阶段。本文采用监督学习的方法进行微博情感分析研究,比较了七种分类器的实验效果。首先,利用结巴分词技术对微博信息进行分词预处理;然后,选取五类特征集:基于四个词典的特征集、基于N-POS的特征集、基于模式的特征集、基于特殊字符的特征集和基于句子长度的特征;最后使用七种分类器分别训练模型,做比较性实验。39911
毕业论文关键词:微博情感分析;情感分析; 多特征; 监督学习
Sentiment Analysis of Chinese Micro-blog  Based on Supervised Learning
Abstract: With the development of the Web2.0, micro-blogs gradually become a common essential part of the public life. People communicate with each other and make comments on the Internet by micro-blogs. Micro-blogs are updating constantly everyday and have huge information. Apart form it, the reviews in the micro-blogs are true feelings of the users, thus there are huge hidden values in them. However, the existing research is more about foreign micro-blogs, but Chinese micro-blog sentiment analysis is still in its infancy. This paper uses the method based on supervised learning to analyze micro-blog sentiment, comparing the experimental results of seven kinds of classifiers. Firstly, it uses jieba technique to preprocess the micro-blog texts; then it selects five kinds of feature sets: sentiment lexicons based feature sets, Part of speech combination (N-POS) based feature sets, patterns based feature sets,special symbols based feature sets and sentence length based feature set; finally, it employees seven classifiers to train the model separately and compares their experimental results.
 Key words: sentiment analysis of micro-blog; sentiment analysis; multi-feature; supervised learning
目  录
1 绪论    1
1.1 研究背景    1
1.2 研究的目的与意义    1
1.3 国内外研究现状    2
1.3.1 文本情感分析研究现状    2
1.3.2 微博情感分析研究现状    3
1.4 论文的主要研究内容    4
1.5 论文的组织结构    5
2 相关介绍与理论概述    6
2.1微博相关概述    6
2.1.1微博的定义与发展    6
2.1.2 中文微博中的符号    6
2.1.3中文微博研究中的困难    6
2.2文本预处理技术    7
2.3 特征选择    7
2.3.1常用的特征选择算法    7
2.3.2特征选择方法优缺点比较    9
2.3.3微博的特征选择方法    9
2.4本章小结    9
3 基于监督学习的微博情感分析    10
3.1 监督学习相关介绍    10
3.2 基于监督学习的整体框架    10
3.2.1 情感分类    10
3.2.2 监督学习过程    10
3.3 特征产生    11
3.3.1 词典特征    11
3.3.2 N-POS特征    13
3.3.3 词性与中文组合特征    13
3.3.4 特殊字符特征    14
3.3.5 句子长度特征    14
3.4 分类器    15
3.4.1 支持向量机    15
3.4.2 朴素贝叶斯    15
3.4.3 K近邻    16
3.4.4 决策树    16
上一篇:jsp网上订餐效益分析系统的设计与实现
下一篇:中小企业网络的规划与设计

基于Apriori算法的电影推荐

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

基于网络的通用试题库系...

python基于决策树算法的球赛预测

基于消费者个性特征的化...

基于网络的通用试题库系统的整体规划与设计

AT89C52单片机的超声波测距...

国内外图像分割技术研究现状

公寓空调设计任务书

志愿者活动的调查问卷表

中国学术生态细节考察《...

神经外科重症监护病房患...

10万元能开儿童乐园吗,我...

承德市事业单位档案管理...

C#学校科研管理系统的设计

医院财务风险因素分析及管理措施【2367字】