(2)网络舆情演化分析的相关技术研究
1)舆情社会网络分析技术
以微博为例,互联网环境下的舆情传播可以视为一个复杂社会网络结构。
用一个节点来代表一个微博用户,节点之间的连线表示用户之间的交流、评论和转发。得益于微博等社交媒体的兴起,社会网络分析技术在研究网络舆情演化方面备受重视。近年来,国内针对微博社会网络结构的研究较多。例如,平亮等从研究新浪微博入手,检测并分析了微博社会网络的点度中心度、中间中心度和接近中心度。发现微博中拥有较多“被关注数”的节点在舆情演化中有着更大的作用[10];金鑫以具体的舆情事件为研究案例,构建其在微博平台中的社会网络,并研究了社会网络拓扑结构对舆情演化的影响[11];
2)舆情信息情感倾向性分析技术
文本情感分析方法有两种,分别为基于机器学习的情感分类方法和基于语义理解的情感分析方法两大类[12]。基于机器学习的情感分类方法首先利用训练语料对分类器进行训练,然后将测试语料用已训练好的分类器进行分类测试,得到文本的情感倾向性。Pang等[13]分别运用NBM(Naive Bayesian Model)、MEM(Maximu Entropy Models)以及SVM(Support Vector Machine)这三种分类器针对观众对电影的各种评价进行了分类和研究。李素科等[14]针对监督学习分类法亟待改进的地方进行了仔细研究,该方法中的情感特征被其进行了聚类,最终总结出了一种半监督式的情感分析算法。
基于语义的文本情感倾向性分析方法同样有两种:基于情感词的分析方法和基于语义规则的分析方法。第一种方法是先将待分析文本中的情感词汇抽取出来并进行排序,其次按照顺序判断被抽取出词汇的倾向性,然后给这些词汇赋予情感倾向值,最后将这些词汇被赋予的全部倾向值求和得到总体文本倾向性。例如,徐琳宏等[15]采用HowNet作为基准词,并考虑否定词和程度副词的影响,计算待测词的关联度确定语义倾向,对电影评论进行了倾向性识别研究。
第二种方法是提前设置一个汇总所有情感倾向的语意模式库,有时还会附带一个倾向性字典,然后把文本与该模式库比对,并进行匹配,算出情感倾向的值,最终进行求和得到全文的情感倾向和强度。例如,Yi等人[16]在做语义关系的分析时,曾使用倾向性词汇表和模式库,最终计算出产品评价的文本倾向性。刘永丹等人[17]在对情感倾向性的判断中使用语义分析技术,简明扼要地表述了文本的语义关系并进。
(3)意见领袖识别
通过阅读相关文献,我们发现意见领袖识别方法主要包括层次分析法、聚类分析法、社会网络分析法、HITS算法及PageRank算法等。例如,丁雪峰等[18]利用采集的数据,通过设立“属性矩阵”来表示网络话题的参与者,提出了用于识别意见领袖的综合评价算法,并运用排序方式提取出意见领袖。刘志明等[19]在用户影响力和活跃度的基础之上,提出微博意见领袖指标体系,使用AHP和粗糙集决策分析理论识别意见领袖特征并进行分析。熊涛等[20]利用微博转发关系来构造邻接矩阵,使用改进后的超文本敏感标题搜索算法来识别意见领袖,构建了基于转发关系的意见领袖网,验证了算法的有效性和分析了意见领袖在微博网络中的作用。肖宇等[21]把聚类算法和分类算法的优势结合起来,在分析话题内容的基础之上提出了发现某一兴趣团体的方法,并通过计算用户之间基于回复情感倾向的链接权重,最终他提出了一种新的基于领袖排序的意见领袖发现算法。