摘要网络新闻热点发现的主要目的是从海量互联网数据中发现人们感兴趣的热点话题。在海量的新闻文本中,找到内容相似的那一类新闻,如果这类新闻的数量达到一定阈值,便认为该类新闻属于热点新闻。同时,在诸多新闻门户网站,对于热点新闻存在海量的网民评论文本。这些评论文本代表了网民对于当前热点的评价与态度。本课题的目的是面对多个中文新闻门户网站(如新浪、搜狐、网易等),利用计算机自动分析和发现当前的新闻热点问题,并对海量的网民评论进行情感分析与挖掘,构建新闻热点发现与网民舆情分析系统。26789
毕业论文关键词 新闻热点发现 舆情分析 聚类算法 门户网站
毕业设计说明书外文摘要
Title The technology of news hotspot discovery and public opinion analysis based on portal website
Abstract
The main purpose of the news hotspot discovery is to find out the hot topic of interest from the mass Internet data. It can be assumed as a piece of hot news if the number of same news within mass Internet news text is up to a certain limit. These remark texts represent the views and attitudes towards the current hotspot. This project aims to use computer auto-analysis to find out the current hot issues in mass media, targeting at various well-known Chinese news portal websites like Sina, Sohu, NetEase. Based on that, this system can finally dig out and analyze the emotion of Netizens’ remark, and then establish news hotspot discovery as well as public opinion analysis system.
Keywords News hotspot discovery Public opinion analysis Clustering algorithm Portal website
目 次
1 引言 1
1.1 研究背景及意义 1
1.2 国内外相关研究 2
1.3 论文的主要工作及组织结构 2
2 网页信息处理相关技术简介 3
2.1 网页信息获取 3
2.2 网页文本处理 4
2.3 分词与关键字提取 4
2.4 文本的分类与聚类 5
2.5 文本情感分析 5
2.6 数据可视化 5
2.7 本章小结 6
3. 新闻信息的获取 7
3.1 Scrapy网页爬取框架 7
3.2 新闻本体的获取 8
3.2.1 新闻网页来源的特点分析 8
3.2.2 新闻网页获取的具体实现 8
3.2.3 新闻网页的解析与信息提取 9
3.2.4 新闻网页信息的预处理与储存 9
3.3 新闻评论的获取 10
3.2.1 新闻评论来源的特点分析 10
3.2.2 新闻评论获取的具体实现 11
3.2.3 新闻评论的解析与信息提取 12
3.2.4 新闻评论信息的预处理与储存 13
3.4 本章小结 14
4. 新闻热点发现与舆情分析 15
4.1 新闻信息的聚类分析 15
4.1.1 聚类算法的选择 15
4.1.2 聚类算法的具体实现 16
4.2 新闻评论的舆情分析 18
4.3 分析结果的可视化 18
4.4 本章小结 19
- 上一篇:网络隐蔽信道国内外研究现状
- 下一篇:新闻热点发现与舆情分析技术国内外研究现状
-
-
-
-
-
-
-
洪泽湖常见水生经济动物资源现状的调查
数据采集技术文献综述和参考文献
慕课时代下中学信息技术课程教学改革
糖基化处理对大豆分离蛋白功能的影响
油画创作《舞台》色彩浅析
松节油香精微胶囊文献综述和参考文献
浅议电视节目主持人的策划意识
高校计算机辅助教学英文文献和中文翻译
浙江省嘉兴市典型蔬菜基...
msp430g2553单片机高精度差分GPS技术研究