Keywords:  Sina  microblogging、Social  public opinion;  Public opinion  Systems; Reptile theme; Information collection       

目录

1绪论....1

1.1背景分析...1

1.2研究的内容.1

1.3论文结构...2

2爬虫技术及新浪微博数据挖掘方案...2

2.1正则表达式简介..2

2.2HTMLPARSER概述...2

2.3多线程技术.2

2.4JSP技术...4

2.5新浪微博数据挖掘方案.5

2.6本章小结...9

3系统分析9

3.1系统需求分析....9

3.2通用爬虫的体系结构..10

3.3基于关键字的主题爬虫的体系结构11

4系统设计....12

4.1系统模块设计...12

4.2系统流程设计...13

4.3爬行模块设计...15

4.4网页解析模块设计....18

4.5基于网络爬虫的页面解析...18

4.6数据库设计20

5系统实现....21

5.1实现工具..21

5.2网络爬虫架构...21

5.3页面分析..24

5.4开发中遇到的难题....25

5.5运行效果展示...30

参考文献.32

致谢....35
 1 绪论  1.1 背景分析  社会舆情是指人们在一定的社会空间内,围绕着社会事件的发生、发展及变 化,对公共问题和社会管理者持有的社会政治态度、观念和价值判断;它是较多 群众关于社会事件以及问题所表达的观点、态度和情绪等表现的总和。当前,我 国正处于社会转型期,各种社会矛盾和利益冲突日趋复杂、多变。社会舆情不仅 是检验社会成熟度的一个重要标尺,更是一把“双刃剑”。如把握和引导得当就 能推动社会稳定、健康地发展;如处置不当则会模糊社会发展主流、扰乱人心, 进而影响国家和社会的稳定与发展。  新浪微博是一款为大众提供娱乐休闲生活服务的信息分享和交流平台。截至 2010年10月底,新浪微博用户数已达 5000万,新浪微博用户平均每天发布超 过2500万条微博内容。  是中国用户数最多的微博产品,公众名人用户众多是 新浪微博的一大特色,基本已经覆盖大部分知名文体明星、企业高管、媒体人 士。
  1.2 研究的内容  社会舆情系统分为多个功能模块,其中数据的抓取模块则大大减轻了管理 员的负担,把管理员从繁重枯燥的工作中解脱出来,不再需要手工地进入各个 门户网站了解舆情。我们将从网页中抓取的数据存入数据库,为后续的功能模 块对数据进行分析提供充足并且有效的数据。  爬虫程序是一个自动获取网页的程序。它为搜索引擎从互联网上下载网页, 是搜索引擎[1] 的重要组成部分。爬虫程序的实现策略,运行效率直接影响搜索 引擎的搜索结果。不同的搜索引擎源]自=优尔-^论-文"网·www.youerw.com/ ,会根据对搜索结果的不同需求,选择最合 适的爬行策略来搜集互联网上的信息。高效,优秀的爬虫程序可以使人们在互 联网上寻找到更及时,更准确的信息。  本系统通过JAVA语言实现一个基于广度优先偏历算法的多线程爬虫程序。 通过实现此爬虫程序可以搜集种子站点下的 URL,并对 url 的相关性进行分析, 如果与我们需求主题一致,及 url 对应页面为相关高校的舆情信息,即对网页进 行抓取,录入到数据库[4] ,方便后续的的分析。为了保证系统的完整性,我们将后台的mysql 数据库[5] 中的记录显示到前台,并且可以用 sql 语句[6] ,进行按 时间顺序查看记录。   
1.3 论文结构  本文着重介绍了爬虫模块的设计与实现。其中第二章介绍了在爬虫模块的 设计实现中所用到的相关技术。第三章对系统整体进行分析,第四章对系统的 各个功能模块作了具体的设计,第五章详细阐述系统的实现过程。  2 爬虫技术及新浪微博数据挖掘方案 

上一篇:电子商务网站分类使用中的学习现象研究
下一篇:基于UML的某社团网站系统的建模与设计

银行行办公信息服务系统【1544字】

论信息技术茬外语教學中的應用【3270字】

计算机信息管理茬第三方...

电子商务中信息不對称问题研究【2365字】

用友NC信息系统的实施應用实践研究【3307字】

网络信息安全技术管理的...

商业银行管理信息系统开...

互联网教育”变革路径研究进展【7972字】

张洁小说《无字》中的女性意识

老年2型糖尿病患者运动疗...

网络语言“XX体”研究

我国风险投资的发展现状问题及对策分析

新課改下小學语文洧效阅...

LiMn1-xFexPO4正极材料合成及充放电性能研究

安康汉江网讯

ASP.net+sqlserver企业设备管理系统设计与开发

麦秸秆还田和沼液灌溉对...