1.1 选题的背景及研究意义
随着网络信息资源的急剧增长,越来越多的信息涌到人们的面前,搜索引擎就是在这样的背景下出现的,并且已经发挥出不可替代的作用,成为帮助人们从浩瀚的信息海洋中获取自己想要的信息的有效工具和一种举足轻重的网络应用手段。
网络实时信息对人们的吸引力表现在突发新闻、寻找购物建议等方面。在生活节奏越来越快的现代社会中,人们会越来越少从一般的网站里获取资讯和信息,而是更加倾向于从由人组成的社区网站里找到更鲜活和真实的评论。
实时搜索通过抓取社交网络上用户随时发布的海量信息,给人们提供最新的搜索内容。主要研究如何实时抓取社交网页上用户不断更新的信息;以及面对连续不断更新的各类实时信息,搜索引擎如何从中筛选出可靠、对用户有实际价值的信息。
1.2 网络实时信息搜索的现状分析
在信息技术迅速发展的今天,网络对于大多数人已不再陌生,并且其应用在人们的工作、学习和生活中越来越多地发挥着不可替代的作用。Internet 资源既丰富又分散且处于无序状态,使得人们在网上查找自己所需的信息并非易事。这时为满足人们对信息检索的需求,搜索引擎便应运而生。当然目前搜索引擎技术已经相当成熟,数据采集和关键字排名算法也能高效运转,但是随着 Twitter 一类短信息服务的出现,搜索世界出现了新的难题,那就是实时搜索技术。
实时搜索简而言之就是对互联网上的一些信息进行即时、快速搜索,实现即搜即得的效果。实时搜索的问世使得网络环境将越来越变得实时化、便捷化、简单化。通过实时搜索服务,用户可以快速得到新鲜的第一手草根信息。对国内外事件可以更快速的进行第一时间了解。源[自[优尔^`论`文]网·www.youerw.com/
1.3 论文组织结构
第一部分是引言,介绍选题的背景及研究意义,并对网络实时信息搜索进行了现状分析。
第二部分是关键技术介绍,详细介绍了与本课题实现有关的关键技术,对实时搜索、搜索引擎的发展以及网络爬虫进行了简单的分析,同时简单介绍SQL Server 2008数据库和新浪授权机制的相关含义和流程。为本课题的具体实现做了技术铺垫。
第三部分从系统的功能需求、性能需求、数据需求和可行性等方面对系统进行分析,讨论出从哪些方面开展本课题。
第四部分是对网络爬虫的设计进行了模块分析,分模块具体介绍了每个模块的功能流程;同时也介绍了数据库表的设计要求与具体设计。
第五部分是对网络爬虫的实现进行介绍,以新浪微博为例,通过操作过程图文介绍详细直观的说明了系统的可行性。
最后对本文的研究工作作出分析总结,并提出了进一步的研究目标。
2 系统的关键技术及介绍
在系统的设计过程中,主要考虑了以下几方面的问题:
2.1 实时搜索
实时搜索(Real Time Search)简而言之就是对互联网上的一些信息进行即时、快速搜索,实现即搜即得的效果。
所谓“实时搜索”实际是一种人们对于信息实时获取的美好愿望,通过努力我们可以无限接近于搜索的实时实现。目前,很多人都意识到了实时搜索的重要性。目前各大搜索引擎都在致力于实时搜索的实现。网络环境将越来越变得实时化,只要网络技术存在,实时将持续发展。
时下,以Twitter为代表的实时网络成为互联网最热门的应用领域之一。而正是基于网民对新兴资讯速度和实时性的更高要求,搜索引擎领域应需而动,“实时搜索”概念应孕而生。以谷歌为代表的国外搜索巨头相继推出相应服务。而在国内,2010年4月13日,网易有道率先推出了其实时搜索服务,成为国内首家提供此项搜索服务的搜索引擎。