摘要随着网络信息资源的急剧增长,越来越多的信息涌到人们的面前。在这样的时代背景下,搜索引擎的出现十分必然,并且已经发挥不可替代的作用,成为人们从网络信息海洋中获取想要的信息的有效工具。而在生活节奏越来越快的现代社会中,人们会越来越少从一般的网站里获取资讯和信息,而是更加倾向于从由人组成的社区网站里找到更鲜活和真实的评论。
搜索引擎中的信息采集,即网络爬虫系统的搜索策略的研究,对于搜索引擎的应用与发展具有非常重要的作用。本课题围绕社交网站的网络爬虫展开研究设计,目标是实现一个针对社交网站实时信息获取的网络爬虫。62971
毕业论文关键词 搜索引擎 社交网站 实时搜索 网络爬虫
毕业设计说明书(论文)外文摘要
Title Real-time network information search
Abstract With the rapid growth of network information resources, more and more information rushed to people.The emergence of search engines is inevitable in this background, and has played an irreplaceable role to become an effective tool for people to obtain the desired information from the network ocean of information. In a faster and faster pace of life in modern society, people will less and less get information from the general site, but more incline to find a more vivid and true comments from the community made up of people website。
Collecting information by search engine, namely search strategy of the network crawler system,is very important for the application and development of search engines. This project try to design a social networking site Web crawler, the goal is to achieve a web crawler for social networking sites。
Keywords:Search Engine;Social networking sites;real-time search;web crawler
1 引言 1
1.1 选题的背景及研究意义 1
1.2 网络实时信息搜索的现状分析 1
1.3 论文组织结构 1
2 系统的关键技术及介绍 2
2.1 实时搜索 2
2.2 搜索引擎 4
2.3 网络爬虫 6
2.4 深度优先搜索策略 7
2.5 SQL SERVER 2008数据库 7
2.6 基于API的数据获取 9
3 系统需求分析 10
3.1 功能需求分析 10
3.2 性能分析 10
3.3 数据需求分析 11
3.4 可行性分析 12
4 网络爬虫的设计 12
4.1 模块流程图 12
4.2 模块具体介绍 13
4.3 系统数据库 16
5 网络爬虫的具体实现 19
5.1 界面设计 19
结 论 26
致 谢 27
参考文献 28
1 引言