基于JSP的Internet搜索引擎系统设计

摘要：互联网信息的日益增长为用户有效地获取资源带来不便，基于JSP的Internet的搜索引擎系统运用爬虫算法对数据进行有效检索，可以提高用户对所需资源的搜索效率。系统基于B/S模式，采用JSP动态网页编程技术，结合爬虫算法实现在指定的Web页面中通过超链接进行搜索、解析，并将搜索到的每条信息索引存入数据库，通过Web服务器接受客户端请求后从索引数据库中搜索出所匹配的文档，实现了在Internet中快速检索信息的功能。6999
关键词：互联网；搜索引擎；爬虫算法；JSP技术
The Internet search engine system based on JSP technology
Abstract: The growth of the internet information has been inconvenient for the users to get access to resources effectively. The Internet search engine system based on JSP searches data effectively by Crawler algorithm, which can help users enhance the searching efficiency of resources they need. The system is based on B/S schema, using JSP dynamic Web page programming techniques.Combined with Crawler algorithm，we make it come true that we do search and analysis in the specified web page by means of hyperlinks, and store every information index searched in database and then search for the suited documents from the index database after the clients’ requests are accepted via the web server to achieve fast retrieval of information in the Internet function.
Key words: Internet; search engine; Crawler algorithm; JSP technique
目    录
摘要   1
引言   2
1.系统开发背景、意义及技术   2
1.1系统开发的背景与意义   2
1.2系统开发使用技术介绍   2
2.系统设计   3
2.1搜索引擎的结构   3
2.2搜索引擎的实现原理   3
2.3数据库设计与实现   3
3.搜索引擎算法的实现   4
3.1 算法分析   4
3.2 爬虫程序   6
3.3搜索引擎的实现   7
4.系统测试   8
4.1测试定义   8
4.2 测试结果   8
5.总结   8
参考文献   9
致谢   10
基于JSP的Internet搜索引擎系统引言
互联网是由一些语言互相通信的计算机连接而成的全球网络，这种大众传媒比以往的任何一种通讯媒体都要快的“大网”，成为人们日常生活必不可少的工具。人们除了用它相互交流、相互沟通外，还用它获知全球的时事新闻，共享网络资源（媒体(视频、音乐、文档)、游戏，信息），网上贸易等。因此快速地搜索需要的资源是满足人们使用互联网的首要需求。基于JSP的Internet搜索引擎系统采用宽度优先搜索算法，根据用户的需要，快速在“大网”中查到相应的信息并反馈给用户，使得用户在浏览互联网时更加方便。
1.系统开发背景、意义及技术
1.1系统开发的背景与意义
随着网络与通信技术的飞速发展，网络上的信息呈现爆炸性增长，互联网已经成为一个巨大的海量信息空间。以何种策略访问Web，提高搜索效率，成为近年来专业搜索引擎研究的主要问题之一[1]。各种讨论搜索的文章、杂志、论文铺天盖地，一时间，搜索引擎技术成为最热门的技术之一。
如何面对互联网中数据进行有效的管理，以满足用户的不断增长的信息需求，成为信息领域研究人员的新课题。该系统为用户提供一个高效、准确地搜索所需要资源的环境，并在某种程度上对于今后利用自由分布在网络中丰富的信息加以集成做了重要的探究与启发。

基于JSP的Internet搜索引擎系统设计

基于Apriori算法的电影推荐

PHP+IOS的会议管理系统的设计+ER图

数据挖掘在电子商务中的应用

数据挖掘的主题标绘数据获取技术与实现

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

基于网络的通用试题库系...

10万元能开儿童乐园吗，我...

医院财务风险因素分析及管理措施【2367字】

志愿者活动的调查问卷表

AT89C52单片机的超声波测距...

国内外图像分割技术研究现状

C#学校科研管理系统的设计

承德市事业单位档案管理...

中国学术生态细节考察《...

神经外科重症监护病房患...

公寓空调设计任务书