毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
英语论文
日语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
C#+Ajax站内搜索引擎系统的设计与实现+Lucene(2)
目前已经有很多应用程序的搜索功能是基于 Lucene 的,比如 Eclipse 的帮助系统的搜索功能。Lucene 能够为文本类型的数据建立索引,所以你只要能把你要索引的数据格式转化成文本,Lucene 就能对你的文档进行索引和搜索。比如你要对一些 HTML 文档,PDF 文档进行索引的话你就首先需要把 HTML 文档和 PDF 文档转化成文本格式的,然后将转化后的内容交给 Lucene 进行索引,然后把创建好的索引文件保存到磁盘或者内存中,最后根据用户输入的查询条件在索引文件上进行查询。不指定要索引的文档的格式也使 Lucene 能够几乎适用于所有的搜索应用程序。
3系统的设计与实现
3.1需求分析
1、功能需求
本设计要实现的功能:
能够对Internet上的网页内容、标题、链接等信息按链式收集。
能够实现一定链接深度的网页收集,也就是在Internet上实现一定的URL级的数据收录。
对收集到的数据存入MSSQL Server 2000等关系型数据库中、或者存入文本文件中。
网站信息库中的信息会不断的变动,对收集到的数据需要定期的自动文护,做到定期的删除、从新收集。
对收集到的数据进行关键词的检索。
对检索出的数据要可定位性,即可以显示对数据的出处的链接。
实现中
英文
分词功能,能够按中文或者英文单词检索数据。
实现无刷新的显示搜索结果,对搜索用时的计算、显示,关键字高亮显示等。
2、性能需求
(1)精度:
对收集到的信息需要一定的完整性,即对链接层次里的每个链接页面都能够收集得到,并写入收集的存储区里。
对搜索出的内容需要包含有关键字信息
(2)时间特性要求:
数据收集时,因为是对Internet网上Web信息的收集,并且采用URL级链式的网页收集。收集数据时不能够出现无响应的等待。
搜索时响应时间应不超过3秒,无论搜索的记录多少。
(3)灵活性
具有良好的中文切词功能。
3.2方案设计
1、搜索引擎模型
模型包括爬虫、索引生成、查询以及系统配置部分。爬虫包括:网页抓取模块、网页减肥模块、爬虫文持模块。索引生成包括:基于文本文件的索引、基于数据库的索引。查询部分有Ajax、后台处理、前台界面模块。如图1所示。
图1 系统模块
2、模块设计
该模型按照功能划分为三个部分,一是爬虫抓取网页部分,二是从数据库建立索引部分,三是从前台页面查询部分。系统实现的主要业务(如图2)。
图2 功能流程图
3.3系统主要功能实现
1、网页爬虫搜索页面模块
在网页爬虫Console端应用程序里输入一个有效的URL后这部份就开始从第一个URL开始遍历相关的链接并把相关的信息写入到网页数据存储数据库里,然后就由索引生成程序读取网页数据存储数据库,对每条记录生成索引记录,存放于生成的索引库文件里。生成索引需要调用Lucene.Net类。索引生成后查询部分就能够在网页上输入关键字,对刚才抓取的信息查询。并可以定位到信息的出处。如图3所示。
写入 读取
生成
生成
共4页:
上一页
1
2
3
4
下一页
上一篇:
ASP.NET物流运输管理系统的设计与实现+ER图+流程图
下一篇:
ASP.NET+sqlserver博客系统的开发实现
浅析搜索引擎的原理及发展前景【2973字】
提高网站茬Google中的排名...
搜索引擎用于学术信息检索的局限性分析
多搜索引擎信息采集分析系统的设计与实现
Lucene桌面全文搜索引擎系统的分析与设计
面向新闻同步的网站内容自动提取与分类研究
互联网内容形式的发展对搜索引擎的影响
承德市事业单位档案管理...
公寓空调设计任务书
中国学术生态细节考察《...
医院财务风险因素分析及管理措施【2367字】
志愿者活动的调查问卷表
C#学校科研管理系统的设计
国内外图像分割技术研究现状
10万元能开儿童乐园吗,我...
神经外科重症监护病房患...
AT89C52单片机的超声波测距...