爬虫的终极目的是为获取互联网上的信息。而为了应对爆炸式的信息增长速度。经济性好、速度快、具有高可靠性和可扩展性的分布式爬虫就成为了如今爬虫的研究重点。虽然可能在设计分布式系统的过程中会遇到很多困难,但是可以通过深入的研究来避免分布式爬虫的一些问题。
1。3本文的主要工作内容
本篇论文的主要目的是完成其母课题标签管理系统对于爬虫的基本要求。我需要设计一个新的爬虫系统,能够独立的完成抓取电商网站以及房地产网站中商品详情的功能。并将所有的商品详情抓取下来方便管理,为后续的标签系统提供基本的数据方面的支持。当然,整个系统对于爬虫的效率也有一定的要求。主要的工作内容如下:
1。对于分布式爬虫进行了基本的研究
2。研究了国内外目前对于爬虫的具体成果
3。分析了爬虫不同模块的基本功能
4。设计出有关电商爬虫的通用设计思路
5。实现了关京东爬虫,可以对于所有的商品详情页进行爬取。
1。4论文组织结构
本篇论文对于分布式爬虫进行了具体的介绍,并且详解的论述有关电商爬虫的通用设计,并对于京东商城的爬虫进行了具体的实现,文章的重点是对于具体抓取规则方面的研究,以及对京东这个网站做了具体的分析。保证了爬虫在抓取过程中的命中率和抓取和运行时的效率。
本文的具体组织结构如下:
第一章,介绍了课题的具体来源以及分布式爬虫目前的研究背景,同时介绍了本文的具体工作和组织结构。
第二章,介绍了搜索引擎的基本的现状,并介绍了搜素引擎的基本原理和分类等等。
第三章,介绍了有关爬虫的基础内容,关于爬虫的工作流程,爬虫的相关分类、体系结构设计以及关键算法。
第四章,有关通用电商爬虫的基本设计流程和设计思路,并给出了以京东商城为例的京东爬虫的具体实现过程。
第五章,对于论文的成果和以后需要改进的地方进行了总结和展望。
2 搜索引擎的基本知识
2。1搜索引擎的现状
目前来说,几乎所有的搜索引擎都是基于用户输入的关键字进行搜索的。这种搜索的模式是有着很大的限制的。简单来说,这种搜索模式不能对于复杂的多义字进行区分也不能关联和匹配到与同义词有关的搜索结果。论文网
自从因特网发展这么久以来,搜索引擎一直是网络上使用时间的次数最多的一种服务。但是随着目前数据量的无限增长以及数据内容形式的复杂多样化。搜索引擎越来越难以满足用户的需求了,主要表现在一下几个方面:
1。搜索引擎与电商没有很好的结合。
2。搜索引擎仅停留在对于关键字的搜索,对于其他媒体的搜索并不成熟。
3。搜索引擎和容量和其数据库的更新速度之间有着很难以调节的矛盾。
4。搜索引擎对于多义字没有办法很好的理解,不具备自然语言能力。
判断一个搜索引擎是好还是坏,要考虑的最重要的因素就是判断它是否能够为用户提供一个精准的查询结果。而目前的普通搜索引擎并不能满足如今的需求。搜索引擎因为其复杂性和多样性,涉及了多种学科。如人工智能、计算机网络、分布式技术、数据库、分词处理、自然语言的理解等多个方面的理论和技术。又由于其具有着庞大的经济价值和理论研究价值,成为了当今研究的重点技术。[5]
2。2搜索引擎的分类
根据每一个搜索引擎所提供的服务和内容的不同,大体上能够把现有的搜索引擎划分为三类: