2。6 本章小结 7
3 分布式爬虫的设计 8
3。1网络爬虫的基本工作流程 8
3。2网络爬虫的分类 9
3。3分布式爬虫体系结构设计 11
3。4 网络爬虫抓取算法和更新策略 14
3。5本章总结 16
4 电商爬虫的实现与应用 17
4。1有关电商爬虫的介绍 17
4。2通用电商爬虫设计思路 17
4。3京东爬虫目标 19
4。4京东爬虫基本设计思路和前期准备 19
4。5京东爬虫具体实现过程 21
4。6京东爬虫具体抽取结果展示 27
4。7本章小结 28
5 总结与展望 29
5。1 总结 29
5。2 展望 30
致 谢 30
参 考 文 献 31
1 绪论
1。1课题来源
本论文来自亚信科技有限公司(南京分公司)和江苏电信合作的项目。目的是利用电信用户的上网数据和流量进行分析,从而获得一个用户行为的标签管理系统。通过对用户基础行为的多维度的发掘,得到有关用户行为信息。对于房地产开发商和电信服务商在优化所提供的用户服务的方面提供有效的帮助。而本文所负责的内容是抓取电商的商品详情信息,为后续的标签系统提供基础的数据库。
1。2 课题背景及意义
互联网和WEB数据正在以井喷的方式飞速发展。数据量几乎是在进行着指数量级的增长,这为存储和搜索都带来了很大的麻烦。而搜素引擎可以在一定程度上解决了这样的难题,为用户提供数据和信息的检索。传统的搜索引擎如Baidu、Google等。他们所提供的搜索服务使其在市场上获取了极大的成功。广大的用户逐渐的开始依赖搜索引擎,搜索引擎成为了人们访问和接触互联网的主要方式。然而在长期的发展过程中,人们逐渐发现通用的搜索引擎没有办法满足用户的个性化需求。人们对于定制化的搜索引擎有着越来越高的呼声。通用性的搜索引擎由于其在爬虫的抓取阶段就没有进行任何的分类和分析,所以没有办法满足一些特殊的领域和特殊用户的需求。而爬虫作为搜索引擎的信息采集器,在整个搜索引擎中饰演着极为重要的角色。而分布式爬虫有是其中非常出色的,所以有必要对于分布式爬虫进行具体的研究。
目前,国内外对于分布式爬虫的研究都是很火热的。国内的有很多不错的例子。如林子皓书写的有关主题爬虫的实现的论文中介绍了一种主题爬虫,他利用添加了HTS算法排序模块的爬虫对于与主题无关的网页进行了去重,对于主题搜索起了很好的作用[2]。另有白鹤、汤迪斌、王劲林书写的有关分布式主题网络爬虫系统的文章中深入的研究了RDF数据推理控制,提出了一种新的算法。该算法能不仅仅能够防止非法推理,并且在控制语义丢失方面有着很好的作用和意义[3]。
国外对于网络爬虫的研究也是十分的活跃。如Yajun Du、Wenjun Liu、Xianjing Lv等人提出的基于语义相似向量空间模型的聚焦爬虫这一概念,他们提出了一种改进型的检索模型(SSVSM)用来提升聚焦爬虫的性能[4]。