7

2。6 本章小结 7

3 分布式爬虫的设计 8

3。1网络爬虫的基本工作流程 8

3。2网络爬虫的分类 9

3。3分布式爬虫体系结构设计 11

3。4 网络爬虫抓取算法和更新策略 14

3。5本章总结 16

4 电商爬虫的实现与应用 17

4。1有关电商爬虫的介绍 17

4。2通用电商爬虫设计思路 17

4。3京东爬虫目标 19

4。4京东爬虫基本设计思路和前期准备 19

4。5京东爬虫具体实现过程 21

4。6京东爬虫具体抽取结果展示 27

4。7本章小结 28

5 总结与展望 29

5。1 总结 29

5。2 展望 30

致  谢 30

参 考 文 献 31

1 绪论

1。1课题来源

本论文来自亚信科技有限公司(南京分公司)和江苏电信合作的项目。目的是利用电信用户的上网数据和流量进行分析,从而获得一个用户行为的标签管理系统。通过对用户基础行为的多维度的发掘,得到有关用户行为信息。对于房地产开发商和电信服务商在优化所提供的用户服务的方面提供有效的帮助。而本文所负责的内容是抓取电商的商品详情信息,为后续的标签系统提供基础的数据库。

1。2 课题背景及意义

互联网和WEB数据正在以井喷的方式飞速发展。数据量几乎是在进行着指数量级的增长,这为存储和搜索都带来了很大的麻烦。而搜素引擎可以在一定程度上解决了这样的难题,为用户提供数据和信息的检索。传统的搜索引擎如Baidu、Google等。他们所提供的搜索服务使其在市场上获取了极大的成功。广大的用户逐渐的开始依赖搜索引擎,搜索引擎成为了人们访问和接触互联网的主要方式。然而在长期的发展过程中,人们逐渐发现通用的搜索引擎没有办法满足用户的个性化需求。人们对于定制化的搜索引擎有着越来越高的呼声。通用性的搜索引擎由于其在爬虫的抓取阶段就没有进行任何的分类和分析,所以没有办法满足一些特殊的领域和特殊用户的需求。而爬虫作为搜索引擎的信息采集器,在整个搜索引擎中饰演着极为重要的角色。而分布式爬虫有是其中非常出色的,所以有必要对于分布式爬虫进行具体的研究

目前,国内外对于分布式爬虫的研究都是很火热的。国内的有很多不错的例子。如林子皓书写的有关主题爬虫的实现的论文中介绍了一种主题爬虫,他利用添加了HTS算法排序模块的爬虫对于与主题无关的网页进行了去重,对于主题搜索起了很好的作用[2]。另有白鹤、汤迪斌、王劲林书写的有关分布式主题网络爬虫系统的文章中深入的研究了RDF数据推理控制,提出了一种新的算法。该算法能不仅仅能够防止非法推理,并且在控制语义丢失方面有着很好的作用和意义[3]。

国外对于网络爬虫的研究也是十分的活跃。如Yajun Du、Wenjun Liu、Xianjing Lv等人提出的基于语义相似向量空间模型的聚焦爬虫这一概念,他们提出了一种改进型的检索模型(SSVSM)用来提升聚焦爬虫的性能[4]。

上一篇:移动云计算环境下基于安卓平台的服务发现机制的设计和实现
下一篇:ASP.NET在线学习网站设计与实现

架设Linux(2.6内核)的服务器集群【745字】

VB的分布式监控系统通信设计【721字】

WEB服务器多框架解决方案【1450字】

浅谈网站服务器安全维护技巧【2595字】

网络爬虫技术在品牌维权系统中的应用

小微商家移动互联进销存...

Python网络爬虫设计与实现

老年2型糖尿病患者运动疗...

新課改下小學语文洧效阅...

互联网教育”变革路径研究进展【7972字】

张洁小说《无字》中的女性意识

LiMn1-xFexPO4正极材料合成及充放电性能研究

网络语言“XX体”研究

ASP.net+sqlserver企业设备管理系统设计与开发

安康汉江网讯

麦秸秆还田和沼液灌溉对...

我国风险投资的发展现状问题及对策分析