1。2 国内外研究现状
1。2。1 通用网络爬虫研究现状
1。2。2 主题网络爬虫研究现状
1。3 本文研究内容与组织结构
本文在对通用爬虫算法以及主题爬虫算法理解的基础上把这两种爬虫运用到品牌维权系统上。研究的侧重点在于从商品的评论数据出发,针对淘宝或者京东此类的电子商务网站设计主题爬虫算法,并进行比较。本文将用java实现主题爬虫算法。
基于以上工作,本文章节安排如下:
第一章主要讲解了本文研究的背景,介绍了研究的意义以及国内外研究现状,给出了本文的主要工作以及各章节的内容安排。
第二章主要介绍了网络爬虫算法的理论基础。
第三章介绍了淘宝平台主题爬虫算法用到的关键技术,研究了三种针对淘宝的主题爬虫算法,并进行了比较。
第四章介绍了品牌维权系统的总体设计和需求可行性分析。来.自^优+尔-论,文:网www.youerw.com +QQ752018766-
第五章介绍了品牌维权系统的模块设计与实现。
第六章进行了总结并提出了需要改进及需要进一步研究的问题,最后展望了未来需要研究的工作。


第二章 网络爬虫算法的相关理论
2。1 通用爬虫算法
2。1。1 通用网络爬虫体系结构
网络爬虫技术是网页数据采集的核心技术,是搜索引擎的重要组成部分,常用广度优先或者深度优先的搜索策略抓取网络信息。一般通用网络爬虫会从一个初始网页开始,利用http协议与web服务器建立连接,web服务器响应后会返回请求数据,爬虫会读取所有的数据。在解析出URL数据后,爬虫会将获取到的URL放入队列集合,然后接着依次从队列集合中取出URL请求新数据并更新队列,重复上述步骤直到取到符合条件的内容。
上一篇:Android移动终端的网上便利超市系统设计与开发
下一篇:JSP在线学习与实例练习网站系统的设计

数据挖掘的主题标绘数据获取技术与实现

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

基于网络的通用试题库系...

论信息技术茬外语教學中的應用【3270字】

计算机技术基础精品課建设【1708字】

虚拟制造技术的相關概念及其應用【1280字】

麦秸秆还田和沼液灌溉对...

张洁小说《无字》中的女性意识

互联网教育”变革路径研究进展【7972字】

ASP.net+sqlserver企业设备管理系统设计与开发

网络语言“XX体”研究

LiMn1-xFexPO4正极材料合成及充放电性能研究

新課改下小學语文洧效阅...

我国风险投资的发展现状问题及对策分析

老年2型糖尿病患者运动疗...

安康汉江网讯