毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
英语论文
日语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
网络爬虫的设计与实现+文献综述(5)
1.servlet是持久的。servlet只需Web服务器加载一次,后续又用到这个servlet,就不需要再加载。(所谓加载是指servlet加载进JVM运行)
2.servlet是与平台无关的。
3.servlet是可扩展的。
ActionServlet继承自javax.servlet.http.HttpServlet类,其在Struts framework中扮演的角色是中心控制器。它提供一个中心位置来处理全部的终端请求。控制器ActionServlet主要负责将HTTP的客户请求信息组装后,根据配置文件的指定描述,转发到适当的处理器Action。
Servlet的原理图描述如下:
图2.1 Servlet的原理
使用servlet有几个优点:
一是有效性,servlet的初始化代码仅在web服务器第一次加载的时候执行一次,一旦加载了servlet,在处理一个新的请求的时候,只须调用一个新的服务方法。与处理每个请求都要全部加载一个完整的可执行程序相比,效率得到了大大的提高。
二是稳定性,servlet能够文护每个请求的状态,一旦加载了servlet,它就驻留在内存中,对收到的请求提供服务。
三是可移植性,servlet是用java开发的,因此它是可移植的,这种可移植性使servlet能够移植到新的操作系统中而不必改变代码。
四是安全性,servlet在服务器端运行,因此,安全性由web服务器提供能保障,servlet也能够利用java Security Manager提供的安全性功能。
2.2 解析HTML
因为Web中的信息都是建立在HTML协议之上的,所以网络爬虫在检索网页时的第一个问题就是如何解析HTML。在解决如何解析之前,先来介绍下HTML中的几种数据。
文本:除了脚本和标签之外的所有数据;
注释:程序员留下的说明文字,对用户是不可见的;
简单标签:由单个表示的HTML标签;
开始标签和结束标签:用来控制所包含的HTML代码。
我们在进行解析的时候不用关心所有的标签,只需要对其中几种重要的进行解析。
超连接标签:超连接定义了WWW通过Internet链接文档的功能。他们的主要目的是使用户能够任意迁移到新的页面,这正是网络机器人最关心的标签。
图像映射标签:图像映射是另一种非常重要的标签。它可以让用户通过点击图片来迁移到新的页面中。
表单标签:表单是Web页面中可以输入数据的单元。许多站点让用户填写数据然后通过点击按钮来提交内容,这就是表单的典型应用。
表格标签:表格是HTML的构成部分,通常用来格式化存放、显示数据。
我们在具体解析这些HTML标签有两种方法:通过JavaTM中的Swing类来解析或者通过HTMLParser类来解析。
共5页:
上一页
1
2
3
4
5
下一页
上一篇:
ASP网上计算机基础教学系统的开发
下一篇:
ASP志愿者公益活动宣传网站的设计与开发
基于Apriori算法的电影推荐
PHP+IOS的会议管理系统的设计+ER图
数据挖掘在电子商务中的应用
数据挖掘的主题标绘数据获取技术与实现
基于PageRank算法的网络数据分析
基于神经网络的验证码识别算法
基于网络的通用试题库系...
C#学校科研管理系统的设计
神经外科重症监护病房患...
承德市事业单位档案管理...
国内外图像分割技术研究现状
志愿者活动的调查问卷表
公寓空调设计任务书
医院财务风险因素分析及管理措施【2367字】
10万元能开儿童乐园吗,我...
中国学术生态细节考察《...
AT89C52单片机的超声波测距...