毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
英语论文
日语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
基于主题相关性的网页正文提取方法优化研究(2)
5 网页正文提取
软件
实现 18
5.1
系统
总体设计思想 18
5.2 提取网页源代码 19
5.2.1 Java与
网络
19
5.2.2 URLConnection类 20
5.3 网页源代码处理 22
5.3.1 字符编码 22
5.3.2 网页规范化 22
5.4 正则表达式去除“噪音信息” 23
5.4.1 获取标题 24
5.4.2 获取正文内容 25
5.4.3 去除标记 26
5.4.4 文本换行处理 26
5.5 系统测试 26
5.5.1 测试环境 26
5.5.2 测试计划 26
5.5.3 测试结果 27
6 结论 32
6.1 系统小结 32
6.2 心得体会 32
致 谢 34
参考
文献
35
1 绪论
1.1 选题背景
随着Internet的迅猛发展,互联网已经成为人们处理日常事务必不可少的一种平台,可以这么说,人类的种种社会活动已经与网络形影不离了。任何人都可以在互联网上发布各类信息,与之相伴随的就是网页呈现的爆炸式增长。人们可以在Internet上寻找任何自己想要得到的信息,通过各类搜索引擎就可以简单的找到你想要寻找与之相关的信息。然而,正是因为互联网上信息量巨大,同时这些信息是无序不规则的。因此出现了许多互联网的信息采集辅助工具,当然,其中包括了一些搜索引擎:如Google、Baidu等。在Internet上,大部分的信息是以网页的形式来呈现给浏览者的,但是随着网页的爆炸式增长,网页的结构也越来越复杂。
为了达到增加访问量的目的,很多网站会把自己的网页设计的看起来更美观、内容更丰富,这样做往往会在网页的设计上加上许多的修饰,使得该网站的网页更容易吸引用户的眼球,又或者是帮助人们在浏览网页的过程中更加便捷的获取信息。同时,在一个网页中会存在很多的广告链接、导航链接等。这些信息虽然给用户提供了一定的便利,但同时又带来了一定程度上的浏览干扰。随着移动设备(手机、平板等)的普及,越来越多的人在更小的屏幕上进行网页浏览。在有限的屏幕上对网页进行浏览预示着网页对显示的信息有着更加苛刻的要求。人们同城希望看到的是他们感兴趣的网页正文内容,而不是铺天盖地的广告,在平时的网页浏览中,有谁会对满屏幕的广告内容感兴趣呢?
网页正文提取相关方面的研究对移动互联网的发展具有巨大的推进作用。而网页正文提取技术使得移动互联网的用户对互联网信息的获取更加方便、精准和简洁。信息的爆炸性增长使得网页内容的存在与表现形式趋于多样化,今天的信息已经不仅仅局限于文本,而越来越多的是文本、多媒体和元数据的混合。因此,如何快速有效地利用这些更主题相关的信息,已经成为人们越来越关注的问题。就当前,基于主题相关性的网页正文提取方法优化研究是国际信息提取领域的热点和前沿问题,其研究将有助于提高信息提取的精准率和提取效率,以便人们快速浏览网页获得自己所需的信息。
关于中文文本信息提取方面的研究起步比较晚,并且由于中文本身相对于
英文
的复杂性,构建中文文本信息提取系统要比之构建提取英文文本信息提取系统更加复杂。目前设计实现完整的中文文本信息抽取系统的研究方面还处在探索阶段。本文主要研究的是中文网页的基于主题相关的网页正文抽取技术。这对众多领域的研究与应用,具有不可忽视的推进作用。
共5页:
上一页
1
2
3
4
5
下一页
上一篇:
iOS平台个⼈移动地图的设计与应⽤
下一篇:
ASP.net企业客户信息管理系统CRM设计+文献综述
基于Apriori算法的电影推荐
数据挖掘的主题标绘数据获取技术与实现
基于PageRank算法的网络数据分析
基于神经网络的验证码识别算法
基于网络的通用试题库系...
python基于决策树算法的球赛预测
基于消费者个性特征的化...
公寓空调设计任务书
C#学校科研管理系统的设计
国内外图像分割技术研究现状
志愿者活动的调查问卷表
10万元能开儿童乐园吗,我...
承德市事业单位档案管理...
神经外科重症监护病房患...
医院财务风险因素分析及管理措施【2367字】
中国学术生态细节考察《...
AT89C52单片机的超声波测距...