摘要互联网信息采集程序的开发,具体设计为新闻采集程序。系统为半自动的设计,用户输入指定网址和设定相应提取规则后,实现对一个新闻网站的新闻采集分析存储功能。主要由网页下载,网页内容分析,网页超链接分析,内容过滤及数据存储几大部分组成。这是一个应用型的课题,主要考察对于网络信息下载处理的能力。核心技术是网页下载,正则表达式函数过滤数据,数据库操作。软件编程平台为borland delphi,数据库选择为Microsoft Access,正则表达式库函数为RegExpr。27044
关键词 互联网 信息采集 数据过滤 毕业论文设计说明书外文摘要
Title The development of the internet information ac-quisition program
Abstract
The development of the internet information acquisition program , specifically,
designed as a system for news gathering . it is semi-automatic . the user input
the url and set corresponding extraction rules , then the system will analyze the news website and download it ,later it will save useful information to the database .The system mainly consists of several parts:website download ,web content analyze ,link analyze ,content filtering and data storage .It’s a applied system , investigating website downloading and processing ability .The core technology are webpage download ,regular expression functions of data filtering and database operation . The platform of software programming is borland delphi 7,database is Microsoft access ,the regular expression library function is RegExpr.
Keywords internet ,information acquisition ,data filtering
目 次
1引言 1
2开题报告 2
2.1 课题的背景、现状及理解 2
2.2 课题的相关技术及技术难点 2
2.3 可以解决课题难点的相关技术 2
2.4 对于课题的预测 3
3整体设计 4
3.1 课题的目标 4
3.2 课题的整体设计 4
3.3 课题使用的语言平台 4
3.4 软件整体设计图 4
4.详细设计 6
4.1模块设计 6
4.2界面设计 8
4.3函数设计 10
5 编码调试 11
5.1 代码设计11
5.2 遇到的问题及解决方法20
5.3 运行结果 21
6 课题拓展 24
6.1课题思考与拓展 25
6.2课题未尽工作 25
6.3课题还可以改进的地方 26
6.4可以解决课题的其他方法 26
结论 28
致谢 29
参考文献30
1 引言
随着互联网信息的急剧膨胀,非结构化的信息量大大增加,如何准确高效的在互联网上采集到使用者所需要的信息成为互联网一个急切的需求。
互联网信息采集程序的难点在于,每个网站的网站结构各不相同,各个有用信息存储的形式和方式也各不相同,采用单一的采集方法可能导致信息采集不到,或者采集到的信息中存在大量乱码的情况。因此,一个可变的适应性的互联网信息采集程序非常需要。
通过互联网信息的采集,不同网站中有用的网站内容可以以一个统一的形式存储于数据库中,对于数据检索,使用都将提供极大的便利。如从不同新闻网站采集新闻并加以分析的新闻采集系统,从不同的购物网站采集物品价格的商品比价系统,从不同旅游网站酒店网站采集信息的出游酒店预定系统等,都是体现了从不同的结构各异的网站采集信息,然后进行分析比较,从中得出有用的信息。