4.2 系统功能的实现 24
结论 32
致谢 33
参 考 文 献 34
1 绪论
本论文主要介绍了使用 Java 编程语言开发的基于网页分析和抓取技术的金 融数据采集系统的开发平台、环境以及主要功能实现时所需要的方法等内容。同 时对程序开发过程中可能存在的问题以及解决方案进行介绍。论文网
1.1 项目背景
在当今社会,计算机互联网技术的快速发展,给人们带来了极大的便利,现 如今网络时代的到来使得传统的信息传递方式发生了翻天覆地的变化,互联网技 术的包容性使得网站网页数量的爆炸性增长,而各种网站中的信息更是浩瀚如 海,庞大冗杂。而在金融信息业中,信息量繁多的特点尤为突出,
对于接触金融的人们,需要面对各种各样的金融资讯、金融网站以及金融数 据等,而金融数据对于公司与用户来说至关重要,金融数据【11】种类繁多(如股票、 债券、指数等等)、数据量大、精确度要求高,并且不同的金融交易市场以及不 同种类的金融数据在金融网站上都有各自的数据更新时间段,用户想要快速地获 取有一定价值的信息很不容易。而作为用户,想要在大量的网页中,在海量的数 据信息中寻找到自己所需要的金融信息,没有一个专门的搜索工具无异于大海捞 针。因此,如何让用户更加快捷有效的获取采集金融数据具有十分重要的现实意 义和应用价值。
在这一环境背景下,我们需要想办法来实现用户对金融信息的需求,信息采 集技术应运而生。对于一般 Web 信息的采集提取,我们需要用到网页信息抓取 技术来进行 Web 抓取及数据处理【3】系统的设计与实现。而网页信息抓取技术是 指通过一系列的操作,从特定的网页中抓取到你所需要的信息,然后对数据进行 处理,最后实现用户所需要的数据及表现形式。网页信息抓取技术在特定领域, 特定人群中将会有不同的应用形式,本文就是要将这一技术运用到金融信息中 来,设计实现一个金融信息采集系统,获取到所需的金融信息,例如股票变化等, 并且将获取的信息进行处理展示。
1.2 研究现状
1.3 研究目的、内容及意义
传统的 Web 信息采集的目标是尽可能多的获取到目标网页的信息,甚至是获 得整个网络上的资源,而这其中的重点是采集到信息的数量与速度,对采集的主 题相关性没有太多的要求。而在现代的网络活动中,人们更多的重视与自己需求 相关的那一部分信息,获取到限定条件范围内的数据。文献综述
由于金融信息的庞大与冗杂,常规的获取与处理的过程会比较繁琐,所以我 们需要一个新的工具来帮助用户在相应的网页中快速的抓取金融数据信息,同时 进行自动化的处理,提高工作效率。本论文以 Web 数据采集及数据处理技术为基 础,从相关网站(例如雅虎金融、 金融界)提取金融数据为应用实例,采用网 页自动访问、在线提取和动态分析的方法,学习研究如何从目标网站上快速大量 地提取预先定义的目标数据。
在金融数据采集系统的设计上,我们需要解决以下问题:首先要了解目标网 站的结构,对该网站的 URL 进行分析;然后 选择合适的 Web 数据采集技术,实 现功能,获取到该网站的相应信息,同时提高系统的对网络数据的抓取效率;最 后需要做出一个可以交互式采集网站数据信息的应用程序。