毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
英语论文
日语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
delphi+access的RegExpr互联网信息采集程序的开发(2)
要实现互联网信息采集程序,首先需要了解如何从互联网抓取数据,输入URL,能够让程序从指定的网站开始抓取数据。
其次是数据的过滤,因为互联网信息大多是非结构化的,每个网站所采集到的信息也不尽相同,然后需要将采集到的无用信息过滤掉,只留下使用者所需要的数据。
然后是存储到本地的数据库中,数据库应该建立怎样的数据结构,能够灵活的应用于不同的网站。最后是数据的显示,编辑和修改,涉及到数据库相关语句的操作。
2
开题报告
2.1 课题的背景、现状及理解
本课题包含两大部分,一是如何在互联网采集信息并加以分析处理的思想方法,二是进行系统设计和实际编程,完成一个互联网信息采集程序。
主要由网络数据抓取,数据过滤,数据存储。
1.网络数据抓取,使用idHTTP网络编程。网络数据抓取,首先要实现的是网络数据的下载。本课题使用delphi的相关控件及函数实现网页源代码的下载。
2.数据的过滤,利用正则表达式技术进行网页数据的过滤提取。加载reg perl 库,录用库函数进行过滤
3.存储到本地的数据库,需要建立对应的SCHEMA,然后插入数据库元组。
2.2 课题的相关技术及课题难点
课题利用到了从互联网抓取数据的网络编程技术;存储到本地数据库并进行编辑和显示的数据库编程技术,如SQL语句等;实现多路采集的技术,如多线程技术;过滤无用信息的技术。
其中的课题难点在于,不同的网站数据结构并不相同,抓取到的也是非结构化的数据,并不能直接加入数据库,如何判定数据的相关程度,过滤掉无用数据,将所需的数据存储入数据库。而且网络数据采集下来往往是混带有很多网页标记的字符串,如何从这些字符串中找出所需要的数据,并且要满足一定的模式,因此不能简单的利用字符串匹配算法。
2.3 可以解决课题难点的当代技术
可以解决从字符串中提取出有用信息,过滤掉无用信息的技术有:正则表达式技术,字符串匹配技术
正则表达式是一种上下文无关的语法,能够表达字符串集和字符串集中字符的顺序(IEEE对正则表达式的定义),通过正则表达式,可以测试某个字符串是否符合一定的模式。我们可以实现在指定的字符集中搜索相匹配的字串。正则表达式的优点在于,可以按照一定的模式进行数据的匹配和数据相关度的判断,而不是简单的进行字符串查找,针对网络信息常常带有网页标记的特征。正则表达式适用于本次课题。可以使用PERL语言编写正则表达式规范。
字符串匹配技术是一种简单的从字符串中匹配对应字符串的技术,它的缺点有,灵活性差,遇到部分无关字符会终止匹配,这个不能适合于网络信息匹配字符串的模式,因此无法满足课题的需要。
2.4 对于课题的预测
软件预计使用borland delphi作为编程软件进行可视化编程,语言为pascal,需要加载REGEX库。
正则表达式技术目前已经相对成熟,在编译器,语法分析器中皆有利用,正则表达式在编译原理课程中已接触过;数据库技术和多线程技术在编程中是经常利用到的技术。课题需要经过系统设计,局部设计,编程实现等环节,其中局部设计中的数据过滤需要花费相对较多的时间。
3 整体设计
3.1 课题的目标
互联网信息采集系统,要求实现如下功能:⑴、任选一款数据库存储采集的信息。⑵、通过操作界面设置信息源URL或其他地址。⑶、可同时进行多路信息采集。⑷、可编辑和修改数据库中已采集的信息。
共3页:
上一页
1
2
3
下一页
上一篇:
汽车虚拟中控平台的仿真与软件实现
下一篇:
WSN基于网络编码的无线传感器网络Qos传输机制研究
Android的音乐播放器的研究与应用
基于Android的五子棋设计与实现
jsp+mysql考试管理系统的设计与实现+ER图
php+mysql微擎系统的活动报名管理系统设计
基于云储存的文件管理系统设计+源代码
RFID射频识别技术的餐饮自...
安卓的生活助手设计与实现+源代码
室外办公系统创新设计研究
硅酸钇镥闪烁晶体的光学性能研究
建议全面开放生育政策,...
常用游戏对于小学生英语教学的影响
中班幼儿“求助”型告状行为的访谈提纲
天秤男婚后出轨能改好吗...
哈萨克民歌中生态美學思想的表现【4092字】
地方政府跨区域联合环境污染治理研究
人性化的用户界面设计研究
无刷电机调速系统设计任务书