毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
英语论文
日语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
网络特定文本信息抓取及统计(11)
图4.1 系统功能模块图
1) 网页内容抓取模块,即网页数据获取,功能:主要通过与新浪门户的交互,对新浪新闻搜索的文本摘要获取,并对其进行分析。
2) 显示抓取信息文本模块,功能:显示新浪新闻搜索到的每条新闻摘要的基本信息,包括发布机构、时间等信息,利用C#中DATAGRIDVIEW控件显示。
3) 保存指定日期的文本模块,功能:选择显示出来的摘要文本的日期,利用office接口,将这个日期的新闻摘要以word的形式保存到根目录下,以供以后的查阅。
4) 分析统计与显示模块,功能:对摘要段文字分词,并对这些分词进行分析统计,利用冒泡法对出现的次数进行排序。最后通过TEXBOX控件将分词与统计结果显示来。
5) 根据分析结果绘制图表,功能:将分析统计中的分析结果,动词及其出现的次数,以三种形式绘制成图表。
4.2 网页内容抓取模块详细设计
4.2.1 网页内容抓取概述
网页内容抓取,即文本数据源的获取,主要是网页分析,通过对某网页内容的源代码进行分析,通过编程软件获取指定网页内容的设计过程。首先我们必须了解网页的基本格式,熟知HTML。HTML即超文本标记语言或超文本链接标示语言,是目前网络上应用最为广泛的语言,也是构成网页文档的主要语言。HTML文本是由HTML命令组成的描述性文本,HTML命令可以说明文字、图形、动画、声音、表格、链接等。HTML的结构包括头部(Head)、主体(Body)两大部分,其中头部描述浏览器所需的信息,而主体则包含所要说明的具体内容。
熟悉了网页的基本格式,利用C#程序开发软件就能对网页进行分析处理,整理出网页的结构,获取本文所需要的大量文档。
4.2.2 网页内容分析抓取模块流程
图4.2 网页分析流程图
4.2.3 网页内容抓取部分变量
表4.1 网页分析代码部分变量定义
序号 名称 类型 说明
1 URL Sting 网页地址
2 NewsResource Sting 新闻来源
3 NewsTime Sting 新闻发布时间
4 Abstract Sting 新闻摘要
4.2.4 网页内容获取核心代码
public SinaNewsSearch(string searchPhrase, int sinaResultLimit)
{
SearchPhrase = searchPhrase;
SinaResultLimit = sinaResultLimit;
}
public void ExcuteSearch()
{
try
{
string phrase = SearchPhrase;
phrase = HttpUtility.UrlEncode(phrase, Encoding.Default);
string searchurlprefix = "http://search.sina.com.cn/?c=news&q=" + phrase + "&range=all&num=20";
HttpClient httpClient = new HttpClient(searchurlprefix);
共15页:
上一页
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
下一页
上一篇:
ASP.net+sqlserver旅游信息网站设计+ER图
下一篇:
ASP.net小型网上书店的设计与实现
基于PageRank算法的网络数据分析
基于神经网络的验证码识别算法
基于网络的通用试题库系...
网络常见故障的分类诊斷【2055字】
网络安全的研究【1797字】
网络信息安全技术管理的...
Web技术的网络考试系统【2240字】
C#学校科研管理系统的设计
承德市事业单位档案管理...
国内外图像分割技术研究现状
10万元能开儿童乐园吗,我...
中国学术生态细节考察《...
AT89C52单片机的超声波测距...
志愿者活动的调查问卷表
医院财务风险因素分析及管理措施【2367字】
公寓空调设计任务书
神经外科重症监护病房患...