网络特定文本信息抓取及统计(11)

图4.1 系统功能模块图
1)   网页内容抓取模块，即网页数据获取，功能：主要通过与新浪门户的交互，对新浪新闻搜索的文本摘要获取，并对其进行分析。
2)   显示抓取信息文本模块，功能：显示新浪新闻搜索到的每条新闻摘要的基本信息，包括发布机构、时间等信息，利用C#中DATAGRIDVIEW控件显示。
3)   保存指定日期的文本模块，功能：选择显示出来的摘要文本的日期，利用office接口，将这个日期的新闻摘要以word的形式保存到根目录下，以供以后的查阅。
4)   分析统计与显示模块，功能：对摘要段文字分词，并对这些分词进行分析统计，利用冒泡法对出现的次数进行排序。最后通过TEXBOX控件将分词与统计结果显示来。
5)   根据分析结果绘制图表，功能：将分析统计中的分析结果，动词及其出现的次数，以三种形式绘制成图表。
4.2 网页内容抓取模块详细设计
4.2.1 网页内容抓取概述
网页内容抓取，即文本数据源的获取，主要是网页分析，通过对某网页内容的源代码进行分析,通过编程软件获取指定网页内容的设计过程。首先我们必须了解网页的基本格式，熟知HTML。HTML即超文本标记语言或超文本链接标示语言，是目前网络上应用最为广泛的语言，也是构成网页文档的主要语言。HTML文本是由HTML命令组成的描述性文本，HTML命令可以说明文字、图形、动画、声音、表格、链接等。HTML的结构包括头部（Head）、主体（Body）两大部分，其中头部描述浏览器所需的信息，而主体则包含所要说明的具体内容。
熟悉了网页的基本格式，利用C#程序开发软件就能对网页进行分析处理，整理出网页的结构，获取本文所需要的大量文档。
4.2.2 网页内容分析抓取模块流程
图4.2 网页分析流程图
4.2.3 网页内容抓取部分变量
表4.1 网页分析代码部分变量定义
序号   名称   类型   说明
1   URL   Sting   网页地址
2   NewsResource   Sting   新闻来源
3   NewsTime   Sting   新闻发布时间
4   Abstract   Sting   新闻摘要
4.2.4 网页内容获取核心代码
   public SinaNewsSearch(string searchPhrase, int sinaResultLimit)
        {
            SearchPhrase = searchPhrase;
            SinaResultLimit = sinaResultLimit;
        }
        public void ExcuteSearch()
        {
            try
            {
                string phrase = SearchPhrase;
                phrase = HttpUtility.UrlEncode(phrase, Encoding.Default);
                string searchurlprefix = "http://search.sina.com.cn/?c=news&q=" + phrase +   "&range=all&num=20";
                    HttpClient httpClient = new HttpClient(searchurlprefix);

网络特定文本信息抓取及统计(11)

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

基于网络的通用试题库系...

网络常见故障的分类诊斷【2055字】

网络安全的研究【1797字】

网络信息安全技术管理的...

Web技术的网络考试系统【2240字】

C#学校科研管理系统的设计

承德市事业单位档案管理...

国内外图像分割技术研究现状

10万元能开儿童乐园吗，我...

中国学术生态细节考察《...

AT89C52单片机的超声波测距...

志愿者活动的调查问卷表

医院财务风险因素分析及管理措施【2367字】

公寓空调设计任务书

神经外科重症监护病房患...