毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
英语论文
日语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
网络特定文本信息抓取及统计(13)
4.3 分词测试图
4.3.2 分词统计与分析系统模块流程
图4.4 分词系统流程图
4.3.3 分词统计与分析系统变量定义
表4.2 分词系统部分变量定义
序号 名称 类型 说明
1 word string 关系动词
2 att string 词性
3 count string 关系动词数量
4 length Int 关系动词出现频率
5 i int 频率次数变量
6 j int 频率次数变量
7 temp Worditem型 关系词及出现频率
4.3.4 分词统计与分析系统核心代码
public class MySegment
{
public List<worditem> Wordlist= new List<worditem>();
public void Segment(string sentence)
{
string DictPath = System.AppDomain.CurrentDomain.SetupInformation.ApplicationBase + @"\data\";
WordSegment ws = new WordSegment();
ws.InitWordSegment(DictPath);
try
{
ws.sentence = sentence;
ws.StartSegment();
List<WordResult[]> wordList = ws.WordList;
for (int j = 1; j < wordList[0].Length - 1; j++)
{
string postString = Utility.GetPOSString(wordList[0][j].nPOS);
postString = postString.Substring(0, postString.Length - 1);
worditem wd = new worditem();
wd.word = wordList[0][j].sWord.ToString();
wd.att = postString;
Wordlist.Add(wd);
}
}
}
}
int length = wordlist.Count;
for (int i = 0; i <= length - 2; i++)
{
for (int j = i+1; j <= length - 1; j++)
{
if (wordlist[i].count < wordlist[j].count)
{ worditem temp = wordlist[j];
wordlist[j] = wordlist[i];
wordlist[i] = temp;
}
}
}
4.4 保存指定日期的文本模块
4.4.1 概述
将抓取模块中的时间变量 NewsTime 列在选择框中,选择一指定的日期。利用office的接口,将选中的新闻摘要保存到本地word文档中。
共15页:
上一页
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
下一页
上一篇:
ASP.net+sqlserver旅游信息网站设计+ER图
下一篇:
ASP.net小型网上书店的设计与实现
基于PageRank算法的网络数据分析
基于神经网络的验证码识别算法
基于网络的通用试题库系...
网络常见故障的分类诊斷【2055字】
网络安全的研究【1797字】
网络信息安全技术管理的...
Web技术的网络考试系统【2240字】
C#学校科研管理系统的设计
承德市事业单位档案管理...
国内外图像分割技术研究现状
10万元能开儿童乐园吗,我...
中国学术生态细节考察《...
AT89C52单片机的超声波测距...
志愿者活动的调查问卷表
医院财务风险因素分析及管理措施【2367字】
公寓空调设计任务书
神经外科重症监护病房患...