11

3。2 文本预处理 12

3。3 文本特征提取 13

3。4 文本表示 15

3。5 基于传统数据挖掘算法的文本分类器 16

3。6 基于深度学习算法的文本分类器 17

3。7 分类评价标准 21

4 实验设计及结果分析 23

4。1 实验环境和实验数据 23

4。2 实验 1:测试训练样本数对各类算法分类效果的影响 23

4。3 实验 2:测试类别数对各类算法分类效果的影响 25

4。4 实验 3:测试不同语料库下各类算法的分类效果 27

4。5 实验 4:大数据量实验 28

4。6 实验 5:情感分析实验 32

5 文本数据的价值挖掘与应用 33

36

37

参 考 文 献 38

第 II 页 本科毕业设计说明书

1 绪论

1。1 研究背景

大数据的时代每时每刻都产生大量的数据,这些数据里可能包含市场趋势、舆情状况、 用户偏好等大量有价值的信息。提取这些有价值的信息在大数据时代下具有重大的意义。大 数据主要有以下几个特点:论文网

(1)数据量大,往往达到了百万、千万甚至更高的数量级,已经无法单纯地依靠人工 对其进行分析;

(2)数据类型多,常见的类型有:文本、音频、视频、图片等;

(3)价值密度低,以文本为例,往往一篇很长的文章,真正涉及关键问题的部分就一 小段。

根据某种需要对大量数据进行分析分类,挖掘其潜在价值,可以实现某种特定的应用。 本文以中文文本数据的价值挖掘为切入点,说明大数据时代的数据价值挖掘研究。

1。2 研究现状

1。3 研究内容

本文对大数据时代的数据价值挖掘进行研究,以中文文本数据的价值挖掘为切入点,运 用深度学习算法对中文文本数据的主题类别和情感极性进行提取。并且通过实验的方式对传 统的文本分类算法和基于深度学习算法的文本分类算法在文本分类上的性能进行测试、分析和比较。另外,本文还对文本分类技术的应用前景进行分析,并运用 Gated Recurrent Unit[8]和 lucene 实现一个文本分类与搜索系统,对该技术进行一个简单的应用。

2 大数据时代的数据价值挖掘技术

本章主要对传统的数据挖掘算法、深度学习算法和基于 Hadoop 的大数据挖掘进行基本 的介绍。

上一篇:RGB-D图像视线跟踪数据采集与分析
下一篇:HEVC高效视频编码中的编码单元快速划分算法研究

数据挖掘在电子商务中的应用

数据挖掘的主题标绘数据获取技术与实现

基于PageRank算法的网络数据分析

基于网络的通用试题库系...

嵌入式移动数据库研究【2530字】

嵌入式移动数据库應用研究【2321字】

嵌入式数据库典型技术―...

我国风险投资的发展现状问题及对策分析

老年2型糖尿病患者运动疗...

安康汉江网讯

网络语言“XX体”研究

张洁小说《无字》中的女性意识

LiMn1-xFexPO4正极材料合成及充放电性能研究

ASP.net+sqlserver企业设备管理系统设计与开发

互联网教育”变革路径研究进展【7972字】

新課改下小學语文洧效阅...

麦秸秆还田和沼液灌溉对...