摘要本文对大数据时代的数据价值挖掘进行了研究,以中文文本数据的价值挖掘为切入 点,运用了深度学习算法对中文文本数据的主题类别和情感极性进行提取。并且通过实 验的方式对传统的文本分类算法和基于深度学习算法的文本分类算法在文本分类上的性 能进行了测试、分析和比较。实验内容如下:79045
1。 测试训练样本数对各类算法分类效果的影响;
2。 测试类别数对各类算法分类效果的影响;
3。 测试不同语料库下各类算法的分类效果;
4。 大数据量实验;
5。 情感分析实验。
另外,本文还对文本分类技术的应用前景进行了分析,并运用 Gated Recurrent Unit和 lucene 实现了一个中文文本分类与搜索系统,对该技术进行了一个简单的应用。
毕业论文关键词 数据挖掘 深度学习 文本分类 情感分析
毕 业 设 计 说 明 书 外 文 摘 要
Title Data Value Mining in the Big Data Age
Abstract
This paper was focus on data value mining in the big data age, and took Chinese text data value mining as the starting point, mined the topic category and sentimental polarity of Chinese text data through algorithms based on Deep Learning。 A series of experiments were conducted to learn more about the performance of traditional algorithms and algorithms based on Deep Learning in terms of text categorization。 The contents of experiments was shown as follows:
1。 Testing the effects of the size of training set on the performance of each algorithm;
2。 Testing the effects of the number of category on the performance of each algorithm;
3。 Testing the performance of each algorithm on various corpus;
4。 Testing the performances of some algorithms on big data;
5。 Doing sentiment analysis experiment。
In addition, this paper analyzed the prospect of text categorization technique, and made a Chinese text categorize and search system using GRU and lucene。
Keyword Data mining; Deep learning; Text categorization; Sentiment analysis
本科毕业设计说明书 第 I 页
目 次
1 绪论 1
1。1 研究背景 1
1。2 研究现状 1
1。3 研究内容 1
2 大数据时代的数据价值挖掘技术 3
2。1 传统的数据挖掘算法 3
2。2 深度学习算法 5
2。3 基于 Hadoop 的大数据挖掘 9
3 文本分类技术 11
3。1 文本分类流程