中国网站总数统计

1.2 国内外研究现状

1.2.1 大数据国内外研究现状

1.2.2 文本分类研究现状

1.3 主要工作

本文基于Hadoop研究海量文本的存储和文本分类。首先,设计并实现分布式、高可靠、高可用性的数据存储模块,解决现在海量文本存储困难的问题。然后,提出基于MapReduce的分布式并行中文分词算法,调用集群的所有计算节点,对海量的中文文本进行分词计算,同时深入研究hadoop读取文件的底层代码,改写hadoop的InputFormat读取格式,重新编写MyInputFormat的读取规则,并基于MyInputFormat编写MapReduce的中文分词算法,相比改进前MapReduce中文分词能够大幅度提高分词效率,并能够解决现阶段海量文本分词困难的现状。最后,本文将基于MapReduce分布式计算框架研究海量的web文本分类算法,建立分类模型。

1.4 论文组织结构

本文基于Hadoop云平台研究电商用户行为,论文主体分为六章,具体内容安排如下:

第一章,主要介绍本课题的研究背景,包括大数据时代的挑战和机遇,并根据现有的问题,提出基于hadoop研究文本分类的课题,简单介绍了大数据hadoop框架的基本架构,并介绍国内外学者对于文本分类的研究现状,最后介绍了本文的主要工作的组织结构。

第二章,主要介绍了大数据云平台hadoop的分布式机制,并且详细介绍了HDFS、MapReduce的结构设计,及其运行机制,为本文后面的架构设计和研究做铺垫。同时对于高可用的集群进行设计和搭建,完成Centos6.6+JDK1.7+Hadoop2.5.0的集群设计。

第三章,提出基于MapReduce的分布式中文分词算法,并对分词后的数据进行预处理,设计基于MapReduce的并行文本分类算法。

第四章,提取实验数据,对数据进行并行中文分词、数据预处理和建立文本分类模型,并对模型的准确率进行验证和对比。

第五章,总结和展望,主要是总结了本文的工作,同时对于后期进一步改进提出了展望。

2 大数据技术HADOOP的研究

上一章简要介绍了hadoop框架的总体结构,随着全球开发者人员的贡献,hadoop生态圈包含的内容也越来越丰富。其包含Flume,Hive,Sqoop,HBase,impala,pig,mahout,  zookeeper,oozie等子框架。其中HDFS类似于Google的GFS分布式文件系统,但性能优于GFS文件系统,其根本就是一个文件存储系统。MapReduce类似于Google的Map-Reduce分布式计算模型。HBase非关系型数据库类似于Google的BigTable数据库。Flume是一个服务器数据采集或者数据迁移框架,负责把所需的数据传输到HDFS或者其他分布式文件系统中。Hive其实际是一个数据仓库,负责对建立于HDFS上的表进行数据分析和数据挖掘。Sqoop是一个通用型的数据迁移工具,通过设定传统型数据库的链接地址,账号密码,库名就能够实现HDFS和传统型数据库之间的数据传输。impala类似于Hive角色,是新一代的数据挖掘工具,其性能单节点情况优于Hive10倍,集群情况优于Hive100倍。zookeeper是负责hadoop所有节点的负载均衡[18]。Oozie负责分布式计算的任务调度,包括调度MapReduce、pig、Hive的调度。本文主要基于HDFS和MapReduce进行深入研究文本分类算法,所以下文主要详细介绍HDFS和MapReduce的结构和运行机制,以及基于hadoop2.5.0的多节点集群搭建和优化。

2.1 分布式存储HDFS

Hadoop FileSystem(HDFS)是基于谷歌GFS进行改进开发的框架,HDFS能够搭建于任何普通硬件上。HDFS跟其它的底层分布式存储系统相比拥有以下几个优点。

上一篇:java+mysql网上图书销售系统的设计与实现
下一篇:asp.net培训中心考试系统开发与建设

基于Apriori算法的电影推荐

PHP+IOS的会议管理系统的设计+ER图

数据挖掘在电子商务中的应用

数据挖掘的主题标绘数据获取技术与实现

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

基于网络的通用试题库系...

我国风险投资的发展现状问题及对策分析

老年2型糖尿病患者运动疗...

LiMn1-xFexPO4正极材料合成及充放电性能研究

互联网教育”变革路径研究进展【7972字】

网络语言“XX体”研究

ASP.net+sqlserver企业设备管理系统设计与开发

新課改下小學语文洧效阅...

安康汉江网讯

张洁小说《无字》中的女性意识

麦秸秆还田和沼液灌溉对...