2。5。1 Hadoop技术介绍 15
2。5。2 Hadoop的安装 15
2。5。3 并行编程模型MapReduce 21
2。5。4 分布式文件系统HDFS 21
2。5。5 数据库HBase 21
2。6本章小结 21
3。数据处理架构与相关程序 22
3。1数据处理运用实现 22
3。1。1初步准备eclipse 22
3。1。2 Mapreduce程序运用与解析 24
3。2数据储存具体实现 27
3。2。1 HBase数据库设计 27
3。2。2 HDFS储存模块 30
3。3本章小结 31
4。用户分析系统具体实现 32
4。1开发环境及平台部署 32
4。1。1研究课题具体分析处理 32
4。1。2 Mapreduce的编程类别 32
4。2结果分析 34
4。2。1集群作业运行状态分析 34
4。2。2集群分析错误 35
4。3本章小结 39
致谢 40
参考文献 41
1。绪论
1。1 课题研究背景及意义
上个世纪60年代到80年代早期,一些企业就在大型机上使用了系统数据储存,对财务等信息数据进行了储存处理。当时的人们称其为大量数据,但从今天的数据来看,它是相当小的。现在随着PC的出现和应用软件的增多,从起初企业内部出现了很多以公文档为形式而产生的数据,到后来出现的图片、图像、影像和音频等形式的信息数据,都大大的增加了数据的数量。随着互联网的全面推广,促成了数据形式的丰富多样性,既有社交网络、多媒体等应用所主动产生的数据,在搜索引擎和网页浏览等被动行为中,也有记录和收集的数据,这会导致数据量的大幅增加,这也是每个网民的成果。如今的数据量动辄达到数百TB,甚至数十至数百PB规模的行业大数据,已远远超出了现有传统的计算技术和信息系统的处理能力。随着年均增长40%的数据增长量,一个重大挑战付出水面:如何收集、保存、管理、分析和共享大量的数据。虽然大数据带来了巨大的技术挑战,但它也带来了巨大的技术创新和商业机会: 不断积累的数据将包含很多知识的深度和价值,公司不再只依靠经验来推测,他们使用客户分析系统、科学的手段和方法来收集、分析和使用各种各样的客户信息,获取有价值的信息。论文网
1。1。1 研究背景
大数据处理分析模型架构始于2004年12月,当时谷歌推出了了MapReduce经典论文: Simplified Data Processing on Large Clusters。该文于2005年4月正式发表于国际会议OSDI,这也标志着Google的大规模数据处理系统MapReduce公开。实际上,2008年,人们关注的数据,称其为“大量数据”,谷歌当年年仅10岁,在探讨有关数据信息处理储存的一篇报道中,就对此提出了“Big Data”的概念。而关于Hadoop设计思想来源于Google的MapReduce和GFS相关论文。于2006年2月,Apache启动了对Hadoop项目MapReduce和HDFS的独立支持。 也就是现今大多数技术开发者所使用的开源平台。