摘要:对于海量数据存储问题,传统方法一般都是通过增添更多的服务器。得以提升计算和存储能力,这是的硬件成本变高,存储的效率也普遍偏低。然而Hadoop技术的出现,使得这一问题有了转变。Hadoop是大数据开发平台的一种,使得海量数据能够在廉价的,少量的服务器中得以解决。Hadoop平台具有成本低,处理数据快,运行稳定,易于扩展等特点。这一技术已经成为处理海量数据的手段之一,在许多领域中都得以应用,商业、医学、工业等都已经占据十分重要的地位。这项技术方便了我们的生活,也为我们提供了更好的帮助。29194 毕业论文关键词:大数据;Hadoop;环境搭建
Study on establish and optimization of the big data development environment
Abstract:For the problem of massive data storage, the traditional methods are generally by adding more servers. To enhance the computing and storage capacity, it is the high cost of hardware, the storage efficiency is generally low. However, the emergence of Hadoop technology, has changed the problem. Hadoop is a big data platform, making huge amounts of data can be solved in a low-cost, small server. The Hadoop platform has the advantages of low cost, fast processing, stable operation, easy to expand etc.. This technology has become one of the massive data processing means, have been applied in many fields, commercial, medical, industrial and so has occupied a very important position. This technique is convenient for our life, also provide better help for us.
Keywords:big data;Hadoop;Environment build
目录
摘要 1
引言 1
1.大数据研究现状和意义 2
1.1大数据研究现状 2
1.2大数据研究的意义 2
2.大数据开发技术分析 2
2.1分布式系统 2
2.2分布式数据系统 3
3.大数据开发环境框架介绍 3
3.1HDFS系统框架 3
3.2MAPREDUCE编程模型 3
4.大数据开发环境的搭建 5
4.1部署HADOOP前的准备工作 5
4.2大数据开发环境的搭建 5
5.大数据开发环境的优化 12
5.1HADOOP系统参数 12
5.2作业调度算法角度进行优化 12
6结论 12
参考文献 12
致谢 14
大数据开发环境的搭建与优化研究
引言 计算机网络不断走入千家万户,也使人们更多的接触到了计算机。然而过多的人使用计算机,导致网络中流入了大量的数据信息。随着时间的推移,这些信息变得越来越多越来越庞大,使得传统处理数据的方式在数据处理方面变得力不从心,即使能够处理,也要花费大量的时间与精力而且不能充分利用处理后的信息价值。随着互联网技术的发展一种新的处理信息的技术产生了,这就是大数据的处理技术。
这项技术便是MapReduce并行分布式计算机模型针对海量数据的处理,相对传统的技术而言,此技术为用户提供了底层封装、分配任务、并行处理数据等技术,用户只需解决将分布式计算任务的表达处理通顺即可。极大的简化了分布式程序的设计。然而Hadoop作为比较成熟的框架,很好的实现了MapReduce编程模式,在如今的很多网络领域中都有所用到这项技术使得数据的处理变得更加容易与准确,那么下面就让我们来共同学习与了解这项技术。
1.大数据研究现状和意义
1.1大数据研究现状
由于互联网和计算机硬件的高速发展,人们更多的使用计算机网络的方式存储数据,如,纽约证券交易所每天将会有1TB的数据产生,Facebook存储的照片就100亿张之多,约1PB的数据存储量,与此同时,目前每年全球总数据量达到了ZB级,相当于10亿TB。这样大规模的数据量表示,我们已经进入来了大数据时代.