毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
英语论文
日语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
大数据开发环境的搭建与优化研究(2)
1.2大数据研究的意义
随着网络的发展飞速,使用网络的人越来越多,与此同时在网络中产生的数据也就越来越多。经过时间的积累数据量变得越来越大,由于传统数据处理方式,处理小量数据尚可,当面对大量的数据信息变无力了。这是的数据处理变慢,然而大数据的出现是数据处理变得轻松快捷,能够轻松的从大量的数据中找到我们所需要的信息。这种方式如今被应用到
金融
、医药、科研等中药领域,所以大数据的开发对我们有重要的意义。
2.大数据开发技术分析
2.1分布式系统
GFS与传统的分布式文件系统仍有很多同的地方,如可伸缩性、可靠性等。但是GFS与传统文件系统不同与成功之处在于:通过数据分块、追加更新等方式实现了海量数据的高效存储。
2.2分布式数据系统
大数据开发平台有流式处理和批处理两种处理模式。流式处理是实时处理,批处理非实时处理。流式处理是将数据视为流的形式,数据形成数据流,实时的处理并且返回所要的数据形式。大数据实时处理是一个极其有挑战的工作,目前有代表性的处理系统有:Storm、S4等。
对于某些计算,由于输入数据量的巨大,想在可接受的时间内完成这些运算,只有将这些计算分布在许多主机上。对于处理并行计算、分发数据,使得原本复杂的运算变得容易处理。这是非实时处理的一种方式,代表系统有Hadoop。Hadoop的变成原理是MapReduce。
MapReduce编程模型的原理:将大量的数据分布在不同的计算机上,通过map处理将处理后的数据提以键值对的方式发送到reduce中,在发送的过程中会将键的数值相同的数据归集在一起最后经过reduce的处理得到人们想要的数据。
3.大数据开发环境框架介绍
3.1HDFS系统框架
HDFS是一个运行在普通硬件上的分布式系统,采用Master/Slave框架,由一个主节点Namenode多个从节点Datanode组成,Namenode负责对集群系统元数据的
管理
工作,Datanode的地址管理。Datanode负责对数据的存储进行管理。
HDFS系统中文件的目录结构独立存储在NameNode上,对数据来说被拆分成若干Block,NameNode负责关闭、打开和重命名数据文件和目录等操作,建立Block和DataNode节点的映射关系。客户机的读写需求是由DataNode节点响应完成的,同时DataNode节点中的Block是在NameNode的统一指挥下创建、删除和复制。
共2页:
上一页
1
2
下一页
上一篇:
基于IOS自助点餐APP的设计+文献综述
下一篇:
ASP.net+sqlserver高校贫困生贷款管理系统设计+源代码
数据挖掘在电子商务中的应用
数据挖掘的主题标绘数据获取技术与实现
基于PageRank算法的网络数据分析
基于网络的通用试题库系...
论利用ebXML和SOAP开发Web服务【2352字】
嵌入式移动数据库研究【2530字】
嵌入式移动数据库應用研究【2321字】
志愿者活动的调查问卷表
10万元能开儿童乐园吗,我...
承德市事业单位档案管理...
医院财务风险因素分析及管理措施【2367字】
中国学术生态细节考察《...
AT89C52单片机的超声波测距...
神经外科重症监护病房患...
国内外图像分割技术研究现状
公寓空调设计任务书
C#学校科研管理系统的设计