1.2大数据研究的意义
随着网络的发展飞速,使用网络的人越来越多,与此同时在网络中产生的数据也就越来越多。经过时间的积累数据量变得越来越大,由于传统数据处理方式,处理小量数据尚可,当面对大量的数据信息变无力了。这是的数据处理变慢,然而大数据的出现是数据处理变得轻松快捷,能够轻松的从大量的数据中找到我们所需要的信息。这种方式如今被应用到金融、医药、科研等中药领域,所以大数据的开发对我们有重要的意义。
2.大数据开发技术分析
2.1分布式系统
GFS与传统的分布式文件系统仍有很多同的地方,如可伸缩性、可靠性等。但是GFS与传统文件系统不同与成功之处在于:通过数据分块、追加更新等方式实现了海量数据的高效存储。
2.2分布式数据系统
大数据开发平台有流式处理和批处理两种处理模式。流式处理是实时处理,批处理非实时处理。流式处理是将数据视为流的形式,数据形成数据流,实时的处理并且返回所要的数据形式。大数据实时处理是一个极其有挑战的工作,目前有代表性的处理系统有:Storm、S4等。
对于某些计算,由于输入数据量的巨大,想在可接受的时间内完成这些运算,只有将这些计算分布在许多主机上。对于处理并行计算、分发数据,使得原本复杂的运算变得容易处理。这是非实时处理的一种方式,代表系统有Hadoop。Hadoop的变成原理是MapReduce。
MapReduce编程模型的原理:将大量的数据分布在不同的计算机上,通过map处理将处理后的数据提以键值对的方式发送到reduce中,在发送的过程中会将键的数值相同的数据归集在一起最后经过reduce的处理得到人们想要的数据。
3.大数据开发环境框架介绍
3.1HDFS系统框架
HDFS是一个运行在普通硬件上的分布式系统,采用Master/Slave框架,由一个主节点Namenode多个从节点Datanode组成,Namenode负责对集群系统元数据的管理工作,Datanode的地址管理。Datanode负责对数据的存储进行管理。
HDFS系统中文件的目录结构独立存储在NameNode上,对数据来说被拆分成若干Block,NameNode负责关闭、打开和重命名数据文件和目录等操作,建立Block和DataNode节点的映射关系。客户机的读写需求是由DataNode节点响应完成的,同时DataNode节点中的Block是在NameNode的统一指挥下创建、删除和复制。
上一篇:基于IOS自助点餐APP的设计+文献综述
下一篇:ASP.net+sqlserver高校贫困生贷款管理系统设计+源代码

数据挖掘在电子商务中的应用

数据挖掘的主题标绘数据获取技术与实现

基于PageRank算法的网络数据分析

基于网络的通用试题库系...

论利用ebXML和SOAP开发Web服务【2352字】

嵌入式移动数据库研究【2530字】

嵌入式移动数据库應用研究【2321字】

志愿者活动的调查问卷表

10万元能开儿童乐园吗,我...

承德市事业单位档案管理...

医院财务风险因素分析及管理措施【2367字】

中国学术生态细节考察《...

AT89C52单片机的超声波测距...

神经外科重症监护病房患...

国内外图像分割技术研究现状

公寓空调设计任务书

C#学校科研管理系统的设计