大数据处理技术体系

Fig. 2 The technical framework for big data processing

如图 2 所示,大数据处理技术体系主要涉及大数据的采集技术、存储技术、分析及挖掘技术、可视

化呈现技术 4 个部分。

1) 大数据的采集: 来自于不同领域的大数据,其特点、数据量以及用户数目不同,按照结构特点,可划分为 3 种类型: 结构化数据、半结构化数据以及非结构化数据。大数据采集的挑战是并发数高、流式数据速度快。

2) 大数据的存储: 改进的轻型数据库可用于完成大数据的存储并响应用户的简单查询与处理请求; 而当数据量超过轻型数据库的存储能力时,

第 4 期 大数据: 内涵、技术体系与展望 ·473 ·

则需要借助于大型分布式数据库或存储集群平台,且随着互联网技术和云计算技术的发展,建立在分布式存储基础上的云存储已经成为大数据存储的主要趋势。大数据存储的主要挑战是数据异构、结

构多样、规模大。

3 ) 大数据的分析及挖掘: 大数据的分析涉及简单的统计分析以及分类汇总,其挑战在于导入数据量大,查询请求多; 而大数据挖掘涉及数据的分类、聚类、频繁项挖掘等,其算法复杂,计算量大。

4) 大数据可视化: 大数据的挖掘及分析结果将在显示终端以友好、形象、易于理解的形式呈现以供专业人士分析结果的准确性或为用户提供决

[31]

策信息支持 。大数据呈现的挑战在于数据维度

高、呈现需求多样化。

大数据处理环节中各技术功能的相互配合使用可为大数据价值的有效实现提供技术基础。

3. 1 大数据获取

不同领域对应的数据采集方法以及工具也不同,如互联网领域中,用于日志采集的大数据

[32]

获取 工 具 Hadoop 的 Chukwa 、Cloudera 的Flume、Facebook 的 Scribe、LinkedIn 的 Kafka 等,用于网络数据采集的网络爬虫或网站公开 API 等方式; 物联网领域中,用于数据感知的 MEMS 传感器、光纤传感器、无线传感器等。数据产生以及采集方式的发展为大数据的获得提供了重

要基础。

获取的大数据按照结构的不同,可分为结构化数据、非结构化数据以及半结构化数据,其特点如表 3 所示。

表 3 不同数据类型的特点分析

Table 3 The characteristics of different data types

数据类型 举例 特点

结构化数据 二维表 先有结构后有

( structured) 数据、行数据

[33] HTML 文 档、

半结构化数据 XML [34] 先有数据后有模

( semi-structured) 文 档

SGML 文档 式、无规则性结构

非结构化数据  图形、文本、声

( unstructured) 音、视频 模式具有多样性

上一篇:AT89C51单片机的数字电压表的设计+电路图
下一篇:没有了

STM32F03单片机无线传感器网...

Multisim的音频功率放大器设计与仿真

AT89C52单片机的数字广告大...

php+mysql教师数据采集系统设计+源代码

AT89S52单片机电能表红外数...

multisim的负反馈放大电路仿真设计

STC89C51单片机大棚温度湿度...

对外汉语教学中的声调教学研究

成本分担视角下研究生经...

谈谈文博档案的分类问题【2135字】

安徽巢湖什么时候开放三...

關于加强中职基础會计实...

浅议高校大學生管理工作...

新常态下浠水县农业综合...

高校韩國留學生管理工作...

基于FPGA的高速数据采集处...

构建马克思主义哲學创新...