Fig. 2 The technical framework for big data processing
如图 2 所示,大数据处理技术体系主要涉及大数据的采集技术、存储技术、分析及挖掘技术、可视
化呈现技术 4 个部分。
1) 大数据的采集: 来自于不同领域的大数据,其特点、数据量以及用户数目不同,按照结构特点,可划分为 3 种类型: 结构化数据、半结构化数据以及非结构化数据。大数据采集的挑战是并发数高、流式数据速度快。
2) 大数据的存储: 改进的轻型数据库可用于完成大数据的存储并响应用户的简单查询与处理请求; 而当数据量超过轻型数据库的存储能力时,
第 4 期 大数据: 内涵、技术体系与展望 ·473 ·
则需要借助于大型分布式数据库或存储集群平台,且随着互联网技术和云计算技术的发展,建立在分布式存储基础上的云存储已经成为大数据存储的主要趋势。大数据存储的主要挑战是数据异构、结
构多样、规模大。
3 ) 大数据的分析及挖掘: 大数据的分析涉及简单的统计分析以及分类汇总,其挑战在于导入数据量大,查询请求多; 而大数据挖掘涉及数据的分类、聚类、频繁项挖掘等,其算法复杂,计算量大。
4) 大数据可视化: 大数据的挖掘及分析结果将在显示终端以友好、形象、易于理解的形式呈现以供专业人士分析结果的准确性或为用户提供决
[31]
策信息支持 。大数据呈现的挑战在于数据维度
高、呈现需求多样化。
大数据处理环节中各技术功能的相互配合使用可为大数据价值的有效实现提供技术基础。
3. 1 大数据获取
不同领域对应的数据采集方法以及工具也不同,如互联网领域中,用于日志采集的大数据
, [32]
获取 工 具 Hadoop 的 Chukwa 、Cloudera 的Flume、Facebook 的 Scribe、LinkedIn 的 Kafka 等,用于网络数据采集的网络爬虫或网站公开 API 等方式; 物联网领域中,用于数据感知的 MEMS 传感器、光纤传感器、无线传感器等。数据产生以及采集方式的发展为大数据的获得提供了重
要基础。
获取的大数据按照结构的不同,可分为结构化数据、非结构化数据以及半结构化数据,其特点如表 3 所示。
表 3 不同数据类型的特点分析
Table 3 The characteristics of different data types
数据类型 举例 特点
结构化数据 二维表 先有结构后有
( structured) 数据、行数据
[33] HTML 文 档、
半结构化数据 XML [34] 先有数据后有模
( semi-structured) 文 档 、
SGML 文档 式、无规则性结构
非结构化数据 图形、文本、声
( unstructured) 音、视频 模式具有多样性