第 4 期 大数据: 内涵、技术体系与展望 ·471 ·
大数据的产生如图 1 所示。
图 1 大数据的产生
Fig. 1 The production of big data
1) 时间: 不间断性
传统数据是伴随着一定的运营活动而产生的,并在产生后存储至数据库,如超市只有用户发生购买行为之后才会产生交易信息,该阶段数据的产生是被动的,具有这种数据产生方式的阶段被称为
“运营式系统阶段”; 随着互联网技术的发展,以智能移动终端以及社交平台为媒介,大量通话以及聊天记录的产生标志着“用户原创阶段”的到来,该阶段数据产生呈现主动性; 而后,云计算、物联网以及传感技术的发展,使得数据以一定的速率源源不断的产生,该阶段的数据呈现自发性,该阶段被称为“感知式系统阶段”。通过以上分析可知,数据
[18],
产生方式经历了被动、主动以及自发式的历程其已经脱离了对活动的依赖性,突破了传统时间的限制,具备了持续不间断产生的特性。
2) 地点: 无领域限制
[19]
大数据已经出现在各种领域,包括互联网 、
[20] [21-22] [23] [24] [25]
金融 、医疗 、教育 、科研 、航空航天
[26] 等。例如,互联网领域的网络点击
以及物联网
流、网络日志、电子邮件以及交易记录,金融领域的股票交易、用户消费记录以及账户信息,物联网领域中大量分布的传感器感知的环境信息、设备信息,科研领域中仿真实验数据、实验报告、论文等,这些都是构成大数据的重要组成部分。但产生大数据的领域并不局限于此,其甚至已经分布在了我们能够想象到的生产生活的各种领域。例如,学生的考试成绩、学号信息,购物清单以及手机短信、通话记录等,
其都会形成数据并保存。由此可见,领域的扩展已经为“大数据”的形成提供了重要基础。
3) 人物: 人、机、物协同作用众所周知,人物是传统事件发生的重要因素,
而对于数据的产生,其主体已经从传统的“人”的概念扩展到“人”、“机”、“物”以及三者的融合。首先,“人”指的是人类的活动,包括人的日常消费,使用移动互联网、移动设备终端等; 其次,很重要的一部分数据来源于“机”,即信息系统本身,计算机信息系统产生的各类数据,其以文件、多媒体等形式存在,包括计算机虚拟镜像、内容拷贝以及数据备份等; 另外,“大数据”同样也来源于“物”,
即我们所处的物理世界,其涉及到各种具有采集功能的设备,如摄像头、医疗设备、传感器等。而且,随着云计算、物联网等信息技术的发展,“人”、“机”及“物”的规模逐渐扩大,相互之间的作用越来越明显,数据的产生方式也已经由“人机”或“机
物”的二元世界向着融合社会资源、信息系统以及
[2-3]
物理资源的三元世界转变