5。3 mapreduce阶段 24
6 测试 28
7 小结 29
7。1 遇到问题 29
7。2 个人总结 30
结 论 32
致 谢 33
参 考 文 献 34
1绪论
1。1研究背景
近年来,“大数据”(Big Data)在学术领域、各大网络软件企业和政府的有关信息关注的热点。2007年,吉姆·格 雷认为大数据会给科学研究、未来信息的发展趋势以及信息传播技术带来翻天覆地的改革,他是同年度获得图灵奖的佼佼者。与此同时,他还提出了“第四范式”(The Fourth Paradigm)的概念,适用于科学探究领域。
企业界则将大数据看作与自然资源、人力资源一样重要的战略资源。O’Reilly公司断言“未来属于将数 据转换成产品的公司和人们”。麦肯锡在2011年5月 发布的报告“大数据:下一个创新、竞争和生产力的前 沿”中指出,大数据是继传统IT之后的下一个提高生 产率的技术前沿,将成为未来提高竞争力、生产力、创 新能力以及创造消费者盈余的关键因素。 文献综述
2012年3月,美国奥巴马政府宣布投资2亿美元启 动“大数据研究和发展计划”,认为大数据是“未来的 新石油”,将“大数据研究”上升为国家意志,这必将对 未来的科技与经济发展带来深远影响[1]。
交通工程是形成与20世纪80年代的一门年轻的 应用型学科,涉及工学、管理学、经济学、社会学等多 个领域的交叉和融合,旨在培养从事交通规划、设计 和管理等方面的人才。大数据技术的发展,为交通工 程学科带来新的机遇,促进了交通数据分析和信息服 务产业的发展,同时也对传统的交通工程人才培养提 出了新的要求。
1。2研究现状
2相关技术
2。1相关算法
2。1。1 FPDTC算法
图2。1 FPDTC算法流程图
FPDTC算法[1]先列出车辆轨迹,再由车辆轨迹得出伴随车集。上图就是得出行车轨迹的流程图。
将数据通过方式取出来,提取有用的数据到中,其中重要的可用数据为,分别为。通过里的的过程得到成对的键值对。得到的键值对由定义的函数(可通过继承里的类来实现)对进行排序,得到的键值对组为。此时得到的是同一辆车经过的所有卡口的信息条数。在此基础上通过里的函数对同一辆车的卡口号和通过时间的和进行排序,得到的为一辆车行车轨迹。
算法1:基于点伴随组生成伴随车辆组。来;自]优Y尔E论L文W网www.youerw.com +QQ752018766-
输入点伴随组G,监测点阈值δcom;
输出伴随车辆组数据集Q。
程序前
//将事务分组到每个节点
//在各个节点下运行本地FP-Growth算法
// 构建项头表
//构建FP-Tree
//递归以求子FP-Tree
2。1。2 AVD算法
AVD算法,输入参数分别表示i个卡口,规定时间,滑动窗口最大的时间区域大小。输出的是伴随车集A。将卡口的行车顺序放入里,在设定的值是。在每个卡口处循环,将每个卡口的车辆按时间顺序放入,用滑动窗口处理这些过车记录,将符合条件的记录放入中。卡扣循环结束后,将所有的按照尺寸大小排序,得到放入伴随车集A中,最后返回伴随车集A的值。