摘要:云计算是现在互联网最火热的技术,是当今最有影响力的技术之一。在海量数据到来的前夕,处理海量数据的技术越来越受到重视。国内各互联网企业正进行一场数据挖掘的改革。本课题将使用基于Hadoop的集群的强大运算能力对海量交通数据进行数据挖掘。国内交通仿真系统的研发正趋于成熟,随着仿真系统的研究留下海量的交通数据,使用数据挖掘技术对这些留滞的海量数据进行数据挖掘,再将数据挖掘的结果反馈给研发人员。课题将采用便捷的开发语言Python以及MapReduce原理来搭建系统的原型。此数据挖掘系统将具有海量数据分析能力、分析结果解释查询、以及海量数据简单查询能力的系统,并能够保证数据分析结果的正确性以及算法的稳定性,达到对海量交通数据的利用和对交通数据挖掘技术的验证。课题所提出的数据挖掘系统的模式在数据分析领域具有很高的研究价值。5574
关键词:云计算;交通数据;数据挖掘;hadoop;python
Hadoop and KDD
Abstract: Cloud computing is now the Internet's hottest technology and is today one of the most influential technology. In the eve of massive data, massive data processing technology more and more attention. Domestic Internet companies are engaged in a data mining reforms. This topic will use Hadoop-based cluster of massive computing power powerful traffic data for data mining. Domestic traffic simulation system development is maturing, with the simulation system left a flood of traffic data, use data mining techniques to these massive lag data for data mining, data mining and then feeding the results of R & D personnel. Issue will be used to quickly develop language Python, and MapReduce principle to build a system prototype. This data mining system will have massive data analysis capabilities, query analysis results interpretation, as well as massive data simple query capabilities of the system, and to ensure the correctness of the results of data analysis and the stability of the algorithm to achieve massive traffic data on the use and traffic data mining technology validation. Issues raised by data mining system model in the field of data analysis has high research value
Keywords:    Cloud; traffic data; data mining; hadoop; python
目录
目录    ii
1    绪论    1
1.1    国内外研究现状    1
1.2    研究背景和意义    2
2    技术背景    4
2.1    平台技术背景    4
2.1.1    Hadoop简介    4
2.1.2    Hbase简介    5
2.1.3    HDFS简介    6
2.1.4    Hive简介    7
2.2    开发语言的技术背景    8
2.2.1    Python的技术背景    8
2.2.2    WxPython的技术背景    9
2.2.3    Python + Hadoop    9
2.3    数据交互的技术背景    10
2.3.1    Json简介    10
2.3.2    SSH简介    10
2.4    数据挖掘    10
2.4.1    数据挖掘简介    10
2.4.2    数据挖掘模型简介    10
3    本课题基本内容    12
3.1    系统基本构架    12
3.1.1    客户表现层    12
3.1.2    逻辑处理层    13
3.1.3    后台数据层    13
上一篇:ASP+access社区爱心网建设+流程图+ER图
下一篇:GTK+OpenSSL数字签名算法设计及实现

基于Apriori算法的电影推荐

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

基于网络的通用试题库系...

python基于决策树算法的球赛预测

基于消费者个性特征的化...

基于网络的通用试题库系统的整体规划与设计

10万元能开儿童乐园吗,我...

医院财务风险因素分析及管理措施【2367字】

国内外图像分割技术研究现状

神经外科重症监护病房患...

中国学术生态细节考察《...

C#学校科研管理系统的设计

志愿者活动的调查问卷表

AT89C52单片机的超声波测距...

承德市事业单位档案管理...

公寓空调设计任务书