6

2.1 分布式存储HDFS 6

2.2 分布式计算MAPREDUCE 7

2.3 数据采集FLUME 9

2.4 非关系型数据库HBASE 11

2.5 数据仓库HIVE 12

2.6 分布式数据迁移SQOOP 13

3 高可用HADOOP集群搭建及优化 14

3.1 集群整体架构设计 15

3.2 LINUX环境配置 17

3.3 HADOOP集群搭建 20

3.4 HIVE和HBASE集群搭建 26

3.5 SQOOP数据迁移框架设计 29

3.6 本章小结 31

4 用户行为挖掘算法研究 31

4.1 微博用户原始数据 32

4.2 微博用户数据数据预处理及分区存储 33

4.3 分布式并行分词算法研究 36

4.4 用户行为分析研究 39

4.5 本章小结 45

5 实验及结果分析 45

5.1 分布式数据导出 46

5.2 数据挖掘结果展示 48

5.3 录制视频展示成果 52

6 总结与展望 52

6.1 本文工作总结 53

6.2 未来的工作展望 53

致谢 53

参考文献 54

攻读学位期间发表的学术论文 56

1 引言

本章首先介绍了课题的研究背景,主要介绍了云计算和大数据的一些研究现状,并且分析现有用户行为分析中存在的一些问题,并对存在的问题进行阐述;在此基础上,详细介绍了本文的研究目标,研究内容和意义;最后简介本文的组织结构。

1.1 研究背景

互联网的广泛使用和物联设备的爆炸性增长,以及社交网络、传感器网络的飞速增长,带给人们是无所不在的连接和便利。我们已经从人与人的连接走向人与网络的连接,我们逐渐走向一个新的互联网时代,我们也越来越离不开网络。我们的每一个行为都将产生新的网络数据存储在互联网中[1]。

2012年互联网设备已经达到55亿,超过全球人口的70%,社交网络拥有20亿的用户,传感器网络设备超过100亿。这些设备和网络无时无刻生成数据[2],互联网数据中心(Internet Data Center)IDC统计2014年新增了4.1ZB的数据。2015年全球数据增长7.9ZB以上[3]。而且还保持着快速增长,基本保持了每十八个月全球数据翻一倍的速度进行增长。

1.2 国内外研究现状

1.2.1 大数据国内外研究现状

1.2.2 用户行为分析研究现状

1.3 主要工作

互联网数据量大,数据稀疏,用户广,对于数据存储和挖掘都带来了很大的挑战。本文基于hadoop云平台研究用户行为数据的存储和用户行为挖掘。设计并实现分布式、高可靠、高可用性的数据存储模块,解决现在数据量大存储困难的问题。提出基于MapReduce的分布式并行分词算法,调用集群的所有计算节点,对海量的中文文本进行分词计算,相比较传统中文分词能够提高三倍以上的分词效率,并能够解决现阶段海量文本分词困难的现状。本文将hadoop云平台结合微博用户行为数据进行分析,首先对重庆地区的微博信息进行分词,然后分析挖掘重庆每天各区县关于“感冒”、“肺炎”、“发热”、“咳嗽”的词汇统计,很好的解决微博内容稀疏,价值隐藏深,挖掘困难等问题,实现重庆相关部门对本地医疗的监控和预警。设计数据挖掘结果展示模块,基于Mysql+jdbc+http+Ajax多维度多方位全面的展示微博用户行为分析结果。

上一篇:jsp《计算机通信及网络》课程试题库设计
下一篇:jsp+sqlserver医院管理系统设计与实现

基于Apriori算法的电影推荐

PHP+IOS的会议管理系统的设计+ER图

数据挖掘在电子商务中的应用

数据挖掘的主题标绘数据获取技术与实现

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

基于网络的通用试题库系...

10万元能开儿童乐园吗,我...

AT89C52单片机的超声波测距...

C#学校科研管理系统的设计

神经外科重症监护病房患...

承德市事业单位档案管理...

志愿者活动的调查问卷表

中国学术生态细节考察《...

公寓空调设计任务书

国内外图像分割技术研究现状

医院财务风险因素分析及管理措施【2367字】