摘要在互联网高速发展的今天,信息技术已广泛应用于各领域。人们越来越意识到网络应用及其产生的数据的重要性,云计算和大数据也就逐渐得到人们重视。快速分析出海量数据中的有效信息,对其加以计算处理,成为了当今互联网行业的热门话题。80709
本课题结合Hadoop分布式系统,从分析网站日志出发,研究用户上网行为,达到分析用户上网时间分布和用户最常访问页面的目的,得出用户上网行为习惯的结论。本文主要总结:
熟悉Linux、Hadoop,掌握Linix下Hadoop程序开发方法;
编写Map、Reduce函数,对数据进行处理;
部署Hadoop下分布式文件系统;
实现大数据环境下分析用户上网时间分布并保存;
实现大数据环境下分析用户对所有网页的访问频次并保存。
毕业论文关键词 用户上网行为分析;hadoop;分布式;大数据
毕业设计说明书外文摘要
Title The design and implementation of the analysis system which is used for Internet users
Abstract With the rapid development of today’s Internet, information technology are widely applicable in various areas。 People are never overestimating the importance of network applications and their subsequent data output, and especially the value of the cloud computing and big data technology。 Among the hottest topics in Internet industrial researched, are how to quickly analyze a great amount of data for meaningful information, and how to refine it with further processing and computation。
This project conducts data processing and analysis of website visit logs to discover Internet user behaviors on Hadoop distributed computing system。 User habits on web browsing are profiled and summarized based on the variation of each user’s web browsing durations and the mostly visited pages。
This thesis summarizes the work and contribution in the following aspects:
Getting familiar with Linux system, Hadoop platform, and the Hadoop program development technique on Linux。
Composing appropriate Map() and Reduce() functions to process data。
Deploying Hadoop distributed file system (HDFS)。
Deriving and storing the distribution of user web browsing duration with big data support
Revealing the frequency of mostly visited webpages。
Keywords Analysis of users' Internet behavior ; hadoop ; Distributed System ; Big data
目 次
第1章 绪论 1
1。1研究背景 1
1。2 研究现状 1
1。3 研究意义 2
1。3。1 精细划分用户群组 2
1。3。2 便于上网管理 2
1。3。3 便于制定更合理的网络运营政策 2
1。4 本文结构 2
第2章 开发工具及技术 4
2。1 MapReduce 4
2。1。1 MapReduce与关系型数据库比较 4
2。1。2 MapReduce的结构 6
2。1。3 MapReduce工作流程 6
2。2 分布式文件系统 7
2。2。1 HDFS的结构 7
2。2。2 HDFS的工作流程 9
2。2。3 HDFS的主要特点