摘要Web日志挖掘是数据挖掘研究领域中的一个重要分支,通过对服务器日志文件中的数据进行定量研究和分析后,寻找隐藏在背后的关联关系,从而提高Web用户的个性化服务和质量。
本文在总结国内外Web日志挖掘的基础上,介绍了Web挖据,Web日志挖掘的相关概念和技术。此外对聚类分析进行简单介绍,指出聚类分析算法中的经典算法K-mean聚类算法。本文还对挖掘出的日志数据进行数据清洗,用户识别,会话识别等方法处理到研究所用到的数据。通过分析用户日志数据,使用K-mean聚类算法对产品目录进行聚类,达到对产品目录进行个性化推荐的目的。
关键词 聚类分析 心智模型 Web挖掘 产品目录20906 毕业论文中文摘要
毕业论文外文摘要
Title Personalized recommendation of product catalog based on the cluster of user's mental model
Abstract
Web log mining research is an important branch of the data mining. we can find closet association by quantitative research and analysis to improve the quality of personalized service.
Based on the domestic and foreign Web log mining, the paper introduce the concepts and techniques of Web log mining. What is more ,a brief cluster analysis is introduced briefly. Then the paper specific introduces K-mean clustering algorithm,which is one of the classic clustering algorithm. We also use the method ,such us data cleaning user identification,Session identification to the Web log data we used. By analyzing the user log data, using K-mean clustering algorithm to cluster catalog, to achieve the purpose of the product catalog personalized recommendation.
Keywords Cluster analysis Mental model Web mining Product Catalog
目录
1 绪论 3
1.1研究背景 3
1.2 国内外研究现状 4
1.3 论文的研究内容和组织结构 5
2 数据挖掘 6
2.1数据挖掘概述 6
2.2 Web挖掘与Web日志挖掘 7
2.2.1 Web挖掘概述 7
2.2.2 Web挖掘分类 8
2.3 Web日志挖掘 8
3 聚类分析 10
3.1聚类的含义 10
3.2聚类分析的方法 11
3.2.1 划分的方法(clustering using representatives) 11
3.2.2 层次的方法(hierarchical method) 11
3.2.3 基于密度的方法(density-based methods) 11
3.3.4 基于网格的方法(grid-based method) 11
3.3.5 基于模型的方法(model-based method) 12
3.3 K-mean算法介绍 12
4 心智模型 14
4.1心智模型的概念 14
4.2心智模型的形成 14
4.3 心智模型的特点 15
4.4 心智模型的作用 15
5 基于用户心智模型的网站产品目录个性化推荐应用研究 16
5.1 Web日志挖掘过程 16
5.1.1 数据清洗 16
5.1.2 会话识别 17
5.1.3 用户识别 17
5.2 数据来源及预处理 17
6 总结和展望 23
6.1 论文总结 23
6.2 展望 23
参考文献 24
1 绪论
1.1研究背景
随着计算机科学与技术的发展,计算机已经普及于各行业,尤其是进入Web2.0以后,互联网让信息传播变得更方便,迅速和高效。当用户浏览网站信息时,分类目录是用户寻找目标信息的主要手段之一。分类目录是将网站信息系统地分类整理,提供一个按类别编排的网站目录,在每类中,排列着属于这一类别的网站站名、网址链接、内容提要,以及子分类目录,可以在分类目录中逐级浏览寻找相关的网站。所以为了吸引用户,让用户有更好的体验,需要让网站目录结构更加完善,更加符合用户的体验。而网站信息组织结构与用户心智模型更接近,用户信息获取的效率更高,用户就更加满意。因此网站信息组织结构应该“以用户为中心”,尽量体现用户认知。