第三章主要介绍数据抓取,Jpcap简介和抓包步骤。
第四章主要介绍频繁模式挖掘,首先介绍最大向前路径,然后介绍了Apriori挖掘算法,最后是将Url转变为对应标题。
第五章主要是该系统的设计思想和不同模块的测试,以及对程序结果的分析与评价。
最后对本论文的工作进行了总结和展望,并致谢。
2 数据挖掘和WEB挖掘概述
2.1 数据挖掘
2.1.1 数据挖掘简介
我们生活在数据时代,每天来自商业、社会、科学和工程、医学以及我们日常生活方方面面的数兆兆字节或数千兆兆字节的数据注入我们的计算机网络、万维网和各种数据存储设备。可用数据的爆炸式增长是我们的社会计算机化和功能强大的数据收集和存数工具快速发展的结果。快速增长的海量数据收集、存放在大量的大型数据库中,没有强有力的工具,理解它们远远超过了人的能力。我们缺少从海量数据中提取有价值知识的工具,因此出现了“数据是丰富的但信息是贫乏的”的现象。
计算机一个很重要的研究方向机器学习是关于计算机如何基于数据学习的一个学科。近年来,机器学习在计算机科学的众多领域大显身手。数据挖掘本身也和机器学习很多相似之处。
我们知道,需求是发明之母。近年来,信息产业发展迅猛,人们越来越关注如何将数据转换成有用的、直观的知识。再加上机器学习等的技术,数据挖掘应运而生,得到蓬勃的发展。
数据挖掘就是从大型复杂的数据集中提取知识和观点。如今大数据在社会发展中的重要性逐渐凸显处理,现在的社会有从信息社会变成了数据社会的趋势,大数据也应该提升到国家战略的层面上。在大数据时代,数据挖掘的重要性更可见一斑。数据中蕴藏着知识,只有挖掘出来才能发挥出价值。对于挖掘的应用,数据的最基本形式是数据库数据、数据仓库数据和事务数据。当然也可以是其他类型的数据,比如数据流、图或网络数据、空间数据、文本数据、多媒体数据和万维网等。
因此,数据挖掘是一门交叉性学科,设计到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等多个领域。而且作为一个应用驱动的学科,数据挖掘已经在许多应用中获得了巨大成功,比如说商务智能和搜索引擎。
2.1.2 数据挖掘步骤
数据挖掘也称为数据库中的知识发现KDD(Knowledge Discovery in Databases),知识发现过程由以下步骤的迭代序列组成。
(1) 问题定义:确定数据挖掘所涉及的操作数据对象。
(2) 数据选择:根据数据挖掘任务的具体要求,从相关数据源中抽取与数据挖掘任务相关的数据集。
(3) 数据预处理:光滑噪声数据、数据缺失值处理、除去重复数据和识别离群点等处理。
(4) 数据转换:对数据进行降维处理,使数据变换成更容易处理的形式。从第2步到第4步涉及所要挖掘的数据的质量和规模,直接影响着后面过程的结果和效率。
(5) 数据挖掘:根据任务的特点采用合适的算法进行挖掘。
(6) 模式评估:针对挖掘结果,进行评估分析,以便有效发现有意义的知识模式。
(7)