5.3 JIEBA中文分词 15
5.3.1 三种分词模式 15
5.3.2 三种分词模式比较 15
5.4 MATPLOTLIB 16
5.5 算法实现 16
5.6 算法结果 21
6 问题汇总和比较 28
6.1 编程中所遇到的问题 28
6.1.1 中文编码 28
6.1.2 列表子集 28
6.1.3 显示图表 28
6.1.4 端口占用 29
6.1.5 概率公式 29
7 总结 31
7.1 优点 31
7.2 缺点 31
致谢 33
参考文献 34
1 绪论
由于现在计算机网络互联网的高速发展,以及电子商务和电子政务的迅速普及,电子邮件已经成为越来越重要的交流手段。但与此同时也伴随着垃圾邮件问题,这显然从令人厌恶演变成了生产率的流失。因此,垃圾邮件分类技术将很快成为一个热门的研究课题。
1.1 分类器概述
在数据挖掘中,分类这一方法占非常重要的地位。分类的观点是基于已知晓类别的数据上建立分类模型,也常常被称为分类器。该功能或模型可以将数据库中的数据记录映射到给定的类别,这样就可以应用于数据预测,即可以用这个模型对未来的数据进行分类。总之,分类器是数据挖掘中的样本分类方法,包括k-近似法,决策树,遗传算法,朴素贝叶斯,神经网络等。
1.2 分类器的实施和构造的步骤:
(1) 选定数据集(包含正数据集和负数据集),将所有数据集随机地分为训练数据集和测试数据集。
(2) 在训练数据集上执行分类器算法,生成分类模型。
(3) 在测试数据集上执行分类模型,生成预测结果。
(4) 根据预测结果,计算必要的评估指标,评估分类模型的性能。
为了提升分类的精确度,高效性和可扩展性,数据基本要在开始分类前预先做好处理,包含以下三个步骤:
(1) 数据清理。其目的是消除或减少数据噪声,处理空缺值。
(2) 相关性分析。由于数据集中的许多属性可能与分类任务不相关,若包含这些属性将减慢和可能误导学习过程。相关性分析的目的就是删除这些不相关或冗余的属性。
(3) 数据变换。数据可以概化到较高层概念。比如,连续值属性“收入”的数值可以概化为离散值:低,中,高。又比如,标称值属性“市”可概化到高层概念“省”。此外,数据也可以规范化,规范化将给定属性的值按比例缩放,落入较小的区间,比如[0,1]等。
1.3 分类器的两种类型:
1.3.1 决策树分类器
决策树是一个决策支持工具,它使用树状图或决策模型及其可能的后果,包括机会事件结果,资源成本和效用。它是显示算法的一种方式。决策树通常用于运营研究,特别是在决策分析中,用以帮助确定最有可能实现目标的策略,但与此同时它也是机器学习中的流行工具。决策树是一种流程图状结构,这种用图形来表达的方式简洁明了,更易于探查。其中每个内部节点代表对一个属性的“测试”(例如抛硬币是是正面还是反面),每个分支表示了测试结果,并且每个叶节点表示一个类标签(计算所有属性后做出决定)。从根到叶的路径则代表分类规则。决策树可以通过对属性的分析来对数据进行分类,也就是“窥一斑而知全豹”。譬如,决策树可以从“一种瘪嘴,会游泳,有翅膀,有两只脚的动物”这些属性中得出它可能是在描述一只鸭子。论文网