基于python语言的分类器的设计与实现(2)

5.3 JIEBA中文分词 15

5.3.1 三种分词模式 15

5.3.2 三种分词模式比较 15

5.4 MATPLOTLIB 16

5.5 算法实现 16

5.6 算法结果 21

6 问题汇总和比较 28

6.1 编程中所遇到的问题 28

6.1.1 中文编码 28

6.1.2 列表子集 28

6.1.3 显示图表 28

6.1.4 端口占用 29

6.1.5 概率公式 29

7 总结 31

7.1 优点 31

7.2 缺点 31

致谢 33

参考文献 34

1 绪论

由于现在计算机网络互联网的高速发展，以及电子商务和电子政务的迅速普及，电子邮件已经成为越来越重要的交流手段。但与此同时也伴随着垃圾邮件问题，这显然从令人厌恶演变成了生产率的流失。因此，垃圾邮件分类技术将很快成为一个热门的研究课题。

1.1 分类器概述

在数据挖掘中，分类这一方法占非常重要的地位。分类的观点是基于已知晓类别的数据上建立分类模型，也常常被称为分类器。该功能或模型可以将数据库中的数据记录映射到给定的类别，这样就可以应用于数据预测，即可以用这个模型对未来的数据进行分类。总之，分类器是数据挖掘中的样本分类方法，包括k-近似法，决策树，遗传算法，朴素贝叶斯，神经网络等。

1.2 分类器的实施和构造的步骤：

(1) 选定数据集（包含正数据集和负数据集），将所有数据集随机地分为训练数据集和测试数据集。

(2) 在训练数据集上执行分类器算法，生成分类模型。

(3) 在测试数据集上执行分类模型，生成预测结果。

(4) 根据预测结果，计算必要的评估指标，评估分类模型的性能。

为了提升分类的精确度，高效性和可扩展性，数据基本要在开始分类前预先做好处理，包含以下三个步骤：

(1) 数据清理。其目的是消除或减少数据噪声，处理空缺值。

(2) 相关性分析。由于数据集中的许多属性可能与分类任务不相关，若包含这些属性将减慢和可能误导学习过程。相关性分析的目的就是删除这些不相关或冗余的属性。

(3) 数据变换。数据可以概化到较高层概念。比如，连续值属性“收入”的数值可以概化为离散值：低，中，高。又比如，标称值属性“市”可概化到高层概念“省”。此外,数据也可以规范化,规范化将给定属性的值按比例缩放,落入较小的区间,比如[0,1]等。

1.3 分类器的两种类型：

1.3.1 决策树分类器

决策树是一个决策支持工具，它使用树状图或决策模型及其可能的后果，包括机会事件结果，资源成本和效用。它是显示算法的一种方式。决策树通常用于运营研究，特别是在决策分析中，用以帮助确定最有可能实现目标的策略，但与此同时它也是机器学习中的流行工具。决策树是一种流程图状结构，这种用图形来表达的方式简洁明了，更易于探查。其中每个内部节点代表对一个属性的“测试”（例如抛硬币是是正面还是反面），每个分支表示了测试结果，并且每个叶节点表示一个类标签（计算所有属性后做出决定）。从根到叶的路径则代表分类规则。决策树可以通过对属性的分析来对数据进行分类，也就是“窥一斑而知全豹”。譬如，决策树可以从“一种瘪嘴，会游泳，有翅膀，有两只脚的动物”这些属性中得出它可能是在描述一只鸭子。论文网

上一篇：HTML5宠物商店管理系统的设计与开发

下一篇：LandsatTM基于遥感的地表温度反演算法比较

基于python语言的分类器的设计与实现(2)

基于Apriori算法的电影推荐

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

基于网络的通用试题库系...

python基于决策树算法的球赛预测

基于消费者个性特征的化...

基于网络的通用试题库系统的整体规划与设计

张洁小说《无字》中的女性意识

我国风险投资的发展现状问题及对策分析

互联网教育”变革路径研究进展【7972字】

安康汉江网讯

新課改下小學语文洧效阅...

ASP.net+sqlserver企业设备管理系统设计与开发

网络语言“XX体”研究

LiMn1-xFexPO4正极材料合成及充放电性能研究

老年2型糖尿病患者运动疗...

麦秸秆还田和沼液灌溉对...