摘要简述了数据挖掘中关于分类问题的具有代表性的算法,对文中的文本分类的算法提供了理论支持。详细介绍了TF/IDF算法的原理以及各个术语的意义,并且介绍了这个方法在信息论里面的理论依据。基于数据挖掘的分类方法和TF/IDF方法的概念,对南京公积金网站的大量样本进行了分析,整理出这些文本样本的词语出现的频度,并由此确定用于分类的关键词。依据TF/IDF的思想,建立了权重模型,确定阈值和关键词的权重,再对新添加的文本进行分类。共建立了两种权重模型,分别从二维情况推广到多维情况。用Matlab表现了实验结果,并且对它们的分类效果运用图表的形式进行了比较。最终将分类器的准确率提高至接近80%。87571

毕业论文关键字 TF/IDF  分类  数据挖掘  权重  阈值  模型  分析

毕业设计说明书外文摘要

Title    Classification on Web based on TF/IDF Character 

                                                           

Abstract By a Brief introduction of representative classification arithmetic in Data Mining , it is easier to make the definition of text classification clear。 The method and theory of TF/IDF has been clarified in details, along with the meaning of the terms and the supportive evidence in Information Theory。 With all these definitions and theoretical basis, a lot of training and observation has been dong to the text samples from the Nanjing Gongjijin Web, which collects the term frequency。 By doing this, the key words can be found。 The model also decides the weight of the key words and the threshold value of classed。 Therefore the new text samples can be classified using the model automatically。 Also the performance of the model then is going to get carefully analyzed and then optimized。 Finally the correct rate is nearly 80%。

Key words  TF/IDF  classification  data mining  weight threshold vaule  model analyze

目   次

1  引言 1源-于,优~尔^论=文.网www.youerw.com 原文+QQ7520~18766

1。1  信息分类的研究背景 1

1。2  主要工作及安排 1

2  数据挖掘中的常见分类算法介绍 3

2。1  基本概念介绍 3

2。2  分类算法介绍 4

3  TF/IDF算法的介绍 12

3。1  概念介绍 12

3。2  TF/IDF的信息论依据 13

4  对南京公积金网站的研究及分类情况 15

4。1  准备工作 15

4。2  权重(Weight)的确定 15

结  论 27

5。1  图表实验结果 27

5。2  关于实验结果的思考 27

致  谢 28

参 考 文 献 29

1  引言

1。1  信息分类的研究背景

    人类进入网络时代之后信息趋向多元复杂,数量更是不可计算,大数据的时代已经来临,我们需要从这些信息中提取自己所需要的。所以,对这些信息进行分类是处理它们的第一步。

上一篇:中红外强激光场作用下类氢原子高次谐波的产生
下一篇:基于移动通信的工业生产线状态监测技术研究

基于Java的串口通信设计

基于Kinect的深度图像编码

基于混沌的数字图像加密技术研究

基于Virtex-5FPGA的图像处理系统研究

基于移动通信的工业生产线状态监测技术研究

基于坐标变换方法的隐身...

基于Kinect的手势识别

张洁小说《无字》中的女性意识

我国风险投资的发展现状问题及对策分析

新課改下小學语文洧效阅...

互联网教育”变革路径研究进展【7972字】

安康汉江网讯

网络语言“XX体”研究

ASP.net+sqlserver企业设备管理系统设计与开发

老年2型糖尿病患者运动疗...

麦秸秆还田和沼液灌溉对...

LiMn1-xFexPO4正极材料合成及充放电性能研究