摘要当今社会完全步入了一个高度信息化的时期,每分钟都会涌现大量的信息,怎么从这些大量的数据中提取出对我们有用的信息,并为我们创造价值,这成为了一个关键的话题。基于数据挖掘来研究数据,从中提取有用的信息来辅助决策。近几年来,数据挖掘技术不仅作为数据库和信息决策领域前沿的研究方向之一,还受到了经济领域和数据库界的共同关注。46811

本文以基于数据挖掘理论、方法、技术上的决策树为建模主要思想,选用决策树中Gini指数的分类和回归树(CART)算法,再通过:构建树、修剪树、评估模型,将客户进行分类,将客户信息转化为属性-结论式的输出形式,从而使区分目标客户及非目标客户变得快速且精准。

在数据挖掘技术模型的基础上,最终能够得到最优化模型。此模型反应出一系列我们期待的特点,如时间短、精度高等。在实际生活中使用我们得到的最优化模型,无论是个人还是企业,都可以提高客户分类的效率。毕业论文关键词:数据挖掘; 决策树; CART算法;客户

Abstract

Our society is full of information, lots of data occur every day, so it is a critical question that how can we get useful information from these data and then create more value for us. Data mining bases on researching data, then we can get useful information for the further deciding. These years, more and more companies focus on the data mining, so it is also a researching direction for the data house and information deciding.

This paper on the theory, method and technology of data mining, by decision tree modeling for the main idea, using decision tree based on Gini index in the classification and regression tree (CART) algorithm, the customer information into attributes - conclusion type form, by building a tree and the tree pruning three steps, evaluation model, classify the customer, so as to accurately distinguish between target and the target customers.

Based on the data mining, we can finally get the optimization model. The combination of data warehouse model, applied to real life can greatly improve efficiency, in other words, the customer or the company will both benefit lots from this.

Keyword: Data Mining; Decision Tree; CART;Customer

目    录

一、引言 5

(一)论文的研究背景及意义 5

(二)论文的选题目的 5

二、数据挖掘理论 6

(一)数据挖掘基本概念 6

(二)数据挖掘的功能 7

(三)数据挖掘过程 8

三、关于客户分类 8

(一)客户分类的概念 8

(二)微博客户分类的意义 8

(三)微博客户操作流程 9

(四)微博客户分类中的具体应用 9

1.客户现状及问题描述 9

2.研究目标 9

四、CART算法 10

(1)构建树 11

(2)数据预处理 11

(3)CART树的生成 11

(4)树的剪枝 12

(5)CART树的最优选择 14

五、CART算法在新浪微博中的具体应用

上一篇:MATLAB GUI课件设计
下一篇:asp.net+sqlserver求职招聘网站设计+源代码

基于Apriori算法的电影推荐

考证平台静态网页设计与制作

java+mysql通用试题库系统后台设计与实现

数据挖掘在电子商务中的应用

数据挖掘的主题标绘数据获取技术与实现

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

神经外科重症监护病房患...

C#学校科研管理系统的设计

医院财务风险因素分析及管理措施【2367字】

AT89C52单片机的超声波测距...

10万元能开儿童乐园吗,我...

志愿者活动的调查问卷表

中国学术生态细节考察《...

承德市事业单位档案管理...

国内外图像分割技术研究现状

公寓空调设计任务书