第二种是一种整体的思想,先让决策树生长,然后重观全局,对每一个节点都充分考虑,保留好的,对于不好的节点删掉后,拼接节点两头,使其完整。

下面来介绍一下决策树的优缺点。

优点:

1、决策树是一种通俗易懂的方法,一般不怎么需要了解它的历史发展,它能很直观地表现出我们使用的一连串数字的特点,即使看不懂,旁人稍微指点一下,就能够了解你所要的数据所表达的意思。

2、而且在使用决策树的过程中,你不用花心思去想哪些数据源好。它能够处理很多数据类型,并且效率很高,且准确率也很好。

3、决策树是通过静态的方法来测试对象的。这表明很容易得出对应的公式。

缺点:

1、很难预测出一连串的字段

2、要对根据时间排序的数据做预处理,工作量很大

3、不能处理过多的数据。这是因为如果前面产生错误,不会消失。这样会影响后面的程序。

4、它和普通的算法不同。它必须找出有特征的字眼来进行事物的区分。

决策树能构造一组特殊的有意义的数据。并用此来创造一棵二叉树。这种树通常通过其节点来做一下思维上的判断。然后它把分支当成是判断的不同结果。多叉树和二叉树类似。只不过它的分叉比较多,这决定了它所代表的事物的特点也比较多。但不排除这样的后果是很多特点是有相同特征的,所以必须对多叉树进行一定的改进,优化算法。解决这类问题的方法有:

1、尽量减小叶节点的深度言论文网

2、减少叶节点的数量

接下来介绍一下决策树中一种高效的算法——分类与回归树,它不需要参数和回归方程就可以进行预测。

分类与回归树目前已经在很多数据挖掘的领域使用了。它的使用和二叉树类似,比普通的算法准确度要高很多,而且随着数据的繁琐,它的优势就越大。在使用分类与回归树时,大多情况下要控制变量,即遵循单变量不同的原则,通过不断改变这个变量的值来分析和预测结果,然后再换取变量,重复操作。

2。2 随机森林算法 

随机森林就是一种决策树的加强版。它通过构造多棵决策树来判断结果。一棵决策树可以学到很复杂的规则。然而,很可能会导致过拟合问题。学到的规则只适用于训练集。解决方法之一就是调整决策树算法,限制它所学到的规则的数量。例如,把决策树的深度限制在三层,只让它学习从全局角度拆分数据集的最佳规则,不让它学习适用面很窄的特定规则,这些规则会将数据集进一步拆分为更加细致的群组。使用这种特殊的方案得到的决策树更容易处理实际问题。但同时也暴露出一个问题:它的表现力弱。

为了弥补上述方法的不足,我们可以创建多棵决策树,用它们分别进行预测,再根据少数服

从多数的原则从多个预测结果中选择最终预测结果。这正是随机森林的工作原理。

但上述过程有两个问题。一是创建的多棵决策树在很大程度上是相同的。我们只有一个训练集,如果尝试创建多棵决策树,它们的输入就可能 相同(因此输出也相同)。解决的办法是,分多次抓取。而且每次抓取都保证随机性。用选出来的数据去训练决策树。这个过程叫做装袋。

第二点是用于前几个决策节点的特征非常突出。。即使我们随机选取部分数据用作训练

集,创建的决策树相似性仍旧很大。解决方法是,随机选取部分特征作为决策依据。

下面来介绍一下算法:

上一篇:基于消费者个性特征的化妆品网站网页设计的研究
下一篇:基于网络的通用试题库系统的研究与实现数据库的设计与前端开发

基于Apriori算法的电影推荐

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

基于网络的通用试题库系...

基于消费者个性特征的化...

基于网络的通用试题库系统的整体规划与设计

深度学习基于内容的图像检索

LiMn1-xFexPO4正极材料合成及充放电性能研究

老年2型糖尿病患者运动疗...

麦秸秆还田和沼液灌溉对...

ASP.net+sqlserver企业设备管理系统设计与开发

安康汉江网讯

张洁小说《无字》中的女性意识

网络语言“XX体”研究

我国风险投资的发展现状问题及对策分析

新課改下小學语文洧效阅...

互联网教育”变革路径研究进展【7972字】