(完整版)生物数据挖掘

您所在的位置:网站首页 csgo准星bug (完整版)生物数据挖掘

(完整版)生物数据挖掘

#(完整版)生物数据挖掘| 来源: 网络整理| 查看: 265

实验四

 

决策树

 

一、

 

实验目的

 

1.

 

了解典型决策树算法

 

2.

 

熟悉决策树算法的思路与步骤

 

3.

 

掌握运用

Matlab

对数据集做决策树分析的方法

 

 

二、

 

实验内容

 

1.

运用

Matlab

对数据集做决策树分析

 

 

三、

 

实验步骤

 

 

1.

写出对决策树算法的理解

 

决策树方法是数据挖掘的重要方法之一,

它是利用树形结构的特性来对数据进行分类的

一种方法。

决策树学习从一组无规则、

无次序的事例中推理出有用的分类规则,

是一种实例

为基础的归纳学习算法。

决策树首先利用训练数据集合生成一个测试函数,

根据不同的权值

建立树的分支,

即叶子结点,

在每个叶子节点下又建立层次结点和分支,

如此重利生成决策

树,然后对决策树进行剪树处理,最后把决策树转换成规则。

决策树的最大优点是直观,以

树状图的形式表现预测结果,

而且这个结果可以进行解释。

决策树主要用于聚类和分类方面

的应用。

 

决策树是一树状结构,

它的每一个叶子节点对应着一个分类,

非叶子节点对应着在某个

属性上的划分,

根据样本在该属性上的不同取值将其划分成若干个子集。

构造决策树的核心

问题是在每一步如何选择适当的属性对样本进行拆分。

对一个分类问题,

从已知类标记的训

练样本中学习并构造出决策树是一个自上而下分而治之的过程。

 

 

2.

启动

Matlab

,运用

Matlab

对数据集进行决策树分析,写出算法名称、数据集名称、关键

代码,记录实验过程,实验结果,并分析实验结果

 

(1)

 

算法名称

: ID3

算法

 

ID3

算法是最经典的决策树分类算法。

ID3

算法基于信息熵来选择最佳的测试属性,它

选择当前样本集中具有最大信息增益值的属性作为测试属性;

样本集的划分则依据测试属性

的取值进行,

测试属性有多少个不同的取值就将样本集划分为多少个子样本集,

同时决策树

上相应于该样本集的节点长出新的叶子节点。

ID3

算法根据信息论的理论,采用划分后样本

集的不确定性作为衡量划分好坏的标准,

用信息增益值度量不确定性:

信息增益值越大,

确定性越小。因此,

ID3

算法在每个非叶节点选择信息增益最大的属性作为测试属性,这样

可以得到当前情况下最纯的划分,从而得到较小的决策树。

 

ID3

算法的具体流程如下:

 

 

1

)对当前样本集合,计算所有属性的信息增益;

 

 

2

)选择信息增益最大的属性作为测试属性,把测试属性取值相同的样本划为同一个子样本

集;

 

 

3

)若子样本集的类别属性只含有单个属性,则分支为叶子节点,判断其属性值并标上相应

的符号,然后返回调用处;否则对子样本集递归调用本算法。

 

 

(2)

 

数据集名称:鸢尾花卉

Iris

数据集

 

选择了部分数据集来区分

Iris Setosa

(山鸢尾)

Iris Versicolour

(杂色鸢尾)

两个种类。

 



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3