决策树（信息熵

2024-07-11 13:22| 来源: 网络整理| 查看: 265

文章目录 1 有以下二分类问题训练样本GINI计算 2 有以下二分类问题数据集。信息增益计算

1 有以下二分类问题训练样本顾客ID性别车型衬衣尺码类1男家用小C02男运动中C03男运动中C04男运动大C05男运动加大C06男运动加大C07女运动小C08女运动小C09女运动中C010女豪华大C011男家用大C112男家用加大C113男家用中C114男豪华加大C115女豪华小C116女豪华小C117女豪华中C118女豪华中C119女豪华中C120女豪华大C1 GINI计算计算整个样本集的GINI指标值ID属性GINI指标值性别属性GINI指标值多路划分属性车型的GINI指标值多路划分属性衬衣的GINI指标值性别、车型、衬衣哪个属性好

以下计算 GINI 公式： G I N I ( D ) = 1 − ∑ i = 1 n p ( i ) 2 GINI(D) = 1-\sum_{i=1}^{n}p(i)^2 GINI(D)=1−i=1∑np(i)2

解答： 1. 整体Gini值：1-(1/2)^2-(1/2)^2 =0.5 2. ID 每个都不一样，与其他人没有共性，所以GINI=0 3. 性别：1-(1/2)^2-(1/2)^2 =0.5 4. 家用： 1-(1/4)2-(3/4)2 = 0.375 运动： 1-(0/8)2-(8/8)2 = 0 豪华： 1-(1/8)2-(7/8)2 = 0.218 车型GINI=4/20*0.375+8/20*0.218 = 0.16252

多路划分属性统计表：

Class衣服种类Class车型小中大加大家用运动豪华C03322C0181C12422C1307 5. 三种尺码GINI系数：小：1-(3/5)2-(2/5)2 = 0.48 中：1-(3/7)2-(4/7)2 = 0.4898 大：1-(2/4)2-(2/4)2 = 0.5 加大：1-(2/4)2-(2/4)2 = 0.5 衬衣GINI：5/20*0.48+7/20*0.4898+4/20*0.5+4/20*0.5 = 0.4914 6. 属性比较：通过上述计算，显然车型不纯度高，更容易划分 2 有以下二分类问题数据集。

左侧为原数据，右侧上下两个表为统计数据

AB类标号统计ATF+A=TA=FTT++40TT+-33TF-TT+FF-FF-统计BFF-B=TB=FTT-+31TF--15 信息增益计算计算按照属性A和B划分时的信息增益。决策树归纳算法将会选择那个属性？计算按照属性A和B划分时GINI指标。决策树归纳算法将会选择那个属性？熵和GINI指标在区间 [0,0.5] 都是单调递增，在区间 [0,0.5] 单调递减。有没有可能信息增益和GINI指标增益支持不同的属性？解释你的理由。

信息熵： E n t r o p y ( A ) = − ∑ i = 1 i p i log ⁡ 2 p i Entropy(A) = -\sum_{i=1}^{i}p_i\log_2p_i Entropy(A)=−i=1∑ipilog2pi （1）划分前样本集的信息熵： E = − 0.4 log ⁡ 2 0.4 − 0.6 log ⁡ 2 0.6 = 0.9710 E = -0.4\log_20.4-0.6\log_20.6 = 0.9710 E=−0.4log20.4−0.6log20.6=0.9710

~~~~~~ E A = T : − 4 7 log ⁡ 2 4 7 − 3 7 log ⁡ 2 3 7 = 0.9852 E_{A=T}:-\frac{4}{7}\log_2 \frac{4}{7}-\frac{3}{7} \log_2 \frac{3}{7} = 0.9852 EA=T:−74log274−73log273=0.9852

~~~~~~ E A = F : − 0 3 log ⁡ 2 0 3 − 3 3 log ⁡ 2 3 3 = 0 E_{A=F}: -\frac{0}{3}\log_2 \frac{0}{3}-\frac{3}{3} \log_2 \frac{3}{3} = 0 EA=F:−30log230−33log233=0

~~~~~~ 按照A属性划分样本集的信息增益： Δ A = E − 7 10 E A = T − 3 10 E A = F \Delta_A = E-\frac{7}{10}E_{A=T}-\frac{3}{10}E_{A=F} ΔA=E−107EA=T−103EA=F = 0.2813

~~~~~~ 同理可得：（恕我偷懒了，网页编辑公式费时） ~~~~~~ 按照B属性划分样本集的信息增益： Δ B = E − 4 10 E B = T − 6 10 E B = F \Delta_B = E-\frac{4}{10}E_{B=T}-\frac{6}{10}E_{B=F} ΔB=E−104EB=T−106EB=F = 0.2565 ~~~~~~ 因此决策树归纳算法选A属性

（2）按照属性A 、B划分样本集 ~~~~~~ 解答：由原数据（左表）和统计A 可得GINI指标：

~~~~~~ G I N I 类标号： G = 1 − ( 4 10 ) 2 − ( 6 10 ) 2 = 0.48 GINI_{类标号}：G =1-(\frac{4}{10})^2-(\frac{6}{10})^2= 0.48 GINI类标号：G=1−(104)2−(106)2=0.48

~~~~~~ G I N I A = T : 1 − ( 4 7 ) 2 − ( 3 7 ) 2 = 0.4898 GINI_{A=T}:1-(\frac{4}{7})^2-(\frac{3}{7})^2 = 0.4898 GINIA=T:1−(74)2−(73)2=0.4898 ~~~~~~ G I N I A = F ： 1 − ( 0 3 ) 2 − ( 3 3 ) 2 = 0 GINI_{A=F}：1-(\frac{0}{3})^2-(\frac{3}{3})^2 = 0 GINIA=F：1−(30)2−(33)2=0

GINI 增益: E A = G I N I 类标号 − 7 10 G I N I A = T − 3 10 G I N I A = F = 0.1371 E_A = GINI_{类标号}-\frac{7}{10}GINI_{A=T}- \frac{3}{10}GINI_{A=F} = 0.1371 EA=GINI类标号−107GINIA=T−103GINIA=F=0.1371

由统计B（右下表）可得：

~~~~~~ G I N I B = T ： 1 − ( 3 4 ) 2 − ( 1 4 ) 2 = 0.3750 GINI_{B=T}：1-(\frac{3}{4})^2-(\frac{1}{4})^2 = 0.3750 GINIB=T：1−(43)2−(41)2=0.3750 ~~~~~~ G I N I B = F ： 1 − ( 1 6 ) 2 − ( 5 6 ) 2 = 0.2778 GINI_{B=F}：1-(\frac{1}{6})^2-(\frac{5}{6})^2 = 0.2778 GINIB=F：1−(61)2−(65)2=0.2778

GINI 增益: E B = G I N I 类标号 − 4 10 G I N I B = T − 6 10 G I N I B = F = 0.1633 E_B = GINI_{类标号} - \frac{4}{10}GINI_{B=T}- \frac{6}{10}GINI_{B=F} = 0.1633 EB=GINI类标号−104GINIB=T−106GINIB=F=0.1633 ~~~~~~ 因此决策树归纳算法选B属性

（C）：信息增益考察的是特征对整个数据贡献，没有到具体的类别上，所以一般只能用来做全局的特征选择 Gini系数是一种与信息熵类似的做特征选择的方式，用来数据的不纯度。在做特征选择的时候，我们可以取ΔGini(X)最大的那个。

【本文地址】

决策树（信息熵

决策树（信息熵

今日新闻

推荐新闻