决策树原理及其应用[通俗易懂]

全栈程序员-用户IM • 2022年9月7日下午9:46 • 未分类

决策树原理及其应用[通俗易懂]决策树原理及其应用决策树的原理我们先构造一颗简单的决策树来玩一玩。举一个不恰当的例子：小明过年回家，老妈催着他结婚，帮着张罗相亲对象。有三个女孩的资料（简称A、B、C）。关于A:小明问:”身材好吗？”，妈妈说：“好！”，小明说：“见一面”关于B:小明问:”身材好吗？”，妈妈说：“不好！”，小明又问：“漂亮吗？”，妈妈说：“漂亮！”，小明说：“见一面”关于C:

大家好，又见面了，我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元售后保障童叟无欺

决策树原理及其应用

##决策树的原理
我们先构造一颗简单的决策树来玩一玩。举一个不恰当的例子：小明过年回家，老妈催着他结婚，帮着张罗相亲对象。有三个女孩的资料（简称A、B、C）。
关于A:
小明问:“身材好吗？”，妈妈说：“好！”，小明说：“见一面”
关于B:
小明问:“身材好吗？” ，妈妈说：“不好！”，小明又问：“漂亮吗？”，
妈妈说：“漂亮！”，小明说：“见一面”
关于C:
小明问:“身材好吗？” ，妈妈说：“不好！”，小明又问：“漂亮吗？”，妈妈说：“不漂亮”，小明又问：“会写代码吗？”，妈妈说：“会”，小明说：“见一面”。

我们构造出小明相亲的决策树如下：
相亲决策树
在这里优先级顺序是身材 > 颜值 > 编程能力。这个时候就会疑惑，这个“优先级”是怎么决定的呢？在决定是否去相亲的因素有很多，工作地点的距离（我编不出来了）etc…，我们是否要每一个因素都去考虑？如果你有这方面的疑惑，恭喜你！如果在1984，提出CART算法的人可能不是Breiman了。这三个问题涉及到决策树中的特征选择，决策树的生成，决策树的修剪，一堆扯淡的引入到此为止。

下面是某相亲网上约会成功的数据：

ID	年龄	工作	有房	颜值	类别
1	青年	否	否	一般	否
2	青年	否	否	好	否
3	青年	是	否	好	是
4	青年	是	是	一般	是
5	青年	否	否	一般	否
6	中年	否	否	一般	否
7	中年	否	否	好	否
8	中年	是	是	好	是
9	中年	否	是	非常好	是
10	中年	否	是	非常好	是
11	老年	否	是	非常好	是
12	老年	否	是	好	是
13	老年	是	否	好	是
14	老年	是	否	非常好	是
15	老年	否	否	一般	否

以上数据改编自李航《统计学习方法》

特征选择
特征选择是根据所给数据来决定用哪个特征来对数据进行分类，当然是按特征的分类能力强弱来对数据进行分类，下面我们来讲一讲如何评判特征的分类能力。
先看一看是否有房这一栏和类别的关系，在有房的情况下，类别为是的一共有6组数据;在没有房的情况下，类别为否的一共有6组数据，是否有房和是否约会成功一致的一共有12组数据。再看一看是否有工作和是否约会成功一致的数据，发现一共有11组数据。“12>11”感觉上“是否有房子”比“是否有工作”的分类能力要强一些，到底是不是这样呢？下面我们用精确的数学语言来解释一下。
我们这里引入三个信息论的概念熵、条件熵、信息增益、信息增益比。
熵表示随机变量不确定性的度量。设 $X$ 是一个取有限个值的随机变量，其分布为: $P(X = x_i) = p_i , i=1,2,…,n$
则随机变量 $X$ 的熵定义为:
$H(X)=-\sum_{i=1}^{n}p_ilogp_i$

例子: 随机变量是年龄
$P(x_1= 青年) = \frac{5}{15}; P(x_2 = 中年) = \frac{5}{15};P(x_3 = 老年) = \frac{5}{15} $
$-(\frac{5}{15}log\frac{5}{15}+\frac{5}{15}log\frac{5}{15}+\frac{5}{15}log\frac{5}{15})$

**条件熵 ** $H (Y ∣ X)$ 表示在已知随机变量 $X$ 的条件下随机变量 $Y$ 的不确定性，定义为:
$\sum_{i=1}^np_i H(Y|X=x_i)$ ,这里$ p_i=P(X = x_i) , i=1,2,…,n$

例子：随机变量 $Y$ 为类别，随机变量 $X$ 为年龄

$H(Y|X)=\frac{5}{15}H(Y|x_1=青年)+\frac{5}{15}H(Y|x_2=中年)+\frac{5}{15}H(Y|x_3=老年)$

$H(Y|x_1=青年) =- \sum _{i=1}^{n}p(x=青年，y_i)logp(y_i|x=青年)$
$H(Y|x_1=中年) =- \sum _{i=1}^{n}p(x=中年，y_i)logp(y_i|x=中年)$
$H(Y|x_1=老年) = -\sum _{i=1}^{n}p(x=老年，y_i)logp(y_i|x=老年)$

$H(Y|x_1=青年)=-\frac{3}{5}log\frac{3}{5}-\frac{2}{5}log\frac{2}{5}$
$H(Y|x_2=中年)=-\frac{2}{5}log\frac{2}{5}-\frac{3}{5}log\frac{3}{5}$
$H(Y|x_3=老年)=-\frac{1}{5}log\frac{1}{5}-\frac{4}{5}log\frac{4}{5}$

$H(Y|X)=\frac{5}{15}H(Y|x_1=青年)+\frac{5}{15}H(Y|x_2=中年)+\frac{5}{15}H(Y|x_3=老年) \approx0.888$

信息增益 $即是 g (Y, X) = H (Y) - H (Y ∣ X), g (Y, X) 为特征 X 的信息增益$
终于讲完了这三个概念，我们一起来算一算 $g(Y,X_1),g(Y,X_2)$ ，其中 $X_1是特征是否有房子，X_2是特征是否有工作$ 。
$g(Y,X_1)=H(Y)-H(Y|X_1)$
$H(Y)=-\frac{9}{15}log\frac{9}{15}-\frac{6}{15}log\frac{6}{15}=0.971$
$H(Y|X_1)=\frac{10}{15}H(Y|x_1=否)+\frac{5}{15}H(Y|x_2=是)$
$H(Y|x_1=否)=-\frac{6}{10}log\frac{6}{10}-\frac{4}{10}log\frac{4}{10}$
$H(Y|x_2=是)=-\frac{5}{5}log\frac{5}{5}$
$H(Y|X_1)=\frac{10}{15}(-\frac{6}{10}log\frac{6}{10}-\frac{4}{10}log\frac{4}{10})+\frac{5}{15}×0$
$g(Y|X_1)=0.971-[\frac{10}{15}(-\frac{6}{10}log\frac{6}{10}-\frac{4}{10}log\frac{4}{10})+\frac{5}{15}×0]=0.324$

$g(Y,X_2)=H(Y)-H(Y|X_2)$
$H(Y|X_2)=\frac{9}{15}H(Y|x_1=否)+\frac{6}{15}H(Y|x_2=是)$
$H(Y|x_1=否)=-\frac{6}{9}log\frac{6}{9}-\frac{3}{9}log\frac{3}{9}$
$H(Y|x_2=是)=-\frac{6}{6}log\frac{6}{6}$
$H(Y|X_2)=\frac{9}{15}(-\frac{6}{9}log\frac{6}{9}-\frac{3}{9}log\frac{3}{9})+\frac{6}{15}(-\frac{6}{6}log\frac{6}{6})$
$g(Y|X_2)=0.971-[\frac{9}{15}(-\frac{6}{9}log\frac{6}{9}-\frac{3}{9}log\frac{3}{9})+\frac{6}{15}(-\frac{6}{6}log\frac{6}{6})]=0.420$

这里 $g(Y|X_1)<g(Y|X_2)$ 所以特征“是否有房子”的分类能力强于“是否有工作”，然后按给出的方法计算出每一个特征的增益值，就可以进行下一步啦。
信息增益比
特征 $A$ 对训练数据集 $D$ 的信息增益比 $g_R(D,A)$ 定义为其信息增益 $g (D, A)$ 与训练数据集 $D$ 关于特征 $A$ 的值的熵 $H_A(D)$ 之比，即
$g_R(D,A)=\frac{g(D,A)}{H_A(D)}$
其中 $H_A(D)=-\sum_{i=1}^n\frac{|D_i|}{|D|}log_2\frac{|D_i|}{|D|}$ ，其中 $n 是特征 A 取值的个数$
2. 决策树生成
在sklearn中介绍了三种决策树生成算法ID3、C4.5、C5.0、CART，我们简单介绍一下这几中算法的原理。

输入：训练数据集 $D$ ,特征集 $A$ ，阈值 $\epsilon$
输出：决策树T

ID3:
（1）如果数据集中所有实例都属于同一类 $C_k$ （ $y_i,i=1,2,..,n$ ， $y_i=C_k$ ），则 $T$ 为单节点树，并将类 $C_k$ 作为该节点的标记，返回 $T$ ;
（2）如果 $\varnothing$ ，则 $T$ 为单节点树，并将 $D$ 中实例数的最大类 $C_k$ 作为该节点的标记，返回 $T$ ;
（3）否则，计算 $A$ 中各特征对 $D$ 的信息增益，选择信息增益最大的特征 $A_g$ ;
（4）如果 $A_g$ 的信息增益小于阈值 $\epsilon$ ,则 $T$ 为单节点树，并将 $D$ 中实例数的最大类 $C_k$ 作为该节点的标记，返回 $T$ ;
（5）否则，对 $A_g$ 的每一可能值 $a_i$ ,依 $A_g=a_i$ 将 $D$ 分割为若干非空子集 $D_i$ ，将 $D_i$ 中实例数最大的类作为标记，构建子节点，由节点及其子节点构成树 $T$ ，返回 $T$ .
（6）对第 $i$ 个子节点，以 $D_i$ 为训练集，以 $A-{A_g}$ 为特征集，递归地调用(1)~(5)，得到子树 $T_i$ ，返回 $T_i$ 。

C4.5
C4.5和ID3类似，只在特征选择上不同，其他都是一样的，ID3用信息增益来选择特征，而C4.5用信息增益比来选择特征。C4.5是ID3的改进，既然是改进，说明信息增益比作为特征选择的比信息增益更合理。大概是因为信息增益趋向于选择取值比较多的特征。具体原因在这里

C5.0
在C4.5的基础上有所改进，它不是开源的。这里说它的运行速度比C4.5更快，所需要的内存比C4.5更小，和C4.5很相似，不过C5.0会建立更多的深度较小的决策树，在同样的数据集下的准确率和C4.5类似，等等。

CART
建议先看完决策树剪枝，在来看CART算法

3.决策树剪枝
不想写了。。。。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/196133.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

全栈程序员-用户IM

0 0

linux fusion io简介,linux – 收集FusionIO库存

linux fusion io简介,linux – 收集FusionIO库存我需要编写一个脚本,从Linux服务器收集FusionIO驱动器的库存数据.我能找到的唯一方法是fio-status实用程序,但它的目的是输出人类可读的文本,而不是机器可解析的文本.我可以刮它,但那很脏.我检查/proc/fusion但它没有足够的信息可供任何使用.我希望有更好的方法,可以通过某种方式与libiodrivesdk.so或已经存在的实用程序进行交互来完成这项工作.我最初使用的是…

全栈程序员-用户IM
2022年10月22日
重启MySQL服务(怎么重启mysql服务)

重启MySQL服务(怎么重启mysql服务)一、MYSQL服务我的电脑——(右键)管理——服务与应用程序——服务——MYSQL——开启(停止、重启动)二、命令行方式Windows1.点击“开始”->“运行”(快捷键Win+R)。2.启动：输入netstopmysql3.停止：输入netstartmysql提示*RedhatLinux也支持servicecommand，启动：#servicemysqldstar…

全栈程序员-用户IM
2022年4月18日
0xc0000225无法进系统_win10系统出现0xc0000225无法进入系统的恢复方法

0xc0000225无法进系统_win10系统出现0xc0000225无法进入系统的恢复方法win10系统出现0xc0000225无法进入系统的恢复方法?win10系统有很多人都喜欢使用,我们操作的过程中常常会碰到win10系统出现0xc0000225无法进入系统的问题。如果遇到win10系统出现0xc0000225无法进入系统的问题该怎么办呢？很多电脑水平薄弱的网友不知道win10系统出现0xc0000225无法进入系统究竟该怎么解决？其实不难根据下面的操作步骤就可以解决问题　第一步、…

全栈程序员-用户IM
2022年6月26日
java转换字符串为时间_JAVA字符串转日期或日期转字符串

java转换字符串为时间_JAVA字符串转日期或日期转字符串文章中，用的API是SimpleDateFormat，它是属于java.text.SimpleDateFormat，所以请记得import进来！用法：SimpleDateFormatsdf=newSimpleDateFormat(“yyyy-MM-ddHH:mm:ss”);这一行最重要，它确立了转换的格式，yyyy是完整的公元年，MM是月份，dd是日期，至于HH:mm:ss…

全栈程序员-用户IM
2022年5月6日
科技

【转】物业管理与移动互联网科技|微信公众平台,物业app,物业O2O[通俗易懂]

【转】物业管理与移动互联网科技|微信公众平台,物业app,物业O2O[通俗易懂]【导语】当下，物业管理行业正在接受新科技浪潮的冲击和洗礼，业界企业纷纷探索物业服务的新发展模式。云服务、微社区、微信公众平台、app等，这些本来陌生的词汇在物业管理行业变得耳熟能详。在借助科技手段拓展多种经营，提升竞争力、增加创富能力、开展信息化建设和管理的同时，部分物业服务企业的发展模式和理念又提升了一大步，现代科技推动物业管理行业发展正在成为现实。第一部分：移动互联网改变传统物业管…

全栈程序员-用户IM
2022年6月22日
加密狗android,Android系统加密狗的设计与实现

加密狗android,Android系统加密狗的设计与实现摘要：随着IT产业的迅猛发展,软件作为IT产业中的一项重要产品,现在已经随着电脑进入千家万户,深入到用户生活中的每个地方。但是针对软件,有一个问题一直存在,那就是软件盗版的问题。随着软件影响范围的扩大,盗版软件带来的危害也是越发的严重。另外,智能手机也已经进入一个高速发展期,Android系统手机在智能手机市场中占据很大的一块份额。在这样的背景下,本文提出一种使用Android系统手机对软件进行…

全栈程序员-用户IM
2022年5月13日

决策树原理及其应用[通俗易懂]

决策树原理及其应用

相关推荐

linux fusion io简介,linux – 收集FusionIO库存

重启MySQL服务(怎么重启mysql服务)

0xc0000225无法进系统_win10系统出现0xc0000225无法进入系统的恢复方法

java转换字符串为时间_JAVA字符串转日期或日期转字符串

【转】物业管理与移动互联网科技|微信公众平台,物业app,物业O2O[通俗易懂]

加密狗android,Android系统加密狗的设计与实现

发表回复