信息熵、信息增益、信息增益比「建议收藏」

信息熵、信息增益、信息增益比「建议收藏」信息熵“信息熵”是度量样本集合纯度最常用的一种指标。假定当前样本集合D中第k类样本所占的比例为pk(k=1,2,…,|y|),则D的信息熵定义为:Ent(D)的值越小,则D的纯度越高。如果上面的解释不容易理解,那么下面再通俗地解释一下:首先来看一下信息熵这个公式在数轴上的表示:可以看到,在概率为0.5的时候,信息熵是最大的(为1)。我们可以把信息熵理解为“不确定性”,当概率为0.5…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全家桶1年46,售后保障稳定

信息熵

“信息熵”是度量样本集合纯度最常用的一种指标。假定当前样本集合D中第k类样本所占的比例为pk(k=1,2,…,|y|),则D的信息熵定义为:
在这里插入图片描述
Ent(D)的值越小,则D的纯度越高。

如果上面的解释不容易理解,那么下面再通俗地解释一下:
首先来看一下信息熵这个公式在数轴上的表示:
在这里插入图片描述
可以看到,在概率为0.5的时候,信息熵是最大的,为1。
我们可以把信息熵理解为“不确定性”,当概率为0.5时,比如抛硬币,出现正反两面的概率都是0.5,所以这个事件的不确定性是最大的;当一个事件发生的概率为0或1的时候,那这个事件就是必然事件了,不确定性为0,所以信息熵最低,为0。

信息增益

假定离散属性a有V个可能的取值{a1,a2,a3,…,aV},若使用a来对样本集D进行划分,则会产生V个分支结点,其中第v个分支结点包含了D中所有在属性a上取值为av的样本,记为Dv。我们可根据信息熵的式子计算出Dv的信息熵,再考虑到不同的分支结点所包含的样本数不同,给分支结点赋予权重|Dv|/|D|,即样本数越多的分支结点的影响越大,于是可计算出用属性a对样本集D进行划分所获得的“信息增益”:
在这里插入图片描述
下面来看一个简单的数据集:
在这里插入图片描述
该数据集包含17个训练样例,显然|y|=2,即“好瓜”和“非好瓜”。
正例占p1=8/17,反例占p2=9/17。于是可计算出根结点的信息熵为:
在这里插入图片描述
然后,我们要计算出当前属性集合{色泽,根蒂,敲声,纹理,脐部,触感}中每个属性的信息增益。以属性“色泽”为例,它有3个可能的取值。若使用该属性对D进行划分,则可得到3个子集,分别记为D1(色泽=青绿),有6个样本;D2(色泽=乌黑),有6个样本;D3(色泽=浅白),有5个样本。
则这3个分支结点的信息熵分别为:在这里插入图片描述
于是可计算出属性“色泽“的信息增益为:
在这里插入图片描述
同理,我们可计算出其他属性的信息增益:
在这里插入图片描述
显然,“纹理”的信息增益最大。
这表示什么呢,通俗地讲,就是“纹理”这个属性是最能让我们买到好瓜的一个参照点。

信息增益比

在上面的介绍中,我们有意忽略了“编号”这一列,若把“编号”也作为一个候选划分属性,则可计算出它的信息增益为0.998,远大于其他候选划分属性。这很容易理解:
“编号”将产生17个分支,每个分支结点仅包含一个样本,这些分支结点的纯度已达最大,即分支结点的信息熵为0。
所以不难得出,信息增益准则对可取值数目较多的属性有所偏好,为减少这种偏好可能带来的不利影响,推出“信息增益比”来选择最优划分属性。

信息增益比的定义为:
在这里插入图片描述
其中
在这里插入图片描述
称为属性a的“固有值”。属性a的可能取值数目越多(即V越大),则IV(a)的值通常会越大。通过这种方式,来对可取值数目较多的属性作出惩罚。例如,对该西瓜数据集,有:
IV(触感)=0.874 (V=2),
IV(色泽)=1.580 (V=3),
IV(编号)=4.088 (V=17)。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:http://www.javaforall.cn/234836.html原文链接:http://www.javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • springboot整合websocket

    springboot整合websocket迷你号

  • linux的vim怎么剪切,Linux.vim.多行复制、删除、剪切

    linux的vim怎么剪切,Linux.vim.多行复制、删除、剪切中间件Study-了解什么是中间件一.中间件含义:中间价是位于各种平台(硬件和操作系统)和各种应用之间的通用服务.帮助应用实现高效的.可靠的消息使应用之间实现便捷的互联互通高效.可靠构建企业应用实现分布式应用的快速搭建和部署注:中间…谈谈我印象中的JVM不足之处研究JVM也有一段时间了,其间也发现了它的很多不足之处,在此一一道来,由于本人对JVM的理解有限,如有错误的地方,还请大家指正:本…

  • VM虚拟机桥接模式无法联网解决办法

    VM虚拟机桥接模式无法联网解决办法1.背景介绍:桥接模式—-使虚拟机客户机可以和主机在同一网段,这样,和主机同局域网内的其他主机就也可以ping到虚拟机了;因此,虚拟机设置为桥接模式,且设为静态IP,这样以后就可以方便的使用虚拟机了;2.问题描述:桥接模式之前是好用的,但是主机有一天突然宕机了,重启之后,打开虚拟机,发现主机和虚拟机客户机相互之间ping不通;测试:a.将虚拟机IP获取方式改为自

  • mac如何安装pip_mac怎么卸载python

    mac如何安装pip_mac怎么卸载pythonmac下直接安装pip和卸载pip的方法如下:1、pip的安装:输入sudoeasy_installpip就可以安装pip了。验证pip安装是否成功:输入:pip结果找不到文件。尝试输入:pip3-V或者pip3则说明已经安装成功了。2、pip的卸载:输入命令:sudopipuninstallpip然后输入密码后如下图:输入y,回车。即要卸载pip,再次用pip-V或者pip显示已经找不到文件,即卸载成功了。卸载不再做图片演示。注意:输入p

  • SCL语言_scl语言优势

    SCL语言_scl语言优势西门子SCL语言处理数据的“先进先出”处理案例先进先出,是指根据先入库先发出的原则,对于发出的存货以先入库存货的单价计算发出存货成本的方法。(1)、建立数据(自己设计,自己理解的,如有错误请指教)建立一个DB块,在DB块中建立上面图的数据,“先进”的解释:在名称read的数据写入变量,把名称位read_start的值写为1,read的数据写入下面write/read_no的数组中,反复操作,先进来的数据会排列到数组数据的最上层,依次是后进来的数据。直到把数组填充满而无法写入。“先出”..

  • TIMESTAMPDIFF用法

    TIMESTAMPDIFF用法TIMESTAMPDIFF用法:TIMESTAMPDIFF(interval,datetime_expr1,datetime_expr2)返回日期或日期时间表达式datetime_expr1和datetime_expr2the之间的整数差。mysql>SELECTTIMESTAMPDIFF(MONTH,’2009-12-01′,’2009-09-01′);mysql&gt…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号