信息熵和基尼系数_信息熵和基尼系数

信息熵和基尼系数_信息熵和基尼系数一、基尼系数是什么?1)定义    下面是摘自李航《统计学习方法》中基尼系数的定义,非常清晰。2)基尼系数有什么意义?    我们可以先来看一组数据X的取值 方案一 方案二 方案三 方案四 P的平方 方案一 方案二 方案三 方案四类别一 0.9 0.5 0.4 0.2 p1^2 0.81 0.25 0.16 0.04类别二 0.1 0.5 0.3 0.2 p2^2 0.01 0.25 0.09 0…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

一、基尼系数是什么?

1)定义

    下面是摘自李航《统计学习方法》中基尼系数的定义,非常清晰。

信息熵和基尼系数_信息熵和基尼系数

2)基尼系数有什么意义?
    我们可以先来看一组数据

X的取值 方案一 方案二 方案三 方案四 P的平方 方案一 方案二 方案三 方案四
类别一 0.9 0.5 0.4 0.2 p1^2 0.81 0.25 0.16 0.04
类别二 0.1 0.5 0.3 0.2 p2^2 0.01 0.25 0.09 0.04
类别三 0 0 0.3 0.2 p3^2 0 0 0.09 0.04
类别四 0 0 0 0.2 p4^2 0 0 0 0.04
类别五 0 0 0 0.2 p5^2 0 0 0 0.04
基尼系数 0.18 0.5 0.66 0.8 总和 0.82 0.5 0.34 0.2
总和 1 1 1 1 基尼系数 0.18 0.5 0.66 0.8

信息熵和基尼系数_信息熵和基尼系数

    由上图我们可以观察到,类别的个数是 方案一(2个) < 方案三(3个) < 方案四(4个) ,基尼系数为 方案一 < 方案三 < 方案四;而方案一和方案二类别个数相同,但方案一的类别集中度比方案二要高,而基尼系数为  方案一  <  方案二

    基尼系数的特质是:
1) 类别个数越少,基尼系数越低;    
2)类别个数相同时,类别集中度越高,基尼系数越低。
当类别越少,类别集中度越高的时候,基尼系数越低;当类别越多,类别集中度越低的时候,基尼系数越高。
【类别集中度是指类别的概率差距,0.9+0.1的概率组合,比起0.5+0.5的概率组合集中度更高】

二、熵


1)熵是什么?

下面是摘自李航《统计学习方法》中熵的定义。

信息熵和基尼系数_信息熵和基尼系数

2)怎样理解熵的意义?
我们可以先来看一组数据

X的取值 方案一 方案二 方案三 方案四 P的平方 方案一 方案二 方案三 方案四
类别一 0.9 0.5 0.4 0.2 p1*(-lnp1) 0.09 0.35 0.37 0.32
类别二 0.1 0.5 0.3 0.2 p2*(-lnp2) 0.23 0.35 0.36 0.32
类别三 0 0 0.3 0.2 p3*(-lnp3) 0.00 0.00 0.36 0.32
类别四 0 0 0 0.2 p4*(-lnp4) 0.00 0.00 0.00 0.32
类别五 0 0 0 0.2 p5*(-lnp5) 0.00 0.00 0.00 0.32
0.82 0.50 0.34 0.20 0.82 0.50 0.34 0.20 

信息熵和基尼系数_信息熵和基尼系数

 可以看到,这幅图跟基尼系数的图是差不多的。也就是熵和基尼系数都有着类似的特质,它们都可以用来衡量信息的不确定性。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/183334.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • 关于getchar的用法及实例解析

    关于getchar的用法及实例解析getchar——读取字符的函数intgetchar(void)返回类型为int,参数为void.有人可能会有疑惑,getchar既然是读取字符的,为什么返回类型是int呢?1、getchar其实返回的是字符的ASCII码值(整数)。2、getchar在读取结束或者失败的时候,会返回EOF。EOF意思是endoffile,本质上是-1.下面我们一起来看看下面这段代码什么意思#include<stdio.h>intmain(){ intch=0; wh

    2022年10月19日
  • javascript性能优化_javascript框架是什么

    javascript性能优化_javascript框架是什么即使是循环中最快的代码,累计迭代上千次也会慢下来。此外,循环体运行时也会带来小性能开销,不仅仅是增加了总体运行时间。减少迭代次数能获得更加显著的性能提升,最广为人知的一种限制循环迭代次数的模式被称为“达夫设备(Duff’sDevice)”。Duff’sDevice是一种循环体展开技术,它使得一次迭代中实际执行了多次迭代的操作。一个典型的实现如下:

  • Java文件是如何编译成Dex文件的?如何执行Dex文件?「建议收藏」

    Java文件是如何编译成Dex文件的?如何执行Dex文件?「建议收藏」本文将介绍Dex文件,以及Java文件如何生成Dex文件的?最后介绍Dex文件通过什么方式来执行?

  • 第11章 多线程「建议收藏」

    第11章 多线程「建议收藏」第11章 多线程

  • python win32api.shellexecute_socket send函数

    python win32api.shellexecute_socket send函数记事本的主窗口中还有一个窗口,您需要向它发送消息。您可以使用MicrosoftSpy++工具查看此“隐藏”窗口,也可以获取所有子窗口,如下所示:defcallback(hwnd,hwnds):ifwin32gui.IsWindowVisible(hwnd)andwin32gui.IsWindowEnabled(hwnd):hwnds[win32gui.GetClassName(hwnd…

    2022年10月11日
  • linux命令行与shell脚本编程大全和鸟哥的私房菜_linux进入命令行

    linux命令行与shell脚本编程大全和鸟哥的私房菜_linux进入命令行一、基本bashshell命令创建文件:touch链接文件:符号链接:是一个实实在在的文件,两个通过符号链接在一起的文件,彼此的内容并不相同。使用ln-s命令。硬链接:会创建独立的虚拟文件,其中包含了原始文件的信息及位置。但他们从根本上而言是同一个文件。原始文件必须事先存在,使用ln命令。查看文件类型:file查看整个文件:cat,more,less…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号