基尼系数简单算法举例说明_趣学python算法100例

基尼系数简单算法举例说明_趣学python算法100例1912年意大利经济学家基尼,设计了一个测度社会贫富差距的方法沿用至今,成为国际通用的标准。文章中通过python,公式法以及面积法计算2008年美国收入情况的基尼系数。并补充列表推导式相关介绍使用。

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

前些天听了南京大学周耿老师关于“基尼系数计算”的直播课,需要时间好好消化,便有了整理此篇文章的想法。

1 基尼系数

1.1 简介

1912年意大利经济学家基尼,设计了一个测度社会贫富差距的方法沿用至今,成为国际通用的标准。

基尼系数最大为“1”,最小等于“0”。基尼系数越接近0表明收入分配越是趋向平等。国际上并没有一个组织或教科书给出最适合的基尼系数标准。但有不少人认为基尼系数小于0.2时,居民收入过于平均,0.2-0.3之间时较为平均,0.3-0.4之间时比较合理,0.4-0.5时差距过大,大于0.5时差距悬殊。
在这里插入图片描述

世界部分国家基尼系数排行1970-2019

1.2 定义

基尼系数有好几种定义方式,老师在课上公式法中运用的是下面第二张图中的公式,还有其他的一些公式,感兴趣的也可以自己通过代码实现,用来对比不同算法之间的差异。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-F2mfW2uU-1625838881521)(【0701】python基尼系数计算实践(案例+代码).assets/image-20210709205553354.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1YZG6aNE-1625838881541)(【0701】python基尼系数计算实践(案例+代码).assets/image-20210709205651303.png)]

2 实践

2.1 公式法

G = ∑ i = 1 n ∑ j = 1 n ∣ x i − x j ∣ 2 ∑ i = 1 n ∑ j = 1 n x j = ∑ i = 1 n ∑ j = 1 n ∣ x i − x j ∣ 2 n ∑ i = 1 n x i G=\frac{\sum_{i=1}^{n} \sum_{j=1}^{n}\left|x_{i}-x_{j}\right|}{2 \sum_{i=1}^{n} \sum_{j=1}^{n} x_{j}}=\frac{\sum_{i=1}^{n} \sum_{j=1}^{n}\left|x_{i}-x_{j}\right|}{2 n \sum_{i=1}^{n} x_{i}} G=2i=1nj=1nxji=1nj=1nxixj=2ni=1nxii=1nj=1nxixj

代码如下:

def gini(L):
    s1=0  #分子
    s2=0  #分母
    for i in L:
        s2+=2*len(L)*i
        for j in L:
            s1+=abs(i-j)
    return s1/s2

gini(r)   # 这里的r是老师通过random模块paretovar()方法构造的帕累托分布,大家也可以自己生成数据测试代码效果

我们同样用美国2008年收入数据来检验下公式法。

代码如下:

#生成列表,带入函数计算
df=pd.read_csv('usa_income.csv')
L=[]
for i in df.index:
    L=L+[ df.loc[i,'income'] for j in range(int(df.loc[i,'people']/10000))] #列表推导式
gini(L)
# out:0.5979213459691597

2.2 估算美国2008年基尼系数

2.2.1 读取数据并计算

代码如下:

#读取数据
df=pd.read_csv('usa_income.csv')
df['all_income']=df['people']*df['income']
df['people_cum']=df['people'].cumsum()
df['people_ratio']=df['people']/df['people'].sum()*100
df['people_ratio_cum']=df['people_cum']/df['people_cum'].max()*100
df['all_income_cum']=df['all_income'].cumsum()
df['Lorenz curve']=df['all_income_cum']/df['all_income_cum'].max()*100 #洛伦茨曲线
df

效果如图:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7dN2u6uv-1625838881543)(【0701】python基尼系数计算实践(案例+代码).assets/image-20210709212335453.png)]

2.2.2 画洛伦兹曲线

代码如下:

df['avg']=df['people_ratio_cum']  #绝对平均线
df.plot(x='people_ratio_cum', y=['Lorenz curve','avg']) #画图

效果如图:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ULIpAvvZ-1625838881548)(【0701】python基尼系数计算实践(案例+代码).assets/image-20210709213234571.png)]

2.2.3 按图形面积计算
#面积A+B=100*100*0.5=5000
#面积B
s=0
for i in df.index[1:]:
    people1=df.loc[i-1,'Lorenz curve'] #梯形的下底
    people2=df.loc[i,'Lorenz curve'] #梯形的上底
    people_ratio=df.loc[i,'people_ratio']
    s+=(people1+people2)*people_ratio*0.5
Gini=round((100*100*0.5-s)/(100*100*0.5),8) # 三角形的面积好求,洛伦兹曲线计算需要思考
Gini    # 计算结果为:0.60257495

不难发现,公式法与面积法计算结果还是比较接近的。

3 列表推导式与条件赋值

学习pandas,列表推导式最好一并掌握。

在生成一个数字序列的时候,在 Python 中可以如下写出:

L = []
def my_func(x):
    return 2*x
for i in range(5):
   L.append(my_func(i))
L
# Out: [0, 2, 4, 6, 8]

事实上可以利用列表推导式进行写法上的简化: [* for i in *] 。其中,第一个 * 为映射函数,其输入为后面 i 指代的内容,第二个 * 表示迭代的对象。

[my_func(i) for i in range(5)]
# Out:[0, 2, 4, 6, 8]

列表表达式还支持多层嵌套,如下面的例子中第一个 for 为外层循环,第二个为内层循环:

[m+'_'+n for m in ['a', 'b'] for n in ['c', 'd']]
# out:['a_c', 'a_d', 'b_c', 'b_d']

除了列表推导式,另一个实用的语法糖是带有 if 选择的条件赋值,其形式为 value = a if condition else b

value = 'cat' if 2>1 else 'dog'
value

# out: 'cat'

等价于如下的写法:

a, b = 'cat', 'dog'
condition = 2 > 1 # 此时为True
if condition:
    value = a
else:
    value = b

下面举一个例子,截断列表中超过5的元素,即超过5的用5代替,小于5的保留原来的值:

L = [1, 2, 3, 4, 5, 6, 7]
[i if i <= 5 else 5 for i in L]

# out:[1, 2, 3, 4, 5, 5, 5]

References

基尼系数_百度百科 (baidu.com)

How Has the Literature on Gini’s IndexEvolved in the Past 80 Years?

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/182346.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • Linux基础_vim命令

     使用过LINUX操作系统的人应该都知道vim命令可以编写文本,对于没有接触过的同学通过以下介绍就可以轻松学会vim命令的使用方法。1.vim的工作模式 vim有三种工作模式,分别为命令模式,插入模式和退出模式。命令模式下不能编辑文本,通过i进入插入模式进行编辑,编辑完成后通过Esc键进入命令模式,在命令模式下输入:wq进行保存退出,其中w表示保存,q表示退出。2.vim常用工作参…

  • Jenkins的详细安装及使用

    Jenkins的详细安装及使用操作环境:Windows一、环境准备1安装JDK&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;nbsp;本文采用jdk-8u111-windows-x64.exe;2配置tomcat&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;nbs

  • ffmpeg 安装(支持h.265)

    ffmpeg 安装(支持h.265)安装FFMPEG需要的所有组件sudoapt-getupdatesudoapt-get-yinstallautoconfautomakebuild-essentiallibass-devlibfreetype6-dev\libsdl2-devlibtheora-devlibtoollibva-devlibvdpau-devlibvorbis-devl…

  • 极兔速递电子面单API接口-快递鸟[通俗易懂]

    极兔速递电子面单API接口-快递鸟[通俗易懂]目录1.完成前期准备工作2.API接口3.请求完整报文(示例)4.成功返回报文(示例)5.失败返回报文(示例)6.分步讲解(C#版本)7.极兔速递电子面单打印模板内容(HTML)8.关于签名前言J&T极兔速递是一家科技创新型互联网快递物流企业,致力于为用户带来优质的快递和物流体验。2015年8月由印尼首都雅加达作为起点,进入快递物流市场,目前覆盖了印度尼西亚、越南、马来西亚、泰国、菲律宾、柬埔寨及新加坡七个国家,成为东南亚超过5.5亿人口信赖的综合性物流服务商。电子面单模板

  • ExecuteNonQuery()返回值问题[通俗易懂]

    ExecuteNonQuery()返回值问题[通俗易懂]1.使用update,insert,delete等对数据库中表行进行操作的时候,返回值为所操作的行数(若该条语句未作用在任何一行,则返回0)2.使用alter添加表空间数据文件,create创建表,drop删除表等操作时返回值为03.数据库连接字符串http://blog.csdn.net/cddchina/article/details/46046

  • Raid0、Raid1、Raid5及Raid10的区别

    Raid0、Raid1、Raid5及Raid10的区别一、概况Raid(RedundantArrayofIndepentDisk独立冗余磁盘阵列)技术是加州大学伯克利分校1987年提出,最初是为了组合小的廉价磁盘来代替大的昂贵磁盘,同时希望磁盘失效时不会对数据的访问造成影响而开发的数据保护技。raid就是由多块磁盘构成的冗余阵列,在操作系统下是作为一个独立的大型存储设备出现的。它可以充分发挥出多块硬盘的优势,可以提升硬盘的读写速度,提高硬盘的利用率,日工容错功能确保数据的安全性,易于管理等优点。在任何一块硬盘出现问题的情况下都可以继续工作,不受损

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号