大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。
Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺
Fisher Infomation的意义
Fisher Information 顾名思义,就是用来衡量样本数据的信息量的,通常我们有一组样本,我们在机器学习中需要估计出样本的分布,我们是利用样本所具有的信息量来估计参数的,样本中具有的信息量越多,估计的参数越准,样本的分布估计的就越接近真实分布,这里的信息量就是用Fisher Information来表示的。
什么样本信息量比较大?
我们用样本发生的概率来衡量样本本身所携带的信息量,如果样本发生的概率比较大,那么说明我们在这个样本上可以学习到的东西不多,例如机器学习中,样本一上来概率就都是1,那么参数w就基本学习不出了,相反,如果样本发生的概率比较小,就可以认为该样本携带的信息很多。
Fisher Information目标
对于最大似然估计(Maximum Likelihood Estimation)的基本思想。对于随机变量X~f(x|w),直觉上,当参数w取到的值接近准确值时,似然函数的值应该很大,所以当参数w取到准确值时,似然函数的值应该取到最大值,或者(对数)似然函数的一阶导数为0。
我们定义对数似然函数log(x|w) = log(f(x|w)),令它的导数为0,这有公式 log′(x|w)=∂logf(x|w)∂w=f(x|w)′f(x|w)
根据上文,如果 log′(x|w) 非常接近于0,那么我们基本学习不到太多跟参数w有关的知识,换句话说模型基本不会更新了;相反,如果 |log′(x|w)| 很大,或者说 |log′(x|w)2| 很大,那么样本就提供了比较多的关于参数w的信息。因此,我们可以用 |log′(x|w)2| 来衡量提供的信息(information)。但是X是随机变量,所以我们就考虑 |log′(x|w)2| 的期望值 E(log′(x|w)2) 。 我们使用Info(w)表示Fisher Information。
Fisher Information三大定义
定义1:
综上所述,Fisher Information可以直接定义:
Info(w)=E(log′(x|w)2)=∫log′(x|w)2f(x|w)dx
定义2:
由于 ∫f′(x|w)dx=∂∫f(x|w)dx/∂w=0 以及 ∫f′′(x|w)dx=∂2∫f(x|w)dx/∂w2=0 ,我们可以计算得到:
E(log′(x|w))=∫log′(x|w)f(x|w)dx=∫f′(x|w)f(x|w)f(x|w)dx=∫f′(x|w)dx=0
所以我们进一步可以得到定义2:
Info(w)=Var(log′(x|w))
And Var(log′(x|w))=E(log′(x|w)2)−E2(log′(x|w))=E(log′(x|w)2) ;
定义3:
log′′(x|w)=∂∂w[f′(x|w)f(x|w)]=f′′(x|w)f(x|w)−[f′(x|w)]2f2(x|w)=f′′(x|w)f(x|w)−[log′(x|w)]2
然后我们求二次导数的期望:
E(log′′(x|w))=∫[f′′(x|w)f(x|w)−[log′(x|w)]2]f(x|w)dx=∫f′′(x|w)dx−E(log′(x|w)]2)=−Info(w) ;
所以我们可以得到定义3:
Info(w)=−E(log′(x|w)]2)=−∫∂2log(f(x|w))∂2wf(x|w)dx
在大多数的问题中,定义3最为常用,我们直接求log似然的二次导数来计算Fisher Information。
发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/192287.html原文链接:https://javaforall.cn
【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛
【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...