softmax为什么使用指数函数?(最大熵模型的理解)

softmax为什么使用指数函数?(最大熵模型的理解)

 

解释1:

他的假设服从指数分布族

解释2:

最大熵模型,即softmax分类是最大熵模型的结果。

关于最大熵模型,网上很多介绍:

在已知部分知识的前提下,关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断,其原则是承认已知事物(知识),且对未知事物不做任何假设,没有任何偏见。

所以,最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。

参考网址:

https://blog.csdn.net/xg123321123/article/details/54286514

对于输入x,判断类别y

如果使他满足最大熵模型,则条件概率满足公式:

<span>softmax为什么使用指数函数?(最大熵模型的理解)</span>

其中wi(i=1,2,...m)wi(i=1,2,…m)为拉格朗日乘子。如果大家也学习过支持向量机,就会发现这里用到的凸优化理论是一样的,接着用到了拉格朗日对偶也一样。

最大熵模型这里引入了一个特征函数的概念:

可以定义为:

<span>softmax为什么使用指数函数?(最大熵模型的理解)</span>

为什么需要特征函数?比较容易理解的是,特征函数其实是一个用户接口,我们可以通过定制特征函数来控制模型的训练。

注意,f(x,y)必须是实数函数,而最大熵模型一般要求这个函数是一个二值函数。也就是说通过这个特征函数把x和y之间千丝万缕的关系转化成了一个实数值。

 

至此,我们可以看到softmax的表达式和最大熵模型的最优求解的表达式形式上是相似的,如果我们用θx表达最大熵中Wf(x,y)就得到了softmax的表达式。

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/119462.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号