【损失函数系列】softmax loss损失函数详解

全栈程序员-用户IM • 2022年6月26日下午3:46 • 未分类

大家好，又见面了，我是你们的朋友全栈君。

1.损失函数：

损失函数（loss function）是用来评测模型的预测值f(x)与真实值Y的相似程度，损失函数越小，就代表模型的鲁棒性越好，损失函数指导模型学习。根据损失函数来做反向传播修改模型参数。机器学习的目的就是学习一组参数，使得预测值与真值无限接近。

它是损失函数的一种，是softmax和cross-entropy loss组合而成的损失函数。

先看softmax，其函数形式如下：其中z就是某个神经网络全连接层输出的一组结果，例如分类问题，做4分类，z就是一个1*4的向量。j就是0~3下标号。zk就是全连接层第k个值。

【损失函数系列】softmax loss损失函数详解（1）

全连接输出向量z的每个值没有大小限制，显然通过（1）后就强制将它给限制在0~1之间了，变成概率值。

cross-entropy loss 交叉熵损失函数在我的博客详细写了下：https://blog.csdn.net/gbz3300255/article/details/106810047。

这里就直接上交叉熵的公式了：

【损失函数系列】softmax loss损失函数详解（2）

f(zc)就是上面的f(fzk),就是 softmax函数的输出值。yc就是样本真值喽。公式（2）就是最终的损失函数值了。

举例说明：例如真实样本标签为

yc = [0, 0, 1, 0]。

而第一个预测结果为

f（z1） = [0.1, 0.1, 0.7, 0.1]

f（z2） = [0.25, 0.2, 0.3, 0.35]

f（z3） = [0.15, 0.2, 0.1, 0.55]

显然第一个预测结果是对的，第二个，第三个都是错的。他们的损失函数值分别为

Lz1 = -log0.7

Lz2 = -log0.3

Lz3 = -log0.1

L函数图像如下：

【损失函数系列】softmax loss损失函数详解

显然，与真值越接近，损失函数越小，与真值相去越远，损失函数越大。优化过程就是不断的将与真值接近的那个概率值提升，提升，再提升，让损失函数降低，降低，再降低。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/153156.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...