KL散度、JS散度、Wasserstein距离[通俗易懂]

全栈程序员-用户IM • 2022年4月19日下午6:40 • 未分类

大家好，又见面了，我是你们的朋友全栈君。

1. KL散度

$KL$ 散度又称为相对熵，信息散度，信息增益。 $KL$ 散度是是两个概率分布P和Q 差别的非对称性的度量。 $KL$ 散度是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数。典型情况下，P表示数据的真实分布，Q表示数据的理论分布，模型分布，或P的近似分布。

定义如下：

D K L (P / / Q) = - \sum x \in X P (x) l o g 1 P ( x ) + \sum x \in X P (x) l o g 1 Q ( x )

$D_{KL} (P//Q)=-\sum_{x\in X} P(x)log {\frac{1}{P(x)}} + \sum_{x\in X} P(x)log {\frac{1}{Q(x)}}$

因为对数函数是凸函数，所以

$KL$ 散度的值为非负数。

有时会将 $KL$ 散度称为 $KL$ 距离，但它并不满足距离的性质：

1. KL散度不是对称的: $KL(A, B)$ $\neq$ $KL(B, A)$

2. KL散度不满足三角不等式: $KL(A, B)$ $>$ $K L (A, C) + K L (C, B)$

2. JS散度(Jensen-Shannon)

$JS$ 散度度量了两个概率分布的相似度，基于 $KL$ 散度的变体，解决了KL散度非对称的问题。一般地， $JS$ 散度是对称的，其取值是0到1之间。定义如下：

这里写图片描述

$KL$ 散度和 $JS$ 散度度量的时候有一个问题：

如果两个分配P,Q离得很远，完全没有重叠的时候，那么KL散度值是没有意义的，而JS散度值是一个常数。这在学习算法中是比较致命的，这就意味这这一点的梯度为0。梯度消失了。

3. Wasserstein距离

$Wasserstein$ 距离度量两个概率分布之间的距离，定义如下：
这里写图片描述
$\Pi (P_1,P_2)$ 是 $P_1$ 和 $P_2$ 分布组合起来的所有可能的联合分布的集合。对于每一个可能的联合分布γ，可以从中采样 $(x,y)∼\gamma$ 得到一个样本x和y，并计算出这对样本的距离||x−y||，所以可以计算该联合分布 $\gamma$ 下，样本对距离的期望值 $E(x,y)∼γ[||x−y||]$ 。在所有可能的联合分布中能够对这个期望值取到的下界 $inf_\gamma$ ∼ $\Pi (P_1,P_2)$ E(x,y) $∼\gamma[||x−y||]$ 就是Wasserstein距离。