学习笔记——机器学习-多项式分布及Softmax回归模型推导[通俗易懂]

大家好，又见面了，我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

在一个多分类问题，预测变量 $y$ 可以取 $k$

k

$k$ 个离散值中的任何一个，即 $y\in \{1,2,\cdots ,k\}$ 。

例如：在一个邮件分类系统将邮件分为私人邮件，工作邮件和垃圾邮件。由于 $y$ 仍然是一个离散值，这种多分类问题，二分类模型在这里不太适用。

多分类问题符合多项分布。有许多算法可用于解决多分类问题，像决策树、朴素贝叶斯等。本文主要讲解多分类算法中的Softmax回归（Softmax Regression)

推导思路为：首先证明多项分布属于指数分布族，这样就可以使用广义线性模型来拟合这个多项分布，由广义线性模型推导出的目标函数 $h_{θ} (x)$

h_{θ} (x)

${{h}_{\theta }}(x)$ 即为Softmax回归的分类模型。

多项式分布属于指数分布族的推导

下面将根据多项式分布建模。考虑样本共有 $k$ 类，每一类的概率分别为 $ϕ_{1}, \dots, ϕ_{k}$

ϕ_{1}, \dots, ϕ_{k}

${{\phi }_{1}},\cdots ,{{\phi }_{k}}$ ，由于 $\sum\limits_{i=1}^{k}{{{\phi }_{i}}}=1$ ，所以通常我们只需要 $k-1$ 个参数即 ${{\phi }_{1}},\cdots ,{{\phi }_{k-1}}$ 。
$\begin{align} & P(y=i;\phi )={{\phi }_{i}} \ & P(y=k;\phi )=1-\sum\limits_{i=1}^{k-1}{{{\phi }_{i}}} \ \end{align}$
为了推导方便，引入表达式：
$T(1)=\left[ \begin{matrix} 1 \\ 0 \\ 0 \\ \vdots \\ 0 \\\end{matrix} \right],\ T(2)=\left[ \begin{matrix} 0 \\ 1 \\ 0 \\ \vdots \\ 0 \\\end{matrix} \right],\ \cdots ,\ T(k-1)=\left[ \begin{matrix} 0 \\ 0 \\ 0 \\ \vdots \\ 1 \\\end{matrix} \right],\ \ T(k)=\left[ \begin{matrix} 0 \\ 0 \\ 0 \\ \vdots \\ 0 \\\end{matrix} \right]$

上面 $T(y)$ 是 $k-1$ 维列向量,其中 $y=1,\ 2,\ \cdots ,\ k$ ； $T{{(y)}_{i}}$ 表示向量 $T(y)$ 的第 $i$ 个元素。

还要引入表达式 $1 {\cdot}$

1 {\cdot}

$1\{\cdot \}$ ,如果大括号里面为真，则真个表达式就为1，否则为0。

1 {t u r e} = 1; 1 {f a l s e} = 0

$1\{\ ture\}=1\ \ ;\ \ 1\{\ false\ \}=0$

例如：1{2=3} = 0和1{3=3} = 1.

则上面的

$k$ 个向量就可以表示为：

T {(y)}_{i} = 1 {y = i}

$T{{(y)}_{i}}=1\{\ y=i\ \}$

因为

$y$ 只能属于某一个类别，于是

$T (y)$

T (y)

$T(y)$ 中只能有一个元素为1其他元素都为0，可以求出

$k-1$ 个元素的期望：

E [T (y) i] = \sum y = 1 k T (y) i ϕ i = \sum y = 1 k 1 (y = i) ϕ i = ϕ i

$E[T{{(y)}_{i}}]=\sum\limits_{y=1}^{k}{T{{(y)}_{i}}{{\phi }_{i}}}=\sum\limits_{y=1}^{k}{1(y=i){{\phi }_{i}}}={{\phi }_{i}}$

即：

E [T (y) i] = P (y = i) = ϕ i

$E[T{{(y)}_{i}}]=P(y=i)={{\phi }_{i}}$

多项式分布表达式转为指数分布族表达式推导过程如下：

P (y; ϕ) = ϕ 1 {y = 1} 1 ϕ 1 {y = 2} 2 \dots ϕ 1 {y = k} k = ϕ T (y) 1 1 ϕ T (y) 2 2 \dots ϕ T (y) k - 1 k - 1 \cdot ϕ T (y) k k = ϕ T (y) 1 1 ϕ T (y) 2 2 \dots ϕ T (y) k - 1 k - 1 \cdot ϕ 1 - \sum i = 1 k - 1 T (y) i k = exp (T (y) 1 log ϕ 1 + \dots + (1 - \sum i = 1 k - 1 T (y) i) log ϕ k) = exp (T (y) 1 log ϕ 1 ϕ k + T (y) 2 log ϕ 2 ϕ k + \dots + T (y) k - 1 log ϕ k - 1 ϕ k + log ϕ k) = b (y) exp (η T T (y) - a (η)) (398) (399) (400) (401) (402) (403)

$\begin{align} & P(y;\phi )=\phi _{1}^{1\{y=1\}}\phi _{2}^{1\{y=2\}}\cdots \phi _{k}^{1\{y=k\}} \\ & \ \ \ \ \ \ \ \ \ \ \ =\phi _{1}^{T{{(y)}_{1}}}\phi _{2}^{T{{(y)}_{2}}}\cdots \phi _{k-1}^{T{{(y)}_{k-1}}}\cdot \phi _{k}^{T{{(y)}_{k}}} \\ & \ \ \ \ \ \ \ \ \ \ \ =\phi _{1}^{T{{(y)}_{1}}}\phi _{2}^{T{{(y)}_{2}}}\cdots \phi _{k-1}^{T{{(y)}_{k-1}}}\cdot \phi _{k}^{1-\sum\limits_{i=1}^{k-1}{T{{(y)}_{i}}}} \\ & \ \ \ \ \ \ \ \ \ \ \ =\exp \left( T{{(y)}_{1}}\log {{\phi }_{1}}+\cdots +(1-\sum\limits_{i=1}^{k-1}{T{{(y)}_{i}}})\log {{\phi }_{k}} \right) \\ & \ \ \ \ \ \ \ \ \ \ \ =\exp (T{{(y)}_{1}}\log \frac{{{\phi }_{1}}}{{{\phi }_{k}}}+T{{(y)}_{2}}\log \frac{{{\phi }_{2}}}{{{\phi }_{k}}}+\cdots +T{{(y)}_{k-1}}\log \frac{{{\phi }_{k-1}}}{{{\phi }_{k}}}+\log {{\phi }_{k}}) \\ & \ \ \ \ \ \ \ \ \ \ \ \ =b(y)\exp ({{\eta }^{T}}T(y)-a(\eta )) \\ \end{align}$

其中

η = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ log ϕ 1 ϕ k log ϕ 2 ϕ k ⋮ log ϕ k - 1 ϕ k ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ \in R k - 1, a (η) = - log (ϕ k), b (y) = 1

$\eta =\left[ \begin{matrix} \log \frac{{{\phi }_{1}}}{{{\phi }_{k}}} \\ \log \frac{{{\phi }_{2}}}{{{\phi }_{k}}} \\ \vdots \\ \log \frac{{{\phi }_{k-1}}}{{{\phi }_{k}}} \\\end{matrix} \right]\in {{R}^{k-1}},\ \ a(\eta )=-\log ({{\phi }_{k}}),\ \ b(y)=1$

多项分布可以表示为指数分布的格式，所以它属于指数分布族，那么就可以用广义线性模型来拟合这个多项式分布模型。

Softmax函数（Softmax Function）

在使用广义线性模型拟合这个多项式分布模型之前，需要先推导一个函数，这个函数在广义线性模型的目标函数中会用到。这个函数称为Softmax函数（Softmax Function）。
由 $\eta$ 表达式可得：

η i = log ϕ i ϕ k

${{\eta }_{i}}=\log \frac{{{\phi }_{i}}}{{{\phi }_{k}}}$

这是

${{\eta }_{i}}$ 关于

${{\phi }_{i}}$ 的表达式，把它转化为

${{\phi }_{i}}$ 关于

${{\eta }_{i}}$ 的表达式过程为：

e η i = ϕ i ϕ k \Rightarrow ϕ k e η i = ϕ i \Rightarrow ϕ k \sum i = 1 k e η i = \sum i = 1 k ϕ i = 1

${{e}^{{{\eta }_{i}}}}=\frac{{{\phi }_{i}}}{{{\phi }_{k}}}\ \ \Rightarrow \ \ {{\phi }_{k}}{{e}^{{{\eta }_{i}}}}={{\phi }_{i}}\ \ \Rightarrow \ {{\phi }_{k}}\sum\limits_{i=1}^{k}{{{e}^{{{\eta }_{i}}}}}=\ \sum\limits_{i=1}^{k}{{{\phi }_{i}}}=1$

所以

ϕ k = 1 \sum i = 1 k e η i

${{\phi }_{k}}=\frac{1}{\sum\limits_{i=1}^{k}{{{e}^{{{\eta }_{i}}}}}}$

代入上面式子，所以

ϕ i = e η i \sum j = 1 k e η j

${{\phi }_{i}}=\frac{{{e}^{{{\eta }_{i}}}}}{\sum\limits_{j=1}^{k}{{{e}^{{{\eta }_{j}}}}}}$

此函数称为
Softmax函数（Softmax Function）。

使用广义线性构建模型

根据广义线性模型的假设3:

η i = θ T i x (i = 1, \dots, k - 1)

${{\eta }_{i}}=\theta _{i}^{T}x\ \ (i=1,\ \ldots ,k-1)$

由假设2可得

h θ (x) = E [T (y) | x; θ] = E ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ 1 {y = 1} 1 {y = 2} ⋮ 1 {y = k - 1} | x; θ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ϕ 1 ϕ 2 ⋮ ϕ k - 1 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ exp ( θ T 1 x ) \sum j = 1 k exp ( θ T j x ) exp ( θ T 2 x ) \sum j = 1 k exp ( θ T j x ) ⋮ exp ( θ T k - 1 x ) \sum j = 1 k exp ( θ T j x ) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ (480) (481)

$\begin{align} & {{h}_{\theta }}(x)=E[T(y)\left| x \right.;\theta ]=E\left[ \begin{matrix} \begin{matrix} 1\{y=1\} \\ 1\{y=2\} \\ \vdots \\ 1\{y=k-1\} \\\end{matrix} & \left| x;\theta \right. \\\end{matrix} \right] \\ & \ \ \ \ \ \ \ \ \ \ =\left[ \begin{matrix} {{\phi }_{1}} \\ {{\phi }_{2}} \\ \vdots \\ {{\phi }_{k-1}} \\\end{matrix} \right]\ =\left[ \begin{matrix} \frac{\exp (\theta _{1}^{T}x)}{\sum\limits_{j=1}^{k}{\exp (\theta _{j}^{T}x)}} \\ \frac{\exp (\theta _{2}^{T}x)}{\sum\limits_{j=1}^{k}{\exp (\theta _{j}^{T}x)}} \\ \vdots \\ \frac{\exp (\theta _{k-1}^{T}x)}{\sum\limits_{j=1}^{k}{\exp (\theta _{j}^{T}x)}} \\\end{matrix} \right] \\ \end{align}$

就是输出了

$x\in \{1,2,\cdots ,k-1\}$ 中每一类的概率，当然属于第

$k$ 类的概率就是：

$1 - \sum_{i = 1}^{k - 1} ϕ_{i}$

1 - \sum_{i = 1}^{k - 1} ϕ_{i}

$1-\sum\limits_{i=1}^{k-1}{{{\phi }_{i}}}$ .

下面开始拟合参数，同样使用最大化参数θ的对数似然函数：

l (θ) = \sum i = 1 m log P (y (i) ∣ ∣ x (i); θ) = \sum i = 1 m log \prod l = 1 k e θ T l x ( i ) \sum j = 1 k e θ T j x ( i ) (482) (483)

$\begin{align} & l(\theta )=\sum\limits_{i=1}^{m}{\log P({{y}^{(i)}}\left| {{x}^{(i)}};\theta \right.)} \\ & \ \ \ \ \ \ \ =\sum\limits_{i=1}^{m}{\log \prod\limits_{l=1}^{k}{\frac{{{e}^{\theta _{l}^{T}{{x}^{(i)}}}}}{\sum\limits_{j=1}^{k}{{{e}^{\theta _{j}^{T}{{x}^{(i)}}}}}}}} \\ \end{align}$

接下来使用梯度下降和牛顿法均可。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/182893.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...