大家好,又见面了,我是你们的朋友全栈君。
最小二乘法推导
最小二乘法公式
J ( θ ) = 1 m ∑ i = 1 m ( y ( i ) − h θ ( x ( i ) ) ) 2 J(\theta) = \frac1m\sum_{i=1}^m(y^{(i)} – h_{\theta}(x^{(i)}))^2 J(θ)=m1i=1∑m(y(i)−hθ(x(i)))2
证明
1.假设
设数据中未被考虑进来的特征和人为无法控制的噪声为 ε \varepsilon ε。
即 y ( i ) = θ T x ( i ) + ε ( i ) y^{(i)} = \theta^{T}x^{(i)} + \varepsilon^{(i)} y(i)=θTx(i)+ε(i)
ε ∼ N ( 0 , σ 2 ) \varepsilon \sim \mathcal{N}(0,\sigma^2) ε∼N(0,σ2)
且 ε ( i ) i s I I D \varepsilon^{(i)} is IID ε(i)isIID (独立同分布)。
简单的说就是 ε ( i ) \varepsilon^{(i)} ε(i) 之间互不影响,前一个的变化,不影响后一个的变化。
可得 P ( y ( i ) ∣ x ( i ) ; θ ) ∼ N ( θ T x ( i ) , σ 2 ) P(y^{(i)} | x^{(i)};\theta) \sim \mathcal{N}(\theta^{T}x^{(i)},\sigma^2) P(y(i)∣x(i);θ)∼N(θTx(i),σ2)因为视这里的 θ T x ( i ) \theta^{T}x^{(i)} θTx(i) 为定值。
注意:此处的分号表示 θ \theta θ为参数而不是随机变量。
2.证明:
于是乎展开:
P ( y ( i ) ∣ x ( i ) ; θ ) = 1 2 π σ e x p ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) P(y^{(i)} | x^{(i)};\theta) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)} – \theta^Tx^{(i)})^2}{2\sigma^2}) P(y(i)∣x(i);θ)=2πσ1exp(−2σ2(y(i)−θTx(i))2)留着备用。
定义似然率:
L ( θ ) = P ( y ⃗ ∣ x ; θ ) \mathcal{L}(\theta) = P(\vec{y}|x;\theta) L(θ)=P(y∣x;θ)
= ∏ i = 1 m P ( y ( i ) ∣ x ( i ) ; θ ) =\prod^{m}_{i=1}P(y^{(i)}|x^{(i)};\theta) =∏i=1mP(y(i)∣x(i);θ)
= ∏ i = 1 m 1 2 π σ e x p ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) = \prod^{m}_{i=1}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)} – \theta^Tx^{(i)})^2}{2\sigma^2}) =∏i=1m2πσ1exp(−2σ2(y(i)−θTx(i))2)
这个式子推出来有何意义呢?我们先看一下高斯分布的图像:
如果这个图像中的0点即是 y ( i ) y^{(i)} y(i)是每个x对应的正确答案,如果这幅图就是$P(y^{(i)} | x^{(i)};\theta) $ 的话,那么横坐标轴上的点表示的就是 y ( i ) − ε ( i ) y^{(i)} – \varepsilon^{(i)} y(i)−ε(i)也就是 θ T x ( i ) \theta^{T}x^{(i)} θTx(i)(参见假设一)
我们希望 ε ( i ) \varepsilon^{(i)} ε(i)尽可能的小,也就是 θ T x ( i ) \theta^{T}x^{(i)} θTx(i)更加靠近正确答案 y ( i ) y^{(i)} y(i),怎么做?只要令$P(y^{(i)} | x^{(i)};\theta) $尽可能大即可
从此我们得到了最大似然算法。
3.最大似然算法
我们对 L ( θ ) \mathcal{L}(\theta) L(θ)取对数(以e为底)
l ( θ ) = log L ( θ ) \mathcal{l}(\theta) = \log{\mathcal{L}(\theta)} l(θ)=logL(θ)
= l o g ∏ i = 1 m 1 2 π σ e x p ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) = log{\prod^{m}_{i=1}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)} – \theta^Tx^{(i)})^2}{2\sigma^2})} =log∏i=1m2πσ1exp(−2σ2(y(i)−θTx(i))2)对数化乘为加
= ∑ i = 1 m log 1 2 π σ e x p ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) =\sum^m_{i=1}\log{\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)} – \theta^Tx^{(i)})^2}{2\sigma^2})} =∑i=1mlog2πσ1exp(−2σ2(y(i)−θTx(i))2)
= log m 2 π σ ∑ i = 1 m log e x p ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) =\log{\frac{m}{\sqrt{2\pi}\sigma}}\sum^m_{i=1}\log{exp(-\frac{(y^{(i)} – \theta^Tx^{(i)})^2}{2\sigma^2})} =log2πσm∑i=1mlogexp(−2σ2(y(i)−θTx(i))2)
= log m 2 π σ ∑ i = 1 m − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 =\log{\frac{m}{\sqrt{2\pi}\sigma}}\sum^m_{i=1}-\frac{(y^{(i)} – \theta^Tx^{(i)})^2}{2\sigma^2} =log2πσm∑i=1m−2σ2(y(i)−θTx(i))2
将它最大化只需 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 2 \sum^m_{i=1}\frac{(y^{(i)} – \theta^Tx^{(i)})^2}{2} ∑i=1m2(y(i)−θTx(i))2最小
证明完毕-
发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/145446.html原文链接:https://javaforall.cn
【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛
【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...