最小二乘法简明推导过程

全栈程序员-用户IM • 2022年5月13日上午10:20 • 未分类

大家好，又见面了，我是你们的朋友全栈君。

最小二乘法推导

最小二乘法公式

$J(\theta) = \frac1m\sum_{i=1}^m(y^{(i)} – h_{\theta}(x^{(i)}))^2$

证明

1.假设

设数据中未被考虑进来的特征和人为无法控制的噪声为 $\varepsilon$ 。

即 $y^{(i)} = \theta^{T}x^{(i)} + \varepsilon^{(i)}$

$\varepsilon \sim \mathcal{N}(0,\sigma^2)$

且 $\varepsilon^{(i)} is IID$ (独立同分布)。

简单的说就是 $\varepsilon^{(i)}$ 之间互不影响，前一个的变化，不影响后一个的变化。

可得 $P(y^{(i)} | x^{(i)};\theta) \sim \mathcal{N}(\theta^{T}x^{(i)},\sigma^2)$ 因为视这里的 $\theta^{T}x^{(i)}$ 为定值。

注意：此处的分号表示 $\theta$ 为参数而不是随机变量。

2.证明：

于是乎展开：

$P(y^{(i)} | x^{(i)};\theta) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)} – \theta^Tx^{(i)})^2}{2\sigma^2})$ 留着备用。

定义似然率：

$\mathcal{L}(\theta) = P(\vec{y}|x;\theta)$

$=\prod^{m}_{i=1}P(y^{(i)}|x^{(i)};\theta)$

$\prod^{m}_{i=1}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)} – \theta^Tx^{(i)})^2}{2\sigma^2})$

这个式子推出来有何意义呢？我们先看一下高斯分布的图像：

最小二乘法简明推导过程

如果这个图像中的0点即是 $y^{(i)}$ 是每个x对应的正确答案，如果这幅图就是$P(y^{(i)} | x^{(i)};\theta) $ 的话，那么横坐标轴上的点表示的就是 $y^{(i)} – \varepsilon^{(i)}$ 也就是 $\theta^{T}x^{(i)}$ (参见假设一)

我们希望 $\varepsilon^{(i)}$ 尽可能的小，也就是 $\theta^{T}x^{(i)}$ 更加靠近正确答案 $y^{(i)}$ ,怎么做？只要令$P(y^{(i)} | x^{(i)};\theta) $尽可能大即可

从此我们得到了最大似然算法。

3.最大似然算法

我们对 $\mathcal{L}(\theta)$ 取对数(以e为底)

$\mathcal{l}(\theta) = \log{\mathcal{L}(\theta)}$

$log{\prod^{m}_{i=1}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)} – \theta^Tx^{(i)})^2}{2\sigma^2})}$ 对数化乘为加

$=\sum^m_{i=1}\log{\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)} – \theta^Tx^{(i)})^2}{2\sigma^2})}$

$=\log{\frac{m}{\sqrt{2\pi}\sigma}}\sum^m_{i=1}\log{exp(-\frac{(y^{(i)} – \theta^Tx^{(i)})^2}{2\sigma^2})}$

$=\log{\frac{m}{\sqrt{2\pi}\sigma}}\sum^m_{i=1}-\frac{(y^{(i)} – \theta^Tx^{(i)})^2}{2\sigma^2}$

将它最大化只需 $\sum^m_{i=1}\frac{(y^{(i)} – \theta^Tx^{(i)})^2}{2}$ 最小

证明完毕-

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/145446.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

最小二乘法简明推导过程

最小二乘法推导

最小二乘法公式

证明

1.假设

2.证明：

3.最大似然算法

相关推荐

不同卷积操作详解

python 字符串方法isdigit()

webservice最大长度_网址最大长度

oracle中的sequence

伏地魔

Framework7 Vue 教程 入门 学习

发表回复

Framework7 Vue 教程入门学习