随机梯度下降算法原理知乎_梯度下降算法的正确步骤

1.算法目标

逐渐逼近损失函数 loss 的极小值，简单抽象为求函数的极小值。

2.算法描述

每次取一个增量 $\delta \vec{x}$ ，使得 $f(\vec{x} + \delta \vec{x}) - f(\vec{x}) \leq 0$ ，每次向函数值更小的地方前进一小步，多次迭代就能做到逐渐逼近函数的极小值。

3.算法推导

展开 $f(\vec{x} + \delta \vec{x})$ 得到公式 $f(\vec{x} + \delta \vec{x}) \approx f(\vec{x}) + \triangledown f(x)\cdot \delta \vec{x} + H \cdot \delta \vec{x}\cdot \delta \vec{x}$ 。

其中H为海森矩阵，暂且不考虑。为使 $f(\vec{x} + \delta \vec{x}) - f(\vec{x}) = \triangledown f(x)\cdot \delta \vec{x} \leq 0$ 成立，只需要保证 $\triangledown f(x)\cdot \delta \vec{x} \leq 0$ 。

即，当 $\delta \vec{x} = -\eta \cdot \bigtriangledown f(\vec{x})$ 时， $\triangledown f(x)\cdot \delta \vec{x} = -\eta \cdot \triangledown f(x)^{2} \leq 0$ ，如此即可保证每次更新在逐渐逼近函数的极小值。其中 $\eta$ 为学习率是一个较小的正数。

每次更新时做 $x = x -\eta \cdot \bigtriangledown f(\vec{x})$ 操作，求得的最小值。

4.注意

上述过程是在逼近极小值，不一定是函数的最小值。

$x = x -\eta \cdot \bigtriangledown f(\vec{x})$ 是一种下降趋势，整个循环步骤中函数值在下降，并非每个小步骤得到的函数值都比前一次要小。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/197234.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

随机梯度下降算法原理 知乎_梯度下降算法的正确步骤

1.算法目标

2.算法描述

3.算法推导

4.注意

相关推荐

mac idea svn配置_idea提交代码到svn

python2021.5激活码（最新序列号破解）

linux查看crontab状态_crontab -e

推荐几本WinCE 6程序开发的书

linux初识到入门_文件系统[通俗易懂]

Garch模型_garch in mean模型

发表回复

随机梯度下降算法原理知乎_梯度下降算法的正确步骤