最速下降法收敛速度快还是慢_最速下降法是全局收敛算法吗

大家好，又见面了，我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全家桶1年46，售后保障稳定

摘自《数值最优化方法》
$\qquad$ 已知设步长为 $\alpha$ ，下降方向为 $d$ ， $f(x_{k}+\alpha d)$ 在 $x_{k}$ 的 $T a y l o r$ 展示为
$f(x_{k+1})=f(x_{k}+\alpha d)=f(x_{k})+\alpha g_{k}^{T}d+O(||\alpha d||^{2})$ 为使函数值下降，下降方向满足
$g_{k}^{T}d<0$
$\qquad$ 收敛性和收敛速度 收敛性算法产生的点阵 ${x_{k}\}$ 在某种范数 $||\cdot||$ 意义下满足
$\mathop{lim}\limits_{k\to\infty}||x_{k}-x^{*}||=0$ 称算法是收敛的，当从任意初始点出发时，都能收敛到 $x^{*}$ 称为具有全局收敛性，仅当初始点与 $x_{*}$ 充分接近时才能收敛到 $x^{*}$ 称算法具有局部收敛性。
$\qquad$ 收敛速度(已知收敛)：若
$\mathop{lim}\limits_{k\to\infty}\frac{||x_{k+1}-x^{*}||}{||x_{k}-x^{*}||}=a$ $\qquad$ 当 $0 < a < 1$ 时，迭代点列 ${x_{k}\}$ 的收敛速度是线性的，这时算法称为线性收敛。当 $a = 0$ 时， ${x_{k}\}$ 的收敛速度是超线性的，称为超线性收敛。
$\qquad$ 二阶收敛：若
$\mathop{lim}\limits_{k\to\infty}\frac{||x_{k+1}-x^{*}||}{||x_{k}-x^{*}||^{2}}=a$ $\qquad$ $a$ 为任意常数，迭代点列 ${x_{k}\}$ 的收敛速度是二阶的，这时算法称为二阶收敛。超线性收敛和二阶收敛的收敛速度较快，是理想的收敛速度。
$\qquad$ 负梯度法和牛顿 $(N e w t o n)$ 型方法 $N e w t o n$ 型方法特殊情形的一种负梯度方法—最速下降法。首先下降方向满足 $g_{k}^{T}d<0$ ，为使 $g_{k}d|$ 达到最大值，则由 $C a u c h y - S c h w a r z$ 不等式
$|g_{k}^{T}d|\leq||g_{k}||||d||$ 知当且仅当 $d=d_{k}=-g_{k}/||g_{k}||$ 时，等式成立， $g_{k}^{T}d$ 达到最小。考虑在 $d_{k}$ 方向上的步长，取其负梯度方向即 $d_{k}=-g_{k}$ 。
$\qquad$ 收敛性分析 1. 给定 $G$ 度量下的范数定义，给出 $K a n t o r o v i c h$ 不等式。定义设 $G\in\mathbb{R}^{n\times n}$ 对称正定， $u,v\in\mathbb{R}^{n}$ 则 $u$ 与 $v$ 在 $G$ 度量意义下的内积 $u^{T}v)_{G}$ 的定义为
$u^{T}v)_{G}=u^{T}Gv$ $u$ 在 $G$ 度量下的范数定义为 $u||_{G}^{2}$ 定义为
$u||_{G}^{2}=u^{T}Gu$ $G$ 度量下的 $C a u c h y - S c h w a r z$ 不等式
$|u^{T}Gu|\leq||u||_{G}||v||_{G}$ 成立，当且仅当 $u, v$ 共线时等号成立。
$\qquad$ 2. $K a n t o r o v i c h 不等式$ 对于 $\ { 0 } x\in\mathbb{R}^{n} \verb|\| \{0\}$ ，有
$\frac{(x^{T}x)^{2}}{(x^{T}Gx)(x^{T}G^{-1}x)}\ge\frac{4\lambda_{max}\lambda_{min}}{ (\lambda_{max}+ \lambda_{min})^{2}}$ $\lambda_{max}、\lambda_{min}$ 分别为矩阵 $G$ 的最大、最小特征值。在 $G$ 度量的定义下， $x_{k}$ 的误差等价于它的目标函数值 $f(x_{k})$ 的误差。
$\qquad$ 最速下降法在 $G$ 度量定义下的收敛速度 给定正定二次函数
$f(x)=\frac{1}{2}x^{T}Gx+b^{T}x$ 由负梯度方向为 $d_{k}=-g_{k}$ 则求解最速下降法步长为
$\alpha_{min}=arg\mathop{min}\limits_{\alpha>0}f(x_{k}-\alpha g_{k})$ 其中
$f(x_{k}-\alpha g_{k})=\frac{1}{2}(x_{k}-\alpha g_{k})^{T}G(x_{k}-\alpha g_{k})+b^{T}\\ = f(x_{k})+\frac{1}{2}g_{k}^{T}Gg_{k}\alpha^{2}+g_{k}^{T}(Gx_{k}+b)\alpha \\ = f(x_{k})-g_{k}^{T}g_{k}\alpha+\frac{1}{2}g_{k}^{T}Gg_{k}\alpha^{2}$ 对 $\alpha$ 求导，由凸函数性质，极小值必要条件，得最优步长为
$\alpha_{k}=\frac{g_{k}^{T}g_{k}}{g^{T}_{k}Gg_{k }}$ $\qquad$ 将最优步长带上式中，得到迭代方程(二分之一的来历！！！！，使用泰勒展开为一阶没有二分之一，直接带入原方程中有二分之一，有无受泰勒展开的精度影响)
$f(x_{k+1})=f(x_{k})-\frac{1}{2}\frac{(g_{k}^{T}g_{k})^{2}}{g_{k}^{T}Gg_{k}}$ $\qquad$ 由 $Gx^{*}=-b$ 得 $f(x^{*})=-\frac{1}{2}b^{T}G^{-1}b$ 得到
$\frac{f(x_{k+1})-f(x^{*})}{f(x_{k})-f(x^{*})}=1-\frac{\frac{(g_{k}^{T}g_{k})^{2}}{g_{k}^{T}Gg_{k}}}{x_{k}^{T}Gx_{k}+2b^{T}x_{k}+b^{T}G^{-1}b}\\ = 1-\frac{\frac{(g_{k}^{T}g_{k})^{2}}{g_{k}^{T}Gg_{k}}}{(Gx_{k}+b)^{T}G^{-1}(Gx_{k}+b)}\\ = 1-\frac{(g_{k}^{T}g_{k})^{2}}{(g_{k}^{T}Gg_{k})(g_{k}^{T}G^{-1}g_{k})}$ $\qquad$ 由在 $G$ 度量的定义下， $x_{k}$ 的误差等价于它的目标函数值 $f(x_{k})$ 的误差。得：
$\frac{||x_{k+1}-x^{*}||^{2}_{G}}{||x_{k}-x^{*}||^{2}_{G}}=1-\frac{(g_{k}^{T}g_{k})^{2}}{(g_{k}^{T}Gg_{k})(g_{k}^{T}G^{-1}g_{k})}$ $\qquad$ 由 $K a n t o r o v i c h$ 不等式得到
$\frac{||x_{k+1}-x^{*}||^{2}_{G}}{||x_{k}-x^{*}||^{2}_{G}}\leq(\frac{\lambda_{max}-\lambda_{min}}{\lambda_{max}+\lambda_{min}})^{2}$ 得到最速下降法得收敛速度是线性的，这个速度依赖于G的最大、最小特征值。
$\qquad$ 条件数 线性方程组 $G x + b = 0$ 是由 $G$ 和 $b$ 确定的(求解 $x^{*}$ )，当 $G$ 和 $b$ 中的数据带有误差时(产生扰动)，则两个参数扰动对线性方程组的求解影响由条件数反映。 $\color{#F00}{条件数的定义！！！}$
$cond(G)=||G||\ ||G||^{-1}$ $\qquad$ 称为矩阵 $G$ 的条件数，条件数与范数有关，如
$||G||_{2}||G^{-1}||_{2}=\frac{\lambda_{max}}{\lambda_{min}}$ 若矩阵 $G$ 的条件数很大，扰动对解的影响就可能很大，这种问题称为病态的。
$\qquad$ 由最速下降法收敛速度式得：
$\frac{\lambda_{max}+\lambda_{min}}{\lambda_{max}-\lambda_{min}}=\frac{cond(G)-1}{cond(G)+1}\mathop{=}\limits^{\Delta}\mu$ $\qquad$ 最速下降法收敛速度依赖于 $G$ 得条件数，当条件数接近1时，收敛速度接近超线性收敛，条件数越大，收敛速度越慢。