最小二乘法原理和推导过程「建议收藏」

全栈程序员-用户IM • 2022年5月17日上午9:20 • 未分类

大家好，又见面了，我是你们的朋友全栈君。

对于有误差的统计值，我们一般都是采用均值作为使用值。但是这种使用均值代替的方式是不是合理？为什么不用中位数、几何平均数什么的？这需要一个解释。

1.什么是二乘？

对于一列数字，比如10.1、10.3、9.7、9.9、10.5来说，我们要采用一个数字Y来替代他们。要求是这些数与Y的差异要达到最小。在数学上就是：

‍

最小二乘法原理和推导过程「建议收藏」

但是数学上对于求绝对值比较排斥，一般直接采用求平方代替。也就是二乘的来源

最小二乘法原理和推导过程「建议收藏」

那么我们要计划使用的值Y就是关于e的一元函数，也就是说不同的Y，对我们的e都有影响，而我们要想e最小，就让Y的偏导数为0，也就是：

最小二乘法原理和推导过程「建议收藏」

得到Y为：

最小二乘法原理和推导过程「建议收藏」

这样是说最小二乘法得到Y值就是平均数；

2.最小二乘的推广

通过上边的分析，我们可以得出最小二乘法的数学表达式的推广模式：

最小二乘法原理和推导过程「建议收藏」

其中fx是待探索的期望函数，yi表示真实数据。要是函数e最小，则让e对fx的偏导数等于0，如果fx为一个多元函数，那么将其带入。然后分步求导，并让其在各个变量上的偏导数为0，然后得出fx的真实表达式。

3.对于一般线性方程的二乘法学习

我们假设要探索的函数方程为：

最小二乘法原理和推导过程「建议收藏」

那么：

最小二乘法原理和推导过程「建议收藏」

要使得e的值达到最小，已知x和yi，对于k和b来说采用不同的值，e的值会有不同的变化，那么我们使用e对k和b分别求偏导数。

最小二乘法原理和推导过程「建议收藏」

然后计算一下（痛苦的过程，别问我怎么知道使用求和性质的，我是百度的，我也不知道这个东西）；

最小二乘法原理和推导过程「建议收藏」

从另外一个角度思考，对于很多数据来说他们肯定落在一个区域内。通过上述分析，最小二乘法能够得出这些点的误差最小点。那么这些点与这个标志点的距离就可以形成一种分布概率密度函数（曲面），那么曲面的顶点对应的映射点按理就是这个标志点。也就是说概率密度函数在该点的偏导数为0，伟大的数学家高斯通过计算证明了这一点，从而奠定了最小二乘法的权威地位。

最小二乘法原理和推导过程「建议收藏」