AIC准则的理解

大家好，又见面了，我是你们的朋友全栈君。

AIC = (-2)ln(模型的极大似然函数) + 2(模型的独立参数个数)

一、AIC准则的产生

（1）最终预报误差

对于自回归 $A R (k)$ 模型，用前 $k$ 期观测值的线性组合拟合当期序列取值，通过选择回归系数使得预测误差达到最小，即选择合适的 $a_i$ ，使得
$s_k^2 = \frac1N\sum(y_n-a_0-a_1y_{n-1}-\cdots – a_ky_{n-k})^2$ 达到最小。
用预报误差的平均值来评价模型拟合的优劣，将其称为最终预报误差 $=E(y_n-\hat{a}_{k0}-\hat{a}_{k1}y_{n-1}-\cdots – \hat{a}_{kk}y_{n-k})^2$ 因此模型的阶数 $k$ 的选择问题就等价为 $F P E$ 的极小化问题
赤池弘次已经提出，对于 $A R (k)$ 模型， $\frac{N+k}{N-k}(\gamma(0) – \sum_{i=1}^k \hat{\phi}_i \gamma _i)$

（2）K-L距离（相对熵）

熵的概念来源于信息论，一般用于衡量信源发出的信息中包含的不确定性的大小，计算公式为 $H=-\sum_{i=1}^Np(x_i)\cdot \mathrm{log}p(x_i)$ 根据熵可以计算出用估计的概率分布近似代替原始数据分布时损失的信息。
K-L距离（相对熵）：
设 $p$ 为实际概率分布， $q$ 为估计的概率分布，则K-L距离为 $D(P||Q)=E(\mathrm{log}\frac{P(X)}{Q(X)}）=\int p(x)\mathrm{log}\frac{P(x)}{Q(x)}dx$ ，当进行拟合时，希望两分布之间的K-L距离越小越好。

（3）AIC的产生

① 极大似然估计的本质

设因变量 $Y$ 具有条件概率密度函数 $f(y|\theta)$ ，当使用极大似然法进行参数估计时，实际上是选择使得似然函数 $L(\theta) =f(y_1|\theta)\cdots f(y_N|\theta)$ 达到最大的估计值 $\hat{\theta}$ 作为参数值。
由于 $N\to \infty$ 时， $\frac1N \sum lnf(y_i|\theta)\to Elnf(Y|\theta)$ 。因此 $\hat{\theta}$ 也是使得 $Elnf(Y|\theta)$ 达到最大的估计值。
设 $Y$ 的真实分布为 $g(y)=f(y|\theta_0)$ ，则K-L距离： $D(g(\cdot)||f(\cdot|\theta))= \int g(y)\mathrm{ln}\frac{g(y)}{f(y|\theta)}dy=E\mathrm{ln}g(Y)-E\mathrm{ln}f(Y|\theta)$ 因此 $\hat{\theta}$ 即等价于使K-L距离达到最小的参数估计，这也是极大似然法的本质。

② 参数估计量的评价准则

类比 $F P E$ 准则，用 $E[D(g||f(|\hat{\theta}))]$ 衡量参数估计量的好坏。（这里可以复习一下条件期望的知识），由于 $E\mathrm{ln}g(Y)$ 为常数，因此只考虑 $E[E\mathrm{ln}f(Y|\hat{\theta})]$ 。

③ AIC准则的导出

设 $\lambda = \frac{\max l(\theta_0)}{\max l(\hat{\theta})}$ ，则当 $N\to \infty$ 时， $-2\mathrm{ln}\lambda \to \chi^2(k)$ ， $k$ 为 $\theta$ 的维数。
由于 $E(\chi^2(k))=k$ ，因此 $2l(\hat{\theta})$ 比 $2l(\theta_0)$ 平均多 $k$ ，则可以导出AIC准则。
当模型为高斯过程时， $F P E$ 与AIC准则等价。

（4）AIC准则的评价

AIC准则的第一部分是极大似然函数的对数，是从样本信息对总体信息的反映程度即模型拟合情况考虑的；第二部分是对模型复杂度的惩罚，达到满足模型有效性和可靠性条件下参数个数最少。它既考虑了模型的拟合情况，又考虑了复杂度的影响，采用在同等拟合优度条件下参数最少的模型作为估计模型。
AIC准则突破了以往仅从模型拟合情况的评价标准，其出发点是最小化K-L距离（相对熵），需要同时满足有效性、可靠性和经济性。AIC值越小，估计概率分布越接近真实分布。
大样本条件下，AIC准则中第二部分的惩罚较小，第一项起主导作用，最优模型不收敛于真实情况。

从 $F P E$ 准则到AIC准则的变化实际上是从预测值差异最小到预测分布差异最小的质的变化。

二、AIC准则的应用

模型定阶和模型选择
独立性检验
列联表独立性检验中，对数似然函数为 $\sum_i \sum_j n(i,j) \mathrm{ln} p(i,j)$ 当对模型没有限制时，取 $p (i, j) = n (i, j) / N$ 可得最大似然函数值，且参数 $p (i, j)$ 中可自由取值的个数为 $r c - 1$ ，此时AIC信息量为 $AIC_1=(-2)\sum_i \sum_j n(i,j) \mathrm{ln} \frac{n(i,j)}{N}+2\cdot (rc – 1)$ 当对模型有独立性限制时， $\cdot) p(\cdot,j), \sum_{i}p(i,\cdot) = 1,\sum_{j} p(\cdot, j) = 1$ 因此可自由取值的参数个数为 $(r - 1) (c - 1)$ ，且取 $\frac{N(i,\cdot)}{N}\cdot \frac{N(\cdot,j)}{N}$ 时似然函数值达到最大，相应地可以计算出 $AIC_2$ 。
若 $AIC_2 <AIC_1$ 则应当采用有独立性约束模型。
相比 $\chi^2$ 独立性检验，AIC准则不需要主观决定显著性水平的值，因此AIC准则可以用于统计分析自动化
方差分析
主要考虑方差分析模型中交互效应显著性问题。
$N\mathrm{ln} (残差平方和) + 2(自由度)$
因子分析模型
利用AIC准则确定公共因子的个数，使得公共因子既能解释原始变量较多的信息，又不会因为公共因子过多而造成解释信息冗余、增加解释既有因子的复杂度，同时减少了根据贡献率选择公共因子个数时的主观性作用。
$\mathrm{ln} (l(\theta)) + 2(参数个数)$ 其中, $\mathrm{ln} (l(\theta))= -\frac1 2 N[\mathrm{ln} |\Sigma_k| + tr(\Sigma_k^{-1}S)]$ $\frac1 N \sum (y_i – \bar {y})(y_i-\bar{y})’$ $\Sigma_k = A_KA_K’ + D_k$

参考文献：
[1] 李子奈.计量经济学模型方法论的若干问题[J].经济动态,2007(10):22-30.
[2] 陈晓峰.AIC准则及其在计量经济学中的应用研究[D].天津:天津财经大学,2012.
[3] 刘璋温.赤池信息量准则 AIC 及其意义[J].数学的实践与认识,1980(03):64-72.

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/142188.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...