模型的参数估计

Abstract¶

在时间序列的模型识别中，我们通过ACF, PACF, EACF等方法能够在给定样本数据时去判断ARIMA模型的p和q，本章关注在确定了ARIMA模型时如何利用样本去估计模型本身的参数。本章介绍估计模型参数的矩估计、最小二乘估计以及极大似然估计。

Keywords:矩估计极大似然估计最小二乘估计¶

在讨论极大似然估计量的精度和渐近分布之前，需要先引入 Fisher 信息量。直观上，Fisher 信息量衡量样本分布对参数变化的敏感程度；信息量越大，似然函数在真参数附近通常越尖锐，参数估计的不确定性越小。

定义：Fisher 信息量

设统计模型为

\mathcal{P}=\{P_\theta:\theta\in\Theta\},

并假设在某个共同控制测度下存在密度或概率质量函数 $f(x;\theta)$ 。对单个观测 $X$ ，其对数似然函数和 score 函数分别为

\ell(\theta;X)=\log f(X;\theta), \qquad U(\theta;X)=\nabla_\theta \ell(\theta;X).

若正则条件成立，例如参数空间内部可微、积分与微分可交换、分布支撑不依赖于 $\theta$ ，则单个观测的 Fisher 信息矩阵定义为

I_1(\theta) =\mathbb{E}_\theta\!\left[ U(\theta;X)U(\theta;X)^\top \right] =\operatorname{Var}_\theta\!\left(U(\theta;X)\right).

在同样的正则条件下，也可以写成负的期望 Hessian：

I_1(\theta) =-\mathbb{E}_\theta\!\left[ \nabla_\theta^2 \ell(\theta;X) \right].

若 $\theta$ 是一维参数，则 Fisher 信息量退化为标量

I_1(\theta) =\mathbb{E}_\theta\!\left[ \left(\frac{\partial}{\partial\theta}\log f(X;\theta)\right)^2 \right] =-\mathbb{E}_\theta\!\left[ \frac{\partial^2}{\partial\theta^2}\log f(X;\theta) \right].

对于独立但不一定同分布的样本 $X_1,\ldots,X_n$ ，若第 $i$ 个观测的密度为 $f_i(x_i;\theta)$ ，则

\ell_n(\theta) =\sum_{i=1}^n \log f_i(X_i;\theta), \qquad U_n(\theta) =\nabla_\theta\ell_n(\theta) =\sum_{i=1}^n U_i(\theta).

此时样本 Fisher 信息矩阵为

I_n(\theta) =\mathbb{E}_\theta\!\left[ U_n(\theta)U_n(\theta)^\top \right] =\sum_{i=1}^n I_i(\theta).

特别地，若 $X_1,\ldots,X_n$ 独立同分布，且每个观测的单观测信息矩阵都是 $I_1(\theta)$ ，则

I_n(\theta)=nI_1(\theta), \qquad \frac{1}{n}I_n(\theta)=I_1(\theta).

对依赖样本，例如时间序列 $X_1,\ldots,X_T$ ，通常应从联合密度或条件联合密度 $f_T(x_1,\ldots,x_T;\theta)$ 出发：

\ell_T(\theta)=\log f_T(X_1,\ldots,X_T;\theta), \qquad I_T(\theta) =\mathbb{E}_\theta\!\left[ \nabla_\theta\ell_T(\theta)\nabla_\theta\ell_T(\theta)^\top \right].

在正则条件下，

I_T(\theta) =-\mathbb{E}_\theta\!\left[ \nabla_\theta^2\ell_T(\theta) \right].

如果模型平稳且极限存在，常用单位时间 Fisher 信息矩阵表示长期平均信息量：

\mathcal{I}(\theta) =\lim_{T\to\infty}\frac{1}{T}I_T(\theta).

与 Fisher 信息量相近但不同的是观测信息量，它不再对样本取期望，而是直接使用已经观测到的数据：

J_n(\theta) =-\nabla_\theta^2\ell_n(\theta).

实际估计中经常在极大似然估计量 $\hat{\theta}$ 处使用 $J_n(\hat{\theta})$ 或 $I_n(\hat{\theta})$ 来近似估计量的方差。一般而言，在适当正则条件下，

\operatorname{Var}_\theta(\hat{\theta}) \approx I_n(\theta)^{-1},

一维情形下的 Cramér--Rao 下界为

\operatorname{Var}_\theta(T) \geq \frac{1}{I_n(\theta)}

其中 $T$ 是无偏估计量。