设统计模型为
P={Pθ:θ∈Θ}, 并假设在某个共同控制测度下存在密度或概率质量函数 f(x;θ)。对单个观测 X,其对数似然函数和 score 函数分别为
ℓ(θ;X)=logf(X;θ),U(θ;X)=∇θℓ(θ;X). 若正则条件成立,例如参数空间内部可微、积分与微分可交换、分布支撑不依赖于 θ,则单个观测的 Fisher 信息矩阵定义为
I1(θ)=Eθ[U(θ;X)U(θ;X)⊤]=Varθ(U(θ;X)). 在同样的正则条件下,也可以写成负的期望 Hessian:
I1(θ)=−Eθ[∇θ2ℓ(θ;X)]. 若 θ 是一维参数,则 Fisher 信息量退化为标量
I1(θ)=Eθ[(∂θ∂logf(X;θ))2]=−Eθ[∂θ2∂2logf(X;θ)]. 对于独立但不一定同分布的样本 X1,…,Xn,若第 i 个观测的密度为 fi(xi;θ),则
ℓn(θ)=i=1∑nlogfi(Xi;θ),Un(θ)=∇θℓn(θ)=i=1∑nUi(θ). 此时样本 Fisher 信息矩阵为
In(θ)=Eθ[Un(θ)Un(θ)⊤]=i=1∑nIi(θ). 特别地,若 X1,…,Xn 独立同分布,且每个观测的单观测信息矩阵都是 I1(θ),则
In(θ)=nI1(θ),n1In(θ)=I1(θ). 对依赖样本,例如时间序列 X1,…,XT,通常应从联合密度或条件联合密度 fT(x1,…,xT;θ) 出发:
ℓT(θ)=logfT(X1,…,XT;θ),IT(θ)=Eθ[∇θℓT(θ)∇θℓT(θ)⊤]. 在正则条件下,
IT(θ)=−Eθ[∇θ2ℓT(θ)]. 如果模型平稳且极限存在,常用单位时间 Fisher 信息矩阵表示长期平均信息量:
I(θ)=T→∞limT1IT(θ). 与 Fisher 信息量相近但不同的是观测信息量,它不再对样本取期望,而是直接使用已经观测到的数据:
Jn(θ)=−∇θ2ℓn(θ). 实际估计中经常在极大似然估计量 θ^ 处使用 Jn(θ^) 或 In(θ^) 来近似估计量的方差。一般而言,在适当正则条件下,
Varθ(θ^)≈In(θ)−1, 一维情形下的 Cramér--Rao 下界为
Varθ(T)≥In(θ)1 其中 T 是无偏估计量。