计量复习笔记 (VIII):自回归估计与 (A)DF 检验
本系列之终章。

Info

本系列是2023年春季学期《应用计量经济学》期末复习笔记,仅涵盖时间序列部分,对应 Hansen (2022) Econometrics 第14和16章的内容。

内容提要 

介绍了单位根假设下自回归系数的 OLS 估计量的渐进分布,以及由此而来的 (Augmented) Dicky-Fuller 单位根检验。

AR(1) 的估计和单位根检验 

设 $Y_t$ 是一个 AR(1) 过程:$Y_t = \alpha Y_{t-1} + e_t$,为简化问题1,这里 $e_t$ 是平稳遍历的鞅差分,方差为 $\sigma_e^2$。

在平稳情形下,即 $\|\alpha\| < 1$ 时,我们对 OLS 估计量 $\hat{\alpha}$ 以 $\sqrt{n}$ 作为 scaling,容易得到

$$ \sqrt{n}(\hat{\alpha} - \alpha) = \sqrt{n}\frac{\sum_{t=2}^nY_{t-1}e_t}{\sum_{t=2}^nY_{t-1}^2} = \frac{n^{-1/2}\sum_{t=2}^nY_{t-1}e_t}{n^{-1}\sum_{t=2}^nY_{t-1}^2} \to_d N(0,1-\alpha^2) $$

可见,当 $\alpha \to 1$,上式将依概率收敛到 0。这也说明,$\sqrt{n}$ 放缩对于单位根是不够的。

事实上,当 $\alpha = 1$,即单位根情形下2,应采用 $n$ 作为 scaling:

$$ n(\hat{\alpha} - 1) = \frac{n^{-1}\sum_{t=2}^nY_{t-1}e_t}{n^{-2}\sum_{t=2}^nY_{t-1}^2} $$

分母项的收敛利用前一讲的推导方法可以得到:

$$ \begin{align*} \frac{1}{n^2}\sum_{t=2}^nY_{t-1}^2 &= \frac1n\sum_{t=2}^n\left(\frac{Y_t}{\sqrt{n}}\right)^2 \\ &= \sum_{t=2}^n\int_{t/n}^{(t+1)/n}[Y_n(r)]^2\,dr \\ &= \int_0^1[Y_n(r)]^2\,dr + o_p(1) \\ &\to_d \int_0^1 [B(r)]^2\,dr \end{align*} $$

分子项的收敛涉及到随机积分。

Definition 1.

随机过程 $X(r)$ 关于 $Z(r)$ 在 $[0,1]$ 上的随机积分是一个概率极限:

$$ \int_0^1X(r)\,dZ(r) := \mathop{\mathrm{plim}}\limits_{n\to\infty}\sum_{i=1}^{n-1}{\textstyle X\bigl(\frac{i}{n}\bigr)\left[Z\bigl(\frac{i+1}{n}\bigr)-Z\bigl(\frac{i}{n}\bigr)\right]} $$

据此定义,我们有

$$ \frac1n\sum_{t=2}^nY_{t-1}e_t = \sum_{t=2}^n\frac{Y_{t-1}}{\sqrt{n}}\frac{e_t}{\sqrt{n}} = \sum_{t=2}^{n}{\textstyle Y_n\bigl(\frac{t-1}{n}\bigr)\left[Y_n\bigl(\frac{t}{n}\bigr)-Y_n\bigl(\frac{t-1}{n}\bigr)\right]} = \int_0^1 Y_n(r)\,dY_n(r) $$

尽管 $Y_n(r)\to_d B(r)$,但这不直接意味着上式依分布收敛到 $\int_0^1 B(r)\,dB(r)$,因为随机积分不是一个连续泛函,不能使用 CMT。不过我们确实有 $\int_0^1 Y_n(r)\,dY_n(r)\to_d\int_0^1 B(r)\,dB(r)$,其严格证明比较技术化。

另一种比较取巧的方式如下(简便起见,假设 $Y_0 = 0$):

$$ \begin{align*} \frac1n\textstyle\sum_{t=2}^nY_{t-1}e_t &= \frac1n\textstyle\sum_{t=2}^n\left(\sum_{j=1}^{t-1}e_j\right)e_t \\ &= \frac12\left[\frac1n\left(\textstyle\sum_{j=1}^ne_j\right)^2-\frac1n\textstyle\sum_{j=1}^ne_j^2\right] \\ &\to_d \frac12[B(1)^2-\sigma_e^2] = \int_0^1B(r)\,dB(r) \end{align*} $$

第一个等式由于我们假设了 $Y_0 = 0$ 而成立,$Y_0$ 当然可以为任意随机变量,这于最终结果只是一个 $o_p(1)$ 的影响。第二个等式使用了分步求和,很巧妙,因而只用普通 CLT 就可得到收敛性,注意 $B(1)\sim N(0,\sigma_e^2)$。最后一个等式是 Itô 积分。

Note

如果 $e_t$ 是弱相关序列,那么长期方差 $\gamma^2=\sigma_e^2 + 2\lambda$,$\int_0^1B(r)\,dB(r) = \frac12[B(1)^2-\gamma^2]$,最后的极限分布将是 $\int_0^1B(r)\,B(r)+\lambda$。

综上所述,我们得到最终结果:

$$ n(\hat{\alpha} - 1) \to_d \frac{\int_0^1B(r)\,dB(r)}{\int_0^1 [B(r)]^2\,dr} = \frac{\int_0^1W\,dW}{\int_0^1 W^2} $$

其中 $W(r)$ 是标准布朗运动,即 $W(1)\sim N(0,1)$。注意,这里还是使用了 CMT,因为分子部分等于 $\frac12W(1)^2-\frac12$ 相当于一个常数(不考虑随机性时),而分母部分是连续泛函。

Dickey-Fuller 单位根检验 

DF 检验统计量和经典的 t-statistic 形式相同:

$$ \text{DF t-stat }= \frac{\hat{\alpha}-1}{\text{se}(\hat{\alpha})} = \frac{\sum y_{t-1}e_t/\sum y_{t-1}^2}{\hat{\sigma}_e\Big/\sqrt{\sum y_{t-1}^2}} = \frac{n^{-1}\sum y_{t-1}e_t}{\hat{\sigma}_e\sqrt{n^{-2}\sum y_{t-1}^2}} \to_d \frac{\int_0^1 W\,dW}{\bigl(\int_0^1 W^2\bigr)^{1/2}} $$

可以看到,在原假设 $\alpha=1$ 下,DF 检验统计量并不服从正态分布,其分布没有解析表达式而只能通过模拟得到,是一个非对称分布。

带截距项回归 

设 $Y_t$ 是一个带截距项的单位根 $Y_t = \mu + \alpha Y_{t-1} + e_t$。根据 Frisch-Waugh-Lovell (FWL) 定理,$\hat{\alpha}$ 可由除均值序列 $Y_t^* = Y_t-\frac1n\sum_{\tau=1}^{n-1}Y_\tau$ 自回归得到,于是根据上一讲的内容,我们可以推出

$$ n(\hat{\alpha} - 1) = \frac{n^{-1}\sum_{t=2}^nY_{t-1}^{*}e_t}{n^{-2}\sum_{t=2}^n(Y_{t-1}^{*})^2} \to_d \frac{\int_0^1W^{*}\,dW}{\int_0^1 (W^{*})^2} $$

其中 $W^*(r) = W(r) - \int_0^1W$。

对应的 DF 检验统计量在原假设下的极限具有和无截距项时相似的表达式。

带时间趋势项回归 

设 $Y_t = \mu + \beta t + \alpha Y_{t-1} + e_t$。依然由 FWL 定理,$\hat{\alpha}$ 可由除趋势序列 $Y_t^{**}$ 自回归得到,因此

$$ n(\hat{\alpha} - 1) = \frac{n^{-1}\sum_{t=2}^nY_{t-1}^{**}e_t}{n^{-2}\sum_{t=2}^n(Y_{t-1}^{**})^2} \to_d \frac{\int_0^1W^{**}\,dW}{\int_0^1 (W^{**})^2} $$

其中 $W^{**} = W - \bm{X}'\bigl(\int_0^1\bm{X}\bm{X}'\bigr)^{-1}\int_0^1\bm{X}W$。

AR(p) 的估计和单位根检验 

假设 $Y_t$ 是一个 AR($p$) 过程:$a(L)Y_t=e_t$,$e_t$ 仍为一个平稳遍历的鞅差分,方差 $\sigma_e^2$;$a(z)$ 是一个可逆的 $p$ 阶多项式。

假设 $a(z)$ 有一个单位根,换言之,$a(z) = (1-z)\tilde{a}(z)$,$\tilde{a}(z)$ 是一个可逆 $p-1$ 阶多项式。这意味着

$$ \tilde{a}(L)\Delta Y_t = e_t \Rightarrow Y_t = Y_{t-1} + \tilde{b}(L)e_t $$

即 $Y_t$ 本身就是一个随机游走。我们可通过 Beveridge-Nelson 分解得到其均值和趋势的极限分布,但现在我们关心的是估计和检验的问题。

首先注意到 $Y_t$ 可以写成

$$ Y_t = a_1Y_{t-1} + \dots + a_pY_{t-p} + e_t $$

其中必有 $a_1+\dots+a_p = 1$,因为单位根的存在。或者表述成更紧凑的形式

$$ Y_t = \bm{a}'\bm{W}_{t-1} + e_t \quad\text{where }\bm{a} = (a_1,\dots,a_p)', \bm{W}_{t-1} = (Y_{t-1},\dots,Y_{t-p})' $$

然后,我们使用矩阵做一点小小的变换:

$$ Y_t = (\bm{B}\bm{a})'(\bm{B}')^{-1}\bm{W}_{t-1} + e_t = (\rho,\bm{\beta}')(Y_{t-1},\bm{X}'_{t-1})' + e_t $$

其中变换矩阵 $\bm{B}$ 和其逆矩阵的转置(取 $p=3$)形如

$$ \bm{B} = \begin{pmatrix} 1 & 1 & 1 \\ 0 & -1 & -1 \\ 0 & 0 & -1 \end{pmatrix}\quad (\bm{B}')^{-1} = \begin{pmatrix} 1 & 0 & 0 \\ 1 & -1 & 0 \\ 0 & 1 & -1 \end{pmatrix} $$

因此 $\rho = a_1+\dots+a_p=1$,$\bm{X}_{t-1} = (\Delta Y_{t-1},\dots,\Delta Y_{t-p+1})$。我们实际上在将 $Y_t$ 写为

$$ Y_t = \rho Y_{t-1} + \beta_1\Delta Y_{t-1} + \dots + \beta_{p-1}\Delta Y_{t-p+1} + e_t $$

这方便我们做回归并直接检验 $\rho = 1$ 而不必做联合检验。这种手法在初级计量接触过。此外,上述变换将回归元分为单位根部分 $Y_{t-1}$ 和平稳部分 $\bm{X}_{t-1}$。

于是,我们为 $\hat{\rho}$ 和 $\hat{\bm{\beta}}$ 选择不同的 scaling:

$$ \begin{pmatrix} n(\hat{\rho}-1) \\ \sqrt{n}(\hat{\bm{\beta}}-\bm{\beta}) \end{pmatrix} = \begin{bmatrix} \displaystyle \frac{1}{n^2}\sum_{t=1+p}^nY_{t-1}^2 & \displaystyle\frac{1}{n^{3/2}}\sum_{t=1+p}^nY_{t-1}\bm{X}_{t-1}' \\ \displaystyle\frac{1}{n^{3/2}}\sum_{t=1+p}^n\bm{X}_{t-1}Y_{t-1} & \displaystyle\frac{1}{n}\sum_{t=1+p}^n\bm{X}_{t-1}\bm{X}_{t-1}' \end{bmatrix}^{-1} \begin{bmatrix} \displaystyle \frac1n\sum_{t=1+p}^nY_{t-1}e_t \\ \displaystyle \frac1{\sqrt{n}}\sum_{t=1+p}^n\bm{X}_{t-1}e_t \end{bmatrix} $$

我们依次对各项进行分析。首先根据 Beveridge-Nelson 分解我们知道 $Y_n(r)\to_d B(r)$,单位时间方差 $\sigma_y^2=\sigma_e^2/a(1)^2$,因此

$$ \frac{1}{n^2}\sum_{t=1+p}^nY_{t-1}^2 \to_d \frac{\sigma_e^2}{a(1)^2}\int_0^1W^2 $$

交叉项是一个 $p-1$ 维向量,我们分析其中一个分量,例如第一个分量

$$ \frac{1}{n^{3/2}}\sum_{t=1+p}^nY_{t-1}\Delta Y_{t-1} = \frac{1}{\sqrt{n}}\frac1n\sum_{t=1+p}^n(Y_{t-1}^2-Y_{t-1}Y_{t-2}) = \frac{1}{\sqrt{n}} O_p(1) = o_p(1) $$

类似可证明其他分量也是 $o_p(1)$。

$\bm{X}_{t-1}$ 是平稳遍历的,因此遍历定理表明 $n^{-1}\sum\bm{X}_{t-1}\bm{X}_{t-1}'\to_p\bm{Q}=\mathbb{E}(\bm{X}\bm{X}')$。此外,$\bm{X}_{t-1}e_t$ 是平稳弱相关的(但不再是鞅差分,因而无法使用鞅差分 CLT),采用对应的 CLT(课本定理 14.15),我们有

$$ \frac1{\sqrt{n}}\sum_{t=1+p}^n\bm{X}_{t-1}e_t \to_d N(\bm{0},\bm{\Omega}) \quad\text{where } \bm{\Omega}=\mathbb{E}(\bm{X}_{t-1}\bm{X}_{t-1}'e_t^2) $$

最后,$\frac1n\sum_{t=1+p}^nY_{t-1}e_t$ 的极限分布

$$ \frac1n\sum_{t=1+p}^nY_{t-1}e_t \to_d \int_0^1B_y(r)\,B_e(r) = \sigma_y\sigma_e\int_0^1W\,dW $$

注意 $B_y$ 和 $B_e$ 是完全相关的两个布朗运动,它们标准化后是同一个标准布朗运动。

综合以上分析,我们有

$$ \begin{pmatrix} n(\hat{\rho}-1) \\ \sqrt{n}(\hat{\bm{\beta}}-\bm{\beta}) \end{pmatrix}\to_d \begin{pmatrix} \sigma_y^2\int_0^1W^2 & 0 \\ 0 & \bm{Q} \end{pmatrix}^{-1} \begin{pmatrix} \sigma_y\sigma_e\int_0^1W\,dW \\ N(\bm{0},\bm{\Omega}) \end{pmatrix} = \begin{pmatrix} a(1)\frac{\int_0^1W\,dW}{\int_0^1W^2} \\ N(\bm{0},\bm{Q}^{-1}\bm{\Omega}\bm{Q}^{-1}) \end{pmatrix} $$

可见,在渐进分布中,平稳部分和非平稳部分是不相干的。

若要恢复对原模型的估计,只需要做逆变换 $\bm{a} = \bm{B}^{-1}(\rho,\bm{\beta}')'$,我们有

$$ \sqrt{n}(\hat{\bm{a}}-\bm{a}) = \sqrt{n}\bm{B}^{-1} \begin{pmatrix} n^{-1} & 0 \\ 0 & n^{-1/2} \end{pmatrix} \begin{pmatrix} n(\hat{\rho}-1) \\ \sqrt{n}(\hat{\bm{\beta}}-\bm{\beta}) \end{pmatrix}\to_d \bm{B}^{-1} \begin{pmatrix} o_p(1) \\ N(\bm{0},\bm{Q}^{-1}\bm{\Omega}\bm{Q}^{-1}) \end{pmatrix} $$

令 $\bm{G} = \bm{B}^{-1}(:,2:p)$,则

$$ \sqrt{n}(\hat{\bm{a}}-\bm{a}) \to_d N(\bm{0},\bm{G}\bm{Q}^{-1}\bm{\Omega}\bm{Q}^{-1}\bm{G}') $$

可见单位根的存在完全不影响对原 AR 模型的估计和检验,我们可以假装看不见而采用经典的估计和检验方法。这本质上是因为单位根部分以 $O_p(n^{-1})$ 的速率收敛,在寻常的 $\sqrt{n}$ 缩放下依然是收敛的。

Augmented Dickey-Fuller 检验 

依照上述推导,ADF 检验 $H_0\colon\rho=1$ vs. $H_1\colon\rho<1$,检验统计量及分布:

$$ \text{ADF t-stat }= \frac{\hat{\rho}-1}{\text{se}(\hat{\rho})} = \to_d \frac{\int_0^1 W\,dW}{\bigl(\int_0^1 W^2\bigr)^{1/2}} $$

此外,还有带截距项、带趋势项回归的检验,统计量和分布可比照 AR(1) 情形。

参考 

Hansen, Bruce (2022). Econometrics. Princeton University Press.

Phillips, Peter C.B. (1987). “Time Series Regression with a Unit Root.” Econometrica, 55(2), 277-301.

Phillips, Peter C.B. and Xiao, Zhijie (1998). “A Primer on Unit Root Testing.” Journal of Economic Surveys, 12(5), 423-470.

Xiao, Zhijie (2014). “Unit Roots: A Selective Review of the Contributions of Peter C.B. Phillips.” Econometric Theory, 30(4), 775-814.



  1. $e_t$ 可以是平稳弱相关序列,这会导致后文极限分布表达式中包含 $e_t$ 的长期协方差,例如,见 Xiao (2014) 或文中 Note。 ↩︎

  2. 对于 $\alpha = -1$,我们有 $Y_t = Y_{t-2} + \Delta e_t$,令 $X_{t-j} = Y_{t-2j}$,则 $X_t$ 是一个随机游走。因此分析 $\alpha = 1$ 不失一般性。 ↩︎


最后修改于 2024-09-04