第2章因子投资方法论
本章介绍学术界在进行实证资产定价研究时最常用的方法。熟悉并掌握它们有两个作用。首先,在金融学、经济学、会计学的顶级期刊,以及投资业界的最高水平期刊上,大量关于实证资产定价和因子投资的文章均会使用这些方法[1]。掌握它们有助于读懂最新的论文,获得研究因子的新思路。其次,很多方法(例如投资组合排序法和Fama-MacBeth回归)在业界的因子研究中得到了广泛的应用。
本章内容共分为8节,把因子投资方法论中的各知识点按照严谨的先后顺序有机地串联在一起。为了帮助读者更好地学习本章内容,以下首先简要说明本章的结构,每节的开头则会进一步解释上下文的关联。本章的2.1节首先介绍如何使用排序法构建因子模拟组合并进行检验,它是一切的基础。无论是研究多因子模型还是异象,都需要用到它。接下来的2.2节是本章的核心,说明如何使用不同的回归方法对多因子模型进行检验。2.3节将进一步对因子暴露和因子收益率检验进行解读。因子投资中的一个重要内容是通过异象获取多因子模型无法解释的超额收益,本章的2.4节就来讨论这个问题。2.5节解读比较不同多因子模型的方法,它一直是学术界研究的热点。本章的2.6和2.7两节内容相对独立。2.6节说明因子正交化的重要性。在业界进行因子投资时,因子正交化是十分常见的处理方式。2.7节介绍广义矩估计。掌握这个非常强大的计量经济学工具将为今后持续展开因子投研工作打下坚实的基础。最后,2.8节对全章内容进行总结,给出因子投资中使用这些方法的建议。
在正式介绍不同的方法之前,先来说说本章的写作风格。本章的内容将不可避免地涉及大量的数学公式。然而,本书的目标并不是成为纯理论的“数学”书,因此行文不会变成定理或者证明的罗列。美国金融协会前主席、实证资产定价领域的顶尖学者John Cochrane教授曾说“在现实和学术中,金融中的数学其实并不难。难的是理解如何使用这些方程,以及它们对这个世界的真正意义。”[2]本书作者十分认可上述观点,因此本书在介绍数学公式和推导时会遵循以下两个目标:(1)尽量阐述数学背后的直观含义,帮助读者理解公式所传递的内容;(2)把公式的表达和推演的逻辑说清楚,帮助读者在实际因子研究中应用这些方法。对于第一点,行文中会加入必要的图示,通过可视化解释公式的含义;对于第二点,行文中会抠一些看似不那么重要的细节,比如矩阵和向量的阶数。希望本章
的内容既能够让读者暂时跳出细节,直观上理解公式的全貌,又能为读者提供足够的细节,从而在研究和实践因子投资中运用它们。本着这两个目标,文中涉及的数学会力争严谨,但也会做到“点到为止”。对某个方法感兴趣的读者,可以进一步学习相关章节给出的参考文献。
[1]金融学领域公认的三大顶级期刊为Journal of Finance、Journal of Financial Economics以及Review of Financial Studies;经济学领域的顶级期刊包括American Economic Review、Journal of Economic Perspectives、Journal of Political Economy以及The Quarterly Journal of Economics等;会计学领域的顶级期刊包括Journal of Accounting and Economics、Journal of Accounting Research以及The Accounting Review等;投资业界的代表性期刊则要数The Journal of Portfolio Management。
[2]Cochrane教授的原话是“The math in real, academic, finance is not actually that hard. Understanding how to use the equations, and see what they really mean about the world…that's hard.”。
2.1 投资组合排序法
由1.1.2节因子的定义可知,一个因子代表了不同资产收益率的某种驱动力,而该因子的收益率就是这些资产的共性收益。然而在上述定义中,因子是十分抽象的。因子收益率是什么呢?它又如何计算呢?举例来说,股票市场的整体估值水平和股票的收益率密切相关,估值的高低能够影响股票收益率的共同涨跌。又比如,股票市场作为经济的晴雨表,股票收益率的高低又都受到宏观经济好坏(如GDP的高低)的影响。这些例子说明,像估值、GDP这些都可以作为因子来解释股票的收益率,但是如何定量计算它们的收益率呢?为了回答问题,就要用到实证资产定价和因子投资中的一个非常重要的概念——因子模拟投资组合(factor mimicking portfolio)。如果说因子是抽象的,那么因子模拟投资组合就是这个抽象概念的实际载体,它是定量研究和使用因子的出发点。
2.1.1 因子模拟投资组合
因子模拟投资组合是使用股票资产、围绕某目标因子构建的投资组合;该投资组合需满足以下两个条件:
- 条件一:该投资组合仅在目标因子上有大于零的暴露、在其他因子上的暴露为零;
- 条件二:在所有满足条件一的投资组合中,该投资组合的特质性风险(idiosyncratic risk)最小。
以下通过一个假想的例子逐条解读这两个条件。假设有两个因子A和B以及四支股票。表2.1给出了这些股票在这两个因子上的暴露以及它们的特质性风险。接下来按上述两个条件来构建因子A的因子模拟组合。
首先来看一个错误的做法,即按同等资金权重配置股票一和股票二。它们在因子A上的因子暴露都很高,似乎能够反映出因子A的收益率。然而,这种做法之所以错误,是因为这两支股票在因子B上的因子暴露也非常高。因此,由它们二者构成的投资组合的收益率将受到因子A和B的共同影响。这个问题就体现出满足上述定义中第一个条件的重要性:因子模拟投资组合的收益率应该仅由目标因子驱动,而不受其他因子的影响(意味着投资组合对于其他因子的因子暴露为零),这才能纯粹反映出该目标因子的收益。按照这个条件,可以选择按同等资金权重配置股票一和股票三。由于它们在因子B上的暴露取值相反,因此这二者构成的投资组合仅在因子A上有暴露,满足第一个条件。
表2.1 股票和因子暴露及特异风险示意
| 股票 | 因子A暴露 | 因子B暴露 | 特质性风险 |
| 股票一 | 0.8 | 0.4 | 1% |
| 股票二 | 1.3 | 0.6 | 2% |
| 股票三 | 0.6 | -0.4 | 5% |
| 股票四 | 1.2 | -0.4 | 1% |
上面第一条虽然很关键,但是在它的限制下,得到的投资组合并不一定是唯一的。比如同等权重配置股票一和股票三满足第一个条件;类似的,同等权重配置股票一和股票四也满足第一个条件。那么,它们是否都可以作为因子A的因子模拟组合?还是需要进一步取舍呢?这时就要给出第二个条件——因子模拟投资组合的特质性风险最小。该组合的特质性风险由构成它的个股的特质性风险决定。对于多因子模型来说,个股的特质性风险源自个股收益率在时序上的随机扰动,即式(1.5)中的 $\varepsilon_{t}$ 。对于一个满足条件一的投资组合,它的收益率由两部分驱动,分别为目标因子和构成该组合的个股的特质性风险。
如果该组合中特质性风险很高,那么特质性风险的影响就会压过目标因子而占主导地位,这会给因子收益率的计算带来较大的误差。换句话说,只有尽可能地排除特质性风险的影响、使得该投资组合的收益中的绝大部分都由目标因子驱动,才能够准确地计算因子的收益率。这正是第二个条件背后的动机。因子模拟投资组合是所有满足条件一的投资组合中,特质性风险最低的。回到上面的例子,在股票一和股票三、股票一和股票四这两个组合中,由表中数据可知,后者的特质性风险要低于前者,因而满足条件二。因此,根据因子模拟组合需满足的两个条件,最终可通过等权重配置股票一和股票四构建了因子A的因子模拟投资组合。
有了因子模拟投资组合,就可以计算因子收益率了。从定义出发,因子模拟投资组合就是针对某目标因子构建的投资组合;在条件一和条件二的约束下,该投资组合的收益率应尽可能地仅由目标因子驱动,因此该投资组合的收益率就是因子收益率。从上面的例子也不难看出,为了构建因子模拟组合,首先需要知道资产在不同因子上的暴露。在因子暴露已知的前提下,人们可以通过不同的方法来构建因子模拟投资组合。在众多方法中,有一个简化的方法在学术界的实证资产定价研究和业界的因子投资中均得到了广泛的应用,它就是投资组合排序法(portfolio sort),简称排序法。
2.1.2 排序法及其检验
大量研究发现,股票的收益率受很多因子的影响。因性质不同,因子又可以被分为不同的种类。以2.1节开篇举的两个例子来说,围绕诸如估值这类股票的财务信息或者量价数据构建的因子代表了最主流的一类因子,它们被称为股票的风格因子(style factor),典型的风格因子还包括市值、盈利、低波动等;而像围绕GDP这类经济数据构建的因子则被称为宏观经济因子。因子的种类远不止风格因子和宏观经济因子两类,上面的例子只是为了说明数据的属性决定了因子的类别。有必要指出的是,本节介绍的排序法是针对风格因子构建因子模拟投资组合
的一种简化方法。对于其他类型因子,比如宏观经济因子,该方法并不适用(2.2节会说明如何处理其他类型的因子)。话虽如此,由于风格因子在股票多因子模型中的地位无人能及,这种方法得到了广泛的使用。
前文2.1.1节的例子说明,构建因子模拟组合的前提是知道所有股票在该因子上的暴露。由式(1.3)可知,股票在某因子 $i$ 上的暴露 $\beta_{i}$ 反映的是在控制了其他因子后,该目标因子的收益率变化对股票超额收益变化的影响程度。这意味着首先需要知道因子收益率才能计算因子暴露。而从前文可知,首先需要有因子模拟组合才能计算因子收益率,而因子暴露又是构建因子模拟组合的前提条件。这种矛盾似乎让人们陷入“先有鸡还是先有蛋”的怪圈。排序法最大的优势则在于它舍弃了“因子暴露已知”这个条件,从而绕过了上述“怪圈”。
下面以账面市值比(book-to-market ratio,BM,即市净率的倒数)这个经典的估值指标为例介绍排序法。虽然BM是一个估值指标,但依照学术界的惯例,将通过它构建的因子称为价值因子而非估值因子。本书遵循上述惯例。在排序法中,将股票排序的变量(比如BM)被称为排序变量(sort variable,简称变量)。排序法中最核心的思想是使用个股在该变量上取值的大小来代替个股在该因子上暴露的高低。需要强调的是,该方法并没有假设变量的取值等于因子暴露,也没有假设这二者之间满足某种特定的数学关系。该方法仅假设变量和因子暴露是相关联的。以BM为例,该方法认为高BM的股票在围绕BM构建的价值因子上的暴露更高,低BM的股票在围绕BM构建的价值因子上的暴露更低,仅此而已。在这个核心思想下,人们虽然不知道个股在该因子上的暴露,但是却可以通过变量的高低来代替它,并以此为依据构建因子模拟投资组合。这正是排序法的方便之处。同时,这也解释了排序法为什么仅适用于风格因子。对于其他类型的因子(比如宏观经济因子),由于难以从个股本身的数据出发找到和因子暴露相关的变量,自然也就无法使用这种方法。
前面说完了排序法的核心思想,下面马上来介绍它的具体方法。排序法的英文名字是portfolio sort,它的背后包含了“按变量将股票排序”“把股票依排序分组构建投资组合”以及“定期更新投资组合”三个步骤。
(1) 排序: 首先确定股票池, 并将股票池中的全部股票在截面上按照排序变量 (本例中的BM) 的取值高低从大到小 (或从小到大[1] ) 排序。
(2)分组:按排名高低将全部股票分为 $L$ 组(依照惯例,一般根据变量取值分布的十分位数将全部股票分成10组,即 $L = 10$ )。做多排名最高的第一组内的股票,并同时做空排名最低的最后一组内的股票而构建一个多、空对冲的投资组合,该投资组合又被称为价差组合(spread portfolio)。由构建方式可知,价差组合中多、空两头的收益率分别为变量取值最高的1/L股票的收益和变量取值最低的1/L股票的收益,它们的差异就反映了围绕该变量构建的因子的收益率。因此,价差组合正是使用排序法构建的因子模拟投资组合,而价差组合的收益率正是该因子的收益率。需要指出的是,在构建价差组合时,通常要求多、空两个组合的金额相同,即整个因子模拟投资组合是资金中性的[2]。此外,由于多、空两个投资组合都包含多支股票,因此需要为它们选择个股加权方式,其中最常见的是市值加权和等权重。
(3) 定期更新: 由于个股在变量上的取值并非一成不变的(即代表它们在该
因子上的暴露也是随时间变化的),因此需要定期进行上述两步,完成对因子模拟投资组合的更新。学术界通常称上述更新为再平衡(rebalance),且再平衡的频率多为每月或每年。在每期构建了新的因子模拟投资组合之后,计算该组合在当前时刻和下一个再平衡时刻之间的收益率。在时序上如此往复,就得到因子收益率的时间序列。
通过排序法,人们可以方便地构建因子模拟投资组合,计算因子收益率以及由排序法得到的 $L$ 个投资组合的收益率。一旦有了这些数据,检验因子预期收益率,以及考察 $L$ 个投资组合收益率的单调性就构成了检验的内容。学术界将上述检验称为投资组合排序检验(portfolio sort test)。下面依次说明这两个检验内容。
投资组合排序检验最重要的目的是检验因子预期收益率。在关于因子的研究中,原假设通常为因子预期收益为零。由第1章的定义可知,因子的预期收益率应该大于零。因此,检验关注的是依据样本数据计算出的因子收益率,能否在给定的显著性水平下拒绝原假设。令 ${\lambda_t} (t = 1,2,\dots ,T)$ 代表因子收益率时间序列,则因子预期收益率的估计 $\hat{\lambda}$ 以及其标准误(standard error)s.e. $(\hat{\lambda})$ 分别为:
$$ \hat {\lambda} = \frac {1}{T} \sum_ {t = 1} ^ {T} \lambda_ {t} \tag {2.1} $$
$$ \text {s . e .} (\hat {\lambda}) = \frac {\operatorname {s t d} \left(\lambda_ {t}\right)}{\sqrt {T}} \tag {2.2} $$
其中std( $\lambda_t$ )表示 $\lambda_t$ 的标准差。上式说明将 ${\lambda_t}$ 在时序上取平均值就得到预期收益率的估计。有了 $\hat{\lambda}$ 和s.e.( $\hat{\lambda}$ ),便可在原假设下(即 $\lambda = 0$ )计算 $t$ -值( $t$ -statistic),进行 $t$ -检验:
$$ t \text {一 值} = \frac {\hat {\lambda}}{\mathrm {s . e .} (\hat {\lambda})} \tag {2.3} $$
它满足自由度为 $T - 1$ 的 $t$ 分布。根据 $t$ -值和 $t$ 分布可计算出(双尾) $p$ -值,通过 $t$ -值或 $p$ -值就能够判定在给定的显著性水平下接受或拒绝原假设。依照学术界的惯例,通常使用0.05和0.01的显著性水平,在大样本下它们对应的 $t$ -值阈值分别约为2.0和2.6。因此,一旦样本数据计算出的收益率的 $t$ -值高于2.0,就认为该结果在原假设下是显著的[3]。如果原假设(因子预期收益率为零)无法被拒绝,那么被研究的因子就不满足预期收益率大于零的要求,因此 $t$ -值是否高于2.0就是一个重要的判定依据[4]。本书第3章到第5章的实证分析中将汇报检验结果的 $t$ -值。
除此之外,由于一个好的因子应能够解释个股超额收益的截面差异,因此排序法关注的第二个问题就是依照排序变量高低得到的 $L$ 个投资组合的收益率是否有很好的单调性,这可以通过计算收益率和排序变量分组的秩相关系数(rank correlation coefficient)来检验。秩相关系数和相关系数类似,不同的是计算时将观测值转换为观测值的排位(rank),因此它考察的是两个随机变量之间的单调相关性。统计学中有多种计算秩相关系数的方法,其中最流行的要数Spearman秩相关系数(以Charles Spearman命名)。将 $L$ 个投资组合的收益率的高低排位记为 $X_{r}$ 、将它们依排序变量的分组的高低排位记为 $X_{g}$ ,这二者的相关系数即为收益率和排
序变量分组的秩相关系数 $\rho_{s}$ :
$$ \rho_ {s} = \frac {\operatorname {c o v} \left(X _ {r} , X _ {g}\right)}{\sigma_ {X _ {r}} \sigma_ {X _ {g}}} \tag {2.4} $$
从式(2.4)中不难发现,当 $L$ 个投资组合的收益率随变量分组完美单调递增时,二者的秩相关系数为1;而当这些收益率随变量分组完美递减时,这二者的秩相关系数为-1。
下面仍以BM为例对上述检验进行说明。通过排序法将A股市场中的股票按照BM高低分为 $L = 10$ 组(记为Low,2,…,9,High,其中Low代表BM最低的一组、High代表BM最高的一组),每组内股票按总市值加权配置,每月再平衡[5]。此外,通过做多BM最高的一组(即High组)、做空BM最低的一组(即Low组)构建价值因子投资组合。表2.2给出了对价值因子预期收益率的检验结果,以及这10个投资组合预期收益率的检验结果(这是学术界的常见做法)。从检验结果可知,因子月均收益率为 $0.88\%$ ,标准误为 $0.47\%$ , $t$ -值为1.85, $p$ -值为0.07,因此可以在0.1的显著性水平下拒绝原假设。
表2.2 BM排序检验结果
| Low | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | High | High-Low | |
| 均值(%) | 0.57 | 0.53 | 0.57 | 0.72 | 0.94 | 0.90 | 1.08 | 1.32 | 1.21 | 1.44 | 0.88 |
| 标准误(%) | 0.57 | 0.56 | 0.55 | 0.58 | 0.56 | 0.53 | 0.57 | 0.58 | 0.56 | 0.58 | 0.47 |
| t-值 | 1.00 | 0.95 | 1.03 | 1.24 | 1.69 | 1.69 | 1.90 | 2.27 | 2.15 | 2.48 | 1.85 |
| p-值 | 0.32 | 0.35 | 0.30 | 0.22 | 0.09 | 0.09 | 0.06 | 0.02 | 0.03 | 0.01 | 0.07 |
接下来,为了从视觉上更好地呈现单调性,图2.1展示了利用BM排序得到的10个投资组合的月均收益率,它们基本随BM的增加而变大。利用式(2.4)计算可知,这10个投资组合的收益率和BM分组的秩相关系数高达0.94( $p$ -值为 $5.48 \times 10^{-5}$ ),表现出显著的单调性,且收益率和BM取值之间呈正相关。
由于简单易用,排序法在学术界和业界关于风格因子的研究中得到了广泛的应用。值得一提的是,在前文介绍排序法的时候默认的都是使用单一变量对股票排序,因此它也被称为单变量排序(univariate sorting)。但不要忘记,排序法仅仅是构建因子模拟投资组合的一个相对“粗暴”的方法。根据定义,因子模拟投资组合应该在非目标因子上没有暴露,然而排序法却难以控制其他因子的影响,这是它最大的缺点。举个假想的例子,如果高BM的股票全都是大市值股票、低BM的股票全都是小市值股票,那么当使用BM这个单一变量排序的时候,构建的价差组合在无形之中也同时做多了大市值股票、做空了小市值股票。因此,这个价差组合虽然是围绕BM构建的,但其收益率却受到BM和市值的共同影响,因而难以客观评估BM的贡献。为了尽可能排除其他因子的干扰,常见的做法是使用多个变量进行双重排序或三重排序,这些方法统称为多重排序法。

图2.1 按BM排序得到的10个投资组合的月均收益率
2.1.3 多重排序法
1. 双重排序
在多重排序法中,最重要的是双重排序(double sorting或bivariate sorting)。所谓双重排序,即按照两个变量排序并构建因子模拟投资组合。考虑两个排序变量 $X_{1}$ 和 $X_{2}$ ,将股票按照这两个变量分别划分为 $L_{1}$ 和 $L_{2}$ 组,一共得到 $L_{1} \times L_{2}$ 个组合。在双重排序时,一处非常关键的细节是使用这两个变量分别独立对股票排序,还是这两个变量在排序时存在先后的依存关系。前者被称为独立双重排序(independent double sorting或unconditional double sorting),或者被称为条件双重排序(dependent double sorting或conditional double sorting)。
首先来看独立双重排序的情况。假设使用两个排序变量分别独立地把股票划分成5组,即 $L_{1} = L_{2} = 5$ ,它们两两取交集一共得到25个投资组合,如图2.2中的 $P_{11}$ 到 $P_{55}$ 所示。在划分时,最常见的做法是取这两个变量各自的五分位数。这25个投资组合中股票的权重可以采用等权重或市值加权。接下来,通过这25个组合就可以围绕给定的变量构建因子模拟投资组合了。以 $X_{1}$ 为例,构建的思路和单变量排序一样,仍然是做多在该变量上排名高的股票、做空在该变量上排名低的股票,并满足资金中性。由于采用了双重排序,因此对于变量 $X_{2}$ 的每一档,都存在一个在变量 $X_{1}$ 上排名高的投资组合。换句话说,一共有 $L_{2}$ (=5)个这样的组合,它们是 $P_{51}$ 、 $P_{52}$ 、 $P_{53}$ 、 $P_{54}$ 以及 $P_{55}$ 。类似的,一共有 $L_{2}$ (=5)个在变量 $X_{1}$ 上排名低的组合,它们是 $P_{11}$ 、 $P_{12}$ 、 $P_{13}$ 、 $P_{14}$ 以及 $P_{15}$ 。最后,等权重做多 $L_{2}$ (=5)个高排名组合、做空 $L_{2}$ (=5)个低排名组合,就得到了围绕 $X_{1}$ 构建的因子投资组合。令 $R_{ij,t}$ 代表投资组合 $P_{ij}$ 第t期的收益率,则该因子第t期的收益率 $\lambda_{X_1t}$ 为:
$$ \lambda_ {X _ {1} t} = \frac {1}{L _ {2}} \sum_ {i = 1} ^ {L _ {2}} R _ {L _ {1} i, t} - \frac {1}{L _ {2}} \sum_ {i = 1} ^ {L _ {2}} R _ {1 i, t} \tag {2.5} $$

图2.2 独立双重排序法示例
在独立双重排序中,两个变量的地位是完全对称的,因此很容易就可以得到围绕 $X_{2}$ 变量构建的因子投资组合,它通过做多 $L_{1}$ ( $= 5$ )个在变量 $X_{2}$ 上高排名组合 $(P_{15}, P_{25}, P_{35}, P_{45}$ 以及 $P_{55}$ )、做空 $L_{1}$ ( $= 5$ )个在变量 $X_{2}$ 上低排名组合 $(P_{11}, P_{21}, P_{31}, P_{41}$ 以及 $P_{51}$ )而构成,并满足资金中性。该因子第 $t$ 期的收益率 $\lambda_{X_{2}t}$ 为:
$$ \lambda_ {X _ {2} t} = \frac {1}{L _ {1}} \sum_ {i = 1} ^ {L _ {1}} R _ {i L _ {2}, t} - \frac {1}{L _ {1}} \sum_ {i = 1} ^ {L _ {1}} R _ {i 1, t} \tag {2.6} $$
有了因子收益率 $\lambda_{X_1t}$ 和 $\lambda_{X_2t}$ 的时间序列,就可以像2.1.2节一样如法炮制,计算 $t-$ 值并检验因子预期收益率。值得一提的是,如果把式(2.5)和式(2.6)中的投资组合收益率重新排列一下,就可以得到另一种等价的形式:
$$ \lambda_ {X _ {1} t} = \frac {1}{L _ {2}} \sum_ {i = 1} ^ {L _ {2}} \left(R _ {L _ {1} i, t} - R _ {1 i, t}\right) \tag {2.7} $$
$$ \lambda_ {X _ {2} t} = \frac {1}{L _ {1}} \sum_ {i = 1} ^ {L _ {1}} \left(R _ {i L _ {2}, t} - R _ {i 1, t}\right) \tag {2.8} $$
下面以式(2.7)为例进行解读。它表示从每一个 $X_{2}$ 变量分组 $i$ 内挑出 $X_{1}$ 变量排名最高和最低的两组,即 $R_{L_{1}i}$ 和 $R_{1i}$ ,并计算它们的差 $R_{L_{1}i} - R_{1i}$ 。然后把一共 $L_{2}$ (本例中是5)个 ${R_{L_{1}i} - R_{1i}}$ 取平均,就得到 $\lambda_{X_1t}$ 。式(2.7)和式(2.5)的区别是,式
(2.5) 是对这 5 个高排位和 5 个低排位投资组合“先分别取平均、再做差”,而式 (2.7) 则是将它们两两“先做差、再取平均”。在数学上,这两种方式完全是等价的,而式 (2.5) 的方式也确实是常见的计算因子收益率的方法[6]。但是,之所以介绍式 (2.7) 和式 (2.8) 这种表达式,是因为它们经常被用于对异象的研究中。
在学术界针对美股市场异象的研究中,双重排序法经常被使用。为了检验一个新的异象变量可以获得超额收益,学者们往往用它和已有的因子变量进行双重排序,从而排除已有因子的影响。在进行分析时,学者们除了关心异象收益率之外,还关心在已有因子变量的每组内,该异象变量是否能区分股票收益率的截面差异。回到上面 $X_{1}$ 和 $X_{2}$ 的例子,为检验能否通过 $X_{1}$ 构建异象,应考察在每个 $X_{2}$ 分组内,根据 $X_{1}$ 划分的 $L_{1}$ 个分组中最高和最低的组的收益率差异是否显著[7]。在这种情况下就会关心每个 ${}{R{L_{1}i}} - R_{1i}$ 的取值。以上就是式(2.7)和式(2.8)这两种表达式也存在的原因。但再次强调的是,当使用独立双重排序法时,无论使用哪种表达式都不影响 $\lambda_{X_1t}$ 和 $\lambda_{X_2t}$ 的计算结果。
独立双重排序虽然简单,但它也有一个缺点,即独立排序可能导致某些组合包含的股票数目过少。举个例子,假设共有1000支股票,按照 $X_{1}$ 和 $X_{2}$ 两变量各分为5组,得到25个组合,平均下来每个组合包含40支股票。当 $X_{1}$ 和 $X_{2}$ 的截面相关性很高时,那么当一支股票在 $X_{1}$ 变量取值较高时,它在 $X_{2}$ 上的取值也会较高。这就会造成这两个变量相同的分组中——图2.2中对角线上的组——的股票个数较多,而其他组内(特别是高 $X_{1}$ 、低 $X_{2}$ 组以及低 $X_{1}$ 、高 $X_{2}$ 组)的股票个数较少。这种分组内股票数量的不平衡将使得最终的因子收益受异常值影响的可能性更高,造成因子收益率的不稳定并且也会影响在实践中的实施[8]。在实际研究因子时,上述缺点虽然存在,但通常不会带来太大的问题。这是因为人们通常不会使用截面相关性高的变量做双重排序。当对参与排序的两个变量的相关性不确定时,可以计算每组内股票的数量。如果全部 $L_{1} \times L_{2}$ 个投资组合均包含足够多的股票,那么就没有太大的问题。
接下来介绍条件双重排序。它与独立双重排序最大的区别是按照给定的顺序先后使用两个变量对股票进行排序。仍然以 $X_{1}$ 和 $X_{2}$ 两个变量为例。假设先用 $X_{1}$ 排序将全部股票划分成 $L_{1}$ 组。接下来,在以上每个组内,再用 $X_{2}$ 排序把属于该组内的股票进一步划分为 $L_{2}$ 个组,最终得到 $L_{1} \times L_{2}$ 个分组。从这个例子中不难看出,条件双重排序是考察当 $X_{1}$ 控制之后,变量 $X_{2}$ 对股票收益率的影响。反之,如果按照先用 $X_{2}$ 排序、再用 $X_{1}$ 排序,那就是在考察控制了 $X_{2}$ 之后,变量 $X_{1}$ 对股票收益率的影响。
条件双重分组关心的是当第一个变量被控制之后,第二个变量是否对解释收益率有增量信息。在这种方法中,两个排序变量的地位是不对称的:第一个排序变量仅仅作为控制变量,人们关心的是第二个排序变量和收益率之间的关系,因此只需(也只应)围绕第二个排序变量构建因子并计算因子收益率[9]。
在条件双重排序方法中,学术界通常使用以下两种方法为第二排序变量计算因子收益率。第一种方法和独立双重排序法中的收益率公式并无不同。假设 $X_{1}$ 和 $X_{2}$ 分别为第一、第二排序变量,则围绕 $X_{2}$ 构建的因子收益率就如式(2.6)或式(2.8)所示(如果需要计算 $X_{1}$ 的因子收益率,只需将两个排序变量的先后顺序调换)。除此之外,还有另外一种方法。仍以 $X_{1}$ 和 $X_{2}$ 分别为第一、第二排序变量为例。在这种方法中,将全部 $L_{1}$ 个 $X_{2}$ 排名最高的组,即 $P_{iL2}(i = 1,2,\dots ,L_1)$ ,以及 $L_{1}$
个 $X_{2}$ 排名最低的组, 即 $P_{i 1} (i = 1, 2, \dots, L_{1})$ , 分别取并集:
$$ P _ {L _ {2}} ^ {\text {t o p}} = P _ {1 L _ {2}} \cup P _ {2 L _ {2}} \cup \dots \cup P _ {L _ {1} L _ {2}} \tag {2.9} $$
$$ P _ {L _ {2}} ^ {\text {b o t t o m}} = P _ {1 1} \cup P _ {2 1} \cup \dots \cup P _ {L _ {1} 1} \tag {2.10} $$
将 $P_{L_2}^{\mathrm{top}}$ 中的全部股票按照市值加权或等权重配置,构成变量 $X_2$ 的多头;将 $P_{L_2}^{\mathrm{bottom}}$ 中的全部股票按同样的加权方式配置,构成变量 $X_2$ 的空头。在每一期 $t$ ,多头组合收益率(记为 $R_{L_2}^{\mathrm{top}}$ )减去空头组合收益率(记为 $R_{L_2}^{\mathrm{bottom}}$ ),就是在这种方法下围绕变量 $X_2$ 构建的因子的收益率:
$$ \lambda_ {X _ {2} t} = R _ {L _ {2}} ^ {\text {t o p}} - R _ {L _ {2}} ^ {\text {b o t t o m}} \tag {2.11} $$
这两种计算 $X_{2}$ (即第二排序变量)因子收益率的方法虽略有不同,但仔细比较它们不难发现,当每个投资组合中的股票都按照等权重配置时,式(2.6)和式(2.11)则是完全等价的。只有当每个投资组合采用非等权重(比如市值加权)时,这两种方法才略有差异。假设每个投资组合内股票按市值加权配置,当使用式(2.6)时,它多、空两头各自的 $L_{1}$ 个投资组合仍然按照等权重配置;而当使用式(2.11)时,它首先把所有属于多头和空头的股票都挑出来,然后再按照市值加权配置。
最后值得一提的是,条件双重排序的规则保证了每组内都有足够多的股票。在本节的例子中 $L_{1} = L_{2} = 5$ ,如果假设这5组是按照排序变量的五分位数划分的,那么条件双重排序得到的25个投资组合中有相同数量的股票。在更一般的情况中,两个变量划分的组数可以不同,且每个变量用来划分的分位数也可能有差异,在这时不同组内的个股数量会有差异,但仍然能够保证有足够多的股票。
2. 两点说明
关于双重排序,还有两点补充说明。第一点说明,使用双重排序的目的是排除两个变量之间的相互影响,从而更准确地计算围绕每个变量构建的因子模拟投资组合的收益率。在这方面,条件双重排序比独立双重排序是更好的选择,因为它是在控制了第一个分类变量后、考察第二个分类变量和股票收益率的条件关系。然而,学术界在研究因子时,往往更习惯使用独立双重排序。这可能与最初经典的Fama and French(1993)三因子模型使用了独立排序有关。另外,当研究异象时,为了排除小市值的影响,使用市值和异象变量进行条件双重排序、构建异象投资组合并计算其超额收益也并不罕见。而在这些研究中,两种计算收益率的方法均有使用。举例来说,Bali et al.(2014)在研究尾部风险异象时采用式(2.6)计算异象收益率;而Liu et al.(2019)则使用式(2.11)研究并计算了一系列异象投资组合的收益率。
第二点说明是关于双重排序时两个变量划分的分组数。当学术界研究异象时,当股票池中的股票数量很大时, $5 \times 5$ 或 $10 \times 10$ 都是常见的分组方式。但是当学术界研究因子时,往往采用 $2 \times 3$ 的划分,且变量之一是股票的市值。这种处理方法也和Fama and French(1993)三因子模型不无关系。由于该文是多因子模型的开
山鼻祖,它的很多处理方法对学术界都有着非常深远的影响。Fama and French(1993)在构建规模(SMB)和价值(HML)两个因子[10]时,采用市值和BM进行独立双重排序。在排序时,该文按市值把股票分成了大、小市值两组,按BM把股票分成高、中、低三组,最后两两交集构建了 $2 \times 3 = 6$ 个投资组合。这种使用市值和另外一个变量进行 $2 \times 3$ 划分的独立双重排序在Fama and French(1993)之后得到了广泛的应用,本书第4章会详细介绍。
3. 三重排序
除前面介绍的双重排序之外,近年也有部分研究采用了三重排序(tripllesorting)。一个典型例子是Hou et al.(2015)提出的四因子模型。该文从实体投资经济学理论出发推导出预期收益率和投资以及盈利之间的条件关系。此外,考虑到盈利能力和投资效应在小盘股中都更强,为了排除市值的影响,Hou et al.(2015)在构建因子时,使用规模、投资和盈利三个维度的变量进行了三重排序。
排序法及其检验是因子研究中最常见的方法之一。它最大的好处是绕过因子暴露,构建因子模拟投资组合、计算因子收益率。它是通过时间序列回归检验股票多因子模型的基础。在结束2.1节之前,最后再来讨论一个问题:因子命名。
2.1.4 因子命名约定
因子命名本身并无严格的要求。但之所以需要约定一个命名方式,是因为无论是在学术界的研究还是业界的实践中,对同一个因子往往有很多不同的称呼。仍以BM为例。在Fama and French(1993)三因子模型中,两位作者使用BM和市值双重排序构建了一个HML因子。HML是High-Minus-Low的首字母缩写,而其中High代表BM高的股票,Low代表BM低的股票,Minus代表做多前者、做空后者。显然,人们也可以把它称作BM因子——这个名字以构建因子的变量为出发点;又或者把它称为价值[11]因子——这个名字以该变量代表的股票风格(style)为出发点。无论是叫HML因子、BM因子还是价值因子,它们指代的都是同一个因子模拟投资组合、同一个因子。为了本书前后一致性,本小节对书中使用的因子命名方法进行说明。在因子命名时,考虑的因素是命名的方便程度以及名字是否能清晰地传达因子的含义。
首先,本书不采用Fama and French(1993)的命名方法,原因如下。任何一个变量排序都可以把股票分成高、中、低不同的分组,并构建一个High-Minus-Low组合。如果大家都叫HML因子,则无法加以区分。举例来说,在Fama and French(2015)五因子模型中包括使用BM构建的HML因子和使用ROE构建的盈利因子。Fama and French(2015)将ROE和市值一起进行双重排序,并通过做多高ROE的组同时做空低ROE的组构建了该盈利因子。由于High和Low两个词已经被HML因子占用了,Fama and French(2015)则想出了使用稳健(Robust)和疲软(Weak)来代表高、低两个ROE组合,并以Robust-Minus-Weak即RMW为该因子命名。这种做法的优点是,它能体现变量和收益率之间是正相关还是负相关。比如无论是HML还是RMW,都代表变量高取值组和变量低取值组的差异,这意味着BM或ROE和股票收益率呈现正相关。而在Fama and French(1993)中,代表规模的SMB因子是Small-Minus-Big的缩写,它则表示市值和收益率呈现负相关,即小
市值股票的预期收益率高于大市值股票。尽管有这一优点,然而一旦人们真正理解了因子背后的原因,就不再需要依靠其命名来暗示变量和收益率的关系。且考虑到这种做法在因子数量越来越多的时候将会对因子命名造成不便,因此本书放弃这种方法。
使用变量本身和使用其代表的风格命名在方便程度上并无太大差异,但由于以下两个原因,本书作者认为后者更合理。首先,如前所述,风格因子在股票市场中占主宰地位。学术界和业界的绝大多数研究都是关于风格因子。因此,风格比变量本身能更清晰地传达出因子所代表的含义。其次,在业界的因子投资实践中,出于稳健性的考虑,往往使用多个指标构建某种风格的因子。比如,业界会同时使用BM和盈利市值比(earnings-to-priceratio,即EP)等多个估值指标构建价值因子。在这种情况下,选择某个指标对因子命名就会以偏概全。
出于上述考量,本书选择以变量代表的风格为出发点对因子进行命名。举例来说,按照本书的约定,将会称使用BM构建的因子为价值因子,使用ROE构建的因子为盈利因子。
[1]排序法的第二步将会通过做多排名靠前的股票、做空排名靠后的股票构建因子模拟投资组合。一般认为因子的风险溢价为正。这意味着在排序时通常从金融学和经济学原理考虑变量和收益率之间的相关性。如果变量和收益率呈现负相关,则往往按变量取值从小到大将股票排序。低波动因子就是这样一个例子。
[2]在针对以美元计价的美股研究中,将其称为dollar neutral。
[3]由t分布的对称性可知,如果t-值小于-2.0也可以认为结果在原假设下是显著的。
[4]本书6.1节将介绍学术界的最新研究成果,它们将单个因子检验的t-值阈值提升到3.0以上。
[5]本书的第3章将会详细说明实证分析中的数据处理方式。
[6]比如经典的Fama and French(1993)三因子模型就使用了这种表达式。本书第4章会详细说明。
[7]除此之外,研究人员也会关心每个给定的 $X_{2}$ 分组下,以 $X_{1}$ 排序划分的 $L_{1}$ 个投资组合的收益率是否呈现出很好的单调性。
[8]在某些极端情况下, $X_{1}$ 和 $X_{2}$ 的某种分组组合的交集甚至可能为空,即没有任何股票。
[Bali et al. (2016) 指出在条件双重排序法中为第一排序变量构建因子并计算因子收益率有很大的不确定性。]
[10]本书第4章会详细介绍包括Fama and French(1993)三因子模型在内的主流多因子模型。
[11]BM本身是一个估值指标。但因为它常被用在价值投资(value investing)中衡量公司估值是否过高,因此无论是学术界还是业界,通常把它称为价值因子。
2.2 多因子模型的回归检验
使用2.1节介绍的排序法,人们可以很容易地针对股票风格因子构建因子投资组合并计算其收益率。然而,多因子模型中最核心的问题是检验一系列因子解释异象的能力。本节就来说明如何使用回归的方法检验多因子模型,其中涉及的不同方法包括时序回归检验、截面回归检验以及Fama and MacBeth(1973)回归检验[1]。
在下文的介绍中,令 $N$ 和 $K$ 分别代表资产和因子的个数。回顾一下本书第1章中的式(1.3),它指出资产预期(超额)收益和因子预期收益率之间满足如下关系:
$$ E \left[ R _ {i} ^ {e} \right] = \alpha_ {i} + \boldsymbol {\beta} _ {i} ^ {\prime} \boldsymbol {\lambda} \tag {2.12} $$
其中 $R_{i}^{e}$ 代表资产 $[2] i$ 的超额收益, $\beta_{i}$ 为资产 $i$ 的 $K$ 维因子暴露向量; $\lambda$ 为 $K$ 维因子预期收益率向量。多因子模型研究的核心问题是资产预期收益率在截面上——即不同的资产之间——为什么会有差异。根据模型(2.12),如果一个资产在因子上的暴露 $\beta_{i}$ 高, 则它的预期收益 $E[R_{i}^{e}]$ 也应该更高。
再来仔细品一品这句话,即多因子模型(2.12)研究的是资产预期收益率在截面上的差异。站在本书提出的统一视角下,这是从截面角度来研究多因子模型的。在检验模型(2.12)时,不关心资产的收益率 $R_{i}^{e}$ 在时间序列上是如何随着每期因子收益率来波动的,只关心 $R_{i}^{e}$ 的期望 $E[R_{i}^{e}]$ 在截面上和对应的 $\beta_{i}$ 之间的关系,因为模型(2.12)是关于均值的模型。多因子模型中所包含的因子代表了收益率的一种结构。一旦结构给定后,个股或者任何一个投资组合的预期收益率就完全由它在这些因子上的暴露决定了——暴露高,预期收益率就高;预期收益率是因子暴露的线性函数。怎样找到最好的因子结构,即哪些因子使得个股在截面上的预期收益率区分度高,并让不能被该模型解释的定价误差 $\alpha_{i}$ 部分尽可能低,就是多因子模型研究的问题。
仍然晦涩?用图2.3解释一下(因为要做图,所以假设单因子模型)。图中横坐标为 $\beta_{i}$ ,纵坐标为 $E[R_{i}^{e}]$ ,每个点代表一个资产。图中这条直线就代表 $E[R_{i}] = \beta_{i}\lambda$ ,它的斜率 $\lambda$ 就是因子的预期收益率。当模型不能被完美地满足时,资产的预期收益率 $E[R_{i}]$ 和模型算出的 $\beta_{i}\lambda$ 之间就会存在误差,它就是图中的 $\alpha_{i}$ 。

图2.3 截面上股票预期收益率和风险暴露的关系
正如前文反复强调的,多因子模型反映的是预期收益率和因子暴露在截面上的关系。在多因子模型被提出之前,人们最熟悉的因子模型无疑是CAPM。它因为只有一个市场因子,所以是多因子模型的一个特例。人们最早的猜测是市场因子的收益率和个股在该因子上的 $\beta$ 就可以解释截面上不同股票收益率之间的区别。但大量的实证结果显示如果把个股的 $E[R_{i}^{e}]$ 和它们针对市场因子的 $\beta_{i}$ 画出来,二者之间的关系并不能很好地满足该模型,说明仅仅用单一市场因子无法很好地解释 $E[R_{i}^{e}]$ 在截面上的差别。为了反映这一现象,Black et al.(1972)在CAPM的基础上又加入了一个zero-beta因子,该两因子模型能够更好地解释 $E[R_{i}^{e}]$ 在截面上的差别[3]。再后来,Fama and French(1993)提出了大名鼎鼎的三因子模型,它在市场因子的基础上加入价值(HML)和规模(SMB)两个因子。这些努力都是为了能够更好地解释人们在股票收益率数据中观察到的 $E[R_{i}^{e}]$ 在截面上的差别。
之所以回顾上面这一小段历史,是为了说明学术界在多因子模型上的各种努力都是为了更好地解释 $E[R_i^e]$ 为什么会因资产而异。那么,拿来一个多因子模型,如何定量地评估它是否是一个好的模型呢?为了回答这个问题,首先来看检验中的三个部分:估计值(estimate)、标准误(standard errors)以及检验(test),见表2.3。
表2.3 多因子模型检验的三个部分
| 任务 | 说明 |
| 估计值 | \(\hat{\alpha}_i, \hat{\beta}_i, \hat{\lambda}\) |
| 标准误 | \(\sigma(\hat{\alpha}_i), \sigma(\hat{\beta}_i), \sigma(\hat{\lambda})\) |
| 检验 | 联合检验所有 \(N\) 个资产的定价误差;检验每个因子的预期收益率 |
对于截面关系式 $E[R_i^c] = \alpha_i + \beta_i'\lambda$ ,下文将采用回归分析(regression analysis)来确定 $\hat{\alpha}_i$ 、 $\hat{\beta}_i$ 、 $\hat{\lambda}$ 和 $\sigma(\hat{\alpha}_i)$ 、 $\sigma(\hat{\beta}_i)$ 、 $\sigma(\hat{\lambda})$ 。一旦有了估计值和标准误,就可以用它们检验多因子模型。由式(2.12)可知, $\alpha_i$ 代表了资产 $i$ 的定价误差。如果能够在统计上证明所有 $\alpha_i$ 都很接近零,则可以说该多因子模型就是很好的模型,即它能够解释资产预期收益率的截面差异。由此可见,多因子模型的回归检验中最重要的就是检验所有 $\alpha_i$ 联合起来是否在统计上足够接近零。除此之外,使用 $\lambda$ 的估计值和标准误,同样可以检验每个因子的预期收益率[4]。根据上述说明,多因子模型的回归检验可以简单总结为以下三步:
(1) 计算每个资产在所有因子上的暴露 $\beta_{i}$ ;
(2) 通过回归分析对多因子模型进行估计;
(3) 联合检验资产定价误差 $\alpha_{i}$ 以及每个因子的预期收益率 $\lambda_{k}$ 。
无论选择哪些因子(诸如风格因子或宏观经济因子),也无论在确定截面关系时采用时序回归还是截面回归,对多因子模型的检验最终都可以按照上述三步完成。下面先来看看时间序列回归检验。
2.2.1 时间序列回归
时间序列回归(time-series regression)简单直接,Black et al.(1972)最早使用它来检验CAPM。这种方法在回归时使用因子收益率作为自变量(independent variable)或解释变量(explanatory variable),以资产的超额收益率作为因变量(dependent variable)或被解释变量(explained variable)。
此方法更适合分析由风格因子构成的多因子模型,这是因为人们可以使用2.1节介绍的排序法构建风格因子的因子模拟投资组合,并计算其收益率作为解释变量。对于其他类别的因子,比如GDP等宏观经济因子,由于难以应用排序法构建它的因子模拟投资组合以及计算收益率,所以这种方法就无法使用,举例来说,Fama and French(1993)中的价值(HML)和规模(SMB)因子均是风格因子。该文使用独立双重排序构建了这两个因子的投资组合,并计算了它们的收益率时间序列,使用它们就可以方便地进行时间序列回归检验。
令 $\lambda_{t}$ 表示 $t$ 期因子收益率向量, $R_{it}^{e}$ 为资产 $i$ 在 $t$ 期的超额收益率,这二者在时序上满足如下线性关系:
$$ R _ {i t} ^ {e} = \alpha_ {i} + \beta_ {i} ^ {\prime} \boldsymbol {\lambda} _ {t} + \varepsilon_ {i t}, t = 1, 2, \dots , T \tag {2.13} $$
对每个资产 $i = 1,2,\dots ,N$ ,使用简单最小二乘(Ordinary Least Squares,OLS)对模型(2.13)进行参数估计。在时间序列回归中,回归方程右侧自变量是因子收益率 $\lambda_{t}$ ,左侧的因变量是 $R_{it}^{e}$ ,回归得到资产 $i$ 在因子上的暴露 $\hat{\beta}i$ 向量,截距 $\hat{\alpha}_i$ ,以及残差 $\hat{\varepsilon}{it}$ 。一旦有了 $\hat{\alpha}i$ 和 $\hat{\beta}_i$ ,将 $R{it}^{e}$ 和 $\lambda_{t}$ 在时序上取均值就可得:
$$ E _ {T} \left[ R _ {i} ^ {e} \right] = \hat {\alpha} _ {i} + \hat {\beta} _ {i} ^ {\prime} \hat {\lambda}, i = 1, 2, \dots , N \tag {2.14} $$
式中 $E_{T}[\cdot] \equiv \frac{1}{T}\sum(\cdot)$ 表示对样本数据在时序上取均值; $\hat{\lambda} = ET[\hat{\lambda}t]$ 是资产预期收益率和因子暴露在截面上的关系式。时间序列回归中的截距 $\hat{\alpha}_i$ 正是资产 $i$ 的定价误差的估计。由(2.14)可知,时间序列回归的好处是可以方便地估计每个因子的预期收益率。对于任意因子 $k$ ,其收益率序列 $\lambda{kt}$ 在时序上的均值就是因子 $k$ 预期收益率的估计:
$$ \hat {\lambda} _ {k} = E T \left[ \lambda_ {k t} \right], \quad k = 1, 2, \dots , K \tag {2.15} $$
下面仍然以单因子这种最简单的情况来画图,说明上述时间序列回归得到的 $E[R_{i}^{e}]$ 和 $\beta_{i}$ 的截面关系长什么样子。图2.4中的直线为 $E[R_{i}^{e}] = \beta_{i}\lambda$ :当 $\beta_{i} = 0$ 时, $E[R_{i}^{e}] = 0$ ;此外,如果用该模型解释因子投资组合本身(即将因子投资组合视作一个资产放在截面关系式的左侧),且根据定义因子投资组合在自身上的暴露为1(即 $\beta_{i} = 1$ ),因而有 $\lambda = 0 + 1 \times \lambda$ 。以上论述说明,时间序列回归得到的 $E[R_{i}^{e}] = \beta_{i}\lambda$ 这条直线一定会经过(0,0)和(1,λ)两点。

图2.4 时序回归示意图
图2.4中所有黑色的实心圆点代表着资产,空心的点代表着因子投资组合。时间序列回归得到的多因子模型 $E[R_i^e] = \beta_i\lambda$ 就是经过原点和空心点的那条直线。所有资产到这条直线的距离就是资产的 $\hat{\alpha}_i$ 。需要特别强调的是,在使用时间序列回归时,需对每个资产 $i$ 分别独立用多因子模型进行时序回归。因此图2.4中的这条直线并不是以最小化 $\hat{\alpha}_i$ 的平方和为目的求出的,这是时序回归和本书2.2.2节介绍的截面回归的最大差别(截面回归是以最小化所有 $\hat{\alpha}_i$ 的平方和为目标的)。
有了时序回归模型,下一步就是计算各种参数的标准误,并进行检验。当随机扰动 $\varepsilon_{it}$ 不存在自相关(autocorrelation)或异方差(heteroskedasticity)时,时序回归参数的标准误可以由OLS的标准公式给出。进一步的,假设 $\varepsilon_{it}$ 满足IID正态分布[5],Michael Gibbons、Stephen Ross以及Jay Shanken在Gibbons et al.(1989)一文中给出了检验 $\alpha_{i}$ 是否联合为零的方法。即便到了今天,该方法仍然是学术界检验和比较因子模型时的首选方法,由于影响深远,所以该方法也由三位教授姓氏的首字母命名为GRS检验。
在GRS检验中,原假设所有 $\alpha_{t}$ 均为零。定义向量 $\hat{\alpha} = [\hat{\alpha}{1},\hat{\alpha}{2},\dots ,\hat{\alpha}{N}]^{\prime}$ 以及 $\hat{\varepsilon}_t =$ $[\hat{\varepsilon}{1t},\hat{\varepsilon}{2t},\dots ,\hat{\varepsilon}{Nt}]'$ 。GRS检验构建了如下满足自由度为 $T - N - K$ 和 $N$ 的 $F$ 分布的检验统计量(称为GRSTeststatistic):
$$ \frac {T - N - K}{N} \left(1 + E \left[ \boldsymbol {\lambda} _ {t} \right] ^ {\prime} \hat {\boldsymbol {\Sigma}} _ {\lambda} ^ {- 1} E \left[ \boldsymbol {\lambda} _ {t} \right]\right) ^ {- 1} \hat {\boldsymbol {\alpha}} ^ {\prime} \hat {\boldsymbol {\Sigma}} ^ {- 1} \hat {\boldsymbol {\alpha}} \sim F _ {N, T - N - K} $$
其中 $\hat{\Sigma}{\lambda} = \frac{1}{T}\sum{t = 1}^{T}[\pmb{\lambda}{t} - E[\pmb{\lambda}{t}]][\pmb{\lambda}{t} - E[\pmb{\lambda}{t}]]^{\prime}$ (2.16)
$$ \hat {\boldsymbol {\Sigma}} = \frac {1}{T} \sum_ {t = 1} ^ {T} \hat {\boldsymbol {\varepsilon}} _ {t} \hat {\boldsymbol {\varepsilon}} _ {t} ^ {\prime} $$
有了检验统计量,只需要利用 $F$ 分布计算出它的 $p$ -值就可以判断是接受还是拒绝原假设。需要说明的是,一旦 $\varepsilon_{it}$ 之间存在相关性或者异方差,传统OLS的标准误公式就是错误的,且上述检验统计量也是有问题的。在这种情况下,可以采用更强大的计量经济学工具——比如广义矩估计(2.7节会介绍)——来进行检验。尽管如此,GRS检验仍然是非常普及的一种方法。
除了检验 $\alpha_{i}$ 是否联合为零外,另一个目标是考察每个因子的预期收益率。由于时序回归假设因子收益率的时间序列已知,因此只需要参照2.1.2节的介绍对每个因子的收益率进行 $t$ -检验即可,此处不再赘述。最后对时间序列回归检验简要总结如下。
(1) 因子收益率时序需已知。使用因子收益率作为解释变量, 分别对每个资产进行时序回归, 得到该资产在这些因子上的暴露的估计 $\hat{\beta}{i}$ ; 时序回归中的 $\hat{\alpha}{i}$ (截距项) 就是截面关系上资产的定价误差。
(2) 将时序回归结果在时间上取均值, 就得到资产预期收益率和因子暴露在截面上的关系。由于时序回归是对每个资产单独进行的, 因此该关系的确定不以最小化所有 $\hat{\alpha}{i}$ 的平方和为目标。
(3) 若(2.13)中的 $\varepsilon{it}$ 满足IID正态分布,则可以通过GRS方法构建 $F$ -统计量来检验 $\alpha_{i}$ 联合是否在统计上为零,否则可以通过广义矩估计等更高级的方法;对于因子预期收益率,可使用 $t$ -检验来分析。
2.2.2 截面回归
时间序列回归虽然很方便,但它以因子收益率时序已知为前提。这意味着它更适合处理股票的风格因子,而对诸如GDP、CPI以及利率这样的宏观经济因子无能为力。这时可以选择截面回归(cross-sectional regression)来检验多因子模型,它能够方便地处理因子收益率时序未知的情况。截面回归检验的最终目的自然还是考察 $E[R_i^e]$ 和 $\beta_i$ 在截面上的关系,但此方法的第一步仍然是利用时序回归确定资产的因子暴露。
假设 $t$ 期一组因子的取值为 $f_{t} = \left[f_{1 t}, f_{2 t}, \dots, f_{K t}\right]'$ ( $K$ 维阶向量)。首先通过如下时序线性回归模型确定因子暴露:
$$ R _ {i t} ^ {e} = a _ {i} + \boldsymbol {\beta} _ {i} ^ {\prime} \boldsymbol {f} _ {t} + \varepsilon_ {i t}, t = 1, 2, \dots , T, \forall i \tag {2.17} $$
需要说明的是,在模型(2.17)中,截距项用了符号 $a_{i}$ ,而非像式(2.13)中的 $\alpha_{i}$ 。这是因为如果模型(2.17)中的解释变量不是因子收益率,则它的截距项就不是定价误差。采用OLS对模型(2.17)进行估计,在得到资产的因子暴露 $\hat{\beta}{i}$ 以及残差 $\hat{\varepsilon}{it}$ 。之后,进入本方法的第二步:截面回归。在这一步中,使用第一步得到的因子暴露的估计 $\hat{\beta}_{i}$ 作为解释变量,以资产收益
$R_{it}^{e}$ 在全部 $T$ 期上的时序平均(记为 $E_{T}[R_{it}^{e}]$ )作为被解释变量, $E_{T}[R_{i}^{e}]$ 和 $\hat{\beta}_{i}$ 在截面上满足的线性回归模型为:
$$ E _ {T} \left[ R _ {i} ^ {e} \right] = \hat {\beta} _ {i} ^ {\prime} \boldsymbol {\lambda} + \alpha_ {i}, i = 1, 2, \dots , N \tag {2.18} $$
使用OLS求解模型(2.18)就可以得到因子预期收益率的估计 $\hat{\lambda}$ ,以及每个资产的定价误差的估计 $\hat{\alpha}_i$ 。细心的读者可能发现,在模型(2.18)中并没有出现截距项,而是使用回归的残差直接作为定价误差 $\hat{\alpha}_i$ 。这背后的原因是多因子模型假定当不存在模型设定偏误时,资产的预期收益率应该仅由因子暴露和因子预期收益率决定。当然,公式是“死的”,应用是“活的”,Cochrane(2005)指出在进行模型(2.18)截面回归时,也可以考虑包含截距项。加入截距项后,模型(2.18)变为:
$$ E _ {T} \left[ R _ {i} ^ {e} \right] = \gamma + \hat {\boldsymbol {\beta}} _ {i} ^ {\prime} \boldsymbol {\lambda} + \alpha_ {i}, i = 1, 2, \dots , N \tag {2.19} $$
仍以单因子为例,图2.5展示了通过截面回归得到的资产预期收益率和因子暴露的截面关系。如果使用OLS对模型(2.18)进行估计,则图2.5中截面回归得到的关系将通过原点并最小化所有残差的平方和。

图2.5 截面回归示意图
为了更方便地给出数学公式,定义全部 $N$ 个资产在这 $K$ 个因子上的因子暴露矩阵 $\hat{\beta} \equiv [\hat{\beta}_1, \hat{\beta}_2, \dots, \hat{\beta}_N]'$ ,它是 $N \times K$ 矩阵;定义 $N$ 维向量 $\hat{\alpha} \equiv [\hat{\alpha}_1, \hat{\alpha}_2, \dots, \hat{\alpha}_N]'$ ,和 $N$ 维向量 $E_T[R^e] \equiv [E_T[R_1^e], E_T[R_2^e], \dots, E_T[R_N^e]]'$ 。利用上述数学符号,截面回归模型(2.18)的OLS估计量为:
$$ \hat {\boldsymbol {\lambda}} = \left(\hat {\boldsymbol {\beta}} ^ {\prime} \hat {\boldsymbol {\beta}}\right) ^ {- 1} \hat {\boldsymbol {\beta}} ^ {\prime} E _ {T} [ \boldsymbol {R} ^ {e} ] \tag {2.20} $$
$$ \hat {\boldsymbol {\alpha}} = E _ {T} \left[ \boldsymbol {R} ^ {e} \right] - \hat {\boldsymbol {\beta}} \hat {\boldsymbol {\lambda}} \tag {2.21} $$
为了联合检验所有定价误以及每个因子的预期收益率,仅知道 $\hat{\lambda}$ 和 $\hat{\alpha}$ 是不够的,还要求出它们各自的标准误。令 $\varepsilon_{t} = [\varepsilon_{1t}, \varepsilon_{2t}, \dots, \varepsilon_{Nt}]'$ ( $\varepsilon_{it}$ 是时序线性模型(2.17)中的随机扰动,且定义 $\Sigma = \operatorname{cov}(f_t)$ 以及 $\Sigma = \operatorname{cov}(\varepsilon_t)$ ,利用它们并假设 $f_t$ 和 $\varepsilon_{t}$ 之间相互独立,且它们各自在时序上满足独立同分布,Cochrane(2005)给出了 $\hat{\lambda}$ 和 $\hat{\alpha}$ 的协方差矩阵:
$$ \operatorname {c o v} (\hat {\boldsymbol {\lambda}}) = \frac {1}{T} \left[ \left(\hat {\boldsymbol {\beta}} ^ {\prime} \hat {\boldsymbol {\beta}}\right) ^ {- 1} \hat {\boldsymbol {\beta}} ^ {\prime} \boldsymbol {\Sigma} \hat {\boldsymbol {\beta}} \left(\hat {\boldsymbol {\beta}} ^ {\prime} \hat {\boldsymbol {\beta}}\right) ^ {- 1} + \boldsymbol {\Sigma} _ {f} \right] \tag {2.22} $$
$$ \operatorname {c o v} (\hat {\boldsymbol {\alpha}}) = \frac {1}{T} \left[ \boldsymbol {I} - \hat {\boldsymbol {\beta}} \left(\hat {\boldsymbol {\beta}} ^ {\prime} \hat {\boldsymbol {\beta}}\right) ^ {- 1} \hat {\boldsymbol {\beta}} ^ {\prime} \right] \boldsymbol {\Sigma} \left[ \boldsymbol {I} - \hat {\boldsymbol {\beta}} \left(\hat {\boldsymbol {\beta}} ^ {\prime} \hat {\boldsymbol {\beta}}\right) ^ {- 1} \hat {\boldsymbol {\beta}} ^ {\prime} \right] ^ {\prime} \tag {2.23} $$
在实际中,由于真实的 $\Sigma$ 和 $\Sigma_{f}$ 未知,故可采用残差向量 $\hat{\varepsilon}{t} = [\hat{\varepsilon}{1t},\hat{\varepsilon}{2t},\dots ,\hat{\varepsilon}{Nt}]^{\prime}$ 代替 $\varepsilon_{t}$ ,计算样本 $\hat{\Sigma}$ 代替 $\Sigma$ ,并使用样本协方差矩阵 $\hat{\Sigma}{f}$ 代替 $\Sigma{f}$ 。将 $\hat{\Sigma}$ 和 $\hat{\Sigma}_{f}$ 代入式(2.22)和式(2.23)就得到协方差矩阵的估计。进一步利用它们计算标准误即可进行检验。
尽管上述表达式看上去已经足够复杂了,但仍有两点需要简单说明。第一,在截面回归模型(2.18)中,作为解释变量的因子暴露 $\hat{\beta}$ 是从第一步时序回归中得来的,它们是估计值而非真实值。对于模型(2.18)来说, $\hat{\beta}$ 被称为生成的回归变量(generated regressors)。因此在计算标准误时,应该对生成回归变量造成的误差进行修正。对于此,Shanken(1992)给出了解决该问题的修正方法(被称为Shanken修正),即在 $\operatorname{cov}(\hat{\lambda})$ 和 $\operatorname{cov}(\hat{\alpha})$ 的表达式中添加系数 $(1 + \lambda \Sigma_f^{-1}\lambda)$ :
$$ \operatorname {c o v} (\hat {\boldsymbol {\lambda}}) = \frac {1}{T} \left[ \left(\hat {\boldsymbol {\beta}} ^ {\prime} \hat {\boldsymbol {\beta}}\right) ^ {- 1} \hat {\boldsymbol {\beta}} ^ {\prime} \boldsymbol {\Sigma} \hat {\boldsymbol {\beta}} \left(\hat {\boldsymbol {\beta}} ^ {\prime} \hat {\boldsymbol {\beta}}\right) ^ {- 1} \left(1 + \boldsymbol {\lambda} ^ {\prime} \boldsymbol {\Sigma} _ {f} ^ {- 1} \boldsymbol {\lambda}\right) + \boldsymbol {\Sigma} _ {f} \right] \tag {2.24} $$
$$ \operatorname {c o v} (\hat {\boldsymbol {\alpha}}) = \frac {1}{T} \left[ \boldsymbol {I} - \hat {\boldsymbol {\beta}} \left(\hat {\boldsymbol {\beta}} ^ {\prime} \hat {\boldsymbol {\beta}}\right) ^ {- 1} \hat {\boldsymbol {\beta}} ^ {\prime} \right] \boldsymbol {\Sigma} \left[ \boldsymbol {I} - \hat {\boldsymbol {\beta}} \left(\hat {\boldsymbol {\beta}} ^ {\prime} \hat {\boldsymbol {\beta}}\right) ^ {- 1} \hat {\boldsymbol {\beta}} ^ {\prime} \right] ^ {\prime} (1 + \boldsymbol {\lambda} ^ {\prime} \boldsymbol {\Sigma} _ {f} ^ {- 1} \boldsymbol {\lambda}) \tag {2.25} $$
在实际应用中,使用 $\hat{\lambda}$ 代替 $\lambda, \hat{\Sigma}_f$ 。第二,除Shanken修正外,截面OLS回归中存在的另外一个问题是,在截面上 $\alpha_i$ 存在相关性。这种相关性虽然不会影响OLS估计的性质,但是会使OLS计算的标准误存在巨大的误差,造成对标准误的低估。为解决这个问题,可以使用广义最小二乘(Generalized Least Squares,即GLS)代替OLS。
当使用GLS求解截面回归时,估计量 $\hat{\lambda}$ 和 $\hat{\alpha}$ 的表达式为(以下数学符号中加入了下标GLS以便和OLS表达式进行区分):
$$ \hat {\lambda} _ {\mathrm {G L S}} = \left(\hat {\boldsymbol {\beta}} ^ {\prime} \boldsymbol {\Sigma} ^ {- 1} \hat {\boldsymbol {\beta}}\right) ^ {- 1} \hat {\boldsymbol {\beta}} ^ {\prime} \boldsymbol {\Sigma} ^ {- 1} E _ {T} [ \boldsymbol {R} ^ {e} ] \tag {2.26} $$
$$ \hat {\boldsymbol {\alpha}} _ {\mathrm {G L S}} = E _ {T} \left[ \boldsymbol {R} ^ {e} \right] - \hat {\boldsymbol {\beta}} \hat {\boldsymbol {\lambda}} _ {\mathrm {G L S}} \tag {2.27} $$
当使用GLS并考虑Shanken修正后, $\operatorname{cov}(\hat{\lambda}{\mathrm{GLS}})$ 和 $\operatorname{cov}(\hat{\alpha}{\mathrm{GLS}})$ 为:
$$ \operatorname {c o v} \left(\hat {\boldsymbol {\lambda}} _ {\mathrm {G L S}}\right) = \frac {1}{T} \left[ \left(\hat {\boldsymbol {\beta}} ^ {\prime} \boldsymbol {\Sigma} ^ {- 1} \hat {\boldsymbol {\beta}}\right) ^ {- 1} \left(1 + \boldsymbol {\lambda} _ {\mathrm {G L S}} ^ {\prime} \boldsymbol {\Sigma} _ {f} ^ {- 1} \boldsymbol {\lambda} _ {\mathrm {G L S}}\right) + \boldsymbol {\Sigma} _ {f} \right] \tag {2.28} $$
$$ \operatorname {c o v} \left(\hat {\boldsymbol {\alpha}} _ {\mathrm {G L S}}\right) = \frac {1}{T} \left(\boldsymbol {\Sigma} - \hat {\boldsymbol {\beta}} \left(\hat {\boldsymbol {\beta}} ^ {\prime} \boldsymbol {\Sigma} ^ {- 1} \hat {\boldsymbol {\beta}}\right) ^ {- 1} \hat {\boldsymbol {\beta}} ^ {\prime}\right) \left(1 + \boldsymbol {\lambda} _ {\mathrm {G L S}} ^ {\prime} \boldsymbol {\Sigma} _ {f} ^ {- 1} \boldsymbol {\lambda} _ {\mathrm {G L S}}\right) \tag {2.29} $$
在实际中,使用 $\hat{\Sigma}$ 、 $\hat{\Sigma}f$ 以及 $\hat{\lambda}{\mathrm{GLS}}$ 分别代替 $\Sigma$ 、 $\Sigma_f$ 以及 $\lambda_{\mathrm{GLS}}$ 就得到 $\operatorname{cov}(\hat{\lambda}{\mathrm{GLS}})$ 和 $\operatorname{cov}(\hat{\alpha}{\mathrm{GLS}})$ 的估计。利用OLS或GLS得到的标准误,构建如下自由度为 $N - K$ 的 $\chi^2$ -检验统计量,检验全部 $N$ 个定价误差是否联合为零:
$$ \mathrm {O L S}: \hat {\alpha} ^ {\prime} \operatorname {c o v} (\hat {\alpha}) ^ {- 1} \hat {\alpha} \sim \chi_ {N - K} ^ {2} \tag {2.30} $$
$$ \mathrm {G L S}: \hat {\boldsymbol {\alpha}} _ {\mathrm {G L S}} ^ {\prime} \operatorname {c o v} \left(\hat {\boldsymbol {\alpha}} _ {\mathrm {G L S}}\right) ^ {- 1} \hat {\boldsymbol {\alpha}} _ {\mathrm {G L S}} \sim \chi_ {N - K} ^ {2} \tag {2.31} $$
为了检验因子预期收益率,只需从 $\operatorname{cov}(\hat{\lambda})$ 或 $\operatorname{cov}(\hat{\lambda}_{\mathrm{GLS}})$ 取出对角线上的元素并开方即可,它们就是 $K$ 个因子收益率的标准误。对于每个因子,利用其预期收益率 $\hat{\lambda}_i$ 和其标准误,计算出相应的 $t$ -统计量(自由度 $T - 1$ )即可进行检验。以上就完成了截面回归检验。接下来简要总结一下。
(1) 截面回归不要求因子的收益率时间序列已知, 因此应用更加广泛。截面回归的第一步是通过时间序列回归得到每个资产 $i$ 在因子上的暴露 $\hat{\beta}{i}$ ; 第二步才是进行截面回归。因此这种方法又被称作两步回归估计 (two-pass regression estimate)。
(2) 在得到 $\hat{\beta}{i}$ 后, 使用资产的时序平均收益率 $E_{T}[R_{i}^{c}]$ 和 $\hat{\beta}{i}$ 进行截面OLS或GLS回归, 估计出因子的期望收益率 $\hat{\lambda}$ 和资产的定价误差 $\hat{\alpha}$ 。
(3) 由于 $\hat{\beta}{i}$ 是估计值, 因此在计算 $\hat{\lambda}$ 和 $\hat{\alpha}$ 的标准误时可以进行Shanken修正。有了估计值和标准误, 构建相应的 $\chi^{2}$ -统计量和 $t$ -统计量来进行检验。
最后值得一提的是,截面回归既可以检验由风格因子构成的模型,也可以检验同时包括风格和宏观经济等不同类型的因子的模型。接下来的2.2.3节将比较时序回归和截面回归在分析风格因子上的异同。除此之外,本节使用的OLS和GLS估计中都假设了因子 $f_{t}$ 和随机扰动 $\varepsilon_{t}$ 之间相互独立,且各自在时序上满足独立同分布这个假设。当该假设不成立时,仍然可以使用广义矩估计来进行分析。此外,广义矩估计也可以方便地修正因因子暴露为估计值造成的误差。考虑到本书的侧重,以下不再对此进行展开介绍,感兴趣的读者请参考Cochrane(2005)。在学术界对因子模型的研究中,本节介绍的截面回归方法并不常见,但理解它可以更好地体会不同方法之间的差异,做到融会贯通。
2.2.3 时序回归vs截面回归
2.2.1和2.2.2两节分别介绍了时序回归和截面回归。有意思的是,对于风格因子这种可以通过排序法构建因子模拟投资组合并计算因子收益率时序的情况,既可以使用时序回归又可以使用截面回归来检验多因子模型。那么它们二者的区别是什么呢?
图2.6以单因子为例,直观地比较了二者的区别。时序回归仅在时序上对每个
资产进行回归,然后通过在时序上取均值来得到隐含的截面关系。这意味着图2.6中时序回归得到的 $E[R_i^e] = \beta_i\lambda$ 必然经过(0,0)和(1,λ)两点(其中是因子收益率的时序均值)。反观截面回归,它的第一步和时序回归完全一样,也是使用已有的因子收益率作为解释变量,得到资产的因子暴露的估计 $\hat{\beta}_i$ 。然而在第二步,它没有采用“时序上取平均”,而是以 $\hat{\beta}_i$ 为解释变量,以 $E_T[R_i^e]$ 为被解释变量进行截面回归。以OLS为例,它以最小化所有资产定价误差 $\hat{\alpha}_i$ 的平方和为目的。
在时序回归中,每个资产的定价误差的估计 $\hat{\alpha}_i$ 来自独立的回归,即每个资产进行一次回归,一共进行 $N$ 次,得到全部 $N$ 个 $\hat{\alpha}_i$ ;而在截面回归中,它第二步的截面回归以最小化所有 $N$ 个 $\hat{\alpha}_i$ 的平方和为目标,因此它同时利用了所有资产的数据。从某种意义上来说,这使得截面回归更加合理。对于时序回归,因子的平均收益率就是该因子模拟投资组合收益率在全部 $T$ 期的均值;而对于截面回归来说,因子收益率通过OLS或GLS确定,它的取值将会和时序回归得到的因子收益率不同。这是二者最大的区别。
看到这里,有的读者朋友也许会问一个问题。对于风格因子,它们的因子模拟投资组合明明已经有了,因子收益率时间序列也有了,只需要通过在时序上取平均就可以得到因子预期收益率,而截面回归却进行了第二步,通过OLS或GLS得到因子预期收益率。这两种方法得到的因子收益率是不同的,那么它们之间有什么差异?到底哪个是更准确的呢?接下来从数学上回答这个问题。

图2.6 时序回归vs截面回归
以OLS为例,由2.2.2节的叙述可知,因子预期收益率的估计量为:
$$ \hat {\boldsymbol {\lambda}} = \left(\hat {\boldsymbol {\beta}} ^ {\prime} \hat {\boldsymbol {\beta}}\right) ^ {- 1} \hat {\boldsymbol {\beta}} ^ {\prime} E _ {T} [ \boldsymbol {R} ^ {e} ] \tag {2.32} $$
考察式(2.32)等号右侧 $(\hat{\beta}^{\prime}\hat{\beta})^{-1}\hat{\beta}^{\prime}$ 这部分的含义。由于 $\hat{\beta}$ 是 $N\times K$ 因子暴露矩阵,因此前面这个表达式得到一个 $K\times N$ 矩阵,它的每一行对应一个因子,每一列对应一个资产。它的第 $k$ 行可以被视作因子 $k$ 的一个投资组合,第 $k$ 行、第 $i$ 列的数值即为资产 $i$ 在该投资组合中的权重。因此,这个 $K\times N$ 矩阵 $(\hat{\beta}^{\prime}\hat{\beta})^{-1}\hat{\beta}^{\prime}$ 恰好构成了多因子模型中全部因子的 $K$
个投资组合。接下来,将矩阵 $(\hat{\beta}^{\prime}\hat{\beta})^{-1}\hat{\beta}^{\prime}$ 和因子暴露矩阵 $\hat{\beta}$ 相乘,并经过简单的代数运算可得:
$$ \left[ \left(\hat {\beta} ^ {\prime} \hat {\beta}\right) ^ {- 1} \hat {\beta} ^ {\prime} \right] \hat {\beta} = \left(\hat {\beta} ^ {\prime} \hat {\beta}\right) ^ {- 1} \left(\hat {\beta} ^ {\prime} \hat {\beta}\right) = I \tag {2.33} $$
为了便于解释,令 $\Omega \equiv (\hat{\beta}^{\prime}\hat{\beta})^{-1}\hat{\beta}^{\prime}$ 。式(2.33)展示出了矩阵 $\Omega$ 代表的因子投资组合的非常好的性质。对于任意一个因子 $k$ ,它的投资组合中资产的权重是 $\Omega$ 的第 $k$ 行。由于式(2.33)的结果等于单位矩阵 $I$ ,它说明 $\Omega$ 的第 $k$ 行和因子暴露矩阵 $\hat{\beta}$ 的每一列相乘时,和任何 $j\neq k$ 列的内积都是0,而和第 $k$ 列的内积为1。令 $\omega_{ki}$ 表示 $\Omega$ 矩阵第 $k$ 行、第 $i$ 列的元素, $\hat{\beta}_{ij}$ 表示矩阵 $\hat{\beta}$ 第 $i$ 行、第 $j$ 列的元素,则上述结果在数学上可以表达为:
$$ \pmb {\Omega} \text {的 第} k \text {行 和} \hat {\pmb {\beta}} \text {的 第} j \text {列} ( j \neq k ) \text {内 积}: \sum_ {i = 1} ^ {N} \omega_ {k i} \hat {\beta} _ {i j} = 0 \pmb {\Omega} \text {的 第} k \text {行 和} \hat {\pmb {\beta}} \text {的 第} j \text {列} ( j \neq k ) \text {内 积}: $$
$$ \Omega \text {的 第} k \text {行 和} \hat {\beta} \text {的 第} k \text {列 内 积 :} \sum_ {i = 1} ^ {N} \omega_ {k i} \hat {\beta} _ {i k} = 1 \tag {2.35} $$
由 $\Omega$ 和 $\hat{\beta}$ 的定义可知,前者中的 $\omega_{ki}$ 表示因子 $k$ 的投资组合中资产 $i$ 的权重,后者中的 $\hat{\beta}{ij}$ 表示资产 $i$ 在因子 $j$ 上的暴露。由此可知, $\sum{i=1}^{N} \omega_{ki} \hat{\beta}{ik}$ 则表示 $N$ 个资产按权重 $\omega{ki}$ 在因子 $j$ 上的暴露的加权平均,因为资产权重来自因子 $k$ 的投资组合,因此这个加权平均也是因子 $k$ 的投资组合对因子 $j$ 的暴露。式(2.34)说明因子 $k$ 的投资组合对任何其他因子 $j (j \neq k)$ 的暴露均为零;而式(2.35)则表明因子 $k$ 的投资组合对它自己的暴露是1。以上就是式(2.33)的含义。
从上面的论述可知,使用截面回归不仅求出了每个因子的预期收益率,而且还同时得到了每个因子的投资组合。该投资组合满足只对该因子有暴露,而对其他因子没有暴露这个优秀的性质。对于任意一个因子 $k$ ,很显然截面回归得到的因子投资组合和排序法得到的因子投资组合是不同的,因此截面回归得到的因子预期收益率和时序回归的因子预期收益率也自然不同。由于截面回归得到的 $\Omega$ 投资组合控制了在其他因子上的暴露,因此比起时序回归结果,通常认为截面回归得到的因子收益率能够更加客观地评价因子的风险溢价。这就是两种方法的差异。

图2.7 同时用时序回归和截面回归检验模型
最后,时序回归和截面回归有时也被同时使用,以检验模型选择的因子是否有意义。考虑图2.7中假想的例子。假设对于某个因子, $E[R_i^e]$ 和 $\beta_i$ 在截面上的关系如图2.7中黑色圆点表示,由时序回归定义可知,它的结果经过图中原点和代表因子投资组合的白色空心圆点。由于该直线的斜率为正,因此时序回归求出的因子预期收益率大于零。反观通过截面回归估计 $E[R_i^e] = \gamma + \beta_i \lambda + \alpha_i$ ,由于这条直线会最小化所有 $\hat{\alpha}_i$ 的平方和,因此会得到完全不同的结果:它的斜率为负,表明因子预期收益率小于零。两个模型的背离就反映出挑选的因子可能有问题,需要进一步分析。
2.2.4 Fama-MacBeth回归
1973年,EugeneFama和JamesMacBeth在FamaandMacBeth(1973)一文中提出了一个两步回归方法(被称为Fama-MacBeth回归),该文的目的是检验CAPM。该方法非常巧妙地排除了随机扰动在截面上的相关性对标准误的影响,在业界被广泛使用。这篇文章也是计量经济学领域被引用最频繁的文章之一。
与2.2.2节类似,Fama-MacBeth回归的第一步也是通过N个时间序列回归得到每个资产i在全部因子上的暴露 $\hat{\beta}i$ ,这和截面回归的第一步相同。Fama-MacBeth回归和截面回归检验最大的差异体现在第二步截面回归上。截面回归检验使用 $\hat{\beta}_i$ 和 $E_T[R_i^e]$ 在截面上进行一次截面回归。Fama-MacBeth回归在每个时间点t,以t期的收益率 $R{it}^{e}$ 为因变量(注意:是t期的收益率,而非全部T期收益率的均值),以 $\hat{\beta}_i$ 为自变量进行截面回归,因而一共进行了T次截面回归。这是Fama-MacBeth回归检验和截面回归检验最大的不同。在t期,资产超额收益和因子收益率在截面上的线性回归模型为:
$$ R _ {i t} ^ {e} = \hat {\beta} _ {i} ^ {\prime} \lambda_ {t} + \alpha_ {i t}, i = 1, 2, \dots , N \tag {2.36} $$
如果考虑截距项,则有:
$$ R _ {i t} ^ {e} = \gamma_ {t} + \hat {\beta} _ {i} ^ {\prime} \boldsymbol {\lambda} _ {t} + \alpha_ {i t}, i = 1, 2, \dots , N \tag {2.37} $$
比较模型(2.36)和模型(2.18)可知,在截面回归检验中,首先在时序上对 $R_{it}^{e}$ ( $t = 1, 2, \dots, T$ )取均值,得到资产 $i$ 的平均收益率 $E_{T}[R_{i}^{e}]$ ;之后用 $E_{T}[R_{i}^{e}]$ 和 $\hat{\beta}{i}$ ( $i = 1, 2, \dots, N$ ) 在截面上做回归,因此只做了一次截面回归。反观Fama-MacBeth回归,它在每个 $t$ 对模型(2.36)进行一次OLS估计(如果有 $T = 100$ 期数据,就意味着进行100次截面回归),得到因子收益率和残差的估计 $\hat{\lambda}{t}$ 和 $\hat{\alpha}_{it}$ 。接下来,Fama-MacBeth把 $T$ 次截面回归得到的 $T$ 个估计再取平均,最终得到因子预期收益率和每个资产 $i$ 定价误差的估计:
$$ \hat {\boldsymbol {\lambda}} = \frac {1}{T} \sum_ {t = 1} ^ {T} \hat {\boldsymbol {\lambda}} _ {t} \tag {2.38} $$
$$ \hat {\alpha} _ {i} = \frac {1}{T} \sum_ {t = 1} ^ {T} \hat {\alpha} _ {i t} \tag {2.39} $$
Fama-MacBeth回归的巧妙之处在于它把 $T$ 期的回归结果当作 $T$ 个独立的样本。传统的截面回归检验只进行一次回归,得到因子收益率和定价误差的一个样本估计。而在Fama-MacBeth截面回归得到了每个因子收益率的时间序列 ${\hat{\lambda}{kt}}$ 以及每个资产定价误差的时间序列 ${\hat{\alpha}{it}}$ ,因此可以方便地求出每个因子预期收益率 $\hat{\lambda}_k$ 的标准误和每个资产定价误差 $\hat{\alpha}_i$ 的标准误:
$$ \sigma \left(\hat {\lambda} _ {k}\right) = \left[ \frac {1}{T ^ {2}} \sum_ {t = 1} ^ {T} \left(\hat {\lambda} _ {k t} - \hat {\lambda} _ {k}\right) ^ {2} \right] ^ {1 / 2} \tag {2.40} $$
$$ \sigma \left(\hat {\alpha} _ {i}\right) = \left[ \frac {1}{T ^ {2}} \sum_ {t = 1} ^ {T} \left(\hat {\alpha} _ {i t} - \hat {\alpha} _ {i}\right) ^ {2} \right] ^ {1 / 2} \tag {2.41} $$
将 $N$ 个资产的 $\hat{\alpha}{it}$ 写成向量的形式 $\hat{\pmb{\alpha}}_t = [\hat{\alpha}{1t},\hat{\alpha}{1t},\dots ,\hat{\alpha}{Nt}]'$ ,以下给出了全部 $N$ 个资产定价误差 $\hat{\pmb{\alpha}}$ 的协方差矩阵:
$$ \hat {\boldsymbol {\alpha}} = \frac {1}{T} \sum_ {t = 1} ^ {T} \hat {\boldsymbol {\alpha}} _ {t} \tag {2.42} $$
$$ \operatorname {c o v} (\hat {\boldsymbol {\alpha}}) = \frac {1}{T ^ {2}} \sum_ {t = 1} ^ {T} \left(\hat {\boldsymbol {\alpha}} _ {t} - \hat {\boldsymbol {\alpha}}\right) \left(\hat {\boldsymbol {\alpha}} _ {t} - \hat {\boldsymbol {\alpha}}\right) ^ {\prime} \tag {2.43} $$
有了每个因子的预期收益率 $\hat{\lambda}_k$ 和它的标准误 $\sigma(\hat{\lambda}_k)$ ,如法炮制便可计算 $t$ -统计量,并以此来检验因子预期收益率。此外,在有了 $\operatorname{cov}(\hat{\alpha})$ 矩阵之后,使用 $\chi^2$ -统计量检验全部 $N$ 个定价误差是否联合为零:
$$ \hat {\boldsymbol {\alpha}} ^ {\prime} \operatorname {c o v} (\hat {\boldsymbol {\alpha}}) ^ {- 1} \hat {\boldsymbol {\alpha}} \sim \chi_ {N - K} ^ {2} \tag {2.44} $$
从上面的描述不难看出,Fama-MacBeth回归中的截面回归和传统截面回归的区别是:
- Fama-MacBeth截面回归检验先在不同的 $t$ 上使用OLS(或GLS,下同)对 $R_{it}^{e}$ 和 $\hat{\beta}{i}$ 的截面回归模型进行估计,再把估计 $\hat{\lambda}{t}$ 和 $\hat{\alpha}{it}$ 在时序上取均值得到 $\hat{\lambda} = E{T}[\hat{\lambda}{t}]$ 和 $\hat{\alpha}{i} = E_{T}[\hat{\alpha}_{it}]$ ;
- 传统截面回归检验是先把 $R_{it}^{e}$ 在时序上取均值得到 $E_{T}[R_{i}^{e}]$ , 然后用OLS对均值之间的截面回归关系进行一次估计, 直接得到 $\hat{\lambda}$ 和 $\hat{\alpha}_{i}$ 。
简单来说,Fama-MacBeth截面回归是“先估计、再均值”,而传统截面回归是“先均值,再估计”,因此,Fama-MacBeth回归可以被理解为一种特殊的截面回归。较2.2.2节的方法而言,Fama-MacBeth回归的优势是可以排除 $\alpha_{it}$ 的相关性对标准误的影响。有必要指出的是,当截面回归中的解释变量 $\hat{\beta}i$ 在全部 $T$ 期上不变时,以上两种方法得到的估计是相同的,但Fama-MacBeth在应对 $\alpha{it}$ 的截面相关性上仍然有优势。
在实际应用中,由于Fama-MacBeth方法具有灵活性,不必限制全部T期截面回归中因子暴露 $\beta_{i}$ 保持不变。事实上,在Fama and MacBeth(1973)中,两位作者在时序回归估计 $\beta_{i}$ 时便采用了滚动窗口,因此因子暴露向量在不同的时刻t会发生变化[7]。具体来说,对于t期,使用截至t-1期的一段给定窗口的历史数据进行时序回归估计因子暴露 $\beta_{it - 1}$ 。由于它是使用截至t-1期的数据估计的,因此因子暴露向量的时间下标是t-1。使用估计值 $\hat{\beta}_{it - 1}$ 作为t期截面回归的解释变量,得到如下的截面回归模型:
$$ R _ {i t} ^ {e} = \hat {\beta} _ {i t - 1} ^ {\prime} \boldsymbol {\lambda} _ {t} + \alpha_ {i t}, i = 1, 2, \dots , N \tag {2.45} $$
或考虑截距项的情况:
$$ R _ {i t} ^ {e} = \gamma_ {t} + \hat {\boldsymbol {\beta}} _ {i t - 1} ^ {\prime} \boldsymbol {\lambda} _ {t} + \alpha_ {i t}, i = 1, 2, \dots , N \tag {2.46} $$
在每个时刻 $t$ 对模型(2.45)或模型(2.46)进行OLS估计就是时变因子暴露的Fama-MacBeth回归。比起全局都用同样的因子暴露,这种方法在实际的研究和投资实践中的应用更加广泛。
下面来说一说Fama-MacBeth回归的不足。首先,它对于 $\alpha_{it}$ 在时序上的相关性无能为力[8]。其次,由于截面回归中用到的 $\hat{\beta}i$ 并不是真实的,而是通过时间序列得到的估计值,因此存在误差。Fama-MacBeth回归对此也无能为力,仍然需要Shanken修正。话虽如此,Fama-MacBeth回归通过在截面回归时“先回归,再均值”的思路巧妙地排除了 $\alpha{it}$ 截面相关性的影响,得到了学术界的广泛认可,影响深远。时至今日,在计量经济学做面板分析的文章中,仍有约1/3的文章采用Fama-MacBeth回归(Petersen 2009),且几乎在每篇研究资产定价的论文中都可以见到它的身影。Fama-MacBeth回归的要点总结如下。
(1) Fama-MacBeth回归是一种截面回归。和普通截面回归一样, 它的第一步也是通过时间序列回归得到资产在因子上的暴露 $\hat{\beta}{i}$ 。
(2) 在得到 $\hat{\beta}{i}$ 后, 在每个 $t$ (共 $T$ 期) 使用OLS对资产超额收益率 $R_{it}^{e}$ 和 $\hat{\beta}{i}$ 的截面线性回归模型进行估计, 得到 $t$ 期因子的收益率的估计 $\hat{\lambda}{t}$ 和残差的估计 $\hat{\alpha}_{it}$ 。在通过 $T$ 次截面回归, 得到 $T$ 个估计后, 将它们在时序上取均值得到因子预期收益率 $\hat{\lambda}$ 和残差均
值 $\hat{\alpha}{i}$ 。此外,利用 $\left{\hat{\alpha}{it}\right}$ 和 $\left{\hat{\lambda}{t}\right}$ 序列便可计算 $\operatorname{cov}(\hat{\alpha})$ 和 $\sigma(\hat{\lambda}{k})$ ,以检验资产定价误差和因子预期收益率。
(3) Fama-MacBeth回归排除了 $\alpha_{it}$ 的截面相关性对标准误的影响, 但是对时序相关性无能为力。
和其他回归模型一样,Fama-MacBeth截面回归的主要目的是检验多因子模型解释资产超额收益的能力,即 $\alpha_{i}$ 联合起来在统计上是否为零。但在学术界的实证资产定价研究中,学者们更多的时候是用它来检验因子预期收益率 $\lambda_{k}$ 。由于可以方便地得到因子收益率序列从而求出其均值和标准误,因此它可以轻松地胜任这个任务。在使用Fama-MacBeth回归检验因子预期收益率时,学术界通常采用带截距项的模型(2.46),其目的是排除模型设定偏误的影响。2.3节会对因子预期收益率检验做更深入的探讨。
2.2.5 不同回归方法比较
前文2.2.1节、2.2.2节以及2.2.4节分别介绍了时序回归、截面回归和Fama-MacBeth回归三种检验多因子模型的回归方法。对于这些方法,在笔者平日阅读学术论文和自身研究因子时有两点体会,在此分享给读者。
首先,所有模型都是“不完美”的。这句话的意思是,当把足够多的资产放在回归模型的左侧时,任何一个多因子模型都会被拒绝(即若资产定价误差联合起来为零,则被拒绝)。人们研究多因子模型的动机不应追求它们在统计上多么“完美”,而应该关注每个因子背后到底有多少逻辑。在实证资产定价的研究中,往往不会使用个股作为资产去检验模型(否则模型一定会被拒绝),而是依据一些规则把股票“打包”构成投资组合,然后使用这些投资组合作为资产去检验多因子模型。这是学术界最常见的做法。
其次,在检验多因子模型时,不同的方法在很大程度上可以说都是“殊途同归”,它们之间的差异也许都没有它们名字的差异大;在特定的假设下,不同的方法往往是等价的。比如,当因子暴露 $\hat{\beta}_i$ 在时序上不变时,那么传统截面回归和Fama-MacBeth截面回归的结果是一致的。在应用中,可以通过比较不同检验方法的结果来加深对多因子模型的认知,这才是学习不同方法最大的价值。
[1]本节的介绍专注于对核心概念的解释,数学部分仅在最低限度包括必要的内容。对不同回归检验方法的数学背景感兴趣的读者可参考Cochrane(2005)。
[2]一个资产可以是一支股票也可以是由一揽子股票构成的一个投资组合。
[3]为了纪念Fischer Black,后人将该模型称为Black CAPM模型。
[4]根据2.1.2节的说明,在因子研究中原假设通常为因子预期收益为零。因此,检验时关注的是能否在给定的显著性水平下拒绝原假设。
[5]IID是独立同分布之意,其英文全称为independent and identically distributed。
[6]它是排序法得到的因子模拟投资组合的收益率的时序平均。
[7]对时变因子暴露的研究也是当下实证资产定价研究的前沿课题之一。
[8]一般认为,股票收益率的时序相关性很微弱、截面相关性很高,因此使用Fama-MacBeth回归并不会遇到太大的问题。Petersen(2009)分析了不同的回归方法在分析面板数据(panel data)时由于忽略随机扰动的时序或截面相关性而导致不准确的标准误(低估了其真实值)。
2.3 因子暴露和因子收益率
自从Fama and French(1993)提出第一个多因子模型以来,使用排序法构建因子投资组合、计算因子收益率,并通过时序回归确定资产在因子上的暴露便成为学术界的研究范式,本书第4章介绍的七个主流多因子模型均采用此方法。然而,由2.2.3节的介绍可知,通过截面回归可获得因子的纯因子组合,从而得到和排序法不同的因子的收益率。相较于使用排序法构建的因子投资组合,由于纯因子组合在其他因子上没有暴露,因此从理论上能够更准确地体现因子收益率。
在此基础上,近年来出现的新研究趋势是使用时变因子暴露的Fama-MacBeth截面回归计算因子收益率,并以此代替排序法的收益率。在诸多研究成果中,最具代表性的两篇文章要数Jegadeesh et al.(2019)和Fama and French(2020)。这两篇文章都是研究因子收益率的,但侧重点却有所不同。前者关注的是如何更准确地估计因子暴露,进而计算因子收益率;而后者则考察了排序法和回归法之中,哪种方法计算的因子收益率能够更好地解释股票预期收益率的截面差异。这些发现将人们对于因子暴露和因子收益率的理解带上了更高的台阶,也为未来实证资产定价和因子投资指明了方向。本节接下来的内容将综合梳理这些新方法和新发现。
下面回顾一下Fama-MacBeth截面回归,它是一个两步回归方法:
- 第一步时序回归:估计时刻 $t$ 资产 $i$ 在所有因子上的暴露 $\hat{\beta}{i}$ 。(为了简化符号表达, $\hat{\beta}{i}$ 中没有引入代表时间的下标。在本节的讨论中均假设 $\hat{\beta}_{i}$ 代表时变的因子暴露。)
- 第二步截面回归:使用 $\hat{\beta}{i}$ 作为解释变量,资产的超额收益率 $R{it}^{e}$ 作为被解释变量,用OLS对截面回归模型(2.46)进行估计,得到t期每个因子的收益率 $\hat{\lambda}_{kt}$ ;在得到整个因子收益率时序后,对因子预期收益率进行检验。
显然,如果没有 $\hat{\beta}{i}$ 就无法进行截面回归,因此上述过程的第一步是为了第二步服务。一旦有了 $\hat{\beta}{i}$ ,第二步的截面回归就是“例行操作”。由此可知,Fama-MacBeth回归中值得深入讨论的是如何确定因子暴露。由2.2.4的介绍可知,时序回归仅仅得到 $\beta_{i}$ 的估计,它属于生成的回归变量,而非真实(但未知)的 $\beta_{i}$ 。因此,这种做法存在误差。将 $\hat{\beta}_{i}$ 作为第二步截面回归中的解释变量就引入了计量经济学中的变量误差(errors-in-variables,EIV)问题。
Fama and MacBeth(1973)自然意识到了这个问题。为此,他们给出的解决办法是使用个股组成的投资组合代替个股作为资产。以检验CAPM为例,该文将个股按照其历史 $\beta_{i}$ 的大小构成了不同的投资组合,然后将这些投资组合作为资产。该
文指出, 当使用投资组合时, 个股 $\beta_{i}$ 的估计误差会相互抵消, 因此投资组合 $\beta$ 值 (个股 $\beta_{i}$ 的加权平均) 的估计会更准确, 从而在一定程度上降低EIV的影响。
自此以后,在进行Fama-MacBeth回归检验因子时,使用投资组合而非个股作为资产就成了主流做法。但有大佬对此颇有微词,这其中就包括Eugene Fama的学生Richard Roll。Roll和他的合作者在Jegadeesh et al.(2019)一文中指出,将个股按照某种属性分组、构建投资组合作为资产实际上是一种降维处理,投资组合会丢掉很多个股截面上的特征。如果待检验的因子和这些投资组合恰好正交,那么用它们作为资产进行Fama-MacBeth回归是无法发现这些因子的风险溢价的。因此,Jegadeesh et al.(2019)建议仍然使用个股作为资产检验因子,并提出通过引入工具变量(instrumental variables,IV)的方法应对EIV问题。
除此之外,应对EIV问题的另一种方法则显得更加“颠覆”,它干脆舍去了第一步的时序回归,而是直接采用公司特征(firm characteristic)的取值(经必要标准化处理后)作为因子暴露的估计 $\hat{\beta}_i$ 。举个例子,假设考虑围绕账面市值比(BM)构建的价值因子,按照Fama-MacBeth回归的传统做法,应该把个股和该因子收益率做时序回归求出因子暴露;而另一种处理方式是直接使用BM取值,将其进行必要的标准化处理之后作为股票在该因子上的暴露。
这两种选择因子暴露的方法大相径庭。它们之间孰优孰劣呢?它们又如何影响因子收益率的计算呢?这些问题的答案就是本节的内容。接下来先看一看引入工具变量的做法。
2.3.1 引入工具变量
在 $t$ 时刻,资产超额收益率和因子暴露满足如下截面线性回归模型:
$$ R _ {i t} ^ {e} = \gamma_ {t} + \hat {\beta} _ {i} ^ {\prime} \boldsymbol {\lambda} _ {t} + \alpha_ {i t}, i = 1, 2, \dots , N \tag {2.47} $$
为便于讨论, 引入如下数学符号。令 $\boldsymbol{R}{t}^{e} = [R{1t}^{e}, R_{2t}^{e}, \dots, R_{Nt}^{e}]'$ , $\hat{\beta}{E} = [\hat{\beta}{1}, \hat{\beta}{2}, \dots, \hat{\beta}{N}]'$ 以及 $\alpha_{t} = [\alpha_{1t}, \alpha_{2t}, \dots, \alpha_{Nt}]'$ ; 定义 $N \times (K + 1)$ 矩阵 $\hat{\boldsymbol{B}}{E} \equiv [1{N}, \hat{\boldsymbol{\beta}}{E}]$ ; 定义 $(K + 1)$ 维向量 $\zeta{t} = [\gamma_{t}, \lambda_{1t}, \dots, \lambda_{kt}]'$ 。由定义可知, $\zeta_{t}$ 中的第一项是模型 (2.47) 中的截距项, 而后面 $K$ 项则是这 $K$ 个因子 $t$ 期的收益率。使用上述定义, 并将全部 $N$ 个资产放在一起表达, (2.47) 变为:
$$ \boldsymbol {R} _ {t} ^ {e} = \hat {\boldsymbol {B}} _ {E} \zeta_ {t} + \boldsymbol {\alpha} _ {t} \tag {2.48} $$
为减少EIV问题的影响,Jegadeesh et al.(2019)在估计模型(2.48)的参数中引入了工具变量,得到 $\zeta_t$ 的IV估计量:
$$ \hat {\zeta} _ {\mathrm {I V}, t} = \left(\hat {\boldsymbol {B}} _ {I} ^ {\prime} \hat {\boldsymbol {B}} _ {E}\right) ^ {- 1} \left(\hat {\boldsymbol {B}} _ {I} ^ {\prime} \boldsymbol {R} _ {t} ^ {e}\right) \tag {2.49} $$
式中 $\hat{B}_I \equiv [1_N, \hat{\beta}_I]$ 是 $\hat{B}_E$ 的工具变量。Jegadeesh et al.(2019)使用互不重叠的历史数据分别进行时序回归计算 $\hat{B}_E$ 和 $\hat{B}_I$ 中的 $\hat{\beta}_E$ 和 $\hat{\beta}_I$ ,并指出它们是不相关的,因而能够减
少EIV问题。在具体操作中,在每个月末使用过去三年个股的日频收益率和多因子模型的日频收益率进行时序多元回归:
(1) 如果当前月是偶数月(比如二月、四月、六月等),则使用过去三年窗口内所有的偶数月之中个股和多因子的收益率进行回归,得到的回归系数就是 $\hat{\beta}{E}$ ;使用这三年窗口内所有奇数月之中个股和多因子的收益率进行回归,得到的回归系数作为 $\hat{\beta}{I}$ 。
(2) 如果当前月是奇数月(比如一月、三月、五月等),则使用过去三年窗口内所有的奇数月之中个股和多因子的收益率进行回归,得到的回归系数就是 $\hat{\beta}{E}$ ;使用这三年窗口内所有偶数月之中个股和多因子的收益率进行回归,得到的回归系数作为 $\hat{\beta}{I}$ 。
由于模型(2.48)存在EIV问题,所以OLS估计量往往是有偏的(biased)。此外,由于多个解释变量同时存在,因此人们无法确定每个因子的收益率是被高估还是被低估,而式(2.49)所示的IV估计量则是因子收益率的无偏估计。
2.3.2 使用公司特征
虽然使用IV估计量消除了EIV问题,但Jegadeesh et al.(2019)的研究同时指出,通过IV估计量得到的显著的因子收益率也可能源自被忽视的变量偏差,即在截面回归时没有使用构建因子投资组合时使用的公司特征作为控制变量。以规模和价值因子为例,排除变量偏差意味着在使用经回归得到的因子暴露 $\hat{\beta}_i$ 的基础上,同时加入了构建这两个因子的公司变量(即对数市值和BM)共同作为解释变量,进行Fama-MacBeth截面回归。实证结果显示,当排除变量偏差后,仅有公司特征作为因子暴露的因子被定价了,而以时序回归作为因子暴露的因子并没有被定价。无论采用传统OLS估计量还是新提出的IV估计量,上述结论均成立。
表2.4给出了Jegadeesh et al.(2019)的实证结果[2]。对于IV估计量和OLS估计量,表中分别汇报了三组实验结果。以IV估计量为例,在实验(1)和(2)中,分别仅使用时序回归得到的 $\hat{\beta}$ 和公司特征作为因子暴露,计算相应因子的平均收益。结果显示,在这两组实验中,规模和价值因子的月均收益率均显著不为零(实验(2)中规模因子月均收益率为负的原因是当使用ln(市值)作为因子暴露时,小市值的暴露更低)。然而,在实验(3)中,当时序 $\hat{\beta}$ 和公司特征被同时选为解释变量后,结果显示以时序回归 $\hat{\beta}$ 为暴露的因子的月均收益不再显著。在实验(3)中,以 $\hat{\beta}{i,\mathrm{SMB}}$ 为因子暴露的规模因子的月均收益率 $t$ -值仅为-0.42,以 $\hat{\beta}{i,\mathrm{HML}}$ 为因子暴露的价值因子的月均收益率 $t$ -值则是1.88(小于0.05显著性水平下 $t$ -值的阈值)。而另一方面,在实验(3)中,以ln(市值)和BM分别作为暴露的规模和价值因子的月均收益率,其 $t$ -值分别为-3.93和4.40,在统计上均十分显著。对于OLS估计量,也可以观察到同样的结果,在此不再赘述[3]。
上述结果似乎在向人们传递这样的信息:比起时序回归的 $\hat{\beta}$ ,公司特征似乎才是更好的因子暴露。下面将对此进行探讨。
| (1) | (2) | (3) | (4) | (5) | (6) | |
| IV 估计量 | OLS 估计量 | |||||
| βi,SMB | 0.30 | -0.04 | 0.21 | -0.07 | ||
| (2.20) | (-0.42) | (2.16) | (-1.01) | |||
| βi,HML | 0.34 | 0.24 | 0.23 | 0.14 | ||
| (2.55) | (1.88) | (2.79) | (1.73) | |||
| ln(市值) | -0.12 | -0.12 | -0.14 | -0.16 | ||
| (-3.49) | (-3.93) | (-3.84) | (-4.93) | |||
| BM | 0.20 | 0.18 | 0.19 | 0.14 | ||
| (4.40) | (4.50) | (4.25) | (3.60) | |||
注意:本表格汇报了使用不同因子暴露时,相应因子的月均收益率(%),括号内为该预期收益率的t-值。
2.3.3 两类模型
最初,Fama and French(1996)这篇著名的解读Fama and French(1993)三因子模型的文章指出,解释一支股票的收益应关注它和因子之间的时序回归系数,而非公司特征。举例来说,某个BM很低的公司的收益率如果和价值因子的相关系数很高,那么该公司应该被当作价值股,而非成长股。毫无疑问,使用时序回归 $\hat{\beta}$ 作为因子暴露则是符合人们认知的,然而实证数据显示的却又是另一个故事。当使用个股作为测试资产时,以公司特征作为因子暴露则“完胜”时序回归得到的 $\hat{\beta}$ :前者能获得显著风险溢价,但后者却不行。
以下从两个不同的角度思考时序回归 $\hat{\beta}$ 和公司特征之间的差异:(1)日频收益率噪声较高,使用它进行时序回归得到的因子暴露存在较高误差,使得个股的因子暴露取值在时序上并不稳定。一旦因子暴露在时序上不稳定,就会导致在不同时期进行截面回归时,该因子的表现就像随机因子一样,因而难以获得显著的溢价。(2)真实的因子暴露是未知的,而相比时序回归系数,公司特征是未知因子暴露更好的代理变量。基于A股的实证结果[4]显示,当期的公司特征比最新时序回归 $\hat{\beta}$ 更能预测下一期股票的收益率。这个结果可以从一定程度上解释为什么仅有公司特征为暴露的因子被定价,而使用时序回归 $\hat{\beta}$ 为暴露的因子没有被定价。在某种意义上,它似乎说明公司特征是更好的因子暴露变量,但其背后的原因仍然值得继续深入探索。
既然公司特征相比时序回归 $\hat{\beta}$ 是更好的因子暴露,且只有以公司特征作为因子暴露代理变量的因子被定价,那么一个很自然的想法是使用截面回归计算因子收益率并以公司特征作为个股在因子上的暴露,从而也得到一种多因子模型。学术界管这种方法得到的模型叫作“截面多因子模型”。与之相对应的是自Fama and French(1993)沿袭而来的使用排序法计算因子收益率,并通过时序回归计算股票的因子暴露。这种模型被称为“时序多因子模型”。那么,在这两类模型中,谁能更好地解释股票预期收益率的截面差异呢?
Fama and French(2020)回答了这个问题[5],其核心结论为,比起传统的“时序回归多因子模型”,“截面回归多因子模型”更能解释资产收益率的预期差异,即资产的定价误差更接近零。此外,当使用“截面回归多因子模型”时,因子暴露应使用时变的公司特征,而非恒定的公司特征(比如对于某公司,把它的某个特征
在时序上取均值,但这种方法效果并不好)。除此之外,Fama and French(2020)还研究了另一种“四不像”的模型,即使用截面回归计算因子收益率,得到因子收益率序列后再使用股票和因子收益率时序回归计算因子暴露,以取代公司特征。这个“四不像”模型对资产预期收益率的解释能力和“时序回归多因子模型”相似,但却不如“截面回归多因子模型”。这个结果说明,“截面回归多因子模型”优于“时序回归多因子模型”,原因可能源于两点:(1)截面回归的因子收益率优于排序法的因子收益率;(2)时变公司特征相比时序回归是更好的因子暴露代理变量。二者缺一不可。
自Fama and French(1993)三因子模型问世以来,学术界便采用了“时序回归多因子模型”这一传统。而在27年后,如今,Eugene Fama和Kenneth French又通过Fama and French(2020)一文打破了这一传统,引领了今后实证资产定价模型的研究方向。虽然其结果更多地建立在纯粹的实证分析之上,但该文还是清晰地回答了学术界和业界都非常关心的两个问题:到底如何计算因子收益率以及用什么作为因子暴露。从上述结果来看,基于截面回归得到的纯因子组合作为因子投资组合、使用公司特征作为因子暴露在未来或大有可为。此外,“截面多因子模型”也更符合业界的做法(例如Barra多因子模型)。本书第3章将遵循学术界惯例,采用投资组合排序法检验因子,而第4章将使用公司特征作为因子暴露,通过Fama-MacBeth回归检验因子,以帮助读者理解不同方法的差异。
[1]在使用个股的数据进行截面回归时,市值通常会被对数市值代替,以此降低极值的影响。
[2]在原文中,Jegadeesh et al.(2019)在进行Fama-MacBeth回归时还加入了市场因子暴露以及截距项作为解释变量。但由于它们不是此处关注的重点,因而没有被纳入表2.4中。
[3]公众号“川总写量化”的文章《Which Beta?》以中证500的成分股为基准验证了Jegadeesh et al.(2019)的方法,并在A股上观察到了类似的现象。
[4]参考公众号“川总写量化”的文章《Which beta?》。
[5]公众号“川总写量化”的文章《Which Beta(II)?》对Fama and French(2020)进行了详细解读。
2.4 异象检验
学术界对于异象的研究是十分狂热的。在过去30年的时间里,学者们在美股市场中“挖”出了数百个异象。Hou et al.(2020)一文花了非常大的精力复制了452个异象,是一篇很好的总结。不幸的是,他们发现绝大多数被发表的异象并不能获得多因子模型无法解释的显著 $\alpha$ 收益率,这意味着很多学术研究并没有带来真正科学、正确的结果。本书第6章会对学术界的这种风气进行介绍,本节先来看看如何检验异象。
2.4.1 时序回归检验异象
通过第1章的介绍可知,如果某个资产能够获得多因子模型无法解释的显著超额收益,那么就称该资产为一个异象。在股票多因子研究的范畴内,上述异象资产通常是按照如下几个步骤构造投资组合的:
(1)选择一个潜在的财务指标或者量价指标,以它作为异象变量(anomaly variable)。
(2)根据异象变量取值的高低,将股票在截面上排序,使用排序法构建异象投资组合,并获得异象收益率的时间序列。
(3)检验该异象收益率能否被多因子模型解释。
在给出具体的检验之前,有一点关于异象研究的重要趋势值得一提。在过去,最常见的做法是使用单一异象变量来构建异象。然而,在近些年的研究中,一个主流的趋势是使用多个(即复合)变量来构造异象。当然,这种做法有利也有弊。好的一方面是这些使用多指标构建的异象往往有更强的金融学含义,因此更能够帮助人们理解上市公司基本面和技术面信息与未来预期收益率之间的关系。比如Asness et al.(2019)一文以Quality minus junk为题提出的质量异象。该文三个维度使用了众多指标,最终得出了一个总分对股票排序,构造了异象投资组合。又如Piotroski and So(2012)的研究,它使用两个变量的独立双重排序构建了一个预期差异象,而其中一个排序变量本身就是一个应用了多个财务指标的复合变量。不好的一方面则是使用复合变量更容易出现过拟合。从某种意义上说,研究异象(和因子)其实是对着历史数据进行数据挖掘。一旦使用的变量过多,就容易出现过度挖掘,使得发现的所谓异象仅仅是样本内过拟合的结果。尽管如此,从本书的目标来看,复合变量构成的异象仍然比单一变量构成的异象更加值得探讨。为此,在本书第5章研究异象时,会针对学术界一些非常经典的复合变量异象在A股进行实证。
回到本节的重点,异象检验的第一种方法非常直接,即时间序列回归。令 $R_{t}^{e}$ ( $t = 1,2,\dots,T$ )代表 $t$ 时刻异象收益率, $\lambda_{t}$ ( $t = 1,2,\dots,T$ )代表 $t$ 时刻因子收益率向量(假设共有 $K$ 个因子)。在检验异象时,原假设是异象收益率中不存在因子无法解释的部分,即 $\alpha = 0$ 。为检验它,用 $\lambda_{t}$ 作为解释变量、 $R_{t}^{e}$ 作为被解释变量进行时序回归OLS估计:
$$ R _ {t} ^ {e} = \hat {\alpha} + \hat {\beta} _ {a} ^ {\prime} \boldsymbol {\lambda} _ {t} + \hat {\varepsilon} _ {t}, t = 1, 2, \dots , T \tag {2.50} $$
式中, $\hat{\alpha}$ 是截距项, 它是 $\alpha$ 的估计值, 代表异象收益率中无法被多因子模型解释的部分; $\hat{\beta}{a}$ 为该异象在 $K$ 个因子上的暴露向量的估计, 它的取值告诉人们哪些因子对解释异象收益率起了作用; $\hat{\varepsilon}{t}$ 是残差。OLS除了给出上述参数的估计外, 还会计算出它们的标准误。由于目标是检验异象能否获得显著超额收益, 因此使用 $\hat{\alpha}$ 和它的标准误 s.e. $(\hat{\alpha})$ 计算 $t$ -值:
$$ t \text { - 值 } = \frac { \hat { \alpha } } { \mathrm { s . e . } ( \hat { \alpha } ) } ( 2 . 5 1 ) $$
在时序回归中,总的期数为 $T$ 。另外,解释变量包括一个截距项以及 $K$ 个因子,故而一共有 $K + 1$ 个解释变量。因此,式(2.51)中 $t$ -值满足的 $t$ 分布的自由度为 $T - K - 1$ 。最后,根据 $t$ -值和 $t$ -分布就可以计算出 $p$ -值,从而决定是否在给定的显著性水平下拒绝原假设。如果原假设 $\alpha = 0$ 被拒绝,那么就称 $R_{t}^{e}$ 背后的资产为异象。
其实,对于异象的检验到这里就告一段落了。然而,在时间序列回归中有一个必须面对的计量经济学问题。当时间序列的随机扰动有自相关性或者异方差时,OLS的标准误就是不准确的,这就造成计算出的 $t$ -值也是失真的。下面2.4.2节首先说明这个计量经济学问题,然后2.4.3节给出解决办法。
2.4.2 计量经济学问题
接下来暂时跳出多因子模型,讨论回归分析中普遍存在的计量经济学问题。考虑总体(population)的广义线性回归模型(generalized linear regression model)公式如下:
$$ \boldsymbol {y} = \boldsymbol {X} \boldsymbol {b} + \varepsilon $$
$$ E [ \varepsilon | \boldsymbol {X} ] = \mathbf {0} \tag {2.52} $$
$$ E [ \varepsilon \varepsilon^ {\prime} | \boldsymbol {X} ] = \sigma^ {2} \boldsymbol {\Upsilon} = \boldsymbol {\Sigma} $$
其中 $y$ 是 $T$ 维向量; $X$ 是 $T \times (K + 1)$ 解释变量矩阵(其中 $K$ 是解释变量的个数, 外加一个截距项); $b$ 是 $(K + 1)$ 维回归系数向量; $\varepsilon$ 是 $T$ 维随机扰动向量; $\Sigma (T$ 阶)是 $\varepsilon$ 的协方差矩阵。上述模型和经典线性回归模型最大的区别是正定矩阵 $Y$ 的引入。在经典模型中假设给定解释变量 $X$ 下, $\varepsilon$ 满足独立且同方差, 因此 $Y$ 是单位阵 $I$ 。
在广义线性回归中, $\varepsilon$ 独立、同方差这两个假设均可被打破,从而得到两个常见的特性:异方差(heteroscedasticity)和自相关(autocorrelation)。在广义线性
回归模型中引入 $Y$ 正是为了反映 $\varepsilon$ 的上述特性。当仅出现异方差但没有自相关时, $\sigma^2 Y$ 满足:
$$ \sigma^ {2} \boldsymbol {\Upsilon} = \sigma^ {2} \left[ \begin{array}{c c c c} v _ {1 1} & 0 & \dots & 0 \ 0 & v _ {2 2} & \dots & 0 \ \vdots & \vdots & \ddots & \vdots \ 0 & 0 & \dots & v _ {T T} \end{array} \right] = \left[ \begin{array}{c c c c} \sigma_ {1} ^ {2} & 0 & \dots & 0 \ 0 & \sigma_ {2} ^ {2} & \dots & 0 \ \vdots & \vdots & \ddots & \vdots \ 0 & 0 & \dots & \sigma_ {T} ^ {2} \end{array} \right] \tag {2.53} $$
反之,当仅出现自相关但没有异方差时, $\sigma^2 Y$ 满足:
$$ \sigma^ {2} \boldsymbol {\Upsilon} = \sigma^ {2} \left[ \begin{array}{c c c c} 1 & \rho_ {1} & \dots & \rho_ {T - 1} \ \rho_ {1} & 1 & \dots & \rho_ {T - 2} \ \vdots & \vdots & \ddots & \vdots \ \rho_ {T - 1} & \rho_ {T - 2} & \dots & 1 \end{array} \right] \tag {2.54} $$
式(2.53)和式(2.54)只是给了Y的两个典型例子。在一般的情况下,自相关和异方差同时存在,Y矩阵中第i行、第j列的元素则由 $v_{ij}$ 表示。如果矩阵Y已知,则通常使用广义最小二乘(GLS)对回归系数b进行参数估计。但当Y未知时,OLS往往是首选。对模型(2.52)使用OLS得到b的估计 $\hat{b}$ 为:
$$ \hat {\boldsymbol {b}} = \left(\boldsymbol {X} ^ {\prime} \boldsymbol {X}\right) ^ {- 1} \boldsymbol {X} ^ {\prime} \boldsymbol {y} = \boldsymbol {b} + \left(\boldsymbol {X} ^ {\prime} \boldsymbol {X}\right) ^ {- 1} \boldsymbol {X} ^ {\prime} \varepsilon \tag {2.55} $$
对式(2.55)两边取期望,如果 $E[\varepsilon |X] = 0$ 成立,则有 ${}{E[\hat{b} ]} = b$ 。利用 $E[\hat{b}] = b$ 可以推导出 $\hat{\pmb{b}}$ 的协方差矩阵,记为 $V{\mathrm{OLS}}$ (下标OLS表示使用OLS估计):
$$ \begin{array}{l} \boldsymbol {V} _ {\mathrm {O L S}} = E \left[ (\hat {\boldsymbol {b}} - \boldsymbol {b}) (\hat {\boldsymbol {b}} - \boldsymbol {b}) ^ {\prime} | \boldsymbol {X} \right] \ = E \left[ \left(X ^ {\prime} X\right) ^ {- 1} X ^ {\prime} \varepsilon \varepsilon^ {\prime} X \left(X ^ {\prime} X\right) ^ {- 1} | X \right] \ = \left(\boldsymbol {X} ^ {\prime} \boldsymbol {X}\right) ^ {- 1} \boldsymbol {X} ^ {\prime} \left(\sigma^ {2} \boldsymbol {\Upsilon}\right) \boldsymbol {X} \left(\boldsymbol {X} ^ {\prime} \boldsymbol {X}\right) ^ {- 1} \tag {2.56} \ = \frac {1}{T} \left(\frac {1}{T} \boldsymbol {X} ^ {\prime} \boldsymbol {X}\right) ^ {- 1} \left(\frac {1}{T} \boldsymbol {X} ^ {\prime} [ \sigma^ {2} \boldsymbol {\Upsilon} ] \boldsymbol {X}\right) \left(\frac {1}{T} \boldsymbol {X} ^ {\prime} \boldsymbol {X}\right) ^ {- 1} \ \end{array} $$
当 $\varepsilon$ 不存在异方差以及自相关性时, $Y = I$ 。将其代入式(2.56)并进行简单的代数运算就可以得到经典OLS中 $V_{\mathrm{OLS}}$ 的表达式:
$$ V _ {\mathrm {O L S}} = \sigma^ {2} (X ^ {\prime} X) ^ {- 1} \tag {2.57} $$
在实际中用样本残差的方差 $s^2$ 代替总体的 $\sigma^2$ 代入式(2.57),从而得到 $V_{\mathrm{OLS}}$ 的估计 $\hat{V}{\mathrm{OLS}}$ ,其对角线元素的平方根就是这 $K + 1$ 个回归系数(包括截距项)的标准误,通过它们就可以进行 $t$ -检验。然而,当 $\varepsilon$ 存在异方差或者自相关时,上述 $\hat{V}{\mathrm{OLS}}$ 就
不是一个好的估计量。
式(2.56)右侧表达式中除第一项 $1 / T$ 之外,剩余部分可以看成是三个矩阵相乘的形式,其中第一个和第三个仅和解释变量 $X$ 有关,因此修正自相关和异方差的核心就是正确地估计式(2.56)中的中间矩阵。为了方便讨论,令 $Q$ 代表中间的矩阵:
$$ \boldsymbol {Q} \equiv \frac {1}{T} \boldsymbol {X} ^ {\prime} \left[ \sigma^ {2} \boldsymbol {\Upsilon} \right] \boldsymbol {X} = \frac {1}{T} \sum_ {i = 1} ^ {T} \sum_ {j = 1} ^ {T} \sigma_ {i j} \boldsymbol {x} _ {i} \boldsymbol {x} _ {j} ^ {\prime} \tag {2.58} $$
式中 $x_{i} = [x_{i1}, x_{i2}, \dots, x_{iK + 1}]'$ ,即 $X$ 的第 $i$ 行的转置(注意它不等于 $X$ 的第 $i$ 列)。一旦能找到在考虑了自相关和/或异方差之后的矩阵 $Q$ 的估计量,便可通过它进而求出 $\hat{b}$ 的协方差矩阵的估计量 $\hat{\nu}_{\mathrm{OLS}}$ 。在这方面,最著名的两个估计量当属 White(1980)估计量(仅考虑异方差)以及 Newey and West(1987)估计量(同时考虑异方差及自相关)。
2.4.3 White估计量和Newey-West估计量
为了估计 $Q$ ,需要用到的“武器”恰恰就是解释变量矩阵 $X$ ,以及回归的样本残差向量 $\hat{\varepsilon} = [\hat{\varepsilon}_1, \hat{\varepsilon}_2, \dots, \hat{\varepsilon}_T]'$ 。当 $\varepsilon$ 仅有异方差但没有自相关时, $Q$ 则简化为仅考虑对角线上的元素:
$$ \boldsymbol {Q} = \frac {1}{T} \sum_ {i = 1} ^ {T} \sigma_ {i} ^ {2} \boldsymbol {x} _ {i} \boldsymbol {x} _ {i} ^ {\prime} \tag {2.59} $$
White(1980)指出使用 $X$ 以及 $\hat{\varepsilon}$ 便可求出 $Q$ 的渐进估计(记为 $S_0$ ):
$$ \boldsymbol {S} _ {0} = \frac {1}{T} \sum_ {i = 1} ^ {T} \hat {\varepsilon} _ {i} ^ {2} \boldsymbol {x} _ {i} \boldsymbol {x} _ {i} ^ {\prime} \tag {2.60} $$
将 $S_{0}$ 代入式(2.56)便得到 $\hat{b}$ 的协方差矩阵的估计量:
$$ \begin{array}{l} \hat {\boldsymbol {V}} _ {\mathrm {O L S}} = \frac {1}{T} \left(\frac {1}{T} \boldsymbol {X} ^ {\prime} \boldsymbol {X}\right) ^ {- 1} \left(\frac {1}{T} \sum_ {i = 1} ^ {T} \hat {\varepsilon} _ {i} ^ {2} \boldsymbol {x} _ {i} \boldsymbol {x} _ {i} ^ {\prime}\right) \left(\frac {1}{T} \boldsymbol {X} ^ {\prime} \boldsymbol {X}\right) ^ {- 1} \tag {2.61} \ = T \left(\boldsymbol {X} ^ {\prime} \boldsymbol {X}\right) ^ {- 1} \boldsymbol {S} _ {0} \left(\boldsymbol {X} ^ {\prime} \boldsymbol {X}\right) ^ {- 1} \ \end{array} $$
式(2.61)被称为White异方差相合估计量。该结果的优势在于,哪怕人们对异方差的取值或结构一无所知,仍然可以根据OLS的结果进行适当的推断。考虑到实际问题,在资产收益率中无法被多因子模型解释的随机扰动部分的异方差性质未知,上述性质就显得格外重要。在检验异象时,除了异方差外,通常仍需考虑ε的自相关性。为此,一个自然的想法是将上述Q的估计延伸到对角线之外的元
素,即:
$$ \boldsymbol {S} = \frac {1}{T} \sum_ {i = 1} ^ {T} \sum_ {j = 1} ^ {T} \hat {\varepsilon} _ {i} \hat {\varepsilon} _ {j} \boldsymbol {x} _ {i} \boldsymbol {x} _ {j} ^ {\prime} \tag {2.62} $$
式(2.62)看似合理,但因其存在两个问题,所以并不正确:(1)该表达式中一共有 $T^{2}$ 项求和,而求和项之前的比例系数仅仅是 $1 / T$ ,因此 $S$ 可能不收敛;(2)即便 $S$ 收敛,它也很可能不是正定的,从而使得 $\hat{b}$ 的协方差矩阵非正定,这显然有违常理。
为了解决上述问题,Newey and West(1987)给出了在同时考虑ε的自相关和异方差时,中间矩阵Q的相合估计量:
$$ \boldsymbol {S} = \frac {1}{T} \sum_ {t = 1} ^ {T} \hat {\varepsilon} _ {t} ^ {2} \boldsymbol {x} _ {t} \boldsymbol {x} _ {t} ^ {\prime} + \frac {1}{T} \sum_ {j = 1} ^ {J} \sum_ {t = j + 1} ^ {T} w _ {j} \hat {\varepsilon} _ {t} \hat {\varepsilon} _ {t - j} \left(\boldsymbol {x} _ {t} \boldsymbol {x} _ {t - j} ^ {\prime} + \boldsymbol {x} _ {t - j} \boldsymbol {x} _ {t} ^ {\prime}\right) \tag {2.63} $$
其中 $w_{j} = 1 - \frac{j}{1 + J}$
比较式(2.60)和式(2.63)不难发现,后者中的第一项正好对应仅有异方差的情况,而第二项则是针对自相关性的修正。其中 $J$ 是计算自相关性影响的最大滞后阶数(Newey and West 1994给出了自动计算 $J$ 取值的自适应算法), $w_{j}$ 是滞后期 $j$ 的权重系数,由其表达式不难看出自相关性的影响随着滞后期 $j$ 的增大而减小。将式(2.63)中的 $S$ 代入式(2.56),得到协方差矩阵的Newey-West异方差自相关相合估计量:
$$ \hat {\boldsymbol {V}} _ {\mathrm {O L S}} = T \left(\boldsymbol {X} ^ {\prime} \boldsymbol {X}\right) ^ {- 1} \boldsymbol {S} \left(\boldsymbol {X} ^ {\prime} \boldsymbol {X}\right) ^ {- 1} \tag {2.64} $$
将式(2.64)的协方差矩阵对角线上的元素求平方根,就得到回归系数的标准误[1]。该估计量在实证资产定价研究中应用非常广泛,几乎任何一篇分析因子或者异象的论文,在检验收益率显著性时,都会提到诸如“经Newey-West调整后的t-值(Newey-West adjusted t-statistic)”或者“经Newey-West调整后的标准误(Newey-West adjusted standard error)”。这些描述的含义是使用式(2.64)计算回归系数的标准误以及t-值[2]。
再回到本节异象检验的问题中,按照如下步骤即可在OLS回归时对回归系数的标准误进行Newey-West调整:
(1) 使用异象收益率作为被解释变量、多因子中 $K$ 个因子的收益率以及一个截距项(一共 $K + 1$ 项)作为解释变量,进行时序回归OLS估计,得到残差 $\hat{\varepsilon}$ 。
(2) 使用 $K + 1$ 个解释变量 $X$ 和残差 $\hat{\varepsilon}$ , 根据式 (2.63) 和式 (2.64) 计算出经 Newey-West 调整后的 $\hat{V}_{\mathrm{OLS}}$ , 计算时依照 Newey and West (1994) 给出的公式确定最大滞后期数 $J$ :
$$ J = \left\lfloor 4 \times \left(\frac {T}{1 0 0}\right) ^ {2 / 9} \right\rfloor \tag {2.65} $$
上式中 $\lfloor \rfloor$ 表示向下取整。
(3) 将 $\hat{V}_{\mathrm{OLS}}$ 的对角线元素开平方, 其平方根就是回归系数 $\hat{b}$ 的标准误 (一共 $K + 1$ 个)。
(4) 找到截距项的标准误, 它对应的就是式 (2.50) 中的 $\hat{\alpha}$ 的经Newey-West 调整后的标准误 $\mathrm{s.e.}(\hat{\alpha})$ 。用 $\hat{\alpha}$ 和 $\mathrm{s.e.}(\hat{\alpha})$ 按照式 (2.51) 计算 $t$ -值, 进行 $t$ -检验。
本书在第5章针对A股市场进行异象实证研究时,将采用上述步骤检验异象的显著性。
2.4.4 截面回归检验异象
除了通过时序回归方法检验异象外,Fama-MacBeth截面回归也常被用于检验异象。其背后的逻辑是,异象能获得超额收益则意味着异象变量能够预测资产未来的收益率;而Fama-MacBeth截面回归可以在控制其他因子的同时,检验异象对收益率的预测性。在回归时,使用异象变量以及多因子模型中构造因子的变量同时作为解释变量,以资产(个股或投资组合,通常为个股)超额收益作为被解释变量,在每个时刻t进行截面回归,得到异象变量t期的超额收益,记为 ${\hat{\lambda}_t^\alpha}$ (上标α代表异象)。利用该序列,计算异象收益率的均值和均值的标准误(分别记为 $\hat{\lambda}^{\alpha}$ 和s.e. $(\hat{\lambda}^{\alpha})$ ),然后进行t-检验。如果在控制了因子变量后,该异象的预期收益依然显著,那么就认为它可以获得多因子模型无法解释的超额收益。
由于异象收益率在时序上可能存在异方差和自相关性,因此也可以通过Newey-West调整得到准确的s.e. $(\hat{\lambda}^{\alpha})$ 的估计。如何对单个收益率序列进行Newey-West调整呢?正确做法是使用 $\hat{\lambda}{t}^{\alpha}$ $(t = 1,2,\dots ,T)$ 作为被解释变量, $X{t} = 1$ ( $t = 1,2,\dots ,T$ )作为解释变量,通过OLS求出残差序列 ${\hat{\varepsilon}t}$ 。上述OLS的回归系数实际上就等于 $\hat{\lambda}_t^\alpha$ 在时序上的均值 $\hat{\lambda}^{\alpha}$ ,而残差则是收益率和其时序均值之差,它反映了异象收益率的自相关和异方差性。把残差 $\hat{\varepsilon}_t$ 和 $X{t} = 1$ 代入式(2.63)即可得到经Newey-West调整的中间矩阵。在针对单一时间序列进行的计算中,中间矩阵为标量(记为 $Q$ ),因此它的估计S(也是标量)为:
$$ S = \frac {1}{T} \left{\sum_ {t = 1} ^ {T} \hat {\varepsilon} _ {t} ^ {2} + 2 \sum_ {j = 1} ^ {J} \sum_ {t = j + 1} ^ {T} w _ {j} \hat {\varepsilon} _ {t} \hat {\varepsilon} _ {t - j} \right} $$
其中 $\hat{\varepsilon}_t = \hat{\lambda}_t^\alpha - E_T[\hat{\lambda}_t^\alpha]$
$$ w _ {j} = 1 - \frac {j}{1 + J} $$
(2.66)
由 $X_{t} = 1$ 易知 $X^{\prime} X = T$ 。将式(2.66)中的 $S$ 和 $X^{\prime} X = T$ 代入Newey-West估计量式(2.64),通过简单运算可得 $\hat{\lambda}^{\alpha}$ 的方差的估计:
$$ \hat {\sigma} _ {\lambda^ {\alpha}} ^ {2} = T \left(\boldsymbol {X} ^ {\prime} \boldsymbol {X}\right) ^ {- 1} S \left(\boldsymbol {X} ^ {\prime} \boldsymbol {X}\right) ^ {- 1} = T (T) ^ {- 1} S (T) ^ {- 1} = S / T \tag {2.67} $$
将式(2.67)开方就得到经Newey-West调整后的 $\hat{\lambda}^{\alpha}$ 的标准误s.e $(\hat{\lambda}^{\alpha}) = \sqrt{S / T}$ 。最终,使用均值 $\hat{\lambda}^{\alpha}$ 和s.e $(\hat{\lambda}^{\alpha})$ 计算 $t$ -统计量并检验异象预期收益率的显著性。
有必要说明的是,上述检验单一收益率在时序中的Newey-West调整对回归右侧的所有解释变量都成立。如果解释变量是异象变量,那么它检验的就是异象预期收益率是否显著;如果解释变量是因子变量,那么它检验的就是因子预期收益率是否显著。根据2.3节的说明,虽然使用排序法构建因子投资组合并检验其收益率一直以来是学术界的惯例,但是近年来越来越多的研究使用公司特征作为因子暴露,并使用Fama-MacBeth回归检验因子收益率。一旦得到因子收益率的时间序列 ${\hat{\lambda}{kt}}$ ,就可以使用本节介绍的方法计算因子预期收益率的标准误,并对其检验。除此之外,上述Newey-West调整也可以被应用于排序法中。这意味着首先通过投资组合排序法获得因子的收益率序列 ${\hat{\lambda}{kt}}$ ,然后计算其均值的标准误时应用式(2.66)和式(2.67),这样便可得到正确的s.e. $(\hat{\lambda}_k)$ 。在本书第3章关于主流因子的实证研究中,将使用排序法构建因子收益率序列,并按照本节的方法计算标准误,检验因子预期收益率。
[1]严格地说,是标准误的估计。
[2]White(1980)估计量也常被用来计算回归系数的标准误。但由于Newey and West(1987)估计量既考虑异方差又考虑自相关,比White(1980)估计量适用性更高,因而得到了更广泛的使用。
2.5 多因子模型比较
2.2.5节提到,所有的多因子模型都是“不完美”的。而这句话的后半句是有些多因子模型是“有用”的。如果一个模型中的因子都有可靠的经济学或金融学依据,代表了某种风险[1],且该多因子模型能够解释大量资产的预期收益,那么该模型就是有用的。然而从不同的逻辑出发,人们总能提出不同的因子,并用它们组合出不同的多因子模型。对于不同的多因子模型,应该如何进行比较呢?有哪些统计学方法能帮人们做出科学的判断呢?介绍比较多因子模型的方法就是本节的内容。
要比较多因子模型,可以本着“两个目标、两个切入点、多种方法”这条逻辑主线进行。先看两个目标。Barillas and Shanken(2017)指出,评价一个多因子模型要看它能否解释用来检验该模型的资产(英文为test assets,本书将其译为测试资产)以及该模型能否解释其他模型的因子。因此,比较不同多因子模型对同一组测试资产的解释程度就是第一个目标;而不同多因子模型两两相互检验能否解释他人的因子就是第二个目标。再来看两个切入点。无论是解释测试资产还是其他因子,被解释的资产往往都是多个。当评价一个多因子模型时,联合检验多个资产定价误差是否为零就是第一种切入点;而单独考察这些资产的定价误差是否为零则是另一种切入点。无论采取哪种切入点,都有具体的方法进行检验。如果目标是联合检验定价误差,则可以使用GRS检验以及均值—方差张成(mean-variancespanning)检验;如果目标是把定价误差独立看待,则可以使用 $\alpha$ 检验。
比较多因子模型的核心是从某个切入点出发,选择适当的统计方法。一旦有了方法,它就既可以被用来检验测试资产,也可以被用来进行不同模型包含的因子的相互检验。换句话说,不管是用测试资产还是用其他模型的因子当被解释变量,对于统计方法本身是没有太大差异的。因此,下文将以不同切入点介绍不同的检验方法。在实证资产定价的研究中,来自这两个切入点的不同方法经常被同时使用,其目的是让模型之间孰优孰劣的结论更加可靠。接下来的2.5.1节和2.5.2节两节首先分别介绍GRS和均值—方差张成检验,它们都是联合检验定价误差的方法。这两种方法的检验统计量(test statistic)的表达式差异并不大,而且背后也有着千丝万缕的联系,2.5.3节将从几何的角度解释它们的差异。2.5.4节将会介绍α检验,它也是非常流行的一种检验方法,但与前面两种方法不同,它并不是把所有定价误差联合看待,而是独立看待。最后,2.5.5节简要介绍贝叶斯方法。
2.5.1 GRS检验
GRS检验由Michael Gibbons、Stephen Ross以及Jay Shanken提出,并由此得名。在2.2.1节介绍多因子模型的时序回归检验时已经对该方法进行了介绍,并给
出了检验统计量。假设有 $N$ 个用于检验的资产, 并假设待检验的多因子模型中有 $K$ 个因子。令 $\hat{\mathbf{Q}} = [\hat{\alpha}{1}, \hat{\alpha}{2}, \dots, \hat{\alpha}{N}]'$ 表示全部 $N$ 个资产的定价误差向量, $\hat{\varepsilon}{t} = [\hat{\varepsilon}{1t}, \hat{\varepsilon}{2t}, \dots, \hat{\varepsilon}{Nt}]'$ 表示 $t$ 期 $N$ 个资产无法被该多因子模型解释的残差向量, $\hat{\lambda}{t} = [\hat{\lambda}{1t}, \hat{\lambda}{2t}, \dots, \hat{\lambda}_{Kt}]'$ 表示 $t$ 期 $K$ 个因子的收益率向量, 则根据 (2.16) 可知 GRS 统计量为:
$$ \frac {T - N - K}{N} \left(1 + E [ \boldsymbol {\lambda} _ {t} ] ^ {\prime} \hat {\boldsymbol {\Sigma}} _ {\lambda} ^ {- 1} E [ \boldsymbol {\lambda} _ {t} ]\right) ^ {- 1} \hat {\boldsymbol {\alpha}} ^ {\prime} \hat {\boldsymbol {\Sigma}} ^ {- 1} \hat {\boldsymbol {\alpha}} \sim F _ {N, T - N - K} $$
其中 $\hat{\Sigma}{\lambda} = \frac{1}{T}\sum{t = 1}^{T}[\pmb{\lambda}_t - E[\pmb{\lambda}_t]][\pmb{\lambda}_t - E[\pmb{\lambda}_t]]'$
$$ \hat {\boldsymbol {\Sigma}} = \frac {1}{T} \sum_ {t = 1} ^ {T} \hat {\boldsymbol {\varepsilon}} _ {t} \hat {\boldsymbol {\varepsilon}} _ {t} ^ {\prime} $$
GRS检验有两个吸引人的优点。首先,它的 $F$ -统计量是有限样本(finite sample)下的统计量,即GRS检验给出了给定样本大小 $T$ 下这些定价误差应满足的联合分布,该检验是高度精确的。当样本量趋于无穷的时候, $\hat{\alpha}_i$ 的联合分布渐进趋于 $\chi^2$ 分布,但在有限样本下使用 $\chi^2$ 分布并不可靠,这就凸显了GRS检验的价值。其次,GRS检验有非常高的检验效力。当然,任何事物都有两面。GRS统计量的精确性高度依赖正态分布假设。在现实中,该假设可能过于严格而无法满足,这会降低GRS检验在实践中的吸引力。另外,GRS检验要求样本数 $T$ 大于资产个数 $N$ 。这意味着当用来检验的资产个数很大时,需要使用更长窗口的历史数据来计算GRS统计量。
尽管以上种种,时至今日,GRS检验仍被学术界广泛使用。比如Liu et al.(2019)使用GRS检验比较了他们提出的中国版三因子模型和Fama and French(1993)三因子模型在A股市场上的效果。在GRS检验中,将这两个模型之间的因子互为解释和被解释变量。结果显示,中国版三因子模型能够解释Fama and French(1993)中的因子,而Fama and French(1993)三因子模型无法解释中国版三因子,因此中国版三因子模型更适用于A股市场[2]。
借助计算机的运算能力,人们可以根据式(2.16)式很容易地求出GRS统计量。但是这个看上去复杂的数学公式对理解该检验背后的本质似乎没有太大帮助。好消息是,GRS统计量还有另外一种形式:
$$ \frac {T - N - K}{N} \left(\left[ \frac {\sqrt {1 + \hat {\theta} _ {N + K} ^ {2}}}{\sqrt {1 + \hat {\theta} _ {K} ^ {2}}} \right] ^ {2} - 1\right) \sim F _ {N, T - N - K} \tag {2.68} $$
式中, $\hat{\theta}{N+K}$ 表示由全部 $N$ 个资产和 $K$ 个因子构成的某个事后 (ex post) 最大夏普比率投资组合的夏普比率; $\hat{\theta}{K}$ 表示由全部 $K$ 个因子构成的某个事后最大夏普比率投资组合的夏普比率。因此, GRS统计量可以直观地理解为: 在 $K$ 个因子之外加入 $N$ 个资产之后, 能够获得的最大夏普比率是否显著高于仅由 $K$ 个因子实现的最大夏普比率, 如果夏普比率显著提高, 那么该因子模型就不能解释这 $N$ 个资产。注意, 即便原假设被拒绝, 也仅能说这 $N$ 个资产作为一个整体无法被该多因子模型解释, 但却无法知道具体哪个或哪几个资产发挥了作用, 这是因为 GRS 检验是联合检验。2.5.3节将从式(2.68)引出 GRS 统计量的几何解释。
2.5.2 均值—方差张成检验
Huberman and Kandel(1987)提出的均值—方差张成(mean-variance spanning)检验是另一种常见的联合检验手段。从名字就不难看出来,这种方法和Markowitz(1952)提出的现代投资组合理论(Modern Portfolio Theory)以及均值—方差分析有着紧密的联系。Kan and Zhou(2012)对均值—方差张成检验进行了系统而全面的介绍。
这种方法的核心无疑是“张成(spanning)”两个字。假如市场中有 $K$ 个因子投资组合;通过按各种不同的权重配置它们又能得到许多新的组合。对于每个给定的预期收益率 $\hat{\mu}$ ,都能找到这 $K$ 个资产的唯一一种配置权重,使得该组合是所有预期收益率等于 $\hat{\mu}$ 的组合中方差最低的,这个特殊的投资组合就是预期收益率为 $\hat{\mu}$ 的最小方差组合。把不同 $\hat{\mu}$ 的最小方差组合都绘制在横坐标为标准差、纵坐标为预期收益的二维平面内,就得到了最小方差前沿(minimum-variance frontier),它的形状是一个抛物线,如图2.8所示。

图2.8 最小方差前沿
图2.8中的最小方差前沿就是由这 $K$ 个因子张成的(spanned),这就是这种方法得名的原因。而这种检验所关注的问题是,加入 $N$ 个新的(来检验该模型的)资产后,这全部 $N + K$ 个资产张成的新的最小方差前沿能否“优于”仅由 $K$ 个因子张成的最小方差前沿。这里,“优于”意味着对于每一个给定的 $\hat{\mu}$ , $N + K$ 个资产张成的前沿上的点都比 $K$ 个因子张成的前沿上的点有更低的方差,这就是均值—方差张成检验的直观解释。
下面来看看数学上的这种检验的原假设是什么。令 $R_{t} = [R_{1t}', R_{2t}]'$ 代表 $t$ 期 $N + K$ 个资产的收益率向量,其中 $R_{1t}$ 和 $R_{2t}$ 分别为 $K$ 个因子和 $N$ 个资产的收益率向量。接下来,定义这 $N + K$ 个资产的预期收益率和收益率的协方差矩阵:
$$ \boldsymbol {\mu} = E \left[ \boldsymbol {R} _ {t} \right] \equiv \left[ \begin{array}{l} \boldsymbol {\mu} _ {1} \ \boldsymbol {\mu} _ {2} \end{array} \right], \quad \boldsymbol {V} = \operatorname {c o v} \left(\boldsymbol {R} _ {t}\right) \equiv \left[ \begin{array}{l l} \boldsymbol {V} _ {1 1} & \boldsymbol {V} _ {1 2} \ \boldsymbol {V} _ {2 1} & \boldsymbol {V} _ {2 2} \end{array} \right] \tag {2.69} $$
由多因子模型可知:
$$ R _ {2 t} = \alpha + \beta R _ {1 t} + \varepsilon_ {t} \tag {2.70} $$
利用 $\mu$ 和 $V$ 可以求出 $\alpha = \mu_{2} - \beta \mu_{1}$ 以及 $\beta = V_{21} V_{11}^{-1}$ 。接下来,定义 $\delta = 1_{N} - \beta 1_{K}$ (其中 $1_{N}$ 和 $1_{K}$ 分别为 $N$ 和 $K$ 阶元素全是 1 的向量)。由此,Huberman and Kandel(1987)给出了均值一方差张成检验的原假设的充要条件:
$$ H _ {0}: \alpha = 0 _ {N}, \delta = 0 _ {N} \tag {2.71} $$
式中, $0_{N}$ 表示 $N$ 维零向量。当原假设式(2.71)成立时,对于任何一个用来检验的资产(或这些资产的组合),总能使用原始的 $K$ 个因子来构建一个投资组合,并使得该投资组合的预期收益率和测试资产的预期收益率相同,但方差更低。其中前者由 $\alpha = 0_{N}$ 和 $\delta = 0_{N}$ (即 $\beta 1_{K} = 1_{N}$ )保证;而后者由式(2.70)中 $R_{1t}$ 和 $\varepsilon_{t}$ 不相关,且 $\operatorname{var}(\varepsilon_{t}) > 0$ 保证。这两条关于预期收益率和方差的性质说明,这 $N$ 个资产无法在 $K$ 的基础上张成更优的最小方差前沿,因此可以接受原假设。
除了上述数学含义外,从由全部 $N + K$ 个资产张成的最小方差前沿上也能够找到上述原假设的直观解释。Kan and Zhou(2012)指出,在这个最小方差前沿上存在两个特殊的投资组合。其一是全局最小方差组合(global minimum-variance portfolio),其二是从均值—方差二维平面的原点 $(\hat{\mu} = 0, \hat{\sigma} = 0)$ 向最小方差前沿做切线的切点。如果原假设成立,则条件 $\delta = 0_N$ 意味着全局最小方差投资组合中, $N$ 个资产的权重都是零,即该组合完全由 $K$ 个因子构成。类似的,条件 $\alpha = 0_N$ 意味着切点投资组合中 $N$ 个资产的权重都是零,因此该组合同样完全由 $K$ 个因子构成。换句话说,这两个特殊的投资组合均仅仅由 $K$ 个因子构成,而 $N$ 个资产对它们没有任何贡献。另外,在投资组合理论中,有一个重要的定理叫作“两基金分离定理”(two-fund separation theorem)。它的含义是,使用最小方差前沿上的任意两个组合就能构造出整个前沿,即前沿上的其他组合都可以由这两个投资组合的某种线性组合得到(Merton 1972)。根据“两基金分离定理”,如果这两个投资组合中均不包含 $N$ 个测试资产,那么整个由 $N + K$ 个资产构成的最小方差前沿上的所有投资组合都不包含这 $N$ 个资产,这便解释了为什么 $\alpha = 0_N$ 和 $\delta = 0_N$ 是原假设成立的充要条件。
虽然以上直观地解释了均值—方差张成检验要干什么以及它的原假设是什么,但为了进行检验,还是要用到具体的统计检验量的。在这方面,Huberman and Kandel(1987)一文最早提出了似然比(likelihood ratio)检验统计量。而Kan and Zhou(2012)又通过Wald检验和拉格朗日乘数(Lagrange multiplier)检验构建了两个检验统计量。这三个检验统计量在大样本下都渐进满足自由度为 $2N$ 的 $\chi^2$ 分布。
这三个统计量的表达式十分接近,且均和两个重要参数 $s_{1}$ 和 $s_{2}$ 有关。关于这两个参数,Kan and Zhou(2012)给出了一个非常直观的经济学解释。为了介绍它,首先需要一些铺垫。考虑图2.9所示的均值—方差平面中由 $K$ 个因子张成的最小方差前沿。在纵轴上取 $(0, r)$ 点并从它向最小方差前沿做切线,找到切点组合 $(\hat{\mu}{tp}, \hat{\sigma}{tp})$
。定义:
$$ \hat {\theta} _ {K} (r) = \frac {\hat {\mu} _ {t p} - r}{\hat {\sigma} _ {t p}} \tag {2.72} $$
它表示这条切线的斜率。由于不同的 $(0, r)$ 点会产生不同的切线,因此 $\hat{\theta}{K}(r)$ 是 $r$ 的函数。当 $r$ 等于无风险利率 $R{f}$ 时, $\hat{\theta}{K}(R{f})$ 恰恰就是从 $(0, R_{f})$ 出发得到的切点组合的夏普比率(Sharpe 1966a)。

图2.9 $\hat{\theta}_K(r)$ 的定义
当把 $N$ 个资产加入后,使用全部 $N + K$ 个资产张成最小方差前沿并按类似式(2.72)的方式定义 $\hat{\theta}{N + K}(r)$ 。利用 $\hat{\theta}_K(r)$ 和 $\hat{\theta}{N + K}(r)$ 便可得到 $s_1$ 和 $s_2$ 的表达式:
$$ s _ {1} = \max _ {r} \frac {1 + \hat {\theta} _ {N + K} ^ {2} (r)}{1 + \hat {\theta} _ {K} ^ {2} (r)} - 1 \tag {2.73} $$
$$ s _ {2} = \min _ {r} \frac {1 + \hat {\theta} _ {N + K} ^ {2} (r)}{1 + \hat {\theta} _ {K} ^ {2} (r)} - 1 \tag {2.74} $$
最后,通过 $s_{1}$ 和 $s_{2}$ 求出似然比检验、Wald检验以及拉格朗日乘数检验的统计量(分别记为 $LR$ 、 $W$ 和 $LM$ ):
$$ L R = T \left(\ln \left(1 + s _ {1}\right) + \ln \left(1 + s _ {2}\right)\right) \stackrel {A} {\sim} \chi_ {2 N} ^ {2} \tag {2.75} $$
$$ W = T \left(s _ {1} + s _ {2}\right) \stackrel {A} {\sim} \chi_ {2 N} ^ {2} \tag {2.76} $$
$$ L M = T \left(\frac {s _ {1}}{1 + s _ {1}} + \frac {s _ {2}}{1 + s _ {2}}\right) \stackrel {A} {\sim} \chi_ {2 N} ^ {2} \tag {2.77} $$
这三种检验的统计量虽然略有差异,但它们都是以某种形式将 $s_1$ 和 $s_2$ “加”起来作为一个综合的分数来检验原假设的。由 $s_1$ 和 $s_2$ 的定义可知,人们实际上是在均值一方差平面的纵轴上搜寻两个特殊的 $r$ 。对于第一个 $r$ ,由 $K$ 和 $N + K$ 个资产张成的最
小方差前沿上的相应的两个切点的 $\hat{\theta}(r)$ 值差异最大;对于第二个 $r$ ,由 $K$ 和 $N + K$ 个资产张成的最小方差前沿上的相应的两个切点的 $\hat{\theta}(r)$ 值差异最小。这三种统计量以这两个特殊 $r$ 下两个前沿的综合差异来检验它们是否在统计上有所不同,一旦结果显示统计上并无显著不同,就接受原假设。以上是大样本下三种均值—方差张成检验的统计量。当样本量 $T$ 较资产数 $N + K$ 不足够大时,使用上述统计量并不准确,更好的方法是像GRS检验一样计算有限样本下的统计量。从数学上推导有限样本下统计量的表达式十分烦琐,且超出了本书的范畴。好消息是,Kan and Zhou(2012)给出了这些统计量的几何解释,2.5.3节将对其进行介绍。
关于均值—方差张成检验的应用,一个很有代表性的例子是Han et al.(2016)。三位作者针对美股提出了一个趋势因子,它不同于传统的动量或反转,而是将不同时间尺度下收益率的动量和反转现象综合到一起,构建了一个综合的趋势因子。该文使用新的趋势因子作为测试资产,用传统的短期反转、中期动量以及长期反转因子作为解释变量,通过均值—方差张成检验进行了分析。结果显示,这三个因子无法解释新的趋势因子,即加入新的趋势因子后,最小方差前沿将会得到显著提升。
2.5.3 从几何角度比较GRS和均值—方差张成
对比式(2.75)~式(2.77)中的统计量(并代入 $s_{1}$ 和 $s_{2}$ 的定义)和式(2.68)中GRS检验的统计量,能够发现这些表达式中都有 $\hat{\theta}$ 。只不过GRS检验中的 $\hat{\theta}$ 默认的是用无风险收益率 $R_{f}$ 计算的夏普比率,而均值—方差张成检验中的 $\hat{\theta}$ 使用一般的 $r$ 计算,这意味着它们之间注定有一些关联。
不严格地说,无论是GRS检验还是均值—方差张成检验都是为了检验新增加的N个资产能否在原始的K个因子上提高投资组合的风险收益的特征的。如果答案是肯定的,那么就拒绝原假设,即这N个资产联合起来无法被K个因子解释。既然是为了同一个目标,那么它们之间又有什么差异呢?最直观的说明无异于使用几何方法解释它们的含义,这就是本节的重点。从现代投资组合理论中的有效前沿(efficient frontier)说起。
首先假设市场中存在无风险收益率 $R_{f}$ , 且人们能够没有任何限制地按照 $R_{f}$ 来借贷。在这种情况下, 现代投资组合理论指出有效前沿是图中经过 $(0, R_{f})$ 和切点组合 $(\hat{\mu}{tp}, \hat{\sigma}{tp})$ 的直线 (图2.10(a))。无论一个人能容忍的最大风险 (即 $\hat{\sigma}$ ) 是什么, 都应该通过无风险资产和切点组合 (tangency portfolio) 的某种线性组合实现最优选择, 因为这条线的斜率最高, 意味着有效前沿上任何点的夏普比率都最高。
GRS检验假设市场中存在无风险收益率 $R_{f}$ ,且可以无约束借贷。回顾一下式(2.68)不难发现,GRS检验关注的核心是在加入 $N$ 个资产之后,使用全部 $N + K$ 个资产得到的切点组合能否比仅仅使用 $K$ 个因子得到的切点组合有更高的夏普比率。除切点组合外,GRS检验不关心最小方差前沿上的其他点。图2.11进一步说明了这一点。

图2.10 有效前沿


图2.11 GRS检验的几何解释
为了方便解释,图2.11中的纵坐标采取了相对 $R_{f}$ 的超额收益。如果被检验的多因子模型无法解释 $N$ 个资产,那么在加入 $N$ 个资产后能够显著提升切点组合的夏普比率。在图2.11中,从横坐标上的 $(\hat{\sigma} = 1,0)$ 点出发做一条竖直线,它和两条切线分别相交于 $A$ 、 $B$ 两点。由夏普比率定义可知, $A$ 、 $B$ 两点的纵坐标恰恰就分别等于 $\hat{\theta}{K}$ 和 $\hat{\theta}{N + K}$ 。由此可知, $\sqrt{1 + \hat{\theta}{K}^{2}}$ 和 $\sqrt{1 + \hat{\theta}{N + K}^{2}}$ 分别为线段 $OA$ 和 $OB$ 的长度。回顾一下GRS统计量式(2.68),它正是由 $\sqrt{1 + \hat{\theta}{N + K}^{2}}$ 和 $\sqrt{1 + \hat{\theta}{K}^{2}}$ 之比计算的。因此GRS检验的几何意义就是考察线段 $OB$ 的长度是否显著大于线段 $OA$ 的长度。
接下来看看均值—方差张成检验的几何含义。作为回顾,前面2.5.2节介绍了三种统计量,并指出这些统计量是大样本下的渐进性质。本节的几何解释则给出了这些统计量在有限样本中的含义。前面的介绍已经指出,GRS检验假设市场中存在无风险收益率 $R_{f}$ ,以及可以按 $R_{f}$ 无约束借贷,因此它仅关注切点组合。与GRS检验不同,均值—方差张成检验并不假设 $R_{f}$ 的存在,因此适应更广泛的情况。
当不存在无风险收益率 $R_{f}$ 时,有效前沿由最小方差前沿的上半部分组成(图2.10(b))。因此,为了比较 $K$ 个因子张成的前沿和全部 $N + K$ 个资产张成的最小方差前沿,仅仅比较切点组合是不够的——事实上,因为不存在 $R_{f}$ ,因此也没有传统意义上的切点组合。这种情况的解决之道是,从两个最小方差前沿上找到两个特殊的点进行比较,这正是均值—方差张成检验的几何含义。而三种不同检验统计量之间的差异仅仅因为它们各自选择的特殊点不尽相同。
图2.12展示了不同检验统计量用到的关键点。图中 $g_{K}$ 和 $g_{N + K}$ 分别为由 $K$ 个因子
和全部 $N + K$ 个资产张成的事后最小方差投资组合, 这两个点代表的投资组合的标准差的大小由线段 $OD$ 和 $OC$ 的长度表示。接下来, 以这两个点向纵轴做垂线, 找到点 $A$ 和点 $B$ 。从点 $A$ 出发向 $K$ 个因子的最小方差前沿做切线, 切线和直线 $\hat{\sigma} = 1$ 相交于点 $G$ , 同样从点 $A$ 出发做 $N + K$ 个资产的最小方差前沿的渐进线, 渐进线和直线 $\hat{\sigma} = 1$ 相交于点 $H$ 。类似的, 以点 $B$ 为起点, 做 $N + K$ 个资产的最小方差前沿的切线, 做 $K$ 个因子的最小方差前沿的渐进线, 它们分别与直线 $\hat{\sigma} = 1$ 相交于点 $E$ 和 $F$ 。除此之外, 图中利用 (2.72) 的定义给出了线段 $AG 、 AH 、 BE$ 以及 $BF$ 的长度。使用上述六个线段就可以解释三种检验统计量的几何意义。
先说似然比检验。在有限样本下,其检验统计量满足 $F_{2N,2(T - K - N)}$ 分布。按照图2.12的几何解释,似然比检验的统计量为:
$$ L R = \left(\frac {T - K - N}{N}\right) \left[ \left(\frac {O D}{O C}\right) \left(\frac {A H}{B F}\right) - 1 \right] \tag {2.78} $$
上式说明LR的大小和两个比值有关。第一个比值是 $OD / OC$ ,比较两个全局最小方差组合的标准差。由于 $OD \geq OC$ ( $K$ 个资产构成的最小方差组合的标准差一定不小于 $N + K$ 个资产构成的最小方差组合的标准差),因此 $OD / OC \geq 1$ 。第二个比值是 $AH / BF$ ,由于 $N + K$ 个资产张成的事后最小方差前沿一定“优于”仅由 $K$ 个因子张成的事后最小方差前沿,因此 $AH / BF \geq 1$ 。如果原假设成立,即事前(ex ante)两个前沿一样,那么可以期待 $OD / OC$ 和 $AH / BF$ 都不会显著地偏离1。如果它们其中之一或者二者全部显著大于1,那么原假设就会被拒绝。

图2.12 均值—方差张成检验的几何解释
对于Wald检验和拉格朗日乘数检验,在有限样本下,它们的统计量并不满足 $F$ 分布,而是十分复杂的分布。不过,参考式(2.76)和式(2.77),仍然可以写出它们的几何含义:
$$ \begin{array}{l} W: s _ {1} + s _ {2} = \left(\frac {O D}{O C}\right) ^ {2} - 1 + \left(\frac {B E}{B F}\right) ^ {2} - 1 (2.79) \ L M: \frac {s _ {1}}{1 + s _ {1}} + \frac {s _ {2}}{1 + s _ {2}} = 1 - \left(\frac {O C}{O D}\right) ^ {2} + 1 - \left(\frac {A G}{A H}\right) ^ {2} (2.80) \ \end{array} $$
观察式(2.79)和式(2.80)不难发现,W和LM这两个统计量的表达式可以说是“完美对称”的。W中的第一项是(OD/OC)²-1,它反映的仍然是两个全局最小方差组合的标准差偏离程度,由于 $OD \geq OC$ ,因此该项中用(OD/OC)²减去1;再看LM,它的第一项是1-(OC/OD)²,它和(OD/OC)²-1如出一辙,只不过因为分子、分母互换了位置导致(OC/OD)²≤1,因此该项中是用1减去(OC/OD)²。再看两个统计量中的第二项。W的第二项涉及BE和BF,它们都从点B出发,BE是点B到全部N+K个资产的最小方差前沿的切线,BF是点B到K个因子的最小方差前沿的渐进线。(BE/BF)²-1则衡量了在K个因子的基础上加入N个资产导致切线斜率平方的提升。反观LM的第二项,它包括AG和AH,它们都从点A出发,AG是点A到K个因子的最小方差前沿的切线、AH是点A到全部N+K个资产的最小方差前沿的渐进线。1-(AG/AH)²则衡量了从N+K个资产中去除N个资产(从而仅剩下K个因子)导致切线斜率平方的降低。这种“对称”彰显了几何解释之美、数学之美。
2.5.4 $\alpha$ 检验
前文介绍的GRS检验和均值—方差张成检验均是联合检验N个资产的定价误差是否显著偏离零。与它们不同,本节的α检验把每个资产i的αi独立看待,检验其是否为零。在得到所有αi的检验结果后,将它们取平均并以此评价多因子模型。
$\alpha$ 检验实操起来非常简单。对每个用来检验多因子模型的资产(可以是测试资产或其他模型的因子),将其超额收益作为被解释变量,使用待检验的多因子模型作为解释变量,进行时序回归,估计其定价误差 $\hat{\alpha}{i}$ 以及 $\hat{\alpha}{i}$ 的标准误(计算标准误时通常会采用Newey-West调整)。有了 $\hat{\alpha}{i}$ 和它的标准误,计算 $t-$ 值 $= \hat{\alpha}{i} / \mathrm{s.e.}(\hat{\alpha}{i})$ 。在原假设下,多因子模型可以解释这些资产,因此 $\alpha{i} = 0$ 。在得到全部N个资产的 $\hat{\alpha}{i}$ 和 $t-$ 值之后,将它们的绝对值取平均作为评价多因子模型的依据。取绝对值的原因是,此处只关心定价误差相对于0的偏离程度,而非其方向。因此, $\alpha$ 检验关注的两个评价指标就是 $|\hat{\alpha}{i}|$ 的均值以及 $|t-$ 值|的均值。
$\alpha$ 检验在多因子模型的比较中应用非常广泛。最常见的做法是使用同一组测试资产来检验不同的多因子模型,并以上述指标偏离零的程度来评价多因子模型的“好”与“差”。这两个指标越低,说明一个多因子模型越能够解释这些资产,因而是“更好”的模型。在实证资产定价研究中,应用 $\alpha$ 检验来比较模型的例子数不胜数,Hou et al.(2015)和Fama and French(2020)就是其中的代表。最后值得一提的是, $\alpha$ 检验经常和GRS检验同时使用。在本书第4章介绍多因子模型时,也将同时使用这两种检验方法进行实证分析。
2.5.5 贝叶斯方法
由Barillas and Shanken(2018)提出的贝叶斯方法也常被用于多因子模型的比较。该文作者是计量经济学大佬,且又发表于金融学项刊Journal of Finance,因而备受关注。考察多因子模型:
$$ \boldsymbol {R} _ {t} ^ {e} = \boldsymbol {\alpha} + \beta \boldsymbol {\lambda} _ {t} + \varepsilon_ {t} $$
令 $\Sigma = \mathrm{cov}(\varepsilon_{t})$ ,如果原假设 $\alpha = 0$ 成立,那么预期收益率就满足 $E[R^{\mathrm{e}}] = \beta \lambda$ 。Barillas and Shanken(2018)提出的贝叶斯方法假设多因子模型的参数 $\beta$ 和 $\Sigma$ 满足特定的非正常先验分布(improper prior)[5]。而对于参数 $\alpha$ ,它在原假设下为零,在备择假设下满足多元正态条件分布 $f(\alpha |\beta ,\Sigma) = N(0,\tau \Sigma)$ ( $\tau >0$ 是一个参数)。在该方法中,因子收益率和资产收益率为观测到的数据。有了参数和数据,Barillas and Shanken(2018)通过计算边际似然度(marginal likelihood)来比较不同的多因子模型。令 $D$ 代表数据、 $M_{i}$ 代表第 $i$ 个模型,则边际似然函数为:
$$ \operatorname {p r o b} (D | \mathcal {M} _ {i}) = \iint f (\boldsymbol {D} | \mathcal {M} _ {i}, \boldsymbol {\alpha}, \boldsymbol {\beta}, \boldsymbol {\Sigma}) f (\boldsymbol {\alpha} | \boldsymbol {\beta}, \boldsymbol {\Sigma}) f (\boldsymbol {\beta}, \boldsymbol {\Sigma}) d \boldsymbol {\alpha} d \boldsymbol {\beta} d \boldsymbol {\Sigma} \tag {2.81} $$
由定义可知,边际似然度是在给定模型 $M_{i}$ 下,观察到数据 $D$ 的条件概率。在贝叶斯模型比较中,不同模型的后验概率比与它密切相关。假设两个多因子模型 $M_{i}$ 和 $M_{j}$ ,则它们的后验概率之比满足:
$$ \frac {\operatorname {p r o b} \left(\mathcal {M} _ {i} \mid D\right)}{\operatorname {p r o b} \left(\mathcal {M} _ {j} \mid D\right)} = \frac {\operatorname {p r o b} \left(\mathcal {M} _ {i}\right)}{\operatorname {p r o b} \left(\mathcal {M} _ {j}\right)} \frac {\operatorname {p r o b} (D \mid \mathcal {M} _ {i})}{\operatorname {p r o b} (D \mid \mathcal {M} _ {j})} \tag {2.82} $$
式中,等号右侧第一项是两个模型先验概率之比;而第二项就是它们的边际似然度之比,它又被称为贝叶斯因子(Bayes factor)。在多因子模型比较中,通常假设两个模型的先验概率一样,因此边际似然度的高低就会最终主宰模型的选择。
上述描述虽然简要,但它就是Barillas and Shanken(2018)一文的核心。利用该方法,Stambaugh and Yuan(2017)比较了他们提出的四因子模型和Fama and French(2015)五因子模型以及Hou et al.(2015)四因子模型。该文是将贝叶斯方法用于多因子模型比较的代表性研究之一。相较于GRS检验或均值—方差张成检验来说,贝叶斯方法在学术界的使用要少一些。这一方面和它被发表的时间较短有关[6],另一方面该方法也存在一些被质疑的地方。
2020年,贝叶斯统计学的大佬Siddhartha Chib同样在Journal of Finance发文对Barillas and Shanken(2018)的方法提出了挑战(Chib et al.2020)[7]。该文直截了当地认为Barillas and Shanken(2018)的方法有误,并给出了改进方法。
Chib et al.(2020)指出上述贝叶斯方法中参数的先验设定存在问题。简单地说,在具体使用时,在参数 $\beta$ 和 $\Sigma$ 所满足的非正常先验分布中需要确定一个常数的取值。而只有当所有待比较的多因子模型满足以下三个性质时,采用边际似然度来挑选模型才是合理的。这三个条件是:(1)不同模型的参数 $\beta_{i}$ 和 $\Sigma_{i}$ (下标 $i$ 代表模型 $i$ )满足同样的非正常先验分布;(2)该分布中的常数对所有模型相同;(3)不同模型的参数空间一样。Chib et al.(2020)进一步指出Barillas and Shanken(2018)的模型并不满足上述三个条件,因此使用(2.82)来比较模型是
不正确的。针对上述问题,他们对不同模型的参数 $\beta_{i}$ 和 $\Sigma_{i}$ 需满足的先验分布进行了修正,并提出了改进的贝叶斯方法。由于贝叶斯方法尚存疑问,因此本书不再对其做进一步的讨论,感兴趣的读者可参考相关文献。
[1]随着行为金融学的发展,越来越多的学者开始从这个角度提出新的因子,这些因子背后的逻辑往往不是风险补偿,而是错误定价(mispricing)。本书的第6章在介绍因子研究现状的时候会涉及大量行为金融学方面的内容。
[2]第4章会就Liu et al.(2019)提出的中国版三因子模型进行具体的实证分析和探讨。
[3]假设用来检验多因子模型的资产数满足 $N \geq 2$ 。当 $N = 1$ 时,统计量的表达式与 $N \geq 2$ 时不同。
[4]该方法最早的版本是一篇2015年的研究手稿(working paper),在学术界得到了广泛的传播。不过,该论文的正式版最终于2018年发表于金融学顶刊Journal of Finance。一些使用该方法的论文引用了其早期的版本,并发表于2018年之前。本书在引用参考文献时首选正式发表的版本,故而引用了Barillas and Shanken(2018)这个版本。如果行文中引用了一篇先于该文发表的、却使用了贝叶斯方法的论文,请勿感到诧异。
[5]非正常分布指的是在其参数空间上的积分是无穷大的分布。在贝叶斯统计中,如果后验概率是正常的,那么仍然可以使用非正常先验分布。
[6]将贝叶斯方法应用于资产定价的研究早在20世纪80年代就出现了,见Shanken(1987),Harvey and Zhou(1990)以及McCulloch and Rossi(1991)。
[7]这两篇文章都发表于金融学顶刊Journal of Finance。Barillas and Shanken(2018)一文的题目是Comparing asset pricing models,而Chib et al.(2020)则直接在前文题目之前加了一个On表示评价,即On comparing asset pricing models,可谓“火药味十足”。
2.6 因子正交化
在因子投资中常会出现“因子正交化”这一概念。举例来说,在学术界实证资产定价研究中使用两个变量进行双重排序(特别是条件双重排序)就是一种正交化处理;业界在构建因子的时候更是会使用回归手段构建相互正交的因子。从经济学含义上说,“正交”意味着两个因子代表的资产收益的驱动力是不同的,即它们贡献了资产超额收益中不同的部分。不严格地说,一组相互正交的因子往往能更好地解释资产预期收益率的截面差异。
举个极端的例子,使用市盈率和市净率指标分别构造两个价值因子。通常来说,如果一支股票的市盈率很高(低),那么它的市净率也会较高(低),所以使用上述指标构造的两个多头组合高度相似,两个空头组合也高度相似,造成代表因子的价差组合也高度相似。由于这个原因,虽然该模型有两个因子,但它们仅是解释资产收益率中价值驱动的那部分。这个例子说明,两个因子是否相似体现在资产对它们的暴露在截面上相关性的高低。因子正交化的目的就是降低这种截面上的相关性。
上面说了从经济学角度追求因子正交化的动机,接下来再说一说数学上的影响。用一句话概括就是,当使用Fama-MacBeth截面回归求解因子收益率时,因子暴露在截面上的高相关会增大因子收益率的标准误,从而影响对因子收益率的检验。为了解释这一点,考虑一般的线性回归模型:
$$ y = X b + \varepsilon \tag {2.83} $$
对于多因子模型来说,模型(2.83)中的y代表某时刻N个资产的超额收益向量;X是一个N×(K+1)矩阵,第一列的元素全部是1,代表截距项,后面K列为因子暴露;b为因子收益率向量;最后ε为随机扰动。本节的论述使用诸如y、X这些数学符号,而非Re、β等符号,是为了在讨论中不失一般性。本节讨论的问题是线性回归中常见的问题,而非仅仅针对多因子线性回归模型。模型(2.83)的OLS估计量为:
$$ \hat {\boldsymbol {b}} = \left(\boldsymbol {X} ^ {\prime} \boldsymbol {X}\right) ^ {- 1} \boldsymbol {X} ^ {\prime} \boldsymbol {y} \tag {2.84} $$
从 $\hat{b}$ 的表达式来看,它和 $X^{\prime} X$ 有关。当 $X$ 的各列(即多因子模型中的不同因子的因子暴露向量)之间不正交时, $X$ 不同列之间的相关性就会影响 $X^{\prime} X$ 以及 $\hat{b}$ 的计算,而这种影响不是什么好事儿。以下从简单一元回归说起。
2.6.1 简单一元回归
假设有一元回归模型 $y = bx + \varepsilon$ (模型只有一个解释变量,没有截距项)。该一元回归模型的OLS估计为:
$$ \hat {b} = \frac {\langle \boldsymbol {x} , \boldsymbol {y} \rangle}{\langle \boldsymbol {x} , \boldsymbol {x} \rangle} \tag {2.85} $$
上式中, $\langle x, y \rangle$ 表示向量 $x$ 和 $y$ 的内积,即 $\langle x, y \rangle = \sum_{i=1}^{N} x_i y_i$ 。式(2.85)这个结果非常简单,但是它十分重要。比较式(2.85)和式(2.84)的表达式可以发现,如果多元回归模型中所有的解释变量两两正交,即 $\langle x_i, x_j \rangle = 0, i \neq j$ ,则向量 $\hat{b}_i$ 中的每一个系数 $\hat{b}_i$ 恰恰等于:
$$ \hat {b} _ {i} = \frac {\langle \boldsymbol {x} _ {i} , \boldsymbol {y} \rangle}{\langle \boldsymbol {x} _ {i} , \boldsymbol {x} _ {i} \rangle} \tag {2.86} $$
上式成立是因为 $\langle x_{i}, x_{j} \rangle = 0$ 保证了矩阵 $X X$ 的所有非对角元素都是 0 , 因而它是一个对角阵。对角阵的逆矩阵就是把该对角阵对角线上的元素都取倒数, 所以逆矩阵仍然是对角阵。因此, 式 (2.84) 中 $X X$ 的第 $i$ 个对角元素为 $1 / \langle x_{i}, x_{i} \rangle$ 。另外, $X^{\prime} y$ 的第 $i$ 个元素是 $x_{i}$ 和 $y$ 的内积, 即 $\langle x_{i}, y \rangle$ 。因此, $\hat{b}{i}$ 恰好等于 $\langle x{i}, y \rangle / \langle x_{i}, x_{i} \rangle$ 。
多元回归的OLS估计量 $\hat{b}_i$ 和一元回归的OLS估计量 $\hat{b}$ 的表达式一模一样,说明当所有解释变量相互正交时,不同的因子暴露对彼此的因子收益率没有影响,这正是因子相互正交的好处。那么,当因子之间不正交时又会怎样呢?为了回答这个问题,先来看看回归的几何意义。
2.6.2 回归的几何意义
将式(2.84)中 $\hat{b}$ 的表达式代入模型(2.83)得到样本残差 $\hat{\varepsilon}$ 。计算 $X$ 和 $\hat{\varepsilon}$ 的内
$$ \begin{array}{l} \boldsymbol {X} ^ {\prime} \hat {\varepsilon} = \boldsymbol {X} ^ {\prime} (\boldsymbol {y} - \boldsymbol {X} \hat {\boldsymbol {b}}) \ = \boldsymbol {X} ^ {\prime} (\boldsymbol {y} - \boldsymbol {X} \left(\boldsymbol {X} ^ {\prime} \boldsymbol {X}\right) ^ {- 1} \boldsymbol {X} ^ {\prime} \boldsymbol {y}) \ = \boldsymbol {X} ^ {\prime} \boldsymbol {y} - \left(\boldsymbol {X} ^ {\prime} \boldsymbol {X}\right) \left(\boldsymbol {X} ^ {\prime} \boldsymbol {X}\right) ^ {- 1} \boldsymbol {X} ^ {\prime} \boldsymbol {y} \tag {2.87} \ = X ^ {\prime} \mathbf {y} - X ^ {\prime} \mathbf {y} \ \end{array} $$
积有: $= 0$
上式说明,OLS的残差 $\hat{\varepsilon}$ 和解释变量 $X$ 正交。来看看这在几何上意味着什么。先考虑最简单的一元回归的情况。如图2.13所示,一元回归OLS的几何含义是将 $y$ 垂直投影到 $x$ 之上,使得 $y$ 和其在 $x$ 上的投影之间的距离( $\hat{\varepsilon}$ 的长度)最短。

图2.13 一元回归几何意义
为了加深对回归的几何意义的理解,下面再看看二元回归 $y = b_{1}x_{1} + b_{2}x_{2} + \varepsilon$ 。假设 $x_{1}$ 和 $x_{2}$ 之间是正交的。它的几何意义(图2.14)是将 $y$ 垂直投影到由 $x_{1}$ 和 $x_{2}$ 生成的平面内,记为 $\hat{y}$ 。此外,将 $y$ 分别单独投影到向量 $x_{1}$ 和 $x_{2}$ 上。由于 $x_{1}$ 和 $x_{2}$ 相互正交(即垂直),因此向量 $\hat{y}$ 恰好等于上述两个向量之和。因此,当 $x_{1}$ 和 $x_{2}$ 正交时,OLS估计 $\hat{b}{i}$ 仅由 $x{i}$ 和 $y$ 决定,其他任何解释变量 $x_{j} (j \neq i)$ 对 $\hat{b}_{i}$ 均没有影响。

图2.14 二元回归几何意义( $x_{1}$ 和 $x_{2}$ 正交)
当 $x_{1}$ 和 $x_{2}$ 非正交时会怎样呢?在这种情况下,二元回归的几何意义如图2.15所示。它和图2.14最大的区别是, $y$ 在由 $x_{1}$ 和 $x_{2}$ 生成的平面内的投影不等于 $y$ 分别在 $x_{1}$ 和 $x_{2}$ 上的投影之和。在这种情况下,解释变量之间对各自回归系数的OLS估计有不同的作用, $\hat{b}{i}$ 不再等于 $\langle x{i}, y \rangle / \langle x_{i}, x_{i} \rangle$ 。非正交 $x_{i}$ 之间的相互作用如何影响回归系数 $\hat{b}_{i}$ 呢?通过连续正交化来求解多元线性回归可以回答这个问题。

图2.15 二元回归几何意义( $x_{1}$ 和 $x_{2}$ 非正交)
2.6.3 用正交化过程求解多元回归
考虑如下线性回归模型,其中 $x_0 = [1, 1, \dots, 1]'$ 和 $x_1 = [x_1, x_2, \dots, x_n]'$ ,假设 $x_0$ 和 $x_1$ 非正交:
$$ y = a x _ {0} + b x _ {1} + \varepsilon \tag {2.88} $$
模型(2.88)的OLS估计量为:
$$ \hat {a} = \frac {1}{n} \sum_ {i = 1} ^ {n} y _ {i} - \hat {b} \left(\frac {1}{n} \sum_ {i = 1} ^ {n} x _ {i}\right), \quad \hat {b} = \frac {\sum_ {i = 1} ^ {n} x _ {i} y _ {i} - \frac {1}{n} \sum_ {i = 1} ^ {n} x _ {i} \sum_ {i = 1} ^ {n} y _ {i}}{\sum_ {i = 1} ^ {n} x _ {i} ^ {2} - \frac {1}{n} \left(\sum_ {i = 1} ^ {n} x _ {i}\right) ^ {2}} \tag {2.89} $$
接下来说明如何通过正交化求解 $\hat{a}$ 和 $\hat{b}$ 。由于 $x_0$ 和 $x_1$ 非正交,首先需要构造出一组正交向量。令 $z_0 = x_0 = 1$ 为其中的一个向量;将 $x_1$ 作为被解释变量、 $z_0$ 作为解释变量进行一元OLS回归(不带截距)得到的残差就是和 $z_0$ 互相正交的向量,记为 $z_1$ 。由式(2.85)以及回归的性质可知:
$$ \boldsymbol {z} _ {1} = \boldsymbol {x} _ {1} - \frac {\langle \boldsymbol {z} _ {0} , \boldsymbol {x} _ {1} \rangle}{\langle \boldsymbol {z} _ {0} , \boldsymbol {z} _ {0} \rangle} \boldsymbol {z} _ {0} = \boldsymbol {x} _ {1} - \bar {x} \mathbf {1} \tag {2.90} $$
上式中 $\bar{x}$ 表示 $x_{1}, x_{2}, \cdots, x_{n}$ 的均值。接下来,将 $z_{1}$ 和 $y$ 代入式(2.85)恰恰就得到式(2.89)的OLS估计量 $\hat{b}$ :
$$ \begin{array}{l} \frac {\langle \boldsymbol {z} _ {1} , \boldsymbol {y} \rangle}{\langle \boldsymbol {z} _ {1} , \boldsymbol {z} _ {1} \rangle} = \frac {\langle \boldsymbol {x} _ {1} - \bar {x} \mathbf {1} , \boldsymbol {y} \rangle}{\langle \boldsymbol {x} _ {1} - \bar {x} \mathbf {1} , \boldsymbol {x} _ {1} - \bar {x} \mathbf {1} \rangle} \ = \frac {\sum_ {i = 1} ^ {n} x _ {i} y _ {i} - \bar {x} \sum_ {i = 1} ^ {n} y _ {i}}{\sum_ {i = 1} ^ {n} (x _ {i} - \bar {x}) ^ {2}} = \frac {\sum_ {i = 1} ^ {n} x _ {i} y _ {i} - \frac {1}{n} \sum_ {i = 1} ^ {n} x _ {i} \sum_ {i = 1} ^ {n} y _ {i}}{\sum_ {i = 1} ^ {n} x _ {i} ^ {2} - 2 n \bar {x} ^ {2} + n \bar {x} ^ {2}} \tag {2.91} \ = \frac {\sum_ {i = 1} ^ {n} x _ {i} y _ {i} - \frac {1}{n} \sum_ {i = 1} ^ {n} x _ {i} \sum_ {i = 1} ^ {n} y _ {i}}{\sum_ {i = 1} ^ {n} x _ {i} ^ {2} - n \bar {x} ^ {2}} = \frac {\sum_ {i = 1} ^ {n} x _ {i} y _ {i} - \frac {1}{n} \sum_ {i = 1} ^ {n} x _ {i} \sum_ {i = 1} ^ {n} y _ {i}}{\sum_ {i = 1} ^ {n} x _ {i} ^ {2} - \frac {1}{n} \left(\sum_ {i = 1} ^ {n} x _ {i}\right) ^ {2}} \ = \hat {b} \ \end{array} $$
以上并没有直接对模型(2.88)进行OLS回归,而是通过正交化的方式求出 $\hat{b}$ 。对于多元回归的情况,上述求解 $\hat{b}$ 的方法可以通过以下过程扩展(Hastie et
al.2016)。该过程的核心是通过连续的正交化计算把一组非两两正交的向量 $x_{i}$ 转换成一组两两正交的向量 $z_{i}$ ,并以此方便地求出最后一个被正交化的解释变量的多元回归系数。该过程共有三步:
(1)第一步是初始化。在所有解释变量中(如果线性回归模型包括截距项,则它也是一个解释变量)任意挑选一个当作 $x_0$ 进行初始化 $z_0 = x_0$ 。
(2) 第二步是将其他解释变量按任意顺序排序, 记为 $x_{1}, x_{2}, \cdots, x_{K}$ (假设一共有 $K + 1$ 个解释变量)。按上述顺序从 $x_{1}$ 开始依次进行正交化。具体来说, 对 $x_{k}$ 的正交化公式如下:
$$ z _ {k} = x _ {k} - \sum_ {j = 1} ^ {k - 1} \frac {\left\langle \boldsymbol {z} _ {j} , \boldsymbol {x} _ {k} \right\rangle}{\left\langle \boldsymbol {z} _ {j} , \boldsymbol {z} _ {j} \right\rangle} z _ {j} \tag {2.92} $$
其中 $z_{0}, z_{1}, \dots, z_{k-1}$ 是已经被处理过后的正交向量。
(3) 得到 $z_{K}$ 之后, 计算 $\langle z_{K}, y \rangle / \langle z_{K}, z_{K} \rangle$ , 它正是多元回归模型 (2.83) 中解释变量 $x_{K}$ 的回归系数的OLS估计量 $\hat{b}_{K}$ :
$$ \hat {b} _ {K} = \frac {\langle \boldsymbol {z} _ {K} , \boldsymbol {y} \rangle}{\langle \boldsymbol {z} _ {K} , \boldsymbol {z} _ {K} \rangle} \tag {2.93} $$
需要强调的是, 这一结论仅对最后一个被正交化后的解释变量成立。对于其他解释变量 $k < K$ , $\langle z_{k}, y \rangle / \langle z_{k}, z_{k} \rangle$ 并不等于多元回归的OLS估计量 $\hat{b}{k}$ 。也许有的读者会有疑惑: 这个算法确实不错, 但是费了半天劲算出了一大堆相互正交的向量 $z{k}$ , 而求解回归系数的结论却仅对最后一个被正交化的解释变量成立, 这不是坑人吗? 答案是否定的。上述过程中的关键在于正交化这些解释变量的顺序是任意的, 因而可以选任何一个变量进行初始化, 也可以选任何一个变量作为最后一个被正交化的解释变量。无论怎么选, 上述过程保证了最后一个被正交化的解释变量的回归系数满足 $\hat{b}{K} = \langle z{K}, y \rangle / \langle z_{K}, z_{K} \rangle$ 。只需依次挑选这些解释变量作为最后一个被正交化的, 就可以通过上述步骤求出这些解释变量的回归系数的OLS估计。而上述过程所反映出来的本质是, 在对多元线性回归模型 (2.83) 进行OLS估计时, 解释变量 $x_{k}$ 的回归系数的估计量 $\hat{b}{k}$ 等于 $x{k}$ 在被其他解释变量 $x_{0}, x_{1}, \cdots, x_{k-1}, x_{k+1}, \cdots, x_{K}$ 正交化之后(从而排除其他 $x_{j}$ 对 $x_{k}$ 的影响)仍能够对解释 $y$ 产生的增量贡献。
上述过程称作多元回归的格拉姆—施密特(Gram—Schmidt)正交化过程。式(2.93)表明 $x_{K}$ 的回归系数 $\hat{b}{k}$ 和正交化后的 $z{K}$ 的范数大小( $z_{K}$ 自己的内积为分母)有关。如果 $x_{K}$ 和其他解释变量高度相关,那么 $x_{K}$ 被其他 $x_{j}, j \neq K$ 解释之后的残差 $z_{K}$ 就会很小。当 $y_{i}$ 满足独立同分布时,可以证明 $\hat{b}{k}$ 的方差和 $z{K}$ 的范数大小成反比:
$$ \operatorname {v a r} \left(\hat {b} _ {K}\right) = \frac {\operatorname {v a r} \left(y _ {i}\right)}{\left\langle \boldsymbol {z} _ {K} , \boldsymbol {z} _ {K} \right\rangle} = \frac {\operatorname {v a r} \left(y _ {i}\right)}{\left| \boldsymbol {z} _ {K} \right| ^ {2}} \tag {2.94} $$
当 $| z_{K}|^{2}$ 很小时, $\operatorname{var}(\hat{b}{K})$ 就会很大, 导致 $\hat{b}{K}$ 非常不稳定, 即样本数据的细微变化会导致 $\hat{b}_{K}$ 大幅变化。回到本书关注的问题, 当使用Fama-MacBeth截面回归求解因子收益率
时, $\hat{b}_{K}$ 就是因子 $K$ 的收益率。为了因子收益率的估计更稳定,所以要求不同的因子之间尽量满足正交化。举例来说,在Barra的中国市场多因子模型中,非线性市值因子和市值因子之间进行了正交化处理。
在本节的最后再介绍一个有意思、也有用的特性。在格拉姆—施密特正交化过程中,任何一个解释变量均可以被选为最后一个,然后根据连续正交化方便地求出它的回归系数。这意味着如果有20个解释变量,需要进行20次上述操作。是否有什么办法仅通过进行一次连续正交化就求出所有的回归系数 $\hat{b}_k$ ( $k = 0, 1, \dots, K$ )呢?答案是肯定的。
假设按照某给定顺序 $x_{0}, x_{1}, \cdots, x_{K}$ 依照(2.92)进行连续正交化过程,得到 $z_{0}, z_{1}, \cdots, z_{K}$ 。对于排在最后一位的解释变量如下关系 $\hat{b}{K} = \langle z{K}, y \rangle / \langle z_{K}, z_{K} \rangle$ 成立。由于 $\hat{b}{K}$ 是解释变量 $x{K}$ 的回归系数,因此 $\hat{b}{K} x{K}$ 就是 $x_{K}$ 所解释的 $y$ 的部分。如果从 $y$ 中剔除 $\hat{b}{K} x{K}$ ,并把得到的 $y - \hat{b}{K} x{K}$ 作为被解释变量,用剩下的 $x_{0}, x_{1}, \cdots, x_{K-1}$ 作为解释变量,则回归结果就和 $x_{K}$ 无关了。在这个新的回归中, $x_{K-1}$ 就变成了最后一个被正交化的解释变量,其对应的正交向量为 $z_{K-1}$ 。因此, $x_{K-1}$ 的回归系数就用 $y - \hat{b}{K} x{K}$ 和 $z_{K-1}$ 依照式(2.86)计算:
$$ \hat {b} _ {K - 1} = \frac {\left\langle \boldsymbol {z} _ {K - 1} , \boldsymbol {y} - \hat {b} _ {K} \boldsymbol {x} _ {K} \right\rangle}{\left\langle \boldsymbol {z} _ {K - 1} , \boldsymbol {z} _ {K - 1} \right\rangle} \tag {2.95} $$
以此类推,便可以按照 $\hat{b}{K}, \hat{b}{K-1}, \dots, \hat{b}{0}$ 的倒序求解出多元回归中所有解释变量的回归系数的OLS估计 $\hat{b}{j}$ (Drygas 2011):
$$ \hat {b} _ {K} = \frac {\left\langle \mathbf {z} _ {K} , \mathbf {y} \right\rangle}{\left\langle \mathbf {z} _ {p} , \mathbf {z} _ {p} \right\rangle} \tag {2.96} $$
$$ \hat {b} _ {j} = \frac {\left\langle \boldsymbol {z} _ {j} , \boldsymbol {y} - \sum_ {i = j + 1} ^ {K} \hat {b} _ {i} \boldsymbol {x} _ {i} \right\rangle}{\left\langle \boldsymbol {z} _ {j} , \boldsymbol {z} _ {j} \right\rangle}, \quad j = K - 1, K - 2, \dots , 0 \tag {2.97} $$
最后用本节开始的包含两个解释变量 $x_{0}$ 和 $x_{1}$ 的回归模型(2.88)验证一下,即通过式(2.96)和式(2.97)求解 $x_{0}$ 的OLS回归系数 $\hat{a}$ 。令 $z_{0} = 1$ 并假设 $\hat{b}$ 的表达式已经求出。根据式(2.97)可得 $\hat{a}$ :
$$ \hat {a} = \frac {\langle \mathbf {1} , \boldsymbol {y} - \hat {b} \boldsymbol {x} \rangle}{\langle \mathbf {1} , \mathbf {1} \rangle} = \frac {\sum_ {i = 1} ^ {n} y _ {i} - \hat {b} \sum_ {i = 1} ^ {n} x _ {i}}{n} = \frac {1}{n} \sum_ {i = 1} ^ {n} y _ {i} - \hat {b} \left(\frac {1}{n} \sum_ {i = 1} ^ {n} x _ {i}\right) \tag {2.98} $$
它正是式(2.89)中 $\hat{a}$ 的表达式。
2.7 广义矩估计
在实证资产定价研究中,除了多因子模型外,还有很多其他的模型。其中一个重要的模型是由Lucas(1978)和Breeden(1979)提出的基于消费的资产定价模型(Consumptionbased CAPM,CCAPM)。CCAPM的理论虽然优雅,但是模型中消费和资产收益率之间的关系是非线性的,传统的统计学方法在检验该模型时无能为力。在学术界为如何检验CCAPM绞尽脑汁的时候,Hansen(1982)提出了广义矩估计(Generalized Method of Moments,GMM)[1]。
GMM是一个非常强大的计量经济学方法,在实证资产定价研究的历史上起到了举足轻重的作用。而如今无论是在经济学领域还是金融学领域,GMM因其数学上的优雅和特性上的强大而被广泛运用,Hansen(1982)也早已成为计量经济学领域被引用量最高的文章之一。虽然GMM最初是被用来检验CCAPM的,但其强大的性能和“标准化”的使用流程使得它可以被方便地应用于检验线性多因子模型(Cochrane 2005的第13章对此有精彩的论述)。为此,作为因子投资方法论章节中的进阶内容,本节对GMM进行介绍。笔者相信,掌握GMM将会帮助读者在未来进行更深入的因子投资研究。
本节的目标是从直观出发揭示GMM蕴含的数学之美。以下行文中试图把公式掰开揉碎讲清楚,从而帮助感兴趣的读者理解复杂公式背后的本质。
Cochrane(2005)指出,学习GMM时最大的障碍就是涉及的数学符号繁多。只要搞清楚这些符号,GMM背后的数学精髓其实是非常简单的,因为GMM的核心最终能够归结为计算样本均值的方差(the variance of the sample mean)。希望本节的论述能带给你这种恍然大悟之感。接下来就从样本均值的方差说起。
2.7.1 样本均值的方差
考虑某随机变量 $u_{t}$ 。假设它在某个样本内的取值为0、-1、3、3、-3。式(2.99)计算出了 $u_{t}$ 的样本均值 $\bar{u}$ :
$$ \bar {u} = E _ {T} \left[ u _ {t} \right] = 0. 4 \tag {2.99} $$
由于 $u_{t}$ 是一个随机变量,因此其样本均值 $\bar{u}$ 也是一个随机变量。虽然它在上述样本中的取值为0.4,但假如能够乘坐时光机回到过去“重写历史”,得到不同的样本,那么在不同的样本中,样本均值的取值也会有所变化。假设除样本一(就是上面这个样本)之外,还有三个样本。每个样本中的 $u_{t}$ 和它们的样本均值 $\bar{u}$ 如表2.5所示。
表2.5 多个样本
| 样本一 | 样本二 | 样本三 | 样本四 | |
| ut | 0 | -2 | 0 | 3 |
| -1 | 2 | 5 | -2 | |
| 3 | 2 | -1 | 1 | |
| 3 | -3 | 1 | 2 | |
| -3 | -3 | -2 | 4 | |
| ET[ut] | 0.4 | -0.8 | 0.6 | 1.6 |
既然样本均值本身也是一个随机变量,那么一个很自然的问题就是样本均值在不同的样本中是如何变化的,即求解样本均值的方差。从方差的定义出发有:
$$ \operatorname {v a r} (\bar {u}) = \operatorname {v a r} \left(\frac {1}{T} \sum_ {t = 1} ^ {T} u _ {t}\right) = \frac {1}{T ^ {2}} \operatorname {v a r} \left(\sum_ {t = 1} ^ {T} u _ {t}\right) \tag {2.100} $$
式中 $T$ 为样本量。在最简单的情况中, 假设 $u_{t}$ 序列满足独立同分布, 则式 (2.100) 可以简化成:
$$ \operatorname {v a r} (\bar {u}) = \frac {1}{T ^ {2}} \operatorname {v a r} \left(\sum_ {t = 1} ^ {T} u _ {t}\right) = \frac {\sigma^ {2} (u _ {t})}{T} \tag {2.101} $$
将式(2.101)两边开方就得到样本均值的标准误:
$$ \mathrm {s . e .} (\bar {u}) = \frac {\sigma \left(u _ {t}\right)}{\sqrt {T}} \tag {2.102} $$
式(2.102)的结果大概是各位读者在统计课中学到的印象最深的一个式子——当 $u_{t}$ 满足独立同分布时,样本均值的标准误。对于金融数据(比如收益率)来说, $u_{t}$ 序列有非零的自相关性(即 $\operatorname{cov}(u_{t}, u_{t - j}) \neq 0$ ),难以满足独立同分布,因此需要得到更一般情况下样本均值 $\bar{u}$ 的方差:
$$ \operatorname {v a r} (\bar {u}) = \frac {1}{T} \left[ \operatorname {v a r} \left(u _ {t}\right) + \sum_ {j = 1} ^ {T} \frac {T - j}{T} \left(\operatorname {c o v} \left(u _ {t}, u _ {t - j}\right) + \operatorname {c o v} \left(u _ {t}, u _ {t + j}\right)\right) \right] \tag {2.103} $$
当 $T$ 趋于无穷大时, $(T - j) / T$ 趋于 1 , 可以求出 $\operatorname{var}\left(\bar{u}\right)$ 的渐进形式:
$$ \operatorname {v a r} (\bar {u}) \rightarrow \frac {1}{T} \sum_ {j = - \infty} ^ {\infty} \operatorname {v a r} \left(u _ {t}, u _ {t - j}\right) \tag {2.104} $$
下面再假设一个特殊的情况,即随机变量 $u_{t}$ 的总体均值 $E[u_{t}] = 0$ ,并利用方差运算的性质 $\operatorname{var}(X, Y) = E[XY] - E[X]E[Y]$ 可得:
$$ \operatorname {v a r} (\bar {u}) \rightarrow \frac {1}{T} \sum_ {j = - \infty} ^ {\infty} E [ u _ {t} u _ {t - j} ] \equiv \frac {1}{T} S \tag {2.105} $$
上式最后一项中使用 $S$ 代表了中间项中的求和项。在GMM的术语中, $S$ 被称作 $u_{t}$ 的谱密度矩阵。以上从人们熟悉的样本均值出发指出样本均值本身也是一个随机变量,并推导出当样本量 $T$ 趋于无穷,且假设 $E[u_{t}] = 0$ 时,样本均值的方差渐进趋于 $S / T$ ,其中 $S$ 是无穷级数求和 $\sum E[u_{t}u_{t - j}]$ 。千万不要小看 $\operatorname{var}(\bar{u}) \to S / T$ 这个式子,它在下文中介绍GMM的数学推导中起着至关重要的作用。
2.7.2 分析框架
回顾了样本均值的方差之后,本节就来解释GMM到底是怎么回事儿。GMM的作用是为了检验模型,比如模型到底对不对?模型的参数如何估计?误差是来自运气还是因为模型有误?GMM提供了一个优雅而强大的计量经济学框架来回答这些问题。一般来说,GMM框架分为以下三个部分。
- 第一部分:把关注的问题表达成一系列总体矩条件,即提出模型。
- 第二部分:使用样本数据得到对应的样本矩条件,从而对参数进行估计,即把模型和数据联系起来。
- 第三部分:计算参数的标准误(方差),并进行统计检验,即检验模型。
1. GMM第一部分
在接下来的讨论中,令 $x_{t}$ 代表数据, $b$ 代表参数(它们都是向量)。在使用GMM时,将猜想的模型描述成一组关于 $x_{t}$ 和 $b$ 的函数 $f(x_{t}, b)$ ,且当 $b = b_{0}$ 时如下的矩条件成立:
$$ E [ f \left(x _ {t}, b _ {0}\right) ] = 0 \tag {2.106} $$
式(2.106)左侧的 $E[f(x_{t},b_{0})]$ 是总体矩(population moments),而约束(2.106)就是总体矩条件(population moment conditions)。它们表示当猜测的模型正确时,参数和数据应该满足的关系,因此它们就是待检验的原假设。需要说明的是,期望符号 $E$ 表示对总体求均值;而前面使用的(接下来也将会继续使用的)期望符号 $E_{T}$ 表示对样本求均值。GMM的第一部分是把研究的问题转化成数据和参数的一组矩条件 $E[f(x_{t},b_{0})] = 0$ 。
为了加深理解,来看资产定价中的例子。Cochrane(2005)指出资产定价理论都可以归结到一个最基础的式子[2]:
$$ p _ {t} = E \left[ m _ {t + 1} x _ {t + 1} \right] \tag {2.107} $$
其中 $m$ 是随机折现因子(stochastic discount factor,由参数 $b_{0}$ 决定), $x_{t+1}$ 是某个投资未来的回报, $p_{t}$ 是该投资现在的价格。因此这个式子说明某个投资未来的回报的现值等于今天的价格。举例来说,令 $R_{f}^{q}$ 代表无风险资产的总回报,即 $t$ 期投
入 $p_{t} = 1$ , $t + 1$ 期得到 $x_{t + 1} = R_f^g$ 。将它们代入式(2.107)就得到一个矩条件:
$$ E [ m ({\pmb b} _ {0}) R _ {f} ^ {g} ] = 1 \quad {\text {或}} \quad E [ m ({\pmb b} _ {0}) R _ {f} ^ {g} - 1 ] = 0 \qquad \qquad (2. 1 0 8) $$
又比如,对于某个通过多空对冲构成的资金中性投资组合(如某个因子或者异象的投资组合),其理论上是靠卖空的资产获得的资金来买入做多的资产,因此该组合的成本是零,即 $p_t = 0$ 。令 $R^e$ 代表该组合的超额收益,即 $x_{t+1} = R^e$ 。将它们代入式(2.107)就得到另一个矩条件:
$$ E [ m (b _ {0}) R ^ {e} ] = 0 \tag {2.109} $$
式(2.108)和式(2.109)都是资产定价中常见的总体矩条件。将它们放在一起就得到向量的形式:
$$ \left[ \begin{array}{c} E [ m (\boldsymbol {b} _ {0}) R _ {f} ^ {g} - 1 ] \ E [ m (\boldsymbol {b} _ {0}) R ^ {e} ] \end{array} \right] = \left[ \begin{array}{l} 0 \ 0 \end{array} \right] \tag {2.110} $$
2. GMM第二部分
GMM的第一部分通过总体矩条件描述了关注的问题,但这些矩条件仅仅是人们对于真实模型的猜想,而人们手里有的只是样本数据。因此,GMM的第二部分就是用样本矩(sample moments)代替总体矩,从而建立起模型和数据之间的联系,以此进行参数估计和检验。根据定义,样本矩可以写成:
$$ E _ {T} [ \boldsymbol {f} (\boldsymbol {x} _ {t}, \boldsymbol {b} _ {0}) ] = \frac {1}{T} \sum_ {t = 1} ^ {T} \boldsymbol {f} (\boldsymbol {x} _ {t}, \boldsymbol {b} _ {0}) \equiv \boldsymbol {g} _ {T} (\boldsymbol {b} _ {0}) \tag {2.111} $$
上式最后一项中引入符号 $g_{T}$ 仅仅是为了在下文中简化公式。怎么样?看着式(2.111)有没有什么感想?无论研究的具体问题是什么(比如本书中的实证资产定价,而别人也可以研究经济学或金融学中其他的问题),不管一系列函数 $f$ 的具体形式长什么样,式(2.111)中的样本矩在数学上的定义都是 $f$ 在样本内取均值而已,因此它也是一种样本均值。
从样本矩出发就可以进行参数估计。GMM的第一步提出模型时假设总体矩满足矩条件 $E[f(x_{t},b_{0})] = 0$ (原假设)。如果原假设成立,那么样本矩在统计上不应显著偏离零。使用样本数据,GMM的核心是找到参数 $b_{0}$ 的估计 $\hat{b}_0$ ,以使所有样本矩都尽可能地等于零:
$$ E _ {T} [ \boldsymbol {f} (\boldsymbol {x} _ {t}, \hat {\boldsymbol {b}} _ {0}) ] \simeq \mathbf {0} \tag {2.112} $$
式(2.112)中之所以用了约等于而非等于,是因为在实际问题中,样本矩的个数往往超过参数的个数(这也被称为过度识别,overidentification)。假设问题中一共有 $n$ 个矩(即 $g_{T}$ 是 $n$ 维向量), $p$ 个参数(即 $b_{0}$ 是 $p$ 维向量)。当 $n > p$ 时,显然无法让所有的样本矩都等于零,因而选择让这其中的 $p$ 个样本矩或者所有样本矩的 $p$ 个线性组合等于0。这就是GMM估计量:
$$ \hat {\pmb {b}} _ {0}: \text {令} \pmb {a g} _ {T} (\hat {\pmb {b}} _ {0}) = 0 \tag {2.113} $$
上式中 $a$ 是一个 $p \times n$ 阶矩阵,每一行都代表一个样本矩的线性组合。为了便于理解,仍然用资产定价来举例子。假设CCAPM是正确的资产定价模型。在CCAPM下,随机折现因子 $m$ 由两个参数 $b_{1}$ 和 $b_{2}$ 决定,即 $b_{0} = [b_{1}, b_{2}]'$ 。接下来,假设使用以下四个资产构造四个矩条件来检验CCAPM。这些资产是市场组合、无风险资产,以及Fama and French(1993)中的价值(HML)和规模(SMB)两个因子的投资组合。用 $R_{f}^{g}$ 表示无风险资产的总回报,用 $R_{m}^{e}$ 、 $R_{\mathrm{HML}}^{e}$ 、 $R_{\mathrm{SMB}}^{e}$ 代表其他三个资产的超额收益。在这个例子中, $n = 4$ 而 $p = 2$ ,因此 $a$ 是一个 $2 \times 4$ 矩阵,而GMM估计可以写成:
$$ \left[ \begin{array}{l l l l} a _ {1 1} & a _ {1 2} & a _ {1 3} & a _ {1 4} \ a _ {2 1} & a _ {2 2} & a _ {2 3} & a _ {2 4} \end{array} \right] \left[ \begin{array}{c} E _ {T} [ m (\hat {b} _ {1}, \hat {b} _ {2}) R _ {m} ^ {e} ] \ E _ {T} [ m (\hat {b} _ {1}, \hat {b} _ {2}) R _ {f} ^ {g} - 1 ] \ E _ {T} [ m (\hat {b} _ {1}, \hat {b} _ {2}) R _ {\mathrm {H M L}} ^ {e} ] \ E _ {T} [ m (\hat {b} _ {2}, \hat {b} _ {2}) R _ {\mathrm {S M B}} ^ {e} ] \end{array} \right] = \left[ \begin{array}{l} 0 \ 0 \end{array} \right] \tag {2.114} $$
根据式(2.114)就可以使用样本矩求出参数估计 $\hat{b}_0$ 。不过有的读者会有疑惑,因为式(2.114)中并没有说明矩条件的线性组合矩阵 $a$ 是什么。不同的 $a$ 显然会得到不同的参数估计。GMM的框架下允许人们任意选择 $a$ ,然而从计量经济学的角度,有一个特殊的矩阵 $a$ 会让GMM估计量成为有效估计量(efficient estimator)。
3. GMM第三部分
使用GMM估计得到的 $\hat{b}_0$ 仅仅是真实但未知参数 $b$ 的一个估计。从统计学的角度看,人们同样关心估计的误差,即 $\operatorname{var}(\hat{b}_0)$ 。对于给定的样本矩 $g_T$ ,从计量经济学的角度看有一个特殊的矩阵 $a$ 使得 $\operatorname{var}(\hat{b}_0)$ 最小,这就是有效(efficient)的含义。Hansen(1982)给出了这个 $a$ 的形式,2.7.4节将对它的含义以及GMM估计的有效性做进一步探讨。
$\operatorname{var}(\hat{\boldsymbol{b}}_0)$ 的大小仅仅说明参数估计是否准确,而对于研究的问题来说,人们更加关注的是当给定 $\hat{\boldsymbol{b}}_0$ 时,样本矩的方差 $\operatorname{var}(\boldsymbol{g}_T(\hat{\boldsymbol{b}}_0))$ 的大小。在一般的过度识别问题下(即矩个数多于参数个数),样本矩无法全都满足等于零的矩条件[3],因此需要回答的问题是样本矩联合起来相对于零的偏离的大小,并搞清楚样本矩 $\boldsymbol{g}_T(\hat{\boldsymbol{b}}_0)$ 联合起来相对于零的偏离是因为运气成分还是因为选择的总体矩条件(即原假设)是错的。如果仅仅因为运气(即偏离很小),那么可以接受原假设——比如接受一个资产定价模型;如果不是因为运气(即偏离很大),就只能拒绝原假设。唯有有了 $\operatorname{var}(\boldsymbol{g}_T(\hat{\boldsymbol{b}}_0))$ ,才能够进行统计检验并决定接受或拒绝原假设。计算 $\operatorname{var}(\boldsymbol{g}_T(\hat{\boldsymbol{b}}_0))$ 并进行统计检验就是GMM的第三部分。
值得一提的是,由于 $\hat{\pmb{b}}0$ 和 $g{T}(\hat{b}{0})$ 都是向量,因此 $\operatorname {var}(\hat{b}_0)$ 和 $\operatorname {var}(g_T(\hat{b}_0))$ 事实上都是方差-协方差矩阵。其中 $\operatorname {var}(\hat{b}_0)$ 是 $p$ 阶矩阵,而 $\operatorname {var}(g_T(\hat{b}_0))$ 是 $n$ 阶矩阵。有了 $\operatorname {var}(\hat{b}_0)$ 和 $\operatorname {var}(g_T(\hat{b}_0))$ ,就可以写出 $\hat{\pmb{b}}_0$ 和 $g{T}(\hat{b}_{0})$ 的分布。
正态性:
$$ \sqrt {T} \left(\hat {\boldsymbol {b}} _ {0} - \boldsymbol {b} _ {0}\right) \xrightarrow {d} \mathcal {N} \left(\boldsymbol {0}, (\boldsymbol {a d}) ^ {- 1} \boldsymbol {a S a} ^ {\prime} (\boldsymbol {a d}) ^ {- 1 ^ {\prime}}\right) \tag {2.115} $$
式中-1表示求逆,'表示转置,所以(ad) $-1'$ 表示先求ad的逆矩阵,再转置。Hansen(1982)给出了渐进分布成立需要满足的一系列假设。在实际应用中,应牢记的是数据 $x_{i}$ 需要满足弱平稳性,这是因为GMM的基础是随着T的增大,样本均值向总体均值收敛。
此外,Hansen(1982)中的引理4.1指出 $\pmb{g}{T}(\hat{\pmb{b}}{0})$ 满足如下渐进正态性:
$$ \sqrt {T} \boldsymbol {g} _ {T} (\hat {\boldsymbol {b}} _ {0}) \xrightarrow {d} \mathcal {N} \left(\boldsymbol {0}, \left(\boldsymbol {I} - \boldsymbol {d} (\boldsymbol {a d}) ^ {- 1} \boldsymbol {a}\right) \boldsymbol {S} \left(\boldsymbol {I} - \boldsymbol {d} (\boldsymbol {a d}) ^ {- 1} \boldsymbol {a}\right) ^ {\prime}\right) \tag {2.116} $$
式中 $I$ 是 $n$ 阶单位阵。式(2.115)和式(2.116)中的 $a$ 就是样本矩的线性组合权重矩阵,但以上还未说明 $d$ 和 $S$ 是什么。接下来2.7.3节会把它们的含义说清楚。式(2.115)和式(2.116)中正态分布的方差 $\operatorname{var}(\hat{\pmb{b}}_0)$ 和 $\operatorname{var}(g_T(\hat{\pmb{b}}_0))$ 的表达式看似无比复杂,但它们本质上也都离不开2.7.1节介绍的样本均值的方差。
一旦有了 $g_{T}(\hat{b}{0})$ 的分布,便可以对GMM第一部分中提出的模型进行检验,从而决定是接受还是拒绝它。以资产定价为例,矩条件代表了给定定价模型下不同资产或投资组合的定价误差 $\alpha$ ,人们关心这些定价误差联合起来是否为零。有了样本矩 $g{T}(\hat{b}_{0})$ 的分布,可以构建相应的检验统计量。如果检验统计量超过给定显著性水平的阈值,就可以拒绝该资产定价模型。
总结一下,本节介绍了GMM的三个部分,其中:
- 第一部分把关心的问题表述成一组总体矩条件;
- 第二部分用样本矩代替总体矩从而把样本数据和模型联系起来,并进行参数估计;
- 第三部分计算 $\operatorname{var}(\hat{\boldsymbol{b}}_0)$ 和 $\operatorname{var}(\boldsymbol{g}_T(\hat{\boldsymbol{b}}_0))$ ,并进行统计检验,决定是否接受第一部分提出的模型。
2.7.3 数学基础
本节的目标是解释如何计算 $\operatorname{var}(\hat{\boldsymbol{b}}_0)$ 和 $\operatorname{var}(\boldsymbol{g}_T(\hat{\boldsymbol{b}}_0))$ 。了解本节的内容可以更好地理解GMM背后的数学之美。先说式(2.115)和式(2.116)中的 $S$ ,这是核心。首先回顾一下 $g_T$ 的定义(式(2.111)):
$$ \boldsymbol {g} _ {T} (\boldsymbol {b} _ {0}) \equiv \frac {1}{T} \sum_ {t = 1} ^ {T} \boldsymbol {f} (\boldsymbol {x} _ {t}, \boldsymbol {b} _ {0}) $$
对 $g_{T}$ 求方差就得到 $\operatorname{var}\left(g_{T}\right)$ 。由 $g_{T}$ 的定义可知,无论函数 $f$ 长什么样子,样本
矩 $g_{T}$ 的数学形式都仅仅取平均, 即 $g_{T}$ 其实就是 $f\left(x_{t}, \quad b_{0}\right)$ 的样本均值, 因此 $\operatorname{var}\left(g_{T}\left(b_{0}\right)\right)$ 就是对一个样本均值求方差, 即样本均值的方差。利用2.7.1节的式(2.105)可以很容易推导出, 当 $T$ 趋于无穷时的 $\operatorname{var}\left(g_{T}\right)$ :
$$ \operatorname {v a r} \left(\boldsymbol {g} _ {T} \left(\boldsymbol {b} _ {0}\right)\right)\rightarrow \frac {1}{T} \sum_ {j = - \infty} ^ {\infty} E \left[ \boldsymbol {f} \left(\boldsymbol {x} _ {t}, \boldsymbol {b} _ {0}\right) \boldsymbol {f} \left(\boldsymbol {x} _ {t - j}, \boldsymbol {b} _ {0}\right) ^ {\prime} \right] \tag {2.117} $$
利用式(2.117),定义 $S$ 如下:
$$ \boldsymbol {S} \equiv \sum_ {j = - \infty} ^ {\infty} E [ \boldsymbol {f} (\boldsymbol {x} _ {t}, \boldsymbol {b} _ {0}) \boldsymbol {f} (\boldsymbol {x} _ {t - j}, \boldsymbol {b} _ {0}) ^ {\prime} ] \tag {2.118} $$
它是一个 $n$ 阶矩阵(在实际情况中,它可以用样本数据来估计)。式(2.117)的计算中之所以能把方差和协方差写成 $E[XY]$ 的形式,是因为原假设下的总体矩条件约束 $E[f(x_{t}, b_{0})] = 0$ 这里预期符号 $E$ 没有下标 $T$ ,表示总体期望。
需要强调的是,式(2.117)给出的是 $\operatorname{var}\left(\boldsymbol{g}{T}\left(\boldsymbol{b}{0}\right)\right)$ ,即样本矩 $\boldsymbol{g}{T}$ 在真实参数 $b{0}$ 下的方差。而为了检验模型,人们关心的是 $\boldsymbol{g}{T}$ 在估计 $\hat{\boldsymbol{b}}{0}$ 下的方差,即 $\operatorname{var}(\boldsymbol{g}{T}(\hat{\boldsymbol{b}}{0}))$ 。然而,一旦有了 $\operatorname{var}\left(\boldsymbol{g}{T}\left(\boldsymbol{b}{0}\right)\right)=S / T$ ,计算 $\operatorname{var}(\boldsymbol{g}{T}(\hat{\boldsymbol{b}}{0}))$ (以及 $\operatorname{var}(\hat{\boldsymbol{b}}{0})$ )就变得容易了。首先看看 $\operatorname{var}(\hat{\boldsymbol{b}}{0})$ 如何计算。将 $\boldsymbol{a g}{T}(\hat{\boldsymbol{b}}{0})=\boldsymbol{0}$ 在 $b=b_{0}$ 中进行一阶泰勒展开:
$$ \boldsymbol {a} \boldsymbol {g} _ {T} \left(\boldsymbol {b} _ {0}\right) + \boldsymbol {a} \frac {\partial \boldsymbol {g} _ {T} \left(\boldsymbol {b} _ {0}\right)}{\partial \boldsymbol {b} ^ {\prime}} \left(\hat {\boldsymbol {b}} _ {0} - \boldsymbol {b} _ {0}\right) = 0 \tag {2.119} $$
式中一阶偏导数 $\partial g_{T}\left(b_{0}\right) / \partial b^{\prime}$ 的分母中 $\partial b$ 右上角有一个转置符号。在计算偏导数时, $g_{T}$ 是一个 $n$ 维向量( $n$ 个矩),而 $b$ 是一个 $p$ 维向量( $p$ 个参数),因此偏导数运算将会得到一个矩阵,这类运算属于矩阵微积分(matrix calculus)。当转置符号出现在分母时,得到的偏导数矩阵是 $n \times p$ 矩阵,即每一行代表一个矩,这种排列方式被称作分子布局(numerator layout)或雅可比布局(Jacobian formulation)。
接下来,定义矩阵 $d$ 如下:
$$ \boldsymbol {d} \equiv E \left[ \frac {\partial \boldsymbol {f} \left(\boldsymbol {x} _ {t} , \boldsymbol {b} _ {0}\right)}{\partial \boldsymbol {b} ^ {\prime}} \right] = \frac {\partial \boldsymbol {g} _ {T} \left(\hat {\boldsymbol {b}} _ {0}\right)}{\partial \boldsymbol {b} ^ {\prime}} \tag {2.120} $$
式中第一个等价符号是 $d$ 的定义, 而第二个等式意味着在实际应用中用样本矩和 $\hat{\pmb{b}}{0}$ 来计算 $d$ (Cochrane 2005)。Hansen (1982) 指出, 当 $T$ 趋于无穷大时, $\partial g{T}(\hat{\pmb{b}}{0}) / \partial \pmb{b}^{\prime}$ 依概率收敛于 $E[\partial f(x{t}, b_{0}) / \partial b^{\prime}]$ 。这个一阶偏导数矩阵正是式 (2.115) 和式 (2.116) 中的 $d$ 。用 $d$ 代替 $\partial g_{T}(b_{0}) / \partial b^{\prime}$ 代入式 (2.119) 并进行简单的代数运算:
$$ \begin{array}{l} \boldsymbol {a} \boldsymbol {g} _ {T} (\boldsymbol {b} _ {0}) + \boldsymbol {a} \boldsymbol {d} (\hat {\boldsymbol {b}} _ {0} - \boldsymbol {b} _ {0}) = \boldsymbol {0} \tag {2.121} \ \Rightarrow \quad \tilde {\boldsymbol {b}} _ {0} - \boldsymbol {b} _ {0} = - (\boldsymbol {a d}) ^ {- 1} \boldsymbol {a g} _ {T} (\boldsymbol {b} _ {0}) \ \end{array} $$
对上式的两边直接求方差就可以得到 $\operatorname{var}(\hat{\boldsymbol{b}}_0)$ 。值得一提的是,式(2.121)右侧的
$(ad)^{-1}a$ 是系数矩阵,而 $g_{T}(b_{0})$ 的方差已由式(2.117)给出了——正是 $S / T$ 。因此有:
$$ \operatorname {v a r} \left(\hat {\boldsymbol {b}} _ {0}\right) = \frac {1}{T} (\boldsymbol {a d}) ^ {- 1} \boldsymbol {a S} \boldsymbol {a} ^ {\prime} (\boldsymbol {a d}) ^ {- 1 ^ {\prime}} \tag {2.122} $$
下面如法炮制,通过一阶泰勒展开,利用 $\operatorname{var}\left(\boldsymbol{g}{T}\left(b{0}\right)\right)$ 求解 $\operatorname{var}\left(\boldsymbol{g}{T}\left(\hat{\boldsymbol{b}}{0}\right)\right)$
$$ \boldsymbol {g} _ {T} \left(\hat {\boldsymbol {b}} _ {0}\right) = \boldsymbol {g} _ {T} \left(\boldsymbol {b} _ {0}\right) + \frac {\partial \boldsymbol {g} _ {T} \left(\boldsymbol {b} _ {0}\right)}{\partial \boldsymbol {b} ^ {\prime}} \left(\hat {\boldsymbol {b}} _ {0} - \boldsymbol {b} _ {0}\right) \tag {2.123} $$
由于 $\hat{\boldsymbol{b}}_0 - \boldsymbol{b}_0$ 已经在式(2.121)中求出,因此只需把它代入式(2.123)就可得到:
$$ \boldsymbol {g} _ {T} (\hat {\boldsymbol {b}} _ {0}) = \boldsymbol {g} _ {T} (\boldsymbol {b} _ {0}) - \boldsymbol {d} (\boldsymbol {a d}) ^ {- 1} \boldsymbol {a g} _ {T} (\boldsymbol {b} _ {0}) = [ \boldsymbol {I} - \boldsymbol {d} (\boldsymbol {a d}) ^ {- 1} \boldsymbol {a} ] \boldsymbol {g} _ {T} (\boldsymbol {b} _ {0}) \tag {2.124} $$
两边同时求方差得到 $\operatorname{var}(\pmb{g}_T(\hat{\pmb{b}}_0))$ :
$$ \begin{array}{l} \operatorname {v a r} \left(\boldsymbol {g} _ {T} \left(\hat {\boldsymbol {b}} _ {0}\right)\right) = \left[ \boldsymbol {I} - \boldsymbol {d} (\boldsymbol {a} \boldsymbol {d}) ^ {- 1} \boldsymbol {a} \right] \operatorname {v a r} \left(\boldsymbol {g} _ {T} \left(\boldsymbol {b} _ {0}\right)\right) \left[ \boldsymbol {I} - \boldsymbol {d} (\boldsymbol {a} \boldsymbol {d}) ^ {- 1} \boldsymbol {a} \right] ^ {\prime} \tag {2.125} \ = \frac {1}{T} \left[ \boldsymbol {I} - \boldsymbol {d} (\boldsymbol {a d}) ^ {- 1} \boldsymbol {a} \right] S \left[ \boldsymbol {I} - \boldsymbol {d} (\boldsymbol {a d}) ^ {- 1} \boldsymbol {a} \right] ^ {\prime} \ \end{array} $$
上式中的第二个等式仍然利用了 $\operatorname{var}\left(\boldsymbol{g}{T}\left(\boldsymbol{b}{0}\right)\right)=S / T$ 这一结果。式(2.125)表明, $\operatorname{var}\left(\boldsymbol{g}{T}\left(\hat{\boldsymbol{b}}{0}\right)\right)$ 其实是 $\operatorname{var}\left(\boldsymbol{g}{T}\left(\boldsymbol{b}{0}\right)\right)$ 乘以某个系数矩阵得到的,这个系数矩阵是单位阵 $I$ 减去 $d$ ( $ad$ ) ${}^{-1}a$ 。从直觉上说, $\boldsymbol{g}{T}$ 在 $\boldsymbol{b}=\hat{\boldsymbol{b}}{0}$ 时的方差 $\operatorname{var}\left(\boldsymbol{g}{T}\left(\hat{\boldsymbol{b}}{0}\right)\right)$ 比 $\boldsymbol{g}{T}$ 在 $b=b{0}$ 时的方差 $\operatorname{var}\left(\boldsymbol{g}{T}\left(\boldsymbol{b}{0}\right)\right)$ 要小。这是因为在GMM估计时用到了样本矩 $\boldsymbol{g}{T}$ 的 $p$ 个线性组合,并令它们等于零—— $\boldsymbol{a g}{T}\left(\hat{\boldsymbol{b}}{0}\right)=0$ ——从而求出的 $\hat{\boldsymbol{b}}{0}$ 。在求解 $\hat{\boldsymbol{b}}{0}$ 的过程中,这些约束条件“消耗”掉了样本矩的一些变化,导致 $\operatorname{var}\left(\boldsymbol{g}{T}\left(\hat{\boldsymbol{b}}{0}\right)\right)< \operatorname{var}\left(\boldsymbol{g}{T}\left(\boldsymbol{b}_{0}\right)\right)$ 。
无论是求解 $\operatorname{var}(\hat{b}_0)$ 还是 $\operatorname{var}(g_T(\hat{b}))$ ,式(2.119)和式(2.123)中的一阶泰勒展开操作虽然非常“热闹”,但它们其实都仅用了统计学中的delta方法(delta method)。因此,虽然公式看似复杂,但是它们实质上只是利用了样本均值的方差( $S/T$ )和delta方法而已!就是这么简单。有了 $\operatorname{var}(g_T(\hat{b}_0))$ ,就可以得到样本矩 $g_T(\hat{b})$ 的渐近分布式(2.116)。
下面回到GMM关注的问题:检验模型。如果原假设成立,那么样本矩联合起来不应该显著地偏离零。这可以通过构建如下的 $\chi^2$ -统计量进行检验:
$$ \boldsymbol {g} _ {T} \left(\hat {\boldsymbol {b}} _ {0}\right) ^ {\prime} \operatorname {v a r} \left(\boldsymbol {g} _ {T} \left(\hat {\boldsymbol {b}} _ {0}\right)\right) ^ {- 1} \boldsymbol {g} _ {T} \left(\hat {\boldsymbol {b}} _ {0}\right) \sim \chi_ {n - p} ^ {2} \tag {2.126} $$
将式(2.125)中 $\operatorname{var}(g_T(\hat{b}))$ 的表达式代入式(2.126)最终得到:
$$ T g _ {T} \left(\hat {\boldsymbol {b}} _ {0}\right) ^ {\prime} \left[ \left(\boldsymbol {I} - \boldsymbol {d} (\boldsymbol {a d}) ^ {- 1} \boldsymbol {a}\right) \boldsymbol {S} \left(\boldsymbol {I} - \boldsymbol {d} (\boldsymbol {a d}) ^ {- 1} \boldsymbol {a}\right) ^ {\prime} \right] ^ {- 1} \boldsymbol {g} _ {T} \left(\hat {\boldsymbol {b}} _ {0}\right) \sim \chi_ {n - p} ^ {2} \tag {2.127} $$
其中 $\chi^2$ -统计量的自由度是用矩的个数减去参数的个数,即 $n - p$ ,这是因为在计算 $\hat{b}_0$
的时候用掉了 $p$ 个自由度。同时, 这也意味着 $\operatorname{var}\left(\boldsymbol{g}{T}\left(\hat{\boldsymbol{b}}{0}\right)\right)$ 不是满秩的, 因此式 (2.127) 中对其求逆实际上是在计算它的伪逆矩阵 (pseudo-inverse)。
总结一下本节。以上用了大量的文字和推导把 $\operatorname{var}(\hat{b}_0)$ 和 $\operatorname{var}(g_T(\hat{b}_0))$ 背后的数学含义呈现给读者,是希望这个过程能帮助各位加深对GMM的理解。站在数学符号的角度来说,虽然这些公式看上去很复杂(又是转置、又是求逆),但当使用GMM时,只需提供它需要的矩阵 $a$ 、样本矩条件 $g_T$ 及矩阵 $d$ 和 $S$ ,剩下的“无脑”交给GMM就可以计算出各种想要的统计量并进行检验,非常方便。如今,各种编程语言的统计包更是能够方面地实施GMM。
2.7.4 有效性
2.7.2节曾给出了GMM估计量如下:
$$ \hat {\pmb {b}} _ {0}: \text {令} \pmb {a g} _ {T} (\hat {\pmb {b}} _ {0}) = 0 $$
其中 $a$ 是 $p \times n$ 矩阵, 每一行都代表样本矩的某个线性组合。本节关心的问题是, 如何选取矩阵 $a$ ? 回答这个问题应从业务和统计两方面思考。从金融学原理出发, 尤其是针对资产定价问题, 可以选择一些业务含义最重要的矩, 让它们或它们的线性组合等于零。另外, 单从统计上说, Hansen (1982) 给出了一个特殊的 $a$ , 它能确保得到的GMM估计量是有效的(efficient GMM estimator), 即在给定的样本矩 $g_{T}$ 下, 该特殊的 $a$ 使得 $\operatorname{var}(\hat{b}_{0})$ 最小。这个特殊的 $a$ 为:
$$ a = d ^ {\prime} S ^ {- 1} \quad (2. 1 2 8) $$
这个 $a$ 到底有没有什么更直观的含义?别急,先来验证一下 $a$ 的阶数。由 $d$ 的定义式(2.120)可知,它是一阶偏导数矩阵,且在计算时遵循分子布局。由此可知, $d$ 的阶数是 $n \times p$ ,而 $d$ 的转置 $d'$ 就是 $p \times n$ 矩阵。事实上, $d'$ 同样也是一阶偏导数矩阵,只不过这次转置运算出现在分子上,即 $\frac{\partial g_T'(b_0)}{\partial b}$ 。它的运算则遵循的是分母布局(denominator layout)或黑塞布局(Hessian formulation),通常表示求梯度(gradient)。此外,由 $S$ 的定义式(2.118)可知它是 $n$ 阶矩阵。因此由 $a = d'S^{-1}$ 可知 $a$ 的阶数确实是 $p \times n$ 。
下面就来看看 $a = d^{\prime} S^{-1}$ 的含义。为了解释它,就不得不提GMM估计量的另一个表达式:
$$ \hat {\boldsymbol {b}} _ {0} = \arg \min \boldsymbol {g} _ {T} (\boldsymbol {b}) ^ {\prime} \boldsymbol {W} \boldsymbol {g} _ {T} (\boldsymbol {b}) \tag {2.129} $$
式中 $W$ 是半正定权重矩阵(weighting matrix)。式(2.129)的含义是,在过度识别问题中,既然无法让所有的样本矩 $g_{T}$ 都等于零,那么就让这 $n$ 个 $g_{T}$ 的范数的加权之和尽可能地接近零,以此来确定 $\hat{\pmb{b}}0$ 。正如可以在式(2.113)中随意选择矩阵 $a$ 一样,在式(2.129)中可以随意选择权重矩阵 $W$ 。然而,从估计量的有效性来说,最优的权重矩阵满足 $W = S^{-1}$ 。这从统计上非常好理解:对于一组矩 $g{T}$ ,人们希望它们(非负)加权之和最接近零。使用 $W = S^{-1}$ 即 $S$ 的逆矩阵(别忘了 $S / T$ 是 $\operatorname{var}(g_T(b_0))$ )相当于给误差大的矩更低的权重、给误差小的矩更高的权重。
换句话说, 人们更愿意相信那些误差小的矩并使用它们来得到尽可能准确的参数估计 $\hat{b}{0}$ , 从而使 $\operatorname{var}(\hat{b}{0})$ 最低, 这也就是“有效”的含义。将 $W = S^{-1}$ 代入式 (2.129) 并求其一阶条件有:
$$ \left(\frac {\partial \boldsymbol {g} _ {T} ^ {\prime} (\hat {\boldsymbol {b}} _ {0})}{\partial \boldsymbol {b}} \boldsymbol {S} ^ {- 1}\right) g _ {T} (\hat {\boldsymbol {b}}) = \mathbf {0} \tag {2.130} $$
怎么样,看着眼熟不?式(2.130)中括号里的第一项正是 $d$ 的转置 $d'$ ,第二项是 $S^{-1}$ 。这两项放一起 $d'S^{-1}$ 正是特殊的 $a$ 的表达式(2.128)。由此也可以推导出式(2.113)和式(2.129)这两种GMM估计量表达式的关系:
GMM估计量式(2.129),令 $W = S^{-1}:\hat{b}_0 = \arg \min g_T(\pmb {b})'S^{-1}\pmb {g}_T(\pmb {b})$ (2.131)
$$ \begin{array}{l} \Rightarrow \quad \text {一 阶 条 件}: \left(\frac {\partial \boldsymbol {g} _ {T} ^ {\prime} (\hat {\boldsymbol {b}} _ {0})}{\partial \boldsymbol {b}} \boldsymbol {S} ^ {- 1}\right) \boldsymbol {g} _ {T} (\hat {\boldsymbol {b}} _ {0}) = \mathbf {0} (2.132) \ \Rightarrow \quad \left(\left[ \frac {\partial \boldsymbol {g} _ {T} (\hat {\boldsymbol {b}} _ {0})}{\partial \boldsymbol {b} ^ {\prime}} \right] ^ {\prime} \boldsymbol {S} ^ {- 1}\right) \boldsymbol {g} _ {T} (\hat {\boldsymbol {b}} _ {0}) = \mathbf {0} (2.133) \ \Rightarrow \quad \left(\boldsymbol {d} ^ {\prime} \boldsymbol {S} ^ {- 1}\right) \boldsymbol {g} _ {T} \left(\hat {\boldsymbol {b}} _ {0}\right) = \mathbf {0} (2.134) \ \Rightarrow \quad \text {G M M 估 计 量 式} (2. 1 1 3), \text {令} \boldsymbol {a} = \boldsymbol {d} ^ {\prime} \boldsymbol {S} ^ {- 1}: \boldsymbol {a} \boldsymbol {g} _ {T} (\hat {\boldsymbol {b}} _ {0}) = 0 (2.135) \ \end{array} $$
上述推导说明这两种GMM估计量表达式是等价的。无论如何选取权重矩阵 $W$ ,都有一个与之对应的 $a = d'W$ 矩阵。当矩阵 $a$ 或权重矩阵 $W$ 取统计上最优时, $\operatorname{var}(\hat{b}_0)$ 、 $\operatorname{var}(g_T(\hat{b}))$ 以及 $\chi^2$ -统计量的表达式均可以大大化简。Hansen(1982)给出了它们的形式:
$$ \operatorname {v a r} \left(\hat {\boldsymbol {b}} _ {0}\right) = \frac {1}{T} \left(\boldsymbol {d} ^ {\prime} \boldsymbol {S} ^ {- 1} \boldsymbol {d}\right) ^ {- 1} \tag {2.136} $$
$$ \operatorname {v a r} \left(\boldsymbol {g} _ {T} \left(\hat {\boldsymbol {b}} _ {0}\right)\right) = \frac {1}{T} \left(\boldsymbol {S} - \boldsymbol {d} \left(\boldsymbol {d} ^ {\prime} \boldsymbol {S} ^ {- 1} \boldsymbol {d}\right) ^ {- 1} \boldsymbol {d} ^ {\prime}\right) \tag {2.137} $$
$$ T \boldsymbol {g} _ {T} \left(\hat {\boldsymbol {b}} _ {0}\right) ^ {\prime} \boldsymbol {S} ^ {- 1} \boldsymbol {g} _ {T} \left(\hat {\boldsymbol {b}} _ {0}\right) \sim \chi_ {n - p} ^ {2} \tag {2.138} $$
需要强调的是,上述简化后的表达式只有当 $a = d'S^{-1}$ 或 $W = S^{-1}$ 时才成立。如果 $a$ 或 $W$ 取别的值,则需使用2.7.3节中相应的公式。很多关于GMM的资料中默认 $W = S^{-1}$ ,并给出了这些统计量的简化形式,在使用时应搞清楚前提条件。
在实际估计中,一方面必须先有 $\hat{b}{0}$ 才能估计 $S$ ,并计算 $W = S^{-1}$ (或最优的 $a$ );但另一方面只有使用 $S^{-1}$ 才能得到有效估计 $\hat{b}{0}$ 。这似乎又是一个“鸡生蛋、蛋生鸡”的问题,在实际中往往采用两阶段法:(1)第一阶段取 $W = I$ 单位阵,估计出 $\hat{b}{0}$ ;(2)第二阶段使用上述 $\hat{b}{0}$ 估计 $S$ ,令 $W = S^{-1}$ 进行再一次估计得到新的 $\hat{b}_{0}$ 。当然,如果愿意,使用者也可以把上面的第二阶段迭代多次,得到最终的 $\hat{b}$ 。以上就完成了关于GMM的全部介绍。
2.7.5 不应成为黑箱
GMM如此强大,再加上现在各种编程语言(R、Stata等)都能方便地计算,这种便捷性似乎把人们都惯坏了。人们习惯于把问题描述成矩条件后一股脑塞进GMM并仅从统计的角度选择 $W = S^{-1}$ 得到有效估计。这么做十分危险。GMM的强大之处在于它不仅仅是一个计量经济学工具能用来做检验,更重要的是它足够灵活从而可以让人们研究真正关心的经济学或金融学问题。这种灵活性体现为可以从先验出发去定义最适合待研究问题的矩阵 $a$ (或 $W$ ),而不是无条件地选择 $W = S^{-1}$ 。
以2.7.2节中资产定价的例子来说,它有4个矩和2个参数,待检验的模型是CCAPM。从经济学业务出发可以选择如下的 $\mathbf{a}\mathbf{g}_T(\hat{\mathbf{b}}) = \mathbf{0}$
$$ \left[ \begin{array}{l l l l} 1 & 0 & 0 & 0 \ 0 & 1 & 1 & 1 \end{array} \right] \left[ \begin{array}{c} E _ {T} [ m (\hat {b} _ {1}, \hat {b} _ {2}) R _ {m} ^ {e} ] \ E _ {T} [ m (\hat {b} _ {1}, \hat {b} _ {2}) R _ {f} ^ {g} - 1 ] \ E _ {T} [ m (\hat {b} _ {1}, \hat {b} _ {2}) R _ {\mathrm {H M L}} ^ {e} ] \ E _ {T} [ m (\hat {b} _ {2}, \hat {b} _ {2}) R _ {\mathrm {S M B}} ^ {e} ] \end{array} \right] = \left[ \begin{array}{l} 0 \ 0 \end{array} \right] \tag {2.139} $$
在选择矩阵 $a$ 时,令市场超额收益和无风险资产完美满足两个样本矩条件,并由此进行CCAPM的参数估计,求出两个参数 $\hat{b}{1}$ 和 $\hat{b}{2}$ 。同时,使用另外两个资产的超额收益来检验CCAPM。由GMM框架可知,最终的 $\chi^{2}$ -统计量的自由度为2(因为一共4个资产,2个被用来估计参数),因此实际上的检验正是HML和SMB两个因子在CCAPM下的定价误差联合起来是否显著偏离零,从而判断接受或拒绝CCAPM。这个例子说明,从金融学原理出发选择合适的 $a$ 或 $W$ 能够回答最重要的问题。GMM的强大之处正在于此。
纯从统计学的角度来说,选择 $W = S^{-1}$ 确实能够得到有效估计量。但不要忘记,这个有效性是以给定的样本矩为前提的——如果换了或者添加了更多的矩,则参数的有效估计量也会发生变化。在金融市场中,有无数的资产,包括股票、债券、外汇、商品等,还有无数的投资组合,这些资产可以构成无数的矩。如果一味地追求有效性,则应把这成千上万资产的矩都塞进GMM。但显然,从业务的角度来说这么做毫无意义。在研究资产定价的时候,应该使用业务含义最重要的资产,并用它们去检验定价模型。毫无疑问,GMM非常强大,但在资产定价的研究中不应追求使用GMM进行一个仅在统计上正式但模型却缺乏含义的统计检验。GMM的强大在于它让人们从经济学和金融学原理出发,去找寻最合理的模型。不要让GMM成为计量经济学的黑箱。
2.8 研究方法建议
作为本书的核心内容,本章系统梳理了学术界过去近50年在实证资产定价研究中提出的最常见的方法。这些方法使得人们在检验多因子模型、检验因子及检验异象时有法可循。针对研究的具体问题,读者们可以灵活地选择相应的方法。经过几十年的发展及论文之间的相互影响和传承,学术界在研究异象、因子及多因子模型时,在使用的方法上形成了一些惯例,下面就对它们进行说明。
首先来说异象,研究中关注的重点是通过异象变量能否获得多因子模型无法解释的超额收益。通常的做法是首先通过排序法(2.1节)构造异象投资组合并检验其收益率。在这个过程中,往往先使用异象变量进行单变量排序。有时,为了控制市值的影响,也经常将异象变量和市值进行双重排序再次构建异象组合并检验。无论是单变量排序还是多重排序,排序法仅能检验异象的绝对收益。为了检验异象的超额收益,需依照2.4.1节介绍的方法,以某个多因子模型中的因子收益率为解释变量,以异象收益率为被解释变量,通过时序回归检验新异象能否获得多因子模型无法解释的显著超额收益。如果答案是肯定的,就认为发现了一个异象。
异象能获得超额收益意味着异象变量能够预测资产未来的收益率,而排序法难以控制其他变量对该异象变量对收益率的预测性的影响。为此,Fama-MacBeth回归常被用来检验当考虑了常见控制变量后,该异象变量是否仍然可以获得显著的超额收益(2.4.4节)。将异象变量和常见控制变量选为解释变量,将个股超额收益选为被解释变量,在每期通过截面回归得到异象收益率(异象变量的回归系数)序列。如果其均值显著不为零,则认为在控制了其他变量后,它依然能够预测资产的收益率,因而是一个异象。以上就是研究异象的常规做法。
再来说因子和多因子模型。由于这二者是密不可分的,因此放在一起讨论。关于它们的研究主要包括两个方面:(1)一个多因子模型中应该包含哪些因子,以及该模型能否解释资产预期收益的截面差异;(2)如何比较不同的多因子模型。对于前者,虽然学术界已经在期刊论文中发表了不下400个异象(算上没有发表的就更多了),但是在挑选定价因子这件事上还是相当克制的。首先,被选为定价因子并进入定价模型中通常需要有明确的金融学依据。例如Fama and French(2015)和Hou et al.(2015)提出盈利和投资因子均是受金融学原理的启发。而近年来,随着行为金融学的发展,也有不少学者从投资者非理性行为导致的错误定价角度提出了新的因子[1]。因此,有明确的金融学依据是成为定价因子的必要条件。由于因子是资产收益率的驱动力,因此它自身必须是被定价的,即能够获得显著超额收益。为此,可使用因子变量并通过排序法构造因子投资组合,并检验其收益率是否显著。此外,Fama-MacBeth回归(2.3节)也是检验因子收益率是否显著的常见方法。
一旦确定了多因子模型,学术界往往选择已经发表的异象作为测试资产[2],通过GRS检验(2.5.1节)来考察多因子模型能否解释它们的预期收益。此外,每当一个新的多因子模型被提出,它的提出者往往少不了用新模型和已有模型进行一番全方位的对比。这就是上面提到的第二方面。为比较不同的模型,可以使用同一组测试资产,或不同模型的因子互为测试资产来进行检验。对于前者,最常见的做法是GRS检验和 $\alpha$ 检验(2.5.4节)。它们的目标都是考察在哪个模型下,这组测试资产的超额收益更接近零。对于第二点,即两个模型的因子互为测试资产,常见的方法是GRS检验和均值—方差张成检验(2.5.2节)。
接下来的第3章~第5章就将使用上面介绍的方法,从因子、多因子模型和异象的角度,针对中国A股市场进行详尽的实证研究。
[1]本书第3章将会介绍被纳入多因子模型的常见因子;第4章将介绍学术界的七个主流多因子模型。
[2]Hou et al.(2020)花费了大量的精力复现了452个异象,几乎涵盖了所有曾被用来检验多因子模型的异象。