第6章 因子研究现状

因子投资 阅读 5 次

第6章

因子研究现状

本章分为8节,主要介绍学术界关于因子投资的最新研究进展和趋势。首先,6.1节解读一个近几年十分流行的概念,即“因子动物园”。它旨在讽刺学术界在发表偏差的影响下挖掘出的数百个因子,其中绝大部分仅仅是过拟合的产物。为此有很多学者站出来呼吁改变这种风气。接下来6.2节将话题从“因子动物园”转移到“因子大战”。它表达了这样一种担忧,即学者们提出不同的多因子模型,到底是为了看谁能在样本内解释更多的异象,还是谁更能加深人们对于股票市场的理解,后者才是正确和负责任的研究态度。

长久以来,投资者普遍认为因子代表了某种系统性风险。而行为金融学的发展为解释因子和异象提供了另一个重要角度,而它也越来越被人们接受。6.3节会解读行为金融学的研究框架以及它与异象和因子的关系。6.4节的标题是投资者情绪,它与6.3节密切相关。投资者情绪被认为是造成市场中大量错误定价的原因之一。它是行为金融学的重要研究对象,并且和诸多异象的表现有着紧密的关联。

在学术界和业界研究股票收益率的截面差异时,发现了数百个在样本内能够获得显著超额收益的异象。而这背后的原因可能是风险补偿或错误定价,也有可能仅仅是数据窥探导致的过拟合。6.5节会对如何检验这三种原因给出具体的说明。6.6节的讨论专注于因子在样本外的表现。人们研究因子是为了在投资实践中使用它们,而样本内能够获得显著收益的因子往往到了样本外马上“见光死”,6.6节讨论这背后的原因。

6.7节讨论因子投资和基本面分析的关系。在因子投资中,从财务数据中挖掘出基本面因子占了很大的比重。基本面信息加因子投资也逐渐形成了一个新的投资概念——基本面量化投资。但是,以因子投资为工具的基本面量化投资能否代替古老的基本面分析呢?6.7节会给出答案。

本章最后一节的标题为机器学习和因子投资。近年来,随着数据的激增和技术的革新,机器学习为金融领域带来了崭新的发展契机。然而,机器学习能在哪些维度上和因子投资相结合?机器学习中的非线性模型能否战胜传统的线性多因子模型呢?这是6.8节要探讨的内容。

6.1 p-hacking和“因子动物园”

不可否认,学术界在过去近三十年里对因子和异象的研究加深了人们对市场的理解。很多经典的异象和因子(本节统称为因子)更是长盛不衰。但是,正所谓物极必反,过度的挖掘也为实证资产定价和因子投资带来了负面的影响。为了竞逐在顶级期刊上发表文章,学者们过度追求因子在原假设下的超低 $p$ -值(即统计意义上“显著”)。由于有意或无意的数据窥探、使用不严谨的统计检验手段、错误解读 $p$ -值传达的意义,以及忽视因子背后的其他原因,使很多在功利心驱使下被挖掘出的因子仅仅是样本内过拟合的产物,在实际投资中根本站不住脚。为此,杜克大学教授、曾任美国金融协会主席的Campbell Harvey大声呼吁学术界应该后退一步,重新审视学术氛围和文化,真正做到以推动人们对金融经济学的正确认知为己任(Harvey 2017)。同样曾任美国金融协会主席的John Cochrane教授更是用“因子动物园”一词挖苦学术界对挖掘因子的狂热:

"We thought $100 \%$ of the cross- sectional variation in expected returns come from the CAPM, now we think that's about zero and a zoo of new factors describes the cross section."——John Cochrane 上面这段话如今已成为学术界家喻户晓的金句。它说的是,从前人们认为CAPM模型可以解释资产预期收益率的截面上的全部差异,但现在人们却摒弃了CAPM并挖出了众多的因子来解释预期收益率的差异。那么,真的有那么多能够解释资产收益率的因子吗?答案显然是否定的。既然如此,是什么让学术界前赴后继、轰轰烈烈地挖因子呢?学术界又是如何挖的呢?回答这些问题就是本节的目标。

6.1.1 何为 $p$ -值

在检验因子预期收益率时, $p$ -值(或与之相对应的 $t$ -值)是至关重要的,它告诉人们能在何种显著性水平下拒绝原假设。下面以 $p$ -值为对象展开讨论。在统计检验中,令原假设 $H_0$ 为随机变量 $X = 0$ ,而在样本数据中观测到 $X$ 的取值为 $x$ ,则 $p$ -值表示在原假设 $H_0$ 下随机变量 $X$ 取到比 $x$ 更极端的数值的条件概率(Fisher 1925)。根据所分析的具体问题,极端事件又分为右尾极端事件、左尾极端事件,以及双尾极端事件。不同情形下, $p$ -值的定义如下。

  • 右尾极端事件: $p$ -值=prob $(X \geq x | H_0)$ ;
  • 左尾极端事件: $p$ -值=prob $(X \leq x | H_0)$ ;
    • 双尾极端事件: $p\text{-值} = 2 \times \min \left{\operatorname{prob}\left(X \geq x \mid H_{0}\right), \operatorname{prob}\left(X \leq x \mid H_{0}\right)\right}$ 。

对于因子和异象来说,上述X代表它们的预期收益。如果p-值=0.05则意味着在原假设H0下观测到比x更极端的收益的条件概率为5%;当p-值=0.01则表示在原假设H0下观测到比x更极端的收益的条件概率仅有1%。p-值越小说明在原假设H0下观测到x的可能性越低,即观测到“因子预期收益为x”这个事件和原假设H0越不相符,因而越倾向于拒绝原假设。

一旦“因子的预期收益率为零”这个原假设被拒绝,人们便会顺水推舟的认为“因子的预期收益显著不为零”,且“ $p$ -值越低,因子预期收益率越显著”,从而追求更低的 $p$ -值。然而,足够低的 $p$ -值仅仅是因子预期收益率显著不为零的必要条件,而非充分条件。有意或者无意的数据窥探和数据操纵,以及因多重假设检验问题(见6.1.5节),使得低 $p$ -值并不能准确地传递出因子是否真的有效。

6.1.2 在追逐 $p$ -值的道路上狂奔

6.1.1节说明了 $p$ -值对因子研究的重要性:要想说明某个因子有效(即因子获得显著超额收益),最少得有低的 $p$ -值,否则免谈。在这种暗示下,学术界刮起了一股追求超低 $p$ -值之风,这背后的动机其实很容易理解。 $p$ -值越低意味着因子越显著;因子越显著则研究成果越吸引眼球;成果越吸引眼球越有可能得到更高的引用;高引用的文章越多,期刊的影响因子越高;期刊的影响因子越高,期刊的学术声望也越高。

为了提升期刊的声望,期刊编辑们都更倾向于接收低 $p$ -值因子的文章;为了在更高水平的期刊上发文,学者们更倾向挖掘低 $p$ -值的因子。在美国绝大多数学校里,学者如果能在金融领域顶级期刊发表一篇文章,就有可能得到终身教职。在功利心的驱使下,学术界对于超低 $p$ -值的追逐导致出现了一种发表偏差(publication bias),即学者们更愿意把研究时间和精力花到可以利用各种手段来找到低 $p$ -值的因子上,只愿意发表“最显著”的研究成果,而不愿意冒险来研究“无效的因子”。从推动学科发展的角度来看,“无效的因子”和“有效的因子”同样重要。如果能够确切地证明某个因子无法带来超额收益,那么它对因子投资实践仍然很有价值,因为人们可以放心地避开该因子。然而,在追求超低 $p$ -值之风下,学者不愿意进行这样的研究,因为顶级期刊上鲜有它们的容身之处。

Harvey et al.(2016)分析了自1963年到2012年间发表在金融领域顶级期刊上的316个因子的 $t$ -值( $p$ -值越低、 $t$ -值越高)的分布情况,该分布清晰地说明了学术界的发表偏差。比如, $t$ -值在2.00到2.57的文章数和 $t$ -值在2.57到3.14的文章数十分接近。要知道, $t$ -值=2.57对应的(双尾) $p$ -值约为0.01;而 $t$ -值=3.14对应的(双尾) $p$ -值则约为0.002。显然,理论上找到 $p$ -值=0.002的因子要比找到 $p$ -值=0.01的因子困难得多,但它们的文章数量却大致相同,这只能说明在顶级期刊发表文章时,学者们倾向于更低的 $p$ -值。

6.1.3 硬科学与软科学

看到这里,人们不禁要问怎么会有这么多(超)低 $p$ -值的因子?这可以从“硬科学”和“软科学”的角度来解释。法国著名的哲学家Auguste Comte将科学分成不同

的等级。像数学、物理这类的“硬科学”位于等级的上方,而社会学(包括目前所说的经济学或者哲学)这类“软科学”位于等级的下方。这里的“硬”和“软”并不是“好”与“坏”之分。“硬科学”中的成果往往不受研究者个人偏好的影响,而是从数据可以直接得到结论,且结论是高度可归纳的。比如数学上的四色问题,一旦证明成立那就是成立;又如物理上的引力波,一旦发现那就是说明它的存在,这些都是确切的结果。反观“软科学”的成果则容易受研究者个人偏好的影响,因为研究成果依赖于提出怎样的假设、如何处理数据,以及如何解释结果。这些都和研究者自身的声望、利益、个人偏好有关,因此结果往往是无法归纳的。金融学中的因子研究无疑是“软科学”,因子变量选取、因子投资组合的构建,以及因子收益率计算结果都会因人而异。

比如“使用过去50年的数据还是过去30年的数据来检验因子?”“使用美股还是其他国家的股票?”“每月再平衡还是每年再平衡因子投资组合?”“使用百分比收益率还是对数收益率计算量价类因子变量?”“是否剔除,以及如何剔除变量异常值?”“使用截面回归还是时间序列回归?”“如果某因子只对所有股票中的一部分有效,是否在发论文时仅使用这部分股票?”……在追逐超低 $p$ -值的背景下,学者们在面临这些选择做决定时心理会“非常微妙”,一切阻碍超低 $p$ -值诞生的数据都会被巧妙地避开。学术界把这种为了追求低 $p$ -值而在数据处理和分析时千方百计地进行数据操纵,直到发现足够显著结果的行为称为p-hacking。

在科学研究中,人们往往先观察事物是如何运作的,然后提出一个假设并通过数据来验证其是否成立,可谓“先有假设再有结果”。然而,p-hacking却可能让人们本末倒置,即“先有结果再有假设”。为了找到显著的因子,人们热衷于使用不同的变量,挑选不同的数据范围,直到找到显著的因子。这已经偏离了科学研究的本意,而仅是对照历史数据进行过拟合而已。所有这一切对超低 $p$ -值的追逐在一定程度上源于人们的一个误解:“ $p$ -值越低”等价于“因子的预期收益越显著”。然而,这种解读并不正确。

6.1.4 正确认识 $p$ -值的含义

人们对 $p$ -值的正确含义充满了误解。为了说明这一点,Harvey(2017)给出了一个假想的例子。假设我们猜想董事会规模小的公司比董事会规模大的公司能获得更高的收益,因此董事会规模可以作为变量构建因子。在这个例子中,原假设 $H_{0}$ 是董事会规模与超额收益无关;备择假设 $H_{1}$ 是董事会规模小的公司比规模大的公司能获得更高的收益。为了检验这个想法,构建该因子的投资组合(做多董事会规模小的公司,同时做空董事会规模大的公司)并检验该组合的平均收益率。假设 $p$ -值小于0.01(非常显著),问以下四种关于 $p$ -值的陈述中,哪些是正确的?

(1) 我们证明了原假设是错误的。
(2) 我们找到了原假设为真的概率, 即 $\operatorname{prob}\left(H_{0} \mid D\right)$ 。
(4)我们证明了董事会规模小的公司比董事会规模大的公司有更高的超额收益。

(5)我们可以推断出“董事会规模小的公司比董事会规模大的公司有更高的超额收益”为真的概率,即prob $(H_{1}|D)$ 。

怎么样?你认为上面四个陈述中有几个是正确的?答案是:它们都是错的。 $p$ -值代表原假设下观测到某(极端)事件的条件概率。以 $D$ 代表极端事件,则按照定义, $p$ -值 $\equiv \mathrm{prob}(D|H_0)$ 。从它的定义出发, $p$ -值不代表原假设或者备择假设是否为真。因此,陈述(1)和(3)都是错的。此外, $p$ -值是数据和假设之间关系的陈述,而非假设本身的陈述。换句话说, $p$ -值是原假设 $H_0$ 成立的条件下, $D$ 发生的条件概率,即 $\mathrm{prob}(D|H_0)$ ;它并不是 $\mathrm{prob}(H_0|D)$ ,即在观测到 $D$ 的前提下,原假设 $H_0$ 为真的条件概率。因此陈述(2)也是错的。同理, $p$ -值也并非在观测到 $D$ 的前提下,备择假设 $H_1$ 为真的条件概率,即 $\mathrm{prob}(H_1|D)$ 。因此陈述(4)也是错的。

$$ p - \text {值} \equiv \operatorname {p r o b} \left(D \mid H _ {0}\right) \neq \operatorname {p r o b} \left(H _ {0} \mid D\right) \tag {6.1} $$

这个例子传递的重要信息是 $p$ -值等于 $\operatorname{prob}(D | H_0)$ ,但人们常常把它和 $\operatorname{prob}(H_0 | D)$ 弄混淆。站在研究因子的角度,用户若知道 $\operatorname{prob}(H_0 | D)$ (即原假设 $H_0$ 在 $D$ 发生时为真的条件概率)当然更有意义,但 $p$ -值不等于它,把这两者混淆是严重的错误。如想正确理解 $p$ -值的含义,来看看美国统计协会关于 $p$ -值的六个准则(Wasserstein and Lazar 2016):

(1) $p$ -值表示数据和给定统计模型的不兼容程度。
(2) $p$ -值不表示所研究的原假设为真的概率; 同时, 它也不表示数据仅由随机因素产生的概率。
(3) 科学结论和商业或政策决策不应只根据 $p$ -值是否低于给定的阈值而确定。
(4) 全面的分析报告和完全的透明度是适当统计推断的必要前提(这意味着要规避phacking问题)。
(5) $p$ -值或统计上的重要性并不能衡量效用的大小或结果的重要性(在研究因子时,同样需要关注因子收益率的大小在经济上是否显著)。
(6) 关于模型或者假设是否有效, $p$ -值本身不能提供足够的证据。

至此,我们已经了解了 $p$ -值的含义,也明白了学术界为什么对挖掘超低 $p$ -值的因子如此狂热。接下来回答本节关注的另一个问题,即学术界到底是如何挖掘出这么多显著因子的?从理论上来说,找到显著因子本来就是小概率事件,但 Harvey et al.(2016)的统计揭示学术界挖出显著因子似乎轻而易举。这背后正是多重假设检验在作怪。

6.1.5 多重假设检验

如果人们直接从某种金融学或经济学规律出发,找出一个能够获得显著超额收益的因子,那么它很可能是真的显著。但如果尝试了500个因子,然后从中挑出

了一个 $p$ -值最低的( $t$ -值最高的),则不应草率地认为它一定是真正有效的因子。举个通俗易懂的例子,假如在大街上随机遇到一个人并让他猜20次扔硬币的结果,结果他全都猜对了,那么他很可能真的拥有“天生神力”;但是如果让三亿人同时玩猜20次扔硬币结果的游戏,20轮过后全对的还会有250人左右,这时我们会认为这些人仅仅是运气好。

隐藏在上述例子背后的数学逻辑是,如果只检验一个因子,它的 $t$ -值为2.0(对应 $p$ -值0.05),那么可以认为该因子在0.05的显著性水平下表现显著。然而,如果同时检验许多个因子(比如100个),然后发现第55个因子的 $t$ -值最高,且其 $t$ -值为2.0,在这种情况下不能说该因子在0.05的显著性水平下显著。这是因为仅仅靠运气,这100个因子(假设独立)中最显著的那个的 $t$ -值大于2.0的概率高达 $99\%$ 。

使用同样的数据同时检验多个原假设就是统计学中的多重假设检验(multiple hypothesis testing)。在因子投资中,使用同样的历史数据挖掘出成百上千个因子就是一种多重假设检验。在统计上,多重假设检验的存在会导致单个检验的显著性被高估。当排除了运气成分后,某个因子很可能显著性并不明显。如果仍然按照传统意义上的2.0作为t-值的阈值来评价因子是否显著,一定会有很多伪发现(false discoveries或者false rejections)。因此,考虑多重假设检验的核心就是控制伪发现发生的概率。这意味着,单一因子的t-值只有比传统意义上的2.0要高很多,那么它才在减去了伪发现概率之后仍然有可能是真实的。关于如何控制伪发现发生的概率,学术界提出了很多不同的方法。下面借助表6.1来解释它们。

表6.1 假设检验结果

H0被拒绝H0被接受总和
H0为真T0F1S0
H0为假F0T1S1
S-RR=F1+T1S

假如使用同样的数据挖掘出 $S$ 个因子,其中 $S_{0}$ 个在原假设下为真(true,即因子不能获得显著的收益率), $S_{1}$ 个为假(false)。根据事先选定的显著性水平(比如0.05),其中 $R$ 个原假设被拒绝了,包括 $T_{1}$ 个真实的显著因子(称为真发现,true discoveries),和 $F_{1}$ 个虚假的显著因子(称为伪发现,false discoveries)。使用 $F_{1}$ 和 $R$ 可以定义一些不同的统计量,而不同的多重假设检验算法是以控制不同的统计量为目标。这些统计量包括三大类,分别为族错误率(family-wise error rate, FWER),伪发现率(false discovery rate,FDR)和伪发现比例(false discovery proportion,FDP)。它们都是描述第一类错误(Type I error),即错误的拒绝原假设的统计量。

族错误率(FWER)的定义是出现至少一个伪发现的概率,即prob( $F_{1} \geq 1$ )。在给定的显著性水平 $[1] \alpha_{s}$ 下控制它可以表示为:

$$ \operatorname {p r o b} \left(F _ {1} \geq 1\right) \leq a _ {s} \quad (6. 2) $$

由式(6.2)不难看出,控制FWER对单个假设来说相当严格,因而会明显提升第二类错误(Type II error)[2]。针对FWER,常见的算法包括Bonferroni(1936)和

Holm(1979)方法,它们通过直接修正单一假设检验的 $p$ -值来降低其显著性。另外还有White(2000)的bootstrap reality check方法和Romano and Wolf(2005)的StepM方法等。由于控制FWER太过严苛,因此以它为控制对象不太适用于金融领域(Chordia et al.2020)。

伪发现率(FDR)的定义为 $\mathrm{FDR} \equiv E[F_1 / R]$ ,即 $F_1 / R$ 的期望。在给定的水平 $\delta$ 下控制它可以表达为:

$$ E \left[ F _ {1} / R \right] \leq \delta \tag {6.3} $$

从定义可知,控制FDR允许 $F_{1}$ 随 $R$ 增加,它控制的是伪发现的比例,这是一种相对温和的方法。这意味着,当以FDR代替FWER为控制目标时,会有更多的原假设被拒绝。这其中的代表算法有Benjamini and Hochberg(1995)和Benjamini and Yekutieli(2001)。这类算法对检验统计量之间的相关性不敏感,适应性更强。

最后,控制伪发现比例( $F_{1} / R$ )的目标是限制 $F_{1} / R$ 超过某给定阈值 $\gamma$ 的概率不高于显著性水平 $\alpha_{s}$ ,表示为:

$$ \operatorname {p r o b} \left(F _ {1} / R \geq \gamma\right) \leq \alpha_ {\mathrm {s}} \quad (6. 4) $$

从定义不难看出,它和FDR类似。常见的算法有Romano and Wolf(2007)和Romano et al.(2008)。以控制上述三种统计量为目标的算法在统计学中得到了广泛的应用。对于金融领域,一般认为以控制FDP和FDR为目标是更好的选择,因为FWER不适合金融领域。Farcomeni(2008)以及Romano et al.(2008)对不同算法进行了综述。近年来学术界越来越重视多重假设检验问题对因子显著性的影响,在这方面也诞生了很多优秀的研究成果。

Harvey et al.(2016)研究了学术界发表的316个因子,并以控制FDR为目标来应对多重检验假设的影响。他们研究发现只有在单一假设中原始t-值超过3.0(而非人们传统认为的0.05的显著性水平对应的2.0)的因子才是有效的。根据这一结果,Harvey et al.(2016)指出在上述因子中,伪发现比例为 $27\%$ 。不过该文也同时指出,3.0的阈值其实是非常保守的。类似的,Harvey and Liu(2015)利用同样的思路研究了如何排除多重假设检验对策略夏普比率的影响。一般的经验认为,策略在实盘中的夏普比率应该是其在回测期内夏普比率的 $50\%$ 。Harvey and Liu(2015)定量计算了不同夏普比率在实盘外的“打折程度”,发现了“打折程度”和夏普比率之间的非线性关系。

受Foster et al.(1997)和Fama and French(2010)的启发,Harvey and Liu(2018)提出了一个基于回归的框架来控制多重假设检验的影响。它通过正交化和自助法得到了仅靠运气能够得到的显著性的经验分布,从而得到运气造成的显著性水平的阈值。如果某个因子的显著性水平超过该阈值,则认为其在排除了运气之后依然显著,因此它是真正的因子,而非数据挖掘的产物[3]。该方法的优点是可以按顺序逐一挑出最显著的因子、第二显著的因子,以此类推,直到再没有显著因子。这么做的好处是可以评价每个新增加的因子在解释股票截面收益率时的增量贡献。该方法既可以被用于从大量候选因子中找到真正显著的因子,也可以被用于从一大堆基金经理或策略中找出真正能够战胜市场、获取超额收益的基金经理。

最后,Chordia et al.(2020)通过控制FDP为目标研究了如何修正时序回归得到的因子超额收益 $t$ -值以及Fama-MacBeth回归系数的 $t$ -值。在试图消除多重假设检验的影响时,除了选择控制伪发现概率的统计手段外,另一个必须回答的问题就是学术界到底一共研究了多少因子(称为研究的因子集)。他们认为Harvey et al.(2016)一文研究的因子仅仅是已经发表出来的(称为发表的因子集),而发表的因子集仅仅是研究的因子集的一个子集,因此基于这些因子分析多重假设检验对因子统计性的影响,实际上是低估了运气的成分,造成得到的3.0阈值有些保守。然而,学术界到底研究了多少其他因子是无从而知的。为此,Chordia et al.(2020)创造性使用模拟(simulation)方法推断出基于研究的因子集的统计特征如何消除多重假设检验的影响。该文指出,对于时序回归和Fama-MacBeth回归这两种常见检验手段,某个因子的 $t$ -值应至少为3.8或3.4才可能是真正有效的[4]。不出意外的话,这两个阈值均超过Harvey et al.(2016)一文建议的3.0。

6.1.6 先验的重要性

在发表偏差的驱使和多重假设检验的影响下,很多挖出来的因子都是样本内过拟合的产物。如何从成百上千个因子中找到真正有效的呢?这就不得不提先验的重要性。先验来自人们对股票市场的客观认知,来自从经济学和金融学的规律总结出来的规律。先验知识允许人们对每个潜在的因子赋予一个先验概率——比如我告诉你按照股票代码首字母选股能获得超额收益,你一定会对它嗤之以鼻,因为如此选股没有科学逻辑支撑,先验概率非常低。使用先验概率,再结合检验的 $p$ -值就能得到因子是否显著的后验概率,这也是贝叶斯思想的一种体现。

下面通过三个例子加深对先验的理解:(1)一位音乐家声称可以完美地区分莫扎特和海顿的乐谱,并连续成功地辨识了10张乐谱。(2)一个常年喝茶的老妇人声称可以判断出一杯奶茶里是先加奶还是先加茶,并连续成功地判断对了10杯。(3)一个酒馆老板号称酒精赐予他预测未来的神力,并连续猜对10次扔硬币的结果。在这三个例子中,如果原假设分别是音乐家无法辨识乐谱、老妇人不能识别茶和奶的加入顺序,以及酒馆老板不能预测扔硬币的结果,那么在原假设下,连续10次全部正确的结果的 $p$ -值是非常低的(远远低于0.001)。虽然这些结果均显著拒绝原假设,但它们带给人们的认知却截然不同,这时就需要借助先验的力量。对于第一个例子,先验知识告诉人们音乐家分辨乐谱理应易如反掌,因此先验信仰就是他能够成功,实验的结果只不过确认了这一点。在第二个例子中,人们则多少心存怀疑(先验),不相信老妇人能够成功,然而10次全对的结果让人们倾向于推翻自己的先验认知,即拒绝原假设,并认为她确实有这个能力。在第三个例子中,人们会认为这个人就是个大骗子(酒精怎么能够预测未来?),因此从心底完全不屑(先验)。在这种情况下,即便他猜对了10次,也不会推翻原假设(因为“酒精能够预测未来”这件事的先验概率太低了),而仅仅认为他是运气好罢了。从这三个例子能够看出先验在解读 $p$ -值时起到的作用,这就是贝叶斯思想的强大之处。

利用先验,Harvey(2017)将传统的 $p$ -值嵌入到贝叶斯框架中,提出了贝叶斯 $p$ -值的概念,它是一个后验概率。贝叶斯 $p$ -值与先验概率和贝叶斯因素有关,后者是在原假设下观测到因子收益率的似然性与在备择假设下观测到因子收益率的似然性之间的比值。由于在备择假设中效用的概率分布未知,因此贝叶斯因素的取值有一个范围,该范围的下限就称为最小贝叶斯因素 $\phi$ 。它代表在贝叶斯框架

下,人们拒绝原假设的倾向性,即 $\phi$ 越小,越倾向拒绝原假设。利用原始检验的 $p$ -值或 $t$ -值, $\phi$ 有以下两种计算方法:

$$ \varphi = - \exp (1) \times p - \text {值} \times \ln (p - \text {值}) \tag {6.5} $$

$$ \varphi = \exp - 1 \times t - \text {值} ^ {2} / 2 \tag {6.6} $$

利用式(6.5)或式(6.6)中的 $\varphi$ 和先验概率(待检验因子的先验概率需使用者自行估计),式(6.7)给出了后验贝叶斯 $p$ -值的计算方法:

$$ \text {贝 叶 斯} p \text {值} = \frac {\varphi \times \text {先 验 概 率}}{1 + \varphi \times \text {先 验 概 率}} \tag {6.7} $$

作为后验概率,贝叶斯 $p$ -值的强大之处在于它回答了人们真正关心的问题:在(极端)事件发生的前提下,原假设为真的条件概率是多少,即 $\mathrm{prob}(H_0|D)$ 。使用后验贝叶斯 $p$ -值,Harvey(2017)对学术界的一些知名因子进行了分析。在分析中,该文考虑了三类不同的先验情况:非常不可能的因子(假设先验概率仅为 $2\%$ ),可能的因子(假设先验概率为 $20\%$ ),以及非常可能的因子,即有金融学或经济学理论支撑的因子(假设先验概率为 $50\%$ )。

Head et al.(2009)研究的“聪明的股票代号因子”是第一类的典型例子。它的意思是有些股票代号比另一些听上去更令人愉悦、更让投资人喜欢,因此这些股票有超额收益。显然,这听上去并不是什么靠谱的因子。在贝叶斯框架下,当假设其先验概率为 $2\%$ 时,该因子的后验贝叶斯 $p$ -值高达0.588,因此无法在任何常见的显著性水平下拒绝原假设。值得一提的是,该因子的原始 $p$ -值非常低,仅有0.0079,暗示着该因子能够获得显著的超额收益,但贝叶斯框架逆转了这个错误的结论[5]。第二类因子的代表是Fama-French五因子模型中的市值和盈利因子。在Fama and French(2015)中,这两个因子都有超低 $p$ -值。然而,它们的后验贝叶斯 $p$ -值分别为0.053(盈利因子)和0.117(规模因子)。可见,盈利因子的后验 $p$ -值仍然较低(虽然比原始 $p$ -值高很多)。最后一类因子的代表是市场因子。它的后验贝叶斯 $p$ -值为0.035,依然在0.05的显著性水平下显著。

这三个例子说明了当人们有一个手段来回答正确的问题时(即prob $(H_0|D)$ ),便能够得到更加合理的结论。能够获得超额收益的因子不是不存在,但它们非常稀有,数量远远少于学术界挖出的上百个伪因子。需要说明的是,在实践中采用上述贝叶斯方法修正 $p$ -值也并非没有困难,比如它要求对先验概率进行估计。然而,这种重视先验的思想非常值得借鉴。它表明,在研究因子时,比起因子收益率在样本内的显著性,人们更应该关注因子背后是否有合理的解释。只有拥有合理的解释,该因子才可能是一个真实的因子,而非过拟合的产物。本书第6.5节将对因子背后的集中解释进行详细阐述。

在过去的二十年里,金融领域的许多学者都在追逐超低 $p$ -值的道路上狂奔。然而,这么做的结果是人们在科学的道路上渐行渐远。科学研究的目标是为了推动人们对该学科的理解。为了实现它,应该确保所有的发现(不管是有效因子还是无效因子)都是可以复现的、经得起检验和推敲的。在顶级期刊中,只有Journal of Finance要求被录用的文章提供计算机代码;没有任何一个期刊要求作者提供数据,造成p-hacking的行为根本无法被复现。可喜的是这个现象正在发生转变,成果能够被复现也逐渐成为学术界的主流。除此之外,学术界和顶级期

刊应该鼓励学者们尝试“高风险”的研究项目。“高风险”意味着学者需要费时费力费钱以收集和处理数据,且得到的结论不一定显著。然而,这样的研究成果才是最根本的,才是能推动金融学阔步向前的创造性工作。因子投资研究的前景深深地植根于学术界的研究和发表环境中。“因子动物园”的窘境也将会被改变。

[1]依照统计学数学符号惯例,显著性水平通常由希腊字母 $\alpha$ 代表。但由于本书中用 $\alpha$ 表示超额收益,因此此处使用符号 $\alpha_{s}$ 代表显著性水平,其中下标 $s$ 表示显著性(significance)一词之意。
[2]第二类错误是指在进行假设检验时,原假设 $H_0$ 为假,但却被错误的接受。
[3]公众号“川总写量化”的文章《出色不如走运(II)?》一文对该方法进行过详细介绍;《实证研究——使用正交化和自助法寻找显著因子》一文将该方法应用于A股进行了实证研究。
[4]公众号“川总写量化”的文章《出色不如走运(IV)?》对Chordia et al.(2020)进行了解读。
[5]需要说明的是,Head et al.(2009)仅通过实证分析指出使用聪明股票代号选股能获得超额收益,并对背后的原因进行了一些猜测,但该文没有倡导去使用它进行投资实践。

6.2 从“因子动物园”到“因子大战”

6.1节引出了“因子动物园”的概念,介绍了学术界在挖掘异象和因子时的现状、问题和解决之道。本节把目光放到介绍多因子模型的研究现状,并引出“因子大战”的概念。

从多因子模型的定义出发,一个优秀的多因子模型应该回答两个问题:(1)资产收益率背后的驱动有哪些(即模型中应该包含哪些因子);(2)每个驱动背后的原因(即因子的解释)。只有从回答这些问题出发,人们才能加深对多因子定价模型以及股票市场的理解。事实上,最早的Fama-French三因子模型也确实是朝着这个方向努力的。Fama and French(1996)从风险的角度将上述三因子模型中的规模(SMB)和价值(HML)因子与财务困境风险联系起来,猜想它们代表某种投资人需要对冲的系统性风险。

然而,自Fama-French三因子模型之后,学术界提出的其他多因子模型似乎与回答上述问题渐行渐远。一个多因子模型的提出,似乎并不再以回答这两个问题为己任,而是为了比拼哪一种模型能解释更多的异象。如今提出的新的多因子模型毫无疑问能比25年前提出的Fama-French三因子模型解释更多的异象,但这是否一定意味着新的模型就是更好的模型呢?它是否回答了上述两个问题?是否加深了人们对股票市场的理解?只有肯定地回答了这些问题——而非通过解释异象个数的多少——才能说明新模型的优势。本书作者把这种通过比较异象的解释能力来评判多因子模型高下的做法称为“多因子模型大战”,简称“因子大战”。需要特别强调的是,解释异象的能力毫无疑问是多因子模型的重要目标,但这不应成为研究和比较多因子模型的唯一目标。

谈到多因子模型比较的最新研究成果,Hou et al.(2019b)这篇题为Which factors?的文章不得不提。它系统比较了几大主流多因子模型在解释异象能力上的差异。除此之外,该文还从因子背后的逻辑上比较了Hou-Xue-Zhang四因子模型和Fama-French五因子模型中的投资因子,并对后者进行了“抨击”。为了使读者了解学术界近年来因子大战的“硝烟”,首先在6.2.1节说明上述两因子模型中的投资模型有何差异。之后的6.2.2节介绍Hou et al.(2020)提出的一个最新的五因子模型,为介绍因子大战进行铺垫。最后在6.2.3节阐述愈演愈烈的多因子模型之争。

6.2.1 形同意不同的投资因子

通过4.1.4节和4.1.5节两节的介绍可知,Fama-French五因子模型和Hou-Xue-Zhang四因子模型中均包含投资因子,且这两个因子的计算方法非常近似,都是以过去一年总资产的变化率为变量,使用排序法构建投资因子。虽然变量一致,但

背后的出发点截然不同:

  • Hou-Xue-Zhang四因子模型来自实体投资经济学理论。从其数学模型出发推导出股票的预期收益率和过去的历史投资成反比。基于上述逻辑,Hou et al.(2015)使用最近一个财年总资产变化率构建投资因子;
  • Fama-French五因子模型来自股息贴现模型。从其数学模型出发推导出股票的预期收益率和未来的预期投资成反比。Fama and French(2015)基于Fama and French(2006)的实证结果,使用历史投资作为未来预期投资的朴素估计。基于以上逻辑,Fama and French(2015)同样使用过去一个财年总资产变化率构建投资因子。

Hou et al.(2019b)一文通过理论和实证两方面质疑了Fama-French五因子模型中的投资因子:

(1)理论方面,股息贴现模型中的长期平均收益率和未来单期的预期收益率不同,后者才是多因子模型关注的重点。从定价理论出发,将股息贴现模型中的长期平均收益率替换为未来单期收益率可以得到如下关系:

$$ \frac {M _ {t}}{B _ {t}} = \frac {E \left[ \frac {Y _ {t + 1}}{B _ {t}} \right] + E \left[ \frac {d B _ {t + 1}}{B _ {t}} \left(\frac {M _ {t + 1}}{B _ {t + 1}} - 1\right) \right] + E \left[ \frac {M _ {t + 1}}{B _ {t + 1}} \right]}{1 + E [ r _ {t + 1} ]} \tag {6.8} $$

其中 $M_{t}$ 和 $B_{t}$ 分别为公司 $t$ 时刻的市值和账面价值, $Y_{t+1}$ 是 $t+1$ 期的净利润, $dB_{t+1}$ 是 $t+1$ 期的账面价值的变化, $r_{t+1}$ 是 $t+1$ 期的收益率。观察式(6.8),由于市净率 $M_{t+1} / B_{t+1}$ 通常大于1,因此当给定其他变量仅允许 $E[dB_{t+1} / B_t]$ 和 $E[r_{t+1}]$ 变化时,由式(6.8)可知更高的 $E[dB_{t+1} / B_t]$ 隐含更高的 $E[r_{t+1}]$ ,即预期账面价值变化率和预期收益率成正比。此外,利用Fama and French(2006)的结果使用总资产变化率替换账面价值变化率,就得到预期总资产变化率和预期收益率之间的正相关关系。基于上述论述,Hou et al.(2019b)认为当使用未来单期收益率时,从股息贴现模型能够推导出未来预期投资和预期收益率之间的正相关关系,而非Fama and French(2015)提出的负相关关系。

(2) 实证方面, Hou et al. (2019b) 的计算结果显示, 使用历史投资作为未来预期投资的朴素估计并不靠谱。

结合以上两点不难发现,Fama and French(2015)使用过去投资构建的投资因子其实是“负负得正”的结果,它阴差阳错地利用了实体投资经济学理论支持的过去投资和预期收益率之间的负相关;而非从股息贴现模型推导出的预期投资和预期收益率之间的负相关。这无疑撼动了Fama-French五因子模型中投资因子的根基,也质疑了该模型的学术地位。

客观地说,关于预期投资和预期收益率的关系,本书作者倾向认为Hou et al.(2019b)的解读比Fama and French(2015)的解读更合理。但上面这种因子竞赛还是让人感到不安。它似乎传递出一个信号:人们总能使用不同的金融学或经济学模型,推导出截然相反的结果。模型(6.8)与股息贴现模型(4.9)比较,其通过把长期平均收益率换成单期预期收益率而巧妙地移除了账面价值变化前面的负号,因此把“负相关”改成“正相关”。

从实证结果来看,虽然Hou-Xue-Zhang四因子模型和Fama-French五因子模型均使用历史总资产变化率作为构建投资因子的变量,但由于使用的排序法略有差异,前者中投资因子的因子溢价也完胜后者。从实体投资经济学理论出发,投资和收益率的负相关是在控制ROE之后的。因此,Hou-Xue-Zhang四因子模型在构建投资因子时利用市值、ROE和总资产变化率三个指标使用 $2 \times 3 \times 3$ 三重排序法,从而更好地反映了在控制ROE之后投资和收益率的关系。反观Fama-French五因子模型,它仅使用市值和总资产变化率进行 $2 \times 3$ 双重排序,没有考虑控制ROE的影响,因此效果不如Hou-Xue-Zhang四因子模型。

无论是从理论还是实证结果出发,人们总能讲出最适合数据的故事,但对着历史数据讲故事真的让人们离真相更进一步了吗?

6.2.2 $q^{5}$ 模型

Hou et al.(2020)在Hou-Xue-Zhang四因子模型的基础上,添加了一个新的预期投资增长因子,从而构建了全新的五因子模型,即Hou-Mo-Xue-Zhang五因子模型(他们将其称为 $q^{5}$ 模型)。Cochrane(1991)一文指出在控制住当期投资和预期盈利的条件下,预期投资增长率和预期收益率成正比,这就是Hou et al.(2020)加入预期投资增长因子的动机。

在数学上, $q^{5}$ 模型是Hou-Xue-Zhang四因子模型的直接延伸。回顾一下提出该四因子模型的Hou et al.(2015)一文。它使用了简单的二期(时刻0和1)模型公司决策模型引出投资和盈利因子[1]。由于它假设公司在时刻1不再投资,因此实际上是一个单期投资框架,不涉及未来投资增长。然而,Hou et al.(2020)一文把投资模型扩展到了多期,从而引入了预期投资增长。在多期投资模型中假设资产从t到t+1期的折旧率为δ(在Hou et al.(2015)中,资产从时刻0到时刻1折旧完,因此δ=1)。公司投资决策是每一期的投资 ${I_{it+s}}$ (s=0, 1, …)。在任何时点t,目标函数是最大化股东权益的现值。根据投资第一性原理可知从t到t+1期的边际投资成本应该等于边际效益折现到t,使用和4.1.5节相同的数学符号,t到t+1的投资收益满足:

$$ r _ {i t + 1} ^ {I} \equiv \frac {\prod_ {i t + 1} + (a / 2) \left(I _ {i t + 1} / A _ {i t + 1}\right) ^ {2} + (1 - \delta) [ 1 + a \left(I _ {i t + 1} / A _ {i t + 1}\right) ]}{1 + a \left(I _ {i t} / A _ {i t}\right)} \tag {6.9} $$

在一定的假设下,Hou et al.(2020)指出股票收益率等于投资收益率。由此,从式(6.9)可以找到股票收益率和投资以及盈利的关系。式(6.9)中第一项近似对应分红,第二项平方项与边际调整费用有关(由于是高阶小量故忽略),第三项近似对应预期投资增长。具体来说,第三项是 $I_{it} / A_{it}$ 的增长率,即投资与总资产之比的预期增长。

从多期模型出发,股票收益率除了与盈利以及历史投资相关,还和预期投资增长正相关。因此,Hou et al.(2020)将预期投资增长作为第五个因子补充到Hou-Xue-Zhang四因子模型中,得到了 $q^{5}$ 模型。在实际构造预期投资增长因子时,用历史数据构建了一个截面回归预测模型,然后利用最新的财务数据预测下期的投资与总资产之比的增长率,并以此作为构建因子的变量。从数学复杂度上来

说,上述构造因子的复杂度较高,可能存在模型设定以及参数估计误差等潜在问题。由于本节仅是为6.2.3节的因子大战起铺垫作用,因此不再对 $q^{5}$ 模型做更多的说明,感兴趣的读者请参考Hou et al.(2020)。

6.2.3 因子大战

正如6.2节开头就指出,近年来最新提出的多因子模型往往都以谁能解释的异象更多为评判依据。本节通过按照这些模型发表的时间先后顺序对它们进行梳理,并以此阐释因子大战之争。

当Hou et al.(2015)提出Hou-Xue-Zhang四因子模型时,他们使用了80个异象作为测试资产,比较了新模型、Fama-French三因子模型以及Carhart四因子模型(由于Fama-French五因子模型同期发表,因此没有进行比较)。结论是新的四因子模型战胜了它们。2017年,Stambaugh and Yuan(2017)提出了Stambaugh-Yuan四因子模型。同样,新的模型也少不了和旧的做一番对比,而结论也不言自明。在2018年美国金融协会年会上,Daniel et al.(2018)首次提出Daniel-Hirshleifer-Sun三因子模型,该模型后来正式见刊,见Daniel et al.(2020)。在年会的报告中,Daniel et al.(2018)将该模型和主流模型进行了对比,除了考察因子模型解释异象及其他因子的能力外,也特别从模型复杂度角度进行了对比。在该篇报告的讨论环节,该模型曾被质疑无法解释规模因子,且没有将规模因子加入模型之内。不过笔者倒认为这反而是该模型的一个优点。该模型从行为金融学的理论出发提出了长、短两个时间尺度的行为因子。我们都知道,从行为金融学的理论是无法推演出规模因子的。因此,该模型不包含规模因子无可厚非;如果生硬地将其加入,反而更有数据窥探之嫌。只有当人们仅把目光局限于一个模型能否解释更多的异象,才会得出应该加入规模因子的结论。

自2015年Hou-Xue-Zhang四因子模型发表后,由于其在理论上的创新和实证方面的优秀表现,获得了学术界的广泛关注。但是,随着诸如Stambaugh and Yuan(2017)和Daniel et al.(2020)等新的模型发表,上述四因子模型又被比了下去。在这种背景之下, $q^{5}$ 模型横空出世。Hou et al.(2019b)的实证结果显示, $q^{5}$ 模型能够解释最多的异象,因而战胜了其他所有的多因子模型。从现有的实证结果来看,出自实体投资经济学理论的 $q^{5}$ 五因子模型是现阶段“最强”的实证资产定价模型。当然,在不远的将来,学术界一定会搞出新的多因子模型来打败它。近年来,随着“因子动物园”的概念越来越深入人心,学术界对挖异象和因子的热潮有所减退,转而把研究重点放到了多因子模型效果的比拼上,形成了愈演愈烈的因子大战。然而,如果仅以能否解释更多异象,或者因子模型的因子之间能否相互解释为评判的标准,非要在众多模型中拼个“你死我活”、一分高下,到底又有多大意义?如果仅以“打赢”因子大战,而非推动人们对股票收益率背后的驱动力的理解为目标,使用不同的金融学或经济学理论提出一个“更好用”的多因子模型,这又有多大意义?

在因子大战烽鼓不息之时,Fama and French(2018)这篇题为Choosing factors的文章却保持了“冷静”。该文拓展了GRS检验,提出使用模型所包含因子能够构成的最大夏普比率平方来比较不同的模型。这篇来自Eugene Fama和Kenneth French的文章虽然也是比较不同的模型,但它没有和别人的模型比,而是“自己和自己比”。该文比较了CAPM、Fama-French三因子模型、Fama-French五因子模型,以

及一个六因子模型(在Fama-French五因子模型的基础上加入了动量因子)。在这篇论文中,二位多因子模型的开创者表达了对因子大战的担忧。

Fama and French(2018)认为,虽然CAPM以及基于消费的CCAPM模型被实证数据拒绝了,但是这些理论模型在收益和风险之间建立了有效的联系。另外,实证资产定价中的各种多因子模型则更多地是来自对历史收益率数据中某种模式的挖掘。为了防止多因子模型变成一场纯粹的数据挖掘游戏,模型背后必须有足够的理论支撑。一旦缺乏理论,那么多因子模型就会退化成人们对着历史数据中的成百上千个因子,以提升事后有效前沿上切点组合的夏普比率为目标的数据挖掘。对于一个因子模型来说,它是为了解释股票收益率如何共同运动,因此因子必须和个股的协方差矩阵密切相关(Pukthuanthong et al.2019)。仅以谁解释的异象更多为依据来比较不同的模型,恐怕和多因子模型的出发点有一定差距,如此的因子大战显然意义也就十分有限。正因为如此,Fama and French(2018)呼吁高质量和有意义的因子模型比较。然而,实现这一切需要人们对市场更深的理解。这也注定其是学术界未来研究的重点之一。

[1]具体解读见本书4.1.5节。

6.3 用行为金融学解释异象和因子

行为金融学的发展已经走过了半个世纪。与传统金融学不同,行为金融学认为投资者和交易者是有限理性的,他们的行为导致资产的价格偏离其内在价值,即出现错误定价。行为金融学研究的就是错误定价出现的原因,以及投资者的非理性行为和资产收益率之间的关系。除此之外,越来越多的研究发现,投资者的各种行为偏差也驱动了股票收益率的共同运动,进而产生了各种异象乃至基于行为金融学的定价因子[1]。在行为金融学出现之前,人们普遍认为因子代表了某种系统性风险。如今,随着行为金融学越来越被人们熟悉和接受,学术界的另一种观点是因子捕捉了错误定价的共同来源,例如全市场范围内的投资者情绪(Hirshleifer and Jiang 2010,Kozak et al.2018)。本节就来介绍如何从行为金融学的角度解释异象和因子。

关于行为金融学的发展历程,Sewell(2007)按时间顺序梳理了该领域内最重要的研究成果,这是一篇很好的文献综述。除此之外,Barberis and Thaler(2003)、Hirshleifer(2015)以及Barberis(2018)从知识体系的角度对这一学科所包含的内容进行了总结。行为金融学背后的两大支柱是套利限制(limits to arbitrage)和心理学,而心理学中又分为预期偏差、风险偏好偏差,以及认知限制三部分。每一部分下面又有各自的理论和内容,构成了行为金融学的全貌。图6.1展示了行为金融学的知识框架。

传统金融学中的两大假设为人的理性预期以及依照预期效用最大化来进行决策。前者意味着人们能够迅速处理全部新息并使用贝叶斯理论更新先验,得到纯理性的后验信仰;后者则假设人们在完全理性下以最大化预期效用为目标来做决策。从这两大假设中可以引申出三个要素:(1)理性预期;(2)及时处理全部信息;(3)完全理性的风险偏好。行为金融学则对上述三个要素逐一提出了挑战。对于理性预期,行为金融学认为人们的预期并非完全理性,会出现诸如过度自信、锚定效应等偏差;对于及时处理信息,认知学研究表明人的大脑对信息的处理能力是有限的,存在认知限制、无法对全部信息进行及时处理;对于理性风险偏好,行为金融学指出人在不确定性下做决策时也难以做到完全理性,存在风险偏好偏差,而前景理论以及模糊厌恶比预期效用理论能够更好地描述人如何在不确定下做决策。行为金融学与传统金融学的对比如图6.2所示。


图6.1 行为金融学的知识框架


图6.2 行为金融学与传统金融学的对比

接下来的6.3.1节到6.3.4节将分别解读上述框架中的各个部分,6.3.5节介绍能被行为金融学解释的异象,6.3.6节介绍行为有效市场的概念。

6.3.1 套利限制

根据传统金融理论,市场应该满足有效市场假说(Efficient Markets Hypothesis,简称EMH),而EMH的两个核心假设是“价格反映全部信息并迅速调整到位”以及“所有投资者都是理性的”。显然,这两个假设均被现实无情地打脸。行为金融学为解释由于人的非理性行为而造成市场中各种价格相对价值的偏离提供了新的思路。在实际市场中,信息在不同投资者之间的传递速度是不同的。由于投资的时间尺度不同,不同投资者关注的信息也有所差异,这使得人们无法对同样的信息做出一致的反应。此外,人们的决策行为受非理性支配,它源自人类大脑中根深蒂固的认知偏差。这样的例子不胜枚举,以下这个例子来自Robert Shiller教授的著作Irrational Exuberance(Shiller 2009,中文名为《非理性繁

荣》),就很好地说明了这两个核心假设。

1995年1月17日凌晨5点46分(日本标准时间),日本神户发生了里氏7.3级地震(阪神大地震)。这是自1923年以来在日本城市中发生的最严重的一次地震。地震造成6434人丧生以及约1000亿美元的直接经济损失。这个纯外来的因素对日本乃至世界的股市有着怎样的影响呢?在地震发生的当日,东京股市仅仅轻微下跌,直到一个星期后,市场才出现对大地震的反应。1995年1月23日,日经指数下跌了 $5.6\%$ ;在震后的10天内,日经指数损失了 $8\%$ 。在这10天内,投资者在想什么无从而知,但这无疑说明了即便如阪神大地震这样的消息,它对市场价格的影响也是需要时间的。更令人感到困惑的是阪神大地震对国外股市的影响。在1月23日日经指数大跌 $5.6\%$ 的当天,伦敦FTSE100指数下跌 $1.4\%$ ,巴黎CAC40指数下跌 $2.2\%$ ,德国DAX指数跌 $1.8\%$ [2],而巴西和阿根廷的股市都下跌了 $3\%$ 左右。由于这些国家并未遭受地震,因此各种价格行为不可能均来自投资者的理性行为。

观察到市场中的非理性行为,Shiller(1984)[3]提出了噪声交易者(noise traders)模型,认为市场由理性投资者和噪声交易者构成。在一次影响深远的美国金融学会主席演讲中,时任协会主席Fischer Black对噪声交易者做出了如下定义(Black 1986):“噪声交易是针对信息噪声的交易,这时投资者以为其拥有了新的信息,但事实上这一信息只是假象。从客观的角度来看,噪声交易者不交易是更好的选择。但即使如此,他们仍会针对信息噪声进行交易,这可能因为他们误将噪声当成了真正有用的信息,也可能因为他们只是喜欢交易。”[4]

由于噪声交易者的存在,价格往往偏离资产的内在价值,即出现错误定价。在一个没有摩擦的市场中,每当价格偏离价值时,理性投资者(也被称为 arbitrageurs,即套利者)应该迅速利用这个机会进行交易,赚取无风险收益并同时修正价格。然而,行为金融学指出,上述假设是不成立的,而这背后的原因正是套利限制。理性投资者在想要利用错误定价赚取收益时要面对以下三个风险:基本面风险、噪声交易者风险以及实施成本。这些风险使得理性投资者无法做到充分套利,使得价格相对价值的偏离得以持续。

1.基本面风险

假设某股票的价格因噪声投资者的抛售而下跌,大幅低于其内在价值,如果套利者想买入它获得无风险收益,就必须要防范该股票的基本面风险。为此,套利者需要同时做空一个和该股票基本面相同的股票。然而,能够完美对冲基本面风险的标的是不存在的,这就使得套利者在买入该股票时或多或少地暴露在它的基本面风险之中,一旦发生基本面负面冲击,就会造成该股票的继续下跌,给套利者带来亏损。

2. 噪声交易者风险

噪声交易者的非理性行为会造成价格在短期内持续偏离价值,无法在套利者的投资期限内回归(De Long et al.1990,Shleifer and Vishny 1997)。这个风险会给套利者带来职业风险:市场上的资金委托给专业管理人,而绝大多数资金都是短视的业绩追逐者。这些资金不关心、也不知道套利者背后的交易逻辑,而仅是根据净值曲线的短期走势评估管理人的水平。当噪声交易者的非理性加大了错误定价时,由于套利策略的持续亏损,管理人将面临巨大的资金赎回压力,这将迫使他们短期内卖掉手中的头寸,无法等待价格的回归。短期业绩惨淡造成资金被赎

回正是管理人面对的职业风险,这是噪声交易者风险的直接结果。

3. 实施成本

实施成本具体包括两部分:第一部分是为了建立套利头寸需要付出的成本,包括手续费、交易价差、价格冲击以及做空需要付出的费用等。在有些市场,做空难以实现,这进一步加大了实施套利的风险;第二部分是为了寻找错误定价所付出的成本,由于内在价值难以确定,因此判断价格是否等于内在价值本身就是非常困难的。

在行为金融学发展之初,传统金融学对其最大的质疑是如果非理性行为造成了错误定价,那么它也是转瞬即逝的,因为理性投资者必然会对它进行套利,在获得收益的同时纠正错误定价。起初,上述批评确实阻碍了行为金融学的发展,但这个障碍在20世纪90年代随着套利限制的提出而被打破。

6.3.2 预期中的偏差

如果说有限套利使得价格无法回归价值是“果”,那么交易者的各种非理性行为造成的价格偏离价值正是“因”。行为金融学中的第二个支柱正是借助心理学的研究来分析人们的各种系统性认知偏差(cognitive biases)[5]的,它们影响了人们的预期以及做风险决策时的偏好。较传统经济学中的理性预期而言,本节介绍的内容属于预期中的偏差;6.3.3节介绍的内容较传统经济学中的期望效用理论而言,属于风险偏好中的偏差。正是传统经济学理论眼中的这些偏差构成了一个个鲜活而真实的投资者。下面首先来介绍预期中的偏差。

1. 过度自信

过度自信是一种根深蒂固的偏见,主要体现在两方面:(1)人们对自己判断的自信程度总是高于该判断的准确性;(2)人们总认为自己比别人更优秀,或自己的判断比别人的判断更准确。对于第一方面,在一项研究中,被试者被要求估计某地区加油站的数量,并给出 $90\%$ 的置信区间。实际结果显示,加油站个数落在这些区间内的频率只有 $50\%$ 左右,远远低于 $90\%$ ,说明被试者给出的置信区间太窄,也反映了他们对自己的估计准确程度过于自信。对于第二方面,在一项对600名基金经理的调研中,有 $74\%$ 的人认为自己比别的基金经理优秀。如果不存在第二方面问题,则这个比例应该接近 $50\%$ 。

过度自信在很大程度上可以解释市场上每天庞大的交易量。假设两个投资者对于某个资产持有相同的先验信念。当新息出现后,由于他们对新息的处理方式不同,以及过度自信偏误,他们会认为自己对该资产未来的看法更加正确,这就导致了二者之间的意见不统一,从而带来交易的契机。Eyster et al.(2019)以过度自信为出发点构建了数学模型,将超高的交易量和过度自信联系起来。如果过度自信是造成超高交易量背后的原因之一,那么很自然的一个推论就是:越过度自信的人越倾向于去交易。Grinblatt and Keloharju(2009)的研究证实了上述猜想。

2. 乐观主义

乐观主义可能是人们与生俱来的一种本能。在2008年2月,有 $91\%$ 的分析师预

测市场会有牛市,应该持股。乐观又常常被控制幻觉所放大:人们总觉得结果是可控的,可以按预期发展,而一些偶然的好结果也加深了这种幻觉。比如在一个扔硬币的游戏中,如果一个人连续几次猜对了硬币的结果,他就会觉得他是“天选之人”,可以控制并继续正确地预测结果。然而当样本数量非常有限的时候,连续的盈利或亏损均有可能出现,这在统计上并不意味着什么显著的情况。

自利偏差也容易产生乐观主义。自利偏差是指人们的决策往往倾向于有利于自己的利益。审计师的行为就是这么一个例子。在一项测试中,5个有争议和错误的会计报告被随机分配给139位审计师,每个报告都有明显的错误。这个测试中最有意思的部分是,这些审计师中有些被要求从这些会计报告涉及的公司的立场来评判这些报告,而另一些则要求从想投资这些公司的第三方投资人的立场来评判这些报告。结果,不说你也可以猜到,在认为这些报告没有问题的审计师中,从公司立场出发的人要比从第三方投资人立场出发的多 $31\%$ 。

3.代表性启发法

Tversky and Kahneman(1974)的研究发现,当人们试图判断数据A是否来自模型B,或者样本A是否属于类别B的时候,往往使用代表性启发法(representativeness heuristic),即考察A和B的相似程度。这种做法可能造成一些严重的偏误。第一个偏误是忽视结果的先验概率。举个例子,通过下列对某男子的描述来判断他的职业:“他非常害羞、虽然乐于助人但却不喜欢与人打交道;他是一个温顺的人,执着于事物的有序性并对细节有极致追求。”请问他的职业是农民、销售、还是图书馆管理员?人们可以使用贝叶斯定理来判断该男子的职业:

$$ \mathbf {p r o b} (\text {职 业} | \text {描 述}) = {\frac {\mathbf {p r o b} (\text {描 述} | \text {职 业}) \mathbf {p r o b} (\text {职 业})}{\mathbf {p r o b} (\text {描 述})}} \tag {6.10} $$

在这个过程中,忽略先验概率偏误指的是人们过度关注上述描述和职业之间的相似性,即上式中的prob(描述|职业),而忽视了某个职业出现的先验概率。在这个例子中,关于该男子的描述非常符合人们印象中图书管理员的特点。这将导致人们错误地认为他的职业是图书管理员。在现实世界中,农民比图书管理员要多很多,因此先验概率大得多,所以该男子其实更有可能是一个农民。

代表性启发法造成的第二个问题是人们对样本大小不敏感。在新闻报道中常有这样的标题:《大数据告诉你××月大盘怎么走》《大数据告诉你××节后是涨是跌》。点开一看,所谓的大数据就是一共十来个样本点。Tversky and Kahneman(1971)称这个问题为小数定律(law of small numbers)信仰,并指出人们往往相信仅仅有限个样本点就能反映出未知模型的全部特征。但统计学知识指出,当样本点非常少的时候,无法可靠地计算出变量的变化范围,因此这个错误也被称作小数定律偏误。

代表性启发法和小数定律偏误可以导致(错误的)外推信念(extrapolative beliefs)。外推信念指的是当人们对未来做预测的时候,其预测值通常和当前数据正相关。在投资中,外推包括收益率外推和基本面外推。对于前者,当人们预测股票未来的收益率时,总偏好给近期的收益率更高的且大于零的权重。如果最近股价涨得好,人们倾向认为它未来还会涨得更高;如果最近股价跌得多,人们倾向认为它在未来会继续跌。对于后者,基本面外推指的是人们认为公司未来现金流变化率和近期现金流变化率正相关。如果近期现金流增长,人们会认为其盈利

在未来会按之前的增速继续增长,从而买入该股票、造成价格上升。一旦未来现金流的增长率不符合外推的预期时,就会非常失望以至于开始抛售资产,造成其价格下跌。

4. 保守主义

人们通常都有保守主义,即一旦观点形成,就拒绝接受信息;如果必须改变,那也是非常缓慢的。保守主义的原因是沉没成本。因为当一个人已经花费了很多努力(包括财力、物力和精力)才得到当前的结论时,他便不愿意轻易推翻它,哪怕它是错误的。

在一项研究中,被试者被要求就下面这个场景回答问题。某飞机公司决定投入1000万美元制造一架隐形飞机。在项目进行到 $90\%$ 的时候得知另一家公司已经造出了隐形效果更好、成本更低的飞机。在这时,该公司是否应该把最后 $10\%$ 的预算,即100万美元,继续花费在该项目上?在面对这个问题时, $80\%$ 的被试者认为应该。在另外一个场景中,问题的描述变成:该公司还有剩余100万美元的研究经费,公司一名员工提议用它研究隐形飞机,但同时得知另外一个公司已经造出了隐形效果更好、成本更低的飞机,这时是否应该把这100万美元花在这个项目上?面对这个问题, $80\%$ 的被试者认为不应该。这两个场景的对比凸显了沉没成本在决策时对人的干扰。面对错误的决策,考虑沉没成本、当变不变只会让人们错上加错。在保守主义这种偏差下,投资经理经常拒绝推翻之前的投资决策,哪怕市场的运行方向证明其原方案是完全错误的。

5. 确认偏误

确认偏误,也被称为证实性偏差,指的是人们选择性地回忆、搜集有利细节,同时忽略不利或矛盾的资讯,以支持已有想法的片面诠释。在一个游戏中有四张卡片,上面分别为字母A、Q,数字4、7。被试者被告知“每一个元音字母卡片的背面都是一个偶数”并允许通过翻动两张卡片来检验该陈述是否为真。在这时,大多数人会选择A和4,因为它们是和上述陈述相符的卡片,但是确认性的证据并不能证明任何事。事实上,题目中并没有说偶数的背面是元音,因此翻动卡片4并不说明任何问题。正确的答案是翻动A和7,这样可以提供有价值的否定依据:如果7的背面是元音就可以确定“元音字母卡片的背面都是一个偶数”这个陈述是虚假的。

就像上面的卡片例子一样,投资者在做投资决定时倾向于收集确认证据,而不是评估所有可用的信息。在分析公司基本面时,分析员有时很早就提出了结论,之后便陷入了确认偏误,努力寻找所有能够证明其观点成立的论据和数据,忽视那些使之结论不成立的数据。类似的,当处于亏损的交易之中时,交易者有时会拒绝接受事实,而是如饥似渴地寻找所有可能支持自己交易的证据,从而迷失自我[6]。

6.锚定效应

锚定指的是个人在做决定时过度依赖其被提供的初始信息(称为“锚”),哪怕该信息和所做决策毫无关联。锚定效应是指在生活和投资中经常出现的一种认知偏差。Tversky and Kahneman(1974)对此进行了大量的研究。在一个实验中,两组参与者分别猜测美国人口中非洲裔的百分比。在预测之前,首先在每组参与

者面前进行一次幸运大转盘,转盘的结果为0到100之间的一个随机数字。大转盘的结果和非洲裔的百分比毫无关系,按理说应该对预测结果没有影响,然而玄妙的事情发生了。第一组参与者得到的转盘结果为10,他们的猜测结果为 $25\%$ ;第二组参与者得到的转盘结果为65,他们的猜测结果高达 $45\%$ 。显然,不少参与者将大转盘的结果作为了“锚”。

在另一个类似的研究中,600名基金经理被要求写下他们手机号码的后四位,并同时预测伦敦有多少个医生。在手机后四位大于7000的那些投资经理中,大部分预测伦敦有8000名医生;而在手机后四位小于3000的投资经理中,大部分猜测伦敦有4000名医生。我们都知道,电话号码后四位和医生个数没有什么关系,但基金经理们都用自己的手机号后4位作为了判断的基准。在投资中,锚定效应使得人们过分依赖某个历史数据而忽视最新的变化,从而无法做出最优的决策。

锚定效应对于预测股票市场整体走势也有帮助。Li and Yu(2012)以道琼斯工业指数为对象,指出投资者往往使用过去52周高点以及历史高点两个数值为“锚”。他们发现,指数当前的数值和这两个锚定值之间的距离能够分别反映出投资者的反应不足和反应过度。如果当前价格和过去52周高点离得越近,则说明投资者对于个股基本面的好消息的反应越不足;如果当前价格和历史高点离得越远,则说明投资者对于个股基本面的坏消息的反应越过度。Li and Yu(2012)通过把上述两个效应叠加,有效地预测了道琼斯工业指数的整体走势。

7. 可得性启发法

可得性启发法是一种心理捷径,它指的是当人们评估问题、概念、方法或决策时,往往依赖于脑海中最容易想起来的那些示例。如当人们被询问英文中是以字母r开头的单词多还是r在第三个位置上的单词多时,会马上在大脑中搜索这满足这两种模式的单词。以r开头的比如return;r在第三位的比如car。对该问题的回答会基于哪种情况下想起的单词更多。由于人们轻而易举就能想起大把以r开头的单词,比如rat、road、read、result等,而想起r在第三位的单词却要费劲得多。因此会错误地认为以r开头的单词要多于r在第三位的单词,而事实恰恰相反(Tversky and Kahneman 1973)。

可得性启发法背后的逻辑是,如果人们能够很容易想起某个示例,那么它一定是重要的。在这种认知偏差下,人们在投资中往往错误地被近期发生的事情所左右。不成熟的交易者会过分看重最近交易的结果,并让这些交易来支配他们未来的决定。在亏损后,交易者往往急于回本;在盈利后,交易者可能会信心爆棚。这两种状态都容易让人在随后的交易中变得更加草率。

Barber and Odean(2008)的研究发现,投资者在选择股票时倾向于考虑那些最近引起他们注意的股票,诸如近期新闻中集中报道的股票、交易量异常大的股票,以及单日内回报极高的股票。毫无疑问,这些都会给投资者留有非常深刻的印象,从而导致他们出现可得性启发法偏差。同样的问题也出现在分析师中间。Lee et al.(2008)发现分析师倾向于使用最近的经验来判断事件的可能性。当经济扩张时,分析师对公司每股收益长期增长的预测往往相对乐观;而当经济收缩时他们则相对悲观。这个现象说明分析师在做出长期预测时夸大了经济当前状态的影响。

6.3.3 风险偏好中的偏差

因为资产的收益充满着不确定性,所以研究人们在风险下的决策偏好至关重要。在行为金融学框架中,理解人们的风险偏好偏差的两大关键要素是前景理论和模糊厌恶。

1.前景理论

前景理论(Prospect Theory)由心理学家Daniel Kahneman和Amos Tversky提出(Kahneman and Tversky 1979, Tversky and Kahneman 1992)[7],它是一个描述人们如何在不确定下做决策的分析框架。具体来说,前景理论研究的问题是,当面对多个选项时,人们如何评估不同的选项并选出他认为最优的选项。在这个描述中,“选项”可以是购买不同的股票,或者参加不同的博弈。而体现不确定性的是,每个选项都有 $m \geq 1$ 种结果,其中每个结果都有一定的实现概率[8],人们需要依据每个选项可能出现的结果来计算该选项的价值,并选出价值最高的。

在最初提出前景理论的论文Kahneman and Tversky(1979)中,两位作者假设每个选项最多有两个非零结果。令 $x$ 和 $y$ 代表某选项的两个非零结果, $p$ 和 $q$ 分别代表它们发生的概率,则该选项在数学上可以描述为:

$$ (x, p; y, q) \tag {6.11} $$

上述数学符号的意思是“以概率 $p$ 获得结果 $x$ , 以概率 $q$ 获得结果 $y$ , 且 $x$ 和 $y$ 满足 $x \leq 0 \leq y$ 或 $y \leq 0 \leq x$ 。根据前景理论, 人们赋予 $(x, p; y, q)$ 所代表的选项价值为:

$$ v (x) \pi (p) + v (y) \pi (q) \tag {6.12} $$

其中 $\nu$ (.)表示价值函数, $\pi$ (.)表示权重函数。某个选项的价值就是其所有可能出现结果的价值的加权平均,反映一种“预期”的概念,这也是前景理论中prospect一词的由来。对于每个选项,人们按照式(6.12)计算其价值,然后在所有选项中选择价值最高的那一个。从式(6.12)可知,前景理论的核心就是价值函数和权重函数。Kahneman and Tversky(1979)之所以极具创造性和现实意义是因为通过大量的心理学实验定性总结了 $\nu$ (.)和 $\pi$ (.)所具备的性质[9]。图6.3绘制了 $\nu$ (.)和 $\pi$ (.)。

从图6.3(a)的价值函数形态可以总结出 $\nu$ (.)的三个重要性质:

  • 结果 $x$ 是相对一个给定的参考点而言的,而非财富的最终水平。举个例子,某人现在有 1000 元;某个游戏有两个结果。第一个结果将使他的最终财富变为 1100 元,第二个结果会让他的最终财富变为 950 元。在他评估这个选项时,他不会使用 1100 和 950 作为结果,而是使用 1100 和 950 相对于 1000 元这个参考点的差异,即 100 和 -50 为结果。在前景理论中, $x > 0$ 的结果被称为盈利(gains)、 $x < 0$ 的结果被称为亏损(losses)。
  • 价值函数的第二个特点是它反映了人们损失厌恶(loss aversion)。价值函数 $\nu$ (.)在 $x = 0$ 左、右两侧并不对称,亏损部分的负增长快于收益部分的正增长: $\nu(x) < -\nu(-x)$ 。实证研究表明,亏损带来的痛苦是收益带来快乐的两倍左右。
    无论是获利还是亏损,价值函数均呈现出敏感度递减(diminishing sensitivity)。这意味着,当结果为获利时,价值函数为凹函数;当结果为亏损时,价值函数为凸函数。举个例子,假如盈利从100元提高到200元,以及从1000元提升到1100元,二者都是提高了100,但前者对人的边际价值要强于后者。又或者,亏损从100元变成200元,以及从亏损1100到1200元,两者都是多失去100元,但前者对人的边际价值高于后者。

前景理论中的第二个关键是权重函数 $\pi$ (.)。权重函数 $\pi(p)$ 是某结果发生的真实概率 $p$ 的函数,但它不是概率。它衡量的是该结果对选项的影响,而非仅仅是该结果发生的可能性。Kahneman and Tversky(1979)指出 $\pi(p)$ 应满足 $\pi(0)=0$ 且 $\pi(1)=1$ ,但是当 $0<p<1$ 时, $\pi(p)$ 是 $p$ 的非线性函数。图6.3(b)定性给出了当 $0<p<1$ 时 $\pi(p)$ 的样子。从图6.3(b)中不难看出,当 $p$ 很小时, $\pi(p)>p$ ,这表明对于那些发生概率很低的结果,人们往往高估它们发生的可能性。在生活中人们购买彩票和购买保险就是这样的例子。假设一张彩票5元钱,买了彩票后有千分之一的机会得到5000元。人们往往会放大这个千分之一的可能性,从而认为彩票的吸引力很高,尽管彩票的预期收益也是5元钱,和成本一样。而在买保险时,假如5元保费可以规避一个损失5000元、发生概率为千分之一的事故。在面对这种情况时,人们往往毫不犹豫选择购买保险,因为他们同样高估了事故发生的概率。

Kahneman and Tversky(1979)提出的前景理论后来被视作行为金融学发展的重要基石之一。然而,这篇1979年发表的论文也并不完美。第一,如前所述,它只允许待评估的选项有不超过两个非零的结果;第二,无论是价值函数还是权重函数,Kahneman and Tversky(1979)给出的都是定性,而非定量的结果。为了解决这些不完美,Tversky and Kahneman(1992)对前景理论进行了必要的改良和扩充,提出了累积前景理论(cumulative prospect theory)[10]。它在Kahneman and Tversky(1979)的基础上给出了 $\nu$ (.)和 $\pi$ (.)的解析表达式,且允许待评估的选项有多个结果。假设某个选项有 $m$ 个亏损的结果 $x_{-m} < x_{-m-1} < \cdots < x_{-1}$ 、 $n$ 个盈利的结果 $x_{1} < x_{2} < \cdots < x_{n}$ ,以及(不失一般性)一个不赢不亏的结果 $x_{0} = 0$ 。进一步假设 $x_{i}$ 发生的概率为 $p_{i}$ ,且所有 $p_{i}$ 满足 $\sum_{i=-m}^{n} p_{i} = 1$ 。在累积前景理论下,该选项可以表达为:

$$ (x _ {- m}, p _ {- m}; \dots x _ {- 1}, p _ {- 1}; x _ {0}, p _ {0}; x _ {1}, p _ {1}, \dots , x _ {n}, p _ {n}) \tag {6.13} $$

该选项的价值为:

$$ \sum_ {i = - m} ^ {n} \pi_ {i} v \left(x _ {i}\right) \tag {6.14} $$

首先来看价值函数。Tversky and Kahneman(1992)给出的 $\nu$ (.)的形式为:

$$ v (x _ {i}) = {\left{ \begin{array}{l l} {x _ {i} ^ {c}} & {{\text {若}} x _ {i} \geqslant 0} \ {- \kappa (- x _ {i}) ^ {c}} & {{\text {若}} x _ {i} < 0} \end{array} \right.} \tag {6.15} $$

由式(6.15)的定义可知, $c \in (0, 1)$ 代表了敏感度递减的快慢,而 $\kappa > 1$ 是损失厌恶系数,系数越高说明越厌恶损失[11]。图6.4(a)给出了当 $c = 0.5$ 、 $\kappa = 2.5$ 时的价值函数。在实际应用中,Tversky and Kahneman(1992)根据他们的实验给出的参数取值为 $c = 0.88$ 、 $\kappa = 2.25$ 。在Tversky and Kahneman(1992)发表之后,学术界又出现很多关于累积前景理论的大量研究,得到了不同的参数取值。一般来说,大量的实验结果表明, $c$ 的取值在0.5到0.95之间,而 $\kappa$ 的取值在1.5到2.5之间。

再来看看累积前景理论中的权重函数,它的定义为:

$$ \pi_ {i} = \left{ \begin{array}{l l} {w ^ {+} (p _ {i} + \cdot \cdot \cdot + p _ {n}) - w ^ {+} (p _ {i + 1} + \cdot \cdot \cdot + p _ {n})} & {\text {若} 0 \leqslant i \leqslant n} \ {w ^ {-} (p _ {- m} + \cdot \cdot \cdot + p _ {i}) - w ^ {-} (p _ {- m} + \cdot \cdot \cdot + p _ {i - 1})} & {\text {若} - m \leqslant i < 0} \end{array} \right. $$

$$ w ^ {+} (P) = \frac {P ^ {\gamma}}{\left(P ^ {\gamma} + (1 - P) ^ {\gamma}\right) ^ {(1 / \gamma)}} \tag {6.16} $$

$$ w ^ {-} (P) = \frac {P ^ {\delta}}{\left(P ^ {\delta} + (1 - P) ^ {\delta}\right) ^ {(1 / \delta)}} $$

其中 $\gamma, \delta \in (0,1)$ 。在以上 $\pi_i$ 的定义中,当 $i = n$ 或 $-m$ 时, $\pi_i$ 分别简化为 $\pi_n = w^+(p_n)$ 和 $\pi_{-m} = w^-(p_{-m})$ 。与前景理论不同,在累积前景理论中, $\pi_i$ 的取值由累积权重函数 $w^+(\cdot)$ 或 $w^-(\cdot)$ 决定。具体来说,对于 $x_i \geq 0$ 的结果,它的 $\pi_i$ 的计算方法如下:分别计算所有不差于 $x_i$ 的结果的概率之和(即 $p_i + \dots + p_n$ ),和所有严格优于 $x_i$ 的结果的概率之和(即 $p_{i+1} + \dots + p_n$ ),将这两个概率之和代入 $w^+(\cdot)$ 并求它们的差,即 $w^+(p_i + \dots + p_n) - w^+(p_{i+1} + \dots + p_n)$ ,这个差就是 $\pi_i$ 。类似的,对于 $x_i < 0$ 的结果,它的 $\pi_i$ 的计算方法如下:分别计算所有不好于 $x_i$ 的结果的概率之和(即 $p_{-m} + \dots + p_i$ ),和所有严格差于 $x_i$ 的结果的概率之和(即 $p_{-m} + \dots + p_{i-1}$ ),将这两个概率之和代入 $w^-(\cdot)$ 并求它们的差,即 $w^-(p_{-m} + \dots + p_i) - w^-(p_{-m} + \dots + p_{i-1})$ ,这个差就是 $\pi_i$ 。 $w^+(\cdot)$ 或 $w^-(\cdot)$ 的形式如式(6.16)所示,它们的形式相同,只是参数 $\gamma$ 和 $\delta$ 的取值不同,从而允许人们对于盈利和亏损结果赋予不同的权重。Tversky and Kahneman(1992)给出的参数取值为 $\gamma = 0.61$ 和 $\delta = 0.69$ 。由定义可知: $w^+(0) = w^-(0) = 0$ 且 $w^+(1) = w^-(1) = 1$ 。图6.4(b)给出了不同 $\delta$ 取值下权重函数的形状。


图6.4 累积前景理论中的价值函数和权重函数

对于累积前景理论中的权重函数 $\pi_{i}$ ,有以下两点需要说明。首先,它延续了前景理论中权重函数的最重要定性特征,即对于小概率结果,其权重要高于结果发生的概率本身。由于累积前景理论允许盈利和亏损两端均包括多个结果,这意味着人们会高估结果分布左尾或右尾出现的概率。由定义可知,对于极端收益结果 $x_{n}$ 和极端亏损结果 $x_{-m}$ ,它们的权重为 $w^{+}(p_{n})$ 和 $w^{-}(p_{-m})$ 。假设 $\gamma = \delta = 0.65$ ,并假设极端结果 $x_{n}$ 和 $x_{-m}$ 出现的概率均为0.01。由公式可知, $w^{+}(p_{n}) = w^{-}(p_{-m}) = 0.047$ ,因此 $w^{+}(p_{n}) > p_{n}$ 且 $w^{-}(p_{-m}) > p_{-m}$ 。关于 $\pi_{i}$ ,第二点需要指出的是,如果一个选项的结果都是盈利(即所有 $x_{i}$ 均大于零)或都是亏损(即所有 $x_{i}$ 均小于零),则由式(6.16)可知该选项所有结果的权重函数之和满足 $\sum_{i} \pi_{i} = 1$ 。然而,对于更一般的情况,即某个选项既有盈利结果又有亏损结果时,所有结果的权重之和 $\sum_{i} \pi_{i}$ 并不一定等于1,它可能大于1也可能小于1,但这并不影响累积前景理论的性质或应用。

2. 模糊厌恶

风险偏好偏差的第二个要素是模糊厌恶(ambiguity aversion)。考虑下面这个实验。有两个罐子,每个罐子里放有红色和蓝色小球一共100个。这两个罐子的区别是,在罐子1中有红色和蓝色小球的数目均是未知的;而在罐子2中有红色和蓝色小球各50个。被试者首先被要求从下面两个选项中选择:

A1: 从罐子1中抽取一个小球, 如果抽出红色小球则获得100元, 如果抽出蓝色小球则没有奖励;
A2: 从罐子2中抽取一个小球, 如果抽出红色小球则获得100元, 如果抽出蓝色小球则没有奖励。

这两个选项唯一的区别是抽小球的罐子。

在第二个实验中,被试者被要求从以下两个选项中选择:

B1: 从罐子1中抽取一个小球, 如果抽出蓝色小球则获得100元, 如果抽出红色小球则没有奖励;

B2: 从罐子2中抽取一个小球, 如果抽出蓝色小球则获得100元, 如果抽出红色小球则没有奖励。

实验二和实验一的区别在于两个选项中,获得奖励的小球颜色从红色变成蓝色。面对这两个实验,神奇的结果发生了:在实验一中,更多的实验者选择了A2;而在实验二中,更多的实验者选择了B2。实验一的结果说明,人们主观认为罐子1中的红色小球数量比罐子2中的红色小球(已知为50个)更少;而实验二的结果则截然相反,人们主观地认为罐子1中的蓝色小球数量比罐子2中的蓝色小球(也是50个)更少。这正是决策论中著名的Ellsberg悖论(Ellsberg 1961)。

该实验结果说明,在充满着不确定性的博弈中,人们讨厌结果分布未知的情况,这正是模糊厌恶。在面对风险决策时,如果结果的分布是已知的,那么该决策的不确定性对于人们来说是已知的,可以通过结果的分布精确地量化出该不确定性;反之,如果结果的分布是未知的,那么这个不确定性对人们而言也是未知的,因此无法被精准地量化出来。

由于模糊厌恶,人们往往倾向站在模糊性的对立面,即选择自己熟悉的。在投资中,这体现在人们会根据自己的经验、学识和能力选择更熟悉的标的来投资。当然,这个出发点并没有问题,Warren·Buffett(巴菲特)也曾建议人们不要涉足自己不擅长的领域。[12]不幸的是,这并不容易。由于过度乐观以及确认性偏误等认知偏差,人们往往在自认为熟悉的领域输得更惨。模糊厌恶和前景理论构成了风险偏好偏差的两大要素。这些理论很好地诠释了人们在面对风险时如何做决策。

6.3.4 认知限制

心理学中的认知限制(cognitive constraints),又被称作有限理性,它也是行为金融学对传统金融学的第三个挑战。它指的是学者们在研究人们如何做经济决策时,以人脑有限的处理能力为约束条件,并把它加入到最优化问题当中。在这个框架下,由于认知限制,人们只能在约束下做出次优解,而无法实现完全理性(无约束)下的最优解。在这个领域中,最重要的两个方面是有限注意力(limited attention)和分类思维(categorical thinking)。

1. 有限注意力

传统金融学理论认为,当人们在做决策时,应该使用全部可得的信息。然而,由于人脑对信息的分析处理能力是有限的,在任何给定的时刻,都无法及时处理所有的信息,而偏好去应对最显著、最重要的信息,这种认知限制被称为有限注意力。在股票市场中,投资者的有限注意力问题也十分普遍。心理学的研究表明,投资者有限注意力和以下三点有关:(1)信息的重要性,(2)投资者获取信息的渠道,(3)投资者处理信息的能力。

关于有限注意力,Huberman and Regev(2001)给出了一个精彩的例子。1998年5月3日星期日,《纽约时报》(New York Times)封面报道了一家名为EntreMed的公司在治疗癌症方面的重大技术突破。这个消息使得该公司股票在接下来的星期一大涨 $330\%$ 。然而有意思的是,同样的消息其实早在半年之前就出现过;《自

然》(Nature)杂志和很多主流媒体(甚至包括《纽约时报》本身)在当初就对其进行过报道,但却并未引起股价的波澜。这个例子说明,这个消息在最初被报道的时候并未引起投资者的注意,而当它登上《纽约时报》的封面后便如同被放到了聚光灯下一般,引来了投资者的追捧。

在另一项研究中,DellaVigna and Pollet(2007)从人口结构变化和资产收益的关系出发提出投资者存在有限注意力问题。假如2018年婴儿出生率激增,那么则可以想见6年之后的2024年,这些幼儿对于玩具的需求将会到达顶峰,利好玩具公司。因此,如果投资者不存在有限注意力问题,那么应该在2018年就部署、增持这些玩具公司的股票,而非等到2024年才行动,但事实却非如此。该文的研究发现人们对于人口变化的相关信息是反应不足的,并基于此构建了一个投资策略来利用这种定价中的错误:当人口变动信息出现后,马上买入会因该信息受益的公司、做空会因该信息受负面冲击的公司,便可获得超额收益。这进一步证实了市场中存在有限注意力问题。

2. 分类思维

市场中有成千上万种资产。为了简化思维,投资者会把它们分类,比如把股票按风格分成价值股、成长股、高质量股、小市值股等。如此分类让投资者在判断这些资产时,更多考虑它们所处的类别,而非每种资产本身的基本面,这造成了同类资产中显著的共同运动。而对不同风格股票的外推造成了不同风格股票的波动,这便形成了风格因子之间涨跌的差异。Peng and Xiong(2006)指出有限注意力也能引起分类思维,比如投资者更倾向于分析和全市场相关的信息,而非仅针对某个公司的私有信息。

股票入选指数成份股之后的走势也能反映投资者的分类思维。Barberis et al.(2005)的研究发现,当一只股票入选标普500指数时,它的价格便开始和其他成份股一起共同运动。如果投资者是完全理性的,这种相关性发生的唯一前提应该是该股票的基本面和其他成份股的基本面的相关性提高,然而实际数据并不支持这种说法。回归分析结果表明,投资者的分类思维才是上述现象背后的原因。Boyer(2011)也观察到类似的现象,即在基本面没有任何变化的前提下,仅仅因为被选入指数就提高了股票和指数之间的相关性。

6.3.5 行为金融学与市场异象

如今,越来越多的学者使用前面介绍的行为金融学框架解释股票市场的各种现象,其中既包括市场整体行为,也包括股票预期收益率的截面差异(即异象)。由于本书主要关于因子投资,因此下面主要介绍行为金融学在解释后者时发挥的作用。

1.预期偏差和市场异象

盈余惯性(Post-Earnings-Announcement-Drift,PEAD)最初由Ball and Brown(1968)发现[13],而后又因Bernard and Thomas(1989, 1990)的研究被世人所熟知。它指的是由于认知限制中的有限注意力,人们对新的基本面信息反应不足,造成价格无法迅速对其反应到位,而是会在业绩公告之后继续漂移[14]。关于

盈余惯性,学术界还有一些非常有意思的发现。DellaVigna and Pollet(2009)指出如果业绩公告出现在星期五,随之而来的盈余惯性现象会更显著。他们猜测由于星期五临近周末,投资者的注意力比平时更不足,更无法对业绩信息做出足够的反应,造成显著的盈余惯性异象。另外,Hirshleifer et al.(2009)发现当多家上市公司同时发布财报时,由于投资者无法处理同时涌现的多家公司的大量新信息(即有限注意力问题更严重),盈余惯性会更加显著。

类似的,Barberis et al.(1998)从行为金融学出发提出了一个投资者情绪模型,认为投资者在面对上市公司新的财报消息时会受到保守主义和代表性启发法的影响,这会导致一些常见的异象。首先,当超出预期的盈利消息出现时,投资者因保守主义而愿意相信自己的先验判断,对这个信息反应不足。他们会对这个利好持怀疑态度、不情愿更新他们对于该公司基本面的认知,因此信息无法有效地反映在股价上。随着时间的推移,当该公司又逐渐出现新的盈利利好时,其股价才会慢慢对其新的基本面调整到位,而这造就了动量异象。

其次,当好的盈利消息接二连三出现时,投资者会受到代表性启发法和小数定律信仰的影响,出现对股票的收益率以及代表公司基本面的现金流的过度外推(over-extrapolation),并将错误的外推用到对公司未来股价的预测上。一旦未来的盈利没有达到预期,就会引起他们的恐慌,造成股价的下跌,从而导致长期反转和价值异象。通过使用分析师一致预期数据,La Porta(1996)发现分析师在对公司长期盈利能力做预测时也会踏入过度外推的错误。该文使用上市公司未来五年预期盈利增长率为变量进行了研究。数据显示,预期增长率高的那些股票的未来预期收益率反而更低。Bordalo et al.(2019)对La Porta(1996)的发现进行了回顾和拓展。

其他影响深远的研究成果还包括Daniel et al.(1998, 2001),他们研究的重点是投资者在处理私有信息时容易产生认知偏差。当投资者对于某个上市公司做了大量深入研究后,容易对自己的分析结果表现出过度自信。如果分析的结果认为该公司的基本面向好,投资者就会大举买入该公司的股票。此外,在这个过程中,确认偏误会让投资者在短期内仅仅关注与自己分析结果相一致的公共信息,而忽略掉意见相左的信息,从而造成动量和盈余动量等异象。当股价被推高后,如果接连出现基本面变差的信息,这时价格就会发生下跌修正,造成反转和价值异象。

类似的,Hong and Stein(1999)通过提出一个统一理论研究了投资者的反应不足和反应过度,以及它们引发的短期动量和长期反转。和Barberis et al.(1998)以及Daniel et al.(1998)不同的是,该文假设市场中存在两类交易者:基本面交易者和动量交易者,并以这二者如何相互影响为视角进行了研究。基本面交易者根据信息进行交易,而动量交易者根据近期价格变化进行交易。该文进一步假设基本面投资者有一些私有信息,但无法从价格走势中感知出其他基本面交易者所掌握的信息。这导致信息的传播是缓慢的,造成投资者短期内反应不足,而动量交易者会利用这一反应不足而获利。但另一方面,当大量动量交易者采用相同的策略时,最终会引发长期投资者的过度反应以及价格的反转。

2. 风险偏好偏差和市场异象

将前景理论用于解释市场异象方面也有丰硕的研究成果。Barberis and Huang(2008)通过应用前景理论研究了资产收益率的偏度和未来预期收益率之间

的负相关性,即收益率分布呈右偏(或正偏态)的股票其预期收益率往往更低。从收益率分布的形状来说,右偏的股票在右尾的高收益令人充满无穷的遐想,而左尾的亏损则相对有限。这种特征和彩票收益的特征很类似(通过有限的下注买一个无尽的念想),因此学术界也形象地把收益率分布呈右偏的股票称为“彩票股”。Barberis and Huang(2008)利用权重函数中描述的人们倾向于放大尾部事件发生的概率,造成过度追逐收益率分布呈现右偏的资产、推高其价格、降低其未来收益率。这正是股票截面收益率上大名鼎鼎的偏度异象。类似的,Green and Hwang(2012)对首次公开募股(IPO)的研究也发现了类似的结论。IPO股票的收益率呈现出严重的右偏,人们在非理性决策下对此的追踪导致了这些股票未来的低收益率。股票截面上的另一个异象是低异质波动率。Boyer et al.(2010)研究发现,时序上异质低波动和未来的异质偏度存在一定的正相关性,因此使用前景理论研究异质低波动和未来收益率之间也存在负相关性。

上面这些例子主要源于前景理论中权重函数。下面再来看价值函数会产生哪些影响。在市场中人们常有这样的感受,对于上涨的股票经常拿不住,倾向于获利后卖出;对于下跌的股票却迟迟舍不得卖出。这个现象也称作处置效应(disposition effect),它和价值函数在盈利和亏损两端的非线性凹性和凸性有关,也和人们的损失厌恶有关(Shefrin and Statman 1985)。Barberis and Xiong(2009)以及Ingersoll and Jin(2013)的研究表明,前景理论的价值函数和处置效应之间存在关联。由于处置效应的存在,平均处于浮盈的股票被投资者非理性地过度卖出,造成其被低估;而平均处于浮亏状态的股票则因投资者非理性地持有,造成其被高估。由于被低估的股票在未来有更高的预期收益,而被高估的股票在未来有更低的预期收益,因此可以推断股票的浮盈、浮亏情况和预期收益率之间存在密切的关联。学术界通常使用未实现盈利值(capital gain overhang, CGO)来衡量一只股票的浮盈或浮亏程度。利用处置效应和CGO,很多学者尝试对市场中已有的异象进行改进。

Frazzini(2006)利用CGO改进了盈余惯性(PEAD)异象。该文研究发现,投资者的浮盈或者浮亏,以及盈余公告的好消息或坏消息可以叠加出不同的效果。当投资者处于浮亏且公告是坏消息时,处置效应和有限注意力同向作用,使得该股票被进一步高估,未来预期收益率进一步降低;当投资者处于浮盈且公告是好消息时,处置效应和有限注意力仍然是同向作用,使得该股票被进一步低估,未来预期收益率进一步提高。而在另外两种组合下(即浮亏和好消息,以及浮盈和坏消息),这两种影响则在一定程度上相互抵消。利用这些现象,Frazzini(2006)使用CGO改造PEAD,得到了更加显著的异象。

Wang et al.(2017)则使用CGO进一步分析了市场中著名的低波动异象。该文指出,当人们处于浮亏时,由于追求风险,往往指希望通过高波动的股票来回本,造成它们被进一步高估,因此波动率和预期收益率呈负相关;而当人们处于浮盈时,由于风险厌恶,往往会更加卖出高波动的股票,造成它们被进一步低估,因此波动率和预期收益率呈现正相关。Wang et al.(2017)使用大量常见的风险指标,研究了浮盈和浮亏不同状态下,风险和收益率之间的关系,并提出了更好的交易策略。

An et al.(2020)研究了当人们处于浮盈、浮亏不同状态下对彩票股的偏好差异。当人们处于浮盈的时候,往往不会太关注彩票股,因此它们和其他收益分布没有明显右偏的股票(称为“非彩票股”)的预期收益没有太大差异;而当人们处

于浮亏的时候则更希望通过彩票股回本,从而造成它们进一步被高估、未来的预期收益较非彩票股则更低。An et al.(2020)通过对美股的研究证实了上述猜想,并通过仅利用浮亏的股票构建偏度异象获得了更显著的超额收益。

除上述研究外,Barberis et al.(2016)和Barberis et al.(2019)是综合考虑前景理论的价值及权重函数,并用它们来研究股票收益率的两个开创性研究[15]。其中,Barberis et al.(2016)研究了前景理论对股票截面预期收益率的预测能力。在每个月初,他们使用每股票过去60期月收益率作为该股票的盈利和亏损结果,套用前景理论的价值和权重函数计算出股票对于投资者的价值。该文通过一个市场均衡模型显示出投资者如果按照前景理论价值高低购买股票,会造成价值高的股票被超买、价值低的股票被超卖。因此前景理论价值和未来收益率呈负相关。他们将所有股票按前景理论价值高低排序后分成十组,通过做多价值最低的一组、做空价值最高的一组构建了前景理论价值异象。针对美股和其他46个国家股票市场的实证结果表明,该异象在绝大多数市场中均能够获得其他常见因子无法解释的超额收益,且在考虑了包括公司特征和收益率特征之内的很多控制变量之后,该异象的收益率依然显著。Barberis et al.(2019)从前景理论出发,并利用心理账户理论(Thaler 1985, 1999)中的狭隘框架(narrow framing)[16],提出了一个全新的投资者决策模型。该模型考虑了前景理论中价值函数和权重函数的全部特征,使用股票收益率的波动率、偏度等参数为输入,且模型的最优解满足市场出清(market clearing)条件。除此之外,其创新之处在于它是一个动态模型,并考虑了投资者之前在股票上的盈亏情况,以此更好地反映出投资者在面对盈利和亏损时表现出的风险偏好差异。通过该模型,他们尝试解释市场上最重要的22个异象。实证结果显示,该模型能够很好地解释动量、异质波动率、异质偏度、盈利以及PEAD等异象,但无法解释市值、价值、反转、应计利润以及投资等异象。

本节简单介绍了行为金融学和异象之间的关联。由于股票收益率的共同运动和投资者的行为有着千丝万缕的联系,行为金融学在解释股票收益率截面差异时也发挥了越来越大的作用。在本书4.1节介绍的多因子模型中,Stambaugh and Yuan(2017)提出的四因子模型和Daniel et al.(2020)提出的三因子模型都是从行为金融学出发的。它们对大多数异象的解释能力并不亚于其他从传统金融学理论提出的主流多因子模型。毫无疑问,这两个模型为实证资产定价和因子投资提供了新的思路,均是值得肯定的尝试。

6.3.6 行为有效市场

长久以来,有效市场假说是学术界对于市场理解的第一范式。Eugene Fama对市场有效性提出了三个基本假设:(1)市场将立即反应新的资讯,并调整至新的价位。因此价格变化取决于新资讯的发生,股价呈随机走势。(2)新资讯的出现呈随机性,即好、坏资讯是相伴而来的。(3)投资者是理性且追求最大利润的,而且每个人对于股票的分析都是独立的,相互不受影响。

有效市场假说的核心假设是“价格反映全部信息”“价格并迅速反应到位”以及“所有的投资者都是理性的”。在这些假设下,股价的走势应该是阶梯型的:当一个利好消息出现时,它瞬间跳升;当一个利空消息出现时,它瞬间下降;当没有新息时,它保持不变。显然,这和现实中的股价走势完全不符。无数的实证结果持续地挑战着有效市场假说,而正如图6.2所示的那样,行为金融学也对这三个

假设提出了三大挑战。从行为金融学的视角来看,市场似乎不是有效的。但另一方面,在人们的认知中,市场确实很难被打败。从这个意义上说,市场似乎又是有效的。如何理解这种分歧呢?

Statman(2018)将行为金融学和有效市场假说融合在一起,提出了行为有效市场的概念,解决了上述矛盾。该文认为有效市场假说其实包含了两层含义,只有把它们剥离开来才能充分、合理地探讨市场的有效性。这两层含义分别为“价格等于价值”假说和“市场难以被战胜”假说。仔细体会一下行为有效市场的两个层面不难发现,它们完美的对应着行为金融学的两大支柱。首先,由于心理学造成的投资者的行为偏差和套利限制,市场中的价格有可能偏离价值而无法被修正,因此“价格等于价值”这层含义通常是不成立的。另一方面,对于仅仅掌握公开信息的普通投资者而言,市场又是难以战胜的。唯有那些有私有信息优势的投资者才有可能战胜市场。然而,认知偏差造就了一波又一波、前赴后继的噪声交易者,并给他们造成了能够战胜市场的幻觉。因此“市场难以被战胜”假说是成立的。

市场中有句老话叫“天下没有免费的午餐”,它表示想要战胜市场是非常困难的。一直以来,人们对它的理解是“价格等于价值”才导致了“没有免费的午餐”。然而,从行为金融学中的套利限制可知,即便是在非有效的市场中,“没有免费的午餐”也是成立的,但是却不能也不应该从它反推出“价格等于价值”。这二者的关系就如同数学中的原命题和逆命题的关系。即使能够从A推出B(原命题),也不意味着逆命题(从B推出A)是成立的。正因如此,Statman(2018)提出了市场有效的两层含义,并将其命名为行为有效市场。

1986年,Fischer Black在美国金融协会年会的主题演讲中发表了题为Noise(噪声)的报告(Black 1986)。在这次影响深远的演讲中,他抛出以下经典言论:“噪声的存在使得市场不够有效,然而它同样会阻止人们利用这种无效性。”[17]也许这句话就是对行为有效市场包含的两方面内容的最好总结。

[1]本书4.1.6节和4.1.7节分别介绍的Stambaugh-Yuan四因子模型和Daniel-Hirshleifer-Sun三因子模型均是从行为金融学角度提出的多因子模型。
[2]Shiller(2009)原著中提及德国DAX指数在1995年1月23日下跌 $1.4\%$ 。经检查数据发现DAX指数当日下跌 $1.84\%$ 。
[3]这篇论文成为行为金融学研究的起点,Robert Shiller也当仁不让地成为行为金融学的代表人物。
[4]Black的原话是“People who trade on noise are willing to trade even though from an objective point of view they would be better off not trading. Perhaps they think the noise they are trading on is information. Or prehaps they just like to trade.”。另外,由于信息和噪声错综交织在一起,即便是精明的投资者也难以判断信息是否已经反映在价格之中(Stein 2009)。
[5]Hirshleifer(2001)从启发式简化、自我欺骗以及情绪和自我控制三个角度总结了各种偏差。
[6]确认偏误在投资者持有先验时的杀伤力可能更大。在贝叶斯框架中,如果新息不能客观地反映交易的全貌而陷入确认偏误,那么它对于先验只能是强化作用。从这个意义上说,人们希望新息是无偏的。
[7]因其在以前景理论为代表的决策心理学和行为经济学方面的卓越贡献,Daniel Kahneman获得2002年诺贝尔经济学奖。Amos Tversky于1996年去世,而诺贝尔奖不追授颁奖时已逝6个月以上的学者,因此无缘此殊荣。
[8]当某个选项只产生一个结果时,该结果是确定的,它发生的概率是 $100\%$ 。
[9]Kahneman and Tversky(1979)以大量的心理学实验为依据,总结了前景理论中价值函数和权重函数的性质。由于篇幅所限,本书无法一一介绍。感兴趣的读者请参考Kahneman and Tversky(1979)或公众号“川总写量化”的文章《获得诺奖的行为金融学是怎么一回事?》。

[10]插一小段颇具人情味的故事。由于Tversky是一个天才,他的学术道路发展得顺风顺水,但Kahneman却一度陷入低迷,导致后期这二人有些貌合神离。累积前景理论几乎是由Tversky一人完成的,但它被发表时还是以两人为共同作者。谈到此,Tversky曾表示他们二人一起发表了很多论文,如果这篇打破了传统就会显得有些奇怪。
[11]Tversky and Kahneman(1992)分别用符号 $\alpha$ 和 $\lambda$ 表示敏感度递减快慢以及损失厌恶程度。考虑到本书中使用符号 $\alpha$ 表示定价误差、 $\lambda$ 代表因子收益率,因此在这里使用了符号 $c$ 和 $\kappa$ 。
[12]巴菲特的原话是:“Never invest in a business you cannot understand.”。
[13]Ball and Brown(1968)一文对会计学和金融学都有巨大影响。为了纪念该文,在它被发表后50年,两位作者受邀撰写了Ball and Brown(2019)一文对其进行了回顾,并在包括中国在内的全球众多股票市场中复现了盈余惯性异象。公众号“川总写量化”的文章《致敬经典:Ball and Brown(1968)》介绍了该文。
[14]利用有限注意力也可以提高动量策略的表现,见Gray and Vogel(2016)或公众号“川总写量化”的文章《给你的动量策略加点“料”》。
[15]公众号“川总写量化”的文章《前景理论与股票收益(I)》和《前景理论与股票收益(II)》分别对这两篇论文进行了深度解读。
[16]狭隘框架指的是人们更倾向于把多个决策独立看待,而非综合考虑。比如在购买股票的时候把不同股票的盈亏独立看待,而非从一个投资组合整体的角度来评判。
[17]Black的原话为“Noise causes markets to be somewhat inefficient, but often prevents us from taking advantage of in efficiencies.”。

6.4 投资者情绪

由6.3节的论述可知,投资者预期和风险偏好中的很多偏差都能对股票的预期收益率产生不同的影响。在学术研究中,一篇论文通常仅关注某一个偏差和收益率之间的关系。然而在实际投资中,众多投资者的不同偏差是交织在一起的,共同影响着个股乃至市场的走势。那么,有没有单一指标能够在一定程度上反映出不同偏差,乃至其他未知因素对于预期收益率的综合影响呢?这个问题的答案是肯定的,它就是投资者情绪(investor sentiment)。投资者情绪会因不同偏差的强弱交替以及投资者结构的更迭而变化,在时间序列上出现投资者情绪高涨和低迷的不同时期[1]。而投资者情绪的高低又和异象的表现之间有着怎样的联系呢?这就是本节要回答的问题。

首先从资产定价方面引出一个思考。本书第2.7节介绍广义矩估计时曾经提过资产定价中一个最基础的公式(Cochrane 2005):

$$ p _ {t} = E \left[ m _ {t + 1} x _ {t + 1} \right] \tag {6.17} $$

其中 $m$ 是随机折现因子。以股票为例, $p_t$ 为当前价格, $x_{t+1}$ 是股票未来的回报(即 $t+1$ 的价格和 $t$ 到 $t+1$ 之间的股息)。这个公式意味着股票的价格受折现因子和上市公司基本面两个因素的共同影响,因此价格的波动应该由折现因子的波动和基本面(股息)的波动共同决定。1981年,行为金融学代表人物Robert Shiller教授发表了对后来影响十分深远的文章Shiller(1981)。该文发现价格的波动比基本面的波动要大得多。因此如果式(6.17)成立,那么唯一合理的解释就是价格的高波动来自折现因子的高波动。那么,到底是什么导致了 $m$ 的高波动呢?后续的研究发现,来自传统经济学理论的消费资本资产定价模型无法解释 $m$ 的高波动,而投资者情绪却在这方面提供了新的思路。Shiller(1984)指出价格的过度波动来源于人们非理性行为造成的对基本面信息的过度反应。

以2020年一季度为例,标普500指数在2月19日至3月23日这一个月左右的时间内,最大跌幅超过了 $35\%$ 。虽然有新冠肺炎疫情等基本面因素的影响,但整体市场的基本面恶化本身并不足以支撑这一次价格的急跌。这一经验事实(stylized facts)使得投资者情绪逐渐受到越来越多的关注。但是,投资者情绪到底是什么,以及用什么指标来表征它?目前仍然尚无定论。一种典型的观点认为,投资者情绪代表的是投资者对未来预期的系统性偏差。当投资者情绪高涨时,投资者对个股以及市场整体的未来预期或需求都更高;当投资者情绪低迷时,投资者对个股以及市场整体的预期或需求则更低。依照上述定义,投资者情绪有两个要素:一是与投资者的各种行为偏差有关;二是投资者情绪是一个加总指标,反映的是全部投资者的综合预期偏差。

关于投资者情绪的研究分为两类。第一类研究关注股票预期收益的截面差异。从行为金融角度,将投资者情绪视作诸如动量、短期反转等因子和异象的根源。在这类研究中,投资者情绪为异象提供了理论基础,帮助人们更好地理解它们。这类问题仅关注异象为什么会出现,即股票的收益率在截面上为何会有不同,但并不关注异象本身在时序上的表现。与之对应的,另一类研究则将投资者情绪当作类似经济周期这样的指标,着重考察投资者情绪对总体市场收益以及异象表现的预测能力。关于前者,第6.3节已有详尽的讨论,因而本节的讨论将集中于后者。

6.4.1 投资者情绪的度量

要研究投资者情绪对未来收益的预测能力,首先需要度量投资者情绪。自20世纪80年代后期开始,相关研究逐渐兴起,而Baker and Wurgler(2006)是其中集大成者。该文采众家所长,利用了表6.2所示的6个细分指标,构建了一个综合性投资者情绪指标。

Baker and Wurgler(2006)使用表6.2中的6个指标,通过两步法计算出投资者情绪。首先,选择这些指标t期和t-1期滞后项(一共12个变量),通过主成分分析提取它们的第一主成分构建出一个临时指数,它是前述12个变量的线性组合。接下来,对每一个指标,分别计算该指标当期和其滞后项与临时指数的相关系数,并挑出相关系数高的变量。举例来说,对于CEFD指标,当期项 $\mathrm{CEFD}{\mathrm{t}}$ 与临时指数的相关系数高于滞后项 $\mathrm{CEFD}{t-1}$ 与临时指数的相关系数,因此 $\mathrm{CEFD}_{\mathrm{t}}$ 入选。这个过程将从全部12个变量中筛选出6个,每一个都是表6.2中指标的当期或滞后期项。在第二步中,使用挑选出的6个变量,并再一次通过主成分分析提取它们的第一主成分[2],最终构建投资者情绪指标如下:

表6.2 Baker and Wurgler(2006)投资者情绪细分指标列表

指标①来源定义
封闭式基金折价率(CEFD)Lee et al. (1991)封闭式基金的净值同交易价格的平均差异②
纽交所股票的换手率(TURN)Baker and Stein (2004)(去趋势的)对数换手率③
IPO公司数量(NIPO)Ibbotson et al. (1994)当年IPO公司的数量
IPO公司上市首日平均收益(RIPO)Ibbotson et al. (1994)当年IPO公司上市首日收益的算术均值④
股权融资占比(S)Baker and Wurgler (2000)当月总体股权融资金额与股权融资和长期债券发行总额之比⑤
股利溢价(PD-ND)Baker and Wurgler (2004)发放股利的公司同不分红的公司的账面市值比(book-to-market ratio)的对数差⑥

(1) IPO 相关的两个指标为年度数据,其他四个指标为月度数据。
(2)封闭式基金往往存在大幅度的折价, 且折价率波动非常剧烈。Lee et al. (1991) 发现不同基金的折价率变化高度同步, 这便是所谓的“封闭式基金折价之谜”。他们发现投资者情绪可以较好解释这一谜题, 因而封闭式基金折价率可以作为投资者情绪的一种度量指标。
③当存在卖空约束时,投资者只会在对后市乐观(即情绪高涨)时较多参与交易,因而市场总体的换手率可以在一定程度上代表投资者情绪。此外,由于换手率序列存在指数趋势,Baker and Stein(2004)依据5年移动平均来去除原始序列中的趋势。
(4) Ibbotson et al. (1994) 指出IPO数量及新股的表现与投资者情绪密切相关。当投资者情绪高涨时,新股的

平均收益较高,企业经理也会择机利用高估值进行股权融资,从而有较多公司进行IPO。反之,当投资者情绪较为低迷时,新股表现相对较差,企业IPO活动也会减少。

⑤Baker and Wurgler(2000)指出总体股权融资占比可以预测未来的市场收益。较高的股权融资占比预示着较低的股票市场未来收益。

⑥发放股利的公司,往往是大市值且增长较缓慢的公司,成长股则往往较少发放分红。投资者情绪高涨时,投资者往往会更关注那些具有极佳成长前景的股票,因而股利溢价同投资者情绪负相关。

$$ \begin{array}{l} \mathrm {S E N T I M E N T} _ {t} = - 0. 2 4 1 \times \mathrm {C E F D} _ {t} + 0. 2 4 2 \times \mathrm {T U R N} _ {t - 1} + 0. 2 5 3 \times \mathrm {N I P O} _ {t} \tag {6.18} \ + 0. 2 5 7 \times \mathrm {R I P O} _ {t - 1} + 0. 1 1 2 \times S _ {t} - 0. 2 8 3 \times P _ {t - 1} ^ {D - P D} \ \end{array} $$

这个指标具有很好的性质。首先,式(6.18)式右侧每一个指标前系数的符号都与理论蕴含的一致。其次,该主成分可以解释 $49\%$ 的样本方差,具有很好的代表性。另一方面,该指标的一个潜在问题是人们难以区分投资者情绪和经济周期的影响。为此,Baker and Wurgler(2006)进一步使用多个反映经济周期的变量作为解释变量,投资者情绪基础指标作为被解释变量,通过回归取残差实现中性化处理,并最终对残差的协方差矩阵提取主成分因子作为排除经济周期影响之后的投资者情绪。这样便剥离了宏观经济对指标的影响,得到新的投资者情绪SENTIMENT $\downarrow$ 表达式为:

$$ \begin{array}{l} \mathrm {S E N T I M E N T} _ {t} ^ {\perp} = - 0. 1 9 8 \times \mathrm {C E F D} _ {t} ^ {\perp} + 0. 2 2 5 \times \mathrm {T U R N} _ {t - 1} ^ {\perp} + 0. 2 3 4 \times \mathrm {N I O P} _ {t} ^ {\perp} \tag {6.19} \ + 0. 2 6 3 \times \mathrm {R I P O} _ {t - 1} ^ {\perp} + 0. 2 1 1 \times S _ {t} ^ {\perp} - 0. 2 4 3 \times P _ {t - 1} ^ {D - P D, \perp} \ \end{array} $$

与 $\mathrm{SENTIMENT}_{\mathrm{t}}$ 一样,式(6.19)式右侧每一个指标前系数的符号也与理论蕴含的一致。此外,对于这些被经济周期变量正交化后的情绪指标,它们的第一主成分能够解释 $53\%$ 的样本方差。

在近年来关于投资者情绪的研究中,式(6.18)和式(6.19)所示的指标得到了广泛的应用。然而,Huang et al.(2015)指出该主成分分析方法存在潜在问题[3],并提出了利用偏最小二乘法(PLS)这种机器学习方法来估计投资者情绪。新的投资者情绪指标在样本外的预测能力显著优于Baker and Wurgler(2006)的方法。

6.4.2 投资者情绪与异象表现

Baker and Wurgler(2006)使用根据(6.19)计算的指标,探讨了投资者情绪如何影响常见异象的表现。他们按照SENTIMENT $\perp$ 将样本逐月分为情绪高涨(high sentiment)和低迷(low sentiment)时期,考察在高涨和低迷时期异象表现及差异。一般来说,乐观的投资者通常被认为会更偏好上市时间较短、市值较小、增长较快的投机性股票。相反,保守型投资者会更偏好较为成熟的大盘股。这类股票的增长通常更缓慢,估值也较低。理论上,在投资者情绪高涨时期,乐观的投资者大量买入投机性股票,将它们的价格推到过高的水平,导致其未来预期收益率降低。相反,当投资者情绪低迷时,投机性股票的表现反而会更好。通过排序法检验,他们通过美股数据证实了上述猜想。Baker and Wurgler(2007)也对此进行了精彩的总结。

当然,并非所有异象都有类似的表现。例如,发放股利的公司的股利同账面资产的比率因子,在不同情绪状态下的表现几乎没有差异。除排序法外,Baker and Wurgler(2006)也利用预测性回归对投资者情绪对于异象收益率在时序上的预测能力进行了检验。结果与排序法相似,投资者情绪对规模、年龄、波动率、盈利能力与股息政策、增长期权和财务困境风险等异象的多空组合收益率有显著的预测能力,只有研发相关的异象同投资者情绪没有显著的关联。当使用风险调整后的多空组合收益率作为被解释变量时,结果同样如此。

Stambaugh et al.(2012)使用Baker and Wurgler(2006)的投资者情绪指标,考察了包括财务困境、股票净发行量、动量、投资等11个异象[4]的多空组合,以及多、空两端在不同投资者情绪状态下的表现,从而更细致地讨论了投资者情绪与错误定价的关联。通过比较多空两端,而不仅仅是多空组合的表现,他们得到了非常有趣的发现。在这11个异象中,有10个异象的空头端在投资者情绪高涨时的未来预期收益率,比它们在投资者情绪低迷时的未来预期收益率显著更低[5]。相反,多头端的表现则和空头端截然不同。所有异象的多头端在不同投资者情绪状态下的表现均没有显著差异。因此,异象在不同状态下的表现差异,主要是由空头端所驱动的。

除此之外,Stambaugh et al.(2012)也使用(6.20)所示的预测性回归进一步检验了投资者情绪和异象的关系。该模型控制了Fama-French三因子的影响:

$$ R _ {i t} ^ {e} = a + b S _ {t - 1} + c R _ {\mathrm {M K T} t} ^ {e} + d R _ {\mathrm {S M B} t} + e R _ {\mathrm {H M L} t} + \varepsilon_ {t} \tag {6.20} $$

其中 $R_{it}^{e}$ 为投资组合 $i$ 在 $t$ 期的超额收益, 该组合可以是异象的多头、空头或多空对冲的异象组合。 $S_{t-1}$ 为滞后一期的投资者情绪, $R_{\mathrm{MKT} t}^{e} 、 R_{\mathrm{SMB} t}$ 和 $R_{\mathrm{HML} t}$ 为Fama-French三因子 $t$ 期的收益率。他们发现, 投资者情绪对于多头端收益率没有预测能力, 但与空头端收益率则呈现显著为负的相关性, 并最终与多空对冲后的异象组合的收益率呈现显著正相关。这项分析同样表明, 异象在不同状态下的表现差异更多由空头端所驱动。

面对投资者情绪对异象(特别是其空头)在时序上显著的预测能力,一个自然的问题是:这种预测性真实吗?Stambaugh et al.(2014)通过模拟回答了这个问题。在每次模拟中,他们使用一阶自回归过程(自回归系数为0.988、随机扰动满足正态分布)生成了随机指标序列,并使用该随机指标代替投资者情绪放入预测性回归式(6.20)中,考察它是否具有和投资者情绪可比的预测能力[6]。该文共进行了200万次模拟,以确保得到可靠的分析结果。研究结果表明,平均每28500次模拟,才能有一个随机序列满足同所有11个异象的多空组合收益显著正相关;而进一步考虑同异象空头端显著负相关的条件,则需要105000次模拟才会出现一次。由于它们均是非常小概率的事件,因此先前研究(Stambaugh et al.2012)发现的投资者情绪的显著预测能力不大可能是伪回归的结果,投资者情绪的确对异象未来表现有显著的预测能力。

Baker et al.(2012)则提供了投资者情绪影响在其他市场中的证据。受限于数据可得性,他们采用了同Baker and Wurgler(2006)略有不同的投资者情绪定义方法。具体而言,他们保留了IPO数量和IPO公司上市首日平均收益以及换手率三个细分指标,但是用波动率溢价取代了股利溢价[7],并剔除了封闭式基金折价率和股

权融资占比。他们为美国、英国、德国、法国、日本和加拿大这六个发达国家市场构建了国家及全球投资者情绪指数,并考察了其预测能力。研究结果揭示了两个有趣的发现。首先,全球投资者情绪同各国的总体市场收益显著负相关,但当控制了全球投资者情绪后,各国的国家投资者情绪则没有显著的预测能力。其次,对于各国股票收益率的横截面差异,全球与国家投资者情绪都有显著为负的预测能力。上述结果与前述关于美股的各项研究大体一致,当投资者情绪高涨时,那些难以估值和套利的股票会被高估,并伴随有更低的未来收益。

6.4.3 投资者情绪与市场表现

除了同异象的表现有关,投资者情绪对总体市场的风险收益特征也有显著影响。Yu and Yuan(2011)使用Baker and Wurgler(2006)的投资者情绪指标对投资者的风险收益偏好进行了研究。他们发现,当投资者情绪较为低迷时,市场呈现出显著的高风险高收益特征,这与经典金融理论的预测一致。但当投资者情绪高涨时,市场预期超额收益便同风险不再相关。此外,为了说明投资者情绪的重要性,该文还考虑了其他能够反映市场不同状态的常见指标,包括利率、市场整体市盈率以及剩余消费比率(Campbell and Cochrane 1999)等。在上述指标区分的市场不同状态中,均无法观测到不同的风险收益偏好。这也从侧面反映出投资者情绪和市场的风险收益特征之间的密切关联。

Huang et al.(2018)研究了不同资产类别中的投资者情绪的影响。他们利用路透社基于新闻和文本分析方法计算的不同资产的投资者情绪数据,研究了美国股票、债券、大宗商品、地产和货币市场中的投资者情绪的影响。不出意外,每类资产的表现都受其自身投资者情绪的影响。此外,一项资产的投资者情绪可能对其他资产的表现有影响。例如,债券市场的投资者情绪会影响股票的表现,而债券市场的表现又受到货币市场投资者情绪的影响。

Jiang et al.(2019)一文则分析了管理者情绪指标(manager sentiment)。该文利用文本分析从公司定期公告和电话会议文字稿中提取了公司的管理者情绪,并进而汇总得到市场总体的管理者情绪指标。这篇论文的几个发现颇有价值。首先,管理者情绪同市场总体的未来收益显著负相关,样本外预测表现同样不俗。其次,管理者情绪同常见的投资者情绪不完全相关。在预测性回归分析中,当控制了各种常见的投资者情绪指标后,管理者情绪依然显著为负。再者,管理者情绪可以预测市场总体的未来盈利(用未预期盈余来代表,管理者情绪同其负相关)和投资增长(用总体资本支出的同比增长率来代表,管理者情绪同其正相关),这可能是管理者情绪可以预测市场未来收益的原因。最后,该文也探讨了管理者情绪和异象之间的关系,并发现多种异象的多空组合收益都同管理者情绪存在显著关联,且当控制了管理者情绪后,Baker and Wurgler(2006)的投资者情绪对异象多空组合收益的影响减弱了很多。这些新研究使得投资者情绪这个领域变得更加丰富,在未来仍有很大的探索空间和应用价值。

[1]比如A股市场上2007年和2015年的大牛市过程中,就是投资者情绪迅速攀升最终见顶的过程。
[2]在这步中,变量首先经过标准化处理,因此Baker and Wurgler(2006)针对它们的相关系数矩阵计算第一主成分。
[3]虽然可以通过假定股利溢价、换手率等投资者情绪代理指标为真实投资者情绪之间的因子结构,但主成分

分析方法无法区分真实的投资者情绪与共同误差对观测到的投资者情绪代理指标的贡献。

[4]这11个异象与Stambaugh and Yuan(2017)中使用的异象相同。具体介绍请参考4.1.6节。
[5]此处研究的是t时刻的投资者情绪和t+1时刻预期收益率的关系。在11个异象中,唯一的例外是复合股权发行量。
[6]自回归系数0.988来自投资者情绪指标的经一阶误差修正后的样本自相关性。采用样本估计作为模型参数是典型的模型校准(model calibration)方法。与投资者情绪可比的预测能力指的是随机指标和异象收益率显著正相关、和异象空头收益率显著负相关、以及和异象多头收益率没有显著关联。
[7]波动率溢价定义为高、低特质性波动率股票组合的估值差异。美股中波动率溢价同股利溢价高度相关。由于在部分市场中无法构建股利溢价指标,因而选择使用波动率溢价来代替。

6.5 风险补偿、错误定价还是数据窥探

在过去30年的研究中,学术界发表了数百个在样本内能够预测股票未来收益率的变量,并通过它们构建了诸多异象,获得了常见多因子模型无法解释的显著的超额收益。然而,面对层出不穷的异象,人们关心的问题是它们背后的原因是什么?弄清楚背后的原因有助于判断异象在样本外是否会继续有效。假如异象确实是真实的——即通过它们确实能够获得超额收益,那么这背后的原因一般可以归为风险补偿以及错误定价两个方面。当然,由于多重假设检验问题,如今人们已经知道大量异象都是虚假的,因此数据窥探就是它们在样本内有效的第三个原因。

对于真实的异象,搞清楚其背后的机制至关重要。错误定价意味着投资者可以通过合理的策略获得潜在的超额收益;而风险补偿则意味着投资者获得的收益是以承担额外风险为代价的。而对于通过数据窥探获得的虚假异象,有效识别它们可以帮助人们躲开过拟合、在样本外摒弃它们。本节就来介绍这三种原因的常见检验方法。对于识别风险补偿和错误定价这两种原因,Lee and So(2015)的第六章做过精彩的论述,在接下来的介绍中会适当参考。

6.5.1 风险补偿检验

1. 常识“检验”

判断异象是否源于风险补偿的第一个检验是通过常识来判断,它虽然不是一个正式的统计检验,但却简单有效。常识“检验”的依据是:如果异象来自风险补偿,那么获得高收益的股票应该比获得低收益的股票承受了更高的风险。如果事实并非如此,就可以拒绝风险补偿这种解释。有意思的是,对于很多超额收益,基于风险补偿的解释在常识上却无法说通。以盈余惯性异象为例,该现象指出在盈余公告发布后,拥有好消息的公司能够跑赢拥有坏消息的公司。按照风险补偿解释,这意味发布盈余好消息的公司(基本面通常更强)要比发布坏消息的公司有更高的风险,这显然违背常识。

2. 来自资产定价模型的推论

除了常识“检验”外,还可以利用资产定价模型的推论来区分风险补偿和错误定价。一个变量如果能够预测未来收益,本质上是因为它是资产对某个系统性风险暴露程度的优秀代理变量。按照传统定价理论,使用该变量构建一个因子模拟投资组合,而资产在该风险上的暴露大小则由资产对该组合的 $\beta$ 值决定。在风险补偿解释下,该 $\beta$ 值应该比变量本身更能预测未来收益率。但是学术界在很多变量上

却观察到相反的结果。举例来说,Daniel and Titman(1997)发现BM变量本身比股票对以BM构建的价值因子的β值具有更强的收益率预测能力。类似的,Hirshleifer et al.(2012)使用同样的方法考察了应计利润,发现应计利润能够预测未来收益率,而基于应计利润的β值则不具备预测能力。

3. 宏观经济的影响

如果异象背后的原因是风险补偿,那么可以预期宏观经济因素将影响其收益率。例如,Savor and Wilson(2013)发现在宏观经济数据发布期间,市场的超额收益是平时的10倍;类似的,Savor and Wilson(2014)发现在这些日子中,股票的收益率数据也更加符合CAPM理论。因此,检验风险补偿的第三种方法是考察异象收益率的时间序列特征是否因处于宏观经济周期造成的不同市场状态下有所差异。如果异象源自风险补偿,那么可以预期它在宏观经济发布期间的收益率更高(因为经济长期来说是向上的);同时也可以预期当市场处于极端风险状态下(比如经济衰退时期)它的表现会非常差,出现较大亏损。

在检验中,可利用Fama-MacBeth回归获得异象收益率的时间序列。使用经济周期指标把市场划分为不同的状态区间,并考察收益率序列在不同区间内的差异。Lakonishok et al.(1994)用上述方法检验了价值因子,发现价值因子在经济衰退时的表现和平时并无显著差异,且有时还比未发生衰退时更好,由此认为价值因子背后的原因并非风险补偿。

6.5.2 错误定价检验

如果异象超额收益背后的原因是错误定价,那么通常可以观察到这样的现象:在异象投资组合构建后的一段时间内,其累计收益会持续上升。举例来说,Lee et al.(2019)提出了科技动量异象,它的投资组合在构建后的六个月内的累计收益持续上升。这个现象表明该异象代表了一个价格发现的过程,说明价格对于与科技动量相关的消息的吸收是缓慢的,从而出现了错误定价。为了检验异象是否源于错误定价,可以考虑以下方法。

1. 业绩公告期

考察因子收益率在业绩公告期窗口内的大小是一种被学术界普遍使用的方法。它背后的逻辑是,如果某个异象和错误定价有关,则其在业绩公告期内应该比其他时间内获得更高的收益,这是因为最新的业绩报告有助于修正投资者之前对该股票的定价错误。而反过来,如果该异象是源自风险补偿,那么该异象在不同时期的收益率应该大致相当,人们不应观察到业绩公告期内异象收益率较平时发生显著的变化。

对于上述假设的检验可以参照Engelberg et al.(2018)提出的方法。其思路是使用股票日收益率作为被解释变量和一系列解释变量进行跨期、跨公司的混合回归(pooled regression)。回归中的解释变量包括:历史异象变量取值、盈余公告窗口哑变量(如果某天处在盈余公告窗口内,则取值为1,反之为0)、异象变量和盈余公告窗口哑变量的交叉项,以及其他相应的控制变量——例如收益率的滞后项、成交量的滞后项等。此外,为了考虑不同日期收益率的差异,在该回归中

也往往加入时间的固定效应项。上述回归得到的系数就是不同解释变量的收益率。如果异象源自错误定价,则异象变量和盈余公告窗口哑变量的交叉项的系数应该显著大于异象变量的系数。Engelberg et al.(2018)使用这个方法研究了美股上的97个因子,异象在盈余期内的收益率比非盈余期内收益的收益率高了6倍,回归结果支持了错误定价的说法。

2. 预测未来基本面

第二个检验方法是考察异象和标准化的预期外盈利(Standardized Unexpected Earnings,简称SUE)之间的关系。一直以来,人们认为如果某个异象源于风险补偿,那么它在一些风险因子上会有更高的暴露。由于无法罗列出所有的风险,因此这种观点受到模型设定偏误的挑战,因为即使异象在已知风险因子上的暴露很低,它也可能代表着某个尚未被识别的风险。这种进退两难的局面让使用SUE这种仅和公司基本面相关的指标格外有吸引力。由于SUE是一个非收益率指标,不会因对风险的控制不足而受到影响。

令 $Q_{it}$ 表示上市公司 $i$ 在季度 $t$ 的盈利,则SUE的定义为:

$$ \mathrm {S U E} _ {i t} = \frac {Q _ {i t} - E [ Q _ {i t} ]}{\sigma (Q _ {i t} - E [ Q _ {i t} ])} \tag {6.21} $$

上式中分子表示实际盈利和预期盈利之间的差异,该差异可正可负,表示预期外盈利;分母为差异的标准差,起到对分子标准化的作用(因此SUE被称作标准化后的预期外盈利),通常使用过去8到20个季度的差异数据计算。由(6.21)可知,计算SUE时最重要的输入是对盈利的预测。在这方面,Foster(1977)和Foster et al.(1984)对学术界常用的方法进行了介绍和应用[2]。

Lee et al.(2019)使用预测性回归,检验了他们提出的科技动量异象能否预测公司未来的SUE。由于SUE是公司未来现金流的决定因素,如果该异象能够预测SUE则说明前者的超额收益和公司基本面的改变相关,而非风险补偿。实证结果显示,当季度的科技动量异象对未来三个季度的SUE都有显著的预测性,且这种预测性在逐步减弱。这一结果有力地支持了该异象来源于错误定价,而非风险补偿。

3. 有限注意力导致错误定价

从6.3节的介绍可知,行为金融学中的有限注意力能够导致市场异象。大量研究发现,资产的错误定价和投资者的有限注意力密切相关。沿着这个思路出发,一个自然的想法就是,如果异象背后的原因是错误定价,那么投资者关注度低——即有限注意力问题更严峻——的公司的异象收益率更高。由于有限注意力并不是一个可以直接衡量的指标,为此只能找一些代理变量。学术界通常认为市值小、分析师覆盖少、媒体报道少、机构投资者占比低的公司获得投资者的关注更低,因此投资者有限注意力问题更严峻(Hou 2007,Cohen and Frazzini 2008,Fang and Peress 2009,Hirshleifer et al. 2013,Drake et al. 2014,Jiang et al. 2016)。

Fama-MacBeth截面回归常被用来检验上述猜想。在检验中,当期异象变量和代表有限注意力代理变量的哑变量,以及该哑变量和异象变量的交叉项被选为解释变量,股票下期收益率为被解释变量,考察具有上述特征的公司是否比它们的

对立面能够获得更显著的收益率。如果答案是肯定的(表现为交叉项的回归系数是非常显著的),则可以支持错误定价解释。

除Fama-MacBeth回归外,使用条件双重排序法也可以进行检验。具体而言,可以使用前述有限注意力的代理指标,首先根据其高低将股票分组。之后,在每一组内,再按照待检验的异象变量将股票分组。最后,计算不同有限注意力分组中异象的预期收益率,并比较它们的显著性水平是否有差异。如果有限注意力是导致错误定价的原因,那么在有限注意力更强的组中应该能够观察到更显著的异象收益率。

4. 套利成本

除有限注意力外,行为金融学指出理性投资者之所以无法消除错误定价,是因为和套利成本(cost of arbitrage)有关。由于套利成本高的公司更容易出现错误定价,因此这些公司比套利成本低的公司的因子收益率更高。和有限注意力类似,套利成本也无法被直接衡量,因此需要代理变量。学术界使用的常见代理变量包括特质性波动率(Pontiff2006,Stambaugh et al. 2015)、负面新闻(Hong et al. 2000,Hirshleifer et al. 2011,Beneishet al. 2015),以及机构投资者占比(Chen et al. 2002)。

在检验中,同样可以使用Fama-MacBeth回归和条件双重排序法。如果套利成本高的公司的异象收益率更高,就可以支持错误定价解释。Lee et al.(2019)使用上述方法检验了科技动量因子,认为它背后的原因更可能是错误定价而非风险补偿。

6.5.3 数据窥探检验

除了风险补偿和错误定价外,另一种从样本内挖出显著异象的原因是数据窥探(data snooping),也就是过拟合。早在近30年前,Lo and MacKinlay(1990)就曾指出数据窥探在检验资产定价模型中会造成一定的问题。类似的,Sullivan et al.(1999)以技术分析策略为对象,使用White(2000)的方法研究了如何修正数据窥探偏差的影响,从而更加科学地评价那些策略的表现。2016年,Campbell Harvey教授和他的合作者发表了一篇著名的文章(Harvey et al.2016),题为…and the cross-Section of expected returns。该文的题目颇有讽刺意味:学术界发现新异象的论文题目一般都是×××and the cross-section of expected returns,其中×××代表异象的名字。因此Harvey et al.(2016)一文使用了这样的题目无疑是吐槽学术界挖掘出来的众多异象。该文分析了316个异象,并指出在排除了多重假设检验影响后,绝大多数均无法获得显著的超额收益。

除此之外,Linnaia and Roberts(2018)还花费大量的精力构建了全新的样本外数据,并用新的数据检验了美股中源于会计数据的36个异象(表6.3)在样本内、外表现的差异。分析表明,绝大部分异象在样本外明显失效,这种现象和未知风险以及错误定价两种解释严重不符,因此这些异象很有可能仅是数据窥探的产物。

类别序号因子论文样本区间(年)
盈利1毛利润率Novy-Marx (2013)1963—2010
2营业利润率Fama and French (2015)1963—2013
3资产收益率Haugen and Baker (1996)1979—1993
4净资产收益率Haugen and Baker (1996)1979—1993
5毛利润Soliman (2008)1984—2002
6资产周转率变化Soliman (2008)1984—2002
盈利质量7应计利润Sloan (1996)1962—1991
8盈利一致性Alwathainani (2009)1971—2007
9净营业资产Hirshleifer et al. (2004)1964—2002
10净营运资本变动Soliman (2008)1984—2002
价值11市净率Fama and French (1992)1963—1990
12市现率Lakonishok et al. (1994)1968—1990
13市盈率Basu (1977)1957—1971
14企业价值倍数Loughran and Wellman (2011)1963—2009
15市销率Barbee et al. (1996)1979—1991

续表

类别序号因子论文样本区间(年)
投资和成长16资产增长Cooper et al. (2008)1968-2003
17库存增长Thomas and Zhang (2002)1970-1997
18销售增长Lakonishok et al. (1994)1968-1990
19可持续增长Lockwood and Prombutr (2010)1964-2007
20调整后的资本支出增长Abarbanell and Bushee (1998)1974-1993
21销售增长与库存增长之差Abarbanell and Bushee (1998)1974-1993
22投资增长率Xing (2008)1964-2003
23异常资本投资Titman et al. (2004)1973-1996
24投资/资本比率Xing (2008)1964-2003
25投资/资产比率Lyandres et al. (2008)1970-2005
融资26新增发债Spiess and Affleck-Graves (1999)1975-1994
27杠杆率Bhandari (1988)1948-1979
28一年股票增发Pontiff and Woodgate (2008)1970-2003
29五年股票增发Daniel and Titman (2006)1968-2003
30外部融资总额Bradshaw et al. (2006)1971-2000
困境31O-ScoreDichev (1998)1981-1995
32Z-ScoreDichev (1998)1981-1995
33困境风险Campbell et al. (2008)1963-2003
综合34F-ScorePiotroski (2000)1976-1996
35市净率和应计利润Bartov and Kim (2004)1981-2000
36综合质量Asness et al. (2013)1956-2012

从表6.3中不难观察到这36个异象中绝大部分的样本内数据起始时间都是1963年之后。这是因为标准普尔公司在1962年创建了Compustats数据库,它包含了较高质量的财务数据,为实证研究奠定了基础。Linnainmaa and Roberts(2018)则另辟蹊径,使用Moody's Industrial and Railroad手册中的数据构建了自1926年至1963年之间的财务数据。对于上述36个异象,这些数据被称为前样本外(pre-sample)数据。除此之外,从每个异象在论文中使用的样本数据终点到Linnainmaa and Roberts(2018)一文写作之际就构成了这些因子的后样本外(post-sample)数据。综合前、后样本外数据就得到了整个样本外数据。如果异象背后的原因是未知风险或者错误定价,那么它们应该在样本外依然成立。考虑到早期更高的交易

费用代表着更高的套利成本,那些由错误定价解释的异象在前样本外数据中应该更加显著。

使用崭新的样本外数据,Linnainmaa and Roberts(2018)分析了这36个异象在样本内/外的绝对收益、CAPM- $\alpha$ 以及Fama-French三因子- $\alpha$ ,结果发现它们在样本外(包括前、后样本外)的表现均远远不如其在样本内的表现。以统计来看,在样本内,无论从收益、CAPM- $\alpha$ 还是Fama-French三因子- $\alpha$ ,这36个异象均显著。而在1963年之前的前样本外期间,这三个指标下显著的异象个数变为8、8和16;在异象被发表后的后样本外期间,这三个数字变为1、10和9。此外,他们发现随着宏观经济的变化,在整个实证区间的前半段,有效的异象和有形投资以及股权融资相关;在实证区间的后半段,有效的异象和无形投资以及债券融资有关。这似乎说明只有真正和经济相关的异象背后才可能存在未知风险或错误定价的解释,而非来自数据窥探。

对于异象和因子在被发现后表现变差,另一种来自套利者的解释(McLean and Pontiff2016)也被广泛接受。当某个能够预测股票收益率的变量被发现后,套利者便开始利用其进行交易,导致它代表的市场的非有效性降低,表现逐渐失效。如果这个解释成立,那么当异象被发现后,它的收益率应该和其他已经被发现的异象的收益率的相关性就会更高。这是因为市场上的聪明交易者同时在交易这些不同的异象,使得按它们构建的策略的资金流入和流出相对一致,从而造成异象表现的趋同。为了检验这个说法,Linnainmaa and Roberts(2018)对前样本外和后样本外的因子收益率数据进行了回归分析。结果却多少有些尴尬,因为在前、后两个样本外区间,他们都发现所有异象的收益率均呈现正相关。

显然,人们不能使用套利者的交易行为来解释前样本外期间因子收益率之间的正相关。这是因为在论文被发表前异象尚未被公开,因此套利者根本无法交易它们。更不幸的是,由于在前、后样本外观察到了几乎一致的现象,这也间接质疑了后样本外中套利者这个解释。另一方面,上述现象的一个合理的解释是在样本内,数据窥探不仅对异象的一阶矩(即预期收益)造成了影响,更对异象之间的高阶矩(即相关性)也造成了错误的影响。唯有此才能够解释在前、后样本外期间都观测到的异象之间不合理的正相关性。这便是数据窥探的另一个证据。

当很多人都在使用同样的数据来分析大量不同的选股变量时,最终被发表在顶级期刊上的那些异象注定是在样本内表现非常优秀的。但是样本外呢?即便学者们试图从未知风险和错误定价角度去解释这些异象,但它们背后仍然存在着严重的发表偏差和数据窥探偏差。面对这些偏差,以提高代表样本内显著性水平的t-值阈值为目标的方法作用仍然有限。Harvey et al.(2016)指出在条件的允许下,使用样本外全新的数据检验才是排除虚假因子的最好办法。

[1]具体例子见Bernard and Thomas(1989),Chopra et al.(1992),Gleason and Lee(2003)等。
[2]公众号“Chihiro Quantitative Research”的文章《盈利的其他方面(下)》对计算预期盈利的不同方法进行了详细说明。

6.6 因子样本外失效风险

因子样本外的表现较样本内变差是人们的共识。这里的因子包括异象和因子,在下文不做区分,统称为因子。造成因子样本内、外表现差异的最主要原因自然是样本内的数据窥探(即因子本来就是假的),但如果因子确实是真实的,那么它们在样本外变差的原因是什么呢?学术界和业界的主要观点包括:曝光导致错误定价减弱、因子拥挤、交易成本。下面分别做简要介绍。

6.6.1 曝光导致错误定价减弱

如果一个因子背后的原因并非系统性风险补偿,那么它代表着市场在某方面的非有效性、代表了某种错误定价。只要套利限制不是过大,聪明的投资者就一定会先人一步去交易这个因子,导致定价错误收窄甚至消失,这就解释了为什么当因子被发表后,它的收益往往也跟着显著下降。

在这方面,McLean and Pontiff(2016)的研究颇具代表性。该文研究了97个因子,发现因子样本外的表现比样本内的表现下降了 $26\%$ 、发表后(post-publication)的表现较样本内则下降了 $58\%$ 。McLean and Pontiff(2016)考虑样本内外差异是为了控制过拟合的影响。上述结果表明, $58\%$ 与 $26\%$ 之差——即 $32\%$ ——就是发表本身造成因子效果的减弱。McLean and Pontiff(2016)把它称作因被发表而造成的“知情”交易(publication-informed trading)。这背后的逻辑链是:因子被发表导致它被公布于众,越来越多的人交易该因子从而减弱了错误定价,最终导致因子收益率降低。

如果说McLean and Pontiff(2016)检验了因子的平均收益,Bowles et al.(2019)则是从时效性的角度展示了因子背后的信息越来越快地被反映到价格之中。长久以来,由于Fama and French(1993)的影响太过深远,学术界在研究因子的时候为了避免未来数据,通常采用每年再平衡的方法(量价相关的指标通常是月频再平衡),导致构建因子的指标数据严重滞后。这其中最著名的例子要数 Eugene Fama的学生Clifford Asness使用月频价格对Fama-French三因子模型中的价值因子(HML)的改造。Asness and Frazzini(2013)发现,使用月频价格数据构造的价值因子较原始价值因子表现更好,说明了数据时效性的重要性。

对于使用财务指标构造的因子,学术界之所以使用每年再平衡是因为学术界的重心毕竟是实证资产定价。为了研究成果的可复制性和可比性,大家用的都是同样的数据库、采用同样的再平衡周期,因此也就没有想过要用粒度更细的数据。Bowles et al.(2019)反其道而行之,使用Compustat Snapshot数据库对因子时效进行了分析。Snapshot数据库在学术界用得很少,但它却是有着粒度最细的数

据,精确记录财报中每个变量更新的时间。

以美股为例,通常上市公司先有业绩公告然后才有季报(10-Q)和年报(10-K)的披露。而在业绩公告时往往只会公布总收入和净利润等部分指标,而等到正式的财报中才披露全部财报内容。在这种情况下,SnapShot数据库会在业绩公告当日更新总收入和净利润这些先期被披露的数据,而等到财报披露之后再更新其他数据。因此,使用SnapShot数据可以保证在用来计算因子的指标被更新后,第一时间更新因子,进行投资组合的再平衡。利用SnapShot数据,Bowles et al.(2019)研究了一些常见的源自财务数据的因子,发现绝大多数因子在最新数据更新后的120天之内(特别是最初的30天内)能够获得显著的超额收益。而在120天之后,超额收益消失。基于这些发现,Bowles et al.(2019)认为因子的超额收益很快就会因套利交易而消失,说明因发表造成的曝光导致因子背后的错误定价被削弱。和Bowles et al.(2019)针对美股的研究类似,国内的券商金工团队针对A股也做过类似的研究,并发现利用业绩预告和快报能够提升财务信息的时效性,提高财务因子的表现。

6.6.2 因子拥挤

造成因子样本外变差的第二个原因是因子拥挤(factor crowding)。通常来说,因子的表现都有周期性。当某类因子好使的时候,就会造成更多的资金涌入,从而出现因子拥挤,并降低该因子未来的预期收益率。而使用相似的指标排序、接近的调仓频率的因子投资无疑加剧了这种负面影响。由于因子拥挤度和因子未来收益率呈现负相关,如何定量计算因子拥挤度就成为人们关注的问题。在这方面,MSCI整理了相关研究,提出五个描述因子拥挤度的代理指标(Bayraktar et al.2015,Bonne et al.2018)。这五个指标包括估值价差(valuation spread)、配对相关性(pairwise correlation)、因子波动率(factor volatility)、因子反转(factor reversal)以及做空持仓量差异(short interest spread)。由于制度问题,做空持仓量差异在A股上并不适用,所以下面对其他四个指标做简要介绍。

1. 估值价差

顾名思义,估值价差考虑的是因子的估值是否便宜。其背后的逻辑是,当更多资金涌入某个因子时(特别是多头时),会造成受波及股票的价格上涨,使它们的估值变高。因此,因子估值和因子拥挤度成正相关,是一个不错代理指标。估值价差的计算方法十分直观。首先选择一个合适的股票估值指标,比如BM,然后分别计算因子多空两头组合中该估值指标的中位数,以此作为多空两头的估值,最后这两个估值差就是因子的估值价差。当使用BM时,因子估值价差的表达式为:

$$ \text {估 值 价 差} = \ln \left(\frac {\text {多 头 中 个 股 B M 中 位 数}}{\text {空 头 中 个 股 B M 中 位 数}}\right) \tag {6.22} $$

2.配对相关性

第二个因子拥挤度指标是配对相关性。它是为了从因子投资组合内股票收益率的相关程度来试图揭示资金持仓的集中程度,并以此来评价因子的拥挤程度。

为了计算该指标,可采用如下步骤:

(1) 从股票收益率中提出系统性的部分, 得到特质性收益率。
(2)对于多、空两头,分别计算每支股票的特质性收益率和其他股票特质性收益率均值的相关系数。以多头为例,使用多头组合中第i支股票的特质性收益率和多头组合内其他股票的平均特质性收益率计算相关系数。空头处理相同。
(3) 在多、空两头组内,分别计算每组上述相关系数的均值。
(4)将多、空两头相关系数均值再取平均,得到该因子配对相关性的原始值,最后再将该值进行标准化得到最终该因子的配对相关性。

3. 因子波动率

由于资金的流入会加剧因子收益率的波动,因此Bonne et al.(2018)从这个角度提出了衡量因子拥挤度的第三个指标,即因子波动率。值得一提的是,该文使用的是预测的未来因子波动率相对未来市场波动率的比值来计算该指标。他们认为这么做可以有效控制市场波动率变化造成的影响。在实际操作中,一个简化的处理方法是使用因子的历史波动率。4. 因子反转

最后一个因子拥挤度指标是因子反转。De Bondt and Thaler(1985)这篇著名的论文表明美股在3到5年的中长期尺度上存在反转。由于因子是股票构成的投资组合,因此可以从股票的反转延伸出因子的反转,使用因子过去三年的累计收益率计算该指标。

因子拥挤也会引发流动性冲击。一旦市场中发生冲击因子的事件,持有相似头寸的管理人会竞相卖出手中的股票,由此产生的流动性危机会造成很大的亏损。2007年8月,美股市场上一些非常优秀的量化对冲基金在短时间内录得了巨大的亏损。Khandani and Lo(2011)对此进行了研究并发现,很多基金经理在短时间内清理了相似的头寸,巨大的抛压对流动性造成了巨大的打击、使得这些股票的价格在短时间内大幅下跌。

6.6.3 交易成本

交易成本是因子在样本外的效果较样本内显著变差的第三个原因。大多数研究因子的学术论文中并没有对交易费用给予充分的考虑,造成对因子收益率的高估。此外,由于因子投资组合一般都是多、空对冲的组合,因此如果不合理考虑做空限制,也会高估因子的收益。以价值类因子为例,Kok et al.(2017)指出并没有证据表明基于BM的策略可以持续战胜基准。BM在回测中的良好表现主要来自做空一小撮微小市值的成长股。尽管该因子的纸面收益率很高,但在实际中考虑了各种成本和费用之后,却难以盈利。Novy-Marx and Velikov(2016)研究了交易费用对因子效果的影响,并提出三个思路降低交易成本:(1)仅使用交易费用低的股票构建因子组合;(2)降低因子组合再平衡的频率;(3)在交易时考虑更严格的买卖价差约束。

买卖价差(bid-ask spread),对美股上多达120种因子进行了研究,发现当考虑了交易成本后,这些因子平均月收益率在样本内从超过 $0.6\%$ 下降到 $0.3\%$ ,而样本外的月均收益率甚至为负数。为降低交易成本对因子收益率的侵蚀,该文提出了一些优化交易算法,有效降低了换手率和成本。但即便在这种情况下,这120个因子的样本外月均收益率仅有 $0.13\%$ 。除此之外,这120个因子月均收益率均值的分布近似一个均值为零的正态分布,和随机因子的表现并无太大差异,即如果完全随机生成120个因子,其中也总会有一些是显著的。由于发表的因子都多少存在选择偏差(selection bias),因此面对上述结果,Chen and Velikov(2019)不禁发问:在排除运气后,还有多少因子是显著的?为了回答上述问题,两位作者采用了经验贝叶斯方法对选择偏差进行了修正。

假设因子 $i$ 在被发表后的样本平均收益率 $\bar{r}_i$ 由真实 $\mu_i$ 和随机扰动 $\varepsilon_i$ 决定:

$$ \bar {r} _ {i} = \mu_ {i} + \varepsilon_ {i} \tag {6.23} $$

其中 $\varepsilon_{i}$ 满足正态分布 $\mathcal{N}(0, \mathrm{SE}{i}^{2})$ ,这里 $\mathrm{SE}{i}$ 是 $\bar{r}{i}$ 的标准误(standard error)。进一步假设所有因子收益率的真实均值 $\mu{i}$ 都满足如下正态分布:

$$ \mu_ {i} \sim \mathcal {N} \left(\mu_ {\mu}, \sigma_ {\mu} ^ {2}\right) \tag {6.24} $$

使用矩估计(method of moments)对 $\mu_{\mu}$ 和 $\sigma_{\mu}$ 进行估计:

$$ \hat {\mu} _ {\mu} = \frac {1}{N} \sum_ {i} \bar {r} _ {i} \tag {6.25} $$

$$ \hat {\sigma} _ {\mu} ^ {2} = \max \left{\left[ \frac {1}{N} \sum_ {i} \left(\bar {r} _ {i} - \hat {\mu} _ {\mu}\right) ^ {2} - \frac {1}{N} \sum_ {i} \mathrm {S E} _ {i} ^ {2} \right], 0 \right} \tag {6.26} $$

上式中 $\hat{\mu}{\mu}$ 是所有因子平均收益率的截面均值。接下来,使用贝叶斯收缩(Bayes shrinkage)方法,利用 $\bar{r}_i$ 和 $\hat{\mu}{\mu}$ 来估计因子 $i$ 的真实收益率均值:

$$ \hat {\mu} _ {i} = s _ {i} \hat {\mu} _ {\mu} + (1 - s _ {i}) \bar {r} _ {i} \tag {6.27} $$

其中 $s_{i}$ 是收缩系数, 由 $\bar{r}{i}$ 的标准误 $\mathrm{SE}{i}$ 和 $\mu_{\mu}$ 的标准差 $\hat{\sigma}_{\mu}$ 的相对大小决定:

$$ s _ {i} = \frac {\mathrm {S E} _ {i} ^ {2}}{\hat {\sigma} _ {\mu} ^ {2} + \mathrm {S E} _ {i} ^ {2}} \tag {6.28} $$

结合 $s_i$ 的定义式(6.28)不难看出,如果 $\mathrm{SE}i$ 小说明 $\bar{r}_i$ 可信,则收缩后的因子 $i$ 的收益率由其主宰;如果 $\mathrm{SE}_i$ 相对 $\hat{\sigma}{\mu}$ 很大就说明 $\bar{r}_i$ 不可信,则因子 $i$ 的收益率由全部120个因子的截面均值主宰。使用经验贝叶斯调整后,即便是最好的因子(排名前 $5 \%$ ),当被发表后月均收益率也仅有 $0.21\%$ 。基于以上结果,他们认为考虑了合理的交易成本后,绝大多数因子在样本外都无法获利。

由于曝光导致错误定价减弱、因子拥挤以及交易成本等原因,因子样本外表现变差是因子投资中必须面对的问题。这也催生了业界对因子择时的极大兴趣,并尝试使用各种手段持续挖新的因子(新的因子意味着曝光少、拥挤度低)。Arnott et al.(2019)一文也严肃讨论了投资人在因子投资中常犯的三大错误,第一条就是对样本内的表现非理性外推,造成对因子样本外的表现缺乏理性预期。另外,当因子表现变差时,人们由此想到的另一个问题是因子是否会失效。如果因子背后的原因是风险补偿或者错误定价,那么还是有理由相信因子长期来看会有效的。在这方面,Asness(2015)有过精彩的讨论,认为诸如价值、动量等因子在长期来看会持续有效。这背后的原因主要包括:

(1)从风险的角度来看,因子承担了某些不可预知的风险,需要得到相应的补偿。只要风险是真实存在的,承担这种风险长期就会得到回报。
(2)从行为金融学的角度来看,投资者认知偏差和信息传播速度等因素可以导致股票的价格偏离内在价值。只要投资者“动物精神”(Keynes 1936)不消失,那么错误定价就会一直存在,就给了使用因子获取收益的机会。

最后,还有一个事实也不得不提。很多人知道了一个因子,并不代表他会利用这个因子,也并不代表他无条件信任这个因子,更不代表他会坚定不移地使用这个因子。知道并不意味着懂,懂并不意味着会用,会用也并不意味着始终如一。因此,有充分先验依据的因子的长期表现依然值得期待。

[1]这还是在允许等权重构建因子的前提下。当使用市值加权时,该数值降低至 $0.07\%$ 。

6.7 因子投资难以取代基本面分析

在因子投资中,很多因子是以财务报表中的会计学指标作为变量来构造的,比如BM、ROE等,它们被称为基本面因子。定量使用这类风格因子进行的基本面投资则被称为基本面量化投资(quantamental)。随着因子投资被广泛接受,基本面量化投资也已深入人心,在华尔街大行其道。基于某些财务指标以及投资组合优化的手段,大量基于简单规则的选股策略被发明出来,它们被视为继承了基本面分析(fundamental analysis)的衣钵。另一方面,因子投资的普及造就了数不胜数的Smart Beta ETF产品,其中绝大部分或多或少都会使用基本面因子。这些低成本ETF产品让普通投资者享受因子投资的同时,也推波助澜了基本面分析的“因子化”。面对如此影响深远的变化,华尔街日报不禁高呼“宽客占领华尔街”。

随着使用因子来执行的基本面量化投资的影响日益深远,也有学者表达了担忧。其中代表性的观点是,仅使用财报中的各种指标来构建因子这种相对“简单粗暴”的方式并非基本面分析的合格代替品。基于财务数据、使用排序法构建因子的手段仅仅是对证券内在价值(intrinsic value)的朴素估计,存在很大的误差。该观点背后的代表人物正是以研究盈余操纵而闻名的Richard Sloan教授[1]。

2017年,Sloan教授应美国会计协会主席邀请作为当年年会的演讲嘉宾,做了一篇题为Fundamental analysis simplex(基本面分析的重生)的报告(后发表于Sloan 2019)。在报告中,他认为学术界越来越忽视基本面分析的重要性,而是倾向于用有限个简单的财务指标构建因子模型来代替前者。基于因子的基本面量化投资很容易忽视掉财报中的重要信息,且这些指标的数值反映的很可能是失真的会计数据(上市公司充分利用会计准则来产生会计报表)而非某种能够实现盈利的错误定价机会。那么,使用基本面因子进行投资是否能够取代基本面分析呢?本节就来回答这个问题。

接下来的6.7.1节和6.7.2节首先简要回顾基本面分析和基本面量化投资的简要历史。6.7.3节通过一个例子说明基于因子的基本面量化投资无法取代基本面分析。最后6.7.4节做更深入的讨论。

6.7.1 基本面分析

基本面分析源自Graham and Dodd(1934)这本著名的Security Analysis(证券分析)。基本面分析旨在通过定量和定性分析与上市公司相关的经济和金融数据来衡量证券的内在价值。基本面分析更是直接催生了金融分析师这个职业。1937年,纽约证券分析师协会成立,并于8年后推出了The Analysts Journal。1947年,美国一些地方的证券分析师协会合并,成立了第一个全国性的金融分析师协会

(National Federation of Financial Analysts Societies)。随后,该协会更名为金融分析师联合会(Financial Analysts Federation),The Analysts Journal也更名为Financial Analysts Journal。1959年,特许金融分析师协会(Institute of Chartered Financial Analysts)成立并开始举办特许金融分析师(Chartered Financial Analysts)考试。最终,FAF和ICFA合并组成了如今家喻户晓的CFA协会。

随着金融分析师行业的发展,在上世纪70年代前后,基本面分析主宰了华尔街。在机构方面,有像富达投资(Fidelity)这样的巨头使用严格的基本面分析来推行它们的业务;而在投资者方面,有像Warren Buffet和John Neff这样的明星作为基本面分析的拥趸。此外,CFA协会在其课程设置上也把基本面分析作为在重中之重。然而就在同期,随着学术界在金融领域的迅速发展,一些变化悄然发生了。

自20世纪50年代开始,现代投资组合理论、CAPM、有效市场假说以及期权定价相继被提出,奠定了金融学的基础。而它们之中,对基本面分析造成最大冲击的当属有效市场假说。如果市场是有效的,那么价格已经很好地反映了证券的内在价值。因此,除非分析师有新的消息,或者对已有消息有新的解读,否则是无法通过已有财报找到错误定价的。虽然有效市场假说自问世以来便伴随着争议,但它依然作为市场第一范式牢牢统治了学术界的课堂。以Bodie et al.(2017)这本投资学“圣经”[2]为例,其写作理念就从一定程度上支持了有效市场假说作为教学的第一范式,因此仅使用了很少的篇幅介绍基本面分析,而将更多的章节留给投资学中的其他内容。80年前,Graham and Dodd(1934)这本Security Analysis用了15章的内容介绍基本面分析,而如今在Bodie et al.(2017)这本几乎商学院学生人手一册的经典著作中,仅用了1章介绍基本面分析,与之形成巨大反差的是,该书中有9章介绍投资组合管理、3章介绍资产定价、2章介绍有效市场假说,以及4章介绍衍生品定价。这种在学术界和教学中对于基本面分析的逐渐忽视潜移默化地影响了一代代新人,让基本面分析渐渐淡出了大众的视野。

6.7.2 基本面量化投资

本节回顾使用因子进行基本面量化投资的发展史。对于股票市场的定量分析很大程度上得益于20世纪60年代CRSP[3]推出了股票价格数据,让使用历史数据进行实证分析成为可能。有了数据的支持,学术界各显神通,先是对CAPM进行了检验并拒绝了它,而后又接二连三地发现了一个又一个的异象或因子。比如Fama-French三因子中使用BM变量构造的价值因子就是基本面因子中最著名的例子。

随着学术界在挖掘异象的道路上越走越远,业界自然也没闲着。业界把学术界的研究成果很好地落地化,推出了许多风格指数。举例来说,1987年罗素投资(Russell)推出了最早的两个风格指数,分别对标价值股和成长股。这两个指数的构造方法用的正是BM变量——BM取值位于前一半的股票被放进了价值指数、位于后一半的股票被放入了成长指数。在这之后,标普道琼斯公司(S&P Dow Jones)、明晟(MSCI)等机构也推出了它们各自的风格指数。

最初,推出这些指数的目的是用来评估主动基金经理人的业绩,然而不久之后,复制这些指数的基金便应运而生,其中的代表是大名鼎鼎的先锋集团(Vanguard)。1992年,先锋推出了第一支价值指数基金和第一支成长指数基金。

其中,价值指数基金一经推出便受到了追捧。人们把它们视作主动型价值投资的低成本替代品。鉴于价值因子取得的巨大成功,业界也开始把关注的重点转移到学术界发现的其他显著异象,并推出了一系列Smart Beta产品[4]。在这之中,除了价值因子之外,另一个高度依赖财务数据的基本面因子则当属质量(quality)因子。

表6.4展示了明晟、罗素以及富达三家提供的质量因子指数的选股标准。虽然每一家都用了不止一个财务指标来描述高质量公司,但不得不承认的是,这些标准依然非常粗糙。颇有意思的是这三个构造方法都使用了某种投资回报率指标(如ROE或ROA),这很大程度上得益于学术界在盈利因子上的研究成果(如Novy-Marx 2013),同时也反映出业界对于学术界的最新发现追踪得非常及时。截至2020年5月,规模最大的质量因子ETF的管理规模超过170亿美元。

表6.4 美股上常见的质量因子指数编制依据

供应商质量指标
明晟高净资产收益率(ROE)
低债务股本比(debt-to-equity ratio)
低盈利波动率(earning variability)
罗素高总资产收益率(ROA)
高资产周转率变化率(change in asset turnover)
低应计利润(accruals)
高运营现金流和债务比(operating cash flow-to-debt)
富达高自由现金流利润率(free cash flow margin)
高投资资本回报率(return on invested capital)
高自由现金流稳定性(free cash flow stability)

除了单一因子的指数外,业界的另一创新是将多个因子融合到一个指数化产品之中,从而实现同时投资于多个因子的目的。利用这样的产品,投资者只需要购买一个对应的ETF就可以分散化地暴露于几个相关性较低的风格因子上。这类产品中最著名的要数明晟的分散化多因子系列产品,它的目标是最大化地暴露在价值、动量、质量以及市值四个因子上。在该类产品线上,规模最大的ETF虽不如单一因子产品,但也仍然高达10亿美元。除了指数化产品之外,华尔街还有数不胜数的管理人采用基于因子的方法实践着基本面量化投资。这其中不乏Dimensional Fund Advisors、AQR Capital Management、ArrowstreetCapital等耳熟能详的名字。这些管理人都有基于基本面因子的产品。上述发展推动了基本面投资“因子化”的盛行,但也使得这种投资手段逐渐变得拥挤。

6.7.3 基本面投资“因子化”的不足

毫无疑问,以因子为工具的基本面量化投资带给人们全新的投资途径。然而,仅基于几个财务指标来构建因子这种做法相对粗糙,在很多时候难以反映财务报表中所传递出来的最具价值的信息。从这个意义上说,基本面投资的“因子化”还远远不能取代基本面分析。下面借用Sloan(2019)中的一个例子来说明这一

点。

Big Five Sporting Goods(下称BIG5)是一家总部位于美国加利福尼亚州的体育用品零售商,其主要针对美国西部市场。表6.5展示了2017年3月31日该公司的财务及量价指标。表中涉及的八个指标分属价值、动量、质量以及市值四大因子(其中价值和市值是典型的基本面因子)。除了BIG5之外,表6.5同时列出了全部股票中各指标上 $25\%$ 分位数、中位数以及 $75\%$ 分位数上的取值。从BIG5和全部股票对比可知,该公司集高价值、高动量、高质量以及小市值四大优点于一身。

表6.5 BIG5在价值、动量、质量以及市值因子上的取值

指标所属因子BIG5股票池25% 分位数股票池中位数股票池75% 分位数
EP价值0.0510.0020.0350.053
BM价值0.6160.2340.4250.661
经营现金流与市值比价值0.2220.0410.0700.110
过去12个月收益率动量38.9%5.5%22.9%45.1%
ROE质量8.4%-2.9%8.3%16.6%
债务股本比质量0.0650.1810.6311.250
应计与资产比质量-0.129-0.084-0.047-0.013
市值(百万美元)市值33355016205143

上述因子维度如此优异的股票怎能不令人心动?该公司也毫无悬念地从基本面多因子选股体系中脱颖而出,成了各路策略追逐的明星。在2017年3月31日持有该股票的前十大机构就不乏贝莱德(BlackRock)、先锋、千禧年(Millennium)等知名机构。当这些机构靠着多因子信号竞相购买BIG5之时,它的前最大股东Stadium Capital却悄悄地在2016年6月到2017年3月之间把它所拥有的全部 $13\%$ 股份先后卖出。与上述这些机构不同的是,Stadium Capital是一家专注于基本面分析的对冲基金。究竟谁比谁更聪明?是诸如贝莱德、先锋这些使用因子投资而重仓BIG5的机构,还是站在它们对立面的、深谙基本面分析的Stadium Capital?接下来的分析将会给出答案。

随着以亚马逊为代表的电商的迅速崛起,传统零售商受到了巨大的冲击,BIG5自然也不例外。其在2016财年的优异表现得益于它比它的竞争对手活得更长一些。BIG5的两大竞争对手分别为The Sports Authority和Sports Chalet。由于整个传统零售行业下行,这两家纷纷于2016年申请破产,这立竿见影地减少了BIG5在线下面临的竞争。竞争对手的破产使得BIG5成为线下消费者的唯一选择,这很大程度上提振了BIG5在2016年的业绩。但考虑到行业受到电商的冲击,这也仅仅是回光返照而已。在2016年Q3的财报中,BIG5也坦承了这一点。然而上述八个指标的优异数值却无法反映出上述问题。

除了竞争对手的纷纷垮台之外,另一个提升BIG5业绩的事件是2016年美国总统选举。当时,民主党候选人希拉里呼声颇高,而希拉里的主张之一是限制枪支。大量的枪支拥护者担心希拉里如果当选将会颁布更严厉的控枪措施,因此在当年11月份大选之前纷纷购置了更多的枪支。作为枪支的销售商,BIG5受此事件影响而大大提升了销售额。后面的事情大家都知道了,特朗普当选,舆论哗然。而枪支销售给BIG5带来的高收益也仅仅是昙花一现。再一次的,上述八个指标的

优异数值全然无法反映上述问题。

从价值因子角度来看,2016年销售额和盈利的激增让BIG5非常诱人,但当人们通过基本面分析得知这背后的原因后就会明白,这么高的财务数据是难以持续的。如果以它们来外推,则根本无法对该公司基本面的变化做出正确判断。事实上,该公司自2016年Q2直到2017年Q4,EPS几乎呈现单调下降走势,盈利能力下降得十分明显。

再来看看质量维度的ROE指标。财报显示,BIG5的ROE高达8.4%。但基本面分析发现其财报中存在司空见惯的财务陷阱,极大地降低了ROE中作为分母的账面价值,带来了ROE的虚高。由于BIG5处在一个衰落的行业之中,其PP&E的摊销成本大大低估了其原始成本。具体来说,PP&E的原始成本为3.2亿美元,而2016年财报中它的净PP&E仅为0.78亿美元。为了对此进行修正,Sloan(2019)将PP&E的累积贬值加回到账面价值中。重新计算后,ROE较前值8.4%降低了50%以上,仅为3.9%。以这个水平来说,BIG5并没有创造很好的回报。除ROE之外,质量因子的另外两个指标也出现了不同程度的失真。修正之后,债务股本比便从0.065一下跳升至1.500,使之直接成为高杠杆的公司。对于应计项目与资产比,BIG5在2016年年末有一大笔应付账款。因此,仅看其财报上的高额现金流实际上并不能正确判断其真实的运营情况,该现金流在未来难以持续。一旦通过基本面分析搞清楚了BIG5所处的行业背景以及其财报后面的来龙去脉,便会对此恍然大悟。在和依靠因子投资而选出BIG5的机构的比拼中,Stadium Capital笑到了最后。这个例子说明仅用简单的因子并不能很好地捕捉财报中其他有价值的信息。即便是在因子投资主宰的今天,科学、严谨的基本面分析仍有很高的价值。

6.7.4 思考和讨论

客观地说,基本面投资的“因子化”和基本面分析的使用者所具备的“能力圈”是不同的。对于普通投资者来说,正因为不具备专业金融分析师的基本面分析能力,才使用因子进行基本面量化投资。使用价值、质量等基本面因子的目标是以概率取胜。换句话说,也许使用有限个因子挑出来的个别股票并不靠谱(比如上文说的BIG5),但只要控制好仓位,让选出的标的足够分散,那么还是能够依靠概率优势和大数定律获得长期的风险溢价。

长久以来,学术界的主流观点认为,由于有限套利,市场并非完美有效。错误定价的大小应刚好等于通过基本面分析(以发现该错误定价)的实施成本。显然,使用一些广为人知的因子来实现基本面量化投资并没有实施成本,所以因子投资者应该对它能够取得的效果有客观、合理的认知。就因子投资的效果来说,样本内的过度挖掘以及样本外的过度拥挤都会对其产生很大的负面影响。基本面投资的“因子化”并不等同于基本面分析。

在Security Analysis中,Benjamin Graham和David Dodd就曾明确地指出投资者不应仅仅依靠几个量化的指标来制定其投资决策,而是应该进行全面系统的基本面分析。随着近几十年投资学作为一门独立学科高速发展,数量化的触角已经渗透到投资流程的方方面面,如今可以说是无量化不投资。时至今日,广义的量化投资已经发展成为基于现代科学方法的理论体系、研究方式以及工程系统的总和。因此,基本面分析和数量化方法(如因子投资)的合二为一注定会发生。当

前,基于因子的基本面量化投资只是一个过渡,而这二者的最佳结合应是使用数量化的手段来高质量、低成本地复制优秀基本面分析师对于财务报表勾稽关系的解读。当然,这绝不容易。

在现阶段,如何有效地利用基本面分析来提升因子投资的效果呢?主要有以下两个途径。首先,利用会计学知识可以加工因子。举一个最简单的例子。总资产收益率(ROA)是一个常用的变量。根据定义,它可以分解为:

$$ \frac {\text {净 利 润}}{\text {总 资 产}} = \frac {\text {净 利 润}}{\text {总 收 入}} \times \frac {\text {总 收 入}}{\text {总 资 产}} \tag {6.29} $$

上式左侧正是ROA。在上式右侧,它被分解为两部分的乘积。其中第一项是净利润率,代表了公司的效用(effectiveness);第二项是总资产周转率,代表了公司的效率(efficiency)。ROA的高低由效用和效率两要素决定。比起单一要素带来的高ROA而言,当效用和效率都很高时,这个公司更有可能是优秀的公司。从这个猜想出发可以把单纯基于ROA的因子改进分解成这两部分的组合,并从这两个维度的综合评分来选股[5],以此和单纯使用ROA选股进行对比。表6.6给出了针对A股的实证结果(市值加权)。

表6.6 ROA分解实证结果

市场基准单纯ROA多头分解ROA多头
年化收益率(%)7.9412.3613.21
夏普比率(年化)0.420.570.59
最大回撤(%)-70.59-69.86-69.15

ROA分解后,纯多头组合的年化收益率较单纯使用ROA的多头组合从 $12.36\%$ 上升至 $13.21\%$ ,夏普比率从0.57上升至0.59。利用简单的会计学知识就有可能改进一个常见的因子并取得更好的风险收益特征。再次强调的是,这仅仅是一个简单的例子,基本面分析在因子的改造中能够发挥更大的作用。

利用会计学知识和基本面分析来提升因子投资的第二个重要作用是识别财务造假。无论是安然的伪造收入,还是世通公司的伪造利润和现金流,都可以从财务报表中寻觅出蛛丝马迹。会计学领域有很多经典著作揭示了财务欺诈的常见方法,非常值得学习。具备专业的基本面分析知识对于因子投资中的排雷至关重要。

基本面投资关心的本质是对公司未来现金流的预测。基于因子的基本面量化投资有其无可替代的优势,但仅依赖有限的财务指标所关注的仍然只是已经发生的过去。唯有以量化的手段进行基本面分析才有可能更好地预测未来。对于因子投资来说,科学、严谨的基本面分析将会持续创造价值。放眼未来,量化和基本面分析的完美结合将是大势所趋。而就目前来看,基于因子的基本面量化投资远非基本面分析的完美替代。

[1]Sloan教授的代表性研究包括Dechow et al.(1995)以及Sloan(1996)。
[2]该书是美国各大商学院投资学课程的指定教材,2017年发行的版本为该书的第11版。
[3]全称是Center for Research in Security Prices,证券价格研究中心。

[4]本书7.4节将系统性地解读如何通过Smart Beta进行因子投资。
[5]选股时分别用净利润率和总资产周转率将股票排序,然后将二者的排序取平均作为股票最终的排序。

6.8 机器学习与因子投资

在讨论机器学习与因子投资之前,首先需要明确机器学习的含义,尤其是当其应用于因子投资领域时的含义。Gu et al.(2020)将机器学习定义为“一系列服务于统计预测的高维模型,及与之相伴的用于模型选择和防止过拟合的正则化方法,和对大量候选模型设定进行有效筛选的算法”。根据这个定义,在因子投资场景下,机器学习的核心是预测。

与经典统计理论不同,机器学习天生就是为预测而生的。当机器学习随着数据和算力的爆发式增长而与因子投资产生交集时,其最主要的应用也在于预测——预测个股或市场整体的未来收益。对于预测个股收益,其目标主要是分析公司特征与股票预期收益的截面关系,这也是因子投资关注的重点。对于预测市场整体,其目标则主要是时间序列的分析。在训练预测模型的过程中,机器学习算法会给不同的解释变量赋予不同的权重。因此,在利用机器学习算法进行预测的同时,人们也可以学习到哪些特征对预测收益率更加重要。预测和特征选择(feature selection)就构成了机器学习在因子投资中的两个核心功能。以预测为目标,下文6.8.1节~6.8.3节将介绍有监督学习的常见算法以及它们在因子投资中的应用。以特征选择为目标,6.8.4节将讨论如何利用无监督学习中的主成分分析挑选既能解释股票预期收益截面差异、又能解释它们时序波动的因子。

关于机器学习与因子投资的关系,与其说数据和算力的发展使得机器学习的应用成为可能,不如说快速发展使得对于因子投资而言,机器学习已经成为必要的工具。经典的投资组合排序法和各种线性回归方法在处理大量的预测变量时面临着各种各样的限制和问题,难以成为最好的工具。另一方面,已有研究表明,仅靠少数几个经典因子并不能很好地解释不同股票预期收益率的差异,而机器学习在这方面提供了新的可能性。当然,机器学习虽好,也并非万能良药。6.8.5节会讨论机器学习的缺点和潜在问题。

6.8.1 线性模型

线性模型是描述大千世界的最简单模型,比如多因子模型就是假设因子和资产收益率之间的线性关系。对于线性模型,经典的OLS线性回归是最简单的求解方法。近年来,一些拓展的线性回归方法逐渐受到重视,它们大体可以分为四类:稳健回归、惩罚回归、降维方法以及广义线性模型。

根据目标函数的形式,稳健回归可以进一步分为两类。首先是加权回归。经典的OLS以最小化残差平方和为目标,每个样本点的权重是相同的,而加权回归方法则赋予每个样本点不同的权重,这在Fama-MacBeth回归分析中便早有应用。

另一个例子是在利用面板数据估计公司特征对股票收益的影响时,使用当期的股票数作为不同时刻的权重。这也很容易理解,股票数量越多的时期,对应的结果会更加可靠。其次,稳健回归方法也被用来构建能更好地适应收益率肥尾分布的稳健估计量。典型例子是将回归中的目标函数设定为Huber稳健误差函数:

$$ \mathcal {L} (\boldsymbol {\theta}) = \frac {1}{N T} \sum_ {i = 1} ^ {N} \sum_ {t = 1} ^ {T} h \left(R _ {i t + 1} - g \left(\boldsymbol {z} _ {i t}, \boldsymbol {\theta}\right); \xi\right) \tag {6.30} $$

其中 $N$ 和 $T$ 分别为股票数和期数, $R_{it+1}$ 为股票 $i$ 在 $t+1$ 期的真实收益率, $\theta$ 表示模型的参数向量, $z_{it}$ 表示截至 $t$ 时刻所有用来预测股票 $i$ 下期收益率时用到的预测变量向量, 因此 $g\left(z_{it}, \theta\right)$ 就是对 $t+1$ 期股票 $i$ 收益率的预测值。在式 (6.30) 中, $h(x; \xi)$ 的定义为:

$$ h (x; \xi) = {\left{ \begin{array}{l l} {x ^ {2},} & {{\text {若}} | x | \leqslant \xi} \ {2 | \xi | x - x ^ {2},} & {{\text {若}} | x | > \xi} \end{array} \right.} \tag {6.31} $$

惩罚回归的典型代表包括岭回归(Ridge)、套索回归(LASSO)和弹性网络(Elastic Net)等算法。相对于OLS,它们额外加入了针对高维数据的不同惩罚项[2],以有效应对过拟合问题。与此同时,它们也起到了筛选有效预测特征的作用。降维方法则包括主成分回归(PCR)和偏最小二乘回归(PLS)。这两类方法可以显著降低问题的维度,从而得到更稳健的估计。关于这一点,Chen et al.(2019)提供了一个很精彩的例子。该文利用PLS方法从12个常见的情绪代表指标中提取信息以更好地刻画投资者情绪。

上述各类方法研究的是公司特征与股票未来收益之间的线性关系。但诸多研究表明,简单的线性模型并不能完整刻画二者之间的关系。作为介于标准线性模型和非线性模型之间的方法,广义线性模型也因此有了用武之地。广义线性模型的一类简单例子是将公司特征的高次方项加入预测模型中。一个典型例子是Barra的非线性规模因子(市值的三次方)。Gu et al.(2020)则探讨了一种更一般的模型设定——利用公司特征的k项样条函数——对股票收益的预测。除此之外,广义线性模型也可用来对离散型的因变量进行建模。例如,很多时候人们只关心下个月股票相对大盘指数的超额收益是否为正。在这种情况下可以使用一个0/1变量作为因变量,并用各种公司特征作为解释变量,建立一个逻辑回归模型(logistic regression),这便是一个典型的广义线性模型。在此基础上,也可以引入多分类逻辑回归模型(multinomial logistic regression)。在因子研究中,比起预测收益率的具体值,人们有时更关心收益的排序分组结果。为此,可以考虑将全部股票按收益率高低分成G组,并以每支股票所属分组为因变量、以公司特征为解释变量,选择适当的算法为这二者建模。

除了上述方法外,关于线性模型的另一类拓展便是混合预测(forecast combination)。这种方法虽然简单但很有效。严格来说,它并不是一种具体的预测算法,而是通过对一系列算法的预测结果取平均来得到最终的预测。其基本思想简单易懂,即单一算法不会总是有效,而取一系列算法的预测均值可以平滑不同算法的误差,进而得到更有效的预测。Rapach et al.(2010)对利用该方法预测市场整体的溢价有着精彩的介绍[4],而Han et al.(2018)则系统讨论了套索回归、弹性网络和混合预测方法在股票收益横截面分析中的应用。

6.8.2 非线性模型

线性模型虽然简单直观,但它能否准确地反映公司特征与股票未来收益之间的关联仍然没有定论,而实证资产定价和量化研究方面的学者通常将线性模型视作真实模型的一阶近似。过去,受限于数据和方法,研究者们往往很难大量构造并检验公司特征同股票收益的非线性关联,但随着机器学习的发展,这些已不再是问题,如今有很多经典的非线性模型被用来研究特征和股票之间的非线性关系。

线性模型常被诟病的原因之一是它难以较好地描述解释变量之间的相互影响。虽然在理论上可以通过在线性模型中不断添加交互项来加以体现,但随着解释变量数目的增长,交互项的数量也呈爆炸性增长。在缺乏足够先验信息的前提下,在模型中加入哪些交互项变得难以回答。面对这种困境,很多非线性模型则大有可为。

1.“树状”模型

决策树(decision tree)是一种常见的分类算法,其结果是给出一系列有序的判定规则,依据特征将样本点分类标记。在决策树中,最重要的特征被选为根节点,其余特征则根据判定流程而依次作为不同的父节点/子节点,使得整个分类规则形似一棵树,因而被形象地称作决策树。经典的决策树往往用于处理因变量为分类变量的情形。决策树是一种非参数化的计算密集型算法。但随着计算机技术的发展,计算强度已不再是一个太大的问题。这种算法可以处理大量样本以及大量的特征,有效地挖掘出特征之间的相互作用。此外,它的解释性也比较强,对特征数据也没有独立性要求,这些优点使它得到了广泛的应用。

当因变量为连续变量(比如因子投资中股票的预期收益率)时,它便成为回归树。回归树的本质仍然是分类算法,只不过它需要给被划分到同一类的样本点一个公共的观测值而非某个离散的类别。举例来说,假设使用市值和价值为特征、采用回归树对收益率进行预测。当股票的市值位于前 $50\%$ 时,将其归入第1类。当它的市值位于后 $50\%$ 时,则进一步考虑其价值;如果其价值小于 $30\%$ 分位数,则将该股票分到第2类,反之将其分到第3类。通过回归树模型,依照市值和价值将股票分为三类。由于预测的目标并非分类,而是预期收益率,因此使用每一类中股票收益率的均值作为该类的预期收益率。

较线性模型而言,回归树有两个突出的优点。第一,回归树可以很容易地将特征的交互影响考虑进来。一个 $L$ 层的树结构,可以包含 $L-1$ 层交互效应,这是线性模型所不具备的。第二,树方法不受解释变量的单调变换的影响,因而可以很好地包容非线性特征。然而另一方面,回归树方法的灵活性也使得它容易陷入过拟合,这也是此种方法最大的瓶颈。为了规避过拟合问题,引入正则化方法进行适当限制就显得很有必要。常见的正则化方法包括boosting算法[5]和随机森林(random forest)。

严格来讲,boosting是一类框架算法,它以一系列高度简化的分类树为基础,通过反复的迭代训练,生成很多个基分类器,再组合不同基分类器的预测,以得到最终的预测。它通过组合若干个弱分类器,最终得到有较好预测效果的强分类器。这一逻辑与6.8.1节介绍的混合预测方法有异曲同工之妙,它们都属于集成学

习算法(ensemble method)的范畴。Boosting最早的代表是AdaBoost算法,随后则发展出了LPBoost、LogitBoost等算法,以及时下非常流行的GBDT和XGBoost算法。其中,AdaBoost在每次迭代时,依据前一次的预测误差来更新样本的权重,预测错误的样本会得到更高的权重。GBDT(gradient boosting decision tree,梯度提升树)也遵循类似的前向分布算法,但却与AdaBoost有两处显著的不同。首先,在GBDT算法中,弱分类器只能使用回归树模型。其次,GBDT算法的建模对象是上一步的拟合残差。仍以市值和价值作为特征来解释GBDT。假设第一步发现一支股票有很小的规模,因而给予了其1.2%的月度收益预测,但后来发现其真实收益为3.0%。鉴于此,第二步会使用价值特征,针对第一步中市值未能解释的残差收益(即1.8%=3%-1.2%)对其进行分类。GBDT在实践中的表现是非常不错的,但也面临一些局限。例如,它不能很好地处理稀疏数据问题。相比之下,作为近几年新兴起的算法,XGBoost(extreme gradient boosting decision tree,极端梯度提升树)在这些方面有针对性的改进,并在数据挖掘大赛中获得了非常优异的表现,引起了广泛的关注和使用。

与boosting方法相对应的则是bagging算法[6]。与boosting算法需要按顺序进行迭代不同,bagging算法可以并行进行多次训练。在每次训练中,都用bootstrap方法抽取出一个子样本集并使用它们来训练模型,最终将多次训练的结果取平均作为最终的预测。对于分类问题而言,bagging方法的一个典型例子便是随机森林(random forest)。

2. 支持向量机

支持向量机(supporting vector machine,即SVM)是另一类重要的非线性模型。在XGBoost和深度学习流行之前,SVM可能是最重要的一类机器学习算法。与通常的算法旨在通过降维解决维数灾难问题不同,SVM在某种程度上可谓反其道而行之。它通过非线性核函数(kernel functions)把原始特征空间映射到更高维的特征空间,并在高维空间中找到间隔最大的超平面将样本点进行线性分割。高维空间的线性分割对应着在原始特征空间中的非线性分割,即形成了非线性的决策边界。此外,高维的映射并不以增加计算机的计算量为代价,因此SVM可谓相当高效。

3. 神经网络

最后一类重要算法则是神经网络(neural network)。作为深度学习的基础,神经网络大概是最为有效的机器学习算法。神经网络通过组合多个层次的简单模型,来得到最终的预测。其中,初始的是输入层(input layer),即预测变量原始数据;中间是隐藏层(hidden layer);而最后的是输出层(output layer),即最终的预测结果。对于因子投资来说,如果股票预期收益和解释变量(如各种公司特征)之间的预测模型可以用一个光滑函数来表达[7],则神经网络可以有效地近似上述模型。得益于其灵活性和强大的性能,神经网络在文本挖掘、图像识别等领域已得到广泛的应用。另一方面,神经网络也有其明显的问题,这些问题主要存在于参数规模、模型复杂度和可解释性等方面。

在神经网络中,每个神经元的激活函数往往十分简单,但通过多层网络,深度神经网络常常可以利用这样简单的激活函数得到非常好的预测表现。在形式上,这跟人类大脑的工作方式有共通之处,即单个神经元非常简单、只执行极其简单的单一功能,但通过神经元之间的复杂互动网络,组合出惊人的表现[8]。在训

练神经网络时,常用的方法是通过最小化预测误差的L2范数形式惩罚项来估计权重参数。相比于前面介绍的决策树方法,神经网络的优势在于在每一步训练中可以同时更新所有的模型参数。但神经网络的高度非线性特征和巨大的参数量,使得其计算非常复杂,且需要更多的正则化处理以避免过拟合。为解决这些问题,随机梯度下降(stochastic gradient descent, SGD)方法常常被用来训练神经网络。它通过牺牲一定的精度换取计算效率的大幅提升。除此之外,诸多正则化方法也被引入来解决过拟合的问题,它们包括学习率收缩(learning rate shrinkage)、提前停止(early stopping)、批标准化(batch normalization)和集成学习(ensembles)。近年来,深度学习又有了进一步的发展,先后出现了深度前馈神经网络(deep feed-forward neural networks, DFN)、循环神经网络(recurrent neural networks, RNN)和长短期记忆模型(long short-term memory, LSTM)等。

6.8.3 模型评估与实证研究

如何评估模型是将机器学习算法应用于因子投资中的另一个重要问题。常用方法是分析预测模型的样本外可决系数 $\mathrm{R}_{\mathrm{OOS}}^{2}$ ,它的定义如下:

$$ \mathrm {R} _ {\mathrm {O O S}} ^ {2} = 1 - \frac {\sum_ {i = 1} ^ {N} \left(R _ {i t + 1} - \hat {R} _ {i t + 1}\right) ^ {2}}{\sum_ {i = 1} ^ {N} \left(R _ {i t + 1} - \bar {R} _ {i t}\right) ^ {2}} \tag {6.32} $$

其中 $R_{it+1}$ 和 $\hat{R}{it+1}$ 分别为资产 $i$ 在 $t+1$ 期的真实收益和预测收益率, $\bar{R}{it}$ 则表示 $t$ 期资产 $i$ 的历史平均收益。因此,式(6.32)衡量的是相对于历史均值预测,该模型是否有更小的样本外均方误差。当模型预测结果不如历史均值时,根据(6.32)定义的 $\mathrm{R}_{\mathrm{OOS}}^{2}$ 为负。

Welch and Goyal(2008)和Campbell and Thompson(2008)使用(6.32)为依据检验了诸多变量对市场总体收益率的预测能力。然而对于预测个股收益而言,历史均值预测往往表现非常糟糕。因此,Gu et al.(2020)指出应用零代替历史均值预测作为预测基准。相应地, $\mathrm{R}_{\mathrm{OOS}}^2$ 变为:

$$ \mathrm {R} _ {\mathrm {O O S}} ^ {2} = 1 - \frac {\sum_ {i = 1} ^ {N} \left(R _ {i t + 1} - \hat {R} _ {i t + 1}\right) ^ {2}}{\sum_ {i = 1} ^ {N} R _ {i t + 1} ^ {2}} \tag {6.33} $$

实证分析结果显示,若采用历史均值预测作为基准,则所有候选模型的 $\mathrm{R}{\mathrm{OOS}}^{2}$ 都会上升大约 $3 \%$ 。一般来说,预测模型的样本外 $\mathrm{R}{\mathrm{OOS}}^{2}$ 超过 $0.5\%$ 就表明该模型是有价值的。因此,如果在评估个股收益预测模型时使用历史均值作为基准,很可能得到具有误导性的结论。

除此之外,Gu et al.(2020)还进一步参照Diebold and Mariano(2002)构建了形如(6.34)的统计量,用来比较不同预测模型两两之间的相对表现。假设待评估的模型为模型1和模型2,该统计量定义为:

$$ D M _ {1 2} = \frac {\bar {d} _ {1 2}}{\hat {\sigma} _ {\bar {d} _ {1 2}}} \tag {6.34} $$

其中 $d_{12} = \frac{1}{N}\sum_{i = 1}^{N}\left((e_{it + 1}^{(1)})^2 -(e_{it + 1}^{(2)})^2\right)$

上式中 $N$ 为样本外的股票数量, $d_{12}$ 为两个模型在样本外的均方误差的差异,而 $\bar{d}{12}$ 和 $\hat{\sigma}{\bar{d}{12}}$ 分别为 $d{12}$ 的均值和均值的标准误, $e_{it+1}^{(1)}$ 和 $e_{it+1}^{(2)}$ 分别为两个模型对于股票 $i$ 的预测误差。由定义可知, $DM_{12}$ 越大,表明模型1相对模型2表现越差;反之则表明模型1相对模型2表现更好。

基于从1957到2016年的长达60年的美股数据,Gu et al.(2020)仔细研究了不同模型的表现。他们考虑了94种公司特征和8个宏观变量及它们的交互项,并另有74个行业分类,得到总共 $94 \times (8 + 1) + 74 = 920$ 个特征。在此基础上,该文比较了13个预测模型,包括6个线性模型算法(即包含全部特征的OLS回归,只包含规模、账面市值比和动量的OLS回归、PLS、PCR、弹性网络,以及广义线性回归)、2个树模型(随机森林和GBDT)以及5个神经网络模型(分别包含1到5层隐藏层),且对于OLS、弹性网络、广义线性回归和GBDT,使用Huber稳健估计量。从全样本来看,OLS的表现非常糟糕(且对大盘股而言更是如此)。而只考虑三个特征的OLS,或者弹性网络等方法,通过添加额外的惩罚项,表现得到了显著的提升。此外,GBDT和随机森林表现也不错。然而在众多模型中,表现最好的非线性模型还要数神经网络模型,尤其是带3层隐藏层的神经网络模型。当采用样本外 $\mathrm{R}_{\mathrm{OOS}}^{2}$ 为评价标准时也有类似的结果。除此之外,模型间的两两配对比较则有如下发现:所有带约束的线性模型的表现都显著优于普通OLS,而在降维方法(PLS/PCR)和惩罚性回归模型的表现则没有明显差异;树模型表现相比线性模型更好,但差异并不显著;神经网络表现显著优于线性模型,但相对树模型的改进则不够显著。

除了比较不同模型的表现外,Gu et al.(2020)的实证分析还有另外一个重要作用,即比较不同特征对于股票定价的重要性。该文将所有公司特征分为四大类:趋势类特征(例如各种动量和短期反转)、和流动性有关的特征、风险测度指标,以及基本面特征。他们发现线性模型普遍高度倾向趋势类特征,而非线性模型则会较为平均地关注多种公司特征。总体而言,趋势类特征的影响最为显著。

除上述针对美股的代表性研究外,近些年也有不少学者研究了机器学习算法在中国A股市场的表现,并有类似的发现。总体而言,带约束的线性模型表现优于OLS,非线性模型又优于线性模型。在非线性模型中又尤其以深度前馈神经网络(DFN)和XGBoost表现非常出色。此外,利用集成学习整合不同模型也可以进一步提升模型表现。而在特征重要性方面,已有研究表明,在A股市场中最为重要的因子是交易摩擦类(流动性)相关因子,这与美股市场有所不同。

6.8.4 主成分分析和因子选择

近年来,一些新的研究将无监督学习算法引入实证资产定价和因子投资,用

于改善基于线性回归的计量经济学估计方法的表现。因其简单有效,主成分分析(principal component analysis,即PCA)备受关注,而在资产定价领域的相关应用也主要集中在对PCA方法的应用和拓展上。这背后的原因与经典的因子收益率估计方法(如Fama-MacBeth回归)面临的问题有关。经典方法需要明确指定因子结构才能进行有效估计,且容易受到遗漏变量和测量误差的影响。另一方面,越来越多的研究指出,人们其实并不知道真实的定价因子是什么,反而更倾向于将真实因子视作是隐性的因子(latent factors),并利用降维的手段来同时估计因子暴露和因子溢价。PCA方法也由此进入实证资产定价的舞台。

隐性因子模型(latent factor model)是统计学中很常用的一个模型,在推荐系统等机器学习实践中有非常广泛的应用。对于资产定价问题,隐性因子模型的表达式为:

$$ R _ {i t} ^ {e} = \beta_ {i} ^ {\prime} \boldsymbol {\lambda} _ {t} + \varepsilon_ {i t} \tag {6.35} $$

其中, $R_{it}^{e}$ 是 $t$ 期资产 $i$ 的超额收益, $\lambda_{t}$ 是 $t$ 期的因子溢价向量, $\beta_{i}$ 为资产 $i$ 的因子暴露向量,而 $\varepsilon_{it}$ 是随机扰动。乍看起来,模型(6.35)与一般的多因子模型并无差异,但它的特别之处是真实因子无从观测(隐性的含义),即人们并不知道 $\lambda_{t}$ 的取值,因而因子暴露 $\beta_{i}$ 也无从知晓。

此时PCA方法便派上了用场。它通过提取资产收益协方差矩阵的主成分来估计风险溢价和风险暴露。Giglio and Xiu(2019)在这方面做出了开创性的贡献,利用PCA构建了一种无须观测到全部的真实因子便可准确估计因子溢价的新方法。在隐性因子模型框架下,任一可观测因子的风险溢价等于它对隐性因子的暴露乘以隐性因子的溢价。计量经济学中的两个重要性质使得PCA在估计因子溢价时扮演了重要的角色。首先,利用线性多因子模型的旋转不变性,即便只能观察到隐性因子的某个满秩变换,也不妨碍估计可观测因子的溢价。其次,只要隐性因子足够强[9],PCA总是可以复原对因子空间的某个旋转变换(Bai 2003)。通过结合这两个性质,Giglio and Xiu(2019)指出虽然真实因子不可观测,但利用PCA方法,仍可以准确估计因子溢价。

Giglio and Xiu(2019)基于美国市场的实证分析表明,相比经典方法,该利用PCA方法得到的估计量确实有显著的优势。一般来说,Fama-MacBeth回归结果高度依赖模型的控制变量。以动量因子为例,不控制其他因子和控制Fama-French三因子两种情况下,其因子溢价符号竟然相反,且都高度显著。而该PCA方法则能够获得令人满意的估计结果。对于可交易因子,其因子溢价与时序均值较为接近;对于加总的市场流动性、金融中介杠杆率等不可交易因子,其估计结果也与理论方向一致。

将PCA方法应用于资产定价的另一项研究来自Rapach and Zhou(2019)。该文首先通过稀疏PCA从120个宏观经济变量中提取了10个稀疏主成分,并指出这些主成分可大体对应债券的名义收益率水平、通胀率、产出率等经典指标,因而具有极好的可解释性;其次利用Giglio and Xiu(2019)的方法估计了这些稀疏宏观因子(sparse macro factors)的溢价,并发现债券的名义收益率水平、住宅和乐观情绪有显著的风险溢价。最终,他们用这三个因子和市场组合一起构建了一个稀疏宏观四因子模型,并发现该四因子模型具有同Hou-Xue-Zhang四因子模型和Fama-French五因子模型可比的解释力。

与Giglio and Xiu(2019)类似,Kelly et al.(2019)同样将真实因子视作不可观测的隐性因子并利用PCA方法同时估计因子溢价和资产的因子暴露。但他们同时指出经典的PCA只适用于估计静态模型,而对于动态条件资产定价模型则无能为力。为了解决这一问题,他们采用Kelly et al.(2017)提出的工具变量PCA方法(IPCA),引入大量公司特征作为股票因子暴露和超额收益的工具变量,构建了IPCA因子[10]。该方法受到以下两点的启发。第一,公司特征和因子暴露密切相关[11],这使得用公司特征当作因子暴露的工具变量成为可能。其次,一家公司的各种特征会随着时间变化,这使得很难利用时间序列分析方法构建个股的条件预期收益率模型。以往研究者更多采用投资组合排序法,但该方法的局限在于只能处理较少的特征。一旦需要更多特征来充分刻画资产的预期收益率截面差异,它就会面临极大的挑战。而通过将因子暴露参数化为公司特征的函数,则可以较好地解决这一动态面板估计问题。

实证结果显示,IPCA方法的确具有较好的表现。相对经典的CAPM、Fama-French三因子模型等,有相同数量主成分因子的IPCA模型能够更好地刻画个股的风险,且经典因子相对于IPCA因子的增量信息非常有限。进一步地发现,随着因子数量增加,IPCA因子的样本外切线组合[12]的夏普比率也显著提升。当使用六个IPCA因子时,夏普比率高达惊人的4.05。相比之下,Fama-French五因子加上动量这六个因子的样本外切线组合的夏普比率仅有1.37。从均值一方差的角度来看,IPCA因子极高的夏普比率表明它们能在解释股票收益的共同运动的同时,通过因子暴露解释不同股票收益之间的差异。通过对比研究,Kelly et al.(2019)指出,真正起作用的是公司特征的动态变化,其对于理解因子暴露非常重要,这也呼应了IPCA想解决的核心问题,即如何在动态条件定价模型中得到因子溢价和暴露的估计。最后,通过分析每个因子对不同公司特征的暴露可以发现,IPCA因子有不错的可解释性。例如,第一主成分可近似理解为价值或杠杆率因子,第二主成分对应市场因子,第三和第四主成分则分别对应动量和短期反转因子。

上述这些利用PCA的研究虽然新颖,但它们仅仅利用了收益率的二阶矩信息,即协方差矩阵。Lettau and Pelger(2020)认为,这么做会丢失掉原始因子和收益率在截面上的关系,即一阶矩信息。为此,它们在经典PCA问题的目标函数中加入了代表一阶矩,提出了风险溢价PCA方法(risk premium PCA,PR-PCA)。实证分析表明,RP-PCA在绝大多数情况下都优于PCA和Fama-French五因子等经典模型,且统计检验表明,通过使用五个PR-PCA因子能够很好地反映股票的系统性风险,且同时能够解释它们收益率的截面差异。对因子构成进行进一步探索发现,这五个因子都有很好的经济学基础。

从上面相关最新研究的介绍可知,PCA及其拓展方法具备更好的解决资产定价问题的潜力。而在因子投资方面,也有两个思路可以考虑。一个思路是直接使用前述某种PCA方法提取主成分因子,并倒推出恰当的因子组合或公司特征权重,并据此构建股票组合。另一个思路则是利用各种PCA因子对公司特征以及经典因子的暴露,将它们映射为经典因子,然后以这些经典因子为基础进行资产配置。不过需要指出的是,由于投资者在现实中面临卖空约束,依据上述方法构建因子组合可能比经典因子更复杂、可投资性更低。因此,虽然它们提供了新的投资思路,但要真正用于实践,仍有不少细节需要进一步完善。

以PCA为代表的无监督学习应用于实证资产定价只是最近几年出现的新研究趋势,因此还不能将其视作高度成熟的方法。反之,它们的定位更多的是对经典

方法的有效改进。考虑到每种方法仍有其局限,未来仍有很多拓展工作值得进一步挖掘。此外,如何将通过PCA获取的信息成功地转化为投资实践也有待更多探索。但无论如何,这些方法都是极为有价值的探索,不仅标志着资产定价的大门对无监督学习方法敞开,也意味着因子投资领域多了一门令人充满期待的新武器。

6.8.5 机器学习的问题

机器学习算法固然强大,但人们在使用这些算法时也必须面对两个问题:(1)机器学习算法常常被视作黑箱,缺乏足够的可解释性;(2)机器学习算法也容易陷入过拟合。对于前者,以神经网络等算法为例,其内部往往非常复杂,黑箱性质使得人们难以真正理解其发现的特征与未来收益率之间的关系。幸运的是,这个问题并非完全无解。Dixon and Halperin(2019)指出可以通过计算特征对最终输出结果的影响程度来解释自变量和因变量之间的关系。另一方面,人们应在发现有显著预测能力的模型后,进一步考察有哪些特征是显著的,并梳理清楚特征和收益率之间可能的逻辑关联。一旦人们试图理解机器学习发现的规律时,它就变成了研究中的一块基石,帮助人们更好地理解数据背后的经济逻辑。

机器学习容易陷入过拟合有以下几个原因。首先,由于真实的资产价格路径只有一条,因而基于该路径反复训练模型本身就很容易过拟合。在这个过程中,也容易踏入Harvey et al.(2016)提出的p-hacking的陷阱。虽然相关研究往往采用了前向回测分析(walkforward backtesting),但该方法只能规避未来数据问题,并不能完全杜绝过拟合。事实上,这一问题对于因子研究而言可能尤为严重。典型的因子研究通常以股票月度收益为研究对象。即便以历史最为悠久的美股而言,较为完整的历史数据也只从1962年开始,即大约700个月的样本。对于机器学习算法而言,这一样本实在过小。另一个原因则与金融数据中的自相关性和异方差特征有关。在机器学习中一般使用交叉验证(cross validation)等方法来进行模型选择。但金融数据的序列的自相关性和异方差特征使得训练集中的信息会泄漏到测试集,从而导致交叉验证方法失效。最后,当给定资产的收益分布时,其预期最高夏普比率同波动率正相关。这造成波动率较大的资产,在一次历史回测中反而可能得到更高的夏普比率。因此,单纯的历史回测可能会高估因子的表现。

虽然有各种各样的问题,但也并不意味着人们就束手无策。例如,通过模拟生成多条(更长周期的)资产价格路径并分析不同场景下的表现,可以改善在历史价格路径上反复测试的问题。此外,通过确保训练集和测试集在时间区间上没有交集,可以改善前述交叉验证可能遇到的问题。而使用平减夏普比率(deflated Sharpe ratio)则可以部分解决夏普比率被高估的问题。

总体来说,机器学习在因子投资领域的应用仍处在早期阶段。但随着数据和算法日益成熟、研究者更加谨慎地应对上述问题,机器学习在未来注定能在因子投资研究中扮演更重要的角色。不过,机器学习是否可以取代经典的多因子模型成为最主流的方法,则有待进一步的考察。说到底,机器学习是一类数据模型方法,要在业务实践中发挥作用,仍有赖于对业务领域知识的理解。综合本节介绍的内容,本书作者认为有理由期待机器学习将扮演更重要的角色,但同时也相信机器学习在因子投资中的最佳路径在于和已有方法结合,而非取而代之。

[1]这篇文章是机器学习在实证资产定价与因子投资领域的代表作。自其早期研究手稿版本发布以来,短短两年时间内,据Google Scholar统计的引用量便高达142次。
[2]岭回归和套索回归分别加入了L2范数和L1范数惩罚项,而弹性网络则同时加入了L2和L1范数惩罚项。当待估计参数为向量时,L2范数和L1范数分别退化为参数的平方项和绝对值。
[3]这些指标包括异常交易量、极端收益率、分析师覆盖、广告费用变化、距52周最高价的距离等,都是已有研究表明能在一定程度上反映投资者情绪的指标。
[4]这篇文章非常经典,值得阅读。此文于2010年正式发表在金融学顶刊Review of Financial Studies(RFS)上,2017年获评RFS阅读最多的文章。迄今引用量高达830。
[5]Boosting的字面含义为“提升”,故可译作“提升算法”。但在机器学习实践中,普遍直接采用“boosting算法”而不使用中文翻译。本书遵循此惯例,在行文中直接使用“boosting算法”。
[6]Bagging一词从英文boottrap aggregating而来,即抽样聚集算法或引导聚集算法。由于上述翻译十分拗口,因此人们有时倾向按照bagging的直译将其称为装袋算法。
[7]光滑是一个数学概念,如果一个函数在其定义域内无穷阶连续可导,那么它是光滑的。由于求解神经网络的算法往往与梯度(导数)有关,因此光滑性对神经网络而言很重要。在求解最优化问题时,如果目标函数是光滑的,那么总有一定的优化算法可以保证找到全局最优解。
[8]需要注意的是,神经网络算法跟人类大脑的相似之处仅体现在通过组合大量简单元素来完成复杂工作的形式,而并非真的按照相同的模式进行工作。它们的具体工作流程有着很大差异。例如,神经网络都是按照一定方向(典型的反向传播)进行训练的,但人类的大脑和身体并非这样有向工作。
[9]因子足够强可简单理解为因子与股票收益有较强的截面相关性,严谨的定义则较为复杂。
[10]该方法可以视作带约束的Fama-MacBeth回归,而当因子个数与公司特征个数相同时,则退化为一般的Fama-MacBeth回归。
[11]关于这一点,近年学术界有很多讨论。例如Jegadeesh et al.(2019)认为应该用公司特征取代时序回归的 $\beta$ 作为因子暴露。本书2.3节对此有过讨论。
[12]样本外切线组合指每期利用截至当期的数据估计参数并确定切线组合中的因子权重。