量化选股策略 - 邬小达的博客

量化投资可以定义为通过数据研究出市场的潜在规律，并将其转化为自动化的交易策略。自动化的要点在于严格执行策略给出的交易信号：什么时候买，买什么，买多少（卖也是如此）。

量化选股

在股票市场上，除了价值投资之外，量化投资也在慢慢兴起。目前，主要有三类量化选股策略。

最简单的量化方法，是指数化，最典型的是市场指数。如沪深300的构成就相当简单：

对股票池最近一年的 A日均成交金额由高到低排名，剔除排名后 50%的股票
对剩余股票按照最近一年 A 股日均总市值由高到低排名，选取前 300 名股票作为指数样本
每年 6 月和 12 月的第二个星期五的下一交易日调整新一批股票

第二种方法是多因子选股，即通过多个因子的组合来选股。比如根据每个因子的取值，对股票进行打分。然后基于打分计算平均值，得到股票的综合评分。最后买入打分最高的N只股票

价值投资的鼻祖格雷厄姆在很早以前就给出过选股的量化标准。他一开始设定的标准是市值要小于三分之二净现金，后来在《聪明的投资者》一书中，为普通投资者提供了一套筛选股票的规则：

工业企业的年销售额不低于5000万美元，公用事业企业的年销售额不低于5000万美元
流动资产至少为流动负债的两倍
过去10年，普通股每年都有一定的利润
至少有20年连续支付股息的记录
过去10年内，每股收益至少要达到三分之一
当前股价不应该高于过去3年平均利润的1.5倍
市盈率与价格账面值之比的乘积不应该超过22.5

不过，这一套规则是基于当时美股的市场环境而设定的。现在的美股与A股的市场环境早已与格雷厄姆所处的时代完全不同。

后来乔尔·格林布拉特（Joel Greenblatt）使用资本回报率（ROC）和企业倍数（EBIT）来定义优质股票。因为这两个因子分别量化了“好公司”与“好价格”。他发现，根据这两个因子筛选出的股票在长期远远跑赢了基准指数。这个选股策略也被称为神奇公式（the Magic Formula）。

随着数据储存和数据分析技术的发展，股票市场的信息慢慢数字化。现在，上市公司的财务状况、最终股价等，都变为触手可得的数据。具体的有：

股票的交易行情等数据
宏观经济、各行业、各上市公司的基本面信息数据（例如行业产销量、公司财务数据、研究员定量预测信息等）
数据提供商整理的其他数据

因此，有大量的因子可供选择。如：

财务因子：ROE、毛利率、资产负债率
估值因子：市盈率、市净率
动量因子：过去6个月的个股收益率、波动率

第三种方法是基于人工智能技术的，机器学习选股。

如何理解机器学习呢？机器学习的过程与人类对历史经验归纳的过程有着相似之处。

机器学习与人类思考的相似性

人类在生活中积累了大类的历史信息。对这些信息进行“归纳”，获得了生活的“规律”。当人类遇到未知的问题或者需要对未来进行“推测”的时候，人类使用这些“规律”，进行“推测”，从而指导自己的生活和工作。

机器学习则是对历史数据进行训练，来总结出模型，然后使用模型进行预测。

机器学习的优点在于能够处理大脑难以进行归纳总结的复杂信息。

举个例子，我们将人的收入分成两类，高收入和低收入。那么来了一个人，如何判断这个人是高收入还是低收入呢？我们知道年龄、学历、职业等因素都会影响收入。一般来说年龄越大、学历越高，某些职业的人，更可能是高收入的人群。因此，我们可以将这些因素与收入建立某种联系。

机器学习就提供了这种建立联系的方法。抽象来说，就是将这些众多的因素X与收入情况Y建立模型，即f(x)=y。下次遇到一个人的时候，如果知道他的X是多少，就可以通过f(x)来预测出这个人的收入情况y。

在股票选股上也是如此。我们可以将股票区分为”好”股票与“坏”股票，然后再基于成百上千个因子（财务数据、量价数据），总结出一个因子与“好坏”股票相关联的模型。然后通过模型预测未来的”好”股票。

评价体系

量化投资的整个研究过程，类似于科学的研究方法：

观察现象/数据
提出假设/模型
实验验证/历史回测
证实/证伪/再修正。

前面介绍的量化选股，完成了数据、模型两步，接下来就是如何验证选股是有效的。评价选股策略的效果有两种方法：逻辑归因和历史回测。

1. 逻辑归因

逻辑归因是从策略的本质出发，研究因子X与预测目标y之间是否存在逻辑关系。

前面提到的所有选股策略，都是在用X预测Y。那么X是否真的有效呢？

对于指数化方法而言，它毫无疑问是有效的选股策略。以沪深300指数为例，它选择的是所有上市公司中市值最大的300家。这些公司实现盈利的能力比其它平庸的公司更高，并且可持续经营的时间更长。因此，从长期来看，投资沪深300指数取得的收益并不会太差。

再看因子选股，它所要考虑的因素则比指数更为复杂。比如，过去的数据告诉我们，买市值小的股票，回报要比指数更高。但是从16年开始，市值大的股票反而收益更高。因此，随着市场风格的变化，因子就会有失效的可能。

格林布拉特的神奇公式也是如此。国内有一家资产管理公司引进了神奇公式，并回测了它的历史表现。

神奇公式回测结果

从2005年开始计算，神奇公式的确远远超过指数。但如果从引入神奇公式的时间点（大概为2016年）开始计算，会发现近5年都跑不赢沪深300。

所以，因子的选择尤为重要。只有那些符合经济常识以及人类行为的因子，才能够经得起时间的检验。

机器学习选股则是另一套逻辑。考虑到只用少数几个因子容易失效，机器学习纳入了不同维度的因子（成百上千个）。然后基于这些因子建立模型，甄别出其中的“好”股票和“坏”股票。它不奢望构建出一个完美的公式，而只希望得到概率上的优势。比如选出的20只股票，整体上的回报可以远超指数，如60%的获胜概率。其次，通过每月/每季度换入新的股票，来增加参与次数，可以逼近真实的获胜概率。

总结来看，因子的颗粒度越粗糙，策略的长期收益越稳定，如指数化方法。而因子的颗粒度越细越复杂，策略的短期收益可能高，但长期失效的概率也大。

2. 历史回测

历史回测是将选股策略放到过去的股票市场上，看策略的表现如何。如果发现，策略在历史的表现也很差，就证伪了这个策略。

如果发现策略的历史回测效果很好，那么可能是找到了历史上存在的规律。但是历史不一定能代表未来。如同科学研究一样，以前总结出的规律并不一定是完全正确的。

当发生了不合规律的现象后，科学家就需要去研究为什么会出现这个异常的现象，然后尝试去修正原有的规律。策略也会基于最新数据修正原先的结果。

此外，由于未来存在不确定性，我们就有必要弄清楚策略的收益来自哪里？在什么情况下会失效？这就是上述提到的逻辑归因。

因此，只有结合逻辑归因和历史回测，才能大概率判断策略的有效性。

参考资料