量化选股策略

Quantitative_Stock_Select_Strategy

Posted by 邬小达 on August 11, 2020

量化投资可以定义为通过数据研究出市场的潜在规律,并将其转化为自动化的交易策略。自动化的要点在于严格执行策略给出的交易信号:什么时候买,买什么,买多少(卖也是如此)。

量化选股

在股票市场上,除了价值投资之外,量化投资也在慢慢兴起。目前,主要有三类量化选股策略。

最简单的量化方法,是指数化,最典型的是市场指数。如沪深300的构成就相当简单:

  • 对股票池最近一年的 A日均成交金额由高到低排名,剔除排名后 50%的股票
  • 对剩余股票按照最近一年 A 股日均总市值由高到低排名, 选取前 300 名股票作为指数样本
  • 每年 6 月和 12 月的第二个星期五的下一交易日调整新一批股票

第二种方法是多因子选股,即通过多个因子的组合来选股。比如根据每个因子的取值,对股票进行打分。然后基于打分计算平均值,得到股票的综合评分。最后买入打分最高的N只股票

价值投资的鼻祖格雷厄姆在很早以前就给出过选股的量化标准。他一开始设定的标准是市值要小于三分之二净现金,后来在《聪明的投资者》一书中,为普通投资者提供了一套筛选股票的规则:

  • 工业企业的年销售额不低于5000万美元,公用事业企业的年销售额不低于5000万美元
  • 流动资产至少为流动负债的两倍
  • 过去10年,普通股每年都有一定的利润
  • 至少有20年连续支付股息的记录
  • 过去10年内,每股收益至少要达到三分之一
  • 当前股价不应该高于过去3年平均利润的1.5倍
  • 市盈率与价格账面值之比的乘积不应该超过22.5

不过,这一套规则是基于当时美股的市场环境而设定的。现在的美股与A股的市场环境早已与格雷厄姆所处的时代完全不同。

后来乔尔·格林布拉特(Joel Greenblatt)使用资本回报率(ROC)和企业倍数(EBIT)来定义优质股票。因为这两个因子分别量化了“好公司”与“好价格”。他发现,根据这两个因子筛选出的股票在长期远远跑赢了基准指数。这个选股策略也被称为神奇公式(the Magic Formula)。

随着数据储存和数据分析技术的发展,股票市场的信息慢慢数字化。现在,上市公司的财务状况、最终股价等,都变为触手可得的数据。具体的有:

  • 股票的交易行情等数据
  • 宏观经济、各行业、各上市公司的基本面信息数据(例如行业产销量、公司财务数据、研究员定量预测信息等)
  • 数据提供商整理的其他数据

因此,有大量的因子可供选择。如:

  • 财务因子:ROE、毛利率、资产负债率
  • 估值因子:市盈率、市净率
  • 动量因子:过去6个月的个股收益率、波动率

第三种方法是基于人工智能技术的,机器学习选股。

如何理解机器学习呢?机器学习的过程与人类对历史经验归纳的过程有着相似之处。

机器学习与人类思考的相似性

人类在生活中积累了大类的历史信息。对这些信息进行“归纳”,获得了生活的“规律”。当人类遇到未知的问题或者需要对未来进行“推测”的时候,人类使用这些“规律”,进行“推测”,从而指导自己的生活和工作。

机器学习则是对历史数据进行训练,来总结出模型,然后使用模型进行预测。

机器学习的优点在于能够处理大脑难以进行归纳总结的复杂信息。

举个例子,我们将人的收入分成两类,高收入和低收入。那么来了一个人,如何判断这个人是高收入还是低收入呢?我们知道年龄、学历、职业等因素都会影响收入。一般来说年龄越大、学历越高,某些职业的人,更可能是高收入的人群。因此,我们可以将这些因素与收入建立某种联系。

机器学习就提供了这种建立联系的方法。抽象来说,就是将这些众多的因素X与收入情况Y建立模型,即f(x)=y。下次遇到一个人的时候,如果知道他的X是多少,就可以通过f(x)来预测出这个人的收入情况y。

在股票选股上也是如此。我们可以将股票区分为”好”股票与“坏”股票,然后再基于成百上千个因子(财务数据、量价数据),总结出一个因子与“好坏”股票相关联的模型。然后通过模型预测未来的”好”股票。

评价体系

量化投资的整个研究过程,类似于科学的研究方法:

  • 观察现象/数据
  • 提出假设/模型
  • 实验验证/历史回测
  • 证实/证伪/再修正。

前面介绍的量化选股,完成了数据、模型两步,接下来就是如何验证选股是有效的。评价选股策略的效果有两种方法:逻辑归因和历史回测。

1. 逻辑归因

逻辑归因是从策略的本质出发,研究因子X与预测目标y之间是否存在逻辑关系。

前面提到的所有选股策略,都是在用X预测Y。那么X是否真的有效呢?

对于指数化方法而言,它毫无疑问是有效的选股策略。以沪深300指数为例,它选择的是所有上市公司中市值最大的300家。这些公司实现盈利的能力比其它平庸的公司更高,并且可持续经营的时间更长。因此,从长期来看,投资沪深300指数取得的收益并不会太差。

再看因子选股,它所要考虑的因素则比指数更为复杂。比如,过去的数据告诉我们,买市值小的股票,回报要比指数更高。但是从16年开始,市值大的股票反而收益更高。因此,随着市场风格的变化,因子就会有失效的可能。

格林布拉特的神奇公式也是如此。国内有一家资产管理公司引进了神奇公式,并回测了它的历史表现。

神奇公式回测结果

从2005年开始计算,神奇公式的确远远超过指数。但如果从引入神奇公式的时间点(大概为2016年)开始计算,会发现近5年都跑不赢沪深300。

所以,因子的选择尤为重要。只有那些符合经济常识以及人类行为的因子,才能够经得起时间的检验。

机器学习选股则是另一套逻辑。考虑到只用少数几个因子容易失效,机器学习纳入了不同维度的因子(成百上千个)。然后基于这些因子建立模型,甄别出其中的“好”股票和“坏”股票。它不奢望构建出一个完美的公式,而只希望得到概率上的优势。比如选出的20只股票,整体上的回报可以远超指数,如60%的获胜概率。其次,通过每月/每季度换入新的股票,来增加参与次数,可以逼近真实的获胜概率。

总结来看,因子的颗粒度越粗糙,策略的长期收益越稳定,如指数化方法。而因子的颗粒度越细越复杂,策略的短期收益可能高,但长期失效的概率也大。

2. 历史回测

历史回测是将选股策略放到过去的股票市场上,看策略的表现如何。如果发现,策略在历史的表现也很差,就证伪了这个策略。

如果发现策略的历史回测效果很好,那么可能是找到了历史上存在的规律。但是历史不一定能代表未来。如同科学研究一样,以前总结出的规律并不一定是完全正确的。

当发生了不合规律的现象后,科学家就需要去研究为什么会出现这个异常的现象,然后尝试去修正原有的规律。策略也会基于最新数据修正原先的结果。

此外,由于未来存在不确定性,我们就有必要弄清楚策略的收益来自哪里?在什么情况下会失效?这就是上述提到的逻辑归因。

因此,只有结合逻辑归因和历史回测,才能大概率判断策略的有效性。

参考资料

《打开量化投资的黑箱》

《投资中不简单的事》

《聪明的投资者》

《量化价值投资》

中国量化产品现状及未来趋势

Greenblatt 的神奇公式及其改进

神奇公式回测平台