量化投资可以定义为通过数据研究出市场的潜在规律,并将其转化为自动化的交易策略。自动化的要点在于严格执行策略给出的交易信号:什么时候买,买什么,买多少(卖也是如此)。
量化选股
在股票市场上,除了价值投资之外,量化投资也在慢慢兴起。目前,主要有三类量化选股策略。
最简单的量化方法,是指数化,最典型的是市场指数。如沪深300的构成就相当简单:
- 对股票池最近一年的 A日均成交金额由高到低排名,剔除排名后 50%的股票
- 对剩余股票按照最近一年 A 股日均总市值由高到低排名, 选取前 300 名股票作为指数样本
- 每年 6 月和 12 月的第二个星期五的下一交易日调整新一批股票
第二种方法是多因子选股,即通过多个因子的组合来选股。比如根据每个因子的取值,对股票进行打分。然后基于打分计算平均值,得到股票的综合评分。最后买入打分最高的N只股票
价值投资的鼻祖格雷厄姆在很早以前就给出过选股的量化标准。他一开始设定的标准是市值要小于三分之二净现金,后来在《聪明的投资者》一书中,为普通投资者提供了一套筛选股票的规则:
- 工业企业的年销售额不低于5000万美元,公用事业企业的年销售额不低于5000万美元
- 流动资产至少为流动负债的两倍
- 过去10年,普通股每年都有一定的利润
- 至少有20年连续支付股息的记录
- 过去10年内,每股收益至少要达到三分之一
- 当前股价不应该高于过去3年平均利润的1.5倍
- 市盈率与价格账面值之比的乘积不应该超过22.5
不过,这一套规则是基于当时美股的市场环境而设定的。现在的美股与A股的市场环境早已与格雷厄姆所处的时代完全不同。
后来乔尔·格林布拉特(Joel Greenblatt)使用资本回报率(ROC)和企业倍数(EBIT)来定义优质股票。因为这两个因子分别量化了“好公司”与“好价格”。他发现,根据这两个因子筛选出的股票在长期远远跑赢了基准指数。这个选股策略也被称为神奇公式(the Magic Formula)。
随着数据储存和数据分析技术的发展,股票市场的信息慢慢数字化。现在,上市公司的财务状况、最终股价等,都变为触手可得的数据。具体的有:
- 股票的交易行情等数据
- 宏观经济、各行业、各上市公司的基本面信息数据(例如行业产销量、公司财务数据、研究员定量预测信息等)
- 数据提供商整理的其他数据
因此,有大量的因子可供选择。如:
- 财务因子:ROE、毛利率、资产负债率
- 估值因子:市盈率、市净率
- 动量因子:过去6个月的个股收益率、波动率
第三种方法是基于人工智能技术的,机器学习选股。
如何理解机器学习呢?机器学习的过程与人类对历史经验归纳的过程有着相似之处。
人类在生活中积累了大类的历史信息。对这些信息进行“归纳”,获得了生活的“规律”。当人类遇到未知的问题或者需要对未来进行“推测”的时候,人类使用这些“规律”,进行“推测”,从而指导自己的生活和工作。
机器学习则是对历史数据进行训练,来总结出模型,然后使用模型进行预测。
机器学习的优点在于能够处理大脑难以进行归纳总结的复杂信息。
举个例子,我们将人的收入分成两类,高收入和低收入。那么来了一个人,如何判断这个人是高收入还是低收入呢?我们知道年龄、学历、职业等因素都会影响收入。一般来说年龄越大、学历越高,某些职业的人,更可能是高收入的人群。因此,我们可以将这些因素与收入建立某种联系。
机器学习就提供了这种建立联系的方法。抽象来说,就是将这些众多的因素X与收入情况Y建立模型,即f(x)=y。下次遇到一个人的时候,如果知道他的X是多少,就可以通过f(x)来预测出这个人的收入情况y。
在股票选股上也是如此。我们可以将股票区分为”好”股票与“坏”股票,然后再基于成百上千个因子(财务数据、量价数据),总结出一个因子与“好坏”股票相关联的模型。然后通过模型预测未来的”好”股票。
评价体系
量化投资的整个研究过程,类似于科学的研究方法:
- 观察现象/数据
- 提出假设/模型
- 实验验证/历史回测
- 证实/证伪/再修正。
前面介绍的量化选股,完成了数据、模型两步,接下来就是如何验证选股是有效的。评价选股策略的效果有两种方法:逻辑归因和历史回测。
1. 逻辑归因
逻辑归因是从策略的本质出发,研究因子X与预测目标y之间是否存在逻辑关系。
前面提到的所有选股策略,都是在用X预测Y。那么X是否真的有效呢?
对于指数化方法而言,它毫无疑问是有效的选股策略。以沪深300指数为例,它选择的是所有上市公司中市值最大的300家。这些公司实现盈利的能力比其它平庸的公司更高,并且可持续经营的时间更长。因此,从长期来看,投资沪深300指数取得的收益并不会太差。
再看因子选股,它所要考虑的因素则比指数更为复杂。比如,过去的数据告诉我们,买市值小的股票,回报要比指数更高。但是从16年开始,市值大的股票反而收益更高。因此,随着市场风格的变化,因子就会有失效的可能。
格林布拉特的神奇公式也是如此。国内有一家资产管理公司引进了神奇公式,并回测了它的历史表现。
从2005年开始计算,神奇公式的确远远超过指数。但如果从引入神奇公式的时间点(大概为2016年)开始计算,会发现近5年都跑不赢沪深300。
所以,因子的选择尤为重要。只有那些符合经济常识以及人类行为的因子,才能够经得起时间的检验。
机器学习选股则是另一套逻辑。考虑到只用少数几个因子容易失效,机器学习纳入了不同维度的因子(成百上千个)。然后基于这些因子建立模型,甄别出其中的“好”股票和“坏”股票。它不奢望构建出一个完美的公式,而只希望得到概率上的优势。比如选出的20只股票,整体上的回报可以远超指数,如60%的获胜概率。其次,通过每月/每季度换入新的股票,来增加参与次数,可以逼近真实的获胜概率。
总结来看,因子的颗粒度越粗糙,策略的长期收益越稳定,如指数化方法。而因子的颗粒度越细越复杂,策略的短期收益可能高,但长期失效的概率也大。
2. 历史回测
历史回测是将选股策略放到过去的股票市场上,看策略的表现如何。如果发现,策略在历史的表现也很差,就证伪了这个策略。
如果发现策略的历史回测效果很好,那么可能是找到了历史上存在的规律。但是历史不一定能代表未来。如同科学研究一样,以前总结出的规律并不一定是完全正确的。
当发生了不合规律的现象后,科学家就需要去研究为什么会出现这个异常的现象,然后尝试去修正原有的规律。策略也会基于最新数据修正原先的结果。
此外,由于未来存在不确定性,我们就有必要弄清楚策略的收益来自哪里?在什么情况下会失效?这就是上述提到的逻辑归因。
因此,只有结合逻辑归因和历史回测,才能大概率判断策略的有效性。