在选股模型中,基于统计概率的截面选股,是比较靠谱的一种量化策略。这类策略的,持仓周期从几个小时到几个月不等。最常见的是传统的多因子模型。
多因子模型的优点是,可解释性强。但由于只包含了少数几个因子,随着市场风格的变化,因子非常容易失效。比如市值因子,在不同时期的表现完全不同。2015年,市场呈现一种“低估值蓝筹股下跌、高估值小公司上涨”的市场格局。这段时间是小市值的股票涨幅远远高于大市值的股票。而从2016年到2020年,大市值的股票则开始一路上涨,远远超过小市值的股票。
随着人工智能的崛起,现今很多量化机构都用上了机器学习来做截面选股,而且超额收益显著。选股的目的是为了找出未来最有可能上涨的股票,机器学习天然地适用于这类预测问题。
机器学习有着强大的非线性拟合能力,能够容纳不同维度的因子(成百上千个)。然后,基于这些因子,建立分类或者回归模型,对股票收益进行预测。它不奢望构建出一个完美的公式,而只希望得到概率上的优势。比如选出的N只股票,整体上的回报可以远超指数,如60%的获胜概率。其次,通过每周/每月/每季度换仓,来增加参与次数,从而逼近真实的获胜概率。
模型要素
-
预测目标(Y)。常见的是,预测未来N天的收益率。当然,还有其它构造方法。比如将预测收益率转换成上涨、下跌的分类问题。
-
因子(X)。因子决定了机器学习预测效果的上限。那些能够很好地刻画市场信息的因子,才能使预测效果上一个台阶。所以,大家都会花费大量的精力去挖掘高质量的因子。因子来源于股票的价格和财务数据。比如量价因子、估值因子、财务质量因子、成长因子、交易摩擦因子、动量因子、技术因子等等。
-
算法。机器学习里有许许多多的算法,如逻辑回归、决策树、随机森林、XGBoost等等。近年来,得益于深度学习在各类预测任务中的卓越表现,它也被用来预测股票收益。
-
股票池。机器学习选股的数据来源于股票池。不同的股票池会造成预测结果有所偏好。比如,基于沪深300进行机器学习的建模,选出股票的走势会更接近于沪深300。
通过以上四个要素的确定,我们就能构建出一个机器学习选股模型。最终,模型对每只股票有一个打分。打分通常代表了股票未来上涨的可能性。分数越高,上涨的可能性越大。我们,可以按照打分来制定个性化的策略