机器学习选股模型 - 邬小达的博客

在选股模型中，基于统计概率的截面选股，是比较靠谱的一种量化策略。这类策略的，持仓周期从几个小时到几个月不等。最常见的是传统的多因子模型。

多因子模型的优点是，可解释性强。但由于只包含了少数几个因子，随着市场风格的变化，因子非常容易失效。比如市值因子，在不同时期的表现完全不同。2015年，市场呈现一种“低估值蓝筹股下跌、高估值小公司上涨”的市场格局。这段时间是小市值的股票涨幅远远高于大市值的股票。而从2016年到2020年，大市值的股票则开始一路上涨，远远超过小市值的股票。

随着人工智能的崛起，现今很多量化机构都用上了机器学习来做截面选股，而且超额收益显著。选股的目的是为了找出未来最有可能上涨的股票，机器学习天然地适用于这类预测问题。

机器学习有着强大的非线性拟合能力，能够容纳不同维度的因子（成百上千个）。然后，基于这些因子，建立分类或者回归模型，对股票收益进行预测。它不奢望构建出一个完美的公式，而只希望得到概率上的优势。比如选出的N只股票，整体上的回报可以远超指数，如60%的获胜概率。其次，通过每周/每月/每季度换仓，来增加参与次数，从而逼近真实的获胜概率。

模型要素

预测目标（Y）。常见的是，预测未来N天的收益率。当然，还有其它构造方法。比如将预测收益率转换成上涨、下跌的分类问题。
因子（X）。因子决定了机器学习预测效果的上限。那些能够很好地刻画市场信息的因子，才能使预测效果上一个台阶。所以，大家都会花费大量的精力去挖掘高质量的因子。因子来源于股票的价格和财务数据。比如量价因子、估值因子、财务质量因子、成长因子、交易摩擦因子、动量因子、技术因子等等。
算法。机器学习里有许许多多的算法，如逻辑回归、决策树、随机森林、XGBoost等等。近年来，得益于深度学习在各类预测任务中的卓越表现，它也被用来预测股票收益。
股票池。机器学习选股的数据来源于股票池。不同的股票池会造成预测结果有所偏好。比如，基于沪深300进行机器学习的建模，选出股票的走势会更接近于沪深300。

通过以上四个要素的确定，我们就能构建出一个机器学习选股模型。最终，模型对每只股票有一个打分。打分通常代表了股票未来上涨的可能性。分数越高，上涨的可能性越大。我们，可以按照打分来制定个性化的策略