量化选股的流程主要包括因子加工,因子分析、建模(Y的定义、表现窗口等)、回测。
我发现自己太过侧重于训练窗口的选择、模型的调整等技术环节,而没有考虑到最关键的环节是什么。股票、期货的数据不像其它数据,存在数据量不足的情况,反而是数据过于丰富了。每天、每分钟甚至每秒都能获得与价格相关的一系列数据。但是,这也导致了数的信噪比低,其中包含了大量的无用噪声甚至是虚假、错误的信息。那么你输入机器学习里的数据,大部分是没用的信息。如果机器学习把某些噪声认为是某种规律,这就麻烦了。再进一步,如果我们通过历史回测发现,机器学习通过输入的一大堆特征实现了很好的收益。这种情况也是存在风险的,因为你并不清楚机器学习得出的预测是否真有价值,即使有价值,你也不清楚这种价值在未来是否会消失。所以,最好的做法是回到特征,也就是说输入的时候,就已经筛选出了有用的特征。什么才是有用的特征呢?显然是那些与价格和收益存在因果联系的特征,这就需要你对特征的含义有足够深的理解。
芒格曾提到对他最有用的五个概念。其中一个是:简化任务的最佳方法是一般先解决那些答案显而易见的大问题。这一点,在解决问题的时候,得时刻牢记才行。不然,后续做的都是无用功。另外,抓住问题的本质还有一种方法,就是列举出影响问题的所有因素。然后通过最大化或者最小化某个因素,把整个问题简单化,这样重要的因素也会随之凸显。