在第三部分,研究员将机器学习选股代码拆分为十二个子模块,包括:模块导入,参数设置,数据读入,数据标记,数据预处理,模型设置,模型训练,模型预测,模型评价,策略构建,策略评价和结果保存。研究员选取2005年1月至2010年12为训练区间,2011年1月至2017年5月为预测区间。选取每个月超额收益排名前三十的股票为正例,排名后三十的股票为反例。围绕预测结果,研究员构建一个简单的策略:选取每个月最可能涨的100只股票,等权配置资产,然后计算该策略的收益和净值。测试的结果,年化超额收益28%,波动率23%, 信息比率(information ratio)为1.22。