基于XGBoost多分類的人工智能選股模型

2021-06-04 09:23:50李夢窈劉佳敏徐佳妮林雅娜

科技經濟導刊 2021年14期

李夢窈，劉佳敏，徐佳妮，林雅娜，邵波

（浙江外國語學院，浙江杭州 310023）

近年來，在多因子模型研究流程中融入人工智能模型，是對多因子選股模型的改進方向之一。此方向是通過數據驅動的各類機器學習模型替代線性模型進行因子擬合。相比線性模型，機器學習具有更大的模型容量，可利用大量數據和高維因子，處理非線性關系，并進行非線性關系擬合。

1. XGBoost多分類模型構建

1.1 XGBoost算法的原理及邏輯

XGBoost算法即以分類的方式組合回歸樹（CART樹），是一種基于梯度提升決策樹的改進算法。它在原有目標函數基礎上又增加正則化項，通過對模型復雜度的懲罰來減弱模型過擬合問題，其最小化目標函數公式如下：

進行數據處理后得到最終公式：

1.2 算法參數優化

本文分別從估值、財務質量、杠桿、市值、成長、動量、動量反轉、換手率、波動率、技術等十類因子池進行篩選后，最終選取49個因子作為候選因子。在構建模型之前首先是數據預處理過程，具體包括缺失值、去極值、中性化和標準化處理。

優化模型參數可以提高模型的泛化能力，綜合實驗結果，選取n_estimators=500，max_depth=6，sbsample=0.9作為模型訓練參數標準。

1.3 模型的有效性檢驗

為了解測試集特征相關度，在每個截面上將高斯核SVM模型對應的下期漲跌的預測值與因子池中各個因子值進行計算，得出相關系數，查看各個因子暴露值與收益率預測值之間的相關性，如下圖所示，收益率預測值與換手率、技術等交易類因子關聯性較強，與基本面類型因子關聯性較弱。

在模型中構造提升決策樹時，重要性得分一般決定了特征值的大小，決策樹中一個重要的特征意味著它被引用的次數越多。本文對數據的每個特征進行集中計算和排序，同樣發現換手率、動量、技術等交易類因子重要性較強，基本面類型因子重要性較弱。

2. XGBoost多分類模型的實證分析

2.1 XGBoost在不同分類數量下的表現

令分類數量num_class=4、8、12、16，每組為一類打標簽，標簽為0的收益最高，標簽為n-1的收益最低。回測日期為2020年1月1日—2020年8月1日，使用截面期訓練好的前6個月的模型，并設置輪動訓練模型為對照組。每次等權持有中證800成份股中分類期望倒序排列前20的個股。

表1 不同分類數量在單一模型和輪動訓練模型下的回測概況

如表1所示，整體來看，12分類模型效果普遍優于4、8、16分類模型效果。輪動效應帶來的績效并不顯著，可見多分類數量遞增對模型預測效果有一定幫助，但過度分類對模型的預測準確度會大打折扣。

2.2 XGBoost在不同股池下的表現

使用12分類模型，設定可行股票池為中證800、中證500、滬深300、中小板指、創業板綜。如下圖1，XGBoost的12分類模型在中證800、中證500中均獲得了高于基準收益的超額收益，在中證800預選股池表現最好。

圖1 不同股池下12分類模型的累計收益對比

表2 不同股池在12分類模型下的回測概況

2.3 XGBoost在不同截面、換倉周期下訓練的績效對比

由于預測收益率截面和換倉周期對策略收益的影響是相輔相成的，因此我們將預測收益率截面和換倉周期均作為自變量。結果如下圖2：

圖2 3、5日收益率作為標簽下的策略收益概況和最大回撤

整體來看，隨著換倉周期的遞增，預測收益率截面為3日的策略收益率顯著提升。另外，隨著換倉周期的增長，模型的最大回撤值大致呈下降趨勢。

2.4 策略回測

結合歷史經驗，數據量越大對模型的準確度提升也越顯著。考慮計算資源的限制，因此最終選擇2020年1月1日前24個月的數據量訓練得出最終模型。從2020年1月1日至2020年8月1日的策略績效來看，XGBoost模型的12分類法構建的選股策略，有利于獲取超額收益，察覺市場變動風險。回測結果顯示，策略收益53.52%。最大回撤9.6%，風險控制良好。Sharpe為4.62，風險收益高。Bata值0.54，波動小于大盤，穩定性優異。Alpha值0.97，具有一定的投資價值。

圖3 回測日期：2020-01-01至2020-08-01|資金：10000000|頻率：分鐘

2.5 策略的績效分析

Brinson歸因分析如上，本策略超額收益為66.47%，主要源自三個部分：第一，主動配置收益19.83%，代表超配資產類別(或板塊)的超額收益較高，倉位管理能力較良好；第二，標的選擇收益20.57%，表明策略在個股標的選擇上配置良好且較為準確；第三，互動效應收益26.07%，表明超額收益中同時受到主動配置與標的選擇影響的部分較大。

從結果導向而言，該策略較基準配置而言，高配現金、信息技術行業，獲得正的主動收益；低配金融、日常消費、可選消費、工業等行業，獲得負的主動收益。

從風險分析來看，投資風格方面，相較于基準指數中證800而言，該策略高配貝塔、殘差波動率和流動性，低配盈利能力、賬面市值比。從結果導向而言，該策略高配的風格因子表現優異，獲得正的主動收益。

3. 結語

本文運用XGBoost算法并進行多分類模型訓練，在今年以來取得了優異成績。回測結果顯示，策略收益53.52%，風險控制良好，論證了模型運用的合理性。同時在回測和模擬操作中可見模型具有一定的預測準確性，因此基于XGBoost 多分類的選股模型能夠帶來穩定的收益，為機器學習人工智能選股模型的研究創造更多的可能性。