基于機器學習方法的多因子選股策略研究

2022-03-19 18:18:23趙娣

經濟研究導刊 2022年2期

趙娣

摘? ?要：基于機器學習方法與多因子選股模型相結合，構建出新的多因子選股模型，通過機器學習算法對個股進行分類，從而篩選出具有投資價值的股票，進行構造有效的投資組合，并模擬回測證實其有效性。以滬深300成分股為股票池，運用6個因子，選取2010—2020年的數據，并對其進行去值化、標準化、中性化的處理。每個月底根據前一年的數據使用機器學習算法建模，以當月的數據輸入預測下個月的綜合因子，將綜合因子排序，選取前兩個分位點的股票分別構建等權重組合進行投資。借助優礦平臺進行回測，結果顯示，Logistic回歸構建的模型比較好，具有較高的實際應用價值。

關鍵詞：機器學習;因子選股;Logistic回歸

中圖分類號：F832.51? ? ? 文獻標志碼：A? ? ? ? ?文章編號：1673-291X（2022）02-0106-03

引言

機器算法自從誕生以來，經過大量的實踐與理論的運用日益成熟，應用的領域也逐漸擴大。金融領域也是機器算法應用的一個方面。

量化投資是踐行投資理念，運用計算機技術與數學模型相結合來實現投資策略的過程。它擁有系統性、及時性、紀律性、準確性和分散化等特點，并且憑借著這些特點成為了國際投資界的新型投資方法。多因子模型是從資產定價模型中發展出來，綜合考慮多種因素而形成的模型。它擁有對市場波動敏感、根據最新行情改變策略的優點，是量化投資模型的重要組成部分。

機器算法能根據大量的數據學習出具有良好泛化性能的模型，而這種具有良好泛化性能的模型正是量化投資所需要的。因傳統多因子選股策略的有效性開始逐漸降低，因此使用機器算法來優化選股策略是當下流行的趨勢，許多基金公司發布的基金產品借此取得不錯的超額收益。

一、文獻綜述

量化投資近年來發展迅速，漸漸占據資本市場的重要位置，成為國際投資界的新的投資方法，國內外有不少學者進行相關研究。

周亮（2019）通過選取中證成分股2007—2017年的數據，采用六大類因子證明了多因子選股模型優于傳統線性回歸模型。汪洋（2010）運用財務指標構建多因子模型，結果顯示估值因子對上市公司股票收益率的影響最大。曹正風等人（2014）發現，以價值成長為基礎的指標體系構建的多因子模型，使用隨機森林模型并于支持向量機模型相比較，結果顯示隨機森林模型有著良好的選股效果。

綜合以上來看，機器學習算法和量化投資結合使用，在選股方面有著良好的效果，并且在大數據的背景下，依靠人們自身的分析遠遠不夠，因此量化投資越來越流行。

二、機器算法理論

（一）Logistic理論

Logistic回歸是一種常用于經濟預測、疾病方面和數據挖掘方面的廣義線性回歸模型。它的原理是通過輸入自變量經過公式輸出的模型，其公式和圖像如下：

h（z）=（1）

其函數圖1：

從圖1可以看出，Logistic回歸模型將輸入的特征變量轉化為[0，1]這個區間的值來完成分類。

Logistic回歸模型的適用條件，首先是自變量和因變量的關系應該存在著線性相關關系;其次需要注意模型的擬合優度，模型的擬合優度越高，模型的結論更加可靠，如果太低，那么模型的解釋力就變的更加難以說服。

（二）決策樹理論

決策樹是對象屬性和對象值之間的一種映射，是一種預測模型，也可以用作分類，是數據挖掘過程中經常用到的一種方法，也是一些預測精度很高的機器學習方法的基本模塊。

決策樹是運用概率分析的一種圖解法，其決策分支過程就像是大樹的分支，故稱為決策樹。其決策分支的過程也像人們做出決策的過程，運用已知信息來進行選擇最大概率的結果。

決策樹優點是面對大型數據源能夠在相對較短的時間內做出可行且效果好的結果;缺點是對連續的字段、有時間順序的數據和類別太多時存在著難以預測和效果不好的問題。

（三）隨機森林理論

隨機森林模型是基于決策樹模型，通過構建多棵樹對樣本進行訓練并預測的分類器。

其實，質是將多個決策樹合并在一起，每棵樹的建立依賴于獨立抽取的樣本。像是數學中的有放回的抽樣，經過多次抽樣來增加訓練節點的準確度，因子抽樣樣本有的一次也不會出現，有的出現次數較多。

隨機森林算法的優點是對于處理高維度的數據，并且有著很好的抗噪能力，性能比較穩定;缺點是模型的參數比較復雜，并且模型訓練和預測過程會消耗大量的時間，效率比較慢。

三、多因子選股模型的方法框架

本文的多因子選股模型方法步驟為圖2，主要分為四個步驟，分別為候選因子的選取、數據預處理、構建模型、模型檢驗。

（一）候選因子的選取

對于候選因子的選取是多種多樣的，有的會選取基本面指標，有的會選取技術面指標，有的也會選取投資者情緒和分析師分析等因素來構建指標。但總的來說，選擇更有效的因子來提高投資者的收益才是最關鍵的方面。

（二）數據預處理

我們獲取的數據可能會存在著噪音、缺失值和數據量綱不統一的問題，因此，我們為了使得模型獲取最好的效果，需要對獲取的數據進行處理再輸入到模型中。數據處理方式很多，可根據模型需要進行合適的處理。

對數據進行去極值、標準化和中性化處理，極值數據與一般數據的偏差較大，影響模型的準確性，標準化使因子值歸一到[0，1]，行業中性化處理減少行業性的特征，比如銀行股的市盈率特別低，互聯網行業的市盈率高等行業特征。

（三）構建模型

多因子選股模型主要分為打分法和回歸法。回歸法主要是通過對股票收益率有關的因子進行回歸，根據回歸結果，把最新因子值代入回歸方程來對未來股票收益進行預判，將此作為依據來進行選股，并對模型的有效性和收益率進行評價。打分法是將選出來的與股票收益相關的因子進行排序，根據排序在相應的位置進行打分，并且為每個因子值配以權重，根據權重將每只股票的因子得分相加得到個股的綜合得分，選取得分高的股票按一定的選取比例來構建投資組合。

（四）模型檢驗

本文利用滬深300成分股2011年1月到2019年12月的數據，借助優礦量化投資平臺進行模擬投資，根據平臺結果比較來選取合適的機器學習算法。

四、基于滬深300市場的多因子選股模型的實證分析

本文選取2010年初到2020年初的數據，其中訓練集是以滾動法進行訓練，特征為六大因子，標簽按照滬深300成分股每月收益率的均值為界限，大于均值的標簽為1，小于均值的標簽為0。

（一）候選因子的選取

本文選取了市盈率（PE）、市凈率（PB）、流動比率（CurrentRatio）、固定資產周轉率（FixedAssetsTRate）、權益回報率（ROE）、凈資產增長率（NetAssetGrowRate）。

（二）數據預處理

1.去極值處理。數據中存在異常值，可能會導致標準差偏差加大、統計規律的偏差。

2.中性化處理。中性化處理起著提純的作用，處理問題的方式類似于計量中的多重共線性問題。最典型的中性化就是市值中性化和行業中性化。有一些因子受市值的影響比較大，比如成交額這個數據，如果將成交額和市值放在一起就會產生多重共線性問題。

3.標準化處理。將數據按比例縮放，使之落入一個小的特定區間。常用的方法有規范化方法、正規化方法和歸一化方法。本文通過歸一化處理將因子數據按比例縮放到0到1這個區間，數據匯總結果如表1所示。

本文采取網格搜索的方式來進行機器學習算法的參數優化，網格搜索方法包含交叉驗證，使得模型更加可靠。

（三）構建模型

本文選取時間窗口長度為12個月，以時間窗口內的數據為樣本進行訓練機器學習算法模型，運用網格搜索的方法篩選出最優模型，運用最優模型預測樣本外的下一個月的綜合因子，按綜合因子將滬深300成分股選出前2個分位點的股票組合，進行等權重組合進行投資。

（四）模型的檢驗

本文利用2011年初到2020年初共9年的數據驗證模型的有效性。每個月按綜合因子進行從大到小的排序，篩選出排名前兩個分位點的股票進行等權重投資。假設初始投資資金為1 000萬元，結果顯示Logistic回歸模型進行回測的年化收益率為9.4%，滬深300指數的年化收益為3.1%，高出6.3%的收益。具體如表2。

通過回測分析，這三種機器學習算法的選股模型綜合來看Logistic回歸模型的效果較好，最大回撤相對于其他兩個模型處于中間位置，貝塔值較好，夏普比率也是最大的，綜合來看模型具有較好的效果。

五、結論

量化投資作為當下最流行的投資方法，將其與機器學習算法結合來構建的投資組合取得了不錯的效果。本文選取具有代表性的六大因子進行實證研究，運用機器學習算法進行模型訓練，通過網格搜索選取出最優模型進行預測，將預測的綜合因子進行排序來選取前兩個分位點的股票進行投資，為投資者提供簡單、便捷的投資方法。

本文借助選取的六大因子來進行選股存在很大的局限性，使用合適的因子來進行研究可以增加模型的有效性，選取的股票組合進行等權重投資，等權重投資雖然避免了部分股票在指數中的占比過高，但是流動性較差。機器學習算法模型參數選取需要進行優化研究，本文使用網格搜索的方法進行模型參數優化，同時包含數據集的交叉驗證，盡可能選取最好的參數進行研究，避免機器學習算法擬合問題，因此本文機器學習算法模型的精確率在0.56左右，是需要進行進一步研究的方向。

隨著我國金融市場的逐步發展，應該利用多因子選股策略去發現一些被錯誤定價的股票，以期獲得超額收益。利用多因子選股策略進行投資將會是主要發展方向，會在越來越多的領域中出現，在以后的中國市場中，量化選股必將成為發展方向。

參考文獻：

[1]? ?車洋.基于機器學習方法的多因子選股策略研究[D].天津：天津大學，2018.

[2]? ?Kariya T. Quantitative Methods for Portfolio Analysis[M]. Springer Netherlands，2013.

[3]? ?李杰.基于隨機森林算法的多因子選股模型研究[D].哈爾濱：哈爾濱工業大學，2019.

[4]? ?周亮.基于分位數回歸的多因子選股策略研究[J].西南大學學報：自然科學版，2019，41（1）：89-96.

[5]? ?朱世清.多因子選股模型的構建與應用[D].濟南：山東財經大學，2015.

[6]? ?韓燕龍.基于隨機森林的指數化投資組合構建研究[D].廣州：華南理工大學，2015.

[7]? ?周漸.基于SVM算法的多因子選股模型實證研究[D].杭州：浙江工商大學，2017.

[8]? ?胡謙.基于機器學習的量化選股研究[D].濟南：山東大學，2016.

[責任編輯? ?妤? ?文]

3804501908272