基于機(jī)器學(xué)習(xí)的多因子選股模型

2020-08-03 02:05:45劉佳琪張建

時(shí)代金融 2020年17期

劉佳琪張建

摘要：以滬深300成分股作為股票池，選取2010年年初到2019年年初中價(jià)值類、成長(zhǎng)類、規(guī)模類、交投類、情緒類、每股、質(zhì)量類和風(fēng)險(xiǎn)類這8大類因子的數(shù)據(jù)，探討了XGBoost結(jié)合半衰期IC加權(quán)的方法在多因子選股模型中的應(yīng)用。從實(shí)證中看出，在多因子選股策略中，利用XGBoost方法選取重要的因子，然后運(yùn)用半衰期IC加權(quán)對(duì)重要因子進(jìn)行賦權(quán)的方法在排名前10%的股票中可獲得年化收益率為26.86%，要比年化收益為2.05%的滬深300指數(shù)高出24.81%。這個(gè)方法可對(duì)量化選股提出新思路。

關(guān)鍵詞：半衰期IC加權(quán) XGBoost 多因子選股

一、引言與文獻(xiàn)綜述

近幾年來，量化投資慢慢在資本市場(chǎng)中占領(lǐng)了重要地位，發(fā)展迅猛，迅速成為國(guó)際投資界的一種新型方法。量化投資就是利用計(jì)算機(jī)的技術(shù)，并且采用一定的數(shù)學(xué)模型，踐行投資理念，實(shí)現(xiàn)投資策略的過程。它主要有幾大特點(diǎn)：紀(jì)律性，系統(tǒng)性，及時(shí)性，準(zhǔn)確性和分散化。中國(guó)的量化投資發(fā)展還處于初級(jí)階段，我國(guó)A股市場(chǎng)發(fā)展歷程較短，還處于非有效或弱有效的市場(chǎng)階段，但是越來越多的人嘗試用數(shù)學(xué)，金融學(xué)，計(jì)算機(jī)技術(shù)相結(jié)合的量化投資方法把市場(chǎng)上被錯(cuò)誤估計(jì)的股票挖掘出來，尋求超額收益。多因子選股模型是量化投資中非常重要的模型，該模型主要依據(jù)一系列的因子作為計(jì)算股票收益的標(biāo)準(zhǔn)，后根據(jù)收益率的高低選擇合適的股票。它的優(yōu)點(diǎn)主要是對(duì)市場(chǎng)波動(dòng)較為敏感，能夠依據(jù)最新市場(chǎng)行情改變選股策略，在不同的市場(chǎng)情況下，有不同的因子發(fā)揮作用，因此，各類的投資者在不同的市場(chǎng)情況下開發(fā)了不同的多因子模型。最早可以追溯到Fama & French（1996）等人提出的經(jīng)典的三因子模型，該模型是將比較沒有風(fēng)險(xiǎn)的超額收益歸結(jié)到市場(chǎng)，規(guī)模效應(yīng)，價(jià)值效應(yīng)這三個(gè)因子中。Esmaeil Hadavandi et al.（2010）等人提出遺傳模糊系統(tǒng)和人工神經(jīng)網(wǎng)絡(luò)兩者相結(jié)合的方法，構(gòu)建股票價(jià)格預(yù)測(cè)模型。王春麗等（2018）利用回歸法研究多因子選股模型，對(duì)上證180指數(shù)成分股進(jìn)行分析，并且證明了該方法能夠穩(wěn)定的跑贏上證180的基準(zhǔn)收益率。李文星和李文俊（2018）將一種帶有引力影響因子的半監(jiān)督K-means的核聚類方法應(yīng)用于多因子模型當(dāng)中，表明了該方法比傳統(tǒng)的聚類模型有更強(qiáng)的泛化能力，在線性不可分非球狀簇的樣本中更具優(yōu)勢(shì)，以便選出更優(yōu)的股票組合。周亮（2019）是對(duì)2007年到2017年中證500成分股的6大類因子，研究分位數(shù)回歸方法在多因子選股模型中的情況，并且說明多因子選股模型能夠優(yōu)于線性回歸模型。

本文選取2010年1月到2019年1月的滬深300成分股的數(shù)據(jù)進(jìn)行建模，利用基于梯度提升樹的Xgboost算法自身能夠選取重要性的特點(diǎn)，篩選出重要的因子。因子具有短期動(dòng)量效應(yīng)，近期因子IC要比遠(yuǎn)期IC影響要大，而半衰期IC加權(quán)方法對(duì)因子權(quán)重進(jìn)行配置正好說明了這一特點(diǎn)，因此基于因子半衰期IC加權(quán)的方法和多因子選股模型結(jié)合，并進(jìn)行評(píng)價(jià)與分析，是有理論和現(xiàn)實(shí)意義的。

二、多因子選股模型的方法框架

本文多因子選股模型為圖1，主要分為五步，分別為候選因子的選取，數(shù)據(jù)預(yù)處理，篩選重要因子，構(gòu)建多因子模型，模型的評(píng)價(jià)與分析，下面是各個(gè)步驟的具體介紹：

（一）候選因子的選取

候選因子有多種選擇，可能是基本面指標(biāo)，例如PB，PE等，也可以是技術(shù)面指標(biāo)，例如動(dòng)量，換手率等，又或者一些其他指標(biāo)，如宏觀經(jīng)濟(jì)變量等。如何選擇候選因子，主要依賴于經(jīng)濟(jì)的邏輯和市場(chǎng)的經(jīng)驗(yàn)，但是選擇更多和更有效的因子是增強(qiáng)模型的信息收割能力，提高收益的關(guān)鍵因素之一。

（二）數(shù)據(jù)預(yù)處理

我們?cè)诔跗讷@取因子時(shí)，數(shù)據(jù)總會(huì)出現(xiàn)一些問題，例如存在噪音，數(shù)據(jù)量綱不統(tǒng)一，數(shù)據(jù)缺失等，因此應(yīng)該對(duì)其進(jìn)行預(yù)處理，讓數(shù)據(jù)更適應(yīng)模型，匹配模型的需求。數(shù)據(jù)預(yù)處理的方法有許多，例如數(shù)據(jù)清理，數(shù)據(jù)集成，數(shù)據(jù)變化，數(shù)據(jù)規(guī)約等，本文主要對(duì)數(shù)據(jù)進(jìn)行缺失值處理，離群值處理，標(biāo)準(zhǔn)化和中性化四步。

（三）因子篩選

市場(chǎng)上有成百上千的因子，但是這些因子在不同的情況下起著不同的作用。本文主要利用XGBoost方法查看哪些因子對(duì)收益率起著較大的作用。

1.理論。XGBoost是基于梯度提升樹實(shí)現(xiàn)的一種集成算法，能夠自動(dòng)獲取特征因子的重要性，根據(jù)提升之后的樹可以進(jìn)行特征的篩選。本文利用這一特點(diǎn)把比較重要的候選因子選擇出來。核心思想是通過許多弱分類器迭代計(jì)算，每次迭代都會(huì)生成一顆新樹，通過求CART樹的結(jié)構(gòu)和葉子分?jǐn)?shù)來優(yōu)化xgboost的目標(biāo)函數(shù)。

XGBoost主要是不斷的去添加新樹，學(xué)習(xí)新的函數(shù)去擬合上一次預(yù)測(cè)的殘差，而新的樹是通過特征分裂形成。其中XGBoost主要有兩件事：在已經(jīng)知道第t-1顆樹的時(shí)候，預(yù)測(cè)下一顆樹的葉子結(jié)點(diǎn)的權(quán)重，和第t顆樹。目標(biāo)函數(shù)可改寫為：

式（6）是用來衡量一顆樹的結(jié)構(gòu)是好還是壞的標(biāo)準(zhǔn)，分?jǐn)?shù)越小，代表這樣的結(jié)構(gòu)越好，可以用來選擇最佳切分點(diǎn)，就是衡量節(jié)點(diǎn)在分裂前后式（6）對(duì)應(yīng)的數(shù)值的大小來判斷是否需要分裂。分裂增益公式：

式（7）是XGBoost基樹的根據(jù)。分別代表左子樹分?jǐn)?shù)，右子樹分?jǐn)?shù)，和不分割可拿到的分?jǐn)?shù)，并且可看出是可以在一定程度上控制分裂的程度。

2.XGBoost算法流程。

輸入：I，當(dāng)前節(jié)點(diǎn)的數(shù)據(jù)集

輸出：d，特征維度

Step 3：以最高分分割輸出

XGBoost有許多優(yōu)點(diǎn)，像引入正則項(xiàng)，降低了模型的方差，使所學(xué)的模型更加簡(jiǎn)單，并且防止了過擬合;訓(xùn)練速度更加快速;支持列抽樣;支持線性分類器。

（四）構(gòu)建模型

多因子選股模型主要有兩種構(gòu)建方式，分別是打分法和回歸法。本文采取的是打分法，打分法的主要思想是選出一些對(duì)股票收益能夠產(chǎn)生預(yù)測(cè)的因子，然后根據(jù)股票把各個(gè)因子值進(jìn)行排序，并且給出在截面上的相對(duì)位置進(jìn)行打分，隨后為每個(gè)因子分配權(quán)重，按照權(quán)重將每個(gè)股票的因子得分相加，得到個(gè)股的綜合分?jǐn)?shù)，最后按照綜合分?jǐn)?shù)進(jìn)行降序排列，挑選出分?jǐn)?shù)較高的股票構(gòu)建投資組合。但是在多因子選股中，因子并不穩(wěn)定，有的因子隨著時(shí)間逐漸失效，有的因子會(huì)隨著市場(chǎng)環(huán)境的變化而變化，使得因子在短期內(nèi)失效，所以在打分法模型中，需要對(duì)選用的因子進(jìn)行不斷的評(píng)價(jià)和改進(jìn)。如果每次都依據(jù)最新的因子進(jìn)行個(gè)股打分排名，重新構(gòu)建投資組合，可能會(huì)造成很大的換手率，導(dǎo)致交易成本提高，所以需要以降低換手率為目標(biāo)，此時(shí)可以適當(dāng)對(duì)因子IC進(jìn)行犧牲，因此本文采取半衰期IC加權(quán)的方法進(jìn)行模型的構(gòu)建。

3.半衰期IC加權(quán)。首先介紹因子IC ，其為當(dāng)期因子值和下期的收益率的相關(guān)系數(shù)，表明了因子預(yù)測(cè)股票收益的能力。因子IC的時(shí)間衰減，是衡量一個(gè)因子對(duì)未來預(yù)測(cè)能力能夠持續(xù)多久。時(shí)間衰減過快可能會(huì)導(dǎo)致?lián)Q手率較高，交易成本提高。通過許多研究，發(fā)現(xiàn)因子都會(huì)具有相對(duì)穩(wěn)定的半衰期，即因子的有效性降低到一半所用的時(shí)間，為此，我們需要對(duì)不同的選股因子在不同樣本池的衰減速度進(jìn)行分析，以做到因子加權(quán)時(shí)靈活配置因子權(quán)重，適應(yīng)復(fù)雜多變的市場(chǎng)。

IC均值加權(quán)為過去的每期因子IC等權(quán)分配權(quán)重，也就是給定因子過去N期的因子IC向量，那么因子的權(quán)重為

因子具有動(dòng)量效應(yīng)，說明因子近期的IC對(duì)于當(dāng)期權(quán)重的影響要大一些，遠(yuǎn)期IC的影響要小一些，所以權(quán)重要給因子近期IC分配更大，才能更加適應(yīng)市場(chǎng)短期的變化。

所以，我們用半衰期的權(quán)重來描述近期IC對(duì)因子的權(quán)重的影響用。半衰期為固定半衰期H，每隔H期的權(quán)重值以指數(shù)下降的方式降低一半。換句話說就是給定半衰期H，IC序列長(zhǎng)度N，那么半衰期的權(quán)重向量其中為：

本文使用滬深300的數(shù)據(jù)進(jìn)行對(duì)該方法的驗(yàn)證，使用數(shù)據(jù)為2010年1月29到2019年1月31日，采用滾動(dòng)窗口測(cè)試。

三、基于滬深300市場(chǎng)的多因子選股模型的實(shí)證分析

本文選取2010年年初到2019年年初的數(shù)據(jù)，其中訓(xùn)練集是以滾動(dòng)法進(jìn)行訓(xùn)練，例如以T日為準(zhǔn)，每21個(gè)交易日為間隔區(qū)間，使用對(duì)應(yīng)的特征和標(biāo)簽作為訓(xùn)練集。業(yè)績(jī)比較基準(zhǔn)為滬深300本身。

（一）候選因子的選取

本文從價(jià)值類、成長(zhǎng)類、規(guī)模類、交投類、情緒類、每股、質(zhì)量類和風(fēng)險(xiǎn)類8大類因子的數(shù)據(jù)作為候選的因子，具體的因子見表1。

（二）數(shù)據(jù)預(yù)處理

1.缺失值處理。本文所采用數(shù)據(jù)缺失較少，因此使用均值來填補(bǔ)數(shù)據(jù)缺失的情況。

2.離群值處理。數(shù)據(jù)可能非常大或者非常小，會(huì)影響了分析的結(jié)果，尤其是在做回歸的時(shí)候，所以應(yīng)該對(duì)數(shù)據(jù)進(jìn)行離群值處理。本文采取MAD法（絕對(duì)值差中位數(shù)法），它計(jì)算所有因子與平均值之間距離的總和，放大了離群值的影響，能更清晰地從正常數(shù)據(jù)中觀測(cè)出離群值，是一種比較穩(wěn)健的方法。

3.標(biāo)準(zhǔn)化。運(yùn)用數(shù)據(jù)標(biāo)準(zhǔn)化可以使多個(gè)不同的量級(jí)指標(biāo)間進(jìn)行相互比較，或者使數(shù)據(jù)變得集中。本文利用z-score，即，將因子值的均值調(diào)整到0，標(biāo)準(zhǔn)差調(diào)整到1。

4.中性化。我們?cè)诶靡蜃拥臅r(shí)候，由于因子之間可能會(huì)相互影響，導(dǎo)致有一些偏向性，選出來的股票偏向一方面，例如市凈率和市值之間有很高的相關(guān)性，如果選取沒有市值中性化的市凈率這種因子，選股就很集中。同樣的朝夕行業(yè)的的市盈率也類似，即行業(yè)也對(duì)估值因子有影響，所以要對(duì)市值和行業(yè)中性化。其具體方法就是利用回歸，得到一個(gè)與風(fēng)險(xiǎn)因子線性無(wú)關(guān)的因子，提取殘差作為中性化后的新因子。

是股票i的alpha因子，為股票i的總市值，為行業(yè)虛擬變量，就是股票i若屬于行業(yè)j，則暴露度為1，否則為0，每個(gè)股票i只屬于一個(gè)行業(yè)，不再對(duì)所屬行業(yè)進(jìn)行劃分。

（三）篩選重要因子

如圖2，以XGBoost中形成的圖為例，從根節(jié)點(diǎn)出發(fā)，當(dāng)operating_revenne<2.5696時(shí)執(zhí)行yes，判斷net_profit與2.7606的大小，執(zhí)行yes繼續(xù)判斷，當(dāng)operating_revenne 2.5696時(shí)執(zhí)行no，判斷BM與-0.3198的大小，以此類推直至葉子結(jié)點(diǎn)。

通過圖2可以得到計(jì)算每個(gè)因子后的收益率，然后把34個(gè)候選因子進(jìn)行重要性排序。多次嘗試因子的組合，最終選取import>0.6的因子，也就是凈資產(chǎn)收益率（ROE），流通市值（circulating_market_cap），固定資產(chǎn)比例（FAP），總股本（capitalization），營(yíng)業(yè)收入（operating_revenue），換手率（turnover_ratio），可以得到高收益，如圖3所示：

（四）模型的構(gòu)建

利用上面選取出的6個(gè)比較重要的因子構(gòu)建打分法模型。為了評(píng)估個(gè)股的綜合得分，模型對(duì)交易日的股票按照6個(gè)因子分別評(píng)分后再按照半衰期IC加權(quán)法進(jìn)行計(jì)算，在綜合打分后，將市場(chǎng)中的所有股票進(jìn)行排序，選取得分前10%的股票作為當(dāng)月的投資組合I，即完成了模型選股的全部步驟。

（五）模型的檢驗(yàn)

本文利用2010年年初到2019年年初共9年的數(shù)據(jù)驗(yàn)證模型的有效性。每個(gè)月初都按照最新的綜合評(píng)分進(jìn)行從大到小的排序，并且按照半衰期IC加權(quán)的方式分為Group1到Group5一共5組股票數(shù)量相同的組合，該組合持有到月末，再在下一個(gè)月月初進(jìn)行同樣的方法進(jìn)行構(gòu)建，一直到檢驗(yàn)最后。假設(shè)在2010年年初將1000元投資這五個(gè)組合，那么在2019年年末Group1到Group5的凈值為4620.5102，2830.2020，2380.7148，1930.2245，1540.3103，而投資滬深300指數(shù)的凈值為1190.2642。得分最高的組合年化收益率為23.8%，而滬深300指數(shù)為2.05%，超出指數(shù)21.75%，具體組合收益可以看表2，組合及指數(shù)的凈值曲線圖見圖4.

圖4由上往下以此為，Group1到Group5和HS300。

接下來比較投資組合I的凈值和滬深300的凈值，結(jié)果如圖5所示。

如圖5所示，投資組合I年化收益為26.86%高于年化收益為2.05%的滬深300指數(shù);投資組合I的凈值為7.42高于凈值為1.19的滬深300指數(shù)，說明策略效果較好。

四、結(jié)論

量化投資的本質(zhì)就是借用計(jì)算機(jī)將傳統(tǒng)投資的邏輯定量化，并具有紀(jì)律性、程序化等優(yōu)勢(shì)，本文以量化投資中最常用的多因子模型為基礎(chǔ)進(jìn)行研究。多因子選股就是提煉出能夠長(zhǎng)期具備擇股的因素并通過各種方法加以整合。從模型可以看出，對(duì)選取的2010年年初到2019年年初的滬深300成分股中8大類因子的數(shù)據(jù)進(jìn)行回測(cè)，回測(cè)數(shù)據(jù)為表1。然后利用XGBoost方法篩選出的重要因子為凈資產(chǎn)收益率（ROE），流通市值（circulating_market_cap），固定資產(chǎn)比例（FAP），總股本（capitalization），營(yíng)業(yè)收入（operating_revenue），換手率（turnover_ratio）。采用動(dòng)態(tài)的打分法為廣大的投資者提供一個(gè)簡(jiǎn)單便捷，易操作，無(wú)需過多復(fù)雜整理運(yùn)算的策略，并加入半衰期IC加權(quán)方法對(duì)模型進(jìn)行構(gòu)建。用歷史數(shù)據(jù)驗(yàn)證了此策略的投資效果表現(xiàn)良好，結(jié)果為選出的前10%的股票中可獲得年化收益率為26.86%，要比滬深300的年化收益率高，高出24.81%。可以給當(dāng)前投資者一條新的選股思路。

我們構(gòu)建一個(gè)動(dòng)態(tài)IC半衰期加權(quán)方法多因子組合，每期選擇因子打分排名前10%的股票作為投資組合。本文的選股方法在模型的檢驗(yàn)期是有效的，由于月份眾多，本文只列出了幾個(gè)月份的股票組合，如表3。

本文還存在進(jìn)一步改善和深化的地方，未來將會(huì)在以下幾個(gè)方面深入研究。其一，只是把模型與基準(zhǔn)進(jìn)行對(duì)比，沒有與其他模型的對(duì)比;其二，本文只是把樣本作為一個(gè)整體進(jìn)行分析，而沒有依照不同的市場(chǎng)的風(fēng)格的切換研究。后續(xù)研究將會(huì)對(duì)此進(jìn)行詳細(xì)探討，檢驗(yàn)此方法是否是比較不錯(cuò)的選擇。可以為廣大投資者開拓思路，能夠與當(dāng)前的投資行為更好的順應(yīng)未來的市場(chǎng)行情波動(dòng)。

隨著我國(guó)金融市場(chǎng)的逐步發(fā)展，應(yīng)該利用多因子選股策略去發(fā)現(xiàn)一些被錯(cuò)誤定價(jià)的股票，以期獲得超額收益。利用多因子選股策略進(jìn)行投資將會(huì)是主要發(fā)展方向，會(huì)在越來越多的領(lǐng)域中出現(xiàn)，在以后的中國(guó)市場(chǎng)中，量化選股必將成為發(fā)展方向。

參考文獻(xiàn)：

[1]Fana E，F(xiàn)rench J R.Multifactor Explanations of Asset Pricing Anomalies [J].Journal of Finance，1996，51（1）：55-84.

[2]Esmaeil Hadavandi，Hassan Shavandi，Arash Ghanbari. Integration of genetic fuzzy systems and artificial neural networks for stock price forecasting[J].Knowledge-Based Systems，2010，23（8）.

[3]王春麗，劉光，王齊.多因子量化選股模型與擇時(shí)策略[J].東北財(cái)經(jīng)大學(xué)學(xué)報(bào)，2018（05）：81-87.

[4]李文星，李俊琪.基于多因子選股的半監(jiān)督核聚類算法改進(jìn)研究[J].統(tǒng)計(jì)與信息論壇，2018，33（03）：30-36.

[5]周亮.基于分位數(shù)回歸的多因子選股策略研究[J].西南大學(xué)學(xué)報(bào)（自然科學(xué)版），2019，41（01）：89-96.

[6]Brahim Ulas Ozturan，Elif Yaka，Selim Suner，Asim Enes Ozbek，Cansu Alyesil，Nurettin Ozgur Dogan，Serkan Yilmaz，Murat Pekdemir. Determination of carboxyhemoglobin half-life in patients with carbon monoxide toxicity treated with high flow nasal cannula oxygen therapy[J]. Clinical Toxicology，2019，57（7）.

[7]Christophe Morel. Stock selection using a multi-factor model - empirical evidence from the French stock market[J].The European Journal of Finance，2001，7（4）.

[8]Guresen E，Kayakutlu G，Daim T U.Using artificial neural network models in stock market index prediction[J].Expert Systems with Applications，2011，38（8）：10389-10397.

[9]Qui-yong Zhao，Xiaoyu Zhao，F(xiàn)u Duan. Prediction Model of Stock Prices Based on Correlative Analysis and Neural Networks[P].Information and Computing Science，2009. ICIC '09.Second International Conference on，2009.

[10]Tian Jinyu，Li Yanni，Lin Yan.The analysis of factors affecting special treated stocks[P]. Industrial and Information Systems （IIS），2010 2nd International Conference on，2010.

[11]Xue Chen College of Economics，Zhejiang University Hangzhou，China Xuejun Jin College of Economics，Zhejiang University Hangzhou，China. Detecting the Macroeconomic Factors in Chinese Stock Market Returns：A Generalized Dynamic Factor Model Approach[A].International AssociationofComputerScienceandInformationTechnology（IACSIT）.Proceedings of 2010 2nd IEEE International Conference on Information and FinancialEngineering（ICIFE2010）[C].Inter-national Association of Computer Science and Information Technology（IACSIT）：IEEE BEIJING SECTION（跨國(guó)電氣電子工程師學(xué)會(huì)北京分會(huì)），2010：5.

作者單位：河北工業(yè)大學(xué)理學(xué)院

時(shí)代金融2020年17期

時(shí)代金融的其它文章: 經(jīng)濟(jì)視域下高校思政與就業(yè)指導(dǎo)教育的有效整合; 貴州省財(cái)務(wù)管理軟件行業(yè)崗位人才需求調(diào)研報(bào)告; 校企雙主體下高職院校金融人才工匠精神培養(yǎng)途徑研究; 企業(yè)應(yīng)當(dāng)如何處理新冠肺炎疫情對(duì)合同履行的影響; 銅冶煉企業(yè)產(chǎn)品加工成本控制方法探討; 基于大學(xué)生方程式賽車的舵機(jī)換擋機(jī)構(gòu)的設(shè)計(jì)