劉夢堯, 逄煥利
(長春工業大學 計算機科學與工程學院, 吉林 長春 130102)
據統計,截止2020年3月,在上海、深圳、香港、紐約等全球15個交易所上市的中國公司總計7 343家,相比2019年初,新增上市公司382家。總市值達105.71萬億,同比增長超過30%。而投資者也越來越多,量化投資進一步引起了投資者的廣泛關注,投資者在七千多家公司中去選擇能使自己獲得收益的股票,也促使了選股模型的進一步發展。
多因子選股模型是投資者和投資機構應用最廣泛的選股模型,這也使得多因子模型不斷發展和完善?,F今大數據時代,股票和股票因子數據密度越來越大,對其處理需要合理高效的技術。而深度學習高度依賴數據,數據量越大,表現就越好,深度學習中的神經網絡算法更能在處理大數據,解決復雜性問題上具有獨特優勢。
多因子選股的核心思想在于市場影響因素是多重的,并且是動態的,但是總會有一些因子在一定時期內能發揮穩定的作用。量化實踐中,由于不同市場參與者或分析師對于市場的動態、因子的理解存在較大差異,因此構建出各種不同的多因子模型。
具有代表性的研究有:張偉楠等[1]使用財務數據構建一個多因子選股模型,在支持向量機分類上進行預測優化,模型利用支持向量機性質提高預測精度,結合技術分析優化了策略的收益,為多因子選股和交易提供了新的研究視角。王倫等[2]為了獲取股票市場更高的超額收益,提高股票漲跌預測準確率,將gcForest(深度森林)算法引入了股票投資市場,建立基于gcForest多因子量化投資策略,研究表明,gcForest算法在股市行情平穩和上漲時期都較其他算法有明顯的優勢。葛櫓漠等[3]圍繞多量價因子選股模型,通過因子計算、特征處理、單因子分析以及基于XGBoost機器學習的日頻滑動窗口模型搭建,計算出XGBoost模型對股票預測的準確度和前100只股票的收益情況,結果表明,基于XGBoost機器學習模型選出的股票組合相對等權重的多因子選股模型有明顯的改進。楊妥等[4]提出融合情感分析和SVMLSTM特征提取模型的股指預測方法,以提高股指預測精度,將SVM和LSTM方法相結合建立SVMLSTM模型,提取影響股指波動的情感極性特征、漲跌趨勢特征以及股票技術指標特征,進而彌補影響股指波動的存在因素,實現股指預測。
神經網絡因其對非線性趨近的函數有很好的處理能力,同時有良好的性能與容錯能力,能夠彌補傳統多因子模型難以處理非線性因子關系的不足,文中利用神經網絡非線性、學習、自組織和自適應性等多種特點,有效彌補了傳統金融計量模型的短處,取得了可觀的超額收益。
在我國公募基金市場中,許多的量化投資基金都是基于多因子模型設立的,在實踐中有非常廣泛的應用。多因子模型就是對風險和收益關系進行量化表達,通過尋找影響股票漲跌的共性,尋找市場運行規律,利用數據量化的方法,挖掘能夠對股票價格變動作出解釋和預測的因子,進而構建模型,將其應用到選擇股票和管理風險中。
1.2.1 Fama-French三因子模型
在多因子模型被提出之前,CAPM是資產定價的第一范式。然而,自20世紀70年代以來,學者們逐漸發現按照某種風格“打包”的股票能夠戰勝市場,其中有Basu發現的盈利市值比效應和Banz發現的小市值效應等,但它們并沒有形成合力。因此CPAM仍是主流。直到Fama E F等[5]整合了之前被提出的多種異象,指出可以建立一個三因子模型來解釋股票回報率。模型認為,一個投資組合(包括單個股票)的超額回報率可由它對三個因子的暴露來解釋,這三個因子是:市場資產組合(Rm-Rf)、市值因子(SMB)、賬面市值比因子(HML)。
模型公式為
E[Ri]-Rf=βi,MKT(E[RM]-Rf)+
βi,SMBE[RSMB]+
βi,HMLE[RHML],
(1)
式中:E[Ri]----股票i的預期收益率;
Rf----無風險收益率;
E[RM]----市場組合預期收益率;
E[RSMB],E[RHML]----分別為規模因子(SMB)和價值因子(HML)的預期收益率;
βi,MKT,βi,SMB,βi,HML----個股i在相應因子上的暴露。
Fama三因子模型的構建步驟如下:
1)選擇已經上市,并且上市時間超過2 a的股票,同時剔除上一年年報中所有者權益為負的股票。
2)將入選股票按每年6月的普通股市值從大到小排序,大于50%分位的歸到B組,其余歸到S組。按照上年末的賬面市值比的大小排序,按30%、70%兩個分位,分成三組 L(L,<30%)、M(M,[30%,70%])、H(H,>70%)。將所有既在B組,又在L組的股票分到BL組中,以此類推,將所有股票都分別分到 BL、BM、BH、SL、SM、SH這6個組中,見表1。

表1 股票市值分組表
3)將股票在每年6月份,分別按市值、賬面市值比大小分成5組,交叉取交集,得到25組股票組合,每個組合計算市值加權月收益率序列。重復以上過程,得到三因子收益率,以及25組組合的月收益率,將這25組組合的收益率逐組與三因子收益率進行時間序列回歸,并檢驗其結果。
實驗證明,三因子模型可以很好地解釋股票的平均收益,而且回歸分析的截距接近于0(Alpha接近于0),這意味著市場因子、規模因子和賬面市值比因子三者一起可以很好地解釋股票市場中的收益。此模型被提出后就逐步取代了CAPM成為資產定價的第一范式。
1.2.2 Carhart 四因子模型
隨著市場交易實踐和研究的不斷深入,研究者又發現市場中的動量現象無法用三因子模型解釋。1997年,卡哈特(Carhart M M)[6]認為研究股票收益應在Fama和French的三因子模型基礎上加入動量效應,構建四因子模型,模型公式為
E[Ri]-Rf=βi,MKT(E[RM]-Rf)+
βi,SMBE[RSMB]+
βi,HMLE[RHML]+
βi,MOME[RMOM],
(2)
式中:E[RMOM]----動量因子的收益率;
βi,MOM----個股i在動量因子上的暴露。
Carhart 四因子模型在Fama三因子模型的基礎上,每月末將所有股票按t-12到t-1這11個月的總收益排序,并通過做多排名前30%,同時做空排名后30%的股票構建動量因子。在計算因子收益率時,多空兩頭內的股票均采用等權重配置。
實驗證明,考慮動量因子之后,回歸精確度有所提高。Carhart四因子模型彌補了三因子模型對市場“趨勢效應”解釋不足的問題,更全面地評價基金業績,并且更有效地衡量基金的超額收益能力具有一定的學術地位和實踐意義,使投資者能夠簡明直觀地看到目標基金的收益和風險來源。
1.2.3 Fama-French五因子模型
2015年,Fama E F等[7]在Fama-French三因子模型的基礎上,添加了盈利和投資兩個因子,提出了新的五因子模型,模型公式為
E[Ri]-Rf=βi,MKT(E[RM]-Rf)+
βi,SMBE[RSMB]+
βi,HMLE[RHML]+
βi,RMWE[RRMW]+
βi,CMAE[RCMA],
(3)
式中:E[RRMW],E[RCMA]----分別為盈利因子和投資因子的預期收益率;
βi,RMW,βi,CMA----分別為個股i在這兩個因子上的暴露。
Fama五因子模型的構建與Fama三因子模型類似:
1)完成股票篩選后,選取因子截面數據。
2)市值規模的分組點為中位數,前50%為小規模組(S),后50%為大規模組(B),賬面市值比的分組點都為第30個和第70個百分位數,前30%為低賬面市值比組(L),中間40%為中賬面市值比組(N),后30%為高賬面市值比組(H),將市值和賬面市值比兩個指標交叉, 可把全體股票分成SH、SN、SL、BH、BN、BL這6個組合。重復上述步驟, 可把全體股票分成 SR、SN、SW、BR、BN、BW、SC、SN、SA、BC、BN、BA這12個組合, 其中,營運利潤率前30%為盈利疲軟組(W),中間40%為盈利中等組(N),后30%為盈利穩健組(R);投資前30%為投資保守組(C),中間40%為投資中等組(N),后30%為投資激進組(A),接下來計算上述各組合每一期的市值加權平均收益率。
3)分25組回歸的時候,計算組合收益率采用流通市值加權平均法計算的組合收益率。
結果顯示該模型增加了企業的盈利能力因子與投資風格因子,提出了五因子模型,并通過實證檢驗發現,在美國股票市場上五因子模型比三因子模型對股票收益率有更好的解釋能力。這兩個因子在理論上同樣有對有價證券收益率的顯著影響。
Fama-French五因子模型以其簡潔優美的表述,以及精煉的概括性受到了廣泛應用,但其對有價證券的研究也僅限于企業的基本面因素,并未考慮其他因素對有價證券收益的影響。
2.1.1 數據的獲取
量化投資研究需要大量高質量的數據,因此,一個可靠的數據來源十分重要。目前,國內各大量化交易平臺均提供了較為豐富的數據,投資者在平臺進行研究時可以免費調用平臺數據,文中使用聚寬量化投資中的數據來進行研究。
2.1.2 數據的預處理
因子數據是多因子選股模型的數據基礎,只有高質量的因子數據才能保證研究的準確性和有效性,所以在模型構建前需要對數據進行預處理,以避免金融數據行業偏向等問題對實證研究結果的客觀性產生影響。
2.1.3 中性化處理
對因子進行中性化是要消除行業、市值因素對因子測試結果的影響,如果不剔除行業和市值的影響,可能會導致選出來的股票集中在某個行業和某種市值范圍內,進而導致不能有效地分散風險。文中采用因子值為因變量,行業因子和市值因子分別為自變量構建線性回歸方程

(4)
構建上述回歸方程后,取殘差項εi作為新的因子值。同理,在進行完行業中性化后,再進行市值中性化

(5)
式中:λi----殘差項,即經過行業中性化、市值中性化的新的因子值。
每個因子都不可能保證持續的有效性,因此需要對因子進行測試,表現好的因子保留,不好的剔除,文中將使用IC法、分層回溯法兩種方法對因子進行測試。
2.2.1 IC法
IC值是因子在t期的暴露度與t+1期的資產收益率之間的相關系數,即

(6)
式中:ri----資產在t+1期的收益率;

IC法用來檢驗因子對于收益預測能力的強弱。
正向因子的IC值序列如圖1所示。

圖1 total_asset_growth_rate因子IC值序列
圖中上方深色點多余下方深色點,代表該因子為正向因子,表示該因子與收益率是正相關,深色點越多,代表該因子的收益預測能力更強。
反向因子的IC值序列如圖2所示。

圖2 fifty_two_week_close_rank因子IC值序列
圖中下方深色點多余上方深色點,代表該因子為反向因子,表示該因子與收益率呈負相關,同樣深色點越多,代表該因子的預測能力更強。
2.2.2 分層回溯法
分層回溯法可以觀察因子收益率的單調性。具體方法在t期,根據因子值對股票(資產)進行排序,將結果五等分,用五等分的結果構建投資組合,計算這五個投資組合在t+1期的收益率;然后在t+1期再次根據因子值進行股票的排序,將結果五等分,之后根據五等分的結果構建投資組合,計算五個投資組合在t+2期的收益率,以此類推。觀察五等分之后的收益率情況,如果五個投資組合的收益率遞減或者遞增的規律性越強,則該因子的效果越好。
total_profit_growth_rate因子分組組合表現如圖3所示。
圖中五組投資組合收益率的遞增效果明顯,表示該因子的分組能力突出,且該因子與收益率呈正相關。
經過上述因子篩選過程后,選取了選股能力和分組能力相對較好的因子18個,見表2。

圖3 total_profit_growth_rate因子分組組合表現

表2 因子表
神經網絡是通過不同的層次架構將神經元進行連接運算,從而完成各類復雜的分類與擬合任務。神經網絡具有普適性、自適應、泛化等優勢,可以通過中間層的設計逼近任意的非線性函數,并且通過對帶有標簽的實例數據提取相應規則,可以很好地對數據中噪聲數據進行處理,從而較好地應對生活中的復雜問題。
神經網絡的網絡結構如圖4所示。
圖中,輸入向量為
X=(x1,x2,x3,…,xn)T,
即為股票的因子數據。
隱含層向量為
Z= (z1,z2,z3,…,zn)T。
輸出層輸出向量為
Y= (y1,y2,y3,…,yn)T,

圖4 神經網絡結構
即對股票的預測結果(上漲或下降)。將輸入層與隱含層之間的鏈接權重矩陣定為W1,隱含層到輸出層之間的權重矩陣定為W2。
根據神經網絡預測結果,每日買入上漲概率前5%的股票,見表3。

表3 前10大持倉股票
根據上述基于神經網絡的多因子模型選出的股票,得到回測結果見表4,
由表4可知,在回測期間,也就是2019年8月至2021年8月,滬深300指數的累計收益率為60.82%。

表4 策略收益表現
相較于基準收益率,基于神經網絡的多因子選股模型構建的投資組合收益曲線如圖5所示。

圖5 策略收益圖
從圖5可以看出,文中構建的選股模型獲得了60.82%的累計收益率,相較于基準收益率,獲得了28.21%的超額收益率。該策略的阿爾發值為0.158,表示該策略的超額回報率為0.158;貝塔值為0.942,表示文中策略對大盤變化的敏感性為0.942;夏普比率為1.004,也就是說,在承擔相對于基準指數的總風險獲得的超額收益為1.004,即該策略的回報率大于其風險;索提諾比率為0.866,即每承擔一單位的下行風險,該策略將會獲得0.866的超額回報率;信息比率為1.224,說明該策略在承擔主動風險所獲得的超額收益為1.224 7;最大回撤為17.30%,表示投資者在策略面對風險時的承受能力較好。該投資組合相較于基準組合的勝率為62.6%。
利用IC法、分層回溯法選取了18個有效因子,使用IC_IR加權法對因子進行加權,并構建了基于神經網絡的量化多因子選股模型。文中在選取有效因子時,除了考慮部分基本面因子,還考慮了動量因子和技術因子,使策略面對風險和市場波動時具有一定的調整能力。實證分析,文中構建的策略獲得了28.21%的超額收益,且具有一定的抵抗風險和市場波動的能力,由此可知,根據神經網絡預測出的股票組成的投資組合可以獲得更高的收益,神經網絡在量化選股模型上值得進一步研究。