基于特征交互作用的量化選股策略

2021-08-12 08:54:32舒時克

計算機應用與軟件 2021年8期

舒時克李路

(上海工程技術大學數理與統計學院上海 201600)

0 引言

隨著信息技術的發展，數據的規模越來越大，因此，從眾多的特征中選取出有效的特征就成為了一個難點。文獻[1]發現在線性回歸中加入L1懲罰項的Lasso模型能夠有效地篩選因子，建立更好的投資組合模型。Zou等[2]在線性回歸中同時加入L1和L2懲罰項，構建了彈性網模型(Elastic Net)，并將其運用到高維數據上，發現Elastic Net模型不僅能夠克服高維數據多重共線的問題，也能夠克服Lasso模型將特征壓縮得過度稀疏的問題。謝合亮等[3]在對比了最小二乘(OLS)、Lasso和Elastic Net之后，發現Elastic Net模型能夠比OLS模型和Lasso模型更有效地篩選因子，同時也能克服Lasso模型將系數矩陣過度壓縮的缺點，并能構建出更加有效的投資組合。

雖然Elastic Net模型在處理特征時考慮了特征之間的相關性，并篩選出有效的特征，但是卻忽略了特征之間相互作用。某個特征的可能與因變量沒有直接的關系，但卻可以與其他特征結合，對因變量產生顯著的影響[4-5]。因此，考慮特征之間的相互作用是十分必要的。同時，高維數據中的特征不可避免地存在著相互關系，僅考慮特征之間的相關性篩選特征，而忽略特征之間的相互作用，往往會造成信息的丟失[6]。而利用信息論來衡量特征之間的交互作用是一種有效的方法[7]。Vinh等[8]提出一種基于互信息的文本分類特征選擇方法，同時加入了特征選擇中二階和三階的交互作用。唐小川等[9]通過聯合互信息(JMI)建立了基于信息論的文本分類特征選擇模型。除了文本分類，利用信息論來衡量特征之間的相互作用在其他數據分類上也取得了很好的效果[10-11]。

因此，為了在克服邏輯回歸彈性網(LR-ElasticNet)在特征選擇時無法考慮特征間的相互作用，本文提出了基于信息熵的邏輯回歸彈性網模型(IE-LR-ElasticNet)，即在LR-ElasticNet加入信息熵的懲罰項，并利用交替方向乘子法(ADMM)進行求解。

1 邏輯回歸彈性網

邏輯回歸作為一種統計分析方法，能夠對二分類的問題進行判別。設X=(xij)n×p∈Rn×p，xij表示第i行數據的第j個特征的值，記xi=(xi1,xi2,…,xip)T，表示第i行數據的全部特征值，則特征矩陣X=(x1,x2,…,xn)T，y為自變量，表示為(y1,y2,…,yn)T，代表xi的標簽，yi=1或0。則后驗概率估計P(yi=1|xi)和P(yi=0|xi)可以表示為：

(1)

式中：β=(β1,β2,…,βp)T是特征系數向量。則邏輯回歸的目標函數可以表示為:

(2)

在邏輯回歸的交叉熵損失函數上加上彈性網懲罰項，構建邏輯回歸彈性網模型(LR-ElasticNet)，該參數估計可以表示為:

(3)

式中：α為懲罰項系數；0≤λ≤1。加入彈性網懲罰項之后，既能夠篩選變量，將無關變量壓縮到0，同時又能夠避免特征系數向量過度稀疏。

2 信息熵-邏輯回歸彈性網

2.1 卡方分箱法

邏輯回歸是一種分類方法，其標簽為yi∈{0,1}的離散值。本文使用互信息的方法來計算每兩個特征之間的相互關系，而特征之間不可避免地同時存在離散值和連續值。由于連續值和離散值之間無法計算互信息，因此首先使用卡方分箱的方法來對連續的特征全部離散化處理[12]。

分箱的步驟如下：

1) 設定初始組數m1和目標組數m2,將連續型特征分成m1組。

2) 確保每一組中均含有標簽y的兩種特征，計算IV值。

(4)

式中：pyi為第i組中yi=1的樣本的比例，pni為第i組中yi=0的樣本的比例。

3) 將相鄰的組進行卡方檢驗，每次篩選出卡方檢驗的P值最大的兩組進行合并，直到該列特征中的組數小于設定的m2為止。

4) 分箱標準選用IV值來判斷, IV值代表變量所蘊含的信息量, 其值越大代表其蘊含終點目標信息越多。通過觀察每個分箱個數下IV值的變化情況，選取能獲得較大的IV值分箱個數來作為該特征最合適的分箱個數。

2.2 互信息

Shannon在1948年首次提出了互信息的概念，以此來衡量一個特征中包含另一個特征的信息，即每兩個特征之間的相互依存關系[13]，可以表示為：

(5)

式中：p(x1,x2)是X1和X2的聯合概率密度函數；p(x1)和p(x2)分別是X1和X2的邊際密度函數。

當I(X1,X2)=0時，表明X1和X2之間沒有相互作用；當I(X1,X2)>0時，表明X1和X2之間存在相互作用，且I(X1,X2)越大，表明X1和X2之間的相互作用很強。

2.3 鄰接矩陣

本文以數據集中的每一個特征都各自作為一個頂點vi，頂點與頂點之間的連線作為超邊ei，每一個超邊分別對應一個權重wi，則定義頂點集合為V={v1,v2,…,vp}，超邊集合為E={e1,e2,…,em}，權重集合為W={w1,w2,…,wm}，由此構建一個超圖H(V,E,W)。同時，通過計算每兩個特征互信息的值，將其作為超圖的權重，并假設每兩個特征之間均存在著一條超邊。

鄰接矩陣S∈Rp×p是代表超圖頂點與頂點之間的相鄰關系的對稱矩陣，sii=0即鄰接矩陣對角線上的元素全為0，sij代表頂點vi和vj之間的權重，同時定義信息特征子集為P(β):

max{βTSβ}=min{-βTSβ}

(6)

2.4 IE-LR-ElasticNet模型

為了在進行特征篩選的同時考慮特征之間的相互作用，加入信息熵的懲罰項，邏輯回歸的目標函數可以表示為:

(7)

式中：f(β)對β的一階導數、二階導數為：

(8)

并且對f(β)在β0處泰勒展開:

(9)

則F(β)可以表示為:

(10)

2.5 ADMM求解

ADMM算法[14]結合了拉格朗日方法和對偶分解法的優點，通過增廣拉格朗日函數構造把原本復雜的高維問題分解成兩個或者多個低維的更容易得到的全局解的交替極小化問題進行迭代求解。

則基于信息熵的邏輯回歸彈性網目標函數可以表示為：

(11)

subject toβ-θ=0

式(11)的增廣拉格朗日方程為：

(12)

式中：ρ>0為懲罰項系數；μ是對偶變量，通過引入θ和β-θ=0的約束條件，簡化了原問題的求解。變量迭代的規則如下：

(13)

(14)

對β求偏導并令其等于0，可以得到：

(15)

化簡可得：

βk+1=(XTWX-2λ1S+λ2(1-α)+

ρI)-1(XTWX+ρθk-μk)

(16)

(17)

對θ求偏導并令其等于0，可以得到：

(18)

化簡可得：

(19)

3) 更新μ。在第k+1次的更新中，當βk+1和θk+1固定，可以計算μk+1:

μk+1=μk+ρ(βk+1-θk+1)

(20)

具體算法如下：

1) 隨機初始化βold，假設最終優化目標為F(β)；

2) 在βold處利用式(8)泰勒展開，得到fold(β)；

3) 利用式(15)、式(18)和式(19)迭代求得fold(β)的最優結果βnew；

4) 在βnew處利用式(8)繼續泰勒展開，得到fnew(β)；

5) 令βold=βnew，重復步驟3和步驟4直至收斂，最終得到解β。

3 模擬分析

為了驗證本文提出的IE-LR-ElasticNet方法的優劣，本文將IE-LR-ElasticNet與LR-ElasticNet進行了總共3組的模擬實驗，并采用正確率(Accuracy)、精確度(Precision)、召回率(Recall)、 RMSE[15](Root mean squared error)來作為評價指標。

模擬實驗1。隨機生成小樣本數據n=1 000，p=20的二分類數據集，并且設定p個特征之間相關性系數r最大不能超過0.2。結果如表1所示。

表1 模擬1分類結果

由表1可知，在特征之間相關性系數較低的數據中，LR-ElasticNet和IE-LR-ElasticNet模型并沒有顯著的差異。

模擬實驗2。隨機生成小樣本數據n=1 000，p=20的二分類數據集，并且設定p個特征之間相關性系數r最大不能超過0.5。結果如表2所示。

表2 模擬2分類結果

由表2可知，在特征之間相關性系數的中等的數據中，IE-LR-ElasticNet模型總體正確率及系數估計誤差(RMSE)略高于LR-ElasticNet模型，分類效果較好。

模擬實驗3。隨機生成小樣本數據n=1 000，p=20的二分類數據集，并且設定p個特征之間相關性系數r最大不能超過0.8。結果如表3所示。

表3 模擬3分類結果

由表3可知，在特征之間相關性系數的較大的數據中，IE-LR-ElasticNet模型明顯優于傳統的LR-ElasticNet模型，分類總體正確率提高了3.8百分點，且在加入信息熵的懲罰項之后，通過P(β)懲罰項對原有的LR-ElasticNet模型估計系數的修正，使得IE-LR-ElasticNet模型的系數估計誤差(RMSE)遠小于LR-ElasticNet模型，從而達到更好的分類效果。

綜上所述，通過模擬分析發現，發現IE-LR-ElasticNet模型較之前的LR-ElasticNet模型，在特征相關性系數較小的數據集表現無明顯差異，而在特征相關性系數較大的數據集上有更好的表現。

4 IE-LR-ElasticNet量化選股策略

4.1 IE-LR-ElasticNet策略

優礦(http://uqer.io/)是研究量化投資的一個重要平臺，在該平臺上其因子數量超過400個，而不同的因子之間往往又互相存在著復雜的關系。因此，本文根據上述的IE-LR-ElasticNet模型，針對滬深300指數成分股數據，建立IE-LR-ElasticNet策略，過程如下：

(1) 數據處理。

① 滬深300指數成分股數據起始時間為t0，終止時間為t3，并取中間時間t1和t2，滿足t0

② 選取股票因子，并確定股票因子矩陣X，并計算股票月收益率，若收益率大于0，則標簽yi為1；若收益率小于0，則標簽yi為0。

③ 利用式(4)將連續數據離散化，通過式(5)計算每兩個特征之間的互信息值，并利用式(6)得到鄰接矩陣S。

④ 對因子矩陣X進行歸一化處理，得到X′。

(21)

根據上述的歸一化得到的因子矩陣X′及股票標簽y，通過式(7)建立IE-LR-ElasticNet模型。

(2) IE-LR-ElasticNet模型。

① 利用上述ADMM方法求解IE-LR-ElasticNet模型的方法得到因子估計系數β。

② 每月月末利用式(1)計算每只股票的后驗概率估計P(yi=1|xi)和P(yi=0|xi)，股票的得分用si表示，即si=P(yi=1|xi)。

(3) 回測分析。

① 將si從大到小進行排序，取前10只股票，將這10只股票的得分記作S1,S2,…,S10，計算買入股票的權重qi。

(22)

② 計算每月月末更新買入股票的數量Q。

(23)

式中：C為資金數；pi為月末股票i的價格。

4.2 IE-LR-ElasticNet策略結果

本文以滬深300指數成分股數據進行實證分析，取t0為2010年1月1日，t3為2019年5月31日，t1和t2分別為2014年1月1日和2015年12月31日，則T1為2010年1月1日至2013年12月31日，T2為2014年1月1日至2015年12月31日，T3為2016年1月1日至2019年9月30日。

利用量化平臺優礦網站，在考慮了成長因子、營運因子、交易因子、波動因子、盈利因子、估值因子、均線因子和趨勢因子等因素后，共選取了50個因子[16-19]，部分因子如表4所示。

表4 策略因子表

續表4

首先通過計算IV值，確定每個特征分箱的數量，圖1以凈利潤增長率為例展示了不同分箱數的IV值變化情況，圖2展示了各個特征的最佳分箱結果及IV值。由圖1可以得出，凈利潤增長率劃分為16類是較為合適的。

圖1 凈利潤增長率分箱IV值

圖2 各特征分箱個數及最佳IV值

利用分箱結果，計算每兩個特征之間的互信息值，得到鄰接矩陣S∈R50×50的對稱矩陣。

(24)

按照上述時間區間確定股票因子矩陣X和股票的月收益率y。同時去掉含有缺失值的股票,并將因子矩陣經過歸一化處理。對上述處理完成的數據，利用ADMM算法求得因子估計系數β。因子估計系數β結果如圖3所示，可見共21個因子系數處于0的水平線上，即共21個因子被壓縮為0。

圖3 因子系數結果

由于高頻率的交易會帶來過高的手續費，所以本實驗采取月末策略進行調倉操作。此外，本文實驗在優礦量化平臺上進行，實驗所設的初始資金為1億元，采用買入0.1%的稅費，賣出0.2%的稅費，印花稅為0.1%，滑點為0。IE-LR-ElasticNet策略部分調倉記錄如表5所示。

表5 IE-LR-ElasticNet策略調倉記錄表

續表5

從IE-LR-ElasticNet策略的回測結果如表6、圖4所示。IE-LR-ElasticNet多因子模型策略的年化收益率為26.04%，而同期以滬深300指數的收益率為基準的年化收益率為0.61%，IE-LR-ElasticNet模型總共獲得了24.51%的超額收益。

表6 IE-LR-ElasticNet策略回測結果

圖4 IE-LR-ElasticNet策略回測結果

4.3 IE-LR-ElasticNet與LR-ElasticNet策略比較

為了對比IE-LR-ElasticNet模型和LR-ElasticNet模型的優劣，將IE-LR-ElasticNet策略中的IE-LR-ElasticNet模型更改為LR-ElasticNet模型，建立LR-ElasticNet策略，并在與IE-LR-ElasticNet策略相同的條件下進行回測，結果如表7、圖5所示。

表7 IE-LR-ElasticNet與LR-ElasticNet回測結果

圖5 IE-LR-ElasticNet與LR-ElasticNet回測結果圖

結果表明，同期以滬深300指數的收益率為基準的年化收益率為0.61%，而IE-LR-ElasticNet策略和LR-ElasticNet策略均顯著高于該水平，超額收益阿爾法值均在15%在以上。IE-LR-ElasticNet策略在不僅在年化收益率上高于LR-ElasticNet策略，而且在夏普比率、最大回撤等主要評價指標上均優于LR-ElasticNet策略，說明在LR-ElasticNet模型加入了信息熵的懲罰項之后，模型的預測能力有明顯的提升。

5 結語

針對高維數據中的特征不可避免地存在相互關系的特點，本文提出了IE-LR-ElasticNet模型，即在原有的LR-ElasticNet模型中考慮特征之間的相互作用，構建了特征之間相互作用的超圖，并將超圖的鄰接矩陣作為懲罰項加入到LR-ElasticNet模型中，既考慮了特征之間的相互作用，又能夠進行變量的篩選。由于IE-LR-ElasticNet模型的目標函數求解比較復雜，本文利用ADMM算法對IE-LR-ElasticNet模型進行求解。通過模擬實驗，發現IE-LR-ElasticNet模型相對于LR-ElasticNet模型在分類效果上有更優的表現。最后，將本文提出的IE-LR-ElasticNet模型應用到量化投資中的多因子選股中，構建IE-LR-ElasticNet多因子選股策略，并與LR-ElasticNet策略進行比較，發現IE-LR-ElasticNet策略在各項評價指標均優于LR-ElasticNet策略。