倪麗云,沈傳河,王向榮
積極指數化投資(Active Indexing Portfolio)作為全新的投資模式,其主要表現形式之一為“積極”的指數組合管理(陳春峰、陳偉忠,2004)[1],包括如何復制指數這個最主要環節,并要求確定精選成分股和選擇有利于平衡組合、產生超額回報的賦權方式。這種投資方法的實質是通過采取科學的選股和賦權方式,在控制跟蹤誤差的基礎上實現預期的超額收益。
本文將在積極指數化投資模式框架下,建立基于支持向量機的雙目標指數跟蹤模型,實現在控制跟蹤誤差的基礎上,尋求預期的超額收益,實現投資收益最大化。具體思路是:首先借鑒Francesco Corielli與Massimiliano Marcellino(2002)提出的基于因素的指數跟蹤方法以及張鵬、瞿寶忠(2004)使用的關鍵因素擬合方法,對擬構建投資組合進行前期的成分股票選擇[2-3]。然后,在滿足投資約束條件下,利用支持向量機完成成分股票的權重優化,求出投資組合的資金分配系數。最后,根據選定的度量指標,在測試數據環境下分析投資組合的效果。
指數跟蹤要求構建一個證券投資組合,使得它的變化行為盡可能地接近給定的目標指數。一般情況下,這個投資組合中的證券數目應該比目標指數少,并且在跟蹤誤差中也不應該含有較低頻率(即較差持續性)的成分,這意味著正常誤差應該源自于投資組合中主要的或是關鍵性的影響因素,進而才能保證這個復制的投資組合很好地適應或捕捉目標指數未來的變化,包括收益率和波動性。
正因如此,Francesco Corielli和Massimiliano Marcellino(2002)和張鵬、瞿寶忠(2004)先后提出基于因素或關鍵因素擬合的指數化投資策略,以力圖解決這個問題[2-3]。這種方法需要兩步來完成,即構建與目標指數具有同樣可持續性(也即高頻率)因素組成的復制組合,然后再盡可能地使跟蹤誤差減少到最小。
首先,找出影響目標指數走勢的關鍵性因素。
設設It、Pit分別為目標指數和第i只股票在時刻t的價格,Rt、rit分別為它們在第 t個周期內的相對收益率,則有:

相應地,投資組合在第t個周期內的相對收益率R't則為:,其中n為投資組合待定成分股票的數量,wit為第i只股票在時刻t的權重。
根據目標指數成份股個股的日收益率為基礎進行因子分析,提取出反映目標指數走勢的m個共同因子,這m個共同因子即代表了影響目標指數走勢的m個關鍵因素。在此基礎上,構造以下的多因素模型:

式中Fmt為第m個共同因子Fm在時刻t的值,Am為這個共同因子對目標指數的貢獻率,ξ為殘差。
在找出這m個關鍵因素之后,需進一步找出這m種關鍵性的共同因子所代表的樣本股。它們對應的關系如下:

其中stock為共同因子所代表的樣本股;a、b、…、m為樣本股對共同因子的貢獻率,即因子負荷。
觀察共同因子的因子負荷強弱,據此可以分析判斷出各個共同因子所反映的關鍵因素,并對它們進行相應的解釋。
其次,需驗證挖掘出的這m個關鍵因素是否真的能夠反映目標指數的走勢。現在,可用它們中最具代表性的一組樣本股構造出一個投資組合,與目標指數進行比較,驗證是否投資組合與目標指數等價。
為此,找出這m個關鍵因素最有代表性的n個樣本股,按照其方差對總方差解釋的貢獻率所占比重作為權重構造投資組合如下:

計算出投資組合的日收益率和目標指數的日收益率,在通過相關性檢驗之后,將它們進行線性回歸分析。構造以下回歸模型:

式中b為常數項,a為回歸系數,ξ為殘差。
如果該模型經檢驗成立,并且b趨近于0,同時a趨近于1,那么R't≈Rt,即投資組合與目標指數等價,說明找出的這m個關鍵性因素能夠真實地反映目標指數的走勢,投資組合可以代替目標指數進行指數化投資。
以上方法可以通過主成分分析法(Principal Components Analysis)來實現。但這種方法會不可避免地損失一些有價值的信息,而且各因素對應的樣本股選擇及其權重確定在一定程度上存在主觀性,勢必增大投資組合的跟蹤誤差,影響指數化投資的效果。為克服這種情況,下面將采用支持向量機對(3)式擬選定的成分股進行權重優化,而不僅僅根據它們的因子負荷(即方差貢獻)來確定。
支持向量機SVM(Support Vector Machines)是Vapnik等人建立的一種新的機器學習方法[4]。它是在以解決有限樣本機器學習問題為目標的統計學習理論(Statistic Learning Theory,SLT)基礎上發展起來的。SVM建立在SLT的VC維理論和結構風險最小化(SRM)原理的基礎上,根據有限的樣本信息在模型的復雜性(即對特定訓練樣本的學習精度)和學習能力(即無錯誤地識別任意樣本的能力)之間尋找最佳折衷,以期獲得最好的推廣能力。它通過使用結構風險最小化(SRM)代替傳統的經驗風險最小化(ERM),使用滿足Mercer條件的核函數,把輸入空間的數據變換到一高維的Hilbert空間,訓練的復雜度與輸入空間的維數無關,只與訓練的樣本數目有關。因此,SVM能夠有效地避免經典學習方法中出現的過學習、欠學習、“維數災難”以及陷入局部極小點等諸多問題,因而在解決小樣本、非線性及高維模式識別問題中表現出很多獨特的優勢。在這里,將分析普通的、采用ε-不敏感函數的支持向量回歸機ε-SVR。
給定訓練集{ }xi,yi,i=1,2,…,l,其中輸入數據x是一個歐式空間Rn,y∈R,是實數R的封閉子集。借助特定的非線性映射φ(x),輸入x被映射到高維空間(或稱特征空間)。函數逼近問題,就是在像空間上通過機器學習能夠選擇一個特定的函數:

根據推廣理論,要解出決策函數 f(x),可考慮經過適當定義的核函數 K(?,?):

引入ε-不敏感損失函數,即:

式中:

其對偶問題為:

解上式,得到:

因此:

任何滿足Mercer條件的對稱函數都可以成為核函數,并可建立不同的學習模型[5]。目前最常使用的核函數為多項式核函數:

徑向基核函數(RBF)

Sigmoid核函數:

其中u>0,v<0,并且,任何核函數的非負線性組合仍然是一個Mercer核。一旦核函數確定后,參數γ和σ2(sig2)就可以進一步優化出來。
現在,利用測試集來檢驗這個模型。模型的預測精度用標準均方差(the normalized mean squared error,NMSE)和平均絕對差(the mean absolute error,MAE)等統計標準來測度,其定義如下:

其中,σ2是數據的標準方差。
利用支持向量機構建投資組合的主要任務是對(3)式中的權重Wit進行優化??紤]到Wit與時間有關,直接求解將非常困難,可采取固定比例策略,即Wit變為Wi。這意味著在任何周期內,投資組合成分股票各自權重將保持不變,并存在一定優勢(張鵬、瞿寶忠,2004)[2-3]。
在ωi給定為固定比例的前提下,參考(3)式,則第t個周期內的投資組合與目標指數收益之間的跟蹤誤差et滿足:

所以,確定投資組合的權重wi可以看成是在訓練集{ }xi,yi上對(8)式進行多元線性回歸。在這里,xt=Rˉt=(r1t,r2t,…,rnt)',yt=Rt。
這時,需考慮(5)式中約束條件的變化。在投資組合構建中,應考慮資本預算約束、成分股票投資比例限制、整數約束、交易成本及管理費用約束等。設投資組合成分股票i最小比例為ηi、最大比例為δi。相應地,(4)式應變為:

解(9)式,即可得到形如(6)式的回歸函數,其中的系數即為欲求的權重。
以“上證50”指數(000016)為例,數據取自清華金融研究數據庫(THFD)。時間為2008、2009兩年內的市場交易數據,具體為2008年7月1日至2009年12月31日,扣除休盤時間,計得370個指數的日收盤價格。同時,得到該指數50個成分股票在上述時間期限內的各自370個日收盤價格。然后根據(1)式可計算得到指數及其成分股票各自對應的369個日收益率。
將上述370個日收益率數據分成兩部分,即2008年7月1日至2009年9月30日和2009年10月9日至2009年12月31日,分別對應309個和60個數據用于訓練和測試。
利用Eviews 5.0軟件進行主成分分析。首先,對各樣本股日收益率數據采用KMO統計量和Bartlett’s球形檢驗,以判斷樣本數據是否符合因子分析的前提條件。其次,采用正交旋轉,具體旋轉方法為方差最大化正交旋轉(Varimax)。根據提取的主成分共同因子的累積貢獻率達到約85%以上為標準,一共提取19個共同因子、20個共同因子代表樣本股,其結果顯示在表1中。
在(9)式中,考慮到我國基金管理辦法規定,取δi≤10%;盡管融資融券業務正在展開,但由于涉及到的股票品種少,“上證50”指數成分股票并沒有全部惠及,所以在這里還是規定wi>0,強調不允許賣空交易;進而存在ηi>0,即不允許剔除出投資組合,主要因為作為投資組合的成分股票,已經過關鍵因素擬合方法選擇,它們本身已代表了目標指數收益和波動中的不同影響因數。
通過MATALAB 7.0軟件運行,先根據(9)式對常規支持向量回歸機ε-SVR的程序進行調整,以充分反映投資組合的約束條件。然后,采用徑向基核函數(RBF),參數ε、c和σ2(sig2)分別置為。求得的權重系數詳見表1:

表1 投資組合成分股列表
利用Sharp指數和信息比率(Information Ratio,IR)兩個指標來衡量投資組合的效果,考察其積極化程度。同時,又與完全復制方法相比較,進一步分析基于支持向量機的關鍵因數擬合指數化投資方法的特性。
在Grinold和Kahn(2005)關于積極組合管理的討論中,信息比率被視為積極組合管理的關鍵,它用跟蹤誤差來衡量投資組合的風險水平,考察了投資組合在特定的跟蹤誤差下實現超額收益的能力。通常,信息比率大于0.5被認為是較好的水平;而純粹指數投資的信息比率為0[6]。而Sharp指數則同時考慮了包括系統風險和非系統風險在內的總風險,側重于投資組合在分散和降低非系統風險的能力,反映了投資組合的內在質量。具體結果見表2,其中的跟蹤誤差依據(8)式計算得出。

表2 模型的效果測試
可以看出,本文建立的基于支持向量機的投資組合權重確定方法達到了較好的效果,對目標指數的跟蹤誤差無論是NMSE值還是MAE值,都比較小,并優于完全復制方法。而且,Sharp指數和信息比率IR也都高于完全復制方法,也因此取得了0.38%的平均超額收益。
本文利用基于結構風險最小化原則的支持向量機進行指數化投資組合的構建,提高了投資組合的樣本外跟蹤效果,有效解決了現有指數化投資組合方法由于使用經驗最小化原則而帶來的不足,克服了過度依賴樣本進行跟蹤誤差分析的局限。而且基于關鍵因素擬合方法的投資組合成分股票的前期選擇,能夠有效捕捉目標指數波動中的高頻因數,增強了投資組合把握目標指數動態特性的能力。因此,上述兩種方法的集成無疑克服了各自的缺點,而由此形成的優化復制目標指數的途徑將不啻是一種有效的嘗試。正如實證分析所示,這種方法在模型魯棒性和指數跟蹤誤差方面都具有良好的表現。進一步的研究方向應集中在雙目標函數上,即在控制跟蹤誤差基礎上,實現超額收益最大化。并且,改進投資組合成分股票的前期選擇方法,相應調整常規支持向量機程序,優化算法設計,提高數據挖掘性能。
[1]陳春峰,陳偉忠.積極指數化:一種全新的投資模式[J].證券市場導報,2004,(11).
[2]Francesco Corielli,Massimiliano Marcellino.Factor Based Index Tracking[J].Centrefor Economic Policy Research,2002,(3).
[3]張鵬,瞿寶忠.關鍵因素擬合指數化投資方法的實證研究[J].證券市場導報,2004,(11).
[4]Vapnik V N.The Nature of Statistical Learning Theory[M].New York:Springer-Verlag,1995.
[5]Wahba G.Support Vector Machines,Reproducing Kernel Hilbert Spaces,and Randomized GACV.Advances in Kernel Methods-Sup?port Vector Learning[M].Cambridge:The MITPress,1999.
[6]Richard C.Grinold,Ronald N.Kahn.Active Portfolio Management:A Quantitative Approach for Providing Superior Returns and Controlling Risk[M].New York:McGraw-Hill,2000.