阮素梅,于 寧
(1.安徽財經大學商學院,安徽蚌埠233041;2.北京第二外國語學院經貿與會展學院,北京100024)
證券投資基金收益概率密度預測
——基于神經網絡分位數回歸模型
阮素梅1,于 寧2
(1.安徽財經大學商學院,安徽蚌埠233041;2.北京第二外國語學院經貿與會展學院,北京100024)
證券投資基金收益往往具有更高的峰度與更大的偏度,建立在古典假定基礎上的均值回歸分析難以給出準確預測結果。考慮到證券投資基金收益中的高峰、非對稱等典型特征與各因素對收益序列的非線性影響模式,建立神經網絡分位數回歸模型,一方面,可以通過分位數回歸功能,揭示各因素對證券投資收益整個條件分布的影響規律;另一方面,可以通過神經網絡結構,模擬金融系統中的非線性關系。在神經網絡分位數回歸模型基礎上,對證券投資基金收益整個條件密度函數進行預測,提供比點預測更多的有用信息,便于進行科學決策。
投資基金;神經網絡;分位數回歸;概率密度;預測
證券投資基金是一種間接的證券投資方式,由基金托管人托管、基金管理人管理,以實現收益共享、風險共擔。證券投資基金收益準確預測,有利于基金風格分析與績效評價,便于引導廣大投資者根據自己的風險偏好,有針對性地選擇具有特定風格的證券投資基金。由于證券投資基金與有價證券在經濟關系、投資方式、投資方向等方面有顯著區別,兩者在收益模式與收益特征方面也大相徑庭。已有研究表明,與證券投資收益不同,由于基金經理往往過分追求基金業績,導致基金風格漂移,證券投資基金收益往往具有更高的峰度與更大的偏度。這不僅影響到投資者選擇特定風格基金進行投資的初衷,也影響到證券投資基金收益的準確預測。
經典的基金收益預測與風格分析方法當屬Sharpe(1992)[1]風格識別模型以及Fama等(1993)[2]的三因素模型,這些模型對于準確把握證券投資基金收益變動規律至關重要。然而,這些經典模型都是建立在均值回歸分析基礎之上,只能用于刻畫證券投資基金收益的平均變動趨勢。許啟發等(2011)[3]指出,當響應變量的條件分布散布較大或者服從非對稱分布時,均值回歸難以具有代表性。Bassett等(2001)[4]將Sharpe模型拓展到分位數回歸框架下,給出了Sharpe模型的分位數回歸分析方法;胡豐等(2012)[5]將三因素模型拓展到分位數回歸框架下,給出了Fama-French三因子模型的分位數回歸分析方法。這些研究工作,在分位數回歸分析框架下,開展相關建模理論與方法研究,能夠更好地揭示各因素對證券投資基金收益整個條件分布的影響模式,從而能夠準確地揭示證券投資基金收益變動規律。
此外,在金融系統中,各金融變量之間往往存在非線性影響范式。基于參數方法進行非線性系統建模存在較大的困難,主要表現為模型誤設問題,見許啟發等(2010)[6]的研究工作。而非參數方法則可以避免參數方法的這一局限,表現出較強的穩健性。在眾多非參數方法中,人工智能是其中重要的一種方法,如Broomhead等(1988)[7]提出的RBF神經網絡,它們可以較好地逼近金融系統中的非線性結構。White(1992)[8]最早提出使用神經網絡方法對條件分位數進行估計;Taylor(2002)[9]在此基礎上,提出了神經網絡分位數回歸(QRNN)模型;Feng等(2010)[10]將神經網絡分位數回歸模型與局部線性分位數回歸、樣條函數分位數回歸等非線性分位數回歸方法進行了比較,證實了神經網絡分位數回歸模型具有較強的非線性擬合與穩健性功能;Cannon(2011,2012)[11-12]則詳細給出了神經網絡分位數回歸模型的計算方法。何耀耀等(2013)[13]成功地將神經網絡分位數回歸模型應用于電力負荷預測,不僅得到了較為準確的點預測結果,而且得到了短期電力負荷的概率密度預測結果。迄今,尚未見到將神經網絡分位數回歸模型應用于金融市場預測的研究報道。
本文在證券投資基金收益影響因素分析基礎上,建立了收益序列的神經網絡分位數回歸模型,并給出其條件密度預測方法。選擇中國開放式基金作為研究對象,將基于神經網絡分位數回歸模型的預測結果與均值回歸模型、線性分位數回歸模型的預測結果進行了對比,實證結果表明:前者能夠更加準確地揭示證券投資基金收益整個條件分布的變動規律,從而提供比點預測更多有用信息。
(一)線性分位數回歸
1.模型表示
回歸分析在整個統計學中占據重要地位,可以進行結構分析、經濟預測與政策評價。建立在古典假定基礎上的傳統均值回歸分析方法,由于具有簡單的模型結構與優良的統計性質,至今仍被廣泛使用。然而,隨著理論研究深入和實踐發展,均值回歸受到了越來越多的挑戰,主要表現為兩個方面:第一,其依賴的前提假設較為苛刻,現實中往往難以滿足;第二,均值回歸只能揭示響應變量條件均值的變動規律,難以滿足差異化統計的需要。Koen?ker等(1978)[14]提出的分位數回歸,較好地克服了均值回歸的不足。關于分位數回歸研究進展與應用領域,可以參見Koenker(2005)、Yu等(2003)[15]和陳建寶等(2008)[16]。
為研究中國開放式基金收益變動模式,將基金收益作為被解釋變量,選取中信標普風格指數作為解釋變量。這樣,中信標普風格指數:大盤純成長(BPG)、大盤純價值(BPV)、小盤純成長(SPG)、小盤純價值(SPV)、中盤純成長(MPG)、中盤純價值(MPV)、大盤成長(BG)、大盤價值(BV)、小盤成長(SG)、小盤價值(SV)、中盤成長(MG)、中盤價值(MV)、中標國債(ZBTB)、中標企債(ZBEB)、可轉債(ZBCB)等共計15個指數,可以組成解釋變量向量Xt≡(BPGt,BPVt,…,ZBCBt)′。因此,可以建立線性分位數回歸模型如下:

其中,Rt表示基金收益;QRt(τ|Xt)為解釋變量給定條件下響應變量Rt的第τ條件分位數;τ∈(0,1)為分位點;β(τ)=(β0(τ),β1(τ),β2(τ),…,βk(τ))′為依賴于τ的回歸系數向量。與均值回歸的顯著不同表現在兩個方面:第一,依賴于τ的回歸系數向量β(τ),能夠揭示在不同分位點處,風格因子對基金收益的不同影響模式,表現出異質性;第二,通過條件分位數QRt(τ|Xt),能夠揭示基金收益整個條件分布的變動規律,而不僅僅局限于條件均值。
2.參數估計
Koenker等(1978)[14]證明,基于二次損失函數的優化,能夠得到均值;基于絕對損失函數的優化,能夠得到中位數;而基于非對稱損失函數(2)式的優化,能夠得到分位數。

圖1給出了三類損失函數的結果,其中:“square”表示二次損失函數,見粗實線;“rho_ 050”表示絕對損失函數,見細實線;“rho_025”與“rho_075”分別表示τ=0.25與τ=0.75的非對稱損失函數,見兩條細虛線。由圖1可知,絕對損失函數是非對稱損失函數在τ=0.50時的特例,二次損失函數對極端值較為敏感。因此,均值回歸的結果往往受到極端值的干擾,而分位數回歸的結果則較為穩健。
基于非對稱損失函數,可以通過下面的規劃問題實現回歸系數向量的估計:

其中,T為樣本量大小。由于(2)式所示的非對稱損失函數是分段線性函數,規劃問題(3)實質為一個分段線性凸規劃問題,見圖2。圖2中兩條虛線所夾線段為直線段。圖2為使用模擬數據求得的(3)式目標函數值隨ξt≡X′tβ變動結果,模擬工具使用了R軟件,模擬過程:第一,設置隨機數種子:set.seed(1);第二,生成樣本量為12的標準正態分布隨機數作為響應變量Rt,y<-rnorm(n=12,mean=0,sd=1);第三,均勻生成100個ξt,xi<-seq(min(y),max(y),length=100);第四,設置τ=1/3。線性凸規劃可以保證得到全局最優解,不過這一最優解并非唯一,如圖2中折線段最底的平坦部分都是最優解。實際中,可以采用Portnoy等(1997)[17]給出的內點算法進行求解。

圖1 三類損失函數

圖2 目標函數取值
3.密度預測
在獲得參數向量估計β?(τ)之后,可以將新觀測的風格因子X*取值(或者測試集取值)代入線性分位數回歸模型,得到未觀測基金收益R*的條件分位數函數預測:

當分位點τ在[0,1]連續取值時,條件分位數曲線就是條件分布曲線。許啟發等(2011)[3]證明,概率密度函數可以由分位數函數的差商的倒數求得,即

因此,R*的條件密度預測可以依據(5)式對條件分布預測進行條件化和離散化通過得到:

其中,hT為最優窗寬,可以根據Portnoy等(1989)[18]提供的自適應核密度估計方法來確定。
(二)神經網絡分位數回歸
1.模型表示
本文采用RBF神經網絡結構,建立神經網絡分位數回歸(QRNN)模型。RBF神經網絡是一種高效的前饋式神經網絡,具有最佳逼近性能和全局最優特性,廣泛應用于非線性函數逼近等領域,其結構為:含有k個輸入變量(Xi,i=1,2,…,k)的輸入層、含有n個神經單元的隱含層和一個輸出層Y。為討論風格因子對基金收益的影響,可以分兩步建立相應的神經網絡分位數回歸模型。
第一步,建立從輸入層到隱層的連接。

其中,tanh(?)為雙曲正切函數;b(h)j為隱層閾值,w(h)ij(j=1,2,…,n)為隱層權重。
第二步,建立從隱層到輸出層的連接。

這里建立的基金收益神經網絡分位數回歸模型是一種非參數的分位數回歸方法,無需設定明確的函數形式,就能很好地模擬系統中的非線性結構,它結合了神經網絡能夠模擬非線性結構與分位數回歸能夠揭示基金收益完整分布特征這兩個方面的優勢,能夠準確地刻畫與預測基金收益變動規律。
2.模型估計
神經網絡分位數回歸模型中的參數,可以通過優化目標函數(9)式來實現。

但是,在QRNN模型中,還需要進一步考慮模型的復雜程度:由輸入層變量數目k與隱層節點數目n決定。過于復雜的模型,容易導致過度訓練問題,即過度擬合了噪音而不是信號。為防止過度擬合問題,可以考慮如下經驗損失函數:

其中,λ為正的常數,用以控制權重項的貢獻;二次懲罰項,用以對大的隱層權重進行懲罰。對規劃問題(10)進行求解,可以實現參數估計,即

3.密度預測
以得到參數向量估計W?(τ)、b?(τ)之后,將新觀測的風格因子X*取值(或者測試集取值)代入(8)式,就可以得到基金收益R*的條件分位數估計:

進而,由(6)式可以完成基金收益R*的條件密度預測。
(一)數據選取與分析
本文以中國開放式基金為研究對象,研究其收益變動模式,選用中信標普風格指數作為解釋變量,考察其對證券投資基金收益的影響。對于開放式基金,累積凈值增長率能夠更好地反映基金收益,其計算公式如下:

其中,NAVi,t表示基金i在t時刻單位累積凈值。整個樣本區間為2008年5月至2014年3月,共計70個月度數據,數據來源于國泰安(CSMAR)數據庫,所有計算使用R3.0.1進行編程。
表1給出了15個風格指數的描述統計結果,可見風格指數取值之間存在較大差異,可以度量不同投資風格的收益情況,具有較好的代表性。J-B檢驗結果表明,除了中標企債與可轉債兩個指數的分布特征與正態分布存在較大差異,其余指數都較好地服從正態分布。
鑒于多數開放式基金收益序列存在類似的變動規律,本文只報告東吳行業輪動股票型證券投資基金(編號為:580003)的研究結果,感興趣的讀者可以來函索取其他結果。圖3與圖4給出了收益序列的正態性檢驗結果。在圖3中,直方圖呈現明顯的雙峰特征,表明該收益序列并非服從正態分布,同時其無條件概率密度(實線)與正態概率密度(虛線)存在較大偏差。在圖4中,Q-Q的上尾部顯著偏離了直線,因此,拒絕該基金收益序列服從正態分布的假定。這一結果意味著,建立在古典假定基礎上的均值回歸模型,其前提條件已經不成立,難以準確刻畫基金收益的變動規律。為此,需要使用線性分位數回歸或者神經網絡分位數回歸,對基金收益變動規律進行揭示。

表1 風格指數描述性統計與J-B檢驗

圖3 基金收益序列直方圖與無條件概率密度

圖4 基金收益序列Q-Q檢驗
(二)實證結果分析
為比較預測效果,本文以15個中信標普風格指數作為解釋變量,以基金收益作為響應變量,分別建立均值回歸模型、線性分位數回歸模型、神經網絡分位數回歸模型。在建立神經網絡分位數回歸模型時,選取神經網絡隱層節點數為5、懲罰參數λ=500、迭代次數為1 000。建模過程中,將整個樣本區間劃分為兩個部分:2008年5月至2010年12月作為樣本內,建立模型;2011年1月至2014年3月作為樣本外,檢驗模型預測效果。模型預測效果評價,本文采用了三個指標:平均絕對誤差(MAE)、均方根誤差(RMSE)、TheilU不等系數,分別定義如下:

表2中,報告了均值回歸與線性分位數回歸模型參數估計結果。限于篇幅,只給出分位數回歸在τ=0.1,0.3,0.5,0.7,0.9五個代表性分位點的估計結果。可以看出,均值回歸結果與分位數回歸結果存在較大差異,即便與中位回歸的結果也存在一定的差異。由均值回歸結果,認為對基金收益存在顯著影響的只有兩個風格因子:小盤純價值(SPV)、小盤價值(SV),不過這一信息顯然不能代表基金收益在極端尾部(高分位點與低分位點)的變動特征。由分位數回歸的結果可知,基金收益在低分位點處受到較少風格因子的影響,而在高分位點處則受到較多風格因子的影響。這一結果表明,要想解釋基金收益的極端正值需要引入更多的風格因子。

表2 風格指數描述性統計與J-B檢驗
在表3中,報告了在0.1~0.9共計9個分位點中,線性分位數回歸模型與神經網絡分位數回歸模型對測試集的擬合效果。除了在0.2分位點處,基于神經網絡分位數回歸模型對測試集的擬合效果要優于線性分位數回歸模型,這表明15個中信標普風格指數對基金收益的影響范式主要表現為非線性影響。圖5給出了基于神經網絡分位數回歸模型的實際收益預測結果,包括中位數預測與眾數預測兩個結果。

表3 基于樣本內數據的非對稱損失函數值

圖5 收益序列樣本外預測結果
表4的評價結果顯示:①就三種模型而言,其樣本內預測精度都要高于樣本外預測精度;②基于線性分位數回歸模型的中位數預測結果都不如基于均值回歸模型的均值預測結果,基于神經網絡分位數回歸模型的中位數預測也只是在RMSE指標上優于基于均值回歸模型的均值預測結果;③無論在樣本內還是在樣本外,基于神經網絡分位數回歸模型的眾數預測在各個指標上都優于其他兩個模型。眾所周知,眾數是最可能發生的數。因此,表4的結果表明基于神經網絡分位數回歸模型預測的最可能結果是最接近真實收益的。

表4 預測評價結果
神經網絡分位數回歸模型不僅能夠提供中位數預測和眾數預測這兩個點預測,而且能夠提供整個條件密度預測,從而可以獲得比均值回歸模型只能得到條件均值預測更多的有用信息。圖6報告了在2011年第3、6、9、12個月時的基金收益條件密度預測結果,圖中的豎線為真實的基金收益,曲線為基金收益概率密度預測結果。由圖6可知,第一,預測的概率密度曲線都包含了真實值,而且眾數非常接近真實值;第二,在概率密度預測基礎上,可以進一步給出帶有一定概率水平的區間預測結果。

圖6 基于QRNN的概率密度預測結果
為解決證券投資基金收益中存在的高峰厚尾和非線性特征,本文建立了神經網絡分位數回歸模型用以描述證券投資基金收益行為。該模型一方面通過神經網絡結構能夠模擬金融系統中的非線性關系,另一方面通過分位數回歸能夠揭示響應變量完整分布特征,整體提升了回歸分析的功能,能夠準確刻畫基金收益整個條件分布(密度)特征,便于深入揭示基金收益模式。以中國開放式基金作為對象進行了實證研究,結果表明:①各因素主要通過非線性范式影響基金收益,表現為基于神經網絡分位數回歸模型對測試集的擬合效果要優于線性分位數回歸模型,從而能夠得到更為準確的預測結果;②神經網絡分位數回歸模型可以得到整個條件密度預測,這意味著在獲得各影響因素或可控因素的變化趨勢之后,就可以準確地描述基金收益的完整條件分布,提供比點預測更加豐富的信息。
[1]Sharpe W F.Asset allocation:Management style and perfor?mance measurement[J].The Journal of Portfolio Manage?ment,1992,18(2):7-19.
[2]Fama E F,French K R.Common risk factors in the returns on stocks and bonds[J].Journal of Financial economics,1993,33(1):3-56.
[3]許啟發,蔣翠俠.分位數局部調整模型及應用[J].數量經濟技術經濟研究,2011,28(8):115-133.
[4]Bassett G W,Chen H L.Portfolio style:return-based attribu?tion using quantile regression[J].Empirical Economics,2001,26(1):293-305.
[5]胡豐,許啟發,蔣翠俠.基于分位數回歸的基金風格分析與業績評價[J].鄭州航空工業管理學院學報,2012,30(6):84-90.
[6]許啟發,蔡超,蔣翠俠.基于半參數模型的Kuznets“倒U假說”再檢驗[J].統計與信息論壇,2010,25(8):3-9.
[7]Broomhead D,Lowe D.Multivariable functional interpola?tion and adaptive networks[J].Complex systems,1988,2(1):321-355.
[8]White H.Nonparametric estimation of conditional quantiles using neural networks[M].Gallant A R.Artificial Neural Networks:Approximation and Learning Theory.Oxford:Blackwell,1992:191-205.
[9]Taylor J W.A quantile regression neural network approach to estimating the conditional density of multiperiod returns[J].Journal of Forecasting,2000,19(4):299-311.
[10]Feng Y,Li R,Sudjianto A,et al.Robust neural network with applications to credit portfolio data analysis[J].Statis?tics and its interface,2010,3(4):437-444.
[11]Cannon A J.Quantile regression neural networks:Imple?mentation in R and application to precipitation downscaling[J].Computers&Geosciences,2011,37(9):1277-1284.
[12]Cannon A J.Neural networks for probabilistic environmen?tal prediction:Conditional Density Estimation Network Cre?ation and Evaluation(CaDENCE)in R[J].Computers& Geosciences,2012,41(4):126-135.
[13]何耀耀,許啟發,楊善林,等.基于RBF神經網絡分位數回歸的電力負荷概率密度預測方法[J].中國電機工程學報,2013,33(1):93-98.
[14]Koenker R,Bassett G W.Regression quantiles[J].Econo?metrica,1978,46(1):33-50.
[15]Yu K,Lu Z,Stander J.Quantile regression:applications and current research areas[J].The Statistician,2003,52(3):331-350.
[16]陳建寶,丁軍軍.分位數回歸技術綜述[J].統計與信息論壇,2008,23(3):89-96.
[17]Portnoy S,Koenker R.The Gaussian hare and the Lapla?cian tortoise:computability of squared-error versus abso?lute-error estimators[J].Statistical Science,1997,12(4):279-300.
[18]Portnoy S,Koenker R.Adaptive L-estimation for linear models[J].Annals of Statistics,1989,17(1):362-381.
[責任編輯:余志虎]
Prediction of the Probability Density of Securities Investment Fund Returns—Based on Quantile Regression Neural Network Model
RUAN Su-mei1,YU Ning2
(1.School of Business,Anhui University of Finance and Economics,Bengbu 233041,China; (2.School of Economics,Trade and Event Management,Beijing International Studies University,Beijing 100024,China)
It is difficult for mean regression analysis,which is based on classical assumptions,to give an accurate prediction of securities investment fund returns since they have a higher kurtosis and larger skewness.The quantile regression neural net?work(QRNN)model is set up for revealing the stylized facts of securities investment fund returns,such as leptokurtic and asymmetry,and nonlinear impact mode of all types of factors.On the one hand,the QRNN model can describe the influenc?ing rules of all factors in the whole conditional distribution of the returns through quantile regression approach.On the other hand,it is especially good at simulating the nonlinear relationship of financial system via the structure of neural network.Fur?thermore,we predict the whole conditional density function of securities investment fund returns based on the QRNN model,which provides more useful information than point forecast for scientific decision-making.
investment fund;neural network;quantile regression;probability density;prediction
F830
A
1007-5097(2015)02-0105-06
10.3969/j.issn.1007-5097.2015.02.017
2014-05-11
國家社會科學基金項目(13CGL075);國家自然科學基金項目(71403001);安徽省教育廳人文社會科學研究重點項目(SK2013A011);河北省社會科學發展研究課題(2014021408);北京市社會科學基金項目(14JG090)
阮素梅(1974-),女,安徽太和人,副教授,碩士生導師,博士,研究方向:銀行管理,公司治理;
于寧(1982-),男,河北石家莊人,講師,特華博士后科研工作站博士后,美國紐約大學訪問學者,研究方向:國際金融,銀行管理。