郭俊峰
(廈門大學經濟學院,福建廈門361005)
變量懲罰效應在貝葉斯分位數回歸模型的應用
郭俊峰
(廈門大學經濟學院,福建廈門361005)
盡管貝葉斯分位數回歸方法能夠有效克服經濟金融數據的尖峰厚尾、結構突變等問題,充分借鑒已有研究成果信息,但是其并不能很好解決多維變量模型的維數災難問題。為此,文章在貝葉斯分位數回歸基礎上,結合自適應Lasso變量懲罰作用,構建了基于MH抽樣的自適應Lasso懲罰貝葉斯分位數回歸模型。通過仿真模擬實驗以及MCMC鏈條檢驗,證明上述模型具有優良擬合性質,尤其是在小樣本情形下。
維數災難;自適應Lasso懲罰;貝葉斯;分位數回歸
伴隨著計算機技術和計量模型的發展,學者們開始將分位數回歸(Quantile Regression,QR)方法運用于經濟金融、衛生統計等領域的研究,它能夠有效克服數據的尖峰厚尾以及結構突變等問題,還對極端異常值有很強的魯棒性,因此該方法日益受到研究人員重視。分位數回歸方法本身也不斷擴展延伸,其中一個重要方向是與貝葉斯估計結合,通過不對稱Laplace分布來構建貝葉斯分位數回歸(Bayesian Quantile Regression,BQR)模型[1],從而有效利用以往研究成果信息、提高樣本數據較少時的參數估計精度。
可是在多維變量模型中,BQR方法平等估計每個解釋變量而不考慮變量作用顯著與否,換句話說,BQR模型不能解決維數災難問題,即使Tibshirani在1996年[2]提出了Lasso變量懲罰方法,也不能很好處理多維變量模型的維數災難問題,因為該方法對所有自變量都施以相同懲罰,而這顯然與不同自變量對因變量影響各異的規律相悖。
基于此,本文在貝葉斯分位數回歸模型基礎上,嘗試著結合自適應Lasso變量(Adaptive Lasso)懲罰作用[3],對不同自變量給予不同懲罰系數。經過理論推導,最終構建了基于MH抽樣的自適應Lasso懲罰貝葉斯分位數回歸(Adaptive Lasso Bayesian Quantile Regression,ALBQR)模型。仿真模擬分析表明,相比于0LS模型、QR模型及BQR模型,ALBQR模型有更好的擬合效果。
1.1貝葉斯分位數回歸BQR模型
Koenker和Bassett(1978)[4]率先提出分位數回歸方法。給定自變量X信息后,Y的第τ分位數水平線性條件分位數模型表達式為

也就是


得到QR模型系數β的估計值,其中ρτ(u)=u(τ-I(u為示性函數。
實際研究中,我們往往還可以參照以前相關成果。然而,普通QR模型并沒有借鑒這些經驗,所以下面對該模型進行貝葉斯分析推導,構建貝葉斯分位數回歸BQR模型。為了將貝葉斯方法納入到分位數回歸框架,本文需要運用不對稱拉普拉斯先驗分布(Asymmetric Laplace Distribution,ALD)。給定,μ是位置參數,σ是尺度參數,p是偏度參數,那么其密度函數如下:


Tsionas(2003)[5]證明,如果x~ALD(μ,σ,p),那么x可以等價表示為:


比較式(3)與式(7),看出極小化式(3)等價于極大化式(7),分位數水平τ等同于ALD分布的偏度系數P。根據式(6),將因變量yt表示成:

相應地,BQR模型的參數估計值為:

1.2帶有變量懲罰效應的貝葉斯分位數回歸模型
盡管BQR模型可以很好地解決數據的尖峰厚尾、結構突變等問題,也充分利用了已有先驗信息。但在參數估計時,該方法卻不加選擇地平等對待每個解釋變量。由于多維變量模型普遍存在“維數災難”難題,所以Tibshirani(1996)[2]提出了Lasso變量懲罰方法。可是Lasso懲罰方法沒有0 racle估計性質,其對所有變量的回歸系數都施以相同懲罰。這顯然與現實規律相違背。為此,對于BQR模型,我們借助自適應Lasso懲罰方法,通過選擇適當權重,對不同變量給予不同懲罰系數,從而得到自適應Lasso懲罰貝葉斯分位數回歸(Adaptive Lasso Bayesian Quantile Regression,ALBQR)模型,其具有0 racle性質的參數估計值為:

其中λj是非負的可變懲罰系數。
1.3ALBQR模型參數估計與算法設計


進而


式(14)中,δ、ψ為超參數。綜上所述,本文通過假設參數βj和誤差項εt都服從ALD先驗分布,并對參數βj施以可變懲罰作用參數先驗分布分別為:

貝葉斯估計參數時,后驗分布密度函數較難求解并且形式復雜,一般很難得到后驗分布密度的明確表達式,所以只能借助模擬抽樣技術。MCMC是一種簡單有效的數值模擬計算方法,包括Gibbs抽樣和MH抽樣,Gibbs抽樣本質是接受概率恒為1的MH抽樣特例,本文用MH抽樣算法來進行貝葉斯參數估計。MH抽樣從建議分布q(θ,θ')中抽樣得到候選樣本θ',然后以概率a(θ,θ')決定是否接受由θ→θ',形成轉移核p(θ,θ'),具體如下:

設第k步馬爾可夫鏈的狀態向量為θ(k),根據建議分布產生另一狀態向量θ‘,然后隨機從均勻分布U(0,1)中抽取a,如果就接受,否則θ(k+1)=θ。
2.1數據來源
我們接下來進行仿真模擬,以檢驗ALBQR模型的合理性和優越性,尤其在小樣本情形下。簡單起見,設定123456為隨機數種子,生成6個在不同區段的均勻分布變量,變量個數用N表示,本文取N為20、50及100。然后根據下列方程式生成因變量Y:

上式中,誤差項εt被設為服從零均值、異方差的正態分布。很明顯,對于7×N個模擬數據而言,式(16)就是多維變量模型回歸方程,并且樣本數量N也有大有小,因此這些數據符合仿真模擬的要求。
2.2仿真結果分析
假定ALBQR模型的先驗參數σ~Gamma(0.001,0.001),步長是1。進行MH抽樣50000次,預燒30000次,剩下數據用于估計上述6個模擬變量的系數。表1—表3分別提供了樣本量N為20、50及100時的參數后驗均值。為便于比較,我們還列出0L和BQR模型的相應結果。
根據表1至表3,我們發現如下規律:第一,普通最小二乘法0LS的參數估計值的確介于不同分位數水平的BQR(或者ALBQR)估計值之間,這是由于0LS方法估計的是條件均值方程,注重平均角度,而分位數模型通過變動分位數水平,還可以研究兩端尾部極端情況下的變量關系,所以0LS能夠挖掘出的信息量最少。第二,就同一模型來說,隨著樣本量N增大,所有估計值都越來越顯著,這說明誤差百分比逐漸降低,參數估計精度都得到提高。同時,0LS、BQR與ALBQR模型之間的估計精度差別也不斷縮小。第三,在同一樣本量下,0LS方法最不準確,相比而言,ALBQR的參數估計系數最接近各個模擬變量的真實值。尤其是在樣本量很小(N=20)時,ALBQR模型的優勢更加明顯。
采用貝葉斯方法估計參數后,需要檢驗變量MCMC鏈條的收斂性,本文使用Geweke檢驗方法。限于篇幅,我們只列出樣本量N為100時的MCMC鏈條(tau=0.25、0.5、0.75)收斂性判斷結果。表4匯報了檢驗情況。

表1 仿真模擬結果(樣本量N=20)

表2 仿真模擬結果(樣本量N=50)

表3 仿真模擬結果(樣本量N=100)

表4 MCMC鏈條收斂性判斷(樣本量N=100)
在表4,樣本量為100時,BQR模型和ALBQR模型所有鏈條的Z統計量絕對值都小于2,均通過Geweke收斂性檢驗,因此判斷這些MCMC鏈條收斂穩定,從而側面印證前文關于ALBQR模型的分析結論是合理有根據的。
雖然貝葉斯分位數回歸模型可以解決數據普的尖峰厚尾、結構突變等問題,也充分利用先驗信息,但該方法沒有很好地處理多維變量模型的維數災難問題,本文在貝葉斯分位數回歸方法基礎上,采用自適應Lasso懲罰進行變量選擇,構建了基于MH抽樣算法的自適應Lasso懲罰貝葉斯分位數回歸模型。仿真模擬實驗表明,在小樣本時,ALBQR模型的擬合性能更優也更穩健。
[1]陳耀輝,郭俊峰,殷文超.人民幣升值對中小板市場波動的影響——基于貝葉斯分位數回歸的分析[J].系統工程,2015,(1).
[2]Tibshirani R.Regression Shrinkage and Selection via the Lasso[J]. Journalof the Royal Statistical Society(Series B),1996,58(1).
[3]Zou H.The Adaptive Lasso and Its Oracle Properties[J].Journal of the American Statistical Association,2006,101(476).
[4]Koenker R,BassettG.Regression Quantiles[J].Econometrica:Jour?nalof the Econometric Society,1978,46(1).
[5]Tsionas E G.Bayesian Quantile Inference[J].Journal of Statistical Computation and Simulation,2003,79(3).
[6]Andrews D F,Mallows C L.Scale Mixtures of Normal Distributions [J].Journalof the Royal StatisticalSociety(Series B),1974,36(1).
(責任編輯/易永生)
0212
A
1002-6487(2016)19-0020-03
國家自然科學基金面上項目(71373219);國家自然科學基金青年項目(71103150);中央高校基本科研業務費專項資金資助項目(2013221012)
郭俊峰(1988—),男,江西贛州人,博士研究生,研究方向:金融計量經濟學。