變量懲罰效應在貝葉斯分位數回歸模型的應用

2016-12-09 07:51:06郭俊峰

統計與決策 2016年19期

關鍵詞：懲罰方法模型

郭俊峰

（廈門大學經濟學院，福建廈門361005）

變量懲罰效應在貝葉斯分位數回歸模型的應用

郭俊峰

（廈門大學經濟學院，福建廈門361005）

盡管貝葉斯分位數回歸方法能夠有效克服經濟金融數據的尖峰厚尾、結構突變等問題，充分借鑒已有研究成果信息，但是其并不能很好解決多維變量模型的維數災難問題。為此，文章在貝葉斯分位數回歸基礎上，結合自適應Lasso變量懲罰作用，構建了基于MH抽樣的自適應Lasso懲罰貝葉斯分位數回歸模型。通過仿真模擬實驗以及MCMC鏈條檢驗，證明上述模型具有優良擬合性質，尤其是在小樣本情形下。

維數災難；自適應Lasso懲罰；貝葉斯；分位數回歸

0　引言

伴隨著計算機技術和計量模型的發展，學者們開始將分位數回歸（Quantile Regression，QR）方法運用于經濟金融、衛生統計等領域的研究，它能夠有效克服數據的尖峰厚尾以及結構突變等問題，還對極端異常值有很強的魯棒性，因此該方法日益受到研究人員重視。分位數回歸方法本身也不斷擴展延伸，其中一個重要方向是與貝葉斯估計結合，通過不對稱Laplace分布來構建貝葉斯分位數回歸（Bayesian Quantile Regression，BQR）模型[1]，從而有效利用以往研究成果信息、提高樣本數據較少時的參數估計精度。

可是在多維變量模型中，BQR方法平等估計每個解釋變量而不考慮變量作用顯著與否，換句話說，BQR模型不能解決維數災難問題，即使Tibshirani在1996年[2]提出了Lasso變量懲罰方法，也不能很好處理多維變量模型的維數災難問題，因為該方法對所有自變量都施以相同懲罰，而這顯然與不同自變量對因變量影響各異的規律相悖。

基于此，本文在貝葉斯分位數回歸模型基礎上，嘗試著結合自適應Lasso變量（Adaptive Lasso）懲罰作用[3]，對不同自變量給予不同懲罰系數。經過理論推導，最終構建了基于MH抽樣的自適應Lasso懲罰貝葉斯分位數回歸（Adaptive Lasso Bayesian Quantile Regression，ALBQR）模型。仿真模擬分析表明，相比于0LS模型、QR模型及BQR模型，ALBQR模型有更好的擬合效果。

1　模型構建與貝葉斯分析推導

1.1貝葉斯分位數回歸BQR模型

Koenker和Bassett（1978）[4]率先提出分位數回歸方法。給定自變量X信息后，Y的第τ分位數水平線性條件分位數模型表達式為

也就是

得到QR模型系數β的估計值，其中ρτ(u)=u(τ-I(u為示性函數。

實際研究中，我們往往還可以參照以前相關成果。然而，普通QR模型并沒有借鑒這些經驗，所以下面對該模型進行貝葉斯分析推導，構建貝葉斯分位數回歸BQR模型。為了將貝葉斯方法納入到分位數回歸框架，本文需要運用不對稱拉普拉斯先驗分布（Asymmetric Laplace Distribution，ALD）。給定，μ是位置參數，σ是尺度參數，p是偏度參數，那么其密度函數如下：

Tsionas（2003）[5]證明，如果x～ALD(μ，σ，p)，那么x可以等價表示為：

比較式（3）與式（7），看出極小化式（3）等價于極大化式（7），分位數水平τ等同于ALD分布的偏度系數P。根據式（6），將因變量yt表示成：

相應地，BQR模型的參數估計值為：

1.2帶有變量懲罰效應的貝葉斯分位數回歸模型

盡管BQR模型可以很好地解決數據的尖峰厚尾、結構突變等問題，也充分利用了已有先驗信息。但在參數估計時，該方法卻不加選擇地平等對待每個解釋變量。由于多維變量模型普遍存在“維數災難”難題，所以Tibshirani（1996）[2]提出了Lasso變量懲罰方法。可是Lasso懲罰方法沒有0 racle估計性質，其對所有變量的回歸系數都施以相同懲罰。這顯然與現實規律相違背。為此，對于BQR模型，我們借助自適應Lasso懲罰方法，通過選擇適當權重，對不同變量給予不同懲罰系數，從而得到自適應Lasso懲罰貝葉斯分位數回歸（Adaptive Lasso Bayesian Quantile Regression，ALBQR）模型，其具有0 racle性質的參數估計值為：

其中λj是非負的可變懲罰系數。

1.3ALBQR模型參數估計與算法設計

進而

式（14）中，δ、ψ為超參數。綜上所述，本文通過假設參數βj和誤差項εt都服從ALD先驗分布，并對參數βj施以可變懲罰作用參數先驗分布分別為：

貝葉斯估計參數時，后驗分布密度函數較難求解并且形式復雜，一般很難得到后驗分布密度的明確表達式，所以只能借助模擬抽樣技術。MCMC是一種簡單有效的數值模擬計算方法，包括Gibbs抽樣和MH抽樣，Gibbs抽樣本質是接受概率恒為1的MH抽樣特例，本文用MH抽樣算法來進行貝葉斯參數估計。MH抽樣從建議分布q(θ，θ')中抽樣得到候選樣本θ'，然后以概率a(θ，θ')決定是否接受由θ→θ'，形成轉移核p(θ，θ')，具體如下：

設第k步馬爾可夫鏈的狀態向量為θ(k)，根據建議分布產生另一狀態向量θ‘，然后隨機從均勻分布U(0，1)中抽取a，如果就接受，否則θ(k+1)=θ。

2　仿真模擬分析

2.1數據來源

我們接下來進行仿真模擬，以檢驗ALBQR模型的合理性和優越性，尤其在小樣本情形下。簡單起見，設定123456為隨機數種子，生成6個在不同區段的均勻分布變量，變量個數用N表示，本文取N為20、50及100。然后根據下列方程式生成因變量Y：

上式中，誤差項εt被設為服從零均值、異方差的正態分布。很明顯，對于7×N個模擬數據而言，式（16）就是多維變量模型回歸方程，并且樣本數量N也有大有小，因此這些數據符合仿真模擬的要求。

2.2仿真結果分析

假定ALBQR模型的先驗參數σ～Gamma(0.001，0.001)，步長是1。進行MH抽樣50000次，預燒30000次，剩下數據用于估計上述6個模擬變量的系數。表1—表3分別提供了樣本量N為20、50及100時的參數后驗均值。為便于比較，我們還列出0L和BQR模型的相應結果。

根據表1至表3，我們發現如下規律：第一，普通最小二乘法0LS的參數估計值的確介于不同分位數水平的BQR（或者ALBQR）估計值之間，這是由于0LS方法估計的是條件均值方程，注重平均角度，而分位數模型通過變動分位數水平，還可以研究兩端尾部極端情況下的變量關系，所以0LS能夠挖掘出的信息量最少。第二，就同一模型來說，隨著樣本量N增大，所有估計值都越來越顯著，這說明誤差百分比逐漸降低，參數估計精度都得到提高。同時，0LS、BQR與ALBQR模型之間的估計精度差別也不斷縮小。第三，在同一樣本量下，0LS方法最不準確，相比而言，ALBQR的參數估計系數最接近各個模擬變量的真實值。尤其是在樣本量很小（N=20）時，ALBQR模型的優勢更加明顯。

采用貝葉斯方法估計參數后，需要檢驗變量MCMC鏈條的收斂性，本文使用Geweke檢驗方法。限于篇幅，我們只列出樣本量N為100時的MCMC鏈條（tau=0.25、0.5、0.75）收斂性判斷結果。表4匯報了檢驗情況。

表1　仿真模擬結果（樣本量N=20）

表2　仿真模擬結果（樣本量N=50）

表3　仿真模擬結果（樣本量N=100）

表4　MCMC鏈條收斂性判斷（樣本量N=100）

在表4，樣本量為100時，BQR模型和ALBQR模型所有鏈條的Z統計量絕對值都小于2，均通過Geweke收斂性檢驗，因此判斷這些MCMC鏈條收斂穩定，從而側面印證前文關于ALBQR模型的分析結論是合理有根據的。

3　結束語

雖然貝葉斯分位數回歸模型可以解決數據普的尖峰厚尾、結構突變等問題，也充分利用先驗信息，但該方法沒有很好地處理多維變量模型的維數災難問題，本文在貝葉斯分位數回歸方法基礎上，采用自適應Lasso懲罰進行變量選擇，構建了基于MH抽樣算法的自適應Lasso懲罰貝葉斯分位數回歸模型。仿真模擬實驗表明，在小樣本時，ALBQR模型的擬合性能更優也更穩健。

[1]陳耀輝，郭俊峰，殷文超.人民幣升值對中小板市場波動的影響——基于貝葉斯分位數回歸的分析[J].系統工程，2015，(1).

[2]Tibshirani R.Regression Shrinkage and Selection via the Lasso[J]. Journalof the Royal Statistical Society(Series B),1996,58(1).

[3]Zou H.The Adaptive Lasso and Its Oracle Properties[J].Journal of the American Statistical Association,2006,101(476).

[4]Koenker R,BassettG.Regression Quantiles[J].Econometrica:Jour?nalof the Econometric Society,1978,46(1).

[5]Tsionas E G.Bayesian Quantile Inference[J].Journal of Statistical Computation and Simulation,2003,79(3).

[6]Andrews D F,Mallows C L.Scale Mixtures of Normal Distributions [J].Journalof the Royal StatisticalSociety(Series B),1974,36(1).

（責任編輯/易永生）

0212

1002-6487（2016）19-0020-03

國家自然科學基金面上項目（71373219）；國家自然科學基金青年項目（71103150）；中央高校基本科研業務費專項資金資助項目（2013221012）

郭俊峰（1988—），男，江西贛州人，博士研究生，研究方向：金融計量經濟學。

變量懲罰效應在貝葉斯分位數回歸模型的應用

0 引言

1 模型構建與貝葉斯分析推導

2 仿真模擬分析

3 結束語

0　引言

1　模型構建與貝葉斯分析推導

2　仿真模擬分析

3　結束語