曾婉紅,劉金山
(華南農業大學理學院,廣州510642)
帶有誤差為正態分布的SUR回歸的貝葉斯分析及其應用
曾婉紅,劉金山
(華南農業大學理學院,廣州510642)
文章研究了帶有正態分布SUR模型,采用Jeffreys的不變先驗分析Gibbs抽樣方法和Direct Monte Carlo(DMC)方法,計算了各參數的貝葉斯后驗密度和未來值的預測密度以及其它相關的后驗量,如后驗置信區間等。通過模擬例子和建立了關于城鎮、農村居民家庭平均收入和生活消費支出的SUR模型,將Gibbs抽樣方法和DMC方法得出的結果進行了比較。
正態分布SUR模型;Jeffreys的不變先驗;Gibbs抽樣方法;Direct Monte Carlo;貝葉斯后驗密度;預測密度
Arnold Zellner的經典文章“An Efficient Methods for Estimating Seemingly Unrelated Regressions and Tests of Aggregation of Bias”引進了SUR模型,該文章具有里程碑意義,它極大地刺激了在計量經濟學和其它領域的深入的理論研究和無數的應用研究。
由于SUR模型在計量經濟學中的重要性,本文擬通過一個模擬例子和建立關于城鎮和農村居民家庭平均收入和生活消費支出的SUR模型。在誤差序列服從多元正態分布的假設前提下,分析SUR模型的貝葉斯方法之一的是MCMC方法。目前,在貝葉斯分析中應用最為廣泛的MCMC方法主要有兩種:Gibbs抽樣方法和Metroplis-Hastings方法。本文采用Gibbs抽樣方法。使用Gibbs可以近似每個參數的后驗密度和對未來值構造貝葉斯預測密度。近年來,計算機技術的發展使得MCMC技術被廣泛得使用。
然而Gibbs抽樣方法的使用會出現一些問題:首先,預迭代的個數不確定;第二,沒有統一的規則決定Gibbs的樣本量;第三,必須檢驗Gibbs方法的收斂性。雖然提出了很多檢驗Gibbs方法收斂性的方法,但都不能保證在有限的運行中Gibbs方法能從所需要的后驗分布中產生樣本。
最近,Zellner和Anod(2008)提出了一種新的有效的貝葉斯估計方法,它是基于直接蒙特卡羅(DMC)方法,采用Jeffreys’s的不變先驗,構造“遞歸”的聯合后驗密度,這種方法不會出現Gibbs方法以上的問題。
考慮由m個回歸方程組成的系統:
這里,yj和uj都是n×1維向量,Xj是n×pj維觀察值矩陣,βj是pj維系數向量,Ω是m×m矩陣,對角元素為非對角元素為ωij。參數值域如下:

方程(1)中表明每個方程有不同的獨立變量和方差,而且允許不同方程中的誤差項在同一觀察時間上是相關的。將(1)寫成矩陣形式:

(1)β的滿條件分布

(2)Ω的滿條件分布

Gibbs抽樣算法如下。
首先賦初始值Ω(0),Ω(0),第j次迭代:
①從滿條件分布π(β|Ω(j-1),y)中抽取β(j);
②從滿條件分布π(Ω|β(j),y)中抽取Ω(j)。
最近,Zellner和Ando(2008)得到一種直接蒙特卡羅過程,用于SUR模型的貝葉斯分析。我們將方程(1)重新表述為如下形式:


Zj是βj-1,…,β1的函數,參數的似然函數為:


其中|J|是由{β,Ω}到{b,Σ}的雅克比行列式。參數θ的聯合后驗密度為:

①bj的條件后驗密度:


直接蒙特卡羅過程如下:
步驟1(初始化)固定m。設定產產生的樣本數N,令j=1。產生,插入樣本值到然后從中生成一個樣本
步驟3有順序地重復步驟2直到j=m。
步驟4將Σ(k)轉換成Ω(k)。
步驟5從多元正態分布中抽取β(k),均值為,協方差為矩陣
采用選擇的模型和對應的后驗樣本{β(k),Ω(k);k=1,…,N},可評估各種量。例如,預測密度可近似為:

這樣不僅可以得到參數的后驗密度,還可計算參數的各種函數的后驗密度,例如,多項式、率、根及其他表示參數的特征的量。
為了評估本文提出的抽樣過程,在此展現基于模擬數據和真實數據建立模型并進行分析。本文所有的程序的實現都是使用R軟件。
為了研究本文貝葉斯模型估計過程的特征,模擬m=3維的SUR模型(1),不失一般性,設定pj=2;j=1,2,3;i=1,2,…,n;n=100,Ω={ωij}。


表1 DMC和Gibbs方法的統計結果
兩種方法均抽取N=10000個樣本進行統計計算。
(1)采用Gibbs抽樣方法時進行迭代11000次,然后丟棄前面的1000次迭代,即剩下10000個樣本,而采用DMC方法直接抽取10000個樣本,結果見表1、圖1。

由表1得,采用Gibbs方法和DMC方法得出的參數估計值相近,而且均接近模擬時所
設置的參數值,各估計值均在95%置信區間內;收斂性診斷是采用Heidelberger和Welch的收斂性診斷結果,結果表明各參數在所抽取的馬爾可夫鏈均收斂。

表2 平均絕對誤差值

由表3、4得,上述兩種方法得出的預測估計值均能很好地接近真實值,且得出的預測估計值相差不大。圖3為一步估計預測密度圖。

表3 y1,y2,y3的預測密度統計,預測估計點x1=-2,x2=-3,x3=2

表4 DMC與Gibbs方法的預測值比較,預測估計點x1=-2,x2=-3,x3=2

(2)重復實驗
重復該模擬實驗100次,在DMC抽樣中每次抽取樣本量為10000,而Gibbs抽樣中每次抽取11000個樣本,然后丟棄前面的1000次迭代,剩下10000個樣本,將每次實驗得到的均值再求平均,結果見表5。從結果看出,各參數的后驗均值(即估計值)更加接近于真實值,說明重復多次實驗會使結果更加的精確。

表5 重復100次試驗后DMC與Gibbs方法的統計結果
2.2.1 數據來源
研究1980~2008年中國城鎮居民家庭人均可支配收入與生活消費支出以及農村居民家庭人均純收入與生活消費支出(數據來源于《新中國六十年統計資料匯編》)的關系。本文采用1980~2007年的數據建立模型,共28組數據,而2008年數據用于預測。
2.2.2 建立模型
建立以下的SUR模型:

其中表示1980~2008年,y1t,y2t分別代表城鎮、農村居民家庭人均生活消費支出,x1t代表城鎮居民家庭人均可支配收入,x2t代表農村居民家庭人均純收入。假設兩個回歸方程的誤差在同一時刻是相關的,即(u1t,u2t)~N(0,Ω)?,F分別采用Gibbs和DMC方法分析該模型,得到的結果見表6~9,圖4~5。
由表6得:采用Gibbs方法比DMC方法得出的參數估計值相近,各估計值均在95%置信區間內;根據Heidelberger和Welch的收斂性診斷,各參數抽取的馬爾可夫鏈均收斂;城鎮居民家庭人均可支配收入與農村居民家庭人均純收入對生活消費支出的貢獻均大于0,說明人均收入能推動人均消費。從表7看出,采用這兩種方法得到的平均絕對誤差非常接近。圖4為某些參數的后驗密度圖。

表6 DMC和Gibbs方法的統計結果

表7 平均絕對誤差值

由表8和9得,上述兩種方法得出的預測估計值均能很好地接近真實值,且得出的預測估計值相差不大。圖5為2008年城鎮、農村居民家庭人均生活消費支出估計的預測密度圖。

表8 y1,y2的預測密度統計,預測估計點x1=15780,x2=4760.6

表9 DMC與Gibbs方法的預測值比較

本文主要使用了兩種貝葉斯方法分析帶有誤差為正態分布的SUR模型,一種是直接蒙特卡羅方法(DMC),另一種是Gibbs抽樣方法。這兩種方法得到的結果基本上是一致的,而且得出的參數估計值均能很好地近似于真實值。但是DMC方法比Gibbs抽樣方法使用起來更加的簡便。它們的區別見表10。

表10 DMC與Gibbs的比較
在應用實例中可得,城鎮(農村)居民人均生活消費支出是隨著城鎮居民家庭人均可支配收入(農村居民家庭人均純收入)的提高而增加的,這與實際情況相符合。
[1]S.Chib,E.Greenberg.Hierarchical Analysis of SUR Models with Extensions to Correlated Series and Time-Varying Parameter Models[J].Econometrics,1995,68.
[2]George Casella,Edward I.George.Explaining the Gibbs Sampler[J].The American Statistician,1992,46(3).
[3]Tomohiro Ando,Arnold Zellner.Hierarchical Bayesian Analysis of the Seemingly Unrelated Regression and Simultaneous Equations Models Using a Combination of Direct Monte Carlo and Importance Sampling Techniques[J].Bayesian Analysis,2010,5(1).
[4]Arnold Zellner,Tomohiro Ando.A Direct Monte Carlo Approach for Bayesian Analysis of the Seemingly Unrelated Regression Model[J].Journal of Econmetrics,2010,159(1).
[5]Arnold Zellner,Tomohiro Ando.Bayesian and Non-Bayesian Analysis of the Seemingly Unrelated Regression Model with Student-t errors,and Its Application for Forecasting[J].International Journal of Forecasting,2010,26.
[6]Chan K.S.,Geyer C.J.Discussion of Markov Chains for Exploring Posterior Distributions[J].Annals of Statistics,1995,22.
[7]Percy,D.F.Prediction for Seemingly Unrelated Regressions[J].Journal of the Royal.Statistical Society,1992,(54).
[8]Mary Kathryn Cowles,Bradley P.Carlin.Markov Chain Monte Carlo Convergence Diagnostics:A Comparative Review[J].1996,91(434).
[9]Cui,Tanner.Comment:Monitoring Convergence of the Gibbs Sampler:Further Experience with the Gibbs Stopper[J].Statistical Science,1992,(7).
O212.8
A
1002-6487(2011)07-0038-04
國家自然科學基金資助項目(10871072)
曾婉紅(1985-),女,廣州花都人,碩士研究生,研究方向:計算機應用技術。劉金山(1958-),男,河南方城人,教授,研究方向:貝葉斯統計。
(責任編輯/亦民)