何曉霞,徐偉,李緩,吳傳菊
(武漢科技大學理學院,湖北武漢430065)
面板數據分位數回歸模型的參數估計與變量選擇
何曉霞,徐偉,李緩,吳傳菊
(武漢科技大學理學院,湖北武漢430065)
本文研究了基于面板數據的分位數回歸模型的變量選擇問題.通過增加改進的自適應Lasso懲罰項,同時實現了固定效應面板數據的分位數回歸和變量選擇,得到了模型中參數的選擇相合性和漸近正態性.隨機模擬驗證了該方法的有效性.推廣了文獻[14]的結論.
面板數據;分位數回歸;自適應Lasso;變量選擇;漸近正態性
近年來,由于計算機技術的日益成熟,分位數回歸在理論和方法上都得到了廣泛的應用. Koenker[1]首次提出了分位數回歸,如今分位數回歸作為均值回歸分析的穩健替代,被廣泛地用于探索響應變量與協變量之間的潛在關系.在實際應用中,分位數回歸可以刻畫響應變量更多的分布特征.Koenker[2]發現分位數回歸的結果可以提供比普通條件均值回歸更豐富,更有針對性.特別是,它提供了探索異質性的來源與合作的響應變量一種方法,并深入研究了分位回歸模型及其估計.王新宇[3]系統地介紹了分位數的基本模型及其擴展、分位數回歸模型的經典統計推斷.Tang等[4]研究了加權復合分位數(WCQ)與隨機截尾線性回歸模型.在這個模型中,提出了可變選擇的自適應懲罰程序,并證明了一致性和漸近正態性. Wang和Yin[5]研究了無界意義下的在線變化分位數回歸算法.
分位數回歸模型中的變量選擇問題一直受到廣泛的關注.Shows等[6]針對一種多元線性模型,提出了對隨機刪失數據的自適應Lasso加權LAD(AWLAD)變量選擇方法.Wang等[7]提出了BIC調整參數選擇方法,證明了這種方法能夠辨別出真模型,并在模擬中驗證了理論的有效性.Wu等[8]研究了懲罰分位數回歸,在一些較弱的條件下得到了SCAD和自適應Lasso懲罰分位數回歸的Oracle性質.Zou[9]提出了分位數回歸模型的自適應Lasso的變量選擇方法,也得到了其Oracle性質.呂亞召等[10]研究部分線性單指標復合分位數回歸模型,提出了用自適應Lasso的變量選擇方法,該方法用BIC選擇最優調整參數,在隨機模擬中驗證了所提方法的優良性.
相對于橫截面或是時間序列數據來說,面板數據含有更多的信息,因此,面板數據回歸模型的研究越來越受關注.巴爾塔基[11]提出了面板數據模型及其參數的估計方法,并給出了實際應用.李揚等[12]提出了懲罰似然變量選擇問題,證明了面板數據的自適Lasso具有Oracle性質.在選擇最優調整參數時,模擬顯示BIC和GCV的選擇結果一般比AIC有優勢.曲婷等[13]對平衡縱向數據模型,通過Lasso方法可將模型的系數壓縮到0,采用AIC和BIC準則選取最優參數,從而達到變量選擇的目的.Koenker[14]首次提出了面板數據分位數回歸模型,用加權的形式控制分位數對效應的影響,并加入l1懲罰項,既保持了線性規劃形式,又保持了結果設計矩陣的稀疏性.李翰芳等[15]對隨機效應面板數據,通過引入條件Laplace先驗,構造了一種新的貝葉斯Lasso分位數回歸法,與一般貝葉斯分位回歸法相比更有效的將異質變量的系數壓縮到0,從而起到變量選擇的作用.
分位數回歸對誤差項的分布沒有具體的限制,對異質點或者是非正態分布的參數的估計具有一定的穩健性,將分位數回歸和面板數據模型兩者結合起來,在控制個體差異的同時,可以分析各種變量在不同分位點之間的關系.基于面板數據的分位數回歸模型,本文提出了一種在改進的自適應Lasso的罰函數下對變量進行選擇的方法,對系數變量的值進行壓縮,使得異質變量的系數為0,從而達到變量選擇的效果,并證明了相合性和漸近正態性,在模擬中用驗證了選擇的有效性.
考慮一般的隨機效應面板數據模型

其中yij是因變量,xij是自變量,αi是不可觀測的時間不變效應,uij是誤差項.寫成矩陣的形式如下y=XTβ+Zα+u,其中y是n×1維,X是nm×p維,Z是nm×n維的虛擬變量的關聯矩陣,α和u是獨立的隨機向量.
令ρτk(u)=u(τk-I(u≤0)),yij的分位數函數為

為了更好的估計參數,對(2.1)式提出加權分位數估計方法,

最小化(2.3)是一個凸規劃問題,加權分位數回歸估計方法可以凸優化來實現.在分位數函數(2.2)中,α與因變量的條件分位數相對應,為了更好的估計截面的分位數方程,Koenker[14]引入了懲罰項代替高斯懲罰項,


由于E[I(yij-ξij(τk)<0)-τk]=0,結合中心極限定理和Cram′er-Word定理,Zn,m,k和Wn,m,k依分布收斂到Zk和W1,其中Zk是一個正態隨機變量,均值為0,W1是一個n維正態向量,均值為0.因此可以得到

因此當mn→∞時,
則有

另外,由于

其中

則

由Koenker[14]中引理1,可以得到?u→dN(0,D-1ΣD-1).
在對數據進行統計分析時,人們一般會借助一些相關變量對所關心的變量進行分析,建模,以便得到理想的結果,一般稱這些相關的變量為協變量,而所關心的變量為因變量.在開始建模的時候,希望加入更多的相關變量,來得到更真實的結果,然而,隨著協變量的增多,異質變量存在的可能性就越大,于是,希望尋找一個有效方法來選出對響應變量有顯著影響的協變量.因此變量選擇就是統計學中一個重要的問題.本節對上述面板數據分位數模型的變量選擇進行分析,在(4.1)式中需要指定調節參數λ2,本文最優的調整參數λ2可以通過BIC (Bayesian information criterion)準則選取.在加權分位數估計的同時,同時希望對變量做選擇,本節選的罰函數是自適應Lasso罰函數.令

令BIC(λ)=logPλ+dfλ·log(mn)/mn,其中

(i)因為Lmn(δ)是對δ的分段線性函數,在每個可微的點,對k=1,2,···,K,j= q+1,···,p取Lmn(δ)對δkj的偏導,有


在本節給出兩個例子,比較不同的方法對參數估計值優勢,并驗證自適應Lasso罰函數對變量選擇的有效性.
例1考慮n=50,m=5,p=1,響應變量由下面的模型生成

其中β=1,αi和uij服從標準正態分布,ω=(0.25,0.5,0.25)在三個分位點τ=(0.25,0.5,0.75), xij由高斯分布生成

γi和vij獨立同分布,相應的組內相關系數,

就是xij和xik之間的相關系數,當j 6=k時,在的模擬中,都令ρx=0.5.而λ1選擇位置參數比σu/σα,λ2的選擇由上一節BIC得到,α和uij分兩種情況.
1.都來自于標準正態;
2.都來自于自由度為3的t分布.
這樣可以得到分別在分位數回歸的估計方法(QR)、分位數效應罰函數估計(PQR)、分位數回歸自適應罰函數估計(LPQR),對β的估計,如表1,可以看出在α和uij的兩種情況PQR和LPQR都比QR估計更優.

表1:例1中β參數估計

表2:例2中β罰估計

表3:例2中β變量選擇
例2令m=5,n=50,p=8,響應變量來自下面的模型

β=(3,1.5,0,0,0,0,2,0),xij由(5.1),(5.2)式生成,αi和uij同樣分兩種情況.
1.都來自于標準正態;
2.都來自于自由度為3的t分布.
表2是分位數罰估計(PQR)分別對上面兩種情形下β的估計,表3是分位數自適應Lasso罰函數(LPQR)對參數的估計,通過模擬可以看出PQR可以對參數做近似估計,但對異質變量不能做選擇,而LPQR在參數估計的同時對變量做了選擇,0參數都選擇出來了,不管是參數估計還是變量選擇都比PQR有優勢.
[1]Koenker R.Bassett G.Regression quantiles[J].Econo.,1978,46:33-50.
[2]Koenker R.Quantile regression[M].Cambridge:Cambridge University Press,2005.
[3]王新宇.分位數回歸理論及其在金融風險測量中的應用[M].北京:經濟科學出版社,2010.
[4]Tang L,Zhou Z,Wu C.Weighted composite quantile estimation and variable selection method for censored regression model[J].Stat.Prob.Lett.,2012,3:653-663.
[5]Wang B,Yin H.Varying quantile regression with online scheme and unbounded sampling[J].J. Math.,2015,34:281-286.
[6]Shows H,Lu W,Zhang H.Sparse estimation and inference for censored median regression[J].Stat. Plan.Infer.,2010,140:1903-1917.
[7]Wang H,Li R,Tsai C L.Tuning parameter selectors for the smoothly clipped absolute deviation method[J].Biometrika,2007,94:553-568.
[8]Wu Y,Liu Y.Variable selection in quantile regression[J].Statist.Sinica,2009,19:801-817.
[9]Zou H.The adaptive Lasso and its oracle properties[J].Amer.Stat.Assoc.,2006,101:1418-1429.
[10]呂亞召,張日權等.部分線性單指標模型的復合分位數回歸及變量選擇[J].中國科學,2014,12:1299-1322.
[11]巴爾塔基.面板數據計量經濟分析[M].北京:中國人民大學出版社,2010.
[12]李揚,曾憲斌.面板數據模型的懲罰似然變量選擇方法研究[J].統計研究,2014,3:83-89.
[13]曲婷,王靜.基于Lasso方法的平衡縱向數據模型變量選擇[J].黑龍江大學自然科學學報,2012,29:715-722.
[14]Koenker R.Quantile regression for longitudinal data[J].J.Multi.Anal.,2004,91:71-89.
[15]李翰芳,羅幼喜等.面板數據的貝葉斯LASSO分位回歸方法[J].數量經濟技術經濟研究,2013,2:138-149.
[16]Knight K.Limiting distributions for L1regression estimators under general conditions[J].Ann. Stat.,1998,26:755-770.
PARAMETER ESTIMATION AND VARIABLE SELECTION IN THE QUANTILE REGRESSION MODEL FOR PANEL DATA
HE Xiao-xia,XU Wei,LI Huan,WU Chuan-ju
(College of Science,Wuhan University of Science and Technology,Wuhan 430065,China)
In this paper,we consider the variable selection problem for the quantile regression model based on panel data.By adding an improved adaptive lasso penalty term, we realize the quantile regression and variable selection for the panel data with f i xed ef f ect simultaneously,and obtain the consistency and asymptotical normality for the selection of the parameters.Simulation studies show the validity of the proposed method,which extend that of [14].
panel data;quantile regression;adaptive lasso;variable selection;asymptotic normality
O211.7
A
0255-7797(2017)05-1101-10
2015-09-26接收日期:2016-02-25
國家自然科學基金資助(11201356).
何曉霞(1979-),女,湖北大悟,副教授,主要研究方向:數理統計.
2010 MR Subject Classif i cation:62F12;62J05