吳修平
(重慶師范大學 數(shù)學科學學院,重慶 401331)
Hansen[1-3]和Wan[4]對頻率模型平均(Frequency model average,FMA)的發(fā)展做出了巨大貢獻.FMA方法一定程度上解決了模型的不確定性帶來的一些問題,但是大部分FMA文獻其對子模型的估計是不穩(wěn)健的.分位數(shù)回歸(Quantile Regression, QR)[5-6]是解決估計不穩(wěn)定的有效工具.在現(xiàn)有的FMA研究中,Lu[7]通過刪除交叉驗證方法給QR模型分配權值,并證明了該方法的漸近最優(yōu)性.Wang[8]將分位數(shù)回歸的刀切模型拓展到高維協(xié)變量的情況.Zou[9]提出的復合分位數(shù)回歸(CQR)方法是對傳統(tǒng)分位數(shù)回歸方法的有效擴展.最近許多論文考慮了CQR方法的應用.Jiang[10]將CQR方法擴展到單指標模型,Jiang[11]采用加權CQR方法研究了非線性模型的模型選擇,并分別討論了其方法的理論性質(zhì).Zhao[12]通過CQR構建回歸模型的有效估計器,并證明所提出的估計器的漸近方差在適當條件下接近克拉默-拉奧下界.Guo[13]考慮一種平均邊際回歸的懲罰復合分位數(shù)模型,提出了一種魯棒的超高維半?yún)?shù)模型平均方法,并證明其漸近最優(yōu)性.然而,針對所有子模型都可能是錯誤指定的情況,在文獻中少有考慮將CQR擴展到模型的平均模型方法.受上述文獻啟發(fā),本文使用復合分位數(shù)回歸估計子模型,用最小二乘來選擇各子模型的權重.
本文對模型設置的描述遵循了Hansen[1]的符號.在適當?shù)那闆r下,本文將指出這兩種設置的差異.令{yi}i∈n∈R和{xi|xi=(xi1,xi1,…)}是可數(shù)無限的,真實數(shù)據(jù)生成過程遵循(Hansen[1]和Wan[4])的設定,
(1)
其中ei~N(0,σ2)且獨立于xi.
本文考慮一系列近似模型m=1,2,…,M,其中第一個子模型使用屬于xi的任意一個回歸變量,第m個子模型的回歸變量選用前(m-1)個子模型所用的回歸變量加上屬于x的任意一個回歸變量,則第m個近似模型為
其中xi1(m),xi2(m),…是第m個近似模型中回歸變量,θmj是相應的回歸系數(shù).
不同于mallows模型平均(Mallows Model Averaging,MMA)中對近似模型用最小二乘去估計子模型回歸系數(shù).考慮候選模型可能都是錯誤指定的,用最小二乘去估計子模型,預測可能不夠穩(wěn)健,所以本文先用復合分位數(shù)回歸去獲得第m個近似模型的回歸系數(shù).這里與MMA嵌套模型中需要對回歸變量顯式排序不同的是,該方法可以不用考慮引用回歸變量的排列順序,具體原因之后會討論.CQMA的第m個近似模型中對回歸系數(shù)θmj的估計為
(2)

CQMA的第m個近似模型中,對u的估計為
(3)

不同于MMA中近似模型的權重被指定為
(4)
對于CQMA,本文指定其權重為
Hn={wm∈RM,∑wm=1},
(5)
其中w=(w1,w2,…,wM)′是M×1階矩陣,wm是對應CQMA的第m個近似模型的所賦權重.u的CQMA估計為
(6)
CQMA的參數(shù)Θ估計為



(7)
(8)

(9)


(10)

引理1意味著
(11)
引理1也意味著{Ln(w(1))|{yi}i∈n∈R,x}?{Ln(w)|{yi}i∈n∈R,x}.則有如下關系成立:

(12)
這說明理論上用CQMA能達到的真實均方誤差不輸于MMA.
記MMA的權重選擇標準為

(13)
不同于用加懲罰的最小二乘和分位數(shù)損失函數(shù)去選擇權重,本文用最小二乘去選擇權重.針對所有候選模型都可能是錯誤指定的情況,本文要去預測預測對象的均值,用分位數(shù)損失函數(shù)有效性弱于最小二乘,記CQMA的權重選擇標準為
(14)
其中可以證明EWn(w)=ELn(w)+nσ2,Wn(w)是模型平均真實均方誤差的期望加上一個常數(shù)的無偏估計.在實踐中,對于MMA方法,σ2是未知的,MMA需要使用樣本去估計σ2的值,而且為了模型實現(xiàn)的方便性,MMA采用最大模型去估計σ2的值.而本文所提方法不用去估計σ2的值.可以證明EWn(w)=ELn(w)+nσ2,證明如下:

(15)
CQMA權重向量w的估計為
(16)
這是一個經(jīng)典的關于w的二次規(guī)劃問題,其數(shù)值算法很容易得到.可以利用R語言中的標準軟件包(如R語言中的quadprog包)來解決.


(17)
這里xm記為第m個近似模型中新引入的變量.記矩陣A為
(18)
(19)
對?b∈B,令


定理2由(12)、(13)、引理1可以推出使用CQMA方法得到的實際預測方差理論上不輸于使用MMA方法實際預測方差.
由Hansen[1]的引理1可知
結合引理1,容易推出
則有SnMMA>SnCQMA.
定理3當n→∞,若?G(1≤G<∞),使得

(20)
(21)

則有
(22)
證明
由文獻[4]中定理1可知
(23)

(24)
再由關系(11)等式成立,推出
(25)
定理3證明了基于CQMA的估計的均方誤差依概率漸近等價于均方誤差的下確界,即CQMA估計是漸近最優(yōu)的.
本文運用蒙特卡羅模擬研究了本文方法的有限樣本性能,并與現(xiàn)有方法進行了比較.支撐信息包含了蒙特卡羅模擬的結果.
因為Hansen[1]將MMA方法與AIC model selection (AIC), smoothed AIC (S-AIC)、smoothed BIC (S-BIC)等方法進行了蒙特卡洛實驗模擬,結果表明MMA方法較好,且通過Hansen的模擬實驗表明JMA與MMA方法在同方差問題中效果差距不大,所以本文僅考慮如下兩個估計:
(1) Mallows模型平均(MMA);
(2)本文所提方法.



圖1 a=0.5,ei~N(0,1),n、M不同時,CQMA、MMA方法的風險對比圖
圖1表明,當樣本容量增大,候選模型增多時CQMA方法與MMA方法的預測精度差距縮小.總體而言CQMA方法優(yōu)于MMA方法.
當所有預測候選模型都可能是錯誤指定的情況,使用復合分位數(shù)方法估計子模型,用最小二乘來選擇各子模型的權重.嵌套模型中回歸變量的不同排序會影響估計效果,本文采用的方法在一定條件下優(yōu)化了估計效果,并在一定正則條件下,證明了該方法具有漸近最優(yōu)性.最后的數(shù)值實驗結果驗證了模型的優(yōu)良性.