





摘要:針對變系數模型的平均問題,采用一種新的半參數建模策略,即通過輪換連續變量作為指標變量的方式構建一系列非嵌套的候選模型.基于復合分位數回歸估計候選模型,運用棄一交叉驗證準則選擇權重進行模型平均預測.模擬研究表明該方法具有更好的有限樣本性質,最后將該方法應用到Boston住房數據,進一步說明其準確性和有效性.
關鍵詞:復合分位數回歸;模型平均;變系數模型
中圖分類號:O212.1"" 文獻標志碼:A" 文章編號:2095-6991(2025)01-0029-06
Average of Variable Coefficient Models Basedon Compound Quantile Regression
TAN Rong
(School of Mathematical Sciences, Chongqing Normal University, Chongqing 401331, China)
Abstract:To address the problem of averaging variable coefficient models, a new semi-parametric modeling strategy is used, i.e., a series of non-nested candidate models are constructed by rotating continuous variables as indicator variables. The candidate models are estimated based on composite quantile regression, and the discard-one cross-validation criterion is applied to select weights for model averaging prediction. A simulation study demonstrates the better finite-sample nature of the method, and finally the method is applied to Boston housing data to further illustrate its accuracy and validity.
Key words:composite quantile regression; model average; varying coefficient model
0 引言
分位數回歸是數據分析中的一個重要課題,其廣泛應用于經濟學、金融學、社會學、醫學等方面.分位數回歸最早由KOENKER R和BASSETT G[1]于1978年基于最小絕對偏差值估計方法提出,將中位數回歸估計方法進一步延伸至分位數回歸.相比于最小二乘估計方法,分位數回歸可以估計響應變量的任意分位點,以及對于異常值或厚尾分布的數據更穩健.但是分位數回歸結果會因為分位值選取的不同而受到影響,使得估計效率不穩定,于是在分位數回歸的基礎上,ZOU H等[2]提出了復合分位數回歸(CQR),該方法綜合了多個分位數回歸的信息,能夠顯著提高模型的估計效率.
近年來基于復合分位數回歸的研究已有很多,YANG H等[3]基于復合分位數回歸,考慮了變系數模型在異方差情況下的穩健變量選擇.GUO C H等[4]利用加權復合分位數估計與 SCAD 懲罰函數實現了變系數模型的穩健變量選擇.PIETROSANU M等[5]則結合復合分位數回歸與組 Lasso 來討論變系數模型的穩健變量選擇問題.聶黎雯[6]基于復合分位數回歸提出了一種穩健且有效來解決變系數模型的變量選擇和結構識別問題的方法.
然而,上述大多都是基于復合分位數變量選擇的研究,而變量選擇通常是通過處理已有的數據得出一個最終模型,再用這個模型進行預測,這忽略了模型的不確定性,而模型平均作為一種建模技術,考慮到所有的潛在模型,并為每個模型分配一定的權重,這恰好在一定程度上彌補了變量選擇的缺陷.在HJORT L N等[7]以及HANSEN E B[8]的開創性貢獻的啟發下,對頻率模型平均(FMA)的研究活動激增.而大多數FMA的研究都專注于參數模型,但任何參數模型都有其局限性,可能導致有偏的預測.非參數模型是靈活的,但它在解釋變量較多的時候容易造成“維數災難”,而半參數模型在靈活性和效率之間取得了平衡,減弱了維數災難.
變系數模型是目前應用較廣泛的一類半參數模型,ZHU R等[9]研究了變系數部分線性模型的Mallows模型平均,并證明了其漸近最優性.LI C等[10]考慮了變系數是連續變量和分類變量函數時的Mallows模型平均過程,并提供理論基礎.曾婕等[11]探討了如何在響應變量隨機缺失的情況下,進行部分線性變系數模型的模型選擇和模型平均.LI J L等[12]提出了一種新的半參數模型平均預測(SMAP)方法,并將SMAP與AdaBoost算法相結合,獲得更準確的模型平均權重估計.
以上研究大多基于最小二乘估計,而最小二乘估計是不穩健的.于是在分位數回歸的框架下,LU X等[13]介紹了Jackknife模型平均程序,并進一步證明了其在最小化樣本外預測誤差方面的漸近最優性;WANG M M等[14]提出了高維協變量分位數回歸的一種頻率模型平均,并證明了基于所提出的Jackknife權重選擇方法的FMA估計的漸近最優性,可以看作是LU X等[13]工作的擴展.為了提高估計的有效性,BLOZNELIS D等[15]研究了模型平均方法和CQR相結合的估計效率;DING X W等[16]探究了在協變量隨機缺失的情況下基于CQR的JMA估計.
到目前為止,基于復合分位數回歸的模型平均的討論是比較有限的.本文基于復合分位數回歸的穩健性以及Jackknife模型平均方法的有效性,研究了變系數模型的模型平均預測問題,并且在構建候選模型時,選取不同的指標變量構建一系列非嵌套的變系數候選模型,使得每個連續變量都有機會作為指標變量,從而得到更準確的預測.
1 模型及估計方法
設Y為響應變量,X為p維協變量,其中X1,…,Xp1為連續變量,Xp1+1,…,Xp為離散變量,用QτY|X表示給定X的Y的第τ個分位數,設{(XTi,Yi),1≤i≤n}是來自(XT,Y)的樣本,基于此樣本構造QτY|X的預測.
下面介紹基于半參變系數模型的復合分位數預測.由于變系數模型中指標變量的選擇在某些情況下可能是困難的,并且錯誤地選擇指標變量可能會由于誤設定而導致有偏差的預測,因此,對于每個連續型解釋變量,將其作為指標變量,建立變系數模型,并基于該模型構造預測值,然后將所得預測值的加權平均值作為最終預測值.
將連續型解釋變量X1,…,Xp1依次作為指標變量,構建p1個非嵌套的變系數候選模型,其中第s個候選模型為
Yi=μ(s),i+ε(s),i=XTisβ(s)(Xis)+ε(s),i,i=1,…,n,s=1,…,p1,[JY](1)
其中:Yi為響應變量;指標變量Xis是Xi的第s個分量;Xis是Xi去掉第s個分量后的p-1維協變量;β(s)Xis=β(s),1Xis,…,β(s),p-1XisT是p-1維未知函數向量;ε(s),i為第s個近似模型的誤差.
下面估計每個候選模型.
類似文獻[17],本文采用B樣條基函數來近似未知函數向量.具體來說,令B·=B1·,…,Bqn·T為l+1階B樣條基函數,其中qn=kn+l+1是基函數的個數,kn為內節點個數,則每個函數系數β(s),jXis可以近似表示為如下形式:
β(s),j(Xis)≈∑qnm=1γ(s),jmBm(Xis)=BT(Xis)γ(s),j,i=1,…,n,j=1,…,p-1, (2)
其中,γ(s),j=(γ(s),j1,…,γ(s),jqn)T為樣條系數向量.根據式(2),模型(1)可近似為
Yi≈∑p-1j=1∑qnm=1X(s),ijγ(s),jmBm(Xis)+ε(s),i,i=1,…,n,(3)
可改寫為
Yi≈πT(s),iγ(s)+ε(s),i,i=1,…,n,(4)
其中,π(s),i=Ip-1B(Xis)·Xis,Ip-1是p-1×p-1的單位矩陣.
接著通過復合分位數回歸估計方法求解γ(s).對于給定的K,令τk=k/(K+1),其中k=1,2,…,K,通過最小化目標函數得到γ(s)的估計值γ∧(s),
(c∧(s),τ1,…c∧(s),τk,γ∧(s))=argminc(s),τ1,…,c(s),τk,γ(s)∑Kk=1∑ni=1ρτk(Yi-πT(s),iγ(s)-c(s),τk),(5)
c(s),τk為隨機誤差ε(s)的τk分位點.則在τk分位點處,第s個模型的估計值為
Q∧(s),τk=πT(s),iγ∧(s)+c∧(s),τk.(6)
現考慮模型平均方法得到的估計值.設第s個候選模型估計值的權重為ws,令w=(w1,…,wp1)T為權重向量,且滿足條件W={w∈[0,1]p1:∑p1s=1ws=1},則在τk分位點處,p1個模型平均估計為
Q∧τk=∑p1s=1wsQ∧(s),τk=∑p1s=1ws(πT(s),iγ∧(s)+c∧(s),τk).(7)
2 權重選擇
式(7)中的權重ws對于預測的成功起著關鍵的作用,而權重通常是未知的,需要進行選擇.本文應用棄一交叉驗證準則來選擇模型的權重.對于s=1,…,p1,設(c∧(s),τ1i,…c∧(s),τki,γ∧(s),i)是第s個模型刪除第i個觀測值的復合分位數估計,則棄一交叉驗證準則被定義為
CVn(w)=1nK∑ni=1
∑Kk=1ρτkYi-∑p1s=1ws(πT(s),iγ∧(s),i+c∧(s),τki).(8)
最小化CVn(w),從而得到權重向量
w∧=(w∧1,…,w∧p1)T,
即
w∧=argminw∈W CVn(w).(9)
最小化目標函數式(8)時,可以引入松弛變量對函數進行優化,從而轉化為如下線性規劃問題:
minw,ξ+,ξ-1nK∑Kk=1∑ni=1[τkξ+ik+(1-τk)ξ-ik],(10)
∑p1s=1ws(πT(s),iγ∧(s),i+c∧(s),τki)+
ξ+ik-ξ-ik=Yi,i=1,…,n,
ξ+ik≥0,ξ-ik≥0,k=1,…,K,
∑p1s=1ws=1,0≤ws≤1,s=1,…,p1,
這里ξ+={ξ+ik:k=1,…,K}和ξ-={ξ-ik:k=1,…,K}是正松弛變量和負松弛變量.故最小化函數(8)的問題被轉換為函數(10),這種線性規劃可以在R軟件中實現.
3 隨機模擬
在本節中,通過模擬研究所提出的方法的有限樣本性質.將以下5種方法進行比較:
(1)等權重的模型平均估計(每個模型設置相等的權重,記為EW,權重為:ws=1/p1,s=1,2,…,p1);
(2)平滑AIC模型平均估計(S-AIC);
(3)平滑BIC模型平均估計(S-BIC);
(4)聶黎雯[6]所提出的基于SCAD懲罰函數的變系數模型復合分位數估計(PCQR);
(5)本文所提的基于Jackknife準則的模型平均估計(JMA).采用其他模型平均方法進行預測時,候選模型的建立與本文一樣.
根據文獻[18],定義S-AIC和S-BIC的權重估計分別為
wS-AICs=exp(-AICs/2)[]∑p1s=1exp(-AICs/2),
wS-BICs=exp(-BICs/2)[]∑p1s=1exp(-BICs/2),
這里AICs和BICs分別為
AICs=2nKlog1nK∑ni=1∑Kk=1ρτk(Yi-πT(s),iγ∧(s)-c∧(s),τk)+2(p-1+K),
BICs=2nKlog1nK∑ni=1∑Kk=1ρτk
(Yi-πT(s),iγ∧(s)-c∧(s),τk)+(p-1+K)log(nK).
數據來源于以下變系數模型:
Yi=αXi1+XTi4β1Xi4+XTi5β2Xi5+εi,i=1,…,n,(11)
其中,
αu=u1-u,
β1u=2+u2/1+u2,u,0p-3T,
β2u=2sin2πu[]
2-cos2πu,
exp-0.5u2,1,-1,0p-5T,
這里0k是各分量均為0的k維行向量.
Xi1,…,Xip是來自于U-2,2的獨立同分布隨機變量,隨機誤差εi由下式生成,
εi=0.5sin2Xi1+cos2Xi2+0.5ei.
同時,從以下3種不同的分布生成ei:
(1)標準正態分布:N0,1;
(2)自由度為3的t分布:t3;
(3)混合正態分布MN:0.95N0,1+005N0,25.
由于K的選取會影響復合分位數的估計值,根據GUO J等[19]的建議,當Kgt;5時,所得的估計值較為穩定,因此本文選取K=9.
為了驗證所提方法的有效性,利用模型(11)隨機生成n=200,300的訓練集和ntest=100的測試集.本文利用訓練集估計每個候選模型的系數和權重,用測試集來評估模型的外預測能力,使用最終預測誤差(FPE,或平均分位數預測誤差)來評估模型平均預測的準確性,其定義為
FPE=1ntestK∑ntesti=1∑Kk=1ρτk
Yi-∑p1s=1w∧s(πT(s),iγ∧(s)+c∧(s),τk).
重復模擬200次,所得結果如表1所列.
表1的結果表明,在正態、厚尾和異常的情況下,本文所提模型平均方法產生的FPE比其他方法產生的FPE都要小,說明本文所提方法具有最佳的樣本外預測性能;另外,隨著樣本容量的增加,本文所提方法仍然會產生最小的FPE,且FPE隨樣本容量的增加而逐漸減小,說明增加樣本量會使得估計結果更加精確.
4 實證分析
在本節中,使用模擬研究中提到的每種方法和常用的基于變系數模型的方法來分析Boston住房數據,并評估預測的準確性.數據可在R程序包mlbench中免費獲取,該數據集包含波士頓地區在1970年人口普查收集到的506條房價信息.本文變量的選取與具體設置如表2所列.
在進行分析之前,對每個連續變量進行標準化處理,使其均值為0,方差為1,K的取值與隨機模擬中保持一致,取K=9.如果采用基于單一變系數模型的方法進行復合分位數預測,則10個連續協變量中的任何一個都可以是所用變系數模型中的指數變量,用VCQRi表示以Xi為指標變量的基于變系數模型的方法.采用PCQR方法時,類似以往研究分析波士頓住房數據時常用的變系數模型,將變量LSTAT固定為指標變量,對其他協變量進行變量選擇.
采用基于變系數模型的復合分位數模型平均預測時,則將連續協變量X1,X2,…,X10依次作為指標變量,共構造10個變系數候選模型.對于每個候選模型,利用復合分位數回歸估計求解,應用各模型平均方法進行預測,為了檢查每種方法的預測能力并對不同的方法進行比較,將數據集隨機劃分為容量為n的訓練集和大小為ntest的測試集.其中將306個數據作為訓練集來估計候選模型的權重,剩余的200個數據則作為測試集來計算每種方法的平均分位數預測誤差,驗證模型的外預測能力.
重復上述過程200次,并計算每種方法獲得的200個FPE的平均值.其中FPE定義為
FPE=1200K∑200i=1∑Kk=1ρτk
Yi-∑p1s=1w∧s(πT(s),iγ∧(s)+c∧(s),τk).
具體結果如表3所列.
參考文獻:
[1] KOENKER R,BASSETT G.Regression quantiles[J].Econometrical,1978,46(1):33-50.
[2] ZOU H,YUAN M.Composite quantile regression and the oracle model selection theory[J].Annals of Stats,2008,36(3):1108-1126.
[3] YANG H,LV J,GUO C H.Weighted composite quantile regression estimation and variable selection for varying coefficient models with heteroscedasticity[J].Journal of the Korean Statistical Society,2015,44(1):77-94.
[4] GUO C H,YANG H,LV J.Robust variable selection in high-dimensional varying coefficient models based on weighted composite quantile regression[J].Statistical Papers,2017,58(4):1009-1033.
[5] PIETROSANU M,GAO J Y,KONG L L,et al.Advanced algorithms for penalized quantile and compo-site quantile regression[J].Computational Statistics,2021,36(1):333-346.
[6] 聶黎雯.變系數模型的穩健變量選擇與結構識別[J].蘭州文理學院學報(自然科學版),2022,36(4):15-19.
[7] HJORT L N,CLAESKENS G.Frequentist model average estimators[J].Journal of the American Statistical Association,2003,98(464):879-899.
[8] HANSEN E B.Least squares model averaging[J].Econometrica,2007,75(4):1175-1189.
[9] ZHU R,WAN K T A,ZHANG X Y,et al.A mallows-type model averaging estimator for the varying-coefficient partially linear model[J].Journal of the American Statistical Association,2019,114(526):882-892.
[10] LI C,LI Q,RACINE J S,et al.Optimal model averaging of varying coefficient models[J].Statistica Sinica,2021,28(4):2795-2809.
[11] 曾婕,程維虎,陳海清.缺失數據下部分線性變系數模型的模型平均[J].北京工業大學學報,2019,45(4):405-412.
[12] LI J L,LV J,WAN A T K,et al.Adaboost semiparametric model averaging prediction for multiple categories[J].Journal of the American Statistical Association,2022,117(537):495-509.
[13] LU X,SU L J.Jackknife model averaging for quantile regressions[J].Journal of Econometrics,2015,188(1):40-58.
[14] WANG M M,ZHANG X Y,WAN A T K,et al.Jackknife model averaging for high-dimensional quantile regression[J].Biometrics,2023,79(1):178-189.
[15] BLOZNELIS D,CLAESKENS G,ZHOU J.Composite versus model-averaged quantile regression[J].Journal of Statistical Planning or Inference,2019,200:32-46.
[16] DING X W,XIE J H,YAN X D.Model averaging for multiple quantile regression with covariates missing at random[J].Journal of Statistical Computation and Simulation,2021,91(11):2249-2275.
[17] FENG L,ZOU C L,WANG Z J,et al.Robust spline-based variable selection in varying coefficient model [J].Metrika: International Journal for Theoretical and Applied Statistics,2015,78(1):85-118.
[18] ZOU H,YUAN M.Regularized simultaneous model selection in multiple quantiles regression[J].Computational Statistics and Data Analysis,2008,52(12):5296-5304.
[19] GUO J,TANG M L,TIAN M Z,et al.Variable selection in high-dimensional partially linear additive models for composite quantile regression[J].Computational Statistics and Data Analysis,2013,65:56-67.
[責任編輯:趙慧霞]
基金項目:國家自然科學基金項目(12201091);重慶市自然科學基金面上項目(CSTB2022NSCQ-MSX0852);全國統計科學研究項目(2022LY019);重慶市教育委員會科學技術研究項目(KJQN202100526)
作者簡介:譚蓉(2000-),女,重慶云陽人,在讀碩士,研究方向為模型平均.E-mail:18223998809@163.com.