迭代的穩健超高維變量篩選

2018-03-21 09:20:35何曉群馬學俊

統計與決策 2018年1期

何曉群，馬學俊

（1.安康學院數學與統計學院，西安 725000；2.中國人民大學應用統計科學研究中心,北京100872；3.北京工業大學應用數理學院,北京 100124）

0 引言

隨著科學技術的發展，超高維數據越來越多出現在遺傳、基因芯片、磁共振成像、信用評分等領域。由于計算成本、統計精度和算法穩定性等原因，傳統的處理高維的方法表現并不理想。為此，Fan和Lv(2008)[1]基于Pearson相關系數提出SIS(Sure Independent Screening)。但SIS也存在明顯的缺點：（1）不能刻畫自變量和因變量非線性的關系；（2）對異常值比較敏感。這個問題最早由Garher和Guddat在討論Fan和Lv(2008)[1]的SIS文章討論中提出，即SIS對于模型假設和異常值(Outliers)不穩健。SIS自2008年提出，目前已從線性模型推廣到廣義線性模型、可加模型、變系數模型和模型釋放(Model-free)等(Fan等2009,2010,2011,2014；Liu等2014)[2-6]。本文主要研究模型釋放的超高維變量篩選。

模型釋放不需要假設具體模型。Zhu等(2011)[7]提出SIRS研究了模型假設的釋放，其通過離散化Y實現釋放模型假設的效果。Li和Wei等(2012)[8]基于距離相關系數提出DC-SIS，該方法釋放了模型的假設，并且也適合組變量的變量篩選。Li等(2012)[9]基于Kendall相關系數提出RRCS(Robust Rank Correlation Screening)，該方法對于厚尾分布、離群點和強影響點具有一定的抵抗力。Shao和Zhang(2014)[10]基于鞅差距離(Martingle Difference Correlation)提出MDC-SIS方法。Ma和Zhang(2016)[11]基于分位數相關系數(Quantile Correlation)提出一種新的方法(QC-SIS)。如果不重要的自變量和重要的自變量高度相關，而其他重要變量和因變量的關系比較弱時，或者存在某一些自變量單獨對因變量的影響不大，而他們聯合起來對因變量影響比較顯著；那么前面提到方法將不能勝任。Fan和Lv(2008)[1]提出迭代的SIS方法，即ISIS，但它不能解決自變量和因變量之間的非線性，且對異常值比較敏感。Zhu等(2012)[4]提出迭代的SIRS，即ISIRS。該方法可以解決非線性問題和異常值問題，但利用對數據的信息利用不充分。Zhong和Zhu(2014)[12]提出迭代(Iterative)的DC-SIS，即DC-ISIS。該方法對于異常值比較敏感。如何更加有效的利用數據，實施迭代穩健的超維高模型釋放變量篩選方法是目前研究的熱點和難點。

本文在Ma和Zhang(2016)[11]的研究基礎上提出迭代(Iterative)的QC-SIS，即QC-ISIS。相比ISIS，提出的方法更穩健，并且可以刻畫自變量和因變量的非線性關系。相比ISIRS和DC-ISIS，提出的方法更加有效。因為QC-ISIS充分利用了數據的信息，即不僅利用了因變量的離散信息和自變量信息，也利用了因變量的分位數信息。而DC-ISIS利用距離相關系數，對異常值不穩健。

1 方法

1.1 基于分位數相關系數的變量篩選

假設Y是因變量，X=(X1,X2,…,Xp)T是p維自變量。F(y|x)=P(Y|X=x)表示給定x下X1的條件分布。為了方便，作下記號：

A={k,F(y|x)依賴于Xk}

I={k,F(y|x)不依賴于Xk}

Ma和Zhang(2016)[11]利用分位數相關系數提出的QC-SIS是求下面集合：

={1≤k≤p,排在最靠前面的d個}

其中d=[n/log(n)]或n-1等([a]表示是a的整數部分)，wk的定義是：

其中假設Xk已經標準化，即均值為0，方差為1。0＜τ1≤τ2≤…≤τn＜1是分位點，一般設

1.2 迭代的QC-SIS

與Zhu等(2011)[7]和Zhong和Zhu(2014)[12]類似，本文采用下面迭代算法：給定d。

第一步：利用QC-SIS得到選擇前p1＜d個自變量集合，記為1；對應的自變量集合記為XA1。第二步：使用下面方法得到新的自變量：

第三步：重復第二步可以得到3、4等，直到d=||1||+||2||+ … +||||。其中 ||H||表示H的條件數。或者說d=p1+p2+…+pL。

需要注意的是：

（1）d一般是事前給定的，如[n/log(n)]。

（2）QC-ISIS之所以可以解決重要變量和因變量的關系比較弱或者聯合自變量變量篩選問題，因為第二步中對自變量進行了變換使得信息不會重復，即與是正交的，因為：

（3）L的選擇具有一定的主觀性。Zhu等(2011)[7]認為L=2且p1=d/2；Zhong和Zhu(2014)[12]建議L=2且p1=5。本文在模擬試驗和實例分析中采用前一個準則。

2 Monte Carlo模擬

本文將通過數值模擬評價QC-ISIS的效果。設置d=[n/log(n)]，n=200，p=2000，重復模擬1000次。為了評價QC-ISIS與ISIS、ISIRS、DC-ISIS以及它們的非迭代方法，使用如下指標：

（1）Bj表示給定d包含Xj被選中的比例。

（2）B表示給定d所有顯著自變量全部被選中的比例。

例1：與Fan和Li（2008）[1]，以及Zhu等（2011）[7]類似，考慮如下的線性模型：

其中β=2-U且U是來自于(0,1)區間的均勻分布。σ=0.5 ，X～N(0,Σ),Σ=(σij)。其中（1）σii=1，i=1,2,i≠j。ε來自于如下兩種分布：標準正態分布和自由度為3的t分布。為了比較8種方法對于異常值的敏感程度，本文在自變量X1上隨機添加r百分比例的異常值

從表 1和表 2，可以看出：（1）QC-SIS、SIS、SIRS和DC-SIS對于X1、X2和X3的效果很好，但對于X4均失效。而QC-ISIS、ISIS、ISIRS和DC-ISIS對X1、X2、X3和X4效果都很好。（2）對于自變量X1、X2和X3的識別，迭代的方法仍優于非迭代的方法。其主要原因是第一步沒有選出的，往往第二步可能被選出。（3）SIS、DC-SIS、ISIS和DC-ISIS對異常值比較敏感，而QC-SIS、SIRS以及它們的迭代方法對于異常值有一定的穩健性。（4）無論是否存在異常值時，QC-SIS表現都很好，均優于其他方法。綜合來看，QC-ISIS表現優于ISIS、ISIRS和DC-ISIS。

表1 例1正態分布下的模擬結果

表2 例1 t(3)分布下的模擬結果

例2：與Zhu等(2011)[7]類似，考慮如下的轉換模型：

為了在自變量X1上隨機添加r百分比例的異常值其設置與例1一樣。

從表3和表4（見下頁）可以看出：（1）SIS、DC-SIS以及它們的迭代算法不適合轉換模型，對異常值比較敏感。（2）對于單個自變量的判斷，QC-SIS優于SIRS。（3）對于迭代的算法，QC-ISIS顯著優于ISIRS。而非迭代時，它們的差距不會超過5%，而迭代方法幾乎超過10%。綜合來看，對于轉換模型，QC-ISIS最好，ISIRS其次，ISIS最差。

3 結論

本文研究了迭代的QC-SIS。它可以解決不重要的自變量和重要的自變量高度相關，而其他重要變量和因變量的關系比較弱；或存在某一些自變量單獨對因變量的影響不大，而他們聯合起來對因變量影響比較顯著等問題。從模擬的線性模型和轉換模型結果來看，QC-ISIS優于ISIS、ISIRS和DC-ISIS。

表3 例2正態分布下的模擬結果

表4 例2 t(3)下的模擬結果

[1]Fan J,Lv J.Sure Independence Screening for Ultrahigh Dimensional Feature Space[J].Journal of the Royal Statistical Society,Ser.B,2008,70(5).

[2]Fan J,Samworth R,Wu Y.Ultrahigh Dimensional Feature Selection:Beyond the Linear Model[J].Journal of Machine Learning Research,2009,(10).

[3]Fan J,Song R.Sure Independence Screening in Generalized Linear Models With NP-dimensionality[J].The Annals of Statistics,2010,38(6).

[4]Fan J,Feng Y,Song R.Nonparametric Independence Screening in Sparse Ultra-high-dimensional Additive Models[J].Journal of the American Statistical Association,2011,106(494).

[5]Fan J,Ma Y,Dai W.Nonparametric Independence Screening in Sparse Ultra-high-dimensional Varying Coefficient Models[J].Journal of the American Statistical Association,2014,109(507).

[6]Liu J,Li R,Wu S.Feature Selection for Varying Coefficient Models With Ultrahigh-dimensional Covariates[J].Journal of the American Statistical Association,2014,109(505).

[7]Zhu L,Li L,Li R,et al.Model-free Feature Screening for Ultrahigh Dimensional Data[J].Journal of the American Statistical Association,2011,106(496).

[8]Li R,Wei Z,Zhu L.Feature Screening via Distance Correlation Learning[J].Journal of the American Statistical Association,2012,107(499).

[9]Li G,Peng H,Zhang J,et al.Robust Rank Correlation Based Screening[J].The Annals of Statistics,2012,40(3).

[10]Shao X,Zhang J.Martingale Difference Correlation and Its Use in High Dimensional Variable Screening[J].Journal of the American Statistical Association,2014,109(507).

[11]Ma X,Zhang J.Robust Model-free Feature Screening via Quantile Correlation[J].Journal of Multivariate Analysis,2016,(143).

[12]Zhong W,Zhu L.An Iterative Approach to Distance Correlation-based Sure Independence Screening[J].Journal of Statistical Computation and Simulation,2015,85(11).