陳江鵬 彭 斌 文 雯 唐小靜 文小焱 胡 珊
重慶醫科大學公共衛生與管理學院衛生統計與信息管理教研室(400016)
微陣列數據中的先驗信息對基于LASSO變量選擇方法影響的模擬研究*
陳江鵬 彭 斌△文 雯 唐小靜 文小焱 胡 珊
重慶醫科大學公共衛生與管理學院衛生統計與信息管理教研室(400016)
目的 探討微陣列數據中的先驗信息對基于LASSO變量選擇方法的影響。方法 設置真實模型后,逐步融合先驗信息,采用R、MATLAB軟件編程,模擬比較先驗信息對LASSO,group LASSO(簡稱為gLASSO)中的non-overlap group LASSO(簡稱為nogLASSO)和overlap group LASSO(簡稱為ogLASSO)變量選擇的影響。結果 經典的LASSO、ogLASSO變量選擇方法在處理模擬微陣列數據時具有較好的預測精度(AUCLASSO=0.8915≈AUCogLASSO=0.8923> AUCnogLASSO=0.8396,MSEnogLASSO=0.1358>MSEogLASSO=0.0975≈MSELASSO=0.0928),LASSO可解釋性最強(平均入選模型基因數分別為21.52、111.95、101.01)。nogLASSO在處理基因通路信息時,當[X295]被錯分至第19個通路后,盡管未改變其效應值,但入選模型次數大為減少,預測精度下降較為明顯,而ogLASSO表現更穩健。結論 融合微陣列數據中的先驗信息并未提高基于LASSO變量選擇方法的預測性能及效率,經典的LASSO變量選擇方法仍為處理微陣列數據的有效方法。
變量選擇 LASSO算法 模擬
隨著計算機計算能力和速度的大幅提升,Tibshirani提出的LASSO(Least Absolute Shrinkage and Selection Operator)變量選擇方法[1]因其良好的預測精度和可解釋性已廣泛應用于高維數據分析。
LASSO估計最大的優點在于它是一種連續收縮的正則化估計,能準確地篩選出重要的變量,并能給出系數的估計,一些相關度較低的變量系數直接壓縮為0,能同時達到變量選擇和參數估計的目的,同時具有子集選擇和嶺回歸的優點。Efron等提出的LARS[2]很好地解決了LASSO的計算問題,使LASSO方法廣為流行。
1.模擬數據
從京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)下載6個基因通路圖,采用R軟件對基因通路圖進行調整并構造基因網絡。調整后基因網絡中包含K=19個基因通路,p=35個基因,模擬時,樣本量取n=100。
模擬數據由以下方式生成:
z=α+x1β1+x2β2+…+xpβp+ε
其中:預測變量xj服從正態分布xj~N(0,1);ε為誤差噪聲且與自變量獨立,ε~N(0,1)。β=(β1,β2,…,β315)T是一個p=315維稀疏參數向量,即僅部分系數為非零;z為潛變量。從中選取8個基因:第2個通路中[X26,X31],第6和7個通路的重疊基因[X85],第14通路中[X217,X221],第18通路中[X286,X291,X295],設定為差異表達,即這些基因為致病基因,其效應大小分別設置為:β26=β31=4.0,β85=4.0,β217=β221=6.0,β286=β291=β295=3.0。其他基因效應設置為0,固定α=-3.0。
在基因表達數據中,響應變量常為二分類變量(如疾病狀態等),其與潛變量關系定義為[6]:
模擬數據隨機分為訓練集(75%)和測試集(25%),訓練集用于估計和選擇重要變量(即構造模型),測試集用于評估模型的預測能力。實驗重復100次以避免模擬數據不穩定性對變量選擇結果的影響。
2.分析方法
(1)LASSO方法
忽略微陣列數據的基因通路結構,直接采用LASSO方法對數據進行分析。采用R軟件(R3.1.0,http://www.r-project.org)“glmnet”包[7]完成,LASSO的協調參數λ使用10折交叉驗證獲得。
(2)nogLASSO方法
融合基因通路信息,忽略通路間重疊基因,采用nogLASSO方法對數據進行分析。采用R軟件“gglasso”包完成,nogLASSO的協調參數λ使用10折交叉驗證獲得。基因通路設置包括兩種情景,情景1:按照真實通路分組信息進行設置,[X295]僅位于第18通路;情景2:將[X295] 錯誤分組至第19通路,[X295]僅位于第19通路。
(3)ogLASSO方法
融合基因通路信息及通路間重疊基因,采用ogLASSO方法對數據進行分析。采用MATLAB軟件“SLEP”工具箱完成,ogLASSO的協調參數λ使用計算機自動生成λmax與人工輸入λ之比。基因通路及重疊基因設置包括三種情景,情景1、2同前;情景3:將[X295]保留在第18通路的同時錯誤分組至第19通路,[X295]同時位于第18、19通路即為重疊基因。
3.評價指標
基于LASSO變量選擇方法篩選差異表達基因結果比較見表1。所有結果均為每個模型分析100個模擬數據集后的平均結果。從表1可見,LASSO變量選擇模型最為稀疏,平均每次篩選時僅僅識別21.52個基因,而gLASSO平均選擇基因數均大于100。
預測精度方面,從AUC和MSE上看,LASSO模型均為最優(AUC=0.8915;MSE=0.0928),ogLASSO與之接近;從平均正確選擇次數上看,LASSO仍表現良好,平均正確選擇次數達到98次,nogLASSO與之接近。
從表1可以看出,當使用nogLASSO時,一旦某一基因被錯分至另一通路,盡管未改變效應值,[X295]選中次數大幅減少。而使用ogLASSO時,[X295]選中次數降幅不大,其預測精度和可解釋性較nogLASSO更為穩健。
基于LASSO變量選擇方法篩選差異表達基因時,每個基因入選模型次數如圖1~3所示。
*:括號內標注為該方法模擬情景序號。
本研究使用模擬數據,在設置真實模型的基礎上,探討微陣列數據中的先驗信息對基于LASSO變量選擇方法的影響,并從預測精度和可解釋性兩大方面評價其結果。本研究不僅橫向對比LASSO,nogLASSO,ogLASSO三種方法在處理微陣列數據時的優劣,而且通過調整其中某一基因([X295])位置,試圖探討錯誤的先驗信息對基于LASSO變量選擇方法的影響,并考察模型的穩定性。
一種算法預測精度高往往很難具有較好的可解釋性。然而使用三種基于LASSO變量選擇方法比較處理微陣列數據后發現,經典的LASSO回歸模型具有較好的預測精度、可解釋性以及泛化性能,不需使用任何先驗信息可以直接使用標準化數據進行分析,不失為篩選差異表達基因的有效方法。實際分析處理基因表達數據時,盡管某種疾病的致病基因數往往較少,但實際工作中收集樣本較困難加之基因芯片價格昂貴,因此,LASSO仍需要突破不能處理差異表達基因個數大于樣本量情況的限制。此外,在處理高維小樣本數據集時,LASSO具有凸優化的性質,在構建線性回歸模型時過于嚴格,容易出現過擬合問題,也是改進的角度之一。我們還注意到使用LASSO(R軟件“glmnet”包)進行變量選擇速度非常快。“glmnet”包的運行速度與預測變量、協變量以及入選模型的協變量個數呈線性關系,因此較適用于高維數據分析[9]。
盡管nogLASSO能夠同時選擇基因和通路,但根據選擇結果我們可以看到所選通路均為包含差異表達基因的通路,認為整個通路基因均差異表達,盡管較符合生物學解釋,但實際意義并不大。從生物學角度上講,差異表達基因與所在通路的其他基因勢必存在相互調控的關系,若能直接篩選出差異表達基因也可推導出此結論,nogLASSO預測性能較差原因可能在于此。從平均正確選擇基因次數上看,其表現與LASSO接近,但平均選擇基因數顯著大于LASSO,因此,正確選擇基因次數較高可以歸因于入選模型基因數大大增加。
從ogLASSO篩選結果上看,與差異表達基因所在同一通路的其他基因會受到該基因較大影響,入選模型次數大幅增加,但較nogLASSO有明顯改進。盡管未改變效應值,將錯誤分至第19通路時,從選中次數和圖2、3中可以發現,nogLASSO在篩選差異表達基因時受給定的通路信息影響較大。ogLASSO較nogLASSO更為穩健,其預測精度也較好,因此,可以使用其作為篩選差異表達基因的常規方法,但當通路中包含基因過多時,gLASSO構造模型不再具有稀疏性,需在此方面進行改進。
盡管融合了微陣列數據中的先驗信息,但從實驗結果上看到,預測精度以及可解釋性并未隨著融合信息的增多而更優,尤其是當某一位點基因被錯分至另一通路時,盡管未改變其效應值,但入選模型次數大為減少,預測精度下降較為明顯,入選模型的基因群中也包含了大量實際并無關聯的基因。在基于LASSO變量選擇方法中,先驗信息(如通路、重疊基因)的使用并未使預測性能等方面得到改進,經典的LASSO變量選擇方法仍為處理微陣列數據的有效方法。
LASSO依賴于線性模型,盡管本研究發現LASSO能夠較為準確地篩選差異表達基因,但在分析多基因遺傳病時基因之間關系很可能為非線性。因此,有必要繼續開發不同的基因數據分析方法,同時與以往方法進行比較研究,但需要注意的是,在改進方法時既要考慮到融合先驗信息,更重要的是其預測精度和效率的提高。
[1]Tibshirani R.Regression Shrinkage and Selection via the Lasso.Journal of the Royal Statistical Society,1996,58(1):267-288.
[2]Efron B,Hastie T,Johnstone I,et al.Least angle regression.Journal of the Institute of Mathematical Statistics,2004,32(2):407-499.
[3]Yuan M,Lin Y.Model selection and estimation in regression with grouped variables.Journal of the Royal Statistical Society:Series B (Statistical Methodology),68:49-67.
[4]Liu J,Ye JP.Fast Overlapping Group Lasso.CoRR abs/1009.0306.
[5]張秀秀,王慧,田雙雙,等.高維數據回歸分析中基于LASSO的自變量選擇.中國衛生統計,2013,30(6):922-926.
[6]Albert JH,Chib S.Bayesian analysis of binary and polychotomous response data.Journal of the American Statistical Association,1993,88(422):669-679.
[7]Friedman J,Hastie T,Tibshirani R.Regularization paths for generalized linear models via coordinate descent.Journal of Statistical Software,2010,33:1-22.
[8]James G,Witten D,Hastie T,et al.An introduction to statistical learning with applications in R.America:Springer Press,2013.
[9]Motyer AJ,McKendry C,Galbraith S,et al.LASSO model selection with post-processing for a genome-wide association study data set.BMC Proceedings,2011,5(9):1-4.
(責任編輯:郭海強)
Influence of Prior Information of Microarray Data on Variable Selection Based on LASSO:A Simulation Study
Chen Jiangpeng,Peng Bin,Wen Wen,et al
(Department of Health Statistics and Information Management,School of Public Health and Management,Chongqing Medical University(400016),Chongqing)
Objective Objective To explore the influence of prior information of microarray data on variable selection based on LASSO.Methods After setting the true model,we incorporated prior information into LASSO,non-overlap group LASSO(nogLASSO for short)and overlap group LASSO(ogLASSO for short) variable selection models and compared the influence by MATLAB or R software.Results LASSO、ogLASSO models seemed to have good prediction accuracy when processing microarray data(AUCLASSO=0.8915≈AUCogLASSO=0.8923> AUCnogLASSO=0.8396,MSEnogLASSO=0.1358>MSEogLASSO=0.0975≈MSELASSO=0.0928),while only LASSO achieved a interpretable model(The average of genes selected in the models:21.52、111.95、101.01 respectively).When [X295] was misclassified into 19th pathway,the average of genes selected in the models decreased and the forecast precision declined by nogLASSO model,while ogLASSO model's performance seemed to be more robust.Conclusion Incorporating prior information of microarray data does not improve the prediction performance and efficiency of variable selection based on LASSO,therefore the simple LASSO regression model may be an efficient means to deal with microarray data.
Variable selection; Least Absolute Shrinkage and Selection Operator; Simulation
國家自然科學基金(81373103),重慶市科委基礎與前沿研究計劃項目(cstc2013jcyjA10009)
△ 通信作者:彭斌,E-mail:pengbin@cqmu.edu.cn