999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

微陣列數據中的先驗信息對基于LASSO變量選擇方法影響的模擬研究*

2015-01-27 10:31:04陳江鵬唐小靜文小焱
中國衛生統計 2015年3期
關鍵詞:信息方法模型

陳江鵬 彭 斌 文 雯 唐小靜 文小焱 胡 珊

重慶醫科大學公共衛生與管理學院衛生統計與信息管理教研室(400016)

微陣列數據中的先驗信息對基于LASSO變量選擇方法影響的模擬研究*

陳江鵬 彭 斌△文 雯 唐小靜 文小焱 胡 珊

重慶醫科大學公共衛生與管理學院衛生統計與信息管理教研室(400016)

目的 探討微陣列數據中的先驗信息對基于LASSO變量選擇方法的影響。方法 設置真實模型后,逐步融合先驗信息,采用R、MATLAB軟件編程,模擬比較先驗信息對LASSO,group LASSO(簡稱為gLASSO)中的non-overlap group LASSO(簡稱為nogLASSO)和overlap group LASSO(簡稱為ogLASSO)變量選擇的影響。結果 經典的LASSO、ogLASSO變量選擇方法在處理模擬微陣列數據時具有較好的預測精度(AUCLASSO=0.8915≈AUCogLASSO=0.8923> AUCnogLASSO=0.8396,MSEnogLASSO=0.1358>MSEogLASSO=0.0975≈MSELASSO=0.0928),LASSO可解釋性最強(平均入選模型基因數分別為21.52、111.95、101.01)。nogLASSO在處理基因通路信息時,當[X295]被錯分至第19個通路后,盡管未改變其效應值,但入選模型次數大為減少,預測精度下降較為明顯,而ogLASSO表現更穩健。結論 融合微陣列數據中的先驗信息并未提高基于LASSO變量選擇方法的預測性能及效率,經典的LASSO變量選擇方法仍為處理微陣列數據的有效方法。

變量選擇 LASSO算法 模擬

基于LASSO變量選擇方法簡介

隨著計算機計算能力和速度的大幅提升,Tibshirani提出的LASSO(Least Absolute Shrinkage and Selection Operator)變量選擇方法[1]因其良好的預測精度和可解釋性已廣泛應用于高維數據分析。

LASSO估計最大的優點在于它是一種連續收縮的正則化估計,能準確地篩選出重要的變量,并能給出系數的估計,一些相關度較低的變量系數直接壓縮為0,能同時達到變量選擇和參數估計的目的,同時具有子集選擇和嶺回歸的優點。Efron等提出的LARS[2]很好地解決了LASSO的計算問題,使LASSO方法廣為流行。

方 法

1.模擬數據

從京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)下載6個基因通路圖,采用R軟件對基因通路圖進行調整并構造基因網絡。調整后基因網絡中包含K=19個基因通路,p=35個基因,模擬時,樣本量取n=100。

模擬數據由以下方式生成:

z=α+x1β1+x2β2+…+xpβp+ε

其中:預測變量xj服從正態分布xj~N(0,1);ε為誤差噪聲且與自變量獨立,ε~N(0,1)。β=(β1,β2,…,β315)T是一個p=315維稀疏參數向量,即僅部分系數為非零;z為潛變量。從中選取8個基因:第2個通路中[X26,X31],第6和7個通路的重疊基因[X85],第14通路中[X217,X221],第18通路中[X286,X291,X295],設定為差異表達,即這些基因為致病基因,其效應大小分別設置為:β26=β31=4.0,β85=4.0,β217=β221=6.0,β286=β291=β295=3.0。其他基因效應設置為0,固定α=-3.0。

在基因表達數據中,響應變量常為二分類變量(如疾病狀態等),其與潛變量關系定義為[6]:

模擬數據隨機分為訓練集(75%)和測試集(25%),訓練集用于估計和選擇重要變量(即構造模型),測試集用于評估模型的預測能力。實驗重復100次以避免模擬數據不穩定性對變量選擇結果的影響。

2.分析方法

(1)LASSO方法

忽略微陣列數據的基因通路結構,直接采用LASSO方法對數據進行分析。采用R軟件(R3.1.0,http://www.r-project.org)“glmnet”包[7]完成,LASSO的協調參數λ使用10折交叉驗證獲得。

(2)nogLASSO方法

融合基因通路信息,忽略通路間重疊基因,采用nogLASSO方法對數據進行分析。采用R軟件“gglasso”包完成,nogLASSO的協調參數λ使用10折交叉驗證獲得。基因通路設置包括兩種情景,情景1:按照真實通路分組信息進行設置,[X295]僅位于第18通路;情景2:將[X295] 錯誤分組至第19通路,[X295]僅位于第19通路。

(3)ogLASSO方法

融合基因通路信息及通路間重疊基因,采用ogLASSO方法對數據進行分析。采用MATLAB軟件“SLEP”工具箱完成,ogLASSO的協調參數λ使用計算機自動生成λmax與人工輸入λ之比。基因通路及重疊基因設置包括三種情景,情景1、2同前;情景3:將[X295]保留在第18通路的同時錯誤分組至第19通路,[X295]同時位于第18、19通路即為重疊基因。

3.評價指標

結 果

基于LASSO變量選擇方法篩選差異表達基因結果比較見表1。所有結果均為每個模型分析100個模擬數據集后的平均結果。從表1可見,LASSO變量選擇模型最為稀疏,平均每次篩選時僅僅識別21.52個基因,而gLASSO平均選擇基因數均大于100。

預測精度方面,從AUC和MSE上看,LASSO模型均為最優(AUC=0.8915;MSE=0.0928),ogLASSO與之接近;從平均正確選擇次數上看,LASSO仍表現良好,平均正確選擇次數達到98次,nogLASSO與之接近。

從表1可以看出,當使用nogLASSO時,一旦某一基因被錯分至另一通路,盡管未改變效應值,[X295]選中次數大幅減少。而使用ogLASSO時,[X295]選中次數降幅不大,其預測精度和可解釋性較nogLASSO更為穩健。

基于LASSO變量選擇方法篩選差異表達基因時,每個基因入選模型次數如圖1~3所示。

*:括號內標注為該方法模擬情景序號。

討 論

本研究使用模擬數據,在設置真實模型的基礎上,探討微陣列數據中的先驗信息對基于LASSO變量選擇方法的影響,并從預測精度和可解釋性兩大方面評價其結果。本研究不僅橫向對比LASSO,nogLASSO,ogLASSO三種方法在處理微陣列數據時的優劣,而且通過調整其中某一基因([X295])位置,試圖探討錯誤的先驗信息對基于LASSO變量選擇方法的影響,并考察模型的穩定性。

一種算法預測精度高往往很難具有較好的可解釋性。然而使用三種基于LASSO變量選擇方法比較處理微陣列數據后發現,經典的LASSO回歸模型具有較好的預測精度、可解釋性以及泛化性能,不需使用任何先驗信息可以直接使用標準化數據進行分析,不失為篩選差異表達基因的有效方法。實際分析處理基因表達數據時,盡管某種疾病的致病基因數往往較少,但實際工作中收集樣本較困難加之基因芯片價格昂貴,因此,LASSO仍需要突破不能處理差異表達基因個數大于樣本量情況的限制。此外,在處理高維小樣本數據集時,LASSO具有凸優化的性質,在構建線性回歸模型時過于嚴格,容易出現過擬合問題,也是改進的角度之一。我們還注意到使用LASSO(R軟件“glmnet”包)進行變量選擇速度非常快。“glmnet”包的運行速度與預測變量、協變量以及入選模型的協變量個數呈線性關系,因此較適用于高維數據分析[9]。

盡管nogLASSO能夠同時選擇基因和通路,但根據選擇結果我們可以看到所選通路均為包含差異表達基因的通路,認為整個通路基因均差異表達,盡管較符合生物學解釋,但實際意義并不大。從生物學角度上講,差異表達基因與所在通路的其他基因勢必存在相互調控的關系,若能直接篩選出差異表達基因也可推導出此結論,nogLASSO預測性能較差原因可能在于此。從平均正確選擇基因次數上看,其表現與LASSO接近,但平均選擇基因數顯著大于LASSO,因此,正確選擇基因次數較高可以歸因于入選模型基因數大大增加。

從ogLASSO篩選結果上看,與差異表達基因所在同一通路的其他基因會受到該基因較大影響,入選模型次數大幅增加,但較nogLASSO有明顯改進。盡管未改變效應值,將錯誤分至第19通路時,從選中次數和圖2、3中可以發現,nogLASSO在篩選差異表達基因時受給定的通路信息影響較大。ogLASSO較nogLASSO更為穩健,其預測精度也較好,因此,可以使用其作為篩選差異表達基因的常規方法,但當通路中包含基因過多時,gLASSO構造模型不再具有稀疏性,需在此方面進行改進。

盡管融合了微陣列數據中的先驗信息,但從實驗結果上看到,預測精度以及可解釋性并未隨著融合信息的增多而更優,尤其是當某一位點基因被錯分至另一通路時,盡管未改變其效應值,但入選模型次數大為減少,預測精度下降較為明顯,入選模型的基因群中也包含了大量實際并無關聯的基因。在基于LASSO變量選擇方法中,先驗信息(如通路、重疊基因)的使用并未使預測性能等方面得到改進,經典的LASSO變量選擇方法仍為處理微陣列數據的有效方法。

LASSO依賴于線性模型,盡管本研究發現LASSO能夠較為準確地篩選差異表達基因,但在分析多基因遺傳病時基因之間關系很可能為非線性。因此,有必要繼續開發不同的基因數據分析方法,同時與以往方法進行比較研究,但需要注意的是,在改進方法時既要考慮到融合先驗信息,更重要的是其預測精度和效率的提高。

[1]Tibshirani R.Regression Shrinkage and Selection via the Lasso.Journal of the Royal Statistical Society,1996,58(1):267-288.

[2]Efron B,Hastie T,Johnstone I,et al.Least angle regression.Journal of the Institute of Mathematical Statistics,2004,32(2):407-499.

[3]Yuan M,Lin Y.Model selection and estimation in regression with grouped variables.Journal of the Royal Statistical Society:Series B (Statistical Methodology),68:49-67.

[4]Liu J,Ye JP.Fast Overlapping Group Lasso.CoRR abs/1009.0306.

[5]張秀秀,王慧,田雙雙,等.高維數據回歸分析中基于LASSO的自變量選擇.中國衛生統計,2013,30(6):922-926.

[6]Albert JH,Chib S.Bayesian analysis of binary and polychotomous response data.Journal of the American Statistical Association,1993,88(422):669-679.

[7]Friedman J,Hastie T,Tibshirani R.Regularization paths for generalized linear models via coordinate descent.Journal of Statistical Software,2010,33:1-22.

[8]James G,Witten D,Hastie T,et al.An introduction to statistical learning with applications in R.America:Springer Press,2013.

[9]Motyer AJ,McKendry C,Galbraith S,et al.LASSO model selection with post-processing for a genome-wide association study data set.BMC Proceedings,2011,5(9):1-4.

(責任編輯:郭海強)

Influence of Prior Information of Microarray Data on Variable Selection Based on LASSO:A Simulation Study

Chen Jiangpeng,Peng Bin,Wen Wen,et al

(Department of Health Statistics and Information Management,School of Public Health and Management,Chongqing Medical University(400016),Chongqing)

Objective Objective To explore the influence of prior information of microarray data on variable selection based on LASSO.Methods After setting the true model,we incorporated prior information into LASSO,non-overlap group LASSO(nogLASSO for short)and overlap group LASSO(ogLASSO for short) variable selection models and compared the influence by MATLAB or R software.Results LASSO、ogLASSO models seemed to have good prediction accuracy when processing microarray data(AUCLASSO=0.8915≈AUCogLASSO=0.8923> AUCnogLASSO=0.8396,MSEnogLASSO=0.1358>MSEogLASSO=0.0975≈MSELASSO=0.0928),while only LASSO achieved a interpretable model(The average of genes selected in the models:21.52、111.95、101.01 respectively).When [X295] was misclassified into 19th pathway,the average of genes selected in the models decreased and the forecast precision declined by nogLASSO model,while ogLASSO model's performance seemed to be more robust.Conclusion Incorporating prior information of microarray data does not improve the prediction performance and efficiency of variable selection based on LASSO,therefore the simple LASSO regression model may be an efficient means to deal with microarray data.

Variable selection; Least Absolute Shrinkage and Selection Operator; Simulation

國家自然科學基金(81373103),重慶市科委基礎與前沿研究計劃項目(cstc2013jcyjA10009)

△ 通信作者:彭斌,E-mail:pengbin@cqmu.edu.cn

猜你喜歡
信息方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: a级毛片网| 日本午夜在线视频| 无码AV高清毛片中国一级毛片| 91视频精品| 免费高清自慰一区二区三区| 久青草免费视频| 91小视频在线| 午夜a视频| 美臀人妻中出中文字幕在线| 亚洲欧美成人| www.国产福利| 国产在线视频自拍| 欧美成人精品在线| 亚洲国产成人久久77| 免费人成视网站在线不卡| 亚洲中文字幕97久久精品少妇| 精品91视频| 久久国语对白| 2021国产精品自拍| 天天摸夜夜操| 国产91丝袜在线播放动漫| 久草网视频在线| 99精品免费在线| 欧美日韩中文国产va另类| 成人亚洲天堂| 国产超碰一区二区三区| 亚洲自偷自拍另类小说| 亚洲成A人V欧美综合天堂| 亚洲精品无码av中文字幕| AV熟女乱| 三区在线视频| 亚洲女同一区二区| 国产在线麻豆波多野结衣| 国产呦精品一区二区三区网站| 国产精品美女网站| 久久这里只有精品国产99| 在线99视频| 国语少妇高潮| 日韩第一页在线| 伊人查蕉在线观看国产精品| 九色在线观看视频| 日本中文字幕久久网站| 国产精品19p| 干中文字幕| 69视频国产| 伊人久久婷婷五月综合97色 | 手机永久AV在线播放| 精品伊人久久久久7777人| 国产女人18毛片水真多1| 九九久久99精品| 国内精品一区二区在线观看| 国产91视频免费| 在线欧美日韩| 国产精品丝袜视频| 无码网站免费观看| 2021亚洲精品不卡a| 五月天福利视频| 五月婷婷丁香综合| 国产一区二区三区在线无码| 亚洲日本www| 精品人妻系列无码专区久久| av一区二区无码在线| 国产成人调教在线视频| 尤物国产在线| 亚洲国产天堂久久综合| 91免费精品国偷自产在线在线| 国产成人精品日本亚洲| 婷婷色狠狠干| 99国产在线视频| 日本成人在线不卡视频| 国产成人精品一区二区三在线观看| 久久成人免费| 老色鬼久久亚洲AV综合| 91视频精品| 亚洲欧美极品| 国产欧美在线观看精品一区污| 久久情精品国产品免费| 成人一级黄色毛片| 色哟哟国产精品| 国产理论最新国产精品视频| 国产玖玖玖精品视频| 国产亚洲精品97在线观看|