999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LASSO的高維數據線性回歸模型統計推斷方法比較*

2017-06-05 14:20:14趙俊琴
中國衛生統計 2017年2期
關鍵詞:懲罰方法模型

趙俊琴 王 慧 王 彤△

·應用研究·

基于LASSO的高維數據線性回歸模型統計推斷方法比較*

趙俊琴1,2王 慧1王 彤1△

目的 比較五種基于LASSO的高維數據線性回歸模型統計推斷方法:LASSO-懲罰計分檢驗,多重樣本拆分、穩定選擇、低維投影、協方差檢驗。方法 采用R軟件模擬不同情形的高維數據,用五種方法做統計推斷,以期望假陽性率和檢驗效能為評價指標,比較這五種方法在不同高維數據情形下的表現。結果 在理想高維數據情形下,除協方差檢驗推斷結果保守外,其余方法表現都較好。在復雜高維數據情形下,LASSO-懲罰計分檢驗的檢驗效能是五種方法中最高的,其次為多重樣本拆分,而LASSO-懲罰計分檢驗的EFP也是最高的,多重樣本拆分的EFP基本接近0。結論 在常見復雜高維數據中LASSO-懲罰計分檢驗和多重樣本拆分是兩種較好的高維線性回歸模型統計推斷方法,兩者相對而言前者較寬松,后者較保守。在實際應用中可根據應用需求來選擇合適的統計推斷方法。

高維數據 LASSO 統計推斷 線性回歸

高通量檢測技術的發展帶來了如基因、多肽、蛋白組學等大規模數據。這類預測變量p大于樣本量n,甚至p隨著n的增長呈數量級增長的數據被稱為高維數據[1]。如何從大量的預測變量中迅速準確地篩選出少數真實變量集是高維數據分析面臨的重要問題。目前針對高維數據的變量篩選方法已發展較為完善,主要包括懲罰類變量篩選方法(LASSO、彈性網等)、主成分分析法、偏最小二乘法等。然而基于有限樣本建立的模型的可靠性和穩定性還需要進一步通過統計推斷來給出答案。

由于高維數據的變量篩選方法大多依靠稀疏假定,存在很多系數為零的變量,分布的不連續性導致很難得到系數估計值的近似分布,因此高維數據的統計推斷領域還未有公認的好方法。LASSO(least absolute shrinkage and selection operator)可獲得最優解和解的稀疏性,自提出以來備受歡迎。因此本研究將介紹現有的基于LASSO的高維數據線性回歸模型統計推斷方法,分別是協方差檢驗(covariance test)、多重樣本拆分(multiple sample-splitting)、穩定選擇(stability selection)、低維投影(Low-dimensional projection estimate)、LASSO-懲罰計分檢驗(LASSO penalized score test),并作比較,目的在于推薦其中較好的方法。

基本原理

1.LASSO簡介

LASSO的主要思想是在最小二乘法的基礎上加入一個懲罰項λ‖β‖1,通過使系數的絕對值和小于某一個常數來最小化殘差平方和,同時與y關系弱的自變量系數被懲罰為0從而實現稀疏性。相比最小二乘法,LASSO犧牲了一些無偏性但實現了解的稀疏性,使模型更為穩定。LASSO解是凸函數,可獲得最優解,見公式(1)。

(1)

選擇合適大小的調整參數λ很重要(λ過大,可能導致過多變量被懲罰為0,從而遺漏重要變量;反之,可能導致最終模型過度擬合而可解釋性差)。目前λ的估計方法主要有:交叉驗證法、廣義交叉驗證法和無偏風險估計分析[2]。下文中未做特別說明的λ選擇方法均為交叉驗證法。

2.協方差檢驗

協方差檢驗[3]是基于LASSO解路徑的方法,即隨著λ從某個值(在該λ下LASSO模型只包含截距項)減小到0,每一次λ減小有一個變量進入模型,然后檢驗該變量所引起的殘差平方和的改變量是否在殘差方差解釋的范圍內,直到下一個進入模型的變量被檢驗為無統計學意義終止,由該變量之前所有變量構成最終模型。

3.多重樣本拆分

多重樣本拆分法源自對單樣本拆分的改進。單樣本拆分的主要思想是拆分樣本、降維、用經典檢驗方法做推斷。但單樣本拆分法的結果不穩定,過于依賴樣本的拆分結果[4]。為了提高可重復性,Meinshausen和Meier提出多重樣本拆分[5],將樣本隨機拆分為兩份樣本量相同的子樣本,第一份采用LASSO篩選變量得到變量集,第二份用最小二乘法作參數估計,并采用經典檢驗方法對變量作檢驗。以上整個過程重復B次,將P值合并。重復次數B達到50到100即可。

4.穩定選擇

5.低維投影

6.LASSO-懲罰計分檢驗

模擬研究

采用R軟件模擬高維數據不同情形。

設置自變量矩陣Xn×p,每一行表示一個觀測,每一列表示一個自變量。X1,…,Xp均為服從正態分布N(0,1)的獨立隨機變量,隨機誤差項服從標準正態分布。

7種樣本量:n=50、75、100、150、200、300、400;兩種自變量個數:p=100、300;

兩種自變量間相關性:(1)自變量間相互獨立corr(Xi,Xj)=0;(2)自變量間的相關性隨著自變量在矩陣中距離越遠而遞減corr(Xi,Xj)=0.5|i-j|。LASSO在處理相關性較強的數據中表現較差,第二種相關性設定可觀察五種方法的推斷結果是否依賴于LASSO的變量估計結果;

按照以上參數的設置生成高維數據(見圖1、圖2),模擬次數B=100,分別用前面介紹的五種方法進行變量篩選及統計推斷。其中穩定選擇的重復抽樣次數設為500,截斷點πthr取0.6;多重樣本拆分的拆分次數設為50;LASSO-懲罰計分檢驗采用近似方差估計法。結果評價指標為期望假陽性率(expected false positives,EFP)和檢驗效能,分別定義如下:

(2)

(3)

‖β‖0表示真實非零回歸系數的個數,Pjk表示第k(k∈(1,…,B))個模擬數據中第j個變量的P值。

結 果

分別以EFP和檢驗效能為縱坐標,五種方法為橫坐標作圖。圖1顯示隨著自變量個數的增加,五種方法的EFP均明顯增加。圖2顯示真實回歸系數的降低,使五種方法的檢驗效能均大幅度降低,特別是在小樣本的情況下降低更為明顯。在理想高維數據情形下(a圖)穩定選擇的表現是五種方法中最好的,但在實際情況下理想的高維數據很難見到。常見復雜高維數據情形下(h圖)LASSO-懲罰計分檢驗發現真實非零變量的能力優于其余四種方法,且其對非零變量可識別性的要求低,但期望假陽性率高。多重樣本拆分發現真實變量的能力雖然依賴于非零變量可識別性,但當要求不滿足時結果僅次于LASSO-懲罰計分檢驗,且其期望假陽性率極低。

討 論

在常見復雜高維數據中LASSO-懲罰計分檢驗和多重樣本拆分是兩種較好的高維數據線性回歸模型統計推斷方法.兩者相對而言前者較寬松,后者較保守。在實際應用中無法得知真實數據非零變量可識別性的高低,但可根據實際需求來選擇合適的統計推斷方法。例如,若是探索性分析想要從大量數據信息中檢測出可能與結果變量相關的所有變量,或是在惡性疾病相關基因的檢測中,檢測出與其相關的所有可能基因來進一步驗證,則可用LASSO-懲罰計分檢驗,檢測結果較全面。若是驗證性分析,要求被檢測為有意義的變量與結果變量存在實際相關的概率很高,則可用多重樣本拆分。

圖1 五種方法的EFP

(橫坐標數字1~6分別代表:LASSO-懲罰計分檢驗λ分別為0.05、0.07、0.1、0.2、0.5、0.7;7:多重樣本拆分;8:穩定選擇;9:低維投影;10:協方差檢驗。樣本量n,○ 50,×100,+200,◇ 400,□ 75,△ 150,○ 300)

圖2 五種方法的檢驗效能

受計算機運行速度等方面的限制,本次研究的數據模擬較為簡單,模擬次數較少。LASSO在處理存在強相關的數據時仍存在局限性[10],所以可以考慮將LASSO-懲罰計分檢驗的懲罰類變量篩選方法換做彈性網或ISIS(iterative sure independence screening)等處理強相關數據的方法來降低假陽性率。多重樣本拆分在非零變量可識別性低時效能較低,可以考慮將子樣本中變量篩選方法改為其他對該條件要求低的變量篩選方法。

[1]Greenshtein E,Ritov YA.Persistence in high-dimensional linear predictor selection and the virtue of over-parametrization.Bernoulli,2004,10(6):971-988.

[2]張秀秀,王慧,田雙雙,等.高維數據回歸分析中基于LASSO的自變量選擇.中國衛生統計,2013,30(6):922-926.

[3]Lockhart R,Taylor J,Tibshirani RJ,et al.A significance test for the LASSO.The Annals of Statistics,2014,42(2):413-468.

[4]Dezeure R,Bühlmann P,Meier L,et al.High-dimensional Inference:Confidence interval,p-values and R-Software hdi.Statistical Science,2015,30(4):533-558.

[5]Meinshausen N,Meier L,Bühlmann P.P-values for high-dimensional regression.Journal of the American Statistical Association,2009,104(488):1671-1681.

[6]Meinshausen N,Bühlmann P.Stability Selection.Journal of the Royal Statistical Society,B,2010,72(4):417-473.

[7]Zhang CH,Zhang SS.Confidence intervals for low dimensional parameters in high dimensional linear models.Journal of the Royal Statistical Society,B,2014,76(1):217-242.

[8]Geer SVD,Bühlmann P,Ritov Ya,et al.On asymptotically optimal confidence regions and tests for high-dimensional models.The Annals of Statistics.2014,42(3):1166-1202.

[9]Voorman A,Shojaie A,Witten D.Inference in High Dimensions with the Penalized Score Test[EB/OL].Statistics,2014.

[10]閆麗娜,王彤.懲罰COX模型和彈性網技術在高維數據生存分析中的應用.太原:山西醫科大學,2011.

(責任編輯:郭海強)

* 國家自然科學基金資助(81473073)

1.山西醫科大學衛生統計教研室(030001)

2.河北省疾病預防與控制中心

△ 通信作者:王彤,E-mail:wtstat@21cn.com

猜你喜歡
懲罰方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
神的懲罰
小讀者(2020年2期)2020-03-12 10:34:06
懲罰
趣味(語文)(2018年1期)2018-05-25 03:09:58
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
真正的懲罰等
捕魚
主站蜘蛛池模板: 国产内射一区亚洲| AV无码一区二区三区四区| 欧美国产日产一区二区| www.日韩三级| 91网址在线播放| 亚洲经典在线中文字幕| 又黄又湿又爽的视频| 国产91全国探花系列在线播放| 免费无遮挡AV| 久久精品aⅴ无码中文字幕| 91口爆吞精国产对白第三集| 国产成人毛片| 精品久久高清| 国产成人毛片| 高清色本在线www| 天天视频在线91频| 国产精品自在拍首页视频8| 亚洲日韩AV无码精品| 国产精品丝袜在线| 国产特一级毛片| 狠狠做深爱婷婷久久一区| 日韩精品亚洲一区中文字幕| 人妻夜夜爽天天爽| 亚洲无码四虎黄色网站| 午夜欧美在线| 国产jizzjizz视频| 一区二区自拍| 国产成人综合日韩精品无码不卡 | 九九热视频精品在线| 国产在线高清一级毛片| 亚洲无码高清一区| 国产成人亚洲毛片| 亚洲天堂视频在线观看免费| 国产产在线精品亚洲aavv| 素人激情视频福利| 午夜日本永久乱码免费播放片| 91小视频在线观看| 99尹人香蕉国产免费天天拍| 国产一在线| 最近最新中文字幕在线第一页 | 国产欧美日韩一区二区视频在线| 99re热精品视频中文字幕不卡| 国产久草视频| 国产美女无遮挡免费视频| 四虎成人免费毛片| 亚洲一区二区三区国产精华液| 中文字幕2区| 亚洲人精品亚洲人成在线| 国产在线欧美| 污网站免费在线观看| 国产永久在线视频| 九九九精品成人免费视频7| 亚洲三级视频在线观看| 亚洲国产成人麻豆精品| 精品国产美女福到在线直播| 国产全黄a一级毛片| 91在线一9|永久视频在线| 日韩免费毛片视频| 在线精品视频成人网| 97久久超碰极品视觉盛宴| 日韩精品一区二区三区swag| 欧美国产三级| AV片亚洲国产男人的天堂| 日韩精品成人网页视频在线| 国产精品自在线天天看片| 亚洲精品国产精品乱码不卞| 午夜视频免费一区二区在线看| 妇女自拍偷自拍亚洲精品| 天堂网亚洲系列亚洲系列| 色综合中文字幕| 国产主播在线一区| 一本大道无码高清| 欧美视频在线第一页| 久久夜色精品| 久久精品这里只有精99品| 国产成人精品在线| 久草中文网| 亚洲国产高清精品线久久| www精品久久| 中文字幕永久在线观看| 国产精品吹潮在线观看中文| 亚洲黄色激情网站|