999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于預測變量圖結構的高維邏輯回歸模型*

2021-10-21 13:11:22黃文靜杜杰琳吳明月
關鍵詞:利用結構方法

黃文靜, 鄧 丹, 杜杰琳, 吳明月

(重慶醫科大學 公共衛生與管理學院,重慶 400016)

0 引 言

隨著信息和技術的快速發展,數據搜集能力越來越強,數據的規模和復雜程度都是前所未見的,特別是激增的變量維數給傳統的統計學帶來了巨大挑戰。在高維情形下,變量個數p要大于樣本量n,而且高維變量之間通常具有很強的相依性,此時,設計矩陣X不是滿秩的,回歸參數的估計往往也不是唯一的[1]。因此,如何對高維變量建模和參數估計是統計學關注的重點問題。正則化方法是處理高維數據常用的一種方法。Lasso[2]是人們熟知的正則化方法,但是當數據中存在某種結構(如組結構)時,Lasso不能很好地利用這種結構。因此,作為Lasso的推廣,隨后進一步提出Group Lasso[3]和Overlapping Group Lasso[4]等,這些方法在高維數據分析中均得到了廣泛的應用,但是這些方法通常需要提前給出預測變量的組結構,然而在有些應用中很難得到這種結構。相比組結構,預測變量的圖結構更容易獲得。在生物學研究中,每個個體包含了成千上萬的基因,這些基因有的單獨作用,有的相互作用,而基因之間相互作用的大量信息可以用來構建預測變量的圖結構,其中基因表示圖中的節點,調控關系表示圖中的邊。即使在沒有先驗信息的條件下,仍然可以通過協差陣(精度矩陣)的稀疏估計[5-7]構造這些基因的圖結構。Yu和Liu[8]在線性模型的框架下,提出一種利用預測變量圖結構的方法,該方法具有一定的普遍性。目前,邏輯回歸是處理分類數據的有效工具,正則化方法也被廣泛應用于處理大p小n的邏輯回歸問題[9-10],本文將在文獻[8]的基礎上將圖結構應用到邏輯回歸模型中,為了評價這一方法的性能,將其與現有的許多方法進行比較,研究比較了不同圖結構下的仿真實例,還將其應用到乳腺癌基因實例中,仿真實驗結果和實際數據分析表明:該方法在估計、預測和模型的變量選擇上均具有優越性。

1 基于預測變量圖結構的邏輯回歸模型

1.1 邏輯回歸模型的改進

設(X,Y)為隨機變量,其中X∈Rp,Y∈{0,1}。假設X服從均值為Op×1,協差陣為Σ的多元正態分布。給定X=x,Y的條件分布記為Pβ*(Y=1|x)=pβ*(x)。邏輯回歸模型為

損失函數為

(

β

)=

(

β

;

x

,

Y

)= -

Yf

β

(

x

)+ log(1+exp(

f

β

(

x

)))

相應的風險函數和經驗風險函數分別記為

P(β0,β)=E(β0,β;X,Y)

Pn(β0,β)=

由文獻[12]的定理2.1及文獻[13]的條件3.1,有

β*∝Σ-1(η(y)-μ)

(1)

令Σ-1=Ω=(ωij)i,j=1,2,…,p,其中Ω為精度矩陣,由式(1)可知,β*可表示為β*=Ωγ,γ=η(y)-μ。因此,文獻[10]的方法可以推廣到邏輯回歸模型,于是有

(2)

(3)

基于預測變量的圖結構G確定領域N1,N2,…,Np(注意到j∈Nj,j∈Nj,j=1,…,p)。

求解如下優化問題:

(4)

1.2 優化求解及權重參數的選取

(5)

目前,有很多R包可以求解優化問題式(5),如grpLasso[9],grpreg[15]以及gglasso[16]。本文利用Zeng和Breheny[9]提供的R包求解優化問題式(5),該方法能夠直接求解重疊組結構的Group Lasso 問題。

相比于目前流行的正則化方法(如Lasso,Group Lasso等),本文的方法更具一般性。當預測變量的圖結構沒有邊時,本文方法等價于Adaptive Lasso;當預測變量的圖結構由若干個獨立的完全圖組成,本文方法等價于Group Lasso;當預測變量的圖結構為完全圖時,本文方法與嶺回歸有相同的非零解[11]。因此,本文的方法是一種更加一般的方法,Adaptive Lasso,Group Lasso和嶺回歸都可以看作是本文所提方法的特例。另外,本文的方法也可以用來處理Overlapping Group Lasso問題。

2 數值模擬

例1 (Ω分塊對角)p=100,s*=15,真實的系數向量β*=(0.3,0.3,…,0.3,0,0,…,0)T,預測變量按如下方式生成:

Xj=Z1+0.4εj,Z1~N(0,1), 1≤j≤5Xj=Z2+0.4εj,Z2~N(0,1), 6≤j≤10Xj=Z3+0.4εj,Z3~N(0,1), 11≤j≤15Xj~N(0,1), 16≤j≤100

例2 (Ω帶狀)p=100,β*與例1相同,預測變量(X1,X2,…,Xp)T~N(0,Σ),其中Σij=0.5|i-j|。此時,若|i-j|=1,有ωii=1.333,ωij=-0.677;若|i-j|>1,則ωij=0。

例3 (Ω稀疏)p=100,預測變量(X1,X2,…,Xp)T~N(0,Ω-1),其中Ω-1=B+δI。B中非對角線元素以概率0.05取0.5,以概率0.95取0,對角線元素為0。選取δ使得Ω的條件數為p。令β*=Ωγ,其中γ=(γ1,γ2,…,γp)T,且γi=0.1,i=1,2,3,4,否則,γi=0。

表1—表3給出了不同方法在不同的圖結構中的表現,其中l2距離和預測誤差衡量的是模型的估計和預測能力,RFPR和RFNR衡量是模型的變量選擇能力。LG-O和LG表示本文所提方法分別利用真實圖結構和估計圖結構得到的結果。表1—表3中的結果表明:當圖結構比較簡單時,本文方法與其他方法相當(表1所示);當圖結構比較復雜時,本文方法無論從估計和預測方面還是從模型選擇方面都明顯優于其他方法,與具有Oracle性質的SCAD和MCP方法比較仍具有優越性(表2,表3所示)。

表4給出了不同方法RNMR和RZMR的表現。表4結果表明:即使圖結構比較簡單時,其他方法的RNMR和RZMR也很差。本文的方法在圖結構較簡單時明顯優于其他方法,當圖結構較復雜時,也要優于其他方法,這表明本文方法有效地利用了預測變量圖結構的信息。

表1 例1中不同方法在模型估計、預測和模型選擇能力的比較

表2 例2中不同方法在模型估計、預測和模型選擇能力的比較

表3 例3中不同方法在模型估計、預測和模型選擇能力的比較

表4 不同模型的NMR和ZMR的比較

*注:…表示不可用值,沒有用的預測變量之間沒有相連的邊。

以上模擬結果表明:即使圖結構未知,本文方法仍然能夠有效地利用預測變量圖結構信息,從而提高模型在估計、預測以及變量選擇等方面的表現。

3 實例分析與應用

本節將上述方法應用于公開的乳腺癌實際數據,包括133名受試者22 283個基因表達水平,其中34名為病理完全反應(pCR)受試者,99名為殘留病(RD)受試者。該數據可以通過網址http://Bioinformatics. mdanderson.org/pubdata.html下載。考慮到迭代算法運行的速度以及計算機的限制,將主要比較本文的方法與Lasso方法、嶺回歸方法、Adaptive Lasso方法以及Elastic Net方法的效果。

為了估計精度矩陣,將數據集和測試集分別隨機劃分為大小為112和21的兩部分,然后將整個過程重復100次。每次都采用分層抽樣的方法從對應的組中選取5個pCR個體和16個RD個體作為測試集(大體相當于每組的1/6),其余的個體作為訓練集。在每個訓練集上,利用兩樣本t檢驗選取最顯著的113個基因作為預測變量。注意到,訓練集的樣本量為n=112,比變量的維度p=113稍小,這一點可以用來檢驗p>n時各種方法的表現。利用訓練集估計精度矩陣Ω,基于該精度矩陣利用Graphical Lasso估計預測變量的圖結構G,其圖結構如圖1所示,圖中包含113個節點,190條邊。訓練集用來擬合模型。利用測試集數據計算均方誤差值(FMSE)來評估模型,利用10折交叉驗證選取調節參數[7,17]。

實例分析結果如圖2所示,圖2給出了不同方法在對乳腺癌數據進行建模分析時的平均均方誤差箱線圖。結果可以看出本文的方法在MSE的表現上優于Lasso方法、Adaptive Lasso和Elastic Net方法,比嶺回歸的結果稍差。實際數據分析結果與數值模擬結果一致,說明該方法有效。

圖1 乳腺癌數據的圖結構

圖2 乳腺癌數據集中不同方法的FMSE

4 結論與討論

提出一種基于預測變量圖結構的高維邏輯回歸模型,該模型可以用來對高維圖結構數據或者重疊組結構數據進行邏輯回歸建模,即使預測變量的圖結構未知,本研究的方法仍然能夠利用這種結構提高模型在估計、預測以及變量選擇等方面的表現。另外,目前流行的方法,如Lasso方法、Group Lasso和嶺回歸方法等都可以看作是本文模型的特例。數值模擬和實例分析應用表明:該模型在有限樣本情形下是有效的,并且可廣泛應用于高通量基因數據中存在圖結構的疾病分類研究中。

猜你喜歡
利用結構方法
利用min{a,b}的積分表示解決一類絕對值不等式
中等數學(2022年2期)2022-06-05 07:10:50
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
利用一半進行移多補少
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
利用數的分解來思考
Roommate is necessary when far away from home
可能是方法不對
論《日出》的結構
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 精品无码一区二区在线观看| 国产一区二区三区在线观看视频 | 草草影院国产第一页| 97在线国产视频| 试看120秒男女啪啪免费| 国产全黄a一级毛片| 国产主播一区二区三区| 亚洲天堂免费| 亚洲欧洲日产无码AV| 国产美女91呻吟求| 欧美一区二区福利视频| 成人小视频在线观看免费| 亚洲无码A视频在线| 国产成人狂喷潮在线观看2345| 国产激爽大片高清在线观看| 欧美成人看片一区二区三区| 找国产毛片看| 国产乱人乱偷精品视频a人人澡| 视频国产精品丝袜第一页| 精品自窥自偷在线看| 久久77777| 91黄色在线观看| 日本高清视频在线www色| 性激烈欧美三级在线播放| 国产拍在线| 亚洲AⅤ综合在线欧美一区| 久久大香香蕉国产免费网站| 日本不卡在线视频| аv天堂最新中文在线| 亚洲视频四区| 内射人妻无套中出无码| 性色在线视频精品| 国产美女精品一区二区| www.日韩三级| 国产91线观看| 99视频在线免费观看| 欧美精品v| 91欧美亚洲国产五月天| 日韩精品少妇无码受不了| 台湾AV国片精品女同性| 片在线无码观看| 动漫精品啪啪一区二区三区| 91在线视频福利| 福利姬国产精品一区在线| 日韩a在线观看免费观看| 欧美国产成人在线| 中国成人在线视频| 国产福利免费在线观看| 91黄视频在线观看| 一级毛片在线直接观看| 亚洲AV成人一区二区三区AV| 久久亚洲高清国产| 国产亚洲成AⅤ人片在线观看| 尤物精品国产福利网站| 国产一区二区丝袜高跟鞋| 极品国产一区二区三区| 人人艹人人爽| 亚洲永久色| 99热这里只有精品2| 国产成年女人特黄特色毛片免 | 亚洲精品欧美重口| 久久这里只精品热免费99| 亚洲一区二区约美女探花| 国产va免费精品观看| 亚洲AV无码精品无码久久蜜桃| 久久久久久高潮白浆| 国产视频一二三区| 91久久夜色精品国产网站| 日本午夜精品一本在线观看| 天天色天天操综合网| 亚洲国产黄色| 一本视频精品中文字幕| 凹凸精品免费精品视频| 久久99热这里只有精品免费看| 成人va亚洲va欧美天堂| 一区二区三区四区日韩| 日韩在线2020专区| 亚洲欧洲日产国码无码av喷潮| 热热久久狠狠偷偷色男同| 91福利国产成人精品导航| 综合亚洲色图| 久久永久免费人妻精品|