999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

PCD型自適應彈性網絡在微陣列分類中的應用

2010-08-18 10:11:56李鈞濤賈英民
智能系統學報 2010年3期
關鍵詞:懲罰分類模型

李鈞濤,賈英民

(北京航空航天大學第七研究室,北京 100191)

PCD型自適應彈性網絡在微陣列分類中的應用

李鈞濤,賈英民

(北京航空航天大學第七研究室,北京 100191)

針對癌癥分類中的重要基因選擇問題,提出了一種基于順向坐標下降算法的自適應彈性網絡.該自適應彈性網絡通過引入數據驅動權重,在構建分類器的同時能自適應地成群選擇基因,從而產生了一個稀疏的學習模型,增強了可解釋性.此外,通過引入懲罰因子,順向坐標下降算法被改進并有效地用于求解該自適應彈性網絡.急性白血病分類實驗結果驗證了所提方法的有效性.

癌癥分類;基因選擇;彈性網絡;順向坐標下降算法(PCD算法);微陣列分類

基于微陣列基因表達數據的癌癥分類問題開辟了機器學習方法在計算生物領域的最早應用,大量的學習機器及求解算法已經被提出[1-15].由于生物學家和醫學科學家能從選擇的重要基因來確定癌癥研究中的最新發現或建議新的探索途徑;因此,除了預測給定腫瘤樣本的癌癥類型,另一個挑戰性的問題是辨識分類相關的重要基因[4-13].

基因選擇的目標是更好地理解產生數據的生物系統并改進分類器的預測性能.現流行的基因選擇方法有:單變量排序[1]、判別式比率、主元分析、遞歸特征消除[2]等.然而,在這些方法中,基因選擇與分類器構造是分開進行的.最近的統計學習理論與實驗表明,同時進行基因選擇和分類預測將產生優越的性能.因此,大量的新型學習模型被發展,例如1-范數支持向量機[3]、稀疏邏輯回歸[4-5]、LASSO[6].然而,這些學習方法并不能揭示基因間的相互信息,并且選擇的基因個數以樣本尺寸大小為上界.

從生物醫學的角度考慮,癌癥是一種復雜的遺傳性疾病,不是由單個基因所決定的,而往往是由先天的或外界的影響所造成的一些基因的突變、缺失等原因所引起.因此,癌癥分類中必然存在一些高度相關的基因,它們應該作為一個基因群,同時被選擇或消除.從學習的角度,這可以被描述為一種群體效應,即對高度相關的基因表達列產生相似大小的估計系數.作為一種新的正則化方法,彈性網絡[7]及其各種推廣[8-9]能在構建分類器的過程中激勵一種群體效應.然而,微陣列數據中往往含有數千個,甚至數萬個基因表達列,而且重要基因對應的基因表達列可能與一些不重要基因表達列相關.因此,根據基因表達列相關性來激勵群體效應將有可能導致最終模型包含冗余的基因.如何消除被選擇群內的冗余基因是當前癌癥分類中的一個急需解決的問題.

在彈性網絡中,基因選擇是由彈性網絡懲罰的收縮自動獲得的.因此,引入用于評估基因重要性的數據驅動權重到L1-范數懲罰和L2-范數懲罰將會自適應地控制著懲罰項的收縮,從而取得改進的基因選擇性能[10-11].受 LARS 型自適應彈性網絡[10]和順向坐標下降算法的啟發,本文提出了一種基于順向坐標下降算法的自適應彈性網絡.該自適應彈性網絡的一個突出優點是能自適應地成群選擇基因.此外,該自適應彈性網絡能利用改進的順向坐標下降算法求解,大大提高了求解速度.將基于順向坐標下降算法的自適應彈性網絡應用到急性白血病分類中去,取得較滿意的結果.

1 問題陳述

給定一個訓練樣本集{(xi,yi)},其中xi=(xi1,xi2,…,xip)T是輸入向量,yi∈{+1,- 1}是樣本標簽,分類問題就是學習一個判別規則f:Rp→{+1,-1},從而可以準確地預測新樣本的標簽.對于微陣列表達數據,xi表示具有p個基因表達水平的第i個樣本,yi表示腫瘤類型.令y=(y1,y2,…,yn)T是響應向量,X=(x(1),x(2),…,x(p))是由n個輸入向量按行排列組成的模型矩陣,其中x(j)=(x1j,x2j,…,xnj)T被稱為預測子.假設預測子是標準化的,響應具有零均值,即

根據通常的線性回歸模型[12],輸出響應能被預測為

式中:=(,…)T是被估計的系數向量.目標是:1)準確地預測新樣本的標簽;2)選擇分類相關的重要基因.

對于基于微陣列基因表達數據的癌癥分類問題,大量的學習機器已經被成功構建,例如,支持向量機[2-3]、稀疏邏輯回歸[4-5]和彈性網絡[7].這些學習機器能被統一地歸納為正則化框架:

式中:λ >0是正則化參數;L(y,f(x))和J(λ,β)分別表示損失函數與懲罰,常用的損失函數有hinge損失、平方誤差損失、指數損失等,常用的懲罰有L1-范數懲罰、L2-范數懲罰、彈性網絡懲罰、SCAD懲罰等.結合彈性網絡懲罰與平方誤差損失,下面的彈性網絡模型被提出[7]:

式中:λ>0,1>α>0是新的模型參數.在固定α的前提下,順向坐標下降算法可以用來迅速地求解彈性網絡.

2 PCD型自適應彈性網絡

作為一種新的正則化與變量選擇方法,彈性網絡能產生一個稀疏的統計學習模型,并能鼓勵一種群體效應.雖然彈性網絡彈極其推廣已經被成功地應用于癌癥分類和基因選擇,然而該方法并不區分選擇的基因群里基因的重要性,從而導致濾波模型中將包含冗余的基因.在本節中,將發展一種新型的統計學習工具來解決該問題.

2.1 統計模型

對于彈性網絡(1)或(2),相同的權重1被加在懲罰項的不同的系數上.理想的狀況應該是大的懲罰加在不重要的變量上,從而很容易地消除它,而小的懲罰被強加在重要的變量上,從而在模型中保持它.基于上述思想,提出自適應彈性網絡懲罰的概念.

給定訓練集(xi,yi),i=1,2,…,n,假設一個初始估計子=(,,…,)可以獲得.不失一般性,進一步假設預測子x(1),x(2),…,x(p)被恰當排序,從而使得

為簡便起見,仍舊用X表示變換后的模型矩陣.由于的度量在某種程度上暗示基因j對分類器的貢獻,因此||(j=1,2,…,p)能被用來粗略地評估基因的重要性.根據這個粗略的評價標準,提出如下數據驅動權重矩陣:

式中:wj=||-1,通過引入權重系數,提出如下自適應彈性網絡懲罰:

除了改進基因選擇性能,提出自適應彈性網絡(3)的另一個動機是其能用順向下降算法求解(詳見2.3小節),從而大大減少了計算量.為了和其他類型的自適應彈性網絡加以區別,把該學習機器命名為PCD型自適應彈性網絡.使用該學習機器必須首先確定一個初始估計子.隨著機器學習算法的快速發展,LASSO估計子、支持向量機的估計系數與彈性網絡估計子都可以很方便地求解,從而被用作初始估計子.考慮到這些方法都不可避免模型參數選擇的困難,從而需要花費大量的計算和時間來確定正則化參數和核參數.因此使用如下的單變量回歸估計子作為初始估計子.

2.2 自適應的基因選擇

由于重要基因可能與一些不重要的基因相關,因此彈性網絡的濾波模型中可能會包含冗余的基因.PCD型自適應彈性網絡能鼓勵一種自適應的群體效應,從而能消除一些不重要的基因.

定理假設預測子x(1),x(2),…,x(p)是標準化的,響應y具有零均值.對于 1≤j,l≤p,如果aen)(aen)>0,那么有

證明 令

由于式(4)是一個無約束的凸最優化問題,因此式(6)對非零系數≠0的子梯度滿足:

對于≠0,由式(7)可得

類似地,可得

由于(aen)(aen)>0且(aen)=(1+λ2),因此sign()=sign().由式(9)減去式(10)可得

由式(4)和式(6)可得

從而

由于x(1),x(2),…,x(p)是標準化的,因此很容易可得

由式(11)、(12)和(13),可得

把式(3)代入式(14)可得式(5).證畢.

利用最小二乘回歸估計子(ols)作為初始估計子,Ghosh在2007年提出如下的自適應彈性網絡[18]:

式中:wj=|(ols)|-γ,γ >0是提前給定的常數.利用彈性網絡(en)作為初始估計子并引入比例系數,Zou在2009年提出如下的自適應彈性網絡[19]:

式中:wj=|(en)|-γ,γ >0是提前給定的常數.雖然Ghosh的自適應彈性網絡宣稱能激勵一種群體效應.然而所描述的群體效應控制上限是涉及2個正則化參數的復雜式子,缺乏直接的生物可解釋性.因此,嚴格意義講,這2種學習機器不具有可解釋的群體變量選擇功能.提出的PCD型自適應彈性網絡能通過評估基因重要性來自動地辨識選擇的基因群的尺寸,從而激勵一種自適應群體選擇效應.這種群體效應的上限是用乘式表達的,每一個乘子都具有較明確的生物學含義.

2.3 順向坐標下降算法

類似于彈性網絡,LASSO、LARS和前向階梯等算法也能用來求解自適應彈性網絡.然而,彈性網絡和PCD型自適應彈性網絡在增廣空間中有p+n個觀測子和p個預測子,而在微陣列基因表達數據中,一般說來p是非常大的,因此,這些算法將導致巨額的計算量,有時甚至是計算上不可行的.與這些方法相比較,順向坐標下降算法在處理這類數據時具有不可爭議的快速性.因此,選擇使用該算法來求解PCD型自適應彈性網絡.

為了計算簡便的目的,把PCD型自適應彈性網絡(3)改寫為

假設在l≠j時,估計子可以獲得.目標是獲得關于βj的部分最優化.根據文獻[16],坐標下降調整有如下形式:

為了使用順向坐標下降算法,必須首先選擇1個最小的正則化參數值λmin,并構造1個從最大值λmax到最小值λmin對數下降的λ序列.典型的構造方法是令K=100,λmin=ελmax,其中 ε =0.001.如果使用自己構造的λ序列,那么不同的懲罰因子可以被加在每一個系數上,從而可以成功求解PCD型自適應彈性網絡(15).具體求解步驟如下:

2)設置順向坐標下降算法的初始參數值:響應類型、彈性網絡混合參數α、最小λ值和懲罰因子等參數.

3)利用順向坐標下降算法求解具有懲罰因子w1,w2,…,wp的彈性網絡.

4)利用交叉檢驗決定最優模型的參數.

5)提取最優模型的非零系數來構建分類器,并確定非零系數對應的基因.

由于自適應彈性網絡懲罰把一些系數收縮到零,因此在構建分類器的同時,實現了基因的自動選擇,所需要做的是提取非零系數并決定與他們相對應的基因名稱.在實驗中,上述算法程序是用R語言寫的,但在執行該程序時,需要加載并使用“glmnet”工具包.R程序中的函數“as.character”被用來產生并測試基因性狀,函數“predict”和“coef”被聯合使用,從而提取估計模型中的非零系數.

由于相同的數據驅動權重被同時加在1-范數懲罰系數和2-范數懲罰系數上,所以提出的自適應彈性網絡可以用帶懲罰因子的順向坐標下降算法來求解.在Ghosh和Zou自適應彈性網絡中,由于僅有1-范數懲罰系數被賦予于權重,因此無法用該算法來求解.

3 仿真實驗與分析

白血病基準數據被用來驗證所提方法的有效性.該基準數據包含47個急性淋巴性白血病樣本和25個急性骨髓性白血病樣本,其中,每一個樣本包含7 129個基因表達值.實驗的目的是:構建診斷規則,區分這2種急性白血病.基準數據的訓練集中包含27個急性淋巴性白血病樣本和11個急性骨髓性白血病樣本,余下的34個樣本用來測試診斷規則的預測精度.為了能使用回歸模型來處理二分類問題,把白血病編碼為 0-1影響,并定義分類函數為I(>0.5),其中I(·)是指示函數.

第1個實驗評估了彈性網絡和PCD型自適應彈性網絡的預測性能.為此,給定的72個樣本數據被隨機地劃分成10個部分,使得每一部分所含樣本個數基本相等,然后計算這2種學習機器的10重交叉檢驗均方預測誤差,并以此來評估他們的預測性能.圖1給出了這2種學習機器的交叉檢驗預測誤差曲線.由圖1易知,PCD型自適應彈性網絡能明顯改進彈性網絡的預測性能.這種現象可以從基因選擇的角度給出解釋.在基準白血病數據中,基因M23197_at、M27891_at和 M63138_at具有高度相關的表達列,并且這些表達列和基因M31303_rnal_at的表達列高度負相關;因此這4個基因在彈性網絡和PCD型自適應彈性網絡中,被作為一個基因群被同時選擇.基因 M22324_at的表達列與基因M92287_at和X74262_at的表達列高度負相關;因此,這3個基因作為一個基因群被彈性網絡同時選擇.然而,基因M22324_at并不對分類產生很大影響,PCD型自適應彈性網絡通過評估基因重要性,把不重要基因M22324_at從該群中消除出去.這種自適應的群體基因選擇解釋了PCD自適應彈性網絡取得好的預測精度的原因.

圖1 10重交叉檢驗預測誤差曲線Fig.1 Curve of tenfold cross-validated prediction error

第2個實驗比較了LARS算法和順向坐標下降算法的運算速度.在配置為 Pentium(R)D CPU 3.4 GHz,3.39 GHz、內存1.00 GB的雙核戴爾計算機上,利用LARS算法求解100步的彈性網絡[7]和LARS型自適應彈性網絡[10]大約需要2~3 min;而用順向坐標下降算法求解K=100的PCD型自適應彈性網絡,只需要30 s左右.

4 結束語

PCD型自適應彈性網絡通過引入恰當的權重,改進了彈性網絡的基因選擇、計算速度等性能.與Ghosh自適應彈性網絡、Zou自適應彈性網絡等統計學習模型相比,PCD型自適應彈性網絡更能激勵一種群體基因選擇效應.與LARS型自適應彈性網絡相比,PCD型自適應彈性網絡能大大提高了計算速度.本文僅使用1個微陣列數據集來驗證PCD型自適應彈性網絡的有效性,因此在更多的數據集上來檢驗其性能并給出其合理的生物學解釋是接下來要做的工作.

[1]GOLUB T R,SLONIM D K,TAMAYO P,et al.Molecular classification of cancer:class discovery and class prediction by gene expression monitoring[J].Science,1999,286(5439):531-536.

[2]GUYON I,WESTON J,BARNHILL S,VAPNIK V.Gene selection for cancer classification using support vector machines[J].Machine Learning,2002,46(1):389-422.

[3]ZHU J,ROSSET S,HASTIE T,TIBSHIRANI R.1-norm support vector machines[J].Advances in Neural Information Processing Systems,2004,16(1):49-56.

[4]SHEVADE S K,KEERTHI S S.A simple and efficient algorithm for gene selection using sparse logistic regression[J].Bioinformatics,2006,19(17):2246-2253.

[5]CAWLEY G C,TALBOT N L C.Gene selection in cancer classification using sparse logistic regression with Bayesian regularization[J].Bioinformatics,2006,22(19):2348-2355.

[6]TIBSHIRANI R.Regression shrinkage and selection via the lasso[J].Journal of the Royal Statistical Society:Series B,1996,58(1):267-288.

[7]ZOU Hui,HASTIE T.Regularization and variable selection via the elastic net[J].Journal of the Royal Statistical Society:Series B,2005,67:301-320.

[8]WANG Li,ZHU Ji,ZOU Hui.The doubly regularized support vector machine[J].Statistica Sinica,2006,16(2):589-615.

[9]李鈞濤,賈英民.用于微陣列分類的Huberized多類支持向量機[J]. 自動化學報,2010,36(3):399-405.

LI Juntao,JIA Yingmin.Huberized multi-class support vector machine for microarray classification[J].Acta Automatica Sinica,2010,36(3):399-405.

[10]李鈞濤,賈英民.用于癌癥分類與基因選擇的一種改進的彈性網絡[J]. 自動化學報,2010,36(7):976-981.

LI Juntao,JIA Yingmin.An improved elastic net for cancer classification and gene selection[J].Acta Automatica Sinica,2010,36(7):976-981.

[11]LI Juntao,JIA Yingmin,DU Junping,YU Fashan.A new support vector machine for microarray classification and adaptive gene selection[C]//2009 American Control Conference.St.Louis,USA:5410-5415.

[12]EGAL M,DAHLQUIST K,CONKLIN B.Regression approaches for microarray data analysis[J].Journal of Computational Biology,2003,10(6):961-980.

[13]VAPNIK V.The nature of statistical learning theory[M].New York:Springer,1995:1-60.

[14]EFRON B,HASTIE T,JOHNSTON I,TIBSHIRANI R.Least angle regression[J].Annals of Statistics,2004,32(2):407-499.

[15]陳曉峰,王士同,曹蘇群.半監督多標記學習的基因功能分析[J]. 智能系統學報,2008,3(1):83-90.

CHEN Xiaofeng, WANG Shitong, CAO Suqun.Gene function analysis of semi-supervised multi-label learning[J].CAAI Transactions on Intelligent Systems,2008,3(1):83-90.

[16]FRIEDMAN J,HASTIE T,TIBSHIRANI R.Regularization paths for generalized linear models via coordinate descent[R].Palo Alto,USA:Standford University,2008.

[17]FRIEDMAN J,HASTIE T,HóFLING H,TIBSHIRANI R.Pathwise coordinate optimization[J].Annals of Applied Statistics,2007,1(2):302-332.

[18]GHOSH S.Adaptive elastic net:an improvement of elastic net to achieve oracle properties:IUPUI tech report No.pr07-01[R].Indianapolis,USA:Department of Mathematical Sciences,Indiana University-Purdue University,2007.

[19]ZOU H,ZHANG H H.On the adaptive elastic net with a diverging number of parameters[J].Annals of Statistics,2009,37(4):1733-1751.

李鈞濤,男,1978年生,講師、博士.主要研究方向為智能控制、統計學習及其在生物信息學中的應用.

賈英民,男,1958年生,教授、博士生導師,教育部“長江學者”特聘教授,中國科學院系統控制重點實驗室學術委員會委員,中國人工智能學會智能空天系統專業委員會主任,中國自動化學會控制理論專業委員會副主任,中國航空學會控制理論與應用專業委員會副主任.主要研究方向為魯棒控制、自適應控制、智能控制及其在車輛系統和工業過程中的應用.承擔國家“973”計劃、“863”計劃,國家自然科學基金重點項目、科學儀器專項,面上項目,國防基礎科研項目,教育部高校博士點基金等20余項.國家杰出青年科學基金獲得者,國家“百千萬人才工程”第一、二層次人選.發表學術論文120余篇,出版專著1部,申請專利10余項.

Applying a PCD adaptive elastic net in microarray classification

LI Jun-tao,JIA Ying-min
(The Seventh Research Division,Beihang University,Beijing 100191,China)

An adaptive elastic net was proposed,based on a pathwise coordinate descent(PCD)algorithm,to select genes important for cancer classification.By introducing data-driven weights,the proposed adaptive elastic net can adaptively select genes in groups in the process of building classifiers.It thus produces a sparse learning model with enhanced interpretability.Furthermore,by introducing penalty factors,the pathwise coordinate descent algorithm was improved,solving the adaptive elastic net more efficiently.Experimental results from leukemia classification verified the proposed method.

cancer classification;gene selection;elastic net;pathwise coordinate descent algorithm;microarray classification

TP273

A

1673-4785(2010)03-0227-06

10.3969/j.issn.1673-4785.2010.03.004

2009-12-14.

國家自然科學基金資助項目(60727002,60774003,60850004);國家“973”計劃資助項目(2005CB321902);國防基礎研究資助項目(A2120061303).

李鈞濤.E-mail:juntaolimail@yahoo.com.cn.

猜你喜歡
懲罰分類模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
神的懲罰
小讀者(2020年2期)2020-03-12 10:34:06
分類討論求坐標
數據分析中的分類討論
懲罰
趣味(語文)(2018年1期)2018-05-25 03:09:58
教你一招:數的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产亚洲成AⅤ人片在线观看| 99这里只有精品在线| 亚洲视频免费在线看| 中文字幕无线码一区| 国产精品久久精品| 伦伦影院精品一区| 五月丁香伊人啪啪手机免费观看| 日本一区高清| 成年网址网站在线观看| 国产区精品高清在线观看| 亚欧成人无码AV在线播放| jizz在线观看| 午夜欧美理论2019理论| 国产91精品久久| 国产精品亚洲精品爽爽| 亚洲第一天堂无码专区| 456亚洲人成高清在线| 精品欧美视频| 色窝窝免费一区二区三区| 国产剧情国内精品原创| 成年人国产网站| 亚洲a级在线观看| 制服丝袜一区二区三区在线| 久久99国产精品成人欧美| 青青国产视频| 99r在线精品视频在线播放| 国产黄在线观看| 亚洲无线国产观看| 热99re99首页精品亚洲五月天| 亚洲综合色婷婷中文字幕| 亚洲国产成人无码AV在线影院L| 亚洲国产一区在线观看| 午夜精品区| 国产无码高清视频不卡| 无码中字出轨中文人妻中文中| 影音先锋丝袜制服| 美女被躁出白浆视频播放| 亚洲第一视频网站| 欧美激情伊人| 国产成人亚洲欧美激情| 手机看片1024久久精品你懂的| 一区二区三区四区日韩| 午夜性刺激在线观看免费| 亚洲国产成人超福利久久精品| 日本五区在线不卡精品| JIZZ亚洲国产| 97视频免费看| 国产精品成人一区二区不卡| 毛片免费试看| 毛片久久网站小视频| 国产激情影院| 免费毛片视频| 视频一区视频二区中文精品| 国产在线一区视频| 国产黄色免费看| 午夜爽爽视频| 国产区成人精品视频| 久久人人97超碰人人澡爱香蕉| 91无码人妻精品一区| av在线无码浏览| 91无码人妻精品一区| 亚洲欧洲日产国产无码AV| 在线色国产| 免费看av在线网站网址| 日本黄色不卡视频| 亚洲无线一二三四区男男| 国产欧美高清| 成人中文在线| 亚洲精品不卡午夜精品| 日本成人精品视频| 亚洲国产成人麻豆精品| 欧美在线精品一区二区三区| 日韩二区三区| 爆乳熟妇一区二区三区| 国产精品v欧美| 日韩经典精品无码一区二区| 亚洲人成在线精品| 日韩经典精品无码一区二区| 亚洲国产日韩视频观看| 成人午夜天| 欧美日韩精品一区二区视频| 亚洲色欲色欲www在线观看|