999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

DNA微陣列數據判別的旋轉森林方法

2012-03-11 14:01:34陳金甌
中國衛生統計 2012年4期
關鍵詞:分類特征

陳金甌 柳 青

DNA微陣列技術的出現使得我們可以同時檢測成千上萬個基因表達水平。基因表達數據分析的一個重要部分是通過表型(是否患疾病,疾病類型,疾病預后情況等)已知的樣本,運用基因表達水平數據建立判別模型,以識別未知樣本的分類,并期望獲得良好的分類效果,這對疾病的分子分型、診斷、篩查和治療等研究都有很重要的意義。目前應用于微陣列數據的基因分類方法主要有:(1)傳統統計學方法,如logistic回歸、Fisher線性判別;(2)機器學習方法,如分類與回歸樹(CART);(3)集成分類系統(ensemble classification system),如 Boosting,Bagging和隨機森林(random forest)〔1-2〕;(4)其他方法,如支持向量機(SVM)和神經網絡(NN)等。集成分類系統由于其優良的分類性能得到人們的重視。它通過多個子分類器的學習,用投票(voting)的方法得到判別結果,使得分類結果更加準確、穩定,泛化誤差和推廣能力也較單個分類器強。近期出現的眾多算法中,旋轉森林(rotation forest)是一種建立在隨機森林基礎之上的數據判別分類方法。它具有隨機森林算法的優點:可應用于高維小樣本數據,不容易過擬合等;且它的分類性能更加優良。本研究首先介紹旋轉森林算法,并應用旋轉森林算法對公開的基因表達譜數據進行分類判別分析,調整算法參數以初步探究旋轉森林的分類性能。

基本原理和算法過程

旋轉森林是2006年提出的一種分類器集成系統,其基本設計思想建立在隨機森林算法基礎之上〔3-4〕。旋轉森林把原特征空間分割成若干子集,之后對每個子集分別進行某種線性變換,如主成分分析(principal components analysis,PCA),保留所有主成分的情況下,將得到的變換分量分別按照這些子集原來對應的順序合并,這樣每次隨機分割后得到的數據都被投影到不同坐標空間中,因而形成差別較大的分量子集,用這些分量自己訓練分類器,能夠得到差異度很大且分類性能較高的基分類器,以提高集成系統的分類性能。

算法如下:在包含了n個特征的x=[x1,…,xn]T數據集中,x是樣本量為N的N×n矩陣,它們構成了特征集F,Y是與之對應的分類變量y=[y1,…,yN]T,分類取值為{ω1,…,ωc}。在微陣列表達數據中,通常以基因表達量為特征集,表型為分類變量。算法中有兩個重要參數需要定義:即數據集分割數目K;以及集成分類系統的基分類器數目L。在集成分類系統中,一般包含L=D1,…,DL個子分類器。

第一步,首先將特征集F隨機分割為K個子集,每個子集含有M=n/K個變量,為簡單起見,一般設定K為n的一個因數。由于是隨機分割,這些子集中的變量可以相同,也可以是不同的。

第二步,Fij是用于訓練子分類器Di的第j個特征子集。對應于每一個特征子集Fij,Xij為X中包含特征Fij的樣本子集。對Xij'采用bootstrap重采樣技術,隨機且有重復的抽取75%的個體,構成新的bootstrap樣本集Xij'。隨后對Xij'進行某種線性變換,一般采用主成分分析,并且記錄生成的系數矩陣 Cij,用 a1ij,…,表示其系數,它們都是M×1的向量。值得注意的是,可能得到的特征值為0,導致Mj≤M。在特征子集而不是全數據集上進行線性變換的目的是為了避免用相同的系數矩陣來構建子分類器。

第三步,用已經獲得的系數矩陣Cij構造一個稀疏的“旋轉”矩陣Ri

由于bootstrap過程打亂了數據順序,為了計算子分類器Di的訓練集,需對矩陣Ri中的每一列都按原始特征集重新排序,重新排序后得到的旋轉矩陣記為Ra

i,它是一個N×n的矩陣。對于子分類器Di,旋轉變換后的訓練集為X'=

第四步,在分類階段,對新樣本x也需要進行旋轉變換,變換后的新樣本x'=設 dij()為子分類器Di判定樣本x屬于類別ωc的概率,則將該樣本分配為某個類別的可信度為:

樣本x以最大可信度判斷其所屬的類別。

實例分析

本文采用Bioconductor平臺的四個經典基因微陣列數據〔5〕。分析包含結腸癌(colon),白血病(golub),急性淋巴細胞白血病(ALL),彌漫大B細胞淋巴瘤(DLBCL)四個數據集。colon數據以腫瘤患者和正常人為分類變量。golub數據以白血病種類ALL/AML(急性淋巴細胞白血病/急性髓細胞樣白血病)為分類變量。ALL數據集協變量較多,這里分別取是否復發(ALL1),是否有多重耐藥性(ALL2),以及是否有連續癥狀緩解(ALL3)作為分類變量。DLBCL以生存和死亡作為分類變量。

數據預處理用R軟件完成,用幾個數據集標準預處理方法進行〔6〕。colon用loess法進行歸一化,golub先使最小值100最大值16000,而后對數據進行對數轉換和歸一化。Bioconductor平臺的ALL數據已進行歸一化和預處理,DLBCL用KNN法填補缺失值。數據分析用新西蘭Waikato大學開發的數據挖掘軟件Weka進行〔7〕。所有分類器都以10折交叉驗證(10-folod cross validation)評估分類性能。

原始數據集基因數較多,會給分類器帶來較大的計算負擔,直接利用原始基因表達譜數據建立模型并不現實,因此在建立分類模型之前需要提取對分類重要的特征。六個數據集以SAM(significant analysis of microarray)法獲得在兩組間差異表達的基因〔8〕。其中colon,golub數據集以FDR<0.001為準,得到相應差異表達基因。由于SAM法控制假陽性率較為嚴格,ALL1,ALL2,ALL3,DLBCL 數據得到差異表達基因過少,采用調整后的P<0.001作為差異基因入選標準。得到六個用于分類和判別分析的數據集。對數據集的描述見表1。

1.不同分類器分類效果的比較

所有分類器在默認參數設置下進行分類情況的比較,比較十種分類器的分類準確性,比較的分類方法為:旋轉森林(RoF)、AdaBoost、LogitBoost、隨機森林(RF)、Bagging、CART、J48、支持向量機(SVM)、神經網絡(NN)和logistic回歸。旋轉森林的參數設置是K=3;集成規模L=10,即有10顆子樹;基分類器為剪枝的J48決策樹(J48是對C4.5的一種擴展);線性變換方式為PCA。得到各分類器在各個數據集上的分類正確率見表2。

表2 十種常用分類器分類結果比較

按每個數據集上各個分類器分類準確性排序編秩,若秩次相持則按平均秩次計算,各秩次相加得到分類器在六個數據集上的得分(score),對得分排序得到分類器分類性能的rank。

從表2可以看出,在所有參數默認的情況下,對六個數據集的分類效果旋轉森林(RoF)為最佳。其次的是LogitBoost和支持向量機。

2.線性變換方式,基分類器是否剪枝對分類性能的影響

線性變換方式是旋轉森林的重要參數之一。除主成分分析外,還有兩種隨機映射(random projection,RP)可以選擇〔9〕。同時,對于基分類器J48決策樹,可采取剪枝和不剪枝兩種策略。線性變換方式和剪枝(pruning)、未剪枝(unpruning)對分類性能的影響見表3。

表3 旋轉森林不同線性變換方式和是否剪枝的分類結果比較

對表3中同一線性變換方式下是否剪枝,以及不同線性變換方式下剪枝和不剪枝的分類準確性分別作配對t檢驗,P>0.05,分類效果間差別無統計學意義。

3.基分類器的選擇

對旋轉森林的基分類器,Weka提供了多種選擇。除了算法內嵌的J48,其他常用的決策樹有:(1)Decision Stump,一種只一次進行分裂的最簡單的決策樹;(2)CART,分類與回歸樹;(3)Random Tree,在每個節點隨機抽取變量進行分裂的決策樹;以及(4)Best First Tree,掃描數據庫,以熵不純度下降最快的變量作為分裂節點的決策樹。結果見表4。

表4 旋轉森林不同基分類器的分類結果比較

對表4中各不同分類器分類結果進行配對t檢驗,P>0.05,分類效果間差別無統計學意義。

4.參數 K

對旋轉森林的參數K的設置是否會影響分類性能,我們取 K=1,2,…,10,得到結果見圖 1。

專業英語詞匯量大是商務英語的特點,盡管這些專業詞匯和普通英語詞匯不一樣,但是這些專業詞匯來源于具體使用的工作環境中,為了讓商務英語廣泛應用在農產品對外貿易中,與談判相關的工作人員應該積累大量的商務英語專業詞匯,使用專業詞匯表達貿易雙方的意思,而且使用的專業詞匯也要符合世界通用的標準,不然會造成誤差。

圖1 旋轉森林參數K對分類性能影響的比較

5.特征數(feature size)

特征數是影響分類器分類性能的一個重要因素,而SAM法只能選取基因表達譜中特定數目的差異基因。為了比較不同特征數對旋轉森林分類性能的影響,在此我們按照P值對基因進行排序,分別取幾個數據集的前 5,10,15,20,25,30,40,50,60,70,80,90,100個差異基因進行分析,分類準確性的結果見圖2。

6.集成規模(ensemble size)

集成分類系統的集成規模L是算法的重要參數,在此我們設置起始為5個子分類器,間隔為5,直到集成規模為 100,L=5,10,15,…,100,同時分別測試三種線性變換方式PCA,RP1,RP2對旋轉森林分類性能的影響,結果見圖3。

討 論

本研究應用旋轉森林算法對六個DNA微陣列數據集進行判別分類的分析,除了對DLBCL數據分類結果不佳,分類準確率為0.663,其余數據集分類準確性均大于0.7。集成分類系統的分類準確性優于單個分類器。集成系統中旋轉森林和LogitBoost的分類表現強于單個分類器支持向量機,而集成的Bagging也強于傳統的logistic回歸。有研究表明,集成分類系統分類性能是由基分類器的分類精度和各基分類器之間的差異決定的〔4〕。在旋轉森林算法中,采用PCA等線性變換會增大基分類器之間的差異,若變量之間相關性較強,這種線性變換也可以旋轉坐標軸以提高基分類器的分類精度,進而提高整個集成系統的分類性能。其他研究顯示,對UCI的33個機器學習標準數據庫進行測試,旋轉森林的分類性能優于其他集成算法〔10〕。

圖2 不同特征數對旋轉森林分類性能的影響

圖3 旋轉森林不同集成規模以及三種不同線性變換方式的分類結果比較

對不同分類器比較中發現一個現象,傳統的logistic回歸分類性能受n/p影響較大,在n/p很小時,即高維、樣本量較小時(對應第1,2個數據庫),它的分類性能明顯較集成系統差。而在n/p較大時,以DLBCL數據為例,logistic回歸的分類性能較其他分類器好。

在對旋轉森林參數設置的比較中,得到如下幾個方面的結論:基分類器是否剪枝以及不同的基分類器選擇對旋轉森林分類性能影響不大,旋轉森林在這兩個方面穩定性較強。參數K對分類性能影響在p較大的數據集中算法表現穩定,而在對p較小的ALL1數據分析時,不同的K值對旋轉森林分類效果影響較大。對于不同的特征數目,按照差異基因的顯著性,即p值排序,前5到10個差異基因似乎已經能夠提供足夠多的分類信息,而增加差異基因數量并不能顯著地提升分類器的性能。對于數據集如ALL3,甚至出現分類效果隨特征數下降的現象,這說明在執行分類任務時尋找差異基因的重要性,過多的基因也許提供了冗余信息,增加了分類器的計算負擔的同時降低了分類性能。集成規模L的初始值為5,開始時隨著集成規模的增加旋轉森林分類性能也在提高,但集成規模達到一定程度后,分類能力基本穩定,不再隨集成規模的增加而變化。這也說明集成分類系統相對單個決策樹分類穩定性更強,分類準確性更高,泛化誤差的推廣能力也更強。在不同的集成規模下使用不同的線性變換方式,在colon,golub和DLBCL三個數據集上,PCA和RP2分類性能優于RP1;而在ALL1數據庫,PCA劣于RP1和RP2。這可能是不同數據集數據結構不同造成的。某種線性變換是否能在某個數據集上提供更精確的基分類器,能否增加基分類器之間的變異是決定集成系統分類性能的關鍵。

由于計算復雜性較高,本研究只采用分類準確性這個指標對分類效果進行評價,將來的研究需要用更多指標,如敏感度和特異度對分類效果進行更加全面的評價。未來應采取數據模擬方式探索旋轉森林的分類性能,如在數據集中增加缺失值,以及對非平衡數據的研究。在算法參數設置方面,可以探索其他線性變換方式。

1.武曉巖,閆曉光,李康.基因表達數據的隨機森林逐步判別分析方法.中國衛生統計,2007,24(2):151-154.

2.李康,武曉巖.隨機森林方法在基因表達數據分析中的應用及研究進展.中國衛生統計,2009,26(4):437-440.

3.Breiman L.Random forest.Machine Learning,2001,45:5-32.

4.Guez JR,Kuncheva L.Rotation forest:a new classifier ensemble method.IEEE Transaction on Pattern Analysis and Machine Intelligence,2006,28(10):1619-1630.

5.http://www.bioconductor.org.

6.Jeffery IB,Higgins DG,Culhane AC.Comparison and evaluation of methods for generating differentially expressed gene lists from microarray data.BMC Bioinformatics,2006,7(1):359-375.

7.http://www.cs.waikato.ac.nz/ml/weka.

8.Tusher VG,Tibshirani R,Chu G.Significance analysis of microarrays applied to the ionizing radiation response.Proc Natl Acad Sci USA,2001,98(9):5116-5121.

9.Fradkin D,Madigan D.Experiments with random projections for machine learning.New York,NY,USA,2003.

10.Kuncheva LI,Rodrigue J.An experimental study on rotation forest ensembles.Lecture Notes in Computer Science,2007,4472:459-468.

猜你喜歡
分類特征
抓住特征巧觀察
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 天天躁狠狠躁| 91久久青青草原精品国产| 无码又爽又刺激的高潮视频| 午夜无码一区二区三区| 美女高潮全身流白浆福利区| 欧美一区国产| 成人一区专区在线观看| 成人国产三级在线播放| 国产主播喷水| 亚洲高清在线天堂精品| 在线看片中文字幕| 亚洲手机在线| 一级毛片网| h视频在线观看网站| 亚洲乱码精品久久久久..| 国产小视频免费观看| 欧美日韩一区二区三| 亚洲视频在线网| 国产va欧美va在线观看| 国产激情无码一区二区免费| 亚洲国产天堂久久综合226114 | 国产精品yjizz视频网一二区| 精品自窥自偷在线看| 999在线免费视频| 国内精品久久人妻无码大片高| 免费jjzz在在线播放国产| 亚洲第一成年人网站| 亚洲福利片无码最新在线播放 | 91九色国产porny| 国产精品99一区不卡| 国产亚洲精久久久久久久91| 欧美特黄一级大黄录像| 国产成人成人一区二区| 欧美日韩国产精品va| 亚洲视屏在线观看| 露脸真实国语乱在线观看| 久久 午夜福利 张柏芝| 女人18毛片一级毛片在线| 国产精品视频第一专区| 午夜毛片福利| 久久99热这里只有精品免费看| 精品国产香蕉伊思人在线| 亚洲日韩久久综合中文字幕| 人妻丰满熟妇av五码区| 欧美综合区自拍亚洲综合天堂| 久久91精品牛牛| 色婷婷电影网| 亚洲三级成人| 国产丝袜一区二区三区视频免下载| 天天视频在线91频| 欧美色综合网站| 2020国产精品视频| a级高清毛片| 在线国产91| 欧美一级色视频| 在线看片国产| 久久男人视频| 日韩午夜伦| 四虎影视8848永久精品| 久久国产精品电影| 制服丝袜无码每日更新| 日本黄网在线观看| 日日噜噜夜夜狠狠视频| 国产亚洲高清在线精品99| 日韩在线中文| 国产精品流白浆在线观看| 亚洲日韩久久综合中文字幕| 国产剧情一区二区| 免费国产无遮挡又黄又爽| 国产成人久视频免费| 欧美三级视频在线播放| 天堂va亚洲va欧美va国产| 一本综合久久| 97视频免费看| 亚洲欧洲日韩国产综合在线二区| 在线看国产精品| 亚洲天堂日韩av电影| 日韩大片免费观看视频播放| 久久女人网| 99人妻碰碰碰久久久久禁片| 免费jizz在线播放| 在线观看国产小视频|