999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于AUC統計量的隨機森林變量重要性評分的研究*

2016-12-26 05:38:44哈爾濱醫科大學衛生統計教研室150081張曉鳳
中國衛生統計 2016年3期
關鍵詞:重要性方法

哈爾濱醫科大學衛生統計教研室(150081) 張曉鳳 侯 艷 李 康

基于AUC統計量的隨機森林變量重要性評分的研究*

哈爾濱醫科大學衛生統計教研室(150081) 張曉鳳 侯 艷 李 康△

隨機森林(random forest,RF)[1]是高維組學數據常用的分析方法,在進行判別分析時,同時能夠給出變量重要性評分(variable importance measure,VIM)。RF的變量重要性評分通常有兩種,一種方法是通過變量值的置換計算其重要性,第二種方法是通過基尼(Gini)指數計算其重要性,由于置換法比Gini指數法具有更好的非偏倚性能,因此多采用置換法進行變量篩選[2-5]。然而,當數據類別(標簽)比例不均衡時,即收集到的數據在兩類中的數目不相同,尤其比例相差較大時,基于錯誤率(error rate,ER)的置換法不能準確反映變量的重要性。為此,Janitza等(2013)提出基于AUC統計量的評價方法,能夠克服類別間比例不平衡的影響[6]。本文在簡要介紹該方法的基礎上,通過模擬實驗和實例數據探索其適用性,并與傳統的置換法進行比較。

原理與方法

1.RF的基本思想

RF采用組合方法(ensemble method)的思想,即對樣本數據進行多次隨機抽樣產生N(通常為Ntree)個訓練樣本構造N棵分類樹(稱基分類器),在每次基分類器構建過程中,將訓練樣本以外的數據作為測試數據,稱為袋外數據(out of bag data sets,OOB),并通過錯誤率來評價基分類器性能,最后根據投票(vote)準則將基分類器組合為一個RF分類器。RF在構建分類器的過程中,通過對變量重要性排序進行變量重要性評分。

2.基于錯誤率的置換方法

基于錯誤率置換方法的變量重要性評分(VIM_ER),其基本原理是用同時隨機置換各變量值,通過計算置換前后的OOB錯誤率間的差異衡量該變量的重要性。具體地,欲獲得變量Xi的重要性評分,首先基于訓練樣本構建隨機森林,并估計所有OOB樣本的錯誤率,然后對所有OOB樣本中的變量Xi值進行打亂獲得新的袋外數據(OOB′),估算OOB′樣本的ER,最后計算兩次袋外數據的ER變化值。最后將所有OOB樣本ER變化均值作為Xi的VIM,Xi的VIM定義如下:

其中,Ntree為RF中樹的個數,ERit為變量Xi置換之前第t棵樹對應的錯誤率,ER′it為變量Xi置換之后第t棵樹對應的錯誤率。

由VIM計算公式我們知道,如果變量Xi與標簽(類別)無關聯,隨機置換該變量后對應的袋外數據錯誤率不會發生變化,理論上=0;相反地,如果>0,則說明變量Xi與分類是有關聯的。

3.基于AUC統計量的置換方法

基于AUC統計量置換法同樣能夠得到變量的重要性評分(VIM_AUC),與OOB錯誤率得到的VIM_ER原理相似,兩者區別在于后者基于錯誤率變化衡量變量重要性,前者則是基于AUC(ROC曲線下面積)值的變化評價變量重要性。這里,變量Xi重要性評分定義如下:

其中,AUCit為變量Xi置換之前第t棵樹對應的AUC值,AUC′it為變量 Xi置換之后第 t棵樹對應的 AUC值。

使用OOB錯誤率的變化作為評價變量重要性的指標時,考慮的是整體錯誤率變化情況,但最大的問題是當多數類樣本較大時,OOB錯誤率未充分考慮少數類的錯誤率,相當于賦予了多數類更高的權重。基于AUC統計量的置換方法同時考慮靈敏度和特異度,相當于對兩類各自的準確率賦予了相同的權重,直觀上,對于類別間不平衡數據而言,基于AUC統計量得到的變量重要性評分更趨于合理。

模擬實驗

1.實驗目的

(1)探索處理不平衡數據時基于ER估計VIM的偏倚性,驗證基于AUC統計量獲得VIM的合理性。

(2)比較VIM_ER和VIM_AUC對變量排序的差別,以及對差異變量和噪音變量的區分能力。

2.實驗設置

(1)模擬數據共設置65個自變量 X=(X1,…,X65)和一個應變量Y∈{0,1},其中按自變量與應變量之間的關聯程度設置強、中、弱、無四個等級,共15個變量,稱為差異變量;另外設置50個無關聯變量,稱為噪音變量,具體分布情況見表1。現設置,分組1為樣本較少一組,分組2為樣本較多一組;兩組類別樣本量不平衡的比例(n1∶n2)為 1∶1,1∶3,1∶5,1∶10,1∶15,1∶20;第一組的樣本含量分別為10和30,實驗重復100次。

(2)隨機森林構建參數設置,分類樹Ntree=1000,mtry=5,基分類器構建時抽取的訓練數據為無放回抽樣。

表1 自變量的分布參數設置

3.模擬實驗結果

(1)圖1和圖2分別給出兩組樣本量平衡和不平衡情況下,VIM_ER和VIM_AUC兩種方法的結果。圖1結果顯示,在兩組例數相同時,VIM_ER和VIM_AUC兩種方法均能真實反映變量重要性;圖2結果顯示,在兩組例數不相同、并且相差較大時(n1∶ n2=1∶20),VIM_ER方法幾乎看不到差異變量的作用,而VIM_AUC方法能更好地區分出差異變量,比VIM_ER方法更合理。

圖1 兩組樣本量平衡(n1=30,兩組樣本量比例為1∶1)

圖2 兩組樣本量不平衡(n1=30,兩組樣本量比例為1∶20)

(2)圖3給出了兩組樣本量不相同情況下,VIM_ER和VIM_AUC兩種方法區分差異變量的能力。結果顯示,隨著兩組不平衡比例增加,VIM_ER法對差異變量區分的AUC值呈下降趨勢,表明兩組樣本比例不平衡時,VIM_ER方法獲得的變量VIM得分不能很好地識別差異變量;而VIM_AUC法得到的AUC值隨著總樣本量的增加而增加,最后趨于穩定,表明VIM_AUC不受兩組樣本例數不平衡的影響。

圖4給出了在不同差異情況下,VIM_ER和VIM_AUC兩種方法得到的結果。結果顯示,差異不大和樣本量較小時,兩組不平衡比例對VIM_ER的影響非常明顯,而VIM_AUC則能夠更好地區分差異變量與噪音變量。

圖3 VIM_ER和VIM_AUC兩種方法區分15個差異變量的能力

圖4 VIM_ER和VIM_AUC兩種方法區分5個不同差異變量的能力

實際數據驗證

本文選取RNA編輯數據作為實際數據對上述兩種方法進行比較。該數據共包含2613例樣本,分為兩組,其中1306例進行了 RNA編輯,1307例未進行RNA編輯,分析變量43個[7]。為評估 VIM_ER和VIM_AUC兩種方法在不平衡情況下篩選變量的結果,對數據做以下處理:①隨機打亂43個變量形成噪音變量,加入到實際數據中,從而共有43×2=86個變量;②在第一組中隨機抽100例,同時在第二組中抽取一定比例的樣本,設置兩組例數比值分別為1∶5和1∶10。以上過程重復100次,最后計算VIM得分的平均值。

圖5分別給出了兩組樣本量平衡(1∶1)和不平衡(1∶5,1∶10)時,使用 VIM_ER和 VIM_AUC兩種方法得到的結果。結果顯示:兩組樣本量相同時,VIM_ER法與VIM_AUC法進行變量篩選后得到的VIM值排序基本相同;兩組樣本量不同時,隨著兩組不平衡程度的增加,使用VIM_ER方法得到的VIM值中很多逐漸趨于0,而VIM_AUC方法仍能給出相對準確的變量重要性評分,保持“差異變量”的VIM值相對較高,從而不會因不平衡問題改變變量的重要性排序。

討 論

1.隨機森林(RF)是由多個決策樹(基分類器)組成的分類器,能夠有效地處理非線性、交互作用、共線性以及高維等問題,同時還能夠避免過擬合,可以進行預測和變量篩選[8]。在類別間例數不平衡時,實際經常使用的方法是在計算變量重要性時使用錯誤率,相當于對例數較多的類別賦予了更高的權重,從而導致這種方法估計VIM時出現明顯的偏倚,這在實際應用中應予注意。

圖5 兩種方法的變量重要性評分(A圖1∶1,B圖1∶5,C圖1∶10)

2.在構建RF分類器時,使用AUC統計量計算VIM值,能夠在樣本例數不平衡時準確地反映變量的作用。模擬實驗和實際數據驗證的結果顯示了這種方法可以有效地解決不平衡的問題。

3.不平衡的問題主要出現在前瞻性研究中,比如癌癥患者遠遠少于健康人群。這種情況下,雖然可以使用巢式病例-對照的方法,但是如果數據完整,直接分析全部數據效果會更好,這時可以使用VIM_AUC方法進行變量篩選。

4.VIM_AUC方法也有一定的局限性,即AUC這一指標有時不夠敏感,因此今后也可以考慮使用部分ROC曲線下面積、信息量等其他統計量構建RF分類器。

[1]Breiman L.Random Forests.Machine Learning,2001.45(1):5-32.

[2]Calle M L,Urrea V.Letter to the Editor:Stability of Random Forest importance measures.Briefings in bioinformatics,2011,12(1):86-89.

[3]Strobl C,Boulesteix AL,Zeileis A,et al.Bias in random forest variable importance measures:Illustrations,sources and a solution.BMC bioinformatics,2007,8(1):25.

[4]Boulesteix AL,Bender A,Bermejo JL,et al.Random forest Gini importance favours SNPs with large minor allele frequency:impact,sources and recommendations.Briefings in Bioinformatics,2012,13(3):292-304.

[5]Nicodemus KK.Letter to the editor:on the stability and ranking of predictors from random forest variable importance measures.Briafings in Bioinformatrics,2011,12(4):369-373.

[6]Janitza S,Strobl C,Boulesteix AL.An AUC-based permutation variable importance measure for random forests.BMC bioinformatics,2013,14(1):119.

[7]Cumm ings MP,Myers DS.Simple statistical models predict C-to-U edited sites in plantmitochondrial RNA.BMC bioinformatics,2004,5(1):132.

[8]李貞子,張濤,武曉巖,等.隨機森林回歸分析及在代謝調控關系研究中的應用.中國衛生統計,2012(6):158-160,163.

國家自然科學基金資助(81473072)

△通信作者:李康,E-mail:likang@ems.hrbmu.edu.cn

(責任編輯:郭海強)

猜你喜歡
重要性方法
土木工程中建筑節能的重要性簡述
“0”的重要性
論七分飽之重要性
幼兒教育中閱讀的重要性
甘肅教育(2020年21期)2020-04-13 08:09:24
學習方法
論七分飽之重要性
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
讀《邊疆的重要性》有感
唐山文學(2016年11期)2016-03-20 15:26:04
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
主站蜘蛛池模板: 91娇喘视频| 欧美一区二区三区国产精品| 亚洲美女操| 日韩av手机在线| 波多野结衣亚洲一区| 漂亮人妻被中出中文字幕久久| 免费看美女毛片| 国产高清又黄又嫩的免费视频网站| 精品国产黑色丝袜高跟鞋| 强乱中文字幕在线播放不卡| 国产喷水视频| 色偷偷男人的天堂亚洲av| 狠狠色婷婷丁香综合久久韩国| 亚洲成人网在线观看| 婷婷99视频精品全部在线观看| 97se亚洲综合在线| 国产va在线观看| 免费无码又爽又黄又刺激网站| 免费 国产 无码久久久| 黄色免费在线网址| 欧美国产中文| 欧美亚洲一区二区三区导航| 国产中文在线亚洲精品官网| 欧美特黄一级大黄录像| 亚洲中文字幕久久无码精品A| 在线不卡免费视频| 97se亚洲综合在线韩国专区福利| 亚洲欧美成人网| 色婷婷国产精品视频| 99精品视频播放| 欧美日韩午夜| 2020亚洲精品无码| 三级视频中文字幕| 亚洲三级成人| 毛片免费在线视频| 国产中文一区二区苍井空| 91口爆吞精国产对白第三集| 亚洲欧美成aⅴ人在线观看| 91美女在线| 91精品国产自产在线老师啪l| 青青青国产视频| 全免费a级毛片免费看不卡| 亚洲欧美成aⅴ人在线观看| 找国产毛片看| 亚州AV秘 一区二区三区 | 永久免费无码成人网站| 91精品国产麻豆国产自产在线| 欧美日韩亚洲国产| 波多野结衣中文字幕久久| 91精品啪在线观看国产91九色| 成·人免费午夜无码视频在线观看 | 亚洲精品在线观看91| 国产视频久久久久| 69免费在线视频| 日日拍夜夜嗷嗷叫国产| 久久久久人妻一区精品色奶水 | 久久亚洲国产一区二区| 久久91精品牛牛| 婷婷六月天激情| 中文无码精品A∨在线观看不卡 | 日本在线欧美在线| 青青青国产在线播放| 强乱中文字幕在线播放不卡| 99激情网| 免费高清自慰一区二区三区| 高清大学生毛片一级| 国产不卡国语在线| 性做久久久久久久免费看| 国产真实乱子伦视频播放| 国产激情第一页| 青青青草国产| 国产本道久久一区二区三区| 久久无码高潮喷水| 91九色国产porny| 亚洲AⅤ永久无码精品毛片| 人妻一本久道久久综合久久鬼色| A级毛片无码久久精品免费| 国产精品夜夜嗨视频免费视频| 九九视频免费看| 成人午夜免费观看| 日本三级欧美三级| 欧美精品成人|