哈爾濱醫科大學衛生統計教研室(150081) 楊 凱 侯 艷 李 康
?
條件推斷森林在高維組學數據分析中的應用*
哈爾濱醫科大學衛生統計教研室(150081) 楊 凱 侯 艷 李 康△
【提 要】 目的 探討條件推斷森林(CIF)在自變量相關情況下變量篩選和分類研究中的應用。方法 通過模擬實驗和實例比較RF和CIF的變量篩選和分類,并通過變量重要性評分和OOB錯誤率進行評價。結果 模擬實驗表明,在自變量相關的情況下,CIF的變量篩選結果明顯優于RF的變量篩選結果;實例數據分析結果表明,CIF篩選出變量的OOB錯誤率低于RF。結論 CIF適用于變量相關的情況,具有實用價值。
【關鍵詞】條件推斷森林 相關 變量篩選
近年來,基因組學、蛋白組學和代謝組學等高通量檢測技術得到迅速發展,產生了大量的高維組學數據。高維組學數據變量的數量遠大于樣品例數,不適合使用傳統的統計學方法,多變量分析容易出現“過擬合”和“維數災難”問題[1]。高維組學數據的分析主要包括特征標志物的篩選和判別分析,使用最普遍的多變量分析方法是主成分分析和偏最小二乘判別分析。隨機森林(random forest,RF)是近年發展起來并廣泛使用的高維組學數據分析方法[2],這種方法在對數據進行處理的同時能夠給出變量重要性評分(variable importance measures,VIM),據此可以進行變量篩選。然而,當自變量間存在共線性時,根據VIM評分篩選變量會出現一定的問題,即可能降低差異相關變量的VIM值,提高無差異變量的VIM值[3-4]。為此Strobl等(2008)提出條件推斷森林(conditional inference forest,CIF),對RF的隨機置換方法進行改進,計算得到條件變量重要性評分(conditional variable importance measures,cVIM),能夠提高自變量存在共線性時VIM的準確性。本文將CIF用于分類研究,通過模擬實驗證明其變量篩選效果優于RF,并應用于基因組學數據中。
1.RF中的變量重要性評分VIM
設有m個變量,n個觀測對象,RF通過隨機置換計算VIM的基本原理為:使用所有自變量X和應變量Y建模,并計算袋外數據(OOB)的預測錯誤率,然后通過隨機置換自變量Xj打亂其與應變量Y的關系,再次建模并計算OOB的預測錯誤率,如果自變量Xj(j =1,2,…,m)對應變量Y有預測作用,則自變量Xj隨機置換后模型對OOB的預測錯誤率會顯著增加。Breiman提出使用自變量Xj置換前后模型對OOB的預測錯誤率差值在所有樹中的平均值作為自變量Xj的VIM。Xj在第t棵樹中的VIM值定義為

自變量Xj在ntree棵樹中的平均VIM值為

2.自變量相關時VIM的問題
RF通過隨機置換計算的VIM值會高估相關變量的作用,其原因是在對變量Xj進行隨機置換時不僅打亂其與應變量Y的關系,同時也打亂了與其它自變量X-j=X1,…Xj-1,Xj +1,…,Xm的關系,使自變量X1,…,X12和應變量Y的聯合分布改變,而自變量Xj的VIM指隨機置換Xj前后對OOB數據Y預測錯誤率的影響。事實上,VIM是隨機置換Xj前后對X和Y聯合分布的影響,包含Xj置換前后對Y和X-j的影響。當Xj和X-j、Y獨立時,隨機置換Xj不會影響X和Y的聯合分布,即VIM(Xj)=0;當Xj和X-j、Y不獨立時,隨機置換變量Xj會改變X和Y的聯合分布,即VIM(Xj)>0。因此,當自變量Xj與X-j、Y不獨立時,自變量Xj的VIM值包含Xj對X-j的影響,此時Xj的VIM值被高估。
3.條件推斷森林(CIF)的原理及cVIM的計算
為了減小VIM中隨機置換Xj前后對X-j的影響,可以使用CIF方法,即分層隨機置換的方法(按照X-j進行分層)保留Xj和X-j的部分相關結構。具體算法如下:
(1)建立隨機森林(RF)。

(3)計算Xj與其它自變量的相關系數,根據檢驗P值給出相關變量子集Xs(Xs?X-j)。
(4)根據森林中的每棵樹中變量在樹生長過程中確定的閾值把樣本分到不同層。

(6)計算Xj在第t棵樹中的cVIM值,即

則自變量Xj在ntree棵樹的平均cVIM值為

在計算自變量Xj的cVIM時,分層變量Xs可以通過指定與變量Xj的相關系數或P值確定。
上述計算過程可以使用R語言party包[5]實現。
1.條件設置
(1)為了說明cVIM在自變量獨立時評價的準確性和在自變量相關時的優勢,分別設計兩個模擬實驗進行考察。模擬實驗共設置12個自變量X =(X1,X2,…,X12)和1個應變量Y,產生數據的模型為:

其中,自變量X1,…,X12服從N(0,Σ)的多元正態分布,所有自變量的方差σj均為1,誤差e服從N(0,0.5)的正態分布,回歸系數βj的設定如下表1。當自變量獨立時,設變量間的協方差為0,即σjk=0(j≠k);當部分自變量相關時,設變量X1,…,X4的協方差為0.9,即σjk=0.9(j≠k≤4),其余變量的協方差設為0。由于變量的方差σj=1,變量間的協方差等于相關系數。分類時,應變量Y大于均值-Y設為一組,小于均值-Y設為另一組。

表1 模擬實驗模型自變量系數的設置
(2)RF和CIF中樹的數量ntree=500,每棵樹每個節點的備選分枝變量mtry分別設置為1、5、8,把自變量間相關系數檢驗結果P≤0.5的變量作為分層變量Xs進行分層隨機置換。
(3)為比較VIM和cVIM兩種統計量的排序,對VIM和cVIM進行離差標準化,消除兩種變量重要性變異大小的影響,并使數值落在[0,1]內。離差標準化的方法為

2.模擬實驗結果
(1)圖1給出了自變量獨立時VIM和cVIM的結果(只給出mtry=5)。結果顯示,VIM和cVIM均正確得出不同自變量的重要性,X1、X2、X5和X6是差異大的變量,X3和X7是差異小的變量,其余變量是無差異變量。
(2)圖2給出了部分自變量相關時VIM和cVIM的結果。結果顯示,當mtry=1時,對于隨機森林(RF),由于差異小的變量(X3)和無差異變量(X4)與差異變量X1、X2相關,它們的VIM明顯高于差異大的獨立變量(X5和X6)(見圖2A);對于條件推斷森林(CIF),差異小的相關變量(X3)和無差異的相關變量(X4)的cVIM則明顯低于差異大的獨立變量(X5和X6),更真實反映出變量在分類中的重要性(見圖2B)。

圖1 自變量獨立時VIM和cVIM的評價結果

圖2 部分自變量相關時兩種VIM的評價結果
當mtry增加,對于RF,差異大的變量(X1、X2、X5和X6)的VIM明顯高于其他變量,差異小的相關變量(X3)和無差異的相關變量(X4)的VIM值仍然被高估(見圖2C和圖2E);而CIF則能明顯降低無差異的相關變量(X4)的重要性評分,使其更加接近獨立無影響變量(X8~X12)(見圖2D和圖2F)。
本文實例數據選自40例結腸癌患者和22例正常對照結腸組織的2000個基因表達數據[6],分別使用RF和CIF對數據進行變量篩選,樹的數量ntree=500,備選分枝變量現對VIM和cVIM的變量篩選結果進行比較。
圖3給出了VIM值前50基因的兩種VIM值,其中有6個基因,即G1671、G49、G399、G1946、G257和G1263,其cVIM值為0,表明這些基因很可能與其它基因存在共線性,而對結腸癌患者和正常對照的分類和預測沒有作用。
圖4給出了RF和CIF不同變量個數OOB的預測錯誤率,使用兩種方法篩選出的不同個數基因建模并對OOB進行預測。結果顯示,當選擇的變量個數相同時,CIF的OOB錯誤率明顯低于RF的OOB錯誤率,即CIF需要較少的變量個數使OOB錯誤率達到穩定。更重要的是,用CIF選入的變量相對更為穩定和可靠。

圖3 VIM值(A)前50的變量重要性評分及對應的cVIM評分(B)

圖4 RF和CIF不同變量個數的OOB預測錯誤率
1.隨機森林(RF)是由決策樹組成的組合分類器,對復雜數據具有良好的適應性,能夠有效地分析非線性、共線性和具有交互作用的數據[7],在對數據進行處理的同時能夠給出變量重要性的VIM值。
2.在自變量相關的情況下,RF的VIM評價方法很可能不夠準確。即無論變量是否對分類有作用或者作用大小,其重要性很可能高估。本文給出的條件推斷森林(CIF)得到的cVIM值則能夠顯著地降低共線對VIM的影響,更真實地反映自變量X對應變量Y的作用。
3.節點備選分枝變量個數mtry的選擇會影響變量重要性評分的計算。當mtry=1時,兩種算法都會高估相關變量的重要性,但VIM會使得差異小的相關變量和無差異相關變量的重要性大于差異大的獨立變量,cVIM則不會出現這種情況。在應用過程中,可以選擇作為備選分枝變量的個數。
樹的數量ntree會影響變量重要性評分計算的穩定性。在應用過程中,選擇足夠大的ntree能夠保證種子數不同時RF和CIF對變量重要性評價的穩定性。
4.高維組學數據具有高維小樣本特性,很可能存在大量的相關變量。在變量相關時,與RF篩選出的變量相比較,CIF篩選變量具有更好的靈敏度和特異度,通常其判別的OOB錯誤率低于RF篩選出的變量。
5.CIF使用分層隨機置換的方法計算變量的重要性,高維組學數據的變量數目巨大,分層隨機置換的速度比較慢。Schwarz等人[8]開發出的隨機叢林(random jungle,RJ)軟件包(現為Ranger軟件包)可以實現CIF在多核計算機上的并行運算,極大的提高CIF的運行速度。
參考文獻
[1]柯朝甫,張濤,武曉巖,等.代謝組學數據分析的統計學方法.中國衛生統計,2014,31(2):357-359.
[2]Breiman L.Random Forests.Machine Learning,2001,45(1):5-32.
[3]Strobl C,Boulesteix AL,Kneib T,et al.Conditional variable importance for random forests.BMC bioinformatics.2008,9(307).
[4]Nicodemus KK,Malley JD,Strobl C,et al.The behaviour of random forest permutation-based variable importance measures under predictor correlation.BMC bioinformatics,2010,11(110).
[5]Hothorn T,Hornik K,Strobl C,et al.party:A Laboratory for Recursive Partytioning,2010.
[6]Alon U,Barkai N,Notterman DA,et al.Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays.Proceedings of the National A-cademy of Sciences,1999,96(12):6745-6750.
[7]李貞子,張濤,武曉巖,等.隨機森林回歸分析及在代謝調控關系研究中的應用.中國衛生統計,2012,29(2):158-160,163.
[8]Schwarz DF,K?nig IR,Ziegler A.On safari to Random Jungle:a fast implementation of Random Forests for high-dimensional data.Bioinformatics,2010,26(14):1752-1758.
(責任編輯:郭海強)
The Application of Conditional Inference Forest to the Analysis of High-dimensional Omics Data
Yang Kai,Hou Yan,Li Kang(Department of Medical Statistics,Harbin Medical University(150081),Harbin)
【Abstract】Objective To explore the application of conditional inference forest(CIF)in variable selection and classification in the case of independent variable correlation.Methods We use simulated experiment and actual data to compare the variable selection and classification of RF and CIF,and then variable importance measures and OOB estimate of error rate were used to evaluate these two methods.Results Simulation experiment suggested that variable selection of CIF was obviously better than the result of RF in the case of independent variable correlation.Analysis results of actual data suggested that OOB estimate of error rate of variables selected by CIF was lower than variables selected by RF.Conclusion CIF was applicable to independent variable correlation and possessed practical value.
【Key words】Conditional inference forest;Correlation;Variable selection
*基金資助:國家自然科學基金資助(81473072)
通信作者:△李康,likang@ ems.hrbmu.edu.cn