哈爾濱醫科大學衛生統計教研室(150086) 王璟濤 侯 艷 李 康
高維組學變量篩選方法的穩定性評價方法及應用*
哈爾濱醫科大學衛生統計教研室(150086) 王璟濤 侯 艷 李 康△
目的在高維組學變量篩選過程中,當數據發生輕微變化時,變量篩選方法篩選出的變量會發生一定的變化。本文探索如何評價篩選變量的結果是否穩定。方法通過模擬實驗,分析對比了HD、SCSR、TD、KI、CW、RCW六種穩定性評價方法的準確性及變異程度,并通過實例結合PLS、svmRFE和RF三種變量篩選方法對SCSR方法進行了考察。結果當變量排序為隨機產生時,SCSR、KI和RCW三種方法基本能夠在取各種變量數目情況下始終接近于最小值0。對于置換標簽和變量值后的數據集,PLS、RF、svmRFE三種方法的穩定性幾乎完全相同,SCSR、KI和RCW三種穩定性評價指標在取不同篩選閾值時都達到了最小期望值。在評價指標的穩定性上,HD和SCSR能夠保持很小的變異,具有更好的穩健性。結論SCSR的準確性和穩定性最好,推薦作為穩定性評價指標。
組學 高維數據 變量篩選 穩定性
在高維組學研究中,變量篩選通常用于選擇能夠提高判別模型分類效果的最小變量子集。除了提高判別效果,在高維組學中,研究人員利用變量篩選方法剔除與疾病狀態無關的噪聲變量,篩選出與疾病狀態緊密相關、對疾病狀態具有一定預測價值的變量,并將這些變量作為潛在的生物學標志物。
在進行變量篩選時,為防止判別模型的過擬合,研究人員可以按照一定比例將數據集隨機分為訓練集和測試集,在訓練集上進行變量篩選后,再利用測試集檢驗所篩變量對疾病狀態的預測能力。通常,研究人員往往更加關注篩選出的變量用于判別模型后分類性能的提高,卻經常忽略篩選變量結果的穩定性,這種不穩定性有可能降低潛在生物學標志物的可信程度。因此,在變量篩選應用中,對于特定的高維組學數據,研究評價不同變量篩選方法的穩定性,篩選出更為可靠的潛在生物學標志物十分必要。本文在介紹了六種變量篩選穩定性評價指標的基礎上,對其特點進行研究,并結合實例分析為如何選擇變量篩選方法提供一定的依據。
本文研究的穩定性是指變量篩選方法對于訓練集輕微變動的敏感性。在目前的研究中,對于穩定性的評價通常是通過對變量篩選方法在不同訓練集上篩選變量子集之間的一致性進行評價。
圖1展示了評價穩定性的一般過程[1]:①對于給定的數據集,從其中抽取比例為e的樣本形成子集,共抽取W次,得到W個樣本子集D1,D2,……,DW;②對每個樣本子集進行變量篩選,變量篩選結果以變量重要性排序的形式體現,保留每個變量排序結果中的前s個變量,得到 W個篩選變量子集:V1,V2,……,VW;③利用穩定性評價指標計算所有篩選變量子集中兩兩之間的一致性,得到一個一致性矩陣;④求所有一致性結果的均值,得到最終的穩定性評價結果。
其中,第③步是整個評價過程中的核心部分,目前有許多文章提出了評價兩個篩選變量子集之間一致性的方法。

圖1 變量篩選方法穩定性評價的一般過程
Kevin Dunne利用Hamming距離作為兩個篩選變量子集之間的一致性評價指標[2],其表達式為

其中,M為原始數據集中變量的個數;mi,mj為所有篩選變量子集中的任意兩個;cik表示所有變量中第k個變量被篩選變量子集mi納入的情況,如果該變量被納入篩選變量子集mi,則其值為1,否則其值為0。
然后,計算所有篩選變量子集兩兩之間的Hamming距離的均值,W個篩選變量子集兩兩之間共計算得到W(W-1)/2個Hamming距離,所以均值為


Barbosa提出將穩定性顯著的變量(self-consisitent selections,SCS)個數與篩選變量子集長度的比值作為評價篩選方法穩定性的指標[3],即 SCSR(self-consisitentselections ratio)。這里假設某個變量在所有篩選變量子集中被納入的次數服從二項分布,二項分布的參數P等于篩選變量子集的長度與總的變量個數M的比值。設置檢驗水準為0.01,將出現次數高于該界值的變量當做SCS,利用Holm-Bonferroni校正多重檢驗的影響。然后計算每個篩選變量子集中SCS的個數與篩選變量子集長度的比值SCSR,將所有篩選變量子集的SCSR的均值作為評價指標。
Kalousis使用Tanimoto距離作為篩選變量子集一致性的評價指標[4],統計量的計算公式為

其中,分子為任意兩個篩選變量子集交集的長度,分母為這兩個篩選變量子集并集的長度。
然后,計算所有篩選變量子集兩兩之間Tanimoto距離的均值,作為作為變量篩選方法的穩定性的評價指標,即

在兩個篩選變量子集的交集中,有一部分變量可能由于隨機波動導致。對于兩個長度相等的篩選變量子集,當一個篩選變量子集固定時,隨機產生另一篩選變量子集,則兩個篩選變量子集重合部分的變量個數服從超幾何分布,其期望值為 s2/M。Kuncheva對Tanimoto距離法進行了改進,將這一部分變量從重合部分中剔除[5],構造了兩個篩選變量子集之間一致性的評價指標Ic,其表達式為

其中,s為每個篩選變量子集的長度,r為兩個篩選變量子集的交集的長度,M為原始數據集中的變量個數。
然后,計算所有篩選變量子集兩兩之間的Ic的均值,作為作為變量篩選方法的穩定性的評價指標,即

Somol將所有篩選變量子集中包含的變量進行綜合考慮,記S為所有篩選變量子集中的變量構成的集合,篩選變量子集個數為W,每個篩選變量子集的長度均為s,所有變量出現的次數總和(即集合S的長度)為V=W*s,集合S中出現的變量個數為A(A≤M),記 Ff為其中第 f個變量出現的次數(f=1,2,…,A),因此所有變量出現的次數總和 V也等于引入了評價指標 C(S),即

這一指標的含義是計算集合S中每個變量出現的次數與所有變量出現的總次數之比的均值。
然后,在指標 C(S)中的每一項乘以一個權重wf=Ff/V,得到 CW指標[6],用以衡量加權的一致性(weighted consistency),即

上述CW未調整篩選變量子集個數W和原始數據集的變量個數M對一致性的影響,即隨著W和M的增大,CW也會隨之增大。為此,Somol計算出新的衡量指標,即首先在給定W和M的情況下CW的最大值和最小值

其中,G為V除以M后的余數,即G=mod(V/M);H為V除以W后的余數,即H=mod(V/W);然后利用最大值、最小值對CW進行調整,構建RCW指標[6],用以衡量相對加權的一致性(relative weighted consistency),即

這里,模擬的方法是對1000個變量進行隨機排序,然后分別取前 1%,5%,10%,15%,20%,25%,…,95%,100%的變量作為篩選變量子集,利用六種指標進行評價,重復100次,取其平均值。由于變量重要性的順序在每次排列時是隨機給出的,因此穩定性應接近最小期望值。結果顯示,在六種評價方法中,KI、SCSR和RCW三種統計量值基本能夠在取各種變量數目情況下始終處于最小值0附近,而其他三種方法則在變量選入數目不同時,統計量的值明顯變化;TD和CW僅在取變量總數目的1%時,其值接近于0;HD則呈拋物線狀,在任何情況下其值都不接近0(見圖2)。

圖2 各種評價指標對隨機產生的篩選變量子集的評價結果
取卵巢癌代謝組數據,其中有2106個變量,病例組140例,對照組158例。將是否患病的標簽和變量值不斷打亂,分別用偏最小二乘法(PLS)[7]、隨機森林(RF)[8]、支持向量機后退法(svmRFE)[9]進行變量篩選,并保留前 1%,5%,10%,15%,20%,25%,…,95%,100%的變量作為篩選變量子集,重復100次,然后利用六種指標進行評價。結果顯示,PLS、RF和svmRFE三種變量篩選方法的結果完全重合(見圖3),而SCSR、KI和RCW三種穩定性評價指標在取不同篩選閾值時都達到了最小期望值,與前面的結果一致。

圖3 各種評價指標對變量篩選方法在轉換數據上的穩定性的評價結果
為了對六種指標的自身穩定性進行比較,本研究進行了如下模擬實驗:模擬產生A、B兩組數據,包含20個差異變量,A組差異變量服從N(0,1)的正態分布,B組差異變量服從N(1,1)的正態分布,任意兩差異變量間的相關系數為ρ=0.9;然后加入980個噪聲(無差異變量),形成樣本數據。樣本量分別設置為30、50、100,計算各項指標的參數設置為 e=0.9,W=1000。考慮模擬的計算量較大,這里僅使用偏最小二乘(PLS)方法進行變量篩選,篩選的閾值分別取前1%、2%、3%、5%、10%、20%、50%的變量。上述過程模擬50次,然后分別計算六種指標的變異系數。結果表明:在六種評價方法中,HD和SCSR在不同情況下均十分穩定,變異系數恒接近0(圖4);KI、CW、RCW和TD則相對不夠穩定,尤其在樣本量較小情況(n=30)時,變異較大(圖4)。

圖4 不同指標的變異系數
實例取自四個數據集,包括一個代謝組數據和三個基因表達數據(見表1)。現用SCSR方法分析比較PLS、RF、svmRFE三種不同變量篩選方法得到結果的穩定性。

表1 四個數據集的相關信息
首先,將數據集進行標準化、歸一化處理。然后分別利用PLS、RF、svmRFE進行變量篩選,計算SCSR的參數設置為e=0.9,W=100,保留排序靠前的0.5%、1%、2%、5%、10%、25%、50%的變量,分別計算 SCSR。結果表明:PLS方法篩選出變量的穩定性最好,其次是svmRFE方法,穩定性最差的是RF方法(圖5)。

圖5 不同數據集上三種變量篩選方法的SCSR值
1.變量篩選方法的穩定性是指數據的輕微變動引起結果變化的情況。實際中,如果篩選出的變量具有很好的穩定性,則更有理由相信得到的結果具有較好的重現性,否則需要慎重對待得到的結果。
2.本文在簡要介紹了六種穩定性評價指標的基礎上,通過設置適當的條件和模擬實驗分析對比了六種指標的性質。結果顯示,KI、SCSR和RCW三種方法相對較好,特別是SCSR方法無論在準確性和穩定性上都具有更好的性質,是我們推薦使用的方法。
3.通過實例分析,利用SCSR在四種數據集上對PLS、RF、svmRFE三種變量篩選方法的穩定性進行了分析。結果顯示,總體上PLS的穩定性最好,svmRFE次之,RF方法的穩定性最差。
4.從應用角度看,對于代謝組數據,無論取多少變量作為“差異變量”,使用svmRFE和RF方法篩選出的變量都不夠可靠,PLS方法則顯現出很好的穩定性,從中說明了為什么PLS方法在代謝組學中有著更廣泛的應用。對于基因組表達數據,在取2%的變量作為“差異變量”時,三種方法篩選變量的穩定性相差并不大,也從另一方面說明,svmRFE和RF方法可能對“差異大小”更為敏感,很可能基因組表達數據中大概只有2%的基因是真正的差異基因,這與文獻報道一致。
[1]Salem A,Zheng Z,Huan L.A Dilemma in Assessing Stability of Feature Selection Algorithms.International Conference on High Performance Computing and Communications Banff:IEEE,2011:701-707.
[2]Kevin D,Padraing C,Francisco A.Solutions to Instability Problems with Sequential W rapper-based Approaches to Feature Selection.Journal of Machine Learning Research,2002,2:748-769.
[3]M iron BK.Robustness of Random Forest-based gene selection methods.BMC bioinformatics,2014,15(1):8-15.
[4]Kalousis A,Prados J,Hilario M.Stability of feature selection algorithms:a study on high-dimensional spaces.Know ledge and Information Systems,2007,12(1):95-116.
[5]Kuncheva LI.A stability index for feature selection.IASTED International Multi-Conference:artificial intelligence and applications Innsbruck:IASTED,2007:390-395.
[6]Somol P,Jana N.Evaluating the Stability of Feature Selectors That Optimize Feature Subset Cardinality.Proceedings of the 2008 Joint IAPR International Workshop on Structural,Syntactic,and Statistical Pattern Recognition,2008:956-966.
[7]武海濱,張濤,趙發林,等.基于偏最小二乘線性判別分析的遺傳算法在代謝組學特征篩選中的應用.中國衛生統計,2013,30(4):517-520,524.
[8]武曉巖,李康.隨機森林方法在基因表達數據分析中的應用及研究進展.中國衛生統計,2009,26(4):437-440.
[9]武振宇,李康.支持向量機在基因表達數據分類中的應用研究.中國衛生統計,2007,24(1):8-11.
[10]Uriarte R,Andres SA.Gene selection and classification of microarray data using random forest.BMC bioinformatics,2006,7(1):3-15.
Theory and Application of Stability Measurement of Vaviable Selection Methods in High-dimensional Data
Wang Jingtao,Hou Yan,Li Kang(Department of Health Statistics,School of Public Health,Harbin Medical University(150086),Harbin)
ObjectiveIn the process of feature selection,the results of feature selection methods will be diffierent as instances vary slightly.Our research is to study how to measure the stability of the feature preference.MethodsWe perform simulation experiments to compare the accuracy and variation degree of six measurement of stability:HD,SCSR,TD,KI,CW,RCW.SCSR is further studied by applying PLS,RF,svmRFE to real data.ResultsWhen the feature preference is generated randomly,SCSR,KI,RCW are always close to them inimumnomatter the number of features remained.When we apply PLS,RF and svm-RFE to the data which labels and value of features is permutated and measure stability of results,the stabilities of PLS,RF and svmRFE are almost identical,and SCSR,KI,RCW are still close to them inimum no matter the number of features remained.In the terms of stability of measures themselves,the variation of HD and SCSR are small,this two measures have better robustness.ConclusionSCSR performs best in the terms of accuracy and variation degree,and is recommended by us as the measure of stability.
Omics;High-dimisional data;Feature selection;Stability
國家自然科學基金資助(81473072)
△通信作者:李康,E-mail:likang@ems.hrbmu.edu.cn
(責任編輯:郭海強)