侯 艷 謝宏宇 張曉鳳 李 康△
·方法介紹·
高維組學數據的變量篩選方法及其應用*
侯 艷1,2謝宏宇1張曉鳳1李 康1△
隨著生物檢測技術的不斷發展,實際中可以獲得基因組、蛋白質組和代謝組等各種來源的高維組學數據,如何從海量數據中準確選擇與疾病有關的特征變量,從而構建準確的預測模型一直是國內外的研究熱點。變量篩選問題可歸結為從一組檢測數據Χ=(Χ1,Χ2,…,Χm)中篩選出對分類/預測有區分作用的“最優”子集Χsub。目前高維組學變量篩選方法主要有傳統的統計學方法和機器學習方法,前者主要分為參數和非參數方法兩類,這部分主要是基于概率分布的統計推斷;后者主要包括有監督學習(supervised learning)和無監督學習(unsupervised learning)算法,其主要差別為在訓練集中是否用到分組信息。本文主要針對常見的單變量篩選方法和多變量有監督學習的變量篩選方法做一介紹。
過濾式變量篩選方法(filtermethods)是指通過觀察到的原始數據,計算變量與疾病之間的相關性指標(如t值,P值等),并通過設定閾值選擇特征變量,去除相關性較弱或組間差異不大的變量,從而直接得出與疾病具有一定關聯性的特征變量的一類方法。由于這類篩選方法獨立于判別模型(分類器),因此通過這類方法選擇出來的特征變量可以用于評價不同判別(預測)模型的效果。過濾式方法的優點是計算簡單、能夠快速地降維,并且不依賴特定的判別模型;缺點主要是忽略了特征變量之間可能存在的相關關系,因此在與其他類型變量選擇方法相比較時,分類效果并不理想。同時變量篩選的結果很大程度上受到閾值影響,如何確定閾值也是需要考慮的問題之一[1]。
單變量過濾方法由于其計算簡單直接,而成為目前較為常用的一類變量篩選方法。常用的單變量過濾式篩選方法包括Satterthwaite近似t檢驗、Wilcoxon秩和檢驗、ROC曲線下面積、置換檢驗(permutation test)、互信息(mutual information)、welch t檢驗、χ2檢驗、SAM(significance analysis of microarrays)、SAMROC(significance analysis of ROC indices)等[2],其中χ2檢驗主要用于結構基因組的 SNP分析[3],SAM和SAMROC方法主要用于基因表達數據分析[4],其他方法則可以應用于各種組學數據的特征變量篩選。

圖1 過濾式變量篩選方法過程
SAM法的基本原理是在傳統t檢驗公式的分母中加上一個較小的正數s0(取值通過樣本數據計算),從而避免將表達水平和變異程度均較低的無生物學意義的基因識別為差異表達基因[5]。SAMROC方法則是按照另一種原則計算SAM法中的修正參數s0,其基本思想是選擇一個合適的s0,使篩選出的“差異基因”能夠保證具有最小的假陽性率和假陰性率[6]。置換檢驗則是通過不斷打亂分類標簽,形成原假設的分布,在此基礎上進行檢驗。以上方法均首先需要對變量的重要性排序,在此基礎上通過選擇合適的閾值給出篩選的結果。實際上,閾值的選擇主要根據檢驗的P值確定,例如Bonferroni校正P值或FDR(false discovery rate)。在高維組學數據中,Bonferroni校正 P值的方法篩選變量過于嚴格,因此更多使用的是FDR校正后的P值,其代表該變量為假陽性的概率估計值。需要注意的是,使用FDR校正后的P值需要基于變量間獨立的假設,而實際數據常常并不能滿足這一條件,因此得到的P值是一個“近似值”[7]。
由于單變量過濾方法假定變量間相互獨立,并沒有考慮到變量之間的相互關系,因此提出了多變量過濾方法,意在去除信息重疊的自變量以及篩選具有簡單交互作用的變量。
(1)基于關聯的特征選擇方法
基于關聯的特征選擇方法(correlation-based feature selection,CFS)是一種基于相關性實現變量篩選的方法,主要思想是通過計算各子集中每個變量與類別的關聯度及變量之間的冗余度來實現最終變量的篩選過程,其中關聯度越大、冗余度越小則效果越高[8]。在CFS算法中,利用信息增量計算變量之間的關聯大小,根據基于相關性的啟發式評價函數max{H(Rij)}選擇變量組合,其中Rij為所有變量的關聯矩陣。評價函數的特點是自變量與因變量高度相關,而自變量之間盡量不相關。
(2)基于馬爾科夫毯的特征變量篩選方法
馬爾科夫毯(Markov blanket)是指在一個網絡中,目標結點的父結點、子結點和配偶結點。實際中可以把標簽變量作為目標結點,通過尋找其馬爾科夫毯屏蔽網絡中其他變量對該變量的影響,即選擇與標簽變量具有直接關系的變量[9]。貝葉斯網絡,給定了目標變量的馬爾科夫毯,就可以求出該變量的條件概率分布,網絡中的其他變量就可以看作是冗余的,因此尋找目標變量的馬爾科夫毯實質就是變量篩選的過程。目前常用的基于馬爾科夫毯的變量篩選方法,主要包括基于回歸分析的馬爾科夫毯學習算法和基于貝葉斯網絡的馬爾科夫毯學習算法[10-11]。
(3)Boost方法
這是專門用于GWAS數據分析兩變量交互作用的一種方法,其基本思想是通過使用兩個對數線性模型,即含交互作用項的飽和模型與不含交互作用項的關聯模型似然值之差,得到兩個位點的交互作用[12]。這種算法的核心是使用了一種被稱為KSA的算法,可以替代極大似然估計來計算兩變量不同水平組合概率的估計值。由于KSA不需要迭代過程,從而能夠在短時間內快速窮舉所有的SNP交互組合。但是使用這種方法只能篩選具有一階交互作用的變量,并且只適合離散變量交互作用的篩選。
除上述方法外,還有最小冗余-最大相關(minimum redundancy-maximum relevance,MRMR)[13-14]和不相關縮減重心(uncorrelated shrunken centroid,USC)算法[15]等其他方法。
封裝法(wrappermethod)是從所有變量組合中盡量選擇“最優”變量組合,它將變量的選擇看作是一個搜索尋優的問題,即根據一定的算法和目標函數給出“最優”的變量組合[16]。封裝法與過濾法變量選擇的不同在于變量選擇過程中是否引入了分類模型和算法。通常其評價函數以優化分類準確性為目的(圖2)。因此,這種方法實際就是把分類或預測與變量篩選封裝到一起,每次評價一個變量組合。封裝式方法的優點主要表現在將變量組合的搜尋與分類模型的選擇結合在一起,既考慮到了模型內變量間的相關關系,同時又不受模型外部無關變量的影響。封裝法選擇“最優”變量組合通常采用的策略是啟發式搜索,即利用啟發函數隨時調整搜索的先后順序,具體包括確定性和隨機性兩種搜索策略。這種方法的缺點表現在與過濾式方法相比有更高的過擬合風險,由于需要不斷迭代搜索使計算量明顯增大[17]。

圖2 基于封裝式的變量篩選過程
確定性搜索算法是指在確定的初始狀態下,利用一定的規則使問題得到全局或者局部最優解,其中主要有全局最優搜索和序列搜索兩種算法,這種方法的特點是得到的結果完全確定。由于全局最優搜索算法需要在2m-1(m為變量的數目)種組合中尋優,極為耗時,因此實際中使用最多的是序列搜索方法,即按照一種規則,不斷將問題簡化為一個規模更小的類似子集問題,直接達到最終狀態。
(1)序列前進選擇法
序列前進篩選法(sequential forward selection,SFS)是將變量逐步加入模型。初始狀態可以是單變量分析中最顯著的變量,每次都計算評價函數以決定是否加入一個新的變量。例如可以使用模型前后兩次的預測效果變化作為評價函數,預測能力的計算可以使用交叉驗證的方法進行評價。這種方法的主要缺點是對于進入模型變量的評價未充分考慮變量的組合作用[18]。
(2)序列后退剔除法
序列后退剔除法(sequential selection elimination,SSE)可以克服序列前進方法的缺點。這種方法的初始狀態是納入全部變量,每次計算評價函數決定是否剔除模型中的一個變量。相比之下,這種方法能夠更充分考慮變量間的組合作用,因此更為合理,也是目前使用比較多的一種方法。這種方法的主要問題是,在高維數據情況下,計算量比較大,例如有2萬個變量,需要擬合約2萬個模型,如采用5折交叉驗證,則需要擬合10萬個模型。
(3)序列浮動選擇法
序列浮動選擇法(sequential floating selection)與前面兩種方法不同的是,在計算過程中變量并非逐個進入或者剔除,而是以變量的子集形式進入模型,在選擇方法方面可以采用前進和后退兩種方式。例如可以通過對變量先行排序,然后使用0.618黃金分割比例的方法,選擇一定數量的變量組合擬合模型,并與之前的模型進行比較,通過比較決定下一步分割的方向,在這個過程中,退出和進入模型的變量數目可以不斷變化[19]。
需要注意:三種序列選擇方法都屬于貪心算法,即在對問題求解時,做出在當前看來是最好的選擇,導致篩選出的變量可能是局部最優。
隨機算法是利用概率機制而非確定性的點描述迭代過程。隨機性封裝算法的優點是可以避免局部最優,可與分類器結合進行篩選;缺點是計算量大,變量選擇依賴于分類器,與確定性學習算法相比具有更高的過擬合風險。目前,隨機性搜索方法主要有模擬退火算法(simulated annealing)[20]、遺傳算法(genetic algorithm)[21-22]和免疫遺傳算法(immune genetic algorithm,IGA)[23]等。
(1)模擬退火算法
模擬退火算法是基于蒙特卡洛(Monte-Carlo)迭代求解的一種隨機尋優算法,其出發點是基于物理中固體物質的退火過程與一般組合優化問題之間的相似性,即從某一較高初溫(粒子無序狀態)出發,隨溫度參數的不斷下降,結合粒子趨于平衡的變化概率,隨機尋找目標函數的全局最優解。這種算法的本質是在貪心搜索算法的基礎上引入隨機因素,即以一定的概率來接受一個比當前解要好的解,因此可以有效地避免局部的最優解。這種方法的主要問題是溫度管理(計算過程)參數難以控制。
(2)遺傳算法
遺傳算法(GA)是一種模擬生物的進化過程而提出的啟發式搜索方法,即通過模擬生物界“適者生存”的遺傳進化策略,不斷對染色體上的基因(變量)進行篩選和重組,實現對高維數據進行“最優”變量組合的搜索。遺傳算法的特點是采用簡單編碼技術表示復雜結構,并通對編碼的遺傳操作(復制、交叉和變異)產生備選的變量組合解,通過優勝劣汰的選擇機制進行導向性搜索。遺傳算法的主要優點:能夠回避局部解的問題,對變量的數目無限制,可以在大范圍內進行搜索;主要問題表現為GA存在模式收斂性質,由于局部強勢的染色體(變量組合)不斷復制,難以維持模式的多樣性,容易出現“早熟”或者“退化”的現象,影響變量篩選的優化結果。
(3)免疫遺傳算法
免疫遺傳算法是將免疫算法和遺傳算法的優點結合起來的優化算法。為了使遺傳算法在染色體(變量組合)多樣化和群體收斂之間取得平衡,并克服遺傳算法的缺點,在遺傳算法中加入了免疫的思想,即在遺傳算法中加入免疫算子,使遺傳算法變成具有免疫功能的新算法。免疫算子在實現快速優化的同時,通過不斷調節抗體(備選的變量組合)濃度維持多種抗體的并存(變量組合的多樣性),從而能夠根據抗原(需要解決的問題)給出“最優”的變量組合結果。抗體濃度需要根據抗原-抗體、抗體-抗體的親和力計算,抗原-抗體親和力評價實際就是目標函數值,抗體-抗體的親和力評價為抗體之間的相似度。這種算法的主要任務是設定特定的增強群體多樣性的免疫算子與遺傳算法相結合,避免出現“早熟”或者“退化”的現象。基于抗體濃度的群體更新、保持模式多樣性是免疫算法的重要任務,也是這種算法的重要特征。另外,這種方法更適合多目標的變量篩選。
嵌入式變量篩選方法(embedded method)是針對特定的模型和算法,篩選出對模型有重要意義的變量組合,即在建立模型的同時,可以給出各變量重要性的得分值,從而用于分類或預測[17](圖3)。這種方法可以通過結合不同分類算法來改善整體預測準確性,主要有偏最小二乘回歸(partial least squares regression,PLSR)[24]、支 持 向 量 機 (support vector machine,SVM)[25]、隨機森林(random forest,RF)[26]和懲罰回歸(penalized regression)[27]等方法。嵌入式變量篩選方法的特點是,變量篩選通常只需要擬合一個模型,與封裝式變量篩選相比需要的計算量更小。

圖3 基于嵌入式的變量篩選方法過程
偏最小二乘回歸(PLSR)是一種將主成分分析和回歸分析結合在一起的方法[24]。這種方法與主成分回歸十分相似,即在自變量信息不變的條件下對其進行主成分提取,但需要同時保證主成分提取時自變量的主成分與因變量之間的相關性最大化,在此基礎上間接擬合自變量與因變量數據之間的線性關系:

這里,E(Y)表示因變量Y的期望值,Zk為選定的PLS主成分,m為變量的個數,p(p=1,2,…,m)為所取的PLS成分數,為可視化通常取p≤3。變量篩選的依據是計算各變量的投影重要性評分統計量:

其中SSk為第k個PLS主成分的平方和,wkj為自變量Xj(j=1,2,…,m)在第 k個主成分上載荷系數,說明該自變量在第k個PLS成分中對因變量Y的影響,Y∈{-1,1},wk=(wk1,wk2,…,wkm)。
上式中的VIPj反映了某個自變量對于因變量和整個模型的貢獻大小。Wold建議,如果VIPj>0.8則認為變量的貢獻較大,實際中通常取VIPj≥1作為選擇變量的閾值。這一指標的主要缺點是其值大小是相對的,只能說明哪些自變量的作用更大一些,因此也有學者建議同時考慮回歸系數估計值和VIP值大小來進行變量篩選。
需要注意:PLSR方法同樣可以用作過濾式和封裝式變量篩選。究竟屬于哪種方法,關鍵是看其是否最后要用PLSR作為分類模型和是否具有迭代過程,如果主要目的僅是作為變量初篩選,則屬于過濾法;如果在變量組合尋優的過程中使用PLSR模型作為分類評價的標準,則屬于封裝式變量篩選方法。
支持向量機(SVM)是一種非常有效的分類模型或機器學習方法[25]。這種方法首先構造一個線性判別函數 g(X):

其中,X=(X1,X2,…,Xm),φ(X)={φ1(X),φ2(X),…,φd(X)}T表示采用線性或非線性變換的方法將X映射到另一特征空間(通常d>m),wj是需要估計的權重系數,W=(w1,w2,…,wd)T,b0是與判別閾值有關的一個常量。對于每個樣品 Xi(i=1,2,…,n)都屬于兩類中的一類,相應的標記為yi=±1。
為了能夠實際應用,在新的特征空間φ(X)中尋找能將類別很好分開的兩個平行的標準超平面,并使其間隔最大,落在標準超平面上的數據點稱作支持向量,此時,式中 SV是所有的支持向量,αj是滿足一定條件并且符號為正的系數。將樣品數據代入下式,根據得出的符號即可完成對樣品的分類:

其中K(Xj,X)為核函數。由此看到,這里將變換后空間向量的內積表示為原始變量空間對應向量的內積函數,即不需要明確知道φ的具體形式,而是通過計算核函數K(Xj,X)的值來計算內積。SVM篩選變量的思想是,在選擇線性核函數情況下,根據SVM的權重向量確定各變量對于判別模型的重要程度。
需要注意的是,在高維情況下直接使用SVM嵌入式變量篩選方法,很難獲得理想的結果,通常需要結合封裝式算法。例如目前使用比較多的SVM-RFE使用的就是序列后退剔除法。
隨機森林(random forest,RF)是一種基于分類樹算法的組合分類模型[26]。RF的基本思想是,通過自助法(bootstrap)重抽樣技術從原始數據中有放回地隨機抽取Ntree個自助樣本,對每個樣本都建立一個二元遞歸分類樹。按照這種做法,每個自助樣本平均不包含37%的原始數據,將這些數據稱為袋外數據(OOB數據),并作為RF的測試樣本;最后,由訓練樣本生成b個分類樹組成隨機森林,根據分類樹投票形成的分數確定測試數據的分類結果。RF具有很高的預測準確率,對異常值和噪聲有很強的容忍度,能夠處理高維數據(變量個數遠大于觀測個數),有效地分析非線性和交互作用的數據,并能夠在建立RF模型的同時給出變量重要性評分(variable importance measures,VIM)。變量的篩選可以依據不同的統計量和篩選過程,各變量 Xj(j=1,2,…,m)VIMj值的計算方法有多種,但都是通過比較原始變量值和隨機打亂變量值后對RF預測的影響進行估計,兩者差別越大說明該變量越重要,VIMj值越大。
bagging是英文 bootstrap aggregating的縮寫,該學習算法可以進行多輪預測,每輪的訓練集由從初始的樣本中重復抽取一定數量的訓練樣本,從而得到對應的預測函數,最終的預測函數為多輪預測函數分類結果的綜合投票或計算平均值進行排序,從而確定特征變量的重要性。例如變量捕獲(variable hunting)方法使用的就是bagging策略,其基本思想是利用重抽樣方法不斷抽取一定比例的樣本,同時在所有變量中抽取一定數量的變量進行建模,然后利用檢驗統計量的概率分布確定閾值,在此基礎上進行變量篩選。上述過程重復多次,計算平均篩選變量的個數,再根據各變量被篩選出來的頻率進行排序,選擇排列在前面的變量作為最終篩選出的重要變量。改變篩選變量過程的不同參數,可以獲得不同數量的“差異變量”。這里,用于篩選變量的預測模型可以使用任何一種基礎分類模型(如PLSR、SVM和RF等)。理論上,這種方法可以應用于任意高維變量的組學數據中,篩選變量的穩定性非常好,而且使用其篩選出的變量進行預測效果較優,拓寬了各種分類模型的應用范圍[27]。
boosting方法是一種基于一系列弱基礎分類器的組合分類模型,這種方法需要不斷在內部進行迭代,在訓練開始時先為每一個樣品賦予一個相等的權值,接下來進行N次迭代訓練。每次訓練中,根據每個樣品現有的權重,尋找一個最優分類模型,如果此分類模型導致樣品被錯分,則根據錯分的情況重新計算樣品的權重,即在下次迭代中為其賦予更大的權重值。N次訓練結束,每個單獨的分類模型亦根據其對樣本的預測效果,賦予不同權重,預測效果越好,給予的權重越大,最后將所有分類模型組合在一起。因此,這種算法使用的是一系列反映數據不同方面的加權分類模型,最終產生一個分類準確度更高的組合分類模型。變量篩選則可以通過對單個基礎分類模型中變量重要性得分進行平均實現。理論上,這種方法能夠獲得最優的變量篩選和預測結果。
正則化(regularization)是指對最小化經驗誤差函數加約束,即對其附加先驗知識。典型的兩種正則化回歸是嶺回歸(ridge regression)和 lasso回歸[28]。兩種方法都是針對多元線性模型的問題提出的,嶺回歸是在最小化殘差平方和上加一個正則化的L2范數項λ‖β收縮懲罰項,即對如下損失函數極小化:

通過使殘差平方和最小化的原則,求出各變量的回歸系數。使用嶺回歸主要解決自變量的共線問題。lasso回歸則對回歸系數進行了L1懲罰,即加入L1范數項

lasso回歸主要解決變量篩選問題,通過調整正則化參數λ,能夠自動將與分類無關變量的回歸系數置接近于0,實現變量的自動篩選。
從統計學角度,使用L2范數不僅可以避免共線以及在變量數目大于樣本量時出現病態矩陣求逆的問題,同時能夠避免模型過擬合、防止算法陷入局部最小化,提高模型的外部預測能力。使用L1范數的好處是可以自動實現變量選擇,同時保證模型具有可解釋性。正因如此,目前已根據這一原理提出了使用L1+L2懲罰建立的各種算法,如彈性網算法、分組lasso算法、稀疏分組lasso算法等,以適應更復雜的多組學高維數據分析。同理,上述原理也適用于logistic模型、偏最小二乘回歸(PLSR)和支持向量機(SVM)等模型。
本文對目前高維組學變量篩選的方法做了簡單的描述和評述。基于變量選擇的方式可以分成三類:過濾式方法、封裝式方法和嵌入式方法。過濾式方法是簡單地根據重要性原則將變量排序,同時按照閾值來選擇特征變量。過濾式方法的主要缺點:為了選擇變量子集需要設定閾值,因此變量篩選依賴閾值,并且沒有適合的交叉驗證調整方法,很難得出較為可靠的結果。使用交叉驗證方法能夠快速選擇閾值,將過濾式方法轉變為封裝式方法,這種方法將變量選擇封裝在模型中;為了提高模型的解釋性,篩選有意義的變量,這些方法需要反復對模型的預測準確性進行評價。封裝式方法的主要問題是計算量大,并且需要調整大量復雜的參數。嵌入式方法以一種很好的結構形式進行變量篩選,將變量篩選與建模整合在一起。然而,很多的嵌入式方法通過內部交叉驗證選擇變量,這不可避免地在一定程度上減慢了計算的速度。
目前,很多研究者試圖比較各種變量選擇方法,通常是為了表明新的方法性能的提高,并未對大范圍的數據集進行客觀的比較,給出最終的參考意見。因為方法和數據性質之間存在相互作用,在實際中,并沒有一種適合所有數據的最優變量選擇方法。通過本文的綜述,希望讀者更好地了解文獻中報道方法之間的相似性和不同,能夠根據實際需要進行選擇。
本文觀點,有三種方法特別值得關注,即bagging、boosting和正則化方法。前兩種方法屬于組合分類器方法,主要是算法問題。bagging方法的特點是對數據的維數完全沒有限制(如m>300000),篩選變量的結果較其他方法更為穩定;boosting方法在針對生物異質性和亞組分析時,更顯現出其作用。正則化方法則在理論上相對更為完善,使用靈活,根據研究目的通過調整懲罰項和正則參數選擇合適的變量,其最大的特點是對變量的維數沒有限制,模型結構性強、具有可解釋性。更深入地,上述三種方法結合調控網絡與生物實質問題相融合,有待進一步發展。
[1]Hira ZM,Gillies DF.A Review of Feature Selection and Feature Extraction Methods Applied on M icroarray Data.Advances in bioinformatics,2015,2015:198363.
[2]Saeys Y,Inza I,Larranaga P.A review of feature selection techniques in bioinformatics.Bioinformatics,2007,23(19):2507-2517.
[3]Bo TH,Jonassen I.New feature subset selection procedures for classification of expression profiles.Genome Biol,2002,3(4):RESEARCH0017.
[4]Liu XX,Krishnan A,Mondry A.An Entropy-based gene selection method for cancer classification usingm icroarray data.BMC bioinformatics,2005;6:76.
[5]Tusher VG,TibshiraniR,Chu G.Significance analysis ofm icroarrays applied to the ionizing radiation response.Proceedings of the National Academy of Sciences of the United States of America,2001,98(9):5116-5121.
[6]Tsai CA,Chen JJ.Significance analysis of ROC indices for comparing diagnosticmarkers:applications to genemicroarray data.Journal of biopharmaceutical statistics,2004,14(4):985-1003.
[7]Hong WJ,Tibshirani R,Chu G.Local false discovery rate facilitates comparison of different m icroarray experiments.Nucleic acids research,2009,37(22):7483-7497.
[8]Ooi CH,Chetty M,Teng SW.Differential prioritization between relevance and redundancy in correlation-based feature selection techniques for multiclass gene expression data.BMC bioinformatics,2006,7:320.
[9]Tan Y,Liu ZF.Feature selection and prediction with a Markov blanketstructure learning algorithm.BMC bioinformatics,2013,14(Suppl 17):A3
[10]Borchani H,Bielza C,Martinez-Martin P,et al.Markov blanketbased approach for learningmulti-dimensional Bayesian network classifiers:An application to predict the European Quality of Life-5 Dimensions(EQ-5D)from the 39-item Parkinson′s Disease Questionnaire(PDQ-39).Journal of biomedical informatics,2012,45(6):1175-1184.
[11]Bui AT,Jun CH.Learning Bayesian network structure using Markov blanket decomposition.Pattern Recogn Lett,2012,33(16):2134-2140.
[12]Xu M,Zhang AD.Boost feature subset selection:A new gene selection algorithm for m icroarray dataset.Lect Notes Comput Sc,2006,3992:670-677.
[13]Sakar CO,Kursun O,Gurgen F.A feature selection method based on kernel canonical correlation analysis and the m inimum Redundancy-Maximum Relevance filtermethod.Expert Syst Appl,2012,39:3432-3427.
[14]Peng HC,Ding C,Long FH.M inimum redundancy-Maximum relevance feature selection.Ieee Intell Syst,2005,20:70-71.
[15]Christin C,Hoefsloot HC,Sm ilde AK,et al.A critical assessment of feature selection methods for biomarker discovery in clinical proteom ics.Molecular&cellular proteom ics:MCP,2013,12(1):263-276.
[16]Liu B,Cui Q,Jiang T,et al.A combinational feature selection and ensemble neural networkmethod for classification of gene expression data.BMC bioinformatics,2004,5:136.
[17]Semmar N,Canlet C,Delplanque B,et al.Review and research on feature selectionmethods from NMR data in biological fluids.Presentation of an originalensemblemethod applied to atherosclerosis field.Current drug metabolism,2014,15(5):544-556.
[18]Hatamikia S,Maghooli K,Nasrabadi AM.The emotion recognition system based on autoregressive model and sequential forward feature selection of electroencephalogram signals.Journal of medical signals and sensors,2014,4(3):194-201.
[19]Reneker J,Shyu CR.Applying sequential forward floating selection to protein structure prediction with a study of HIV-1 PR.AM IA Annual Symposium proceedings/AM IA Symposium AM IA Symposium,2006:1072.
[20]Ghosh P,Bagchi MC.QSAR modeling for quinoxaline derivatives using genetic algorithm and simulated annealing based feature selection.Current medicinal chem istry,2009,16(3):4032-4048.
[21]Cho HW,Kim SB,Jeong MK,et al.Genetic algorithm-based feature selection in high-resolution NMR spectra.Expert Syst Appl,2008,35(3):967-975.
[22]Sahiner B,Chan HP,WeiD,etal.Image feature selection by a genetic algorithm:application to classification of mass and normal breast tissue.Medical physics,1996,23(10):1671-1684.
[23]Luo JW,Wang T.Motif discovery using an immune genetic algorithm.Journal of theoretical biology,2010,64(2):319-325.
[24]Lee D,Lee Y,Paw itan Y,etal.Sparse partial least-squares regression for high-throughput survival data analysis.Statistics in medicine,2013,32(30):5340-5352.
[25]Jiang Z,Yamauchi K,Yoshioka K,et al.Support vector machinebased feature selection for classification of liver fibrosis grade in chronic hepatitis C.Journal of medical systems,2006,30(5):389-394.
[26]Saraswat M,Arya KV.Feature selection and classification of leukocytes using random forest.Medical&biological engineering&computing,2014,52(12):1041-1052.
[27]Dettling M.Bag Boosting for tumor classification with gene expression data.Bioinformatics,2004,20(18):3583-93.
[28]Breheny P,Huang J.Coordinate Descent Algorithms for Nonconvex Penalized Regression,with Applications To Biological Feature Selection.The annals of applied statistics,2011,5(1):232-253.
國家自然科學基金資助(81573256,81473072),中國博士后基金面上項目(2015M 571445)
1.哈爾濱醫科大學衛生統計學教研室(150081)
2.心血管醫學研究教育部重點實驗室(哈爾濱醫科大學)
△通信作者:李康,E-mail:likang@ems.hrbmu.edu.cn
(責任編輯:郭海強)