秦喜文 王 芮 張斯琪
1(長春工業大學大數據科學研究院,長春 130012)
2(長春工業大學研究生院 長春 130012)
3(長春工業大學數學與統計學院 長春 130012)
在數據挖掘方法出現之前,疾病都是通過生物學以及臨床診斷進行區分的,由于不同臨床反映的疾病可能屬于同類型,判定誤差較大。 隨著生物和醫學技術的不斷發展和深入,可以從正常組織以及病變組織中獲得基因表達數據,利用數據挖掘技術分析基因數據,可以有效加深對病理的了解。
在對基因表達數據挖掘過程中,可以通過學習器對已知類別樣本進行訓練,使得該學習器對未知類別樣本進行分類預測,以提高疾病診斷的有效性和準確性。 然而基因表達數據具有高維小樣本的特性,往往存在冗余和噪聲信息,使得學習器在建模過程中出現“維數災難”或分類準確度不高等問題。 因此在建模之前需要對高維基因表達數據進行降維處理。
劉旭東[1]提出使用信息增益進行特征選擇,排除無關特征,再使用互信息去除冗余特征,結果表明,所提出的方法優于信息增益特征選擇的方法。謝東迅[2]將鄰域互信息理論應用到特征基因選擇中,并將基于優化特征的鄰域互信息作為相關度的度量標準,所提出的方法在特征基因的識別準確率和數量等方面效果顯著。 陳俊穎[3]利用互信息最大化找出同類中相關性最強的基因,結合自適應遺傳算法增強變異能力,該方法能夠顯著降低基因表達數據的維度,減少分類冗余。 郭園園[4]將原最大相關最小冗余(max-relevance and min-redundancy,mRMR)算法中度量相關性的互信息使用最大信息系數(maximal information coefficient, MIC)來代替,并使用近似計算最大信息系數 (chi-square maximum information coefficient, ChiMIC)算法來近似估計MIC 值,公用數據集驗證結果表明,所提出的mRMR-ChiMIC 算法較原mRMR 算法提取的特征具有更高的分類準確率,有效降低了計算復雜度。
在基因表達數據分類研究方面,Kong[5]提出了一種新的分類器森林深度神經網絡(forest-deep neural network, fDNN),將深度神經網絡結構與有監督的森林特征檢測器相結合,以緩解過擬合問題。梁壯[6]提出一種基于堆棧自動編碼器與Boosting 相結合的方法,使用主成分分析對基因表達數據降維,將堆棧自動編碼器作為Boosting 的基學習器進行學習訓練,最后組合多個堆棧自動編碼器進行決策,顯著提高分類準確率。 高振斌[7]使用PCA 對基因數據進行降維處理,采用LS-SVM 對信息基因集進行分類,在兩個基因表達數據集上具有較高的測試準確率。 范怡敏等[8]提出一種改進深度森林模型(two boosting deep forest,TBDForest),采用均等式特征利用方法對原始特征進行變換,并將上層最重要的部分判別特征輸入到下一級聯層,在原級聯層采用子層級聯的結構,避免模型對參數的依賴,驗證結果表明,改進的算法達到了更好的分類效果。顏建軍等[9]針對中醫問診復雜性和非線性的特點,采用深度級聯森林算法(multi-grained cascade forest, gcForest)構建慢性胃炎中醫問診證候分類模型并與多種模型進行比較。 實驗結果表明,基于gcForest 的方法在分類準確率上都優于其他算法,能有效地解決慢性胃炎中醫問診證候分類問題,為gcForest 方法在疾病診斷方面提供參考。
本研究針對基因表達數據降維問題,使用改進的最大相關最小冗余變量選擇方法,利用特征與響應變量之間的相關性選擇最大相關特征,并計算條件互信息下的冗余特征,以到達選擇較少變量并提高分類器準確率的目的。 在分類問題上,提出使用深度級聯森林方法作為分類器,對比試驗表明,深度級聯森林在乳腺癌基因數據上的分類效果優于其他傳統分類器。 最后將所提出的變量選擇方法與深度級聯森林相結合,顯著提高分類準確率。
對乳腺癌基因表達數據分類主要由3 個階段組成:一是預處理階段,為克服不同特征不同量綱對結果的影響,首先對數據進行標準化處理,使數據分布在[0,1]區間;二是特征提取階段,使用改進的最大相關最小冗余方法對特征進行重要性排序,在[0,600]區間,每50 個特征作為一個特征子集選擇節點,每次向特征集中增加50 個特征;三是分類階段,使用深度級聯森林對提取特征后的數據進行分類,十折交叉驗證后的分類準確率作為模型的評價指標。
乳腺癌數據取自博德基因研究所的公開實驗數據 ( http:/ /portals.broadinstitute.org/cgi-bin/cancer/datasets.cgi)。 該數據集含有98 個乳腺癌受試者的觀測數據,每位受試者擁有1 213 個特征基因,98 位受試者分別被診斷為A1,A2,A3 共3 類乳腺癌疾病狀態。 具體工作是需要通過這1 213 個基因在不同個體上的表達值診斷該受試者的疾病狀態。 數據是不平衡的,其中A1 類數據的數量為11,A2 類數據的數量為51,A3 類數據的數量為36。
獲得數據后,為克服量綱對結果的影響,保證分析結果的有效性,對數據進行最大最小標準化處理,使數據分布在[0,1]區間,其表達式為

式中xi是實際觀測值,xmin是所有觀測中的最小值,xmax是所有觀測中的最大值。
癌癥可能發生在人體的任何部位,值得注意的是,癌癥的初期治療要比晚期容易的多,基于基因數據的分析已經成為早期癌癥鑒定的有效方法,在基因表達數據的收集過程中,由于臨床受試者數目有限以及受試群體之間的異質性,導致樣本數量遠小于變量(基因)數目,為了進行分類,識別出一小部分導致疾病發生的主要基因是十分重要的,這可有助于去除不適當的和無效的基因,提高對分類模型的理解。
假定Xi是候選變量,Y是響應變量,Xj∈S是一個被選變量,S是被選變量子集。 定義候選變量Xi與響應變量Y之間的互信息為相關項,候選變量Xi與被選變量Xj之間的互信息稱為冗余項;任何變量選擇問題的目標都是選擇相關項,排除無關項。對于冗余項,可以看作是存在相依性的有用變量。例如,在測量相關變量時出現一些錯誤,則預測器工作性能很差,但如果預測器選擇了一些相關變量的冗余項,這些錯誤即可糾正。 所以,預測器可選擇某些冗余變量,以提高預測的魯棒性。
因此,在基因數據的變量選擇過程中,將基因視為自變量,受試者狀態標簽(A1/A2/A3)視為響應變量,其目的是在變量集中選取對標簽變量起作用的相關基因,排除無關基因,選擇冗余基因。
從候選變量的角度看, 互信息( mutual information,MI)[10]是變量選擇問題中變量相互依賴性的一種度量。 對于兩個離散的變量X和Y,其互信息定義如下:

式中,p(x,y) 是聯合分布,p(x) 和p(y) 是邊際分布。
互信息也可以被條件化,條件互信息[11-14]的定義如下:

變量相關性分析和冗余性分析一直是變量選擇領域的兩個挑戰性問題。 近年來,針對分類問題,學者們提出了多種基于最大相關最小冗余準則的MI 變量子集選擇方法,首先計算待選擇的變量相關性,其次計算關于先前已選擇變量子集的變量冗余性。 Battiti[15]首次利用最大相關最小冗余的啟發式 MI 逼近(mutual information based feature selection, MIFS)來選擇變量子集:

式中,β調整相關項和冗余項的減法可比性,f用于估計變量Xi的優良性。 但是參數β的選擇是困難的,因此,Peng 等[16]提出的最大相關最小冗余(max-relevance and min-redundancy, mRMR)準則如下:

式中,Xi為候選變量,Y為響應變量,S為已選變量子集。
然而大多數基于MI 的方法僅計算I(Xi;Xj) ,而沒有計算候選變量、S中的已選變量、以及響應變量Y之間的冗余信息。 作為將被選擇的變量,應該不能由S中的已選變量來預測、且對于響應變量Y必須是有信息的[17]。 因此,考慮條件互信息的作用,將mRMR 方法的后半部分改進為計算候選變量Xi與已選變量Xj在目標變量條件下的條件互信息

因此,改進的最大相關最小條件冗余(maxrelevance and min-conditional redundancy, mRMCR)可以表示為

該方法流程如圖1 所示。

圖1 最大相關最小條件冗余算法流程Fig.1 Flow chart of mRMCR algorithm
深度級聯森林是一種基于樹模型的集成學習算法,包括多粒度掃描和級聯森林兩部分[18]。 多粒度掃描解決了高維輸入問題,增強輸入特征的差異性。 級聯森林通過模擬深度神經網絡的結構進行表征學習,提高輸入特征分類能力。 圖2 為深度級聯森林的總體過程。

圖2 深度級聯森林的總體過程(左側虛線框表示多粒度掃描過程,右側虛線框表示級聯森林過程)Fig.2 The general process of gcForest (The left dashed box represent the multi-grained scanning process, the right dashed box represent the cascade forest process)
將多粒度掃描展開得到圖3 所示過程圖,多粒度掃描結構通過滑動窗口對原始輸入進行局部采樣,得到多個不同維度的特征實例,然后經過隨機森林和完全隨機森林分類器產生類概率向量,最后通過類向量的連接轉換為級聯的輸入特征。 以1 213維特征數據為例,滑動窗口大小為100 維,滑動步長為1,經過滑動后,產生(1 213-100)/1+1 =1 114個特征子樣本,針對三分類問題,每個子樣本經過隨機森林和完全隨機森林訓練后,分別生成一個3 維的類概率向量,最后得到一個1 114×3×2 =6 684維的特征向量。 使用不同維度的滑動窗口可以生成不同粒度大小的特征向量,類似地,對于每個原始的訓練樣本,若使用200 維和300 維的滑動窗口將分別生成6 084 和5 484 維的特征向量。

圖3 多粒度掃描結構(虛線框代表滑動窗口)Fig.3 Multi-grained scanning (The dashed box represent sliding window)
級聯森林階段通過對特征進行逐層表征學習,體現其深度學習的過程。 級聯森林的第一級將多粒度掃描后的特征信息作為輸入,之后的每一級都接收原始輸入和從上一級輸出的特征向量連接作為該級的輸入,使特征信息得到了增強。 級聯的每一層包含兩個隨機森林和兩個完全隨機森林,通過使用交叉驗證產生每個森林的類向量,并將輸出結果和原始輸入拼接到一起輸入到下一級中。
以100 維的滑動窗口掃描為例,對于三分類問題,經過兩個隨機森林和兩個完全隨機森林后,每個級別生成4×3 =12 維增強特征向量,與掃描變換后得到的6 684維特征向量拼接后得到6 696維特征向量作為第2 級的輸入,以此類推,第2 級經訓練后生成1 個12 維的特征向量,與200 維滑動窗口掃描后變換得到的6 084 維特征向量拼接,所得到的6 096 維類向量作為第3 級訓練的輸入,第3 級經訓練后生成一個12 維的特征向量,與300 維滑動窗口掃描變換后得到的5 484 維特征向量拼接,得到5 496 維類向量,再作為下一級的輸入,重復上述過程,直到沒有顯著的性能增益,訓練過程停止。
針對深度級聯森林方法,使用Python 軟件實現,代碼來源于GitHub 網站,由算法的提出者共享。下附代碼來源網址: https:/ /github.com/kingfengji/gcForest
由于數據存在不平衡問題,因此采用十折交叉驗證,從每類數據中按比例抽樣,保證每個交叉驗證的數據集含有所有的分類標簽。 采用分類平均準確率作為評判標準,計算公式為

式中,i表示第i折交叉驗證,Ni(TRUE) 表示第i次交叉驗證中分類正確的數目,N(ALL) 表示所有分類標簽數目,準確率用10 折交叉驗證的平均值表示。
從基因數據中的許多基因中選擇一小部分合適的數據對精確的癌癥分類至關重要,傳統的方法通常根據基因的差異表達對基因進行排序,并選擇排名靠前的基因進行分類任務。 因此,在變量選擇方面,選擇使用隨機森林特征重要性和最大相關最小冗余作為對比方法。 在對基因表達數據進行特征選擇和分類時,根據數據集的大小選擇不同規格的特征間隔是一種常用方法,其目的是快速驗證該方法的有效性和魯棒性。 因此,為驗證變量選擇方法的有效性,設定600 為變量選擇中心閾值,使用隨機森林(random forest, RF)[19],支持向量機(support vector machine, SVM)[20], BP神經網絡(back propagation neural network, BPNN)[21]作為深度級聯森林的對比分類器,在[0,600]區間,每次向特征集中增加50 個特征[22-23],并結合分類器分析特征選擇方法的效果。
將3 種變量選擇方法與4 種分類器相結合應用于乳腺癌基因數據分類,得到如表1 及圖4 所示信息。
表1 中加粗部分表示相同變量數目下的最佳分類準確率。 由表1 可知,所使用的最大相關最小條件冗余方法與隨機森林方法相結合時,僅在數據量為400 時,準確度不敵最大相關最小冗余方法,在變量數為50 時,最大相關最小條件冗余方法結合隨機森林分類效果達到92.83%,遠高于不進行變量選擇時的分類準確率88.61%。

表1 變量選擇方法在乳腺癌基因數據集上的分類準確率(%)Tab.1 Classification accuracy (%) of feature selection method on breast cancer gene dataset
在與支持向量機相結合時,變量數目小于200時,其分類效果優于最大相關最小冗余方法,但稍遜色于基于隨機森林特征重要性方法,變量數大于等于200 時,分類效果優于其他兩種方法,尤其在變量數為550 時,改進的方法結合支持向量機分類效果達到89.89%,遠高于不進行變量選擇時的分類準確率86.78%。
在與BP 神經網絡相結合時,變量數目分別為50,100,200 時,其分類效果優于最大相關最小冗余方法但稍遜色于基于隨機森林特征重要性方法,變量數大于200 時,分類效果優于其他兩種方法,尤其在變量數為450 時,改進的方法結合BP 神經網絡分類效果達到87.56%,高于不進行變量選擇時的分類準確率84.56%。
在與深度級聯森林相結合時,分類效果明顯優于基于隨機森林特征重要性方法,在變量數為100時,達到最佳分類準確率93.78%,遠高于不進行變量選擇時的分類準確率90.67%。 這也是所有方法中,表現最佳的一組。
圖4 表示變量選擇方法在不同分類器上隨變量數目變化的表現。 由圖可見,最大相關最小條件冗余方法效果明顯優于其他兩種變量選擇方法。

圖4 變量選擇方法在不同分類器上的表現。 (a)隨機森林;(b)支持向量機;(c)BP 神經網絡;(d)深度級聯森林Fig.4 Performance of variable selection method on different classifiers.(a) Random forest; (b) Support vector machine; (c) BP neural network; (b) Multi-grained cascade forest
表2 和表3 分別顯示了所使用的變量選擇方法相對于其他兩種方法在分類準確率上的改進效果及其平均值。 mRMCR 相對于隨機森林重要性方法在隨機森林,支持向量機,BP 神經網絡和深度級聯森林分類器上的平均準確率分別提高了2.19%,1.63%,1.92%和3.24%。 mRMCR 相對于mRMR方法在隨機森林,支持向量機,BP 神經網絡和深度級聯森林分類器上的平均分類準確率分別提高了1.03%,1.54%,3.81%和0.54%。

表2 mRMCR 相對于隨機森林重要性方法提高的分類準確率(%)Tab.2 The improved classification accuracy (%) of the mRMCR over the random forest feature importance method
為了對比變量選擇方法的穩定性,計算從50~600 個變量的平均分類準確率,繪制如圖5 所示的柱狀圖。 圖5 清楚的顯示出最大相關最小條件冗余方法表現出比基于隨機森林特征重要性和最大相關最小冗余方法更高的分類準確率和在分類器上的穩定性。 由圖5 可知,最大相關最小條件冗余方法在各個分類器上都有良好的效果,為了更加直觀的對比最佳分類器,將最大相關最小條件冗余結合四種分類器的效果繪制如圖6 所示折線圖,由圖可見,最大相關最小條件冗余和深度級聯森林結合方法效果明顯優于其他3 種方法的分類效果,在變量數為100 時,即達到最佳分類準確率,為93.78%。

圖5 從50 到600 個變量的平均分類準確率Fig.5 Average classification accuracy from 50 to 600 variables

圖6 4 種分類器結合最大相關最小條件冗余方法準確率Fig.6 Accuracy of four classifiers combined with mRMCR
癌癥的早期診治非常關鍵,一種有效的基因數據降維分類方法在臨床診斷與治療中是至關重要的。
互信息是一種流行的相關性度量方法,也是在基因數據特征選擇過程中常用的基本方法。 陳俊穎[2]利用互信息最大化找出同類中相關性最強的基因,結合自適應遺傳算法顯著降低了數據維度,減少了分類冗余。 陳昊楠等[23]在基因表達數據的癌癥分類研究中提出了同時考慮相關性、冗余度以及增益性等三大特性的多特征交互的特征選擇方法,解決了癌癥表達譜數據的高維、高冗余問題。
Zhou 等[18]提出的深度級聯森林算法,從手寫識別、人臉識別、音樂片段識別等方面的數據集中被證明是一個可以媲美DNN 而且比傳統機器學習模型有明顯優勢的模型,具有參數少,模型訓練簡單,可擴展等優點。 此外作為一種基于樹的方法,gcForest 在理論分析方面也比深度神經網絡更加容易。 范怡敏等[8]在此基礎上對原始特征進行變換,將上層最重要的部分作為下一層級聯的輸入,采用子層級聯的結構,提出一種改進深度森林模型TBDForest,獲得了良好的分類性能。 劉超等[25]在DNA 甲基化的癌癥分類研究中使用了gcForest 方法,也證實了gcForest 分類模型在小規模不平衡數據集中性能優勢。
通過對博德研究所基因組數據分析中心的實驗數據進行實證分析,考慮響應變量存在條件下,候選變量與已選變量之間的條件互信息,并將其視為冗余,將mRMCR 變量選擇算法與mRMR,基于隨機森林特征重要性方法進行對比,分別結合隨機森林(RF),支持向量機(SVM),BP 神經網絡(BPNN)和深度級聯森林(gcForest)驗證效果,結果表明,在4 個分類器中,所使用的變量選擇方法在相比之下提高了1.03%~3.81%的平均分類準確率,mRMCR相對于隨機森林重要性方法在深度級聯森林提高3.24%的平均分類準確率;相對于mRMR 方法在BPNN 上提高了3.81%的平均分類準確率。 分類結果表明,最大相關最小條件冗余和深度級聯森林結合方法對乳腺癌基因數據的分類效果顯著,明顯優于其他組合方法,在選擇100 個變量的情況下達到93.78%的最佳分類準確率。 該方法不僅可以應用在基因表達數據分類方面,還可以應用于金融數據、機械故障診斷等其他眾多高維小樣本數據領域,為在不同領域研究變量選擇與分類等問題提供了可行的思路和模式。
基因表達是一個高維的數據,但是只有少部分基因能夠直接導致癌癥的發生。 因此,基于基因表達數據子集的分類(通過合適的變量選擇方法進行選擇)是一種常見的方法。 在研究中,使用一種新的冗余措施來改進mRMR 的變量選擇,然后用不同的分類器進行分類。 與對比方法相比,使用的最大相關最小條件冗余方法考慮響應變量存在條件下,候選變量與已選變量之間的條件互信息,并將其視為冗余,有效壓縮數據維度,達到變量選擇的目的。針對乳腺癌基因表達數據集,對數據進行標準化處理,結合不同的分類器研究結果表明,該方法能夠在選擇較少變量的同時明顯提高分類準確率,擁有較高的準確性和穩定性。 基于基因數據的癌癥分類是一項敏感的任務,需要擁有高度的準確性。 使用最大相關最小條件冗余和深度級聯森林結合方法優于其他方法效果,可明顯提高乳腺癌的分類準確度。 所提出的方法對基于基因數據的乳腺癌分類診斷具有重要的理論意義與實用價值,可以為病人及時提示和預警,為醫護人員提供科學的決策支持。