用于阿爾茨海默癥分類的模糊邏輯特征選擇和異質集成學習方法

2021-12-02 10:14:30蒲秀娟

電子與信息學報 2021年11期

韓亮楊婷蒲秀娟② 黃謙

①(重慶大學微電子與通信工程學院重慶 400044)

②(生物感知與智能信息處理重慶市重點實驗室重慶 400044)

1 引言

阿爾茨海默癥(Alzheimer’s Disease, AD)，俗稱老年癡呆癥，是一種慢性的進展性神經退行性疾病，常發生于老年群體[1]。迄今為止，還沒有藥物能有效治愈AD。因此，AD分類的研究有助于推動AD預防和治療手段的進步，降低老年群體的AD發病率，延緩疾病進展。

特征選擇能夠提升分類模型的性能及魯棒性，同時可以提供數據的特征重要性解釋，已被廣泛地應用于AD分類中[2]。傳統的特征選擇方法往往采用單一的評價標準，存在較多局限性，為此，本文提出一種改進的高斯模糊邏輯特征選擇方法，采用改進的高斯模糊邏輯算法對由互信息量(Mutual Information, MI)和方差齊性分析(ANalysis Of VAriance, ANOVA)兩種方法計算得到的特征重要性評分進行加權，在此基礎上進行特征選擇，以提升AD分類模型性能并進行特征重要性分析。

目前AD分類的常用分類模型包括邏輯回歸(Logistic Regression, LR)[3]、隨機森林(Random Forest, RF)[4]、LightGBM(LGB)[5]、支持向量機(Support Vector Machine, SVM)[6]和深度學習(Deep Learning, DL)[7]等。集成學習可結合使用單個分類器來提高其分類性能，特別適用于各個領域，包括數據挖掘、運輸系統、天氣預報、醫學診斷、銀行業務和模式識別。異質集成學習方法[8]使用不同種類的分類器實現集成學習。本文采用LR,RF, LGB, SVM和深度前饋網絡(Deep Feedforward Networks, DFN)作為初級分類器，使用多項式樸素貝葉斯(Multinomial Naive Bayes, MultinomialNB)分類器作為次級分類器，構建異質集成分類器，對經改進的高斯模糊邏輯特征選擇方法處理后得到的數據進行AD分類，以提高AD分類的準確率。

2 模糊邏輯特征選擇方法

2.1 常用特征選擇方法

常用特征選擇算法分為過濾法(Filter)、封裝法(Wrapper)和嵌入法(Embedded)3類[2]。其中，Wrapper和Embedded兩種特征選擇方法均與分類器直接相關，必須使用特定分類器分類后才能得到特征重要性評價結果，且該結果均是針對所使用的特定分類器而言的。Filter法與特定分類器無關，無需事先分類，因此具有更廣泛的適應性，本文使用互信息(MI)和方差齊性分析(ANOVA)兩種Filter法。

MI是兩個變量之間相互依賴的度量，量化了通過觀察一個隨機變量而獲得的關于另一個隨機變量的信息量，當且僅當兩個隨機變量獨立時等于0。ANOVA也被稱為F檢驗，它是一種在0假設之下，統計值服從F分布的檢驗，一般用于檢驗兩類樣本在某個特征上是否存在顯著性差異。

2.2 改進的高斯模糊邏輯特征選擇方法

模糊邏輯提供了一種表示確定程度的方法，可以靈活地處理不確定的問題[9]。本文提出一種改進的高斯模糊邏輯特征選擇方法，具體步驟如下：

步驟 1 對輸入的數據，由MI與ANOVA兩種方法分別計算特征重要性評分。

步驟 2 對由MI與ANOVA兩種方法計算得到的特征重要性評分結果分別進行歸一化，如式(1)和式(2)所示

其中，M為特征總數；對于第j個特征，SMI(j)為由MI得到的特征重要性評分，SF(j)為由ANOVA得到的特征重要性評分，CMI(j)和CF(j)為歸一化后的特征重要性評分。

步驟 3 采用模糊邏輯方法對每一特征的兩種歸一化后的特征重要性評分進行加權，得到最終的特征重要性評分C(j)，如式(3)所示

ηMI為最終得到MI評分的高斯隸屬度，ηF為最終得到的ANOVA評分的高斯隸屬度。采用該改進方法計算高斯隸屬度，充分考慮了兩種高斯隸屬度計算方法的重要性等同，實質上是對以MI評分為基礎和以ANOVA評分為基礎計算得到的高斯隸屬度進行了平均加權。

步驟 4 依據步驟3計算出的特征重要性評分選擇特征。

3 基于多項式樸素貝葉斯融合的AD分類方法

3.1 AD分類常用分類器

目前AD分類常用分類器有邏輯回歸(LR)、隨機森林(RF)、LightGBM(LGB)、支持向量機(SVM)和深度前饋網絡(Deep Feedforward Networks, DFN)等。LR能夠評估輸入特征與輸出結果的關聯程度，但是它通常假設輸入特征是相互獨立的，這在實際情況中難以完全滿足。RF[10]以決策樹(Decision Tree, DT)為基學習器，并在DT的訓練過程中引入了隨機屬性選擇，具有簡單、容易實現、計算開銷小的優點，但是RF容易過擬合且不穩定。LGB采用基于梯度的單邊采樣和互斥特征捆綁在不損失分類精度的同時提升了計算效率。但也存在容易過擬合的問題。SVM[11]具有較強的逼近能力和泛化能力，但需要大量的計算機資源，且存在數值不穩定的問題。DFN是典型的深度學習模型，與人工神經網絡等淺層機器學習方法相比，它具有更好的非線性估計性能，但存在確定最佳架構和調整超參數困難等缺陷[8]。

3.2 樸素貝葉斯分類器

樸素貝葉斯分類器假定樣本每個特征與其他特征都不相關[12]，因此可以分別學習每個屬性的參數，這極大地簡化了學習。樸素貝葉斯分類器使用條件概率確定具有特定類別的實例的概率，以此確定實例所屬類的概率，并將概率最大的類標記為該實例所屬類。高斯樸素貝葉斯(Gaussian Naive Bayes, GaussianNB)和多項式樸素貝葉斯(MultinomialNB)是常用的兩種樸素貝葉斯分類器。MultinomialNB適用于離散變量，假設各個特征在各個類別下服從多項式分布，因此每個特征值不能是負數，計算概率為

其中，Nykxi表示特征xi在類別為yk的樣本中出現的次數；Nyk表示類別為yk的樣本中，所有特征出現的次數；α表示平滑系數，取值為1時為拉普拉斯平滑(Laplace smoonthing)；n表示特征數量。

3.3 基于多項式樸素貝葉斯融合的異質集成學習

集成學習將多個初級分類器的輸出組合起來，以獲得更好的預測或分類精度。異質集成學習[8]的初級分類器使用不同的學習算法，它利用初級分類器的多樣性來增加不同錯誤類型的概率，以提高整體預測精度。堆疊法是一種用于異質集成學習的常用融合策略，具有較好的魯棒性，它首先使用初始數據集訓練初級分類器，然后“生成”一個新數據集用于訓練次級分類器，在這個新數據集中，初級分類器的輸出作為次級分類器的輸入，而初始樣本的標簽仍作為樣本標簽[13]。

多個分類器融合的方法能勝過單個分類器方法的原因在于其分類決策是基于分類器的組合[13]。集成多樣性是指分類器之間的差異，初級分類器的多樣性越高，其集成學習的性能越好。由3.1節的分析可知，LR, RF, LGB, SVM和DFN分類器已成功地應用于AD分類，具有一定的精確性，但均存在各自不同的缺陷。LR基于回歸模型，RF和LGB均基于決策樹學習模型，SVM基于統計學習模型，DFN基于深度學習模型，本文選擇LR, RF, LGB,SVM和DFN分類器作為初級分類器，具有較高的多樣性，有利于克服單一分類器存在的缺陷，以提高分類精度。本文所提多項式樸素貝葉斯融合異質集成分類器如圖1所示。

圖1 多項式樸素貝葉斯融合異質集成分類器

具體步驟如下：

步驟 1 首先將輸入數據作為原始訓練集數據，分別訓練各個初級分類器，得到訓練好的LR,RF, SVM, LGB, DFN分類器；

步驟 2 再次將輸入數據分別輸入到訓練好的LR, RF, SVM, LGB, DFN分類器，得到各個初級分類器輸出的預測概率PLR,PRF,PSVM,PLGB,PDFN；

步驟 3 將各個初級分類器輸出的預測概率PLR,PRF,PSVM,PLGB,PDFN和個體對應的真實標簽組合成新的訓練集數據，采用該數據訓練次級分類器，得到訓練好的MultinomialNB分類器；

步驟 4 將訓練好的初級分類器LR, RF,SVM, LGB, DFN和次級分類器MultinomialNB按圖1的方式組合起來，構建多項式樸素貝葉斯融合異質集成分類器。

本文所提基于多項式樸素貝葉斯融合的AD分類方法，首先對AD數據進行顱內體積標準化和Z-score標準化[1]；然后使用2.2節提出的改進的高斯模糊邏輯特征選擇方法對預處理后的AD數據集進行特征選擇；最后采用本節所述基于多項式樸素貝葉斯融合的AD分類器實現AD分類。

4 實驗結果與分析

4.1 實驗數據

TADPOLE[14]挑戰賽數據集隸屬于ADNI，旨在為阿爾茨海默癥(AD)分類與預測研究提供標準數據集，它包含119個大腦皮層與皮層下的感興趣區域體積特征，特征標簽及描述見Cross-Sectional FreeSurfer (6.0)[15]。由于AD患者在特定腦結構的體積上會發生明顯變化，因此本文采用TADPOLE挑戰賽數據集中D1和D2數據集中的體積特征作為AD分類的特征。首先去掉D1與D2中個體相同的數據，得到新的D1數據集(正常/AD:453/628)作為訓練集；D2(正常/AD:563/52)作為測試集；其中，同一個體的不同時間點的數據視為不同樣本。

4.2 實驗結果與分析

本文實驗所使用的計算機CPU為AMD Ryzen3 2200 G @3.5 GHz，內存為16 GB，操作系統為Windows10，編程工具為Python，機器學習庫使用Scikit-learn和Lightgbm3.3.0。所有實驗均使用如4.1節所述TADPOLE挑戰賽數據集。所使用的DFN分類器4個隱藏層單元數分別為70, 80, 100和120。利用網格搜索法對LR的l1_ratio參數、RF的n_estimators和max_depth參數、SVM的C和gamma參數以及LGB的max_depth參數進行尋優。各分類器其余參數均使用默認值。

本文使用正確率(ACCuracy, ACC)、精確率(PREcision, PRE)、召回率(RECall, REC)、F1分數、AUC 5個指標對分類模型進行綜合評價[5,7]。ACC, PRE, REC, F1分數和AUC越高，說明分類器性能越好。

4.2.1 特征選擇實驗

采用如2.2節所述改進的高斯模糊邏輯特征選擇方法進行實驗，對應特征重要性評分排序前10的特征如表1所示。

表1 特征重要性評分排序前10的特征

實驗結果表明與AD分類相關的皮層及皮層下體積特征主要集中于海馬體、內嗅皮層、顳葉、杏仁核這幾個區域，左側結構比右側相應結構重要性更高，這與前期的醫學研究得到的結論是一致的。但是，在左側和右側分別存在一個具有高特征重要性評分的未定義區域，其醫學意義有待醫學專家進一步深入研究。

按特征重要性評分由高到低對特征進行排序，分別選擇特征重要性排序最高的前10%～100%數量的特征，采用第3節所述基于多項式樸素貝葉斯融合的AD分類方法進行AD分類實驗，結果如圖2所示。

由圖2可知，AD分類的正確率(ACC)隨特征數量占比增大整體呈先上升、后下降的趨勢，在特征數量占比為0.7時，所選取特征的累計特征重要性評分高達0.96，此時AD分類的ACC達到最高。這說明篩除部分特征重要性評分較低的特征后，分類性能反而有所上升，本文所提改進的高斯模糊邏輯特征選擇方法是有效的。此外，有很大比例的排序靠后的特征的重要性評分極低，這一部分特征對AD分類價值不高。

圖2 不同特征數量占比下累計特征重要性評分與分類精度

4.2.2 融合策略實驗

采用2.2節所述改進的高斯模糊邏輯特征選擇方法進行特征選擇，采用第3節所述AD分類方法，使用不同融合策略進行對比實驗，對比的融合策略包括平均法、投票法、高斯樸素貝葉斯方法和本文提出的AD分類方法使用的多項式樸素貝葉斯(MultinomialNB)方法，實驗結果如圖3所示。

由圖3可知，在不同特征數量占比的情況下，MultinomialNB融合策略在正確率(ACC)和召回率(REC)上均明顯優于Average, Vote和GaussianNB策略。4種融合策略的精確率(PRE)在不同特征數量占比下的差異均小于1%，差距極小。盡管在PRE上MultinomialNB融合策略與其他3種方法相比略小，但它的ACC, REC,F1分數和AUC均上明顯優于其他3種策略，這表明本文采用的MultinomialNB融合策略是有效的，且性能較好。

圖3 不同融合策略對比實驗

此外，隨特征數量占比的增大，各融合策略下分類評價指標均有不同程度變化。在Multinomial-NB融合策略下，ACC, REC和F1分數整體均是先明顯上升，在特征數量占比為0.7時達到最大值后開始逐漸下降；PRE和AUC雖在特征數量占比為0.5時出現震蕩，但整體也是呈現先升后降的趨勢，且在特征數量占比為0.6時達到最大值。

4.2.3 分類方法對比實驗

采用第3節所述AD分類方法和傳統的LR[7],RF[8], SVM[9], LGB[10], DFN[11]進行AD分類實驗，實驗結果如圖4所示。由圖4可知：在不同特征數量占比的情況下，本文所提MultinomialNB融合異質集成分類器在正確率(ACC)和召回率(REC)上均明顯優于傳統的LR, RF, SVM, LGB, DFN分類器。MultinomialNB融合異質集成分類器與其他5種分類器的精確率(PRE)在不同特征數量占比的情況下都表現十分良好且極為接近，它們之間的差異小于2%，且在F1分數和AUC上相對與其他5種傳統分類器也有較大優勢，這說明MultinomialNB融合異質集成分類器是有效的，其在不同特征數量占比下AD分類性能均明顯優于傳統的LR, RF, SVM,LGB, DFN分類器。

圖4 不同分類方法對比實驗

4.2.4 特征重要性分析方法對比實驗

Wrapper法和Embedded法均與分類器相關，用于特征選擇的分類器與最終使用的分類器相同時，理論上分類效果最好。采用2.2節所述改進的高斯模糊邏輯特征選擇方法分別結合LR和LGB分類器，Wrapper-LR和Embedded-LR特征選擇方法[2]分別結合LR分類器，Wrapper-LGB和Embedded-LGB特征選擇方法[2]分別結合LGB分類器進行對比實驗，實驗結果如圖5所示。

圖5 特征選擇方法對比實驗1

由圖5可知，在不同特征數量占比的情況下，本文所提改進的高斯模糊邏輯特征選擇方法結合LGB分類器的AD分類性能最優；且本文提出的改進的高斯模糊邏輯特征選擇方法結合LR分類器的AD分類性能均明顯優于Wrapper-LR和Embedded-LR分別結合LR分類器。因此，本文所提改進的高斯模糊邏輯特征選擇方法性能優于Wrapper和Embedded特征選擇方法。

進一步采用本文所提改進的高斯模糊邏輯特征選擇方法Wrapper-LR, Embedded-LR, Wrapper-LGB, Embedded-LGB分別進行特征選擇，再使用SVM分類器進行AD分類實驗，實驗結果如圖6所示。

由圖6可知，在不同特征數量占比的情況下，本文所提改進的高斯模糊邏輯特征選擇方法使用SVM作為分類器用于AD分類的性能最優。這充分表明本文所提改進的高斯模糊邏輯特征選擇方法能有效克服Wrapper法和Embedded法固有的與分類器緊密相關的缺陷，更適合應用于各種不同的分類器。

圖6 特征選擇方法對比實驗2

綜上所述，本文所提改進的高斯模糊邏輯特征選擇方法在各種分類器上均能夠明顯提升AD分類效果，其性能優于傳統的Wrapper和Embedded特征選擇方法。

4.2.5 時間復雜度分析

采用2.2節所述的高斯模糊邏輯特征選擇方法確定AD分類所使用的特征后，初級分類器LR,RF, SVM, LGB和DFN、次級分類器Multinomial-NB和本文所提多項式樸素貝葉斯融合異質集成分類器的訓練時間如表2所示。

由表2可知，在初級分類器訓練中，LR訓練所用時間最短；SVM, RF和LGB訓練所用時間比LR高1個數量級，且LGB比RF訓練所用時間稍短；DFN訓練所用時間最長。次級分類器MultinomialNB訓練所用時間僅為0.0001 s。異質集成分類器時間復雜度依賴于初級分類器與次級分類器的時間復雜度，本文提出的多項式樸素貝葉斯融合異質集成分類器訓練所用時間為各初級分類器與次級分類器訓練所用時間之和，即2.9641 s。

表2 分類器時間復雜度分析

綜上所述，本文所提以LR, RF, SVM, LGB和DFN作為初級分類器，MultinomialNB作為次級分類器的異質集成分類器訓練所用時間主要集中在初級分類器上，MultinomialNB作為次級分類器訓練所用時間極短，總體訓練所用時間不超過3 s，其時間復雜度較低。

5 結論

本文提出一種結合改進的高斯模糊邏輯特征選擇和多項式樸素貝葉斯融合異質集成分類器的分類方法，先采用改進的高斯模糊邏輯特征選擇方法對AD數據集進行特征選擇，再采用多項式樸素貝葉斯融合異質集成分類器進行AD分類。使用TADPOLE數據集進行實驗，實驗結果表明，在AD分類上，本文所提改進的高斯模糊邏輯特征選擇方法的性能優于Wrapper和Embedded法，且多項式樸素貝葉斯模型融合異質集成分類器的性能優于傳統的LR, RF, SVM, LGB, DFN分類方法，本文所提方法更適用于AD分類。