一種用于阿爾茨海默病分類的二階段多任務特征選擇算法

2018-10-09 06:18:02楊晨暉侯超群

廈門大學學報(自然科學版) 2018年5期

楊晨暉,侯超群

(廈門大學信息科學與技術學院,福建廈門361005)

阿爾茨海默病(Alzheimer′s disease,AD)是一種不可逆的神經退行性疾病,會導致患者神經細胞的死亡和腦組織的損失,臨床表現為記憶下降和認知功能損害.據預測,在2050年每85人中將有1個人是AD患者[1].隨著問題的嚴重性日益突出,越來越多的國家和科研機構投入了大量資金和人力致力于對AD的研究工作,同時也有越來越多關于AD的公開數據集面向研究者.比如,AD神經影像學(ADNI,https:∥ida.loni.usc.edu/login.jsp)數據庫提供了磁共振成像(MRI)、正電子發射型計算機斷層顯像(PET)和腦脊液(CSF)等模態的數據;華盛頓大學AD研究中心創建了開放式系列圖像研究[2](OASIS,http:∥www.oasisbrains.org)數據集,主要收集MRI模態的數據,包括416名年齡介于18歲到96歲之間的受試者.然而,AD領域的數據集具有樣本量少、多模態、維度高等特點,如何有效地選擇特征具有重要的研究意義.Kloppel等[3]證實了在某些情況下,傳統機器學習算法對AD的預測比臨床醫生更準確,該證明對研究計算機輔助診斷AD具有重要的意義.

特征選擇通過移除樣本的原始特征中一些不相關或者冗余的特征,找到一種具有良好泛化能力并能夠緊湊表達的原始特征,進而達到降低數據維度、提升模型準確度、降低模型時間復雜度等目的.有效的選擇特征對進一步處理數據和使用數據具有重要的意義.無監督特征選擇方法作為特征選擇的重要分支發揮著重要作用.Liu等[4]利用稀疏表達計算有效距離以衡量2個樣本之間相似度進行特征選擇.Zhu等[5]提出基于正則化自表達的無監督特征選擇算法,不僅能夠對特征進行選擇,還可以根據模型重構度對樣本進行選擇.Tang等[6]提出一種無監督的拉普拉斯分數特征選擇方法,可選擇最能保持數據集局部拓撲結構的特征.此外,近幾年來AD領域不斷涌現的模態數據類型為多模態特征選擇提供了重要的數據基礎.單模態數據不能充分挖掘樣本的隱藏信息,而不同模態數據從不同視角提供互補信息,整合多種模態數據能夠挖掘樣本更多的隱含信息.Liu等[7]提出了模態內關系受限的多任務特征選擇方法來保留互補的模態間信息,并通過增加模態間關系約束項進而保護不同模態中同類樣本的相對距離;Liu等[7]把每個模態中的特征選擇過程作為一個單獨任務,并根據稀疏性限制所選特征以保持模態間關系,對AD進行有效地預測.

此外,隨著計算能力和標注數據的增加,深度學習算法在很多領域取得顯著的效果.針對AD的分類問題,Liu等[8]先使用堆棧式的自編碼進行特征提取,緊接著使用softmax[9]作為分類層有效地對AD進行分類;Gupta等[10]結合稀疏自編碼和2D卷積神經網絡有效地提高了分類精度;Payan等[11]使用3D卷積神經網絡改進了Gupta的方法,提升了0.65%的準確率.復雜的深層卷積神經網絡方法[8,10-11]將特征選擇和分類器整合到一個網絡結構并取得顯著的效果,但目前該方法仍缺乏理論支撐.

本研究提出一種結合基于有效距離的拉普拉斯分數特征選擇(effective distance-based laplacian score feature selection,EDLSFS)算法和基于類內方差最小化的多任務特征選擇(minimum intra-class variance-based multitask feature selection,MIVMTFS)算法的二階段多任務特征選擇(two-stage multi-task feature selection,TSMTFS)算法;并分別討論MIVMTFS算法和TSMTFS算法對AD進行分類的分類準確率,還將TSMTFS算法與相似的基于傳統特征工程的算法和主流的深度學習算法進行比較.

1 MIVMTFS算法

Belhumeur等[12]于1996年將線性判別分析(linear discriminant analysis,LDA)算法引入人工智能領域,LDA利用樣本的標簽作為先驗知識將高維模式的數據投影到最佳鑒別矢量空間,投影后的新特征具有最大類間離散度和最小類內離散度等特點.主成分分析[13](principal component analysis,PCA)使用無監督的方式在樣本中選擇對應方差大的前k維作為新特征.Huang等[14]使用組合的LDA算法在多模態數據中共同確定與病理關聯的大腦區域特征.Zhang等[15]針對AD的分類問題,提出了一種基于多模態多任務學習的算法(MTFS)聯合選擇特征.但是在多任務特征學習中,如果對每個任務只考慮樣本和樣本標簽之間的關系而忽略樣本間的相互依賴關系,可能會導致相似的樣本映射后的映射點間隔較大. Jie等[16]對MTFS算法進行改進,提出一個基于流形正則化項的多任務特征學習算法(M2TFS),主要思想是距離相近的樣本通過線性映射之后的映射點同樣接近,并將該思想嵌入到模型的損失函數中,實現特征的有效聯合選擇.

本研究受文獻[16]以及傳統降維方法思想的啟發提出MIVMTFS算法.MIVMTFS算法對映射函數加以限制,使得同模態同類樣本映射后的映射點具有聚集的特點,選擇出來的特征將更有利于分類器的分類效果.MIVMTFS算法引入了同類樣本全局方差最小的思想,通過讓類內方差盡可能小來優化目標函數.本研究構建的類內方差最小化項如式(1)所示(推導過程詳見附錄http:∥jxmu.xmu.edu.cn/upload/html/20180519.html):

(1)

(2)

其中:Y是表示樣本的類標的列向量;β和γ是2個取值范圍為(0,1]的常量,它們的比值反映稀疏化正則項和類內方差最小化損失項對目標損失函數最小的貢獻比重,可以通過訓練數據集內部交叉驗證得到.

本研究提出的MIVMTFS算法中,L2，1正則化項β‖W‖2，1能夠確保只有少量的特征從多模態數據中共同選擇；而類內方差最小化項(式(2)中第3項)通過對同類數據映射點類內離散程度的控制保留了單模態數據中最具有分類能力的信息,從而可能誘導更有分類能力的特征.在下文的實驗部分中,本研究將MIVMTFS算法與MTFS和M2TFS算法進行比較,驗證MIVMFTS算法的有效性.

2 EDLSFS算法

拉普拉斯分數(Laplacian score,LS)是基于拉普拉斯特征圖[17]和局部性保持投影[18]理論產生的.拉普拉斯分數的基本思想是評估特征項對數據集拓撲結構的局部保持能力,根據評估結果來決定是否保留此維度特征.Chung等[19]提出LS被認為是關于特征的瑞利熵.基于相似度保護的特征選擇算法已經被廣泛使用在相關研究[20-23]中,能夠選擇出最佳保護原始數據局部結構的特征.此外,基于相似度保護的特征選擇準則有一個統一的模式[24],LS及其擴展方法[25]是典型的基于相似度保護的無監督特征選擇方法.LS基于圖模型,采用特征擁有的分類能力衡量其重要程度.例如Cai等[19]提出多集群結構保護方法(MCFC)用于特征選擇,MCFC基于數據的譜分析和L1正則化回歸模型引導特征選擇過程.Zhao等[22]提出基于流形的最大間隔方法用于無監督特征選擇.

有效距離基于概率學思想的距離測度,可以反映數據的動態結構[26].相比于歐幾里德距離,有效距離通過考慮數據的動態結構信息,可以幫助揭示數據隱藏的幾何模式.因此在特征學習任務中,采用有效距離代替歐幾里德距離可引入動態結構信息,進而提升學習性能.忽略網絡結構的潛在復雜性,有效距離的核心思想是:一些可能路徑子集可以控制數據的動態結構.給定樣本關聯矩陣P,記Pa b(0≤Pa b≤1)為從節點a到節點b的轉移概率，則節點a與節點b的有效距離

Da b=(1-logPa b)

(3)

由式(3)可知,從節點a到節點b的轉移概率越小,表明節點a與節點b間的距離越大;反之,兩個節點間的距離越小.由于關聯矩陣P是非對稱的,所以有效距離矩陣D=(Dij)也是非對稱的.相比于傳統的幾何距離,有效距離可以揭示數據的隱藏幾何模式、捕捉到數據的動態結構信息,因此在特征選擇方法中使用有效距離可以找到數據中最具有分類能力的特征.

基于給定的有效距離矩陣D,本研究計算每一對樣本間的相似度,記樣本的相似度矩陣S=(Sij)，

(4)

其中,常量λ表示高斯函數的寬度.矩陣元素Sij定義了樣本xi與樣本xj間的相似性.在LS進行特征選擇過程中,樣本第r維特征的拉普拉斯分數Qr的計算公式如式(5)所示:

(5)

EDLSFS算法的步驟如下所示:

初始化高斯函數寬度參數λ.

1) 基于稀疏表達構造重構P,并歸一化P的每一列;

2) 根據P和式(3)計算有效距離矩陣D;

3) 根據式(4)構造基于有效距離的相似矩陣S;

4) 根據相似矩陣S和式(5)得出各特征維度的拉普拉斯分數Q;

5) 根據拉普拉斯分數Q對各個特征維度進行排名;

6) 根據設定閾值,選取排名靠前的特征作為降維后的新特征.

輸出:各個特征維度根據拉普拉斯分數排名后的數組.

3 TSMTFS算法

EDLSFS算法和MIVMTFS算法在特征選擇上具有互補性.EDLSFS算法可以捕捉到數據間的動態結構信息,從而選擇出最優區分能力的特征且保持了原有特征空間的局部信息.同時EDLSFS算法也存在不足之處:1) 有效距離的計算利用樣本間的相互線性表達,而實際應用中許多樣本之間是非線性相關的;2) 特征排名的閾值很難確定,較小的閾值使得剔除的特征偏多、信息丟失,較大的閾值剔除的特征偏少導致仍存在較多的冗余特征.MIVMTFS算法利用類標與數據分布信息來選擇特征,由于引入了類標信息并改造了目標函數,使其在多模態數據中能夠選取出更具有分類能力的特征，但在特征維度比較高、樣本數比較少的情況下,容易陷入參數優化不收斂情況.

本研究結合EDLSFS算法和MIVMTFS算法實現特征有效選擇.主要是先使用EDLSFS算法對數據原始特征做初步降維,降維后的特征作為有監督特征選擇MIVMTFS算法的輸入,實現特征的進一步選擇.在實驗過程中把無監督特征選擇過程和有監督特征選擇過程結合起來,利用10折交叉驗證和網格化搜索策略實現最優參數設置.TSMTFS算法流程框架如圖1所示,輸入是多模態影像的原始特征,依次使用無監督和有監督的特征選擇方法并使用10折交叉驗證法尋找最優參數獲取精簡特征集,以此特征作為分類器(本研究使用多核支持向量機)的輸入進行訓練,得到最終的分類結果.

圖1 TSMTFS算法的流程圖Fig.1 The flow diagram of TSMTFS algorithm

4 實驗

4.1 實驗數據集

本研究的實驗部分使用238個來自AD神經影像學數據庫的樣本,包括磁共振成像(MRI)和正電子發射型計算機斷層顯像(PET)2種模態的醫學影像數據,具體參數如表1所示.本研究參考文獻[27]的方法獲取MRI和PET數據以及數據處理流程,相關的實驗過程在MATLAB平臺上實現.

表1 238個樣本的基本信息

注:MCI表示輕度認知功能障礙;NC表示正常受試者;CDR表示臨床癡呆評定量表,取值范圍為[0,3],數值越大表示癡呆程度越嚴重;N表示樣本數量.

4.2 MIVMTFS實驗分析

MIVMTFS算法使用由238個樣本組成的多模態(PET+MRI)數據,分別對AD vs NC、MCI vs NC兩個分類任務與MTFS[15]和M2TFS[16]算法進行比較,實驗結果如表2所示.MIVMTFS算法通過將式(1)作為懲罰項加入式(2)的目標函數進行優化,使得類內方差盡可能小進而提升了分類效果.在AD vs NC的分類任務中通過10折交叉驗證,MIVMTFS算法達到93.09%的平均準確率(ACC),其他指標也是最優;在MCI vs NC的分類任務中通過10折交叉驗證,MIVMTFS算法達到76.83%的ACC,引入流形正則化項的M2TFS算法在各項指標達到最優.MIVMTFS算法通過對同類數據映射點類內離散程度的控制保留了單模態數據中最具有分類能力的信息,但缺乏捕捉數據間的動態結構信息的能力,因此選擇的特征丟失了原有特征空間的局部信息.

此外,本研究使用MIVMTFS算法分別在MRI和PET 2個單模態數據集上進行實驗，分析被選中的腦區個數.其中，MRI模態的最優特征個數為19，PET模態的最優特征個數為20；同時使用MRI+PET模態的最優特征個數為56，包括單獨使用MRI模態和PET模態時選中的特征.實驗結果進一步說明了MIVMTFS算法能夠實現多模態數據的有效特征選擇,標記出對疾病敏感的腦區域,為腦疾病的輔助診斷提供實驗依據.

表2 多模態數據下MIVMTFS算法與MTFS和M2TFS算法的比較

注：SEN表示敏感度；SPE表示特異性；AUC表示ROC曲線下的面積.

4.3 TSMTFS實驗分析

TSMTFS實驗部分對238個樣本進行組合得到3種模態數據類型,即MRI、PET、MRI+PET,然后分別對這3種模態數據進行實驗.通過10折交叉驗證TSMTFS算法在AD vs NC分類任務中，MRI、PET、MRI+PET的準確率對應的方差分別為0.174，0.220，0.102;在MCI vs NC分類任務中分別為0.091，0.043，0.270.實驗結果如表3所示,TSMTFS算法結合了EDLSFS算法和MIVMTFS算法,其多模態數據上的分類性能更優于單模態數據上的分類性能.針對多模態(MRI+PET)數據:在AD vs NC的分類任務中,TSMTFS算法的ACC比MIVMTFS算法提升了0.17個百分點;在MCI vs NC的分類任務中TSMTFS算法的ACC比MIVMTFS算法提升了5.86個百分點,同時也優于M2TFS算法.

本研究的數據中,103名MCI受試者還可進一步劃分為47名MCI-C和56名MCI-NC,分別表示在隨訪中轉化為AD和未轉化為AD的受試者.本研究使用多模態數據(MRI+PET)分別采用3種算法進行MCI-C vs MCI-NC分類,TSMTFS算法的各項指標都優于MTFS算法和M2TFS算法，結果如表4所示.

表3 TSMTFS算法在不同模態的分類結果

表4 多模態數據下TSMTFS算法與MTFS和M2TFS算法的比較

上述實驗結果中,表3首先驗證了TSMTFS算法在多模態數據上的效果優于單模態數據,同時也進一步說明結合了MIVMTFS和EDLSFS算法的TSMTFS算法能夠進一步挖掘多模態數據之間的有效特征.表4針對MCI-C vs MCI-NC的分類任務,以多模態數據為數據集分別對MTFS、M2TFS和TSMTFS算法進行比較,實驗結果表明TSMTFS算法取得最優的效果.

此外,本研究還選擇了3種當前主流的基于深度學習算法[8,10-11]與TSMTFS算法進行比較,文獻[8,10-11]中使用深度卷積神經將特征選擇和分類器整合到一個網絡結構并取得顯著的效果.如表5所示,在AD vs NC的分類任務中,Liu等[8]取得了87.76%的ACC;Gupta等[10]結合了稀疏自編碼和2D卷積神經網絡進行特征提取,取得了94.74%的ACC;Payan等[11]使用3D卷積神經網絡改進了Gupta的方法,提升了0.65%的ACC.本研究提出的TSMTFS算法取得了93.26%的ACC,與基于深度學習的算法[8,10-11]得到的結果相差不大.實驗結果再次驗證了TSMTFS算法選擇的特征能夠有效地對AD進行預測,由于文獻[8,10-11]使用卷積神經網絡提取圖像的特征并進行分類,特征模塊和分類器都是基于反向傳播更新參數的方式進行訓練,目前仍缺乏對模型決策做出明確解釋的理論支撐,而TSMTFS算法提取的特征則相對更具有可解釋性.

表5 TSMTFS算法與一些深度學習算法的ACC比較

5 結論

本研究受文獻[16]中算法以及傳統降維思想的啟發提出了MIVMTFS算法,并將MIVMTFS算法與EDLSFS算法結合進一步提出了TSMTFS算法.TSMTFS算法首先利用EDLSFS算法在無監督情況下篩選出較為優質的特征作為一個數據子集.然后利用MIVMTFS算法在有監督情況下進一步選擇更具有分類能力的特征子集.TSMTFS算法最大的優點是在選擇特征數量較多且樣本數量較少的情況下不易陷入次優解,能夠更好地選擇出具有最優分類能力的特征;缺點是時間復雜度較高,主要由于無監督特征選擇部分需要花費更多的時間.本研究在第一階段過濾掉部分特征,限制了整體性能的進一步提升.但在無監督過程采用了基于有效距離的相似性測度保留了具有分類能力的特征,篩選出有效的精簡特征子集,提升分類器的性能.本研究的實驗數據來源于ADNI,實驗部分主要包括3部分:1) 以多模態數據對MIVMTFS算法進行實驗,并與MTFS和M2TFS算法做比較,驗證了MIVMTFS算法的有效性和魯棒性;2) 分別以單模態和多模態數據對TSMTFS算法進行實驗,驗證了TSMTFS算法在多模態數據上能夠更加有效地預測AD;3) 以多模態為數據集,對MCI-C vs MCI-NC分類任務進行實驗,TSMTFS算法相對于MTFS和M2TFS算法取得最優性能,ACC只有73.21%,還有很大的提升空間.此外,實驗進一步將TSMTFS算法與當前主流的深度學習算法[8,10-11]作比較.雖然使用深度學習算法[8,10-11]的ACC更高,但深度學習算法目前仍缺少理論支撐,可解釋性不強，而本研究方法可以標記出對疾病敏感的腦區域.在下一步的研究工作中,將圍繞兩方面繼續研究:1) 深度學習算法及其在特定領域的解釋性;2) 將深度學習算法提取的特征與傳統特征選擇算法進一步結合,獲取更有效的特征子集.