張春香,王 駿,2+,張嘉旭,鄧趙紅,潘 祥,王士同
1.江南大學數字媒體學院,江蘇無錫214122
2.上海大學通信與信息工程學院,上海200444
自閉癥譜系障礙(autism spectrum disorder,ASD)是一種在兒童發育早期就出現并且持續終身的精神障礙,主要臨床特征表現為不同程度的溝通困難、社會障礙以及重復性行為等[1]。該疾病給個人、家庭和社會帶來了巨大困擾,已然成為需要迫切關注的公共健康問題。靜息態功能磁共振成像(resting-state functional magnetic resonance imaging,rs-fMRI)技術能夠在無創傷、無輻射條件下,通過檢測血氧水平獲得高分辨率圖像來體現大腦活動的異常,逐漸成為ASD等腦部疾病研究的重要手段之一。
借助靜息態功能磁共振成像技術,研究人員發現,自閉癥的形成與大腦的形態結構變化密切相關[2-4]。與正常個體相比,自閉癥患者腦功能連接方面存在著不同腦區之間近距離連接過度、遠距離連接不足等問題[5-6],這些連接異常可以用來幫助區分自閉癥患者和正常人,也從側面反映了自閉癥病情的復雜性。
個體癥狀表現多樣、發病原因復雜、難以確認醫學成因等因素導致自閉癥的診斷過程存在著較多的不確定性。針對這種不確定性,構建一個基于靜息態功能磁共振成像的自閉癥輔助診斷模型具有重要意義。TSK模糊系統[7]是一種高效的模糊推理系統,對解決不確定性問題具有很好的針對性。其核心思想是通過對訓練數據的輸入/輸出集合進行劃分來提取“if-then”模糊規則,在此基礎上進行模糊規則后件參數的學習來挖掘輸入數據和輸出數據之間的映射關系。由于良好的非線性逼近能力,TSK模糊系統已被廣泛應用于多種預測任務。文獻[8]通過挖掘不同任務間隱藏的相關信息,提出了多任務TSK模糊系統模型;文獻[9]提出了一種基于核心集的MEB(minimal-enclosing-ball)近似技術的STSK模糊訓練算法,在一定程度上提高了大數據集的分類性能;文獻[10]則將TSK模糊系統和遷移學習機制結合,提出了一種適用于數據不充分場景下的不確定性預測方法。雖然這些預測方法在解決各自的問題上都取得了較好的效果,但是它們面向的都是低維數據場景,對于自閉癥醫學影像診斷中更加復雜的高維數據場景,TSK模糊推理系統的研究仍然存在著很大的挑戰。
已有的面向自閉癥輔助診斷算法中,如文獻[11]分別從灰質圖像和白質圖像中挑選具有識別力的特征向量,構建SVM(support vector machine)模型進行ASD預測;文獻[12]則基于皮層厚度等形態特征分別提取不同空間尺度的大腦形態信息,并利用SVM對提取特征進行分類,以找出能夠實現最佳分類效果的特征;文獻[13]中引入流形正則化框架,提取rsfMRI特征數據的非線性低維嵌入表示,并利用SVM分類方法構建模型。這些方法都更加注重于從原本的高維數據中提取重要特征,卻忽視了構造分類器的過程中融合特征之間關聯信息的重要性。
綜合考慮以上兩方面的因素,本文以自閉癥輔助診斷的不確定性為出發點,將腦區之間的功能連接作為特征,提出了一種新型的聯合組稀疏TSK模糊系統建模方法。該方法基于TSK模糊系統理論框架,結合特征之間的關聯信息學習新的權重系數,進而使用一種全新的方式來構造不同模糊規則后件參數之間的聯合組稀疏正則化項,引導規則內特征和規則間特征的聯合選擇,從而降低自閉癥診斷過程中的不確定性。
本文的診斷方法框架如圖1所示,整個建模流程包括數據采集與預處理、特征提取和構建診斷模型三部分。

Fig.1 Framework for ASD diagnosis method圖1 面向ASD診斷方法框架圖
每個實驗對象的rs-fMRI數據使用DPARSF(data processing assistant for resting-state fMRI)[11]工具進行處理。處理步驟主要包括:(1)去除圖像序列前10個時間點的數據;(2)時間層校正和頭部運動校正;(3)使用T1加權圖像分割并歸一化到MNI152(Montreal Neurological Institute 152)標準空間中;(4)使用AAL(anatomical automatic labeling)模板將大腦劃分成116個腦區,每個區域重新采樣3 mm×3 mm×3 mm的體素;(5)使用半高全寬高斯核進行空間平滑處理;(6)應用帶通濾波(0.01~0.10 Hz)去除噪聲;(7)去線性漂移并進行全局信號校正去干擾變量;(8)計算每個腦區的平均時間序列。
針對預處理后的rs-fMRI數據,執行以下步驟:
(1)計算每個樣本中各腦區之間的Pearson相關系數,得到功能連接矩陣,該矩陣表示腦區之間的線性相關程度,具有對稱性;
(2)將所有功能連接矩陣的上三角陣展開并按行排列,去除全0和全1列,得樣本特征矩陣;
(3)將樣本特征矩陣劃分為訓練集、驗證集和測試集。
針對訓練集,執行以下特征提取步驟:
計算所有樣本中每列特征向量與標簽之間的相關系數并降序排列,保留相關系數最大的P個特征組成新的訓練集X(trn)∈?N×P,并記錄相應的列索引。
針對驗證集和測試集,執行以下特征提取步驟:
根據訓練集特征提取過程中得到的列索引提取驗證集和測試集的特征,組成新的驗證集X(val)和測試集X(tst)。
TSK模糊系統以“if-then”的形式定義模糊規則,給定任意輸入向量x=(x1x2…xP)T∈?P,則TSK模糊系統的第r條模糊規則如下:

式(1)中,Arp表示在第r條模糊規則下,輸入向量x的第p維特征所對應的模糊子集,wrp表示后件參數,∧表示模糊合取操作,r=1,2,…,R,p=1,2,…,P。本文采用高斯隸屬度函數表示模糊規則的模糊集Arp(xp):

式(2)中,crp和σrp分別表示高斯隸屬度函數的均值和方差,可由聚類算法或其他劃分方法得出。本文采用FCM(fuzzy C-means)聚類算法進行數據集的模糊劃分,可得crp和σrp:

TSK模糊系統具有如圖2所示的分組結構[14]。對于訓練集X(trn)∈?N×P在第r條模糊規則下對應的子字典φr,采用以下線性模型[15]預測第r條規則對應的輸出變量:


Fig.2 Group structure of TSK fuzzy system圖2 TSK模糊系統分組結構



Fig.3 Consequent parameters wr of all fuzzy rules圖3 模糊規則下各后件參數wr



模型可以通過交替計算式(15)和式(17)進行優化,迭代K次后得到的w(K)即式(13)的近似解。
本文構造的特征關聯誘導聯合組稀疏TSK模糊系統建模方法JGSL-TSK(joint-group-sparse-learning Takagi-Sugeno-Kang)對應的算法描述如下:
算法1特征關聯誘導聯合組稀疏TSK模糊系統(JGSL-TSK)


步驟1提取TSK模糊規則前件。
步驟1.1使用FCM聚類算法對訓練集D進行模糊劃分;
步驟1.2根據式(3)、式(4)計算高斯隸屬度函數的均值crp和方差σrp,p=0,1,…,P,r=1,2,…,R;
步驟1.3根據式(2)確定隸屬度函數的值;
步驟1.4根據式(6)、式(7)生成Φ=(φ1,φ2,…,φR)。
步驟2規則間聯合組稀疏學習。
步驟2.1初始化w(0)=1,并根據式(16)初始化vrp(0),p=0,1,…,P,r=1,2,…,R;
步驟2.2根據式(17)更新vrp(k),p=0,1,…,P,r=1,2,…,R,根據式(15)更新w(k),k=1,2,…,K;
步驟2.3返回w(K)。
本文采用來自ABIDE(autism brain imaging data exchange)數據庫(http://preprocessed-connectomes-project.org/abide/download.html)NYU(New York University Langone Medical Center)、UCLA(University of California,Los Angeles)和UM(University of Michigan)三個影像中心的數據,表1為實驗數據的對象信息,圖4為某個ASD患者的靜息態功能磁共振軸位影像。

Table 1 Object information of NYU,UCLA,UM image centers表1 NYU、UCLA和UM影像中心對象信息
評價算法診斷疾病有效性的常用指標為敏感度SEN(sensitivity)和特異性SPE(specificity),SEN越高,漏診率越低,確診病人的可能性越大;SPE越高,誤診率越低,分辨正常人的能力越高。但是當算法中的診斷閾值發生變化時,敏感度SEN和特異性SPE將分別朝著不同的方向變化。因此,單純使用某個閾值點上的SEN和SPE指標評價各類算法的診斷性能是不合理且不全面的。ROC(receiver operating characteristic)曲線作為被廣泛應用于臨床診斷的一種統計方法,以假陽率為橫坐標,真陽率為縱坐標,同時考慮了敏感性SEN和特異性SPE[19]。從本質上講,ROC曲線分析反映的是隨著診斷閾值改變而動態變化的敏感性、特異性曲線,能夠更加全面、準確地評價算法對于疾病診斷的準確性。ROC曲線下的面積越大,AUC(area under the curve)值越大,所對應的算法的診斷性能越好。
因此,本文使用AUC和ROC曲線來度量各類算法的分類性能,其中敏感度SEN和特異性SPE定義如下:

Fig.4 Axial slice of rs-fMRI in autistic patient圖4 某個自閉癥患者的靜息態功能磁共振軸位影像

式(18)、式(19)中,TP(true positive)、FN(false negative)、FP(false positive)和TN(true negative)分別表示真正例、假反例、假正例和真反例。將本文提出的算法與以下算法進行比較,表2總結了實驗中所涉及的算法以及對應的算法描述。

Table 2 Descriptions of various methods表2 各類算法描述
為了客觀地比較各算法,嚴格控制其他因素對實驗結果的影響,考慮以下實驗設置:(1)按照7∶2∶1的比例將數據集劃分為訓練集、驗證集和測試集。在訓練集上訓練模型,在驗證集上進行網格參數尋優,在測試集上評估分類性能,重復該過程20次,將20次實驗結果繪制成ROC曲線作為評價指標。(2)對驗證集和測試集進行網格參數尋優時,各算法的參數設置如表3所示。(3)對驗證集和測試集進行性能評估時,采用閾值為0.5的sigmoid函數實現分類,即:大于等于0.5時為正例,小于0.5時為負例。(4)針對線性分類的LASSO[20](least absolute shrinkage and selection operator)方法,本文使用Matlab自帶的LASSO函數直接進行分類預測;基于TSK模糊系統的非線性分類方法JGSL-TSK、L2-TSKFS[9](L2-norm Takagi-Sugeno-Kang fuzzy system)、TSFS-SVM[21](Takagi-Sugeno-Kang fuzzy system support vector machine)和UFFM-M2SVC[13](unsupervised-fuzzy-feature-learningmethod multimodal support vector classification)均采用對數據集進行模糊映射后再進行分類預測的方法。其中TSFS-SVM方法借助SVMLIB工具包完成分類任務。(5)為了保證所有數據集在TSK模糊映射過程中共享模糊規則前件參數,本文只對訓練集進行模糊劃分,驗證集和測試集使用與訓練集相同的高斯隸屬度函數的均值crp和方差σrp即可。

Table 3 Detailed setting of parameters in various methods表3 各算法中參數詳細設置
圖5和表4顯示了本文方法與對比方法在NYU、UCLA、UM這三個影像中心上的ROC曲線及對應的AUC值。
實驗結果表明,本文提出的聯合組稀疏非線性模糊分類方法JGSL-TSK能夠有效改進分類模型在輔助診斷自閉癥上的性能。首先,相比于線性LASSO分類方法,引入了TSK模糊系統的非線性分類方法JGSL-TSK、L2-TSKFS、TSFS-SVM和UFFM-M2SVC的ROC曲線和AUC值要優于LASSO(0.588 6,0.563 7,0.563 0),這說明了模糊推理系統針對解決不確定性問題具有更好的非線性逼近能力。
其次,本文提出的JGSL-TSK方法在NYU、UCLA和UM影像中心的AUC值同樣優于L2-TSKFS方法的AUC值(0.643 6,0.596 4,0.636 3),分析原因在于,L2-TSKFS方法雖然是基于TSK的非線性模糊分類方法,由于采用基于核心集的快速MEB逼近算法訓練模型,因此方法更加適用于低維的大樣本數據集。對于自閉癥診斷這種高維小樣本數據,L2-TSKFS方法在三個影像中心的診斷性能均不如本文方法。

Fig.5 ROC curves of various methods on different imaging centers圖5 各類方法在不同影像中心上的分類ROC曲線圖

Table 4 AUC of various methods on NYU,UCLA and UM image centers表4 各類方法在NYU、UCLA和UM影像中心上的AUC值
另外,TSFS-SVM和UFFM-M2SVC均為基于TSK模糊系統使用SVM模型的分類方法,盡管UFFM-M2SVC方法引入流形正則化框架并進行了進一步的模糊特征學習,但這兩種方法均采用經典的SVM分類器,沒有結合特征之間的關聯信息,構造新型分類模型。與之相比,本文方法在進行特征提取的基礎上,不僅通過稀疏化精度矩陣提取規則內特征之間的相關信息,而且在構造分類模型的過程中,引入L2,1正則化項實現規則間的特征選擇,從而有效地降低噪聲影響,更好地利用特征間的關聯信息,提高自閉癥的診斷性能。
為了進一步研究本文JGSL-TSK方法的收斂性,同樣選取NYU、UCLA、UM三個影像中心的數據進行收斂性實驗,其目標函數變化如圖6所示。三個影像中心的收斂曲線顯示,本文方法收斂速度較快,在迭代5~10次左右目標函數值便趨于穩定,說明本文方法在自閉癥輔助診斷過程中具有較好的實用性,能夠真正達到有效輔助的目的。基于以上實驗分析,本文方法中將迭代次數K值設為10。
為了展示具有鑒別意義的關聯特征信息,找出最有利于輔助ASD疾病診斷的大腦區域,本文根據實驗結果挑選出30對最具鑒別力的區域間功能特征:首先,在影像中心NYU、UCLA和UM中,分別計算每個特征在后件參數w(K)中所占權重大小;然后,對三個影像中心的特征所占權重求和并降序排列,保留權重最大的30個特征;最后,根據原始rs-fMRI數據與樣本特征矩陣B之間的關系,逆推得到30個特征對應的30對功能特征以及60個功能腦區域。表5即為挑選出的30對最具鑒別力的區域間關聯特征,括號中的數字表示該腦區在AAL模板中的索引。圖7進一步給出了有鑒別意義的功能連接[22]。其中,左右腦分別用綠色和紅色表示,左、右腦內部的連接使用藍線繪制,左、右腦之間的連接使用黑線繪制;線條的粗細表示腦區對在診斷過程中所占權重大小。

Fig.6 Convergence curve of JGSL-TSK algorithm圖6 JGSL-TSK方法的收斂曲線

Table 5 Top 30 pairs of most discriminative interregional correlation features表5 前30對最具鑒別力的區域間關聯特征

Fig.7 The most discriminative functional connection圖7 最具鑒別力的功能連接
面向自閉癥的輔助診斷,本文提出了一種特征關聯引導的聯合組稀疏非線性模糊分類方法。該方法在不同模糊規則后件參數間引入聯合組稀疏正則化項,引導規則內和規則間特征的聯合選擇,并結合特征之間的關聯信息學習新的權重系數。該方法不僅充分利用TSK模糊系統的非線性逼近能力,通過引入聯合組稀疏正則化項提高ASD的輔助診斷能力,而且能夠挖掘有利于ASD疾病診斷的功能連接。由于TSK模糊系統是一種顯式映射,因此本文提出的JGSL-TSK方法具有良好的可解釋性;在真實的ASD數據集上的實驗效果也證明了本文方法的分類有效性。今后的工作將致力于研究TSK模糊系統在多中心場景的應用。