999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于縱向不完整數據聯合深度集成回歸預測阿爾茨海默病臨床評分

2019-05-14 01:19:06楊夢雅鄒文斌汪天富雷柏英
中國生物醫學工程學報 2019年2期
關鍵詞:特征模型

楊夢雅 侯 雯 楊 鵬 鄒文斌 汪天富 雷柏英*

1(深圳大學醫學部生物醫學工程學院,廣東省生物醫學信息檢測和超聲成像重點實驗室,廣東 深圳 518060)2(深圳大學信息工程學院,廣東 深圳 518060)

引言

阿爾茨海默病(Alzheimer′s disease, AD)是導致癡呆癥的主要原因,60%~80%的老年癡呆癥都因此引起。AD主要損害患者的腦部認知、記憶和情緒等功能,導致其不能獨立正常生活和社交,是一種不可逆的神經退行性疾病。目前,輕度認知障礙(mild cognitive impairment, MCI)已經被廣泛認為是正常老化向AD及其他老年癡呆癥轉變的前驅階段[1],一旦患者由輕度認知障礙發展成AD,則無有效的治愈方法。AD臨床上的主要癥狀為:記憶力障礙、失語、執行功能障礙,更有甚者發生人格和行為改變等[2]。隨著社會發展,老齡化速度加快,AD的發病率逐年升高。AD主要發生在65歲以上的高齡者,而且每增加5歲,患者人數增加一倍[3]。85歲以上患AD的人可高達23~33%[4]。據“世界阿爾茨海默病2016年報告”統計,全球AD患者約為4 700萬人,遠超于西班牙的總人口,隨著人口的老齡化加劇,預計到2050年AD患者將達到1億3 100萬。AD對經濟也產生了巨大的影響,全球總花費大約在8 180億美元,預計在2018年將增加至1萬億[5],給家庭和社會都帶來了巨大影響。在AD的治療過程中,醫生需要密切監測患者的病情,并根據病情及時調整治療計劃。在臨床上,神經科醫師常常根據癡呆量表的評分初步判斷腦疾病類型和嚴重程度,常用的量表有簡易精神狀態檢查量表(mini-mental state examination, MMSE)、臨床癡呆量表-GLOB (the clinical dementia rating-global, CDR-GLOB)、臨床癡呆量表-SOB (the clinical dementia rating scale sum of boxes,CDR-SOB)、阿爾茨海默病癥評估認知分量表(Alzheimer′s disease assessment scale-cognitive subscale,ADAS-cog)。目前,學者們通常采用神經影像如結構磁共振成像(magnetic resonance imaging, MRI)[6]及正電子發射斷層掃描(positron emission tomography, PET)數據進行臨床評分預測。

當前,評分預測所面臨的一個問題是神經影像數據的特征維數比較高,選擇效果差。針對這個問題,一般有兩種解決方案,一種是特征選擇,另一種是子空間學習[7]。特征選擇常用的方法有t檢驗、卡方檢驗、稀疏模型等[8],均有利于發現與疾病相關的生物標記物。子空間學習是將高維數據投影到低維空間后進行分析,可以有效地揭示患者的病情[9]。將特征選擇與子空間結合,可更加精準地預測患者的臨床評分[10]。

傳統的臨床評分預測主要是利用單一時間點數據進行評分預測,缺乏多時間點數據的使用,有一定的局限性,而縱向研究的方法[11]可以充分地探索AD的發展進程?;诖耍狙芯繑M設計一個包含兩種情形的縱向研究框架。在情形1中,訓練基線數據來預測未來時間點的臨床評分。在情形2中,訓練被測時間點之前的所有數據來預測該時間點的臨床評分。此外,情形2還解決了多個時間點評分預測中經常出現的數據不完整問題。針對數據不完整問題,常用的處理方法是將那些缺失數據的受試者從提取的數據中移除,但這種方法會導致可用的受試者數量減少。另一種處理方法是使用插值法來填補缺失評分,這種方法比較依賴于時間的平滑性,一旦受試者的情況突然惡化,預測結果可能會產生偏差??紤]到以上不足,本研究提出結合被測時間點之前所有可用的數據來研究MRI數據與臨床評分的關系,然后根據相應的MRI數據估計缺失評分。

具體的回歸方法由3個過程組成,首先是基于相關熵與時間約束聯合(correntropy and temporal constraints,CT)的特征選擇;其次是基于深度多項式網絡(deep polynomial network,DPN)的集成特征編碼(ensemble feature encoding,DE);最后是支持向量回歸(support vector regression,SVR),整個過程簡稱為CTDE。對于特征選擇,通過時間約束組LASSO模型[12]找出不同時間點中最相關的特征,并利用相關熵[13]消除離群值。對于特征編碼,采用DPN[14-17]算法處理,該算法是一種特殊類型的深度學習[18]系統。

圖1 相關熵正則化深度聯合回歸流程Fig.1 Flowchart of the correntropy regularized deep joint regression

本研究從阿爾茨海默病神經影像學ADNI數據庫(Alzheimer′s Disease Neuroimaging Initiative,http://adni.loni.ucla.edu/)獲得共805名受試者的基線數據,分別在兩種情形下進行實驗。實驗表明,所提出的CTDE整體模型對評分的預測效果要優于僅具有特征選擇或僅具有特征編碼的部分模型。通過實驗與現有方法[19-21]相比的結果,CTDE模型可以得到相似甚至更好的結果,證明了所提出的方法的有效性。

1 方法

所采用方法的具體流程如圖1所示,整體流程大致分為:獲取多時間點(基線、第6個月,…,第36個月)MRI影像數據,提取感興趣區域向量作為特征輸入,基于相關熵與時間約束聯合(correntropy and temporal constraints,CT)方法進行特征選擇,根據學習得到的權重參數選取權重較大的特征,獲得區分力較大的特征以減少噪聲特征的干擾;其次是基于深度多項式網絡DPN的集成特征編碼,最后利用支持向量回歸進行回歸預測。

實驗中提出在兩種情形下實現疾病的預測回歸。在情形1中,通過訓練基線數據預測未來時間點的臨床評分;在情形2中,訓練被測時間點之前所有可用的數據來預測該時間點的臨床評分,從而有效地提高評分預測的精度。具體的流程如圖2所示。

圖2 評分預測流程。(a)情形1;(b)情形2Fig.2 Two scenarios for score prediction. (a) Scenario 1;(b) Scenario 2

1.1 數據采集與特征提取

從公共數據庫ADNI數據庫上獲得共805位受試者基線狀態數據,包含人口統計信息、醫學影像數據、臨床評分。分別采集受試者的第6個月、 第12個月、第18個月、第24四個月、第36個月數據信息,但由于很多受試者由于各種原因而在中途退出,所以后面時間點的受試者數量逐漸減少。后面時間點獲取到的受試者情況如下表1所示, 其中A表示具有MRI數據的受試者,B表示既具有MRI又具有量表評分的受試者。

表1 MRI數據和評分

選擇T1-加權MRI影像數據、MMSE、CDR-SOB、CDR-GLOB、ADAS-cog等4種臨床評分,作為研究對象。

原始圖像需要經過預處理以剔除明顯的結構損傷和掃描偽影等噪聲信息,預處理部分包括:頭骨分離,ACPC矯正,分割得到灰質(grey matter)、白質(white matter)和腦脊液(cerebrospinal fluid),使用模板對大腦進行匹配并生成93個相應的感興趣區域(region of interest,ROI),提取這些區域的灰質體積量作為輸入特征變量。

1.2 基于聯合學習的特征選擇

假設實驗共計有N個受試者,第i個受試者在T個不同時間點上獲得的神經影像數據表示為xi1,…,xit,…,xiT,其中,xit∈R1×D是一個D維行向量。Xt=x1 t,…,x2 t,…,xNt∈RN×D表示輸入訓練數據矩陣,yt∈RN×1表示t時間點對應的臨床預測評分。通過經典的組LASSO回歸模型進行特征選擇,表示為

(1)

(2)

同時也引入了相關熵消除訓練數據中的潛在離群值、非高斯噪聲、脈沖噪聲。相關熵計算式如下:

(3)

式中,ρ1、ρ2都是參數,在不同的規則和約束下會選擇魯棒性好并且信息豐富的特征。

采用加速梯度法(accelerated gradient methods, AGM)[24]來求解式(3)。傳統的梯度法每次迭代中只使用最近的點作為當前的搜索點,而AGM使用前兩個點的線性組作為新的搜索點,收斂速度更快。算法1描述了優化算法的整體過程,其中,k是迭代索引,K是最大迭代次數,L是正則化參數。首先將式(3)中的目標函數f(W)分為平滑部分fs(W)和非平滑部分fns(W),計算式如下:

(4)

(5)

在Wk處對其泰勒一階展開,構造f(W)的逼近函數

(6)

Uk=Wk+βkWk-Wk-1

(7)

式中,βk是參數。

因此,W在不斷更新,有

式中,V=Wk-1/Lkf′s(Wk),wj和vj分別代表W和V的第j行。

通過遵循Aremijo-Goldstein準則,使用線搜索的方法得到Lk,直接將問題轉換為D個獨立的子問題,采用以下公式來計算Wk+1,有

(8)

算法1:基于組學習的熵優化算法 輸入: ρ0>0,ρ1>0,L0>0,W0,K 輸出:WK+1 1: 初始化W1=W0,α-1=0, α0=1, and L=L0 2: for k=1 to K do 3: βk=αk-2-1αk-1,Uk=Wk+βkWk-Wk-1() 4: 更新等式(8)中的Wk+1 5: 在 {Lk-1 2Lk-1…}找到最小值L 使得f(Wk+1)≤gLk,UkWk+1(): 6: 更新Lk=L 7: αk=1+1+4α2k2 8: 結束

1.3 基于特征編碼的深度多項式網絡

DPN是一種新興的有監督的深度學習算法,具有扎實的理論基礎。因為它是一個逐層學習的算法,每個節點的輸出結果是輸入空間的一個線性函數或者二次函數,所以學習預測因子就變為輸入空間上的多項式函數。DPN的一大優勢是可以基于自身網絡結構,在有限樣本數據集上可以表示任意函數。其網絡深度就是層級數,寬度是任意單一層中最大的節點數。

經過本文第1.2節的特征選擇后,假設每位受試者的數據具有M維特征,且M

x1,y1,x2,y2,…,xN,yN

(9)

式中,xi∈R1×M,yi是相應的標簽值。

因為訓練數據按照時間順序依次進入DPN,所以這里省略了時間下標。訓練數據通過一級多項式函數得到一組相應的值,可表示為

(10)

(11)

式中,F1表示矩陣F1的列數,Fi表示矩陣F的第i個列向量,°表示Hadamard乘積運算。

(12)

也就是特征編碼矩陣。

1.4 加權集成評分預測

經過選擇和編碼后的特征被送到SVR進行評分預測。與支持向量機(support vector machine, SVM)[25]相似的是,SVR旨在對最大邊緣超平面進行處理,輸入的訓練樣本經過核函數處理,會將其映射到一個分類間隔盡可能寬的高維度空間。然后,將測試樣本映射到同一空間,這樣就可以識別出測試樣本所對應的類別。

(13)

假設訓練樣本包含N個受試者,R是N×P維度空間,G是P層預測結果的權重向量。在P×1維度空間中,Gi是權重向量G的第i個元素,而Y是實際評分向量。先求解式(13)的線性約束最小二乘問題,然后,將通過不同層級特征獲得的臨床預測評分進行集成,最終獲得最優權重。

1.5 實驗設置

從公共數據庫ADNI上獲得共805位受試者的基線數據,在5個不同時間點對受試者進行回訪。因為在后續的時間里,受試者會由于各種原因而退出,所以最后得到的縱向數據并不是完整的。下面是具體的實驗過程:以基線數據為基礎,在后面5個時間點進行隨訪,分別得到725、675、282、479、50例受試者的MRI數據,但分別只得到705、637、247、430、50人相應的臨床得分。計算得到預測評分與實際評分計算平均絕對誤差(mean absolute error,MAE)和皮爾森相關系數R(Pearson correlation coefficient),根據MAE值和R值評估預測的性能,相關的定義如下:

(14)

(15)

2 結果

2.1 情形1:基線數據預測

在情形1中,因為每次只對未來的某一時間點進行預測評分,所以相關熵時間約束聯合學習就降級為相關熵正則化LASSO模型,也就是由CTDE模型變為CDE模型。因為CDE模型是一個復合模型,所以將其與局部模型、SVR、相關熵學習(CL)、DPN、DPN集成編碼輸出(DE)分別進行比較,來驗證每個局部模型的作用,同時驗證復合模型CDE的整體性能,比較結果在表2、3中列出。

表2 CDE模型和局部模型平均絕對誤差(MAE)的比較

表3 CDE模型和局部模型皮爾森相關系數(R)的比較

從表2和表3中可以看出,通過CDE模型獲得的預測評分比相關熵學習(CL)、DPN集成編碼輸出(DE)更精準,不但R值變大,而且MAE值也有所減小。此外,CDE模型獲得了最小的MAE值和最大的R值。

2.2 情形2:縱向數據預測

在情形2中,當對某一時間點進行預測時,需要結合該時間點之前的所有數據來進行臨床評分預測。但是由于部分受試者只有MRI數據,缺少了臨床評分數據,所以采用CTDE模型填充這些受試者的臨床評分數據,與之前不完整的數據結合,形成完整數據,用于未來時間點的評分預測。如果沒有填充缺失評分這個過程,該模型就會被視為不完整的CTDE模型。圖3是CDE模型、不完整的CTDE模型和CTDE模型這3種模型下的MAE折線圖。從圖中可以看出,CTDE模型獲得的MAE值最小,預測精度明顯提高,主要原因是訓練樣本的數量大幅度增加,從而有了更大范圍的臨床評分。如若調整數據填充方法,MAE的值會進一步減少。

為了進一步分析CTDE模型的性能,通過CTDE模型獲得的縱向時間點的實際評分作為x軸數據,預測評分作為y軸數據,繪制散點圖,如圖4所示,在每個散點圖中有兩條線,虛線是參考線,用來判斷預測評分與實際評分的接近程度;實線是回歸線,通過最小二乘回歸方法得到。其中,參考線和回歸線越靠近,預測效果就越好。從圖4中可以看出,臨床預測評分和實際臨床評分在一定的范圍內具有很高的相關性,預測評分越接近實際評分,CTDE模型預測的越精準。

將所提出方法與目前最先進的技術方法[19-21]進行比較,得到4個不同時間點的MAE值和R值,如圖5所示。從實驗結果可以看出,所提出的CTDE模型獲得了最低的MAE值和最高的R值,預測效果最好。

2.3 最具識別力的大腦區域

在AD早期,雖然內側顳葉皮層的萎縮速率最為明顯,最能預測AD的進展[26],但是到晚期,前額葉、頂葉、顳葉后部扣帶回的萎縮速率明顯增加。情節記憶,特別是言語性情節記憶受損的嚴重程度是判斷MCI是否進展為AD的重要指標;海馬萎縮是預測MCI是否轉化為AD的有效指標??偟膩碚f,AD患者神經元的退行性使大腦重量減輕和體積縮小、額葉、頂葉和顳葉皮質萎縮,杏仁核、海馬和海馬回受累可能會更加明顯,白質和深部灰質的體積縮小。

在式(3)的特征選擇模型中,系統得到與MMSE、CDR-SOB、CDR-GLOB、ADAS-cog等4種量表評分最相關的ROIs,分別有67個、43個、67個、74個,如圖6所示。為了展示與疾病相關的ROIs,筆者通過使用mricron軟件從大腦從上至下切割,選取9個有代表性的切片。其中,不同顏色代表著不同的感興趣區域,權重越大的感興趣區域則顏色越深(如紅色)。我們的模型得到與疾病相關的區域如海馬區、杏仁核、顳下回等,并且這些區域在文獻[27]中被發現可以作為AD生物標志物。

3 討論

本研究提出了一種新穎有效的方法,實現阿爾茨海默病的臨床評分預測,輔助醫生對患者進行早期診斷和治療,并通過廣泛的實驗來研究其有效性。Lasso 是一個在回歸和分類領域應用廣泛的特征選擇方法,能夠用模型系數的絕對值函數作為懲罰來壓縮模型系數,使得絕對值較小的系數變為0,同時實現顯著性變量和對應參數的估計。而在本研究的實際問題中,腦區特征是組結構,因此提出基于組Lasso方法建立相關熵與時間約束聯合的特征選擇模型,再通過DPN網絡進行特征編碼,最后應用于SVR回歸模型,實現疾病的自動診斷和預測。

在情形1中,加入了組Lasso和深度多項式網絡DPN的CDE模型,與單獨的Lasso、DPN方法實驗結果相比,精確度上獲得了最佳,主要是因為通過組Lasso[28]特征選擇方法,舍去權重為0 的特征,篩選出權重較大的特征。此外,加入相關熵以減少噪聲特征的干擾,也能降低數據維度,加快模型訓練速度。而DPN的使用進一步提高了模型的預測精度,其主要原因是DPN在數據集數量少的情況下,可以通過多層網絡挖掘出數據中更深層的特征表示[18],從而提升相關腦區特征的表達能力。最后將DPN每一層的結果進行集成處理,主要是因為DPN每一層的輸出結果分別送入SVR,得到預測結果,根據式(14)進行計算,如圖7所示。可以發現,DPN的每一層特征都攜帶有一定的信息,而第一層特征比其他層攜有更多的可識別性信息,相應的預測評分也要比其他層更精準。因此集成所有級聯層的結果作為輸出,而不是只選擇某一層的輸出結果作為最終結果,以此來避免模型性能的不穩定性。

圖3 CDE模型(情形1)、不完整的CTDE模型(無數據填充的情形2)和CTDE模型的實驗結果比較。(a)MMSE;(b)CDR-SOB;(c)CDR-GLOB;(d)ADAS-cogFig.3 MAE comparisons between CDE (scenario 1), CTDE incomplete (scenario 2 without data filling), and CTDE. (a)MMSE;(b)CDR-SOB;(c)CDR-GLOB;(d)ADAS-cog.

圖4 通過CTDE模型獲得的預測評分與實際評分的散點圖(實線是回歸線,虛線是參考線。當兩線越靠近時,回歸精度越高)。(a)MMSE;(b)CDR-SOB;(c)CDR-GLOB;(d)ADAS-cogFig.4 Scatter plots of ground truth versus predicted scores predicted by CTDE method(The dotted line represents reference line and the solid line represents regression line). Regression accuracy is higher when two lines are closer. (a)MMSE;(b)CDR-SOB;(c)CDR-GLOB;(d)ADAS-cog.

圖5 CTDE模型與最先進方法的實驗結果比較(oRF-L1-soft-long: 基于L1范數隨機森林軟分離的縱向回歸預測; DBN: 深度信念網絡; R2DLSR: 基于多重關系的判別式最小二乘回歸預測)。(a)MAE;(b)RFig.5 Result comparisons between the proposed model and state-of-the-art methods (oRF-L1-soft-long, oblique RF with L1 and soft split and longitudinal prediction; DBN: deep belief network; R2DLSR, relational-regularized discriminative least squares regression). (a)MAE; (b)R

在情形2中,其臨床評分的預測結果要優于情形1,但CDR-GLOB與ADAS-cog評分的結果并不是很理想,原因主要除醫生在對患者進行量表評分時具有一定的主觀性之外,還可能與患者當時的心情、身體狀態有關。從4種量表實驗結果來看,通過使用所有可用的數據來預測未來時間的受試者臨床評分,可以考慮到同一受試者在同一時間點腦區之間的關系,也可以考慮到不同時間點同一被試者的MRI數據、臨床評分之間的關聯性。同時通過受試者的MRI數據去預測其缺失的評分,并進行評分補全,這意味著訓練模型的數據大幅度增加,從而在一定程度上提升整體模型的預測精度。

本研究依然存在一些不足,首先通過MRI影像數據和臨床評分來進行實驗,并沒有考慮AD的生理病理因素、心理社會性因素等,這將在今后的工作中逐步探索。另外,未就預測評分和實際評分的差異進行顯著性檢驗。最后是實驗樣本數量有限,雖然在一定程度上能夠體現方法的評價性能,但是更多的數據會更具說服力。因此,在未來的工作中,將采集更多的MRI、PET等多模態數據進行實驗,并嘗試采集本地醫院的AD數據進行模型測試,提高模型的穩定性,提高計算機輔助診斷的性能。

4 結論

為了研究AD的縱向評分預測,本研究將兩種情形回歸框架進行分組,得到一個有效的回歸模型。實驗結果證明,所提出的回歸框架可以獲得預測精度較高的臨床評分,并且在ROI的選擇一致性方面表現出良好的性能。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 五月婷婷亚洲综合| 在线国产毛片手机小视频| 国产女人在线观看| 久久91精品牛牛| 亚洲性一区| 五月综合色婷婷| 亚洲AV无码不卡无码| 欧美精品伊人久久| 亚洲中文字幕无码爆乳| 亚洲一区二区三区麻豆| 国产高清在线观看91精品| 丁香婷婷激情综合激情| 一级片免费网站| 亚洲最黄视频| 国产jizz| 视频一本大道香蕉久在线播放| 国产性生大片免费观看性欧美| 99re精彩视频| 国产主播福利在线观看| 日本道综合一本久久久88| 黄色网在线| 综合五月天网| 色视频国产| 国产成人在线无码免费视频| 毛片网站在线看| 久久婷婷国产综合尤物精品| 亚洲九九视频| 自拍亚洲欧美精品| 欧美在线视频不卡第一页| 久久99国产综合精品女同| 国产精品久久久免费视频| 国产99免费视频| 在线免费a视频| 国产91九色在线播放| 欧美午夜视频在线| 国产在线第二页| 精品国产一区91在线| 国产在线精彩视频二区| 亚洲性色永久网址| 伊人久久大线影院首页| 色哟哟精品无码网站在线播放视频| 99re精彩视频| 青青极品在线| 欧美黄色a| 亚洲高清日韩heyzo| 日韩无码视频专区| 国产毛片久久国产| 久久天天躁狠狠躁夜夜2020一| 亚洲无码一区在线观看| 亚洲日本一本dvd高清| 爆乳熟妇一区二区三区| 欧美啪啪视频免码| 99国产精品国产| 欧美国产成人在线| 免费观看欧美性一级| av一区二区人妻无码| 国产91视频免费观看| 国产成人高清亚洲一区久久| 亚洲美女一区| 国产精品福利导航| 国产成人AV综合久久| 亚洲无码A视频在线| 亚洲精品在线影院| 色婷婷亚洲十月十月色天| 国产人免费人成免费视频| 精品自窥自偷在线看| 在线观看视频一区二区| 99偷拍视频精品一区二区| 日韩区欧美区| 欧美精品在线免费| 精品小视频在线观看| 亚洲女人在线| 国产精品55夜色66夜色| 九九热精品视频在线| 狠狠色综合网| 日韩在线第三页| 青青热久麻豆精品视频在线观看| 久久久精品久久久久三级| 亚洲成a人在线观看| 国产精品极品美女自在线网站| 成人亚洲天堂| 亚洲av无码牛牛影视在线二区|