莫曉盈,楊 鋒,2,尹夢曉,2,石華榜
1(廣西大學 計算機與電子信息學院,南寧 530004)
2(廣西多媒體通信與網絡技術重點實驗室,南寧 530004)
圖像配準是圖像處理的一個重要領域,配準指的是將兩個或多個圖像進行幾何對齊,使源圖像(移動圖像)上的每一個點在目標圖像(固定圖像)上都有唯一的點與其對應,旨在尋找不同圖像之間的空間變換關系,其目的是去除或者抑制待配準圖像之間的幾何不一致.圖像配準是圖像分析和處理的關鍵步驟,是圖像融合、分析和目標識別的必要前提.
現代醫學技術飛速發展,醫學影像學可以用于篩查疾病和檢測治療效果,為疾病診斷做出了巨大貢獻.常見的醫學影像技術有:計算機斷層掃描成像(CT)、磁共振成像(MR)、正電子發射斷層成像(PET)等.每種醫學影像技術都有其各自的優點與缺點,比如:MRI核磁共振圖像對人體的軟組織器官有極佳的成像效果,而且其圖像質量很好、分辨率高.但是體內帶有金屬異物的患者不能接受核磁共振檢查,而且核磁共振有檢查掃描時間長、器官的周期性運動易造成偽影、價格昂貴的缺點.CT成像逼真、清晰,對于血管和骨頭的造影效果非常好,可以用來突出解剖結構,將解剖結構與周圍其他組織區分開來.但CT成像過程中需要暴露在X射線下,有致癌的風險.PET可以檢測人體的代謝情況,但其分辨率低、采集時間長.這些醫學影像是無法相互取代的,若能夠結合他們的優點將會對診斷治療工作提供很大的幫助,因此配準技術的出現至關重要.
配準技術可以提高檢測治療效果的效率,同時,該技術可以最大化地將不同模態或時間的醫學圖像融合,提高信息利用率和診斷的準確性.配準算法包括了變形模型、目標函數、優化算法3個組成部分.其中,配準算法的效果主要依賴于定義變形模型和目標函數.
傳統的配準方法為一個迭代優化的過程:通過特征匹配將圖像進行匹配變換,首先提取圖像中的特征信息,然后選擇空間變換方式,計算圖像之間相似性,最后選擇合適的優化方法不斷迭代優化,使得配準后的圖像相似性最高.若需要提高配準的準確度,首先要將圖片的像素信息轉換為更低維度的特征信息,然后再進行特征提取,因此特征提取尤為重要.常用的特征包括:角點、LPB、SURF、質心或模板[1].提取特征信息的方法中,有一部分使用了自動的特征提取方法,另外還有一部分是將手動描述特征與自動化特征提取相結合,通過手動或自動化提取圖像中的明顯結構特征.常見的空間變換模型有剛體變換、仿射變換、投影變換、彎曲變換等.相似性度量是衡量移動圖像與固定圖像間的相似程度,常見的相似性度量指標有:差值平方和(SSD)、絕對誤差和(SAD)、歸一化互相關(NCC)及互信息(MI)[2]等.
基于深度學習的方法大致可以分為兩類:1)利用深度學習網絡估計兩幅圖像的相似性度量,驅動迭代優化;2)直接利用深度回歸網絡預測變換參數.上面所描述的兩類基于深度學習的方法中,第1類方法只利用了深度學習進行圖像的相似性度量,仍然需要傳統配準方法進行迭代優化,其計算要求高、迭代慢,只減輕了非凸導數的問題,在深度相似網絡訓練中,仍然難以獲得對齊效果良好的圖像對[3].因此本文將重點介紹第2類方法.
自從2012年AlexNet[4]在ImageNet挑戰中大獲成功以來,深度學習開始被廣泛地應用到計算機視覺研究與應用中.機器學習具有自組織、自學習和自適應性和很強的非線性特性[5].同時,處理速度與內存容量的提升為高強度配準方法提供了計算環境,GPU大大提升了基于深度學習的配準算法的計算速度.傳統的配準方法可能會存在需要手動配準的缺點,雖然已經開發出了很多自動配準的方法,但目前傳統的配準方法在處理速度和效果上有待提升.由于可以克服一些傳統的配準方法存在的缺點,同時提高配準的準確度與效率,基于深度學習的配準方法具有廣大的發展前景與提升空間.
目前2D-2D的圖像配準已逐漸不能夠滿足臨床診斷的需求,而3D-3D圖像的配準通常需要大量計算,運用于3D圖像上的配準對于準確度和效率要求都很高,因此人們提出了很多方法來解決這些問題,比如:Demons[6]、ELASTIX[7]、微分同胚、基于樣條的方法等.但是傳統配準方法仍存在一些局限性,比如:適用范圍較窄、可能只適用于某一些特定模態的圖像.深度學習可以充分利用各種海量數據,包括標注數據、弱標簽數據或者僅僅使用數據本身,自動地學習到抽象的知識表達[8].有許多研究團隊致力于提升單模態醫學圖像的配準效率與準確度,但是單一模態的醫學影像為診斷提供的信息是有限的,而多模圖像配準有利于反映病變區域空間位置的對應關系和綜合評價病人病理特性,在疾病診斷、手術規劃、放射治療和疾病治療跟蹤等應用中都起到重要作用,可以提供更全面、互補的信息.因此深度學習的方法逐漸影響著醫學圖像配準這一研究領域,人們開始嘗試著提升基于深度學習的圖像配準精度,其準確度已經能夠與傳統配準方法媲美,并且引入深度學習用于研究多模態醫學影像的配準問題.
本文的目的在于闡述基于深度學習的醫學圖像配準領域發展現狀,同時討論目前為止所遇到的問題與挑戰.在對基于深度學習的醫學圖像配準進行討論之前,介紹一下文章的結構:首先闡述配準的定義與基于深度學習的配準方法存在的必要性.然后介紹有監督變換估計、無監督變換估計和使用生成對抗網絡的3類配準方法目前的部分科研成果與發展現狀,并介紹配準常用的數據集、評價指標,基于相同數據集對幾種配準方法進行效果分析與對比.最后對配準領域的發展趨勢進行討論并對本文進行總結.
如引言所介紹的那樣,基于深度學習的方法大致可以分為兩類:第1類是利用深度學習網絡估計兩幅圖像的相似性度量,驅動迭代優化;第2類是直接利用深度回歸網絡預測變換參數,本文主要介紹第2類方法.下面將分別介紹3種基于深度學習的醫學圖像配準方法:監督變換估計、無監督變換估計和配準中使用生成對抗網絡的方法.
基于監督變換估計的配準,就是在訓練學習網絡時需要提供與待配準圖像對應的標準標簽數據.常見方法是以兩幅圖像對應坐標為中心點進行切塊,將圖像塊輸入深度學習網絡(通常為卷積神經網絡),輸出圖像塊中心點對應的形變向量.獲取標準標簽數據有兩種方式:1)是利用傳統的經典配準方法進行配準,得到的變形場作為標簽;2)是對原始圖像進行模擬變形,將原始圖像作為固定圖像,變形圖像作為移動圖像,圖像對的模擬變形場即為標簽.
若已經知曉需要得到的輸出結果,即擁有了已經標記好的數據集,那么就稱該神經網絡的學習過程是被監督的.弱監督的配準方法使用標準標簽數據和一些其他的相似性度量指標來訓練模型,雙重監督則意味著網絡同時使用監督和無監督損失函數進行訓練.
變換估計方法為配準研究提供了新的思考方向,讓配準從傳統走向深度學習,在機器飛速發展的條件下能夠更好地將計算機資源利用起來.基于監督的方法還是存在一定的缺點,這種方法需要大量已經被標注好的圖像用于訓練,雖然弱監督和雙重監督的方法能夠一定程度上減輕對于標簽數據的需求,但是它們仍然無法擺脫對標簽數據的需求.從另一個方面來說,擁有標簽數據為實驗提供了可參考的標準結果,有益于后期進行實驗效果的比較.
下面將分別介紹配準研究中已經實現的基于完全監督估計、弱監督估計和雙重監督估計的配準方法.
2.1.1 完全監督估計
常見的有監督配準方法的基本流程如圖1所示,首先將固定圖像和移動圖像輸入網絡中獲得變換參數,根據標準標簽數據與變換參數的差值獲得損失值,然后將損失值反向傳播至網絡中迭代以獲取更好的效果,最后得到效果良好的輸出值.下面將介紹一些使用完全監督估計的配準方法,下文所提到的方法的概覽如表1所示,表1展示了各個方法所適用的維度、變換形式、圖像類型和部位.

表1 基于監督的配準方法概覽

圖1 監督配準方法框架圖
Miao等人是第一個使用深度學習算法來預測圖像的配準變換參數的團隊.現有的配準方法局限性在于計算速度慢、捕獲變形的范圍小,針對這些局限性他們構造了一個5層的卷積神經網絡(Convolutional Neural Network,CNN)結構,用CNN回歸器直接估計變換參數,對3D的CT圖像與2D的X射線脊柱圖像進行剛性配準.該方法相較于部分傳統的基于強度的配準方法來說,效果有顯著的改善[9].后續的工作中[10],Miao等人提出了一個新的6層CNN網絡結構,直接根據數字重建射線照片(DRR)和X射線圖像來估計變換參數,該方法可以使用少量的DRR渲染實現精確的2D/3D配準,具有很高的計算效率,更適用于實時配準.
Cao等人使用了一個9層的CNN模型[11],將CNN模型以逐塊方式設計,對塊的外觀信息和局部位移進行編碼,從不同圖像的相同位置提取兩個補丁,然后使用CNN產生的位移向量對齊兩個補丁,這些位移向量的總和構成了密集變形場(Dense Deformation Field,DDF),即圖像的變形場,DDF被用于配準3D的腦部MR圖像.據他們稱,這個方法的效果優于SyN[12]和Demons[6].除此之外,Cao等人使用了一種基于深度回歸網絡的方法來預測圖像之間的變形場[13],并提出使用局部相似度圖(similarity maps)提高基于深度學習網絡模型的準確性、魯棒性和泛化能力.
Salehi等人旨在實現實時的3D胎兒腦部MR圖像的剛性配準,并提高配準的變形捕獲范圍[14].Salehi等人使用圖像特征來預測3D旋轉和平移的角軸值,他們將圖像隨機旋轉,然后將其與原圖像之間的形變用于訓練網絡,將測地距離與均方誤差值(Mean squared error,MSE)用于計算損失函數.
Uzunova等人使用了FlowNet框架[15],同時使用了3種方法用于生成標準標簽數據[16]:仿隨機生成、仿射配準生成和統計外觀模型(SAM)生成變換,然后利用合成變形場對腦部和心臟的2D MR圖像進行配準.Uzunova等人的文章表明,這3種方法中,基于SAM生成的標準標簽數據進行的CNN的學習和訓練效果是最好的.
相似地,Sentker等人也使用了生成標準標簽數據的方法來進行配準[17].有一部分學者利用傳統的配準方法對圖像對進行配準,然后生成標準標簽,比如Sentker等人利用DIR生成的變形向量場(Deformable vector field,DVF)作為標準標簽,將預測值與標準標簽之間的均方誤差值作為損失函數,用于配準肺部的3D CT圖像.
Eppenhhof等人針對肺部的配準問題,也提出了一種基于CNN的方法[18]估計3D圖像的非線性配準中的配準誤差.此外,Eppenhhof等人對U-Net架構[19]進行改造,并使用訓練圖像的合成幾何變換來訓練網絡,對肺部的3D CT的可變形圖像進行配準[20].
多尺度隨機變換減少了對于手動標注的標準標簽數據的需求,可以在訓練網絡中以較少的數據獲得良好的性能.這個方法的提出也進一步證實了使用深度學習進行直接變換預測的可能性.在后續的工作中,Eppenhhof等人提出使用逐步訓練神經網絡來解決[20]中無法估計復雜變形場中較大位移的問題.他們提出,先在低分辨率上訓練較小的網絡,再在高分辨上訓練較大的網絡,這樣的做法可以有效解決大型網絡不敏感的問題,同時可以有效地提高配準精度[21].
2.1.2 弱/雙重監督估計
雙重監督通常是指使用標準標簽數據和一些圖像相似性度量共同產生的損失函數對網絡進行訓練,雙重監督可以減輕對標準標簽的依賴性.弱監督通常指的是在訓練數據集中提供精確輸出以外的標準標簽數據值并用于計算損失函數.弱監督方法是用于多模式圖像配準的無監督方法的變體,對網絡進行訓練以優化一個輔助任務,但該輔助任務不會受到模態差異的影響.
Hu等人利用標簽相似性替代圖像相似性用于訓練網絡,他們構建了一個30層的全卷積神經網絡(FCN)[22]網絡,對前列腺的MR-TRUS圖像進行配準.在訓練中通過輸出密集變形場(DDF)來優化卷積神經網絡,變形場會扭曲來自移動圖像的一組可用的解剖學標簽,以匹配固定圖像中的相應解剖標簽[23].在后續工作中,Hu等人提出從解剖標簽中包含的更高級別的對應信息中推斷體素級別的轉換,并介紹了一個框架,該框架使用解剖標簽和完整的圖像體素強度作為訓練數據,旨在實現全自動的、可變形的圖像配準[24].
Fan等人將監督與無監督損失相結合,利用雙重監督來預測腦部的3D MR配準的變形場.Fan等人使用了分層雙監督的FCN[22]來解決缺少標準標簽數據的問題[25].該網絡使用了標準標簽數據和圖像相似性度量兩種監督方式,同時在網絡的每一層中都加入一個損失函數,使得一些層更容易收斂.同時,在U-net[19]框架基礎上使用間隙填充,提出了一個網絡架構“BIRNet”,將預測變換與標準標簽數據變換之間的均方誤差(MSE)作為損失函數,并使用預先配準的標準標簽數據和圖像相似性來訓練網絡.
Cao等人使用了MR-MR損失和CT-CT損失兩種損失來進行雙重監督配準[26],即他們使用了同模態內的圖像相似性來進行監督配準.Cao等人提出在測試階段根據輸入的CT和MR圖像直接預測變換場.他們通過預對齊圖像,將多模態配準轉換為單模態配準,用于MR-CT配準.他們使用標準標簽數據與預測變換扭曲待配準圖像之間的歸一化互相關(Normalized cross-correlation,NCC)作為損失函數.相似地,Liu等人也使用監督合成變換和非監督描述圖像相似性進行訓練[27].
與Liu等人使用全局語義的方法相似,Hering等人結合全局語義信息(帶分割標簽的監督學習)和從經典醫學圖像配準中獲得的支持局部結構對齊的局部距離度量的互補優勢,構造了基于標簽和相似性度量的損失函數[28],通過2D造影MR圖像的可變形配準對心臟運動進行追蹤.據他們稱,該方法的效果優于一些多級配準方法的效果.
相較于監督學習,基于無監督學習的配準方法就是在訓練學習網絡時,只需要提供配準對,不需要標準標簽數據(即真實的變形場).因此,該類方法在訓練與測試階段,均不需要依靠傳統的配準方法進行輔助.以二維圖像配準為例,無監督配準方法的流程如圖2所示,下文所提到的方法的概覽如表2所示.

表2 基于無監督的配準方法概覽

圖2 無監督配準方法框架圖
無監督變換預測目前為主有兩種常見的方法:第一種是基于相似性度量的無監督變換估計,通常使用圖像的相似性度量與常見的正則化策略來定義損失函數[29].第二種是不需要標準標簽數據的、基于特征的無監督變換估計.
通常,基于非監督學習的配準將配準對輸入網絡,獲得變形場,對移動圖像進行變形插值,即得配準圖像.三維圖像與之類似,將三維圖像輸入網絡,獲得變形場,再插值得到配準圖像.無監督變換預測的難點在于:若缺少具有已知轉換的訓練數據集和標準標簽數據變換,難以定義網絡的損失函數.然而2015年Jaderberg等人提出了空間變壓器網絡(STN)[30],STN在訓練過程中可以進行圖像相似性的損失計算,而且它可以插入到現有的CNN框架中.STN的提出啟發了眾多研究者們對于無監督變換預測的新思路:使用無監督變換預測網絡獲得密集變形場,然后使用STN生成扭曲圖像,將其與固定圖像進行比較,用于計算圖像相似性損失.
de Vos等人提出了一個無監督的圖像配準框架“DLIR”[31],該框架利用固定圖像和移動圖像之間的相似性來訓練網絡,通過優化神經網絡來間接優化變換參數,預測的變換參數用于構建密集位移矢量場.在另一項工作中,de Vos等人提出了可用于可變形圖像配準的深度學習網絡“DIRNet”[32].DIRNet由卷積神經網絡回歸器、空間變換器和重采樣器組成,通過直接優化固定圖像和移動圖像之間的相似性來學習配準圖像,從而實現心臟MR圖像的配準.
Li等人也利用了圖像相似性進行配準,他們通過最大化固定和移動圖像之間的圖像相似度來直接估計圖像對之間的空間變換[33,34].Li等人通過對FCN[22]架構進行改造和采用多分辨率策略,優化、學習不同分辨率下的空間變化,并將使用移動圖像與固定圖像之間的NCC和其他的一些正則項構造該方法的損失函數.
相似地,Yoo等人[35]提出將卷積自動編碼器(CAE)和STN[30]相結合,計算得到了圖像對之間基于特征的相似性,利用自動編碼器(CAE)以無監督的方式訓練網絡,實現對神經組織電子顯微鏡(ssEM)圖像的無監督變換估計.
Krebs等人提出了一種無監督學習的可變形配準算法[36],該方法使用了隨機潛在空間學習方法,這一做法不需要進行空間正則化,與Yoo等人[35]引入自動編碼器(CAE)的做法相比,Krebs等人通過使用條件變分自動編碼器(cVAE),生成網絡對移動圖像的編碼器和解碼器進行約束,同時引入求冪層來制造微分同胚變形,對3D腦部和心臟MR圖像進行可變形的無監督配準.
Balakrishnan等人設計了一個配準框架“VoxelMorph”[37,38],該配準框架由一個配準網絡與一個分割網絡組成,框架由U-Net[19]改造而成.該框架的損失函數由圖像相似性與分割值的重合度組成,分割結果在一定程度上能夠幫助提高配準的準確度.該網絡是一個無監督圖像配準的通用框架,不需要標準標簽數據或其他監督信息,適用于單模態或多模態的圖像配準.他們將配準公式化為一個函數,該函數將輸入圖像對映射到對齊這些圖像的變形場,通過卷積神經網絡對函數進行參數化,并在一組圖像上優化神經網絡的參數.每當提供一對新的圖像時,VoxelMorph將通過直接評估函數快速計算變形場.Balakrishnan等人稱VoxelMorph模型性能與ANTs[12]方法的性能相當,而且只需要更少的計算時間.在后續的工作中,Dalca等人利用微分同胚來預測變形,將MSE用作相似性度量并與正則項相結合來構造損失函數,用于對腦部MR圖像的無監督配準[39].
Kuang等人受STN[30]方法的啟發提出了一種無監督配準方法“FAIM”[40],該方法利用CNN和STN對腦部MR進行可變形配準,并使用NCC和正則項構造損失函數.與基于U-net[19]結構的配準網絡相比,比如Balakrishnan等人提出的VoxelMorph[37,38],Kuang等人提出的FAIM需要訓練的參數更少,獲得的配準精度更高.
Ferrante等人使用了類似U-Net[19]的網絡結構和STN[30]執行特征提取和變換估計,將NCC用于構造損失函數,利用基于遷移學習的方法對骨頭和心臟造影的X射線、MR圖像進行可變形配準[41].
Zhang等人基于FCN[22]提出了一個新的網絡結構——網絡逆一致深度網絡(ICNet)[42],以用于解決不同模態間的非剛性圖像配準問題.該方法引入了反一致和反折疊約束,促使一對圖像朝著彼此對稱變形,直到兩個變形圖像匹配為止.逆向一致的深度網絡(ICNet)[43]可以對腦部MR圖像的DIR進行端到端的DVF預測.Zhang等人不僅使用了常規的平滑度約束,還提出了一種抗折疊約束,以進一步避免變換中的折疊.Zhang等人的方法效果優于基于SyN的方法[12]和基于Demons[6]的方法.類似地,Kim等人提出利用循環一致性訓練CNN來對3D體積的可變形配準[44],利用周期一致的損失來實施DVF正則化.
Ghosal等人基于FCN[22]構建了一個無監督可變形配準框架,最小化移動圖像和固定圖像的平方差總和的上限(upper bound to the sum of squared differences UB-SSD),并將該方法稱為“DDR”[45],用于配準腦部的MR圖像.
Jiang等人提出了一個用于肺部CT圖像的可變形配準的模型[46],該模型整合了3個CNN,網絡通過使用圖像補丁來優化圖像相似性損失和減小變形場的平滑度損失.與基于完全監督的Liu等人[27]提出的方法相比,Liu等人摒棄了補丁的做法而使用了全局語義,Liu等人將來自不同模態的圖像映射到公共表示空間,以促進模態之間的語義比較,然后對通過對特征圖的不確定估計發現感興趣的區域,通過在該架構中集成可微分的幾何約束完成傳統的匹配步驟.
配準中使用生成對抗網絡(Generative Adversarial Networks,GAN)的方法一般可以分為兩種:提供預測變換的額外正化或執行跨域圖像映射.目前常見的方法是:通過引入基于網絡的損失來訓練對抗網絡,訓練鑒別器區分輸入類型,區分該變換是預測還是真實標簽、圖像是真實還是由預測變換扭曲的圖像、圖像對齊是正對齊還是負對齊.
常見的基于生成對抗網絡的配準方法流程如圖3所示,基于生成對抗網絡的配準方法概覽如表3所示.

圖3 基于生成對抗網絡的圖像配準框架圖

表3 基于生成對抗網絡的配準方法概覽
Yan等人提出了使用GAN對3D的前列腺的MR和TRUS圖像進行剛性配準的配準方法“AIR-net”[47],Yan等人借鑒了Arjovsky等人改進的Wasserstein GAN(WGAN)版本[48],鑒別器用來識別圖像是使用標準標簽數據進行變換對齊還是預測對齊,生成器用來估計剛性配準.Yan等人提出的方法不僅提供配準估計器,同時提供質量評估器,質量評估器可用于質量檢查以檢測潛在的配準失敗.
Hu等人使用傳統的配準方法生成一個局部的變形場,然后構建一個GAN框架來實現MR-TRUS圖像的局部變形的正則化[49].Hu等人用對抗性損失替代了平滑性損失,在損失函數中添加了預測變形場的L2范數,最大化標簽相似性、最小化對抗性損失項,最大程度地提高促使圖像對齊的解剖標簽之間的相似性,減少對抗生成器的損失,以測量預測變形與模擬變形之間的差異.
Fu等人提出了一種無監督的3D肺部CT圖像的配準方法“LungRegNet”[50],由兩個子網“CoarseNet”和“FineNet”組成.兩個網絡均包含一個生成器和一個鑒別器,生成器可以直接預測變形場使移動圖像變形,鑒別器可以區分變形的圖像與原始的圖像.使用CoarseNet訓練可以使移動圖像變形,然后將變形后的圖像用于FineNet訓練.CoarseNet在粗略圖像上預測較大的肺部運動,FineNet在細度圖像上預測局部的肺部運動.
Fan等人使用GAN對3D腦部MR圖像進行無監督的可變形配準[51].鑒別器鑒別一對圖像是否足夠相似,其結果反饋用于訓練配準網絡.其他的GAN網絡大多用于確保預測變形真實,Fan等人提出的配準方法不需要真實的形變或預定義的相似性度量,而是基于判別網絡自動地學習相似性度量.
Mahapatra等人使用了GAN和cycleGAN[52]進行圖像的合成和轉換,損失函數中增加了結構相似性指數度量(Structural Similarity,SSIM)損失和特征感知損失項[53].在另一項工作中,Mahapatra等人提出使用GAN同時分割和配準胸部X光圖像,用歸一化互信息(Normalized Mutual Information,NMI)、SSIM和特征感知損失項訓練生成器,用3個鑒別器來評估生成的變形場、變形圖像和分割圖像的質量[54].
Lei等人利用無監督的CNN實現了3D的腹部CT圖像配準[55],他們提取多尺度運動功能來預測變形場,為變形場正則化提供額外的對抗性損耗,并通過鑒別器來判斷扭曲的圖像是否足夠逼真.
本章節將介紹配準領域常見的數據集、目前主流的評價指標,通過對相同數據集的不同方法的實驗結果來分析目前配準方法的特點.
目前用于醫學圖像處理領域的數據集很多,較常見的數據集有 DIRLAB、LPBA40、Sunnybrook cardiac cine(SCD)、ADNI、OASIS、POPI、NIH和LUNA16等,下面將簡單介紹DIRLAB、LPBA40、SCD、ADNI和OASIS這5個數據集.
DIRLAB數據集是由得克薩斯大學M.D.Anderson癌癥中心獲得的10幅胸部4D-CT圖像組成的,其中包括5名無疾病和5名胸椎惡性腫瘤患者的4D-CT掃描序列數據集,包括了患者的4D CT圖像,其中4D-CT圖像又包含5個3D-CT圖像,包括了從吸氣結束到呼氣結束的完整呼吸循環.
LONI概率腦圖集(又稱作LPBA40數據集)[56]是由40位志愿者的全頭部MRI圖像和大腦中56個結構的手動標記輪廓線組成,大部分結構位于皮質層內.
Sunnybrook心臟數據(SCD)也被稱為2009心臟MR左心室分割挑戰數據,由45個電影MRI圖像組成,其中包括了4種病例類別:健康、肥大、心力衰竭與梗死,心力衰竭但未梗死.該數據集分為訓練集、驗證集和評估集,每組都包含了15個掃描件,且病理類別均等,同時為使用者提供手動分割的左心室舒張末期(ED)和收縮末期(ES)體積用于評價.該數據集首次被用于MICCAI研討會于2009年舉辦的心肌MRI自動分割挑戰賽中.
ADNI數據集包括了臨床數據(Clinical Data)、MRI數據(MR Image Data)、PET圖像數據(PET Image Data)、遺傳數據(Genetic Data),生物樣本數據(Biospecimen Data)以及標準化MRI成像數據集(Standardized MRI Data Sets).ADNI包括4個子集:ADNI-1、ADNI-GO、ADNI-2和ADNI-3.
ADNI-1的建立是為了開發生物標記作為臨床試驗的結果指標.ADNI-GO的建立是為了檢查疾病早期階段的生物標記,為此招募了200名阿爾茨海默氏病癥狀輕微患者進行研究,同時還對來自ADNI-1的約500名受試者繼續進行研究.ADNI-2旨在確定阿爾茨海默氏病的臨床、影像學、遺傳和生化生物標志物特征之間的關系,開發生物標記作為認知發展的預測指標,除了繼續提取ADNI之前的700名受試者這5年的DNA與RNA進行研究,還加入了500名受試者進行研究.ADNI-3大多用于在臨床試驗中使用tau PET和功能成像技術的研究.
OASIS是一個旨在免費提供腦補核磁共振數據集的項目,OASIS數據集至今已發布了3個版本,最新版本的OASIS-3包括了兩個數據集:橫截面數據集(OASIS-Cross-sectional(Marcus et al,2007))和縱向數據集(OASIS-Longitudinal(Marcus et al,2010)).OASIS-3數據集的受試者包括609名認知正常和489名處于認知衰退階段的人,該數據集包括了2000多個MR圖集和來自3個不同的示蹤劑、超過1500個原始掃描圖像的PET圖像,其中許多MR圖集都包括了使用FreeSurfer處理生成的分割文件[57].
常見的性能評價指標有:魯棒性[58]、精度、抗噪性等.魯棒性(robustness)是指配準算法精確度的穩定性,也可以認為是算法的可靠性.精確度是指進行配準計算后得到的估計值與金標準之間的差異,差值越小說明配準效果越好.
金標準是用來衡量配準算法實驗效果的重要依據,它可以評價配準方法是否達到臨床需求以及方法的性能優劣.但是由于醫學影像的成像條件是不同的,因此沒有一個絕對正確的標準,即使是同一張圖像,由不同醫生進行手動注釋也會存在差異.配準方法的效果與具體的實踐方法息息相關關,對于配準算法,業界內尚無一致肯定的評價標準,這是由醫學影像的模糊性和來源不一致所導致的.
現階段許多基于深度學習的研究是直接利用深度回歸網絡預測變換參數,當進行監督變換估計時,其數據集大多為已經標記好的數據集,大部分實驗會將該數據集上的標準標簽數據定義為“金標準”.而無監督變換估計大多采用無標記的數據集,可以通過使用配準軟件進行處理后或其他方法處理過的標簽數據作為金標準.
目前,配準方法使用的評價指標有:目標配準誤差(target registration error of landmarks,TRE)、DICE相似性系數(dice similarity coefficient,DSC,DICE)、HD95(Hausdorff_95)、雅可比行列式(Jacobian determinant)等,下面將簡單介紹這幾種常見指標的計算方法.
目標配準誤差(target registration error of landmarks,TRE)指的是配準后基準點與相應點之間的距離,對于規則網格或均勻分布上固定的3D點,通常建議使用金標準的點和與之對應轉換的點用于計算TRE值.
DICE相似性系數是一種集合相似度度量指標,通常用于計算兩個樣本的相似度,值的范圍為(0,1),其值越趨于1時兩個樣本的重合度越高.假設有兩個集合A和B,計算A與B的DICE相似性系數的方法為:DICE=2(A∩B)/(A+B).
Hausdorff距離是用于描述兩組點集之間相似性程度的一種度量,假設有兩個集合A={a1,a2,…,an}和B={b1,b2,…,bn},則雙向Hausdorff距離的一般形式為:H(A,B)=max(h(A,B),h(B,A)),其中h(A,B)=max(a∈A)min(b∈B)||a-b||,h(B,A)與h(A,B)計算方式相同,由Hausdorff距離公式可以看出它可以度量兩個點集之間的最大不匹配程度.HD95指標計算的是Hausdorff距離值乘以95%,目的是為了消除離群值的一個非常小的子集的影響.
一般在配準后會得到圖像的變形場,即圖像的每個像素的位移形變的場,簡稱為密集變形場(dense displacement vector field,DVF).以三維數據為例,假設DVF上存在點J(i,j,k),則雅可比行列式可以寫為:
通過計算雅各比行列式的值可以判斷該點是否發生折疊,從而量化DVF的質量、判斷配準結果的優劣程度.
以上幾種指標中,DICE相似系數用于評價配準方法效果的頻率最高,DICE相似性系數對于內部比較敏感,而Hausdorff距離則對邊界比較敏感.
下面,本節將針對相同的數據集對第3章提出的部分方法進行效果比較.
針對肺部配準問題提出新方法的Eppenhof等人[18,20]、sentker等人[17]、de Vos等人[32]、Fu等人[50]和Jiang等人[46]都使用了DIRLAB數據集對網絡進行訓練和測試,其中Eppenhof等人[18,20]和Sentker等人[17]使用的是有監督的配準方法,de Vos等人[32]和Jiang等人[46]使用的是無監督的配準方法,而Fu等人[50]使用的是基于生成對抗網絡的方法.將上述的配準方法應用于公開提供的10個DIRLAB數據集,使用每個DIRLAB數據集提供的300個點對來評估方法的準確性,文獻[50]與文獻[59]實驗對比部分,表4展示了上文描述的幾種基于深度學習的配準方法在DIRLAB數據集上的目標配準誤差值(TRE),同時展示了Heinrich等人提出的傳統的配準方法[60]和ANTs方法[12]在DIRLAB數據集上的TRE值,單位均為毫米和秒.
從表4的數據可以看出:傳統配準方法ANTs的TRE值為2.43±4.1,相較于ANTs來說,使用基于深度學習的配準方法中,Eppenhof等人[18,20]、Jiang等人[46]和Fu等人[50]提出的方法都達到、甚至超過了ANTs[12]方法的效果,但尚未能夠與Heinrich等人提出的改良方法[60]媲美.從另一方面來說,基于深度學習的配準方法在處理速度上明顯快于傳統的配準方法.

表4 各方法在DIRLAB數據集的目標配準誤差值概覽表
目前不管是有監督配準方法還是無監督配準方法都逐漸達到、甚至超越了傳統配準方法的性能.上述幾種方法中,基于生成對抗網絡的配準方法尤為亮眼,在計算速度和效果上取得了優異的成績.
針對心臟圖片的配準問題,Mahapatra等人[53]和de Vos等人[32]將Sunnybrook cardiac數據集平均分為15個訓練掃描集、15個驗證掃描集和15個測試掃描集用于訓練和測試.下面將他們提出的配準方法與傳統的Elastix[7]方法進行對比,這些方法在Dice、HD95和MAD指標上的表現情況如表5所示,時間表示配準一個測試圖像對所需的時間,單位為秒.

表5 心臟圖像配準前后不同方法的平均性能比較
基于表5數據不難看出:相較于傳統的配準方法來說,基于深度學習的配準方法運行時長上取得了非常明顯的進步,在各項指標中也獲得了不俗的成績.De Vos等人[32]和Mahapatra等人[53]提出的方法不僅在Dice、HD95和MAD指標上逐漸達到傳統方法Elastix[7]的效果,在運行時間上已經取得了很好的成績,這充分說明了基于深度學習的配準方法的可行性與進步性.
在上述描述的比較中,雖然基于深度學習的方法取得了一定的效果,但是也暴露了配準領域現存的缺點——目前配準領域中尚未出現一個非常權威的、海量的數據庫供各種配準方法使用,各種配準方法用于訓練和測試使用的數據集參差不齊,用于評判配準方法的指標也尚未統一,針對不同的醫學圖像和不同的部位無法使用單一的指標來絕對衡量配準方法的效果.
基于深度學習的方法目前大多尚未在精度上優于傳統的圖像配準方法,但是由于基于深度學習的配準方法借助GPU進行直接估計,在計算成本和效率上,基于深度學習的方法比傳統的配準方法要有優勢得多.
由于基于深度學習的配準方法近幾年的快速發展,使用直接變換預測的配準方法數量顯著增多.有監督的配準方式存在一定的局限性:基于有監督的配準方法所生成的變換可能無法反映真正的生理運動、無法捕捉實際圖像記錄場景中的較大形變.
目前為止,有監督的配準方法受限于缺少手動標記的標準標簽數據集,雖然雙重監督和弱監督大大減緩了對于標準標簽數據的限制,但是對于手動標記數據集的需求仍未降低.針對這一問題,目前大多有監督的配準方法采用了數據增強的方式擴充數據集,或使用遷移學習來解決這個問題.
與監督變換預測相比,無監督方法有效地緩解了缺乏訓練數據集的問題,因此吸引了很多的學者的關注.但由于不同類別圖像之間的相似性難以量化,無監督的配準方法在處理多模態配準問題上比處理單模態配準問題要難得多,所以目前無監督配準方法仍多用于處理單模配準問題,在處理多模態圖像配準問題時趨于使用半監督的配準方法.
近些年來,許多研究者將GAN的鑒別器用來辨別圖像對是否對齊,并使用GAN確保預測變換真實.同時,因為GAN不僅可用于引入額外的正則化,還可用于執行圖像域轉換,因此有的研究者使用GAN將多模態的配準問題轉換為單模態的配準問題,基于GAN的配準研究方法也成為了熱門研究方向.
目前基于深度學習方法進行配準是大勢所趨,配準方法逐漸由部分依賴深度學習轉向完全依賴深度學習,其性能和效果由逐漸達到傳統配準方法的效果逐漸轉為超越配準方法的效果.然而,對于配準方法的性能進行評判的標準還需進一步研究,不僅缺少包括具有代表性、專家標注的圖像公共數據集,也缺乏一個業界統一的評估標準,但目前已有不少學者正在研究該問題,這一問題在未來有望得到解決.