劉國才 顧冬冬 劉 驍 劉勁光 劉焰飛 張毛蛋
1(湖南大學電氣與信息工程學院,長沙 410082)
2(機器人視覺感知與控制技術國家工程研究中心,長沙 410082)
惡性腫瘤(癌癥)已成為嚴重威脅中國人群健康的主要公共衛生問題之一。 中國癌癥負擔總體仍呈現持續上升趨勢,癌癥防控形勢依然嚴峻。 根據2019年發布的“2015年中國癌癥統計報告”[1]:惡性腫瘤死亡占居民全部死因的23.91%,近十幾年來惡性腫瘤的發病和死亡均呈持續上升態勢,惡性腫瘤發病率保持每年約3.9%的增幅,死亡率保持每年2.5%的增幅,惡性腫瘤所致的醫療花費每年超過2 200 億,防控形勢嚴峻。 2015年中國惡性腫瘤新發病約392.9 萬人,死亡約233.8 萬人,平均每天超過1 萬人被確診為癌癥。 根據2019年發布的“2016年美國癌癥統計報告”[2]:2016年美國新增約176.2 萬癌癥患者,死亡約60.6 萬人,占死亡患者的22%。 根據2019年發布的“2018年全球癌癥統計報告”[3]:2018年全球185 個國家共新增約1 810萬癌癥患者,死亡約960 萬人,中國位居第一。惡性腫瘤現代臨床放射治療(簡稱放療),是一個由多模態醫學影像引導的,從腫瘤分期、定位、治療到療效評估的復雜診療過程[4],精確定位、精確計劃和精確治療是百余年來一直追求的臨床放療目標。
計算機斷層掃描(computerized tomography,CT)影像開創了現代臨床三維適形放療(3-dimentional conformal radiotherapy,3DCRT)技術時代。 正電子發射斷層掃描(positron emission tomography,PET)功能分子影像,開啟了以腫瘤分子生物學特性為基礎的生物調強放療(biological intensity-modulated radiotherapy,BIMRT)技術時代。 PET/CT,PET/MRI(magnetic resonance imaging,磁共振成像),錐形束CT(cone beam CT,CBCT)/Linac(線性電子加速器)、MRI/Linac 與深度學習技術相結合,使腫瘤放療技術進入到一個嶄新的個體化、高精度、自適應和智能化新時代。
影像圖像引導調強放療(intensity modulated radiotherapy,IMRT)是當前主要的腫瘤患者臨床放療技術。 設計和制定臨床可接受、可執行的腫瘤調強放療計劃,涉及大量臨床任務。 目前,主要由臨床放療物理師,根據患者的模擬放療定位CT 影像勾畫放療危及器官(organs at risks,OARs),并根據臨床放療醫生勾畫的放療靶區﹝包括:大體腫瘤區(gross tumor volume,GTV)、臨床靶區(clinical target volume ,CTV)、計劃靶區(planned target volume,PTV)﹞和放療處方劑量、各種放療劑量學目標和約束,以及其它臨床放療先驗知識,通過逆向IMRT 計劃系統軟件,對IMRT 計劃進行優化。
最近幾年,人工智能方法已經用于腫瘤IMRT計劃和自適應放療計劃研究[5],以便提高工作效率和質量。 前期研究發現,通過深度學習技術[6-15],可更好地實現放療計劃設計優化過程的智能化。 無監督深度學習[13]和生成對抗網絡(generative adversarial network,GAN)[14]已經成為該領域的研究熱點。 基于深度學習、采用CT/CBCT/MRI/PET聯合引導的智能放療是當前腫瘤精確放療的前沿研究內容。
盡管近幾年采用深度學習方法進行惡性腫瘤的CT、MRI、CBCT 和PET 影像配準、放療靶區分割、放療計劃MRI-CT 影像轉換合成已取得很大進展,但當前的配準、分割和影像轉換精度在多數情況下還不能滿足臨床精確放療的要求。
高精度自適應智能調強放療計劃,既需要高空間分辨率的組織解剖結構CT 和MRI 成像系統,提供腫瘤放療靶區和危及器官精確的位置信息,還需要高靈敏性及高特異性的腫瘤生物學和放射腫瘤學特性PET 成像系統,提供腫瘤葡萄糖代謝、增殖、乏氧等生物學特性和放射敏感性(抗輻射)的特性信息。 因此,臨床放療專家通常需要聯合使用腫瘤放療模擬定位CT 或診斷CT、MRI、PET/CT、 PET/MRI、機載CBCT、MRI 等影像,手動或半自動分割腫瘤放療靶區和危及器官。
目前,大多數情況下,多數基于深度學習的放療危及器官分割結果和臨床物理師勾畫的相應危及器官的Dice 相似性系數已經超過了80%。 但是,聯合腫瘤CT/CBCT/MRI/PET 影像自動分割放療靶區的方法還缺乏一致性和有效性,多數情況下,基于深度學習的腫瘤放療靶區高精度分割問題仍沒有取得突破性進展,自動分割結果和臨床醫師勾畫的靶區Dice 相似性系數不足60%,仍無法滿足臨床放療精度要求。
近幾年生成對抗網絡(generative adversarial networks, GAN) 和深度卷積神經網絡( deep convolutional neural network,DCNN)在腫瘤放療靶區分割中的主要研究成果和進展,如表1 所示。

表1 主要的腫瘤放療靶區分割深度學習方法匯總表Tab.1 Summary of tumor segmentation methods based on deep learning
由于CT 影像軟組織的對比度低,對位于縱隔等部位軟組織附近或周圍的肺癌組織很難準確分割,因此臨床上通常需要聯合軟組織對比度高的MRI 影像對肺癌靶區進行高精度分割。 最近,Jue 等[16]等提出了一種聯合腫瘤MRI 和CT 影像進行訓練學習的肺癌CT 分割方法。 作者聯合條件生成對抗網絡cGAN[25]和循環一致生成對抗網絡CycleGAN[26]訓練兩個生成對抗網絡,分別將CT 和MRI 轉換成對應的pMRI 和pCT,并增加根據VGG19 網絡提取的MRI 和pMRI 的高層特征余弦相似性計算的對抗性損失正則項,迫使生成的pMRI 和MRI 具有相似的結構。 與此同時,聯合訓練兩個類似U-Net 或密集全卷積網絡DFCN 的分割網絡,分別分割CT 和pMRI 中的肺癌組織,并在訓練時直接比較兩個分割網絡高層特征和分割結果,迫使兩個分割結果盡可能一致。 整個聯合訓練過程是無監督的,轉換網絡和分割網絡輪流交替訓練優化。 應用非小細胞肺癌患者CT 影像測試表明,聯合T2 加權MRI 影像訓練的肺癌靶區分割方法比僅使用CT 影像的分割方法更精確,平均Dice 相似系數分別為0.72±0.14(U-Net)、0.73±0.12(D-FCN),相應提高4%~5%。
為了實現跨模態(MRI,CT)影像的前列腺癌放療靶區高精度分割,Girum 等[17]提出了一種嵌入式生成網絡,用于前列腺形狀學習,生成前列腺區域標注影像。 他們將形狀生成網絡嵌入類似U-Net 的分割主網絡,采用分割網絡編碼層高層特征作為輸入,通過有監督的訓練,自動生成前列腺區域標注影像,并將其和分割網絡解碼高層進行像素級的融合,最終分割前列腺。 在聯合訓練形狀網絡時,采用少量的、有4 個前列腺外輪廓標志點坐標的高對比度MRI 影像作為訓練樣本,通過形狀生成網絡預測每個切片上相應的標志點位置,并最終生成前列腺區域標注影像。 采用交叉熵切片分類和標志點位置絕對誤差光滑近似作為形狀生成網絡損失函數,同時,采用交叉熵和Dice 相似性系數作為分割網絡損失函數。 測試結果表明,采用MRI 影像聯合訓練好的形狀和分割網絡,可直接應用于低對比度的CT 影像前列腺高精度分割,平均Dice 相似性系數達到CT:89%,MRI:93%,優于現有其他方法。
目前,放療直線加速器機載的錐形束CT(CBCT)已被廣泛應用于腫瘤精確放療前的患者在線擺位驗證和自適應放療腫瘤和危及器官定位。然而,由于CBCT 影像質量較差、軟組織對比度低、腫瘤和危及器官分割標簽難以獲取等原因,腫瘤和危及器官CBCT 影像分割非常困難,導致目前臨床上基于CBCT 的腫瘤自適應放療難以有效實施。
最近,Jia 等[18]利用腫瘤放療模擬定位CT 影像及其臨床醫師勾畫的腫瘤和危及器官CT 標簽信息,提出了一個無監督的跨域(CT,CBCT)腫瘤和危及器官分割網絡。 采用循環一致生成對抗網絡CycleGAN[26]將CT 轉換合成sCBCT,同時,將CBCT轉換合成sCT,在聯合訓練合成網絡時,增加解剖結構不變轉換對抗性損失正則項,以便將CT 結構信息轉換到合成的sCBCT。 與此同時,利用高質量的放療模擬定位CT 影像及其臨床醫師勾畫的腫瘤和危及器官CT 標簽信息,訓練學習一個生成對抗性域自適應腫瘤和危及器官分割網絡。 訓練該分割網絡時,同時將有標簽的CT 合成的sCBCT 和無標簽的CBCT 影像作為訓練樣本,通過CT 相應的腫瘤和危及器官標簽信息監督訓練,提供sCBCT 分割Dice 相似系數度量對抗性損失正則項,而且,通過CBCT 和sCBCT 分割結果判別網絡,提供分割網絡對抗性損失。 膀胱癌CBCT 分割實驗表明,與現有方法相比,采用對抗性域自適應的CBCT 分割方法,平均Dice 相似性系數為83.6%,而僅基于CBCT 的分割結果平均Dice 相似性系數為70.1%。
Yuan 等[19]基于StarGAN 和U-Net 提出了多模態影像生成對抗轉換- 分割雙流聯合網絡(UAGAN),聯合非配對的多模態影像訓練學習統一的腦腫瘤多模態影像分割網絡模型。 UAGAN 生成對抗的多模態影像轉換網絡和分割網絡通過共享相同的編碼器最高層,實現語義分割信息共享和轉換-分割任務相互約束。 在訓練多模態影像轉換網絡時,引入目標域影像模態類別標簽,和源域模態影像一起,同時作為條件生成對抗轉換網絡cGAN前向生成網絡通道的條件輸入,而在其反向源域模態影像重建網絡通道,引入源域影像模態類別標簽作為輸入,但采用相同的前向生成網絡,因此,提供模態分類和影像重建兩個對抗性損失正則項,從而實現多模態影像之間的任意相互轉換。 與此同時,為了在模態轉換時保留腫瘤的結構信息,通過分割網絡提供腫瘤形狀對抗性損失正則項。 在訓練條件生成對抗轉換網絡cGAN 的判別網絡時,采用多任務訓練方式,判別網絡同時輸出轉換后影像的真實性和模態分類概率,提供影像真實性和模態分類兩個對抗性損失正則項。 另一方面,多模態影像轉換-分割雙流聯合網絡采用兩個改進的U-Net,并且,通過引入注意力機制,使分割網絡解碼層融合學習聚焦于轉換網絡各相應編碼層的腫瘤語義分割特征,提高分割精度。 同時,使轉換網絡解碼層融合學習聚焦于分割網絡各相應編碼層的腫瘤語義分割特征,從而使轉換后的影像保留模態不變的腫瘤形狀特征。 在推理測試時,分割網絡不僅接受被測試影像作為輸入,而且接收影像的模態類別作為輸入,因此,同一個分割網絡可以對同一個目標腫瘤的多個不同模態的影像進行正確分割。 T1Gd、FLAIR 和T2 MRI 影像的腦腫瘤分割實驗表明,不同模態影像越相似,UAGAN 分割精度相互提高越多。
核磁共振影像中鼻咽癌放療靶區的自動分割仍然具有挑戰性,因為鼻咽癌是浸潤性的,通常體積很小,甚至是微小,使其與周圍緊密相連的組織難以區分。 針對這一問題,最近,Huang 等[20]提出了一種具有遞歸注意力機制(recurrent attention mechanism,RAM)的鼻咽癌靶區分割殘差網絡。 他們將高層語義特征引入長短期記憶(long short term memory,LSTM)注意力遞歸神經網絡,級聯生成特征通道級和空間區域級注意力映射,逐層指導較低層特征的學習,最終聚焦于腫瘤語義分割特征的提取。 在訓練分割網絡時,采用到腫瘤的距離加權的交叉熵作為損失函數。 聯合腫瘤T1、T1c 和T2 MRI進行訓練和測試,實驗結果表明:鼻咽癌分割Dice相似性系數達到0.796 3,而經典SE 注意力機制Dice 相似性系數為0.697 6。
Chen 等[27]提出了一種新的聯合FLAIR、T1、T1c 和T2 MRI 影像進行腦腫瘤分割的多組變分編碼-解碼網絡。 他們使用每個模態相應的解碼網絡將影像分解成依賴于模態類型的外觀編碼和獨立于模態類型的內容編碼。 然后將所有模態影像的內容編碼通過一個共享的融合子網絡合成為一個共享的內容編碼,并以此作為輸入,通過一個腫瘤分割編碼子網絡生成腫瘤分割標簽。 在編碼-解碼網絡訓練時,同時為每種模態影像構建一個相應的編碼子網絡。 采用類似U-Net 的殘差網絡構建編碼-解碼網絡。 通過一個兩層的卷積網絡構建內容編碼融合子網絡,并隨機的將某些模態的內容編碼設置為0,以增加網絡對缺失模態影像的魯棒性。聯合Dice 和加權交叉熵進行端到端的訓練,并增加所有模態影像解碼子網絡重建誤差損失正則項。測試結果表明:在各種模態影像缺失的情況下,分割網絡性能的魯棒性好。 聯合所有4 種模態影像腦腫瘤分割平均Dice 相似性系數比現有最好的分割方法高出6%。
腫瘤放療臨床靶區(CTV)包含CT 影像上可見的大體腫瘤區(GTV)和亞臨床腫瘤區(通常CT 影像上不可見),因此,通常不能完全基于CT 影像勾畫CTV。 Jin 等[21]提出了一個簡單、有效的3 D 漸進整體嵌套網絡(progressive global nested network,PHNN)[28],采用到食管癌患者腫瘤、淋巴結和放療危及器官的符號距離對這些解剖結構先驗上下文信息進行編碼,并將這些上下文信息編碼信息和CT影像一起作為PHNN 的輸入訓練網絡,使深度網絡能夠更好地學習和模擬人類醫生基于腫瘤邊緣和外觀進行CTV 勾畫。 實驗表明,編碼解剖結構先驗上下文信息可以提高食管癌放療臨床靶區CTV 分割性能,平均Dice 相似性達到83.9%。
Men 等[22]提出DDNN 網絡用于鼻咽癌CT 影像放療大體腫瘤區GTV 和臨床靶區CTV 分割。DDNN 網絡由兩個重要組件組成,包括編碼器部分和解碼器部分。 編碼器基于VGG-16 架構,與VGG-16 不同的是,在解碼器網絡上執行反卷積操作,從低分辨率逐層重建高分辨率特征圖,在網絡最后采用全卷積層代替全連接層。 鼻咽癌測試表明:GTVnx、GTVnd 和CTV 的Dice 相似性系數均值分別為80.9%、62.3%和82.6%。
Chen 等[23]提出了一種新的半監督腦膠質瘤MRI 重建和分割U-Net 網絡。 該網絡共享一個編碼子網絡,但包含一個分割子網絡和一個重建子網絡。 采用有監督的Dice 損失函數訓練分割子網絡,而采用無監督方式訓練重建子網絡。 訓練時,采用同樣數量有標注的樣本和無標注的樣本,輪流訓練分割子網絡和重建子網絡,并且,采用分割子網絡預測的腫瘤目標區域和背景區域掩膜,對影像重建均方誤差損失按目標和背景區域進行加權(注意機制)。 測試結果表明:注意力機制和無監督訓練的重建網絡有助于提高分割性能。
Huang 等[24]提出了3 D 磁共振MRI 結直腸腫瘤區域定位和分割多任務多尺度網絡3 D RU-Net,兩個任務共享一個編碼子網絡。 利用腫瘤區域定位子網絡預測的區域掩膜,從編碼子網絡中裁剪出多層次感興趣區域特征,作為分割解碼子網絡的輸入。 進一步,通過集成多尺度特征分割結果,提高最終分割精度。 測試結果表明:聯合腫瘤區域檢測和分割的結直腸腫瘤分割性能優于U-Net,分割精度平均Dice 相似性系數達到75.5%,而U-Net 僅為61.7%,而且速度更快,占GPU 內存更少。
為了聯合利用腫瘤多模態影像對腫瘤放療靶區和危及器官進行高精度地定位和分割,進行腫瘤自適應放療計劃設計優化和療效評估,需要對腫瘤多模態影像進行高精度的配準。 7~10 周的腫瘤放療過程中,腫瘤和危及器官一般都會因治療而發生大的形變,經典影像配準方法配準位置誤差一般達不到腫瘤臨床放療計劃時靶區和危及器官定位誤差小于2 mm 的要求,而且配準速度也不能滿足腫瘤影像在線配準和在線自適應放療計劃設計與優化。 基于深度學習的配準方法,目前大多針對單模態的醫學影像配準,而腫瘤放療全過程放療靶區和危及器官形變很大,所需影像模態多樣,在線自適應放療計劃要求實時且高精度地配準多模態影像,因此,至今臨床上還沒有一種高效高精度的腫瘤放療多模態影像配準方法。
GAN 配準、分割與弱監督配準多任務、無監督深度學習配準,在腫瘤放療多模態影像中的主要研究進展,如表2 所示。

表2 主要的腫瘤放療影像配準深度學習方法及性能總結Tab.2 Summary of deep learning registration methods for tumor radiotherapy and their performance
由于影像配準是一個不適定的問題,通常使用正則化來約束形變場和防止形變后的影像出現折疊等不真實的形變。 常用的正則化項包括形變場光滑約束、反折疊約束和雙向一致性約束。 然而,這些人工設計的配準正則化約束并不能保證形變的物理真實性。 另一方面,對于多模態醫學影像的配準,通過深度卷積神經網絡直接預測形變場時,配準性能不如單模態影像配準,這是因為不同模態間的巨大差異導致不同模態影像之間的相似性度量更加困難。 最近,基于生成對抗網絡GAN 的醫學影像配準研究表明,GAN 有望更好地解決復雜醫學影像形變配準問題,其核心思想是訓練一個生成對抗網絡。 一方面,通過生成器網絡直接生成預測形變場,或者形變速度場實現微分同胚形變配準,這是腫瘤自適應放療多模態影像配準臨床應用特別期待的配準變換特性。 另一方面,通過判別器網絡,引入一個基于學習的配準對抗性損失形變場正則化約束項,用于解決配準算法中手動設計正則項的問題。 基于GAN 的影像轉換,還可有效地將更具挑戰性的多模態配準問題轉化為相對容易的單模態影像配準問題,使得許多現有的單模態配準算法可以應用于多模態影像的配準。
Elmahdy 等[29]最近開展的一項基于對抗生成網絡的前列腺癌放療計劃模擬定位CT 和放療全過程7~10 個分次放療前CT 影像聯合配準和靶區分割研究表明,該方法不僅配準速度快(0.6 s),能夠滿足在線自適應放療計劃要求,而且配準精度高﹝靶區定位平均位置誤差為(1.13 ± 0.4)mm ﹞,基本能夠滿足靶區和危及器官定位精度要求。 該配準方法不僅在配準速度上大大超過經典配準方法(13 s),而且配準精度也超過了經典的Elastix 配準方法的精度(4.0 ± 1.7)mm。 具體地,先通過配準生成網絡直接預測形變場,再通過空間形變網絡實現放療計劃CT 到每個分次放療前CT 影像的無監督配準和腫瘤放療靶區與危及器官輪廓的形變演化。 采用更利于網絡訓練的Wasserstein GAN 損失函數進行配準網絡訓練,通過PatchGAN 訓練配準判別網絡。 不僅通過配準判別網絡直接判斷影像塊之間是否已經配準、配準演化后的放療靶區與危及器官輪廓是否與臨床專家手工勾畫的輪廓相似,為配準生成網絡提供配準對抗性損失項,而且通過配準影像塊之間的歸一化互相關NCC 度量和放療靶區與危及器官分割Dice 相似性系數度量,為配準生成網絡提供間接、附加的形變場正則項,同時提高配準和分割的精度。
Lei 等[30]最近一項基于對抗生成網絡的胰腺癌放療過程腫瘤和危及器官定位、運動跟蹤和放療門控4 D-CT 10 個時相中任意兩個時相影像配準研究表明,胰腺癌標記點配準誤差均值為2.48 mm,配準時間小于1 min。 他們通過配準生成網絡直接預測形變場,通過空間形變網絡層實現任意兩個時相影像的無監督配準,通過配準判別網絡判斷影像塊之間是否已經配準,為配準生成網絡提供對抗性配準損失度量(交叉熵)。 該方法有望用于肺癌、胰腺癌等受呼吸運動影響較大的腫瘤實時定位、運動跟蹤和放療門控計劃與自適應放療計劃。
目前,國內外許多相關研究表明,聯合臨床專家勾畫的正常組織器官和腫瘤輪廓等解剖學信息,可提高無監督配準網絡性能。 同時,配準形變場既可以直接用于解剖結構輪廓的演化,也可以用于提高分割網絡性能,這對腫瘤放療臨床應用尤其重要。 臨床上腫瘤自適應放療計劃優化時,需要將放療計劃時在放療模擬定位CT 上分割的腫瘤放療靶區和危及器官高精度演化到每次放療時在線獲取的CTCT,或MRI 影像上,同時,還需要將每次放療時患者每個靶區和危及器官實際接受的照射劑量反向高精度地映射到計劃CT 上,進行各分次放療劑量的累計計算和評估。 因此,聯合配準和分割等多個不同但相關的任務,相互約束,訓練多個相關的深度神經網絡,是一種非常好的多任務學習方法。
Hu 等[31-32]最先提出利用組織解剖結構標注等更高層語義結構信息進行配準網絡訓練。 他們認為這樣的解剖結構信息更可靠,更符合臨床實際。他們在訓練T2-MR-US 前列腺影像配準深度神經網絡時,使用高質量標注的前列腺區域掩膜,采用多尺度Dice 相似性度量配準誤差,但測試推理階段不需要任何解剖結構標簽信息。 他們采用改進的U-Net 網絡結構,引入多尺度融合的解碼網絡,實現較大的剛性和形變配準。 測試表明:標志點配準中位絕對誤差為3.6 mm,中位Dice0.87。 配準性能大大優于其它基于影像強度相似性的配準方法。 進一步考慮到臨床影像配準的主要目的是通過影像配準空間變換演化腫瘤(病灶)和相關解剖結構等感興趣區域(region of interest,ROI)的輪廓,ROI 之外的點對應關系通常臨床價值較小,Hu 等[33]提出了一種條件分割網絡,以移動影像及其某個ROI 輪廓作為條件,通過該條件分割網絡對固定目標影像進行分割(分類)預測,直接將移動影像中的ROI 輪廓映射(演化)到固定影像中,而不需要通過配準空間變換,因此訓練時也不需要配準形變場正則化約束。 訓練U-Net 分割網絡時,他們采用固定影像多ROI 分割加權交叉熵損失函數,網絡輸入為待配準影像對和移動影像ROI 標簽,每次輸入一對影像對應的單個解剖結構或區域ROI。 訓練集的ROI 無需配對,單個影像對可具有不同的多個ROI 對。 在推理過程中,給定一對新的影像和一個移動影像的ROI,訓練好的網絡可以預測該ROI 在固定的影像空間中位置。 前列腺治療前MRI(移動影像)和治療中超聲(固定影像)測試結果表明:專家勾畫的超聲前列腺輪廓ROI 與治療前MR 前列腺輪廓演化得到的輪廓中位標志點絕對誤差(target registration error,TRE)為2.1 mm,中位Dice 相似性系數為0.92。 與基于配準網絡預測的空間變換演化ROI輪廓方法[31-32]相比,相應的TRE顯著降低(>34%)。
為實現前列腺癌自適應放療靶區和危及器官高精度和魯棒的自動分割,Elmahdy 等[34]聯合預先訓練好的膀胱分割深度神經網絡U-Net,提出了一個三階段的前列腺癌質子調強放療靶區和危及器官分割與配準網絡,實現從放療計劃CT 到每天放療時CT 的前列腺癌、膀胱、淋巴結和精囊的自適應輪廓演化(自動高精度魯棒分割)。 采用有監督的訓練方法,先訓練膀胱CT 影像深度神經網絡UNet,然后在迭代優化放療計劃CT 到每天放療前CT的配準Elastix 算法過程中,先采用自動提取的患者人體掩膜作為解剖結構先驗信息,基于互信息配準準則,實現仿射剛性變換;再采用訓練好的膀胱分割網絡預測分割計劃CT 影像中的膀胱掩膜,為第二階段形變配準網絡提供膀胱解剖學先驗信息正則項(采用膀胱輪廓距離均方差),聯合互信息配準準則,實現前列腺癌、膀胱、淋巴結、直腸的形變配準和輪廓演化。 最后,在第三階段,采用分演化后的直腸輪廓作為解剖結構先驗,高精度配準和演化(分割)直腸和精囊輪廓。 此外,為了提高分割配準方法的魯棒性,還通過訓練生成對抗測網絡,對CT影像膀胱、直腸和精囊中的空氣部分進行修復與處理,對CT 進行“加窗[-330,300]”對比度增強。 測試結果表明:膀胱分割Dice 相似性系數88%,前列腺,精囊,淋巴結的平均表面距離配準誤差分別達到(1.29 ±0.39)mm ,(1.48±1.16)mm,(1.49 ±0.44)mm,滿足臨床放療高精度定位要求(小于2 mm)。由于配準過程由膀胱和直腸解剖結構(分割)驅動,該靶區和危及器官演化(分割)結果更準確和更魯棒。 相應的前列腺靶區和危及器官調強放療計劃劑量覆蓋指標V95 和V107 明顯優于僅基于影像強度相似性配準演化輪廓的相應計劃,基于該方法自動輪廓演化結果自動生成的放療計劃80%臨床上可以直接接受,無需人工修正,系統的魯棒性有了很大的提高。
無監督的深度學習影像配準方法,可以避免臨床醫學影像配準真實形變場無法獲取的問題。 在無監督訓練學習配準網絡參數時,只需要提供配準影像對作為形變場預測網絡模型輸入,不需要提供真實形變場。 訓練過程中,直接采用預測的形變場,通過空間變換網絡( spatial transformation network,STN)對移動影像進行形變插值,獲得配準后的影像,并通過直接計算配準前后影像的相似性度量值作為預測網絡模型損失函數值,進行誤差反向傳播學習。 各種配準正則化約束項的提出也使得配準網絡能夠預測到盡可能合理的形變場,但是,目前大多數無監督醫學影像配準方法的研究都集中在某個單一模態影像的配準,無監督的多模態影像配準深度神經網絡有待深入研究。
Kearney 等[35]提出了一種用于頭頸患者CBCT到CT 影像配準高層特征提取的深度神經網絡DCIGN,網絡結構類似自編碼-解碼網絡。 首先,他們使用分布式、無監督方式訓練DCIGN,然后,采用訓練好的DCIGN 編碼網絡最高層提取的8 通道CBCT 和CT 特征,通過經典的尺度不變特征轉換SIFT 算法提取用于配準的特征點集。 最后,采用多通道微分同胚Demons 配準算法實現形變配準。 測試表明:該方法配準性能優于現有經典配準算法,配準后的平均互信息為0.653,平均配準時間3.5 s。
臨床腫瘤自適應放療計劃中,要求配準每次放療前的CBCT 影像到放療計劃時的模擬定位CT 影像的形變場是可逆的、光滑的,并應保持腫瘤和危及器官解剖結構的一致性。 經典配準方法可通過微分同胚形變配準實現,但計算量大、耗時長。 最近,顧冬冬等[36]提出了一種新的無監督深度學習配準方法,在訓練配準網絡時,引入雙向和多級形變一致性約束和循環形變一致性損失正則項,實現可逆、一致的配準。 與現有的配準方法相比,該方法具有較高的配準一致性和較好的配準精度。 顧冬冬等[37]進一步提出了基于形變場w-PCA 先驗投影圖像的多級配準框架,通過高維形變場統計分布先驗模型生成先驗圖像來增強彈性配準的魯棒性和精度。 通過高維形變場的w-PCA 分析估計高維形變場的先驗分布,利用先驗分布分別生成與兩個輸入圖像相似的中間先驗圖像,使得任意兩個圖像的配準能夠以兩個中間圖像為橋梁,將輸入圖像對的配準轉換成采用可逆一致的深度配準網絡分別配準對應的中間生成圖像和輸入圖像。 由于中間圖像在形狀上和對應輸入圖像更為相似,該方法可以達到較高的準確性和較好的一致性,尤其是在形狀外觀差別較大的輸入圖像之間,能夠產生平滑一致的形變場。 顧冬冬等[38]提出利用形變場先驗知識進行數據增強的配準網絡。 從一組由微分同胚配準方法SyN 生成的有效形變,通過訓練變分編解碼網絡,得到形變場在隱空間的流形,然后對隱空間進行統計采樣,并將解碼器重構后的形變和對應形變后的圖像作為金標準,對配準網絡進行有監督訓練。 此外,顧冬冬等[39]提出了一種兩階段級聯的無監督深度學習配準方法,第一階段的深度卷積網絡學習影像級的全局仿射變換參數,第二階段深度卷積網絡學習體素級的局部形變場。 該方法由于加入第一階段的仿射配準網絡,預處理階段無需進行影像剛性配準,可提高實際臨床配準中的效率。 結果表明,配準精度和效率優于現有配準方法。
調強放療計劃優化過程中放射治療計劃系統(therapy planning system,TPS)需要根據腫瘤組織和正常器官的電子密度值計算(估計)腫瘤放療靶區和危及器官接收到的累計劑量值(放療高能射線照射輻射能量)。 目前,臨床上主要根據腫瘤患者的放療模擬定位CT 影像HU 值進行放療劑量計算。
最近幾年,國內外腫瘤醫院都在部署新一代集成的MRI/Linac 核磁加速器放療系統,這使得直接利用MRI 影像取替CT 影像進行腫瘤放療靶區與危及器官定位和放療劑量計算的臨床需求更加緊迫。這不僅可以通過MRI 更加準確地定位腫瘤和危及器官,而且可避免MRI/CT 配準,使在線實時進行MRI 引導的自適應放療計劃更加容易實現,同時減少患者使用CT 進行模擬放療定位和使用放療加速器機載CTCB 擺位時受到額外的輻射照射。 但是MRI 不能提供放療劑量計算時需要的各組織器官和腫瘤組織的電子密度定量信息。 目前,臨床上采用MRI/Linac 進行放療計劃時通常還需要獲取患者的放療模擬定位CT 影像。
為克服以上不足,國內外研究人員嘗試了很多不同的從腫瘤放療MRI 影像到CT 影像的轉換方法[40]。 Maspero 等[41]較早提出利用深度學習方法,根據MRI 影像快速生成放療模擬定位CT 影像,實現盆腔腫瘤在線自適應放療。 幾乎同時,Nie 等[42]提出利用3 D 全卷積網絡(FCN)根據MRI 來生成CT 影像,更好地保留和預測CT 影像中的鄰域信息。 目前,研究人員提出了許多改進的深度學習類影像轉換方法,如表3 所示。 目前,僅少數研究基于轉換合成的CT 進行了放療計劃劑量計算的對比評估研究,結果表明基本能滿足相應的臨床放療計劃要求,但還缺乏大規模、多中心的臨床實驗,因此,這些影像轉換方法并未得到臨床應用。

表3 主要的腫瘤放療影像轉換深度學習方法及性能總結Tab.3 Summary of deep learning image translation methods for tumor radiotherapy and their performance
最近幾年,基于GAN 的腫瘤MRI 影像到腫瘤放療模擬定位CT 影像的轉換合成,取得了很大的進展,主要包括改進的經典GAN 方法、循環一致的GAN 方法、條件GAN 方法三大類。 下面分別綜述如下:
1)改進的經典GAN 方法
Emami 等[43]將殘差網絡加入到經典GAN,其生成器為殘差網絡,鑒別器為經典CNN 網絡。 15名患者腦部MR 及CT 影像數據集作為該網絡的訓練和測試集。 實驗結果表明:該網絡合成的CT 影像與真實的CT 影像之間的平均絕對誤差(mean absolute error,MAE)為(89.30 ± 10.25)HU,平均峰值信噪比(peak signal to noise ratio,PSNR)為26.64±1.17,平均結構相似性(structural similarity,SSIM)為0.83 ± 0.03,效果好于經典U-Net 網絡。 Armanious等[44]對GAN 網絡進行了改進,提出了MedGAN。作者將鑒別器作為一個可訓練的特征提取器,以便于懲罰轉換后的影像與目標影像之間的CNN 視覺特征差異,同時利用影像紋理結構轉換損失項,使轉換后的影像和目標影像的紋理和精細結構匹配。 同時,作者提出了名為CasNet 的新型生成器網絡結構,通過級聯的編碼-解碼U 形網絡塊,逐步提升轉換后影像的銳度。 實驗結果表明,MAE為264.6 HU,效果遠好于一般GAN 網絡的313.2 HU。
2)循環一致的GAN 方法
在多模態或多序列MR 影像轉換網絡中,通常需要預先對患者的多序列MR 影像或單序列MR 影像和CT 影像樣本對進行配準,但是,在實際臨床應用中,高精度的多模態影像和多序列MR 影像配準本身也很困難。 為了解決該問題,研究人員基于CycleGAN 框架,提出了MRI 到CT 影像的轉換網絡模型。 最近,Wu 等[45]通過改進的U-Net 作為生成網絡,采用CycleGAN,提出了MRI 到CT 的自動生成網絡UC-GAN,測試表明,MAE 為(76.7 ± 4.5)HU,PSNR 為46.1 ± 1.5,性能優于原CycleGAN 方法。 由于輸入影像與輸出影像之間缺乏直接的約束,Cycle GAN 不能保證輸入-輸出影像之間的結構一致性,而這種一致性在醫學成像中極為重要,因此Yang 等[46]提出了一種局部結構約束的CycleGAN(structure-constrained CycleGAN)。 該網絡使用未配準的MRI-CT 影像數據集,基于影像模態獨立鄰域描述方法(MIND)提取影像的局部結構特征,并構建局部結構一致性損失項,使轉換后的影像和目標影像局部結構保持一致,測試表明,MAE 為122.7 HU,性能優于一般的CycleGAN 網絡。 Prokopenko 等[47]則采用非配準的MRI 和CT樣本集訓練兩個生成對抗網絡(DualGAN),以便保證MRI-CT 影像雙向轉換的一致性,并通過一個預訓練的VGG16 提取合成CT 影像的高層視覺特征,從而引入視覺感知特征損失對抗性正則項。 測試表明,MAE 為60.83 HU ,PSNR 為17.21 dB, 結構相似性為0.8。
3)條件GAN 方法及不同GAN 方法對比研究
條件生成對抗網絡(cGAN)也是一種常見的影像轉換網絡,但需要有配對的影像作為輸入進行訓練。 Peng 等[48]比較了cGAN 網絡和CycleGAN 網絡合成CT 影像的性能。 作者使用普通的U-Net 作為cGAN 網絡的生成器,使用殘差U-Net 作為CycleGAN 的生成器。 173 例鼻咽癌患者頭頸部的T1 加權MR 影像和相應的CT 影像作為訓練和測試樣本集。 對于cGAN 網絡,使用形變配準后的MRCT 影像對進行訓練。 而對于CycleGAN 網絡,則使用未配準的MR 和CT 影像進行訓練。 實驗結果表明:cGAN 和CycleGAN 生成CT 影像的MAE 分別為(69.67±9.27)HU 和(100.62±7.39)HU。 當MR 和CT 影像已配準時,訓練好的cGAN 網絡可以合成質量更好的CT 影像。 Hemsley 等[49]對cGAN 進行了改進使得該網絡可以預測轉換合成影像CT 值的不確定性。 該網絡使用貝葉斯神經網絡來對模型不確定性進行估計。 105 組腦部MR 及CT 影像數據集實驗結果表明,轉換合成的CT 影像與真實CT 影像間的MAE 為(89 ± 8) HU,并且能夠同時生成合成影像CT 值的不確定性估計值。 Li 等[50]比較了有監督與無監督深度學習網絡在生成CT 影像效果上的差異。 采用經典的U-Net 網絡代表有監督深度學習網絡,CycleGAN 網絡代表無監督深度學習網絡,Leaky ReLU 函數作為卷積之前的激活函數對UNet 網絡進行了改進。 34 組頭部T2 加權MR 影像和CT 影像對作為網絡訓練和測試樣本集,其中剛性配準樣本對作為U-Net 訓練的數據集,然后再將這些已配準的MRI-CT 影像集進行隨機配對作為CycleGAN 的訓練數據集。 實驗結果表明,MAE:UNet 為65.36 ± 4.08、CycleGAN 為93.95 ± 5.89;SSIM:U-Net 為0.972 ± 0.004、CycleGAN 為0.955 ±0.007;PSNR:U-Net 為28.84 ± 0.57、CycleGAN 為26.32 ± 0.55。 合成CT 影像的質量總體上有監督的U-Net 網絡優于無監督的CycleGAN 網絡。 Zhang等[51]發現聯合訓練影像轉換和影像分割網絡,可同時提供兩個任務的性能。 特別地,將影像轉換CycleGAN 網絡與分割網絡相結合,在訓練時將轉換網絡生成的合成CT 影像和真實的CT 影像一同送入分割網絡,可實現生成CT 影像時分割目標對象的體積與形狀約束。 實驗結果表明:聯合轉換合成的CT 影像質量更好。
Han 等[52]較早提出了一個基于U-Net 的2 D MRI 到CT 影像轉換合成模型,其MAE 為85 HU,而基于圖譜方法合成CT 的MAE 為95 HU。 Xiang等[53]提出了深度嵌入卷積神經網絡(DECNN)轉換方法,將轉換網絡CNN 中間層的特征圖合成出相應的中間層CT 影像,并將其和相應的中間層特征圖進行級聯作為后續中間層的輸入進一步提取高層特征。 腦部數據集和前列腺數據集實驗結果表明,MAE 分別為85.4 和42.3 HU,而基于圖譜的合成方法分別為169.5 HU 以及64.6 HU。 Dinkla 等[54]提出了基于影像塊的3 D U-Net 影像轉換網絡,實驗結果表明,MAE 為(75 ± 9) HU。 Wu 等[55]將UNet 影像轉換網絡與CycleGAN 轉換網絡相結合,提出了UC-GAN 影像轉換網絡,其MAE 為(76.7 ±4.5) HU,而經典CycleGAN 的MAE 為(94.0 ±4.3) HU。 Baydoun 等[56]則研究了U-Net 與cGAN結合之后的影像轉換性能,其平均絕對百分比誤差MAPE 為75.25 ± 25.42,均方根 誤差RMSE 為115.74 ± 21.84,PSNR 為63.41 ± 1.67,SSIM 為0.839 ± 0.044。 Han 等[52]參考U-Net 網絡結構提出了DCNN 網絡,在編碼部分作者使用了VGG 16網絡,其MAE 值可達84.8 HU。
MRI 影像具有多種不同序列的掃描方式,不同的掃描序列表征不同的組織病理信息,聯合多個序列MRI 的CT 影像合成方法取得了較大的進展。 Qi等[57]針對鼻咽癌患者頭頸部多個序列MRI 合成CT影像進行了對比研究。 作者收集了45 例鼻咽癌患者的4 個MR 序列影像(T1、T2、T1C、T1DixonCwater),聯合4 種MRI 序列影像訓練轉換網絡cGAN合成的CT 影像,其MAE 僅為(69.98 ± 12.02)HU,效果遠好于僅采用單一MR 序列影像訓練的結果。 Tie 等[58]在U-Net 網絡的基礎上提出了多路徑多通道生成對抗影像轉換網絡(MCMP-GAN)。 該網絡將經典U-Net 網絡的網絡塊全部替換為殘差卷積塊,并且將網絡的編碼路徑從原先的單通道擴展為了三通道,分別用于3 個不同序列的MRI 影像,并進行聯合網絡訓練,但每個通道都有各自的特征提取網絡層,并在分別進行四層的殘差塊操作后將這3 個通道提取的不同序列MRI 影像特征信息進行級聯后再送入四層的解碼網絡進行解碼,以獲得合成的CT 影像,同時將合成CT 影像送入判別器進行對抗性鑒別。 32 名鼻咽癌患者頭頸部MR 和CT影像作為訓練測試數據集,其中MR 影像包括了3種不同序列的影像:T1 加權、T1 加權脂肪飽和、T2加權。 結果表明,其MAE 為(79.2 ± 13.0) HU,PSNR 為28.8 ± 1.2,影像轉換性能好于經典的UNet 影像轉換網絡。
臨床上,MR 影像轉換為CT 影像的目的是為了放療計劃劑量計算和劑量分布優化。 因此通過患者合成CT 影像計算的放療計劃劑量值是否準確是關鍵。 近期Chen 等[59]對采用U-Net 網絡合成的CT 影像計算腫瘤放療計劃劑量的準確性進行了評估:根據合成CT 影像計算的91 例前列腺癌患者調強放療(IMRT)計劃劑量分布,其1%1 和2%2 mm準則下的γ 通過率[62]分別超過98.03%和99.36%,平均絕對點劑量差分別小于0.4%和0.6%。 Neppl等[60]比較了根據2 D U-Net 和3 D U-Net 網絡合成的CT 影像計算的快速容積弧形旋轉調強放療(volumetric arc intensity modulated radiotherapy,VMAT)對應的計劃劑量可行性:光子治療計劃1%1 mm和質子治療計劃2%2 mm 三維伽馬通過率均可達95%以上。 Maspero 等[41]研究了同一轉換網絡cGAN 生成的相同部位的CT 影像在不同腫瘤類型VMAT 放療計劃劑量計算上的差異,其中包括59名前列腺癌患者、18 名直腸癌患者和14 名宮頸癌患者。 隨機使用32 名前列腺癌患者的影像數據進行訓練,并隨機使用每種癌癥中的10 名患者影像數據作為測試集。 實驗結果表明:3 種癌癥患者放療計劃劑量分布的2%2 和3%3 mm 三維伽馬通過率均可達94%以上。
Largent 等[61]比較了根據不同的MRI 到CT 影像轉換合成網絡(U-Net 或GAN)和同一網絡在使用不同損失函數訓練后合成的CT 影像,計算39 組前列腺癌患者放療計劃劑量:根據GAN 或者U-Net 網絡轉換合成的CT 影像計算的放療劑量不確定度均小于0.6%。 1%1 mm 三維伽馬通過率均可達99%以上。
目前,惡性腫瘤放療先進技術主要包括IMRT、VMAT、螺旋斷層調強放療Tomotherapy、IGRT、劑量引導放療、質子和重離子放療。 智能化、個性化、精確化、自適應放療計劃是腫瘤放療的未來趨勢。
腫瘤智能放療IRT 建立在腫瘤CT、CBCT、MRI、PET/CT、PET/MRI 等現代醫學影像和人工智能技術之上。 成功實施智能放療,可以獲得高度物理和生物學適形的劑量分布和陡峭的劑量梯度,最大限度地提高腫瘤局控率和避免正常組織器官損傷,但其前提條件是精確的靶區分割、精確的放療計劃和精確的計劃執行。
由于復雜和多樣的惡性腫瘤生物學特性、5~7周時間內分多次執行的放療方式和復雜的腫瘤與危及器官放療響應生化和物理機理,目前,還沒有一個臨床上高效可行的惡性腫瘤CT、CBCT、MRI 、PET 放療靶區分割、影像配準與轉換方法,這是當前實施高精度智能調強放療的技術瓶頸之一,也是未來的研究重點內容之一。 未來智能放療的主要研究方向是:聯合腫瘤放療計劃過程中的所有可用醫學影像,通過深度學習等新一代人工智能技術和方法,建立腫瘤多模態影像高質量成像模型、配準與轉換模型和放療靶區分割模型,進一步提出放療劑量分布預測模型和放療療效預測模型,實現實時自適應放療計劃多目標智能優化和精確執行,解決腫瘤智能放療關鍵技術瓶頸的科學問題。 未來幾年腫瘤放療靶區分割、多模態影像配準和轉換的重點研究內容如下:
1) 跨模態影像腫瘤靶區高精度分割生成對抗網絡學習建模方法;
2) 聯合多模態影像腫瘤靶區高精度分割生成對抗網絡學習建模方法;
3) 腫瘤放療多模態影像高精度配準的多級深度神經網絡無監督學習建模方法;
4) 腫瘤放療多模態影像高精度配準、轉換和分割多任務的生成對抗網絡學習建模方法。
本文基于近十年相關學者對腫瘤精確放療計劃領域的研究分析和近幾年國內外最新的有關研究成果,系統性地綜述了惡性腫瘤放射治療的現狀與發展趨勢,重點論述了深度學習技術和方法在多模態影像引導腫瘤精確放射治療計劃中的應用研究的成果,并分析了存在的關鍵科學問題和發展趨勢,隨后提出了未來幾年腫瘤放療靶區分割、多模態影像配準與轉換的重要研究方向和重點研究內容。