左斌,朱靈梅,王海燕,楊香琴,黃艷,李亮
多參數磁共振成像(multiparametric magnetic resonance imaging,mp-MRI)是目前臨床進行前列腺癌診斷和分期以及評估預后的重要影像學方法[1]。擴散加權成像(diffusion weighted imaging,DWI)是前列腺mp-MRI檢查的重要組成部分。為了降低對運動的敏感性,臨床采集前列腺DWI通常采用單次激發平面回波成像方法(single-shot echo-planar imaging approach,ss-EPI)[2]。但是,這項技術會導致DWI圖像信噪比(signal-to-noise ratio,SNR)降低,前列腺形變加重,偽影增加,而且隨著b值的增加,上述現象愈發明顯。低圖像質量DWI不僅會導致組織成像結構的偏差,而且會影響ADC值的計算的準確度以及可重復性[3-4]。雖然通過重復多次圖像采集,前列腺DWI圖像質量可以得到有效地提升,但是,激勵次數過多會延長掃描時間,不僅降低了患者的舒適性,而且增加了患者不自主運動導致圖像質量差的可能性[5]。如何在縮短掃描時間的同時獲得高質量的DWI圖像一直是一個技術難題。
近年來,人工智能算法的興起給解決傳統醫學圖像難題提供了新的解決思路。特別是生成對抗網絡(generative adversarial networks,GANs)在醫學圖像的分割、識別、合成方面表現出了巨大的潛力[6]。GANs是一類包含了生成器和鑒別器的生成模型。生成器可以通過分析輸入圖像與參考圖像之間的映射,進行學習模仿,生成類似于目標圖像的合成圖像,而鑒別器則可以區分生成器生成圖像和真實圖像[7]。通過生成器與鑒別器的不斷博弈,生成器最終可以生成令鑒別器和肉眼都無法鑒別真偽的合成圖像[8]。既往研究利用GANs探索低質量圖像與高質量圖像之間的特征關聯,并構建映射,成功實現了不同質量圖像的轉換。該技術在去除偽影[9]、降噪[10-12]、提高分辨率[13]等方面獲得了成功。受此啟發,筆者設想利用GANs在掃描時間短、圖像質量差DWI圖像和掃描時間長、圖像質量好的DWI圖像之間構建映射,通過前者生成后者,最終獲得掃描時間短但圖像質量好的前列腺DWI圖像。
本研究旨在構建一種基于GANs的能夠有效縮短前列腺DWI掃描時間,提升前列腺DWI圖像質量的無監督生成模型網絡框架,并評估生成的DWI和ADC圖像質量。
1.研究對象
本研究獲得了重慶市渝北區人民醫院倫理審查委員會的批準(2020A2)。所有受試者均已簽署知情同意書。本研究共招募178名2019年1月-2020年10月因臨床懷疑前列腺癌于本院進行多參數MRI前列腺檢查和超聲介入穿刺活檢的患者。其納入標準包括:①具有完整的臨床信息和病理結果。②DWI和ADC圖像上包含至少一個直徑大于0.5 cm的,具有明確病理結果的結節。受試者排除標準包括:①未完成所有MRI檢查。②在行前列腺MRI檢查之前進行了激素療法、手術、放化療等相關治。③MRI檢查與病理穿刺間隔時間大于2周以上。
28人因不符合納入與排除標準被剔除研究隊列(8人未完成全部檢查,12人未進行病例穿刺,4人在MRI檢查前進行了手術治療,4人檢查與病理穿刺間隔時間大于2周以上),本研究最終納入受試者150名,并被按照2比1隨機分為訓練集(100人)和驗證集(50人)。
2.檢查方法
所有患者圖像采集均采用GE Signa Architect Discovery MR750w 3T MR掃描儀及8通道體部相控陣接收線圈。采集序列包括矢狀面T1WI,橫軸面T1WI、T2WI,以及一組橫軸面SS-EPI低b值DWI,兩組標準b值DWI。具體掃描序列參數設置見表1。

表1 MRI掃描序列參數
3.模型建立與算法
本研究采用生成對抗網絡進行模型訓練[14](圖1),其中生成器(G)采用UNet結構,鑒別器(D)采用多層下采樣卷積結構。在訓練模型前先對已獲取的數據進行預處理,對原始a-DWI和b-DWI數據從圖像中心裁剪出相關前列腺區域并縮放到統一大小,之后進行對齊,考慮到硬件的限制,只使用分辨率為224×224的二維橫軸面圖像進行訓練和測試。

圖1 網絡框架圖。
訓練模型時,輸入訓練集中的a-DWI,以b-DWI為參考圖像,生成器輸出合成s-DWI。使用s-DWI和真實的b-DWI對鑒別器進行訓練,使鑒別器能夠區分兩者,即將s-DWI認定為假,將真實的b-DWI認定為真。相對地,生成器逐漸優化的目的是使其合成的s-DWI無法被鑒別器區分出來。通過生成器與鑒別器的對抗訓練,二者效果相互逐漸提高,生成器最終能夠利用a-DWI生成類似于DWI(b=1000 s/mm2,NEX=8)的高質量標準b值DWI。該模型的鑒別器損失函數為:
LD=EY~PY[(D(Y)-1)2]+ES~PS[(D(S))2]
其中S表示生成器合成的s-DWI,Y表示真實的b-DWI。該模型的生成器損失函數為:
LG=ES~PS[(D(S)-1)2]
其中S表示生成器合成的s-DWI。
為驗證模型效能,筆者將驗證集中50人的a-DWI輸入模型,生成s-DWI,并采用峰值信噪比(peak signal to noise ratio,PSNR)、結構相似性(structural similarity,SSIM)、特征相似度(feature similarity,FSIM)以及均方誤差(mean square error,MSE)定量評估s-DWI的圖像質量。PSNR可以評估生成圖像的信噪比。SSIM和FSIM分別評價生成圖像s-DWI與參考圖像b-DWI的結構和特征的相似度。MSE則反應s-DWI與b-DWI的總體差異。
兩位分別具有4年和8年腹部影像診斷經驗的放射科醫師生在三個時間點(每次時間間隔兩周)以隨機順序評估三組DWI(a-DWI、b-DWI、s-DWI)的圖像質量。兩位醫師并不知曉本實驗具體實驗設計及各位患者的相關臨床資料。每個時間點,每位閱片者獨立閱讀一個DWI序列,并采用Likert scale評分法對DWI總體圖像質量,前列腺邊緣清晰程度,噪聲抑制打分(1分圖像質量最差,5分代表圖像質量最好)。
為評估不同DWI序列生成ADC的不同受試者間與受試者的一致性和鑒別腫瘤的能力,本研究采用兩點法(b=50 s/mm2和b=1000 s/mm2)分別計算出基于a-DWI、b-DWI、s-DWI的ADC圖(a-ADC、b-ADC、s-ADC)。首先,有由一位具有20年以上腹部影像診斷經驗的醫師作為協調者,參照病理結果,影像報告以及其他MRI序列圖像,在ADC圖上明確結節位置,并且選出最具代表性ADC層面(結節面積最大)。隨后由兩位具有2年腹部影像診斷經驗的醫師在不知曉任何患者信息的情況下根據協調者的標注,從結節中央勾畫直徑約0.5 cm圓形興趣區(ROI)。每個病灶勾畫三次,其平均值即該病灶為ADC值。1個月后,對所有ADC圖像打亂順序,兩位負責勾畫ROI的醫師再次重復上述操作。
4.統計學分析
采用R軟件(version 3.5.1:www.R-project.org)進行統計學分析。符合正態分布的連續變量資料差異性比較采取獨立樣本t檢驗。不符合正態分布的連續變量資料差異性比較采取Mann-WhitneyU檢驗。DWI質量評分比較采用Wilcoxon signed-rank檢驗。DWI質量評分和ADC值的可重復性檢驗采用組內相關系數(intraclass correlation coefficient,ICC)。
以P<0.05為差異具有統計學意義。
受試者的基本臨床信息見表2。本研究納入病理證實的前列腺癌患者80名以及70名良性結節患者。前列腺癌患者與非前列腺癌患者的平均年齡差異無統計學意義(P>0.05)。前列腺癌患者的血清PSA水平顯著高于良性結節患者(P<0.01)。

表2 患者基本臨床信息
模型生成的s-DWI的PSNR、SSIM、FSIM、MSE分別為46.47、0.855、0.932、0.002。這提示s-DWI在噪聲分布、結構以及紋理特征與b-DWI高度相似。
s-DWI圖像質量與b-DWI圖像質量相仿,二者在前列腺腺體輪廓,背景噪聲,病灶對比度顯示方面均優于a-DWI(圖2)。此外,基于s-DWI計算所得的ADC圖在前列腺病灶顯示方面也明顯優于a-DWI。

圖2 66歲的中央區前列腺癌患者。a)基于a-DWI計算的ADC圖;b)基于b-DWI計算的ADC圖;c)基于s-DWI計算的ADC圖;d)a-DWI;e)b-DWI;f)s-DWI;g)T2WI。
兩位閱片者對三組DWI圖像(a-DWI,b-DWI,s-DWI)的主觀圖像質量評分見表3。b-DWI和s-DWI在前列腺邊緣清晰度、噪聲抑制、總體圖像質量得分方面均高于a-DWI,差異具有統計學意義(P<0.01)。而b-DWI和s-DWI在前列腺邊緣清晰度、噪聲抑制、總體圖像質量得分方面差異無統計學意義(P>0.05)。

表3 不同DWI序列的圖像質量評分
s-ADC和b-ADC不同方法間測量結果具有高度一致性(測量者1:ICC=0.96;測量者2:ICC=0.95)。ADC測量不同受試者間一致性檢驗結果見表4,s-ADC和b-ADC的ADC值不同受試者間一致性均高于a-ADC [ICC分別為a-ADC 0.52~0.66、b-ADC 0.87~0.96、s-ADC 0.88~0.95]。ADC測量相同受試者內一致性檢驗結果見表5,s-ADC和b-ADC的ADC值相同受試者內一致性均高于a-ADC(閱片者1的s-ADC和b-ADC不同方法間測量結果具有高度一致性(測量者1:ICC=0.96;測量者2:ICC=0.95)。ADC測量不同受試者間一致性檢驗結果見表4,s-ADC和b-ADC的ADC值不同受試者間一致性均高于a-ADC [ICC分別為a-ADC 0.52~0.66、b-ADC 0.87~0.96、s-ADC 0.88~0.95]。ADC測量相同受試者內一致性檢驗結果見表5,s-ADC和b-ADC的ADC值相同受試者內一致性均高于a-ADC(閱片者1的ICC分別為a-ADC 0.61~0.65、b-ADC 0.86~0.88、s-ADC 0.85~0.96,閱片者2的ICC分別為 a-ADC 0.67~0.78、b-ADC 0.87~0.88;s-ADC 0.81~0.92)。

表4 不同ADC圖所測量的各部位ADC值受試者間的組內相關系數值(95%可信區間)

表5 不同ADC圖所測量的各部位ADC值受試者內的ICC值(95%可信區間)
本研究主要創新點在于利用基于生成對抗網絡的深度學習算法,有效提高了低激勵次數的DWI圖像質量,并且通過計算機視覺和臨床價值兩方面評估了該方法的可靠性。DWI是一項有著廣泛的臨床需求的MRI技術,在對前列腺癌診斷、分期和監測治療方面具有重要作用。DWI圖像質量與其臨床評估效能以及生成的ADC值的準確度密切相關。在確保DWI圖像質量的前提下,有效縮短掃描時間,一方面可以為醫院節約時間成本,另一方面,減少了患者因為掃描時間長不自主運動概率,提高受試者圖像質量,進而提高前列腺DWI和ADC的診斷效能。
由于強大的模擬數據分布以及圖像轉換的能力,諸多學者嘗試利用GAN和其擴展算法在不同圖像之間構建聯系,進而實現不同圖像之間的相互轉換以解決臨床遇見的諸多難題。為解決MR掃描速度較慢的問題,Nie等[15]通過基于GAN的神經網絡成功將顱腦CT圖像轉換為顱腦MR圖像。而Wolterink等[16]則與之相反,利用顱腦MR圖像生成了CT圖像,希望利用此方法有效減少患者掃描輻射。除了圖像之間相互轉換,GANs還被用于提高圖像分辨率,減少噪聲,去除偽影等方面。Jelmer等[12]利用GAN在常規劑量CT和低劑量CT之間構建映射,有效地提高了低劑量CT的信噪比。Wang等[17]成功利用GAN去除了內耳高分辨CT的金屬偽影。雖然GAN在解決諸多傳統醫學圖像問題上展現出巨大的潛力,但是,目前該技術尚未得到臨床的廣泛認可。一方面,通過GAN改善圖像質量的實質是利用不同圖像之間的映射進行圖像生成,而生成的圖像不同于真實掃描的圖像,沒有具體的臨床意義。另一方面,既往研究主要通過傳統計算機視覺評估方法對生成圖像進行評估。因此,由GAN生成的圖像雖然到達專業影像診斷醫師肉眼難以分辨真假的程度,不少臨床醫生對其使用價值仍保有懷疑態度[6]。為此,本研究不僅采用傳統的視覺評估指標評價了s-DWI與目標圖像的噪聲分布、特征相似度、結構相似度,還采用臨床評估方法分別評估了s-DWI的圖像質量以及其ADC值的價值。
本研究中,s-DWI圖像和b-DWI在前列腺以及前列腺周圍組織結構高度相似。通過定量評估,s-DWI和b-DWI在噪聲分布方面相一致,其結構特征和紋理特征與b-DWI亦高度相似。通過基于GAN的深度學習網絡,可以有效縮短DWI序列掃描時間而不損失其圖像質量。不同閱片者對DWI數據集的圖像質量評分結果顯示,s-DWI與b-DWI在總體圖像質量、前列腺邊緣清晰程度、噪聲抑制方面得分相似,且均高于a-DWI。這表明,多次重復采集信號確實可以彌補EPI-DWI低圖像質量的缺點,明顯改善圖像質量。但是,由于EPI-DWI掃描時間取決于重復時間、擴散方向以及激勵次數的乘積[3],增強激勵次數無疑延長了掃描時間,而長時間的掃描也增加了患者不舒適度以及不自主運動的概率。本研究通過低激勵次數DWI直接生成的s-DWI在總體圖像質量、信噪比以及前列腺外形輪廓方面與高質量多激勵次數DWI均無明顯差異。因此,在確保DWI圖像質量的前提下,基于GAN的深度學習網絡可以有效縮短掃描時間。
本研究最后驗證了基于s-DWI和b-DWI生成的ADC的可重復性,其結果顯示,s-DWI和b-DWI均表現為非常出色的受試者間一致性以及同一受試者的可重復性,而a-DWI不同受試者和同一受試者一致性明顯低于s-DWI和b-DWI。此外,s-DWI和b-DWI計算的ADC值之間表現出非常高的不同方法間的一致性。ADC是評估前列腺癌分級、分期以及評估預后的另一重要指標,而ADC值的測量可重復性與DWI圖像質量密切相關,低信噪比、圖像變形等均會導致ADC值測量的不穩定性。為了提高ADC值測量的可重復性,臨床采用了多次激勵的平面回波序列[18]、Hybrid掃描法[19]、小FOV技術[20]、Near-silent distortion less DWI[21]等諸多方法改良DWI圖像質量,進而提高ADC值可重復性。增加激勵次數無疑會掃描時間明顯增加。Hybrid掃描法雖然可以有效提高了圖像質量,其掃描時間并沒有明顯減少。近些年興起的小FOV雖然在去除偽影,提高分辨率,縮短掃描時間方面均有較大的進步,但由于其FOV縮小,無法評估盆腔淋巴結轉移情況,臨床價值收到限制。此外,小FOV技術和Near-silent distortion less DWI技術對于軟件及設備平臺具有較高要求。因此其臨床應用受到限制[22]。本研究使用的模型,不需要過多依賴硬件和軟件,為改善中低端磁共振機型的掃描圖像,提供可靠ADC圖像提供了新的途徑。
本研究存在一定局限性:首先,考慮到標準b值DWI對于生成ADC和計算高b值DWI具有重要意義,本研究構建了b=1000 mm2/s的DWI的生成模型,該模型是否適用于更多b值DWI仍然需要進一步論證。其次,由于DWI和ADC值因不同梯度、不同廠家設備、不同人群均存在差異[23-24],本模型的泛化性仍然需要多中心大樣本實驗進一步論證。
綜上所述,基于GAN的深度學習算法可以有效地縮短前列腺DWI掃描時間,提升圖像質量,有望應用于臨床幫助減輕放射科醫生的工作負擔,并降低其漏診誤診率,為輔助臨床決策提供依據。