額·圖婭,郭小超,王可,黃嘉豪,王祥鵬,張曉東,王霄英
動態對比增強(dynamic contrast-enhanced,DCE)-MRI能夠準確直觀地顯示病灶形態和血供,對腹部疾病的檢出、鑒別診斷和術前分期等具有較高的臨床應用價值,是診斷腹部病變的常用影像檢查技術。在DCE-MRI多期相圖像中,病灶在不同期相具有不同的特征性表現,診斷時醫師首先需識別圖像是哪個掃描期相的,再結合病灶的表現做出定性判斷[1]。這個過程不僅適用于醫師,也適用于人工智能(artificial intelligence,AI)軟件對疾病的診斷。
既往多項研究發現,AI影像診斷模型的準確性受到圖像質量的影響,圖像序列識別有誤、圖像質量不合格等均會導致AI模型的診斷準確性降低[2-3],因此在AI診斷模型廣泛應用于臨床之前需要先完成識別圖像性質的工作。本研究中利用深度學習方法訓練出能對上腹部DCE-MRI圖像的不同期相進行自動分類的AI模型,此模型能挑選出合格的增強掃描各期相的圖像輸入到后續的AI診斷模型中,以保證AI診斷模型的準確性。
本研究獲得了本院倫理審查委員會的批準(2017-1382),按照本單位人工智能模型訓練規范來設計和執行研究方案。
1.用例定義
根據本單位AI訓練管理方法,首先定義研發上腹部DCE-MRI掃描期相分類模型的用戶樣例(use case)。包括上腹部DCE-MRI圖像性質分類AI模型的名稱(identity document,ID)、臨床問題、場景描述、模型在實際工作中的調用流程以及模型輸入和輸出數據結構等。將此次建立的AI模型的輸出結果定義為平掃、動脈早期、動脈晚期及門靜脈-延遲期。
2.研究隊列的建立
回顧性搜集2013年9月5日-2020年5月9日本院PACS中的圖像。入組標準為: ①登記檢查項目為“上腹部MR平掃+增強”、“上腹部MR增強”或“上腹部MRCP+增強”者;②自2013年9月5日開始,將本院4臺MR設備的掃描數據按時間順序入組,每臺MR設備入組110例次MR掃描圖像。排除標準:①圖像有明顯偽影;②DCE-MRI圖像不能被醫師按掃描期相準確分組。
最終入組417例患者共1330個期相(將每個期相的圖像作為1組)的圖像數據用于深度學習模型的訓練。其中,男219例,女198例,年齡10~97歲,平均(57.26±14.85)歲。4臺MR設備提供的圖像數據:GE discovery HD 750 3.0T,334組;Philips Achieva TX 3.0T,302組;Philips Ingenia 3.0T,399組;Siemens Magnetom Aera 1.5T,295組。增強掃描采用脂肪抑制GRE T1WI序列,使用高壓注射器經靜脈團注對比劑Gd-DTPA,劑量0.1 mmol/kg,注射流率2.0 mL/s,隨后以相同流率注射20 mL生理鹽水沖管。注射對比劑前采集平掃圖像,注射對比劑后18~25 s、60 s和180 s分別采集動脈早期及晚期、門靜脈期和延遲期圖像。
3.數據處理
將DICOM格式的圖像轉換為NIFTI格式。由兩位影像專家根據圖像特征,將每例次檢查中患者的平掃和DCE-MRI圖像按掃描期相進行分組,分為4個掃描期相:平掃、動脈早期、動脈晚期和門靜脈-延遲期(圖1~3),各掃描期相的評估標準詳見表1。共獲得1330組圖像數據用于訓練模型,其中平掃445組、動脈早期223組、動脈晚期213組、門靜脈-延遲期449組。

圖1 肝臟層面DCE-MRI圖像,由兩位影像專家閱片確定各幀圖像的期相。a)平掃圖像,顯示腹部各器官均無強化;b)動脈早期圖像,顯示腹主動脈明顯強化,門靜脈無明顯強化;c)動脈晚期圖像,顯示腹主動脈明顯強化,門靜脈強化,肝靜脈無強化;d~f)門靜脈期-延遲期圖像,顯示門靜脈、肝靜脈明顯強化,肝實質強化。

表1 掃描期相的評估標準

圖2 脾臟層面DCE-MRI圖像,由兩位影像專家閱片確定各幀圖像的期相。a)平掃圖像,顯示腹部各器官均無強化;b)動脈早期圖像,顯示腹主動脈及其分支明顯強化,門靜脈無明顯強化;c)動脈晚期圖像,顯示腹主動脈及其分支明顯強化,門靜脈強化,脾臟呈“花斑樣”強化,肝靜脈無強化; d~f) 門靜脈期-延遲期圖像,顯示門靜脈、肝靜脈明顯強化,肝實質強化,脾臟逐漸均勻強化。 圖3 腎臟層面DCE-MRI,兩位影像專家閱片確定各幀圖像的期相。a)平掃圖像,顯示此層面上的腹部器官均不強化;b)動脈早期圖像,顯示腹主動脈及其分支明顯強化,門靜脈無明顯強化;c)動脈晚期圖像,顯示腹主動脈及其分支明顯強化,門靜脈強化,脾臟呈“花斑樣”強化,腎臟皮髓質界限清晰,肝靜脈無強化;d~f)門靜脈-延遲期圖像,顯示門靜脈、肝靜脈明顯強化,肝實質強化,腎臟逐漸均勻強化,脾臟均勻強化。
4.模型訓練
訓練分類模型時,硬件為GPU NVIDIA Tesla P100 16G,軟件包括Python3.6、Pytorch 0.4.1、Opencv、Numpy和SimpleITK等,使用Adam作為訓練優化器。
本研究使用的深度學習網絡是基于MedicalNe權重加載而來[4]。運用遷移學習的方法,凍結編碼器權重來提取圖像特征。保留編碼器部分,將網絡的解碼器部分(反卷積部分)替換為經典分類結構的卷積層+全連接層作為分類結構。用于分類的卷積層有4層結構:(1)池化層(步幅為2);(2)卷積層(卷積核大小為3、數量為512);(3)池化層(步幅為2);(4)卷積層(卷積核大小為3、數量為512)。分類的全連接層由128個神經元構成,對圖像特征進行組合分類,最后結果通過softmax函數計算輸出分類數組。
將1330組圖像數據隨機分為訓練集(train set,n=1118),調優集(validation set,n=108)和測試集(test set,n=104)。模型訓練時不同設備的圖像均按8︰1︰1隨機分到訓練集、調優集和測試集。輸入圖像設置為自動窗寬和窗位,圖像大小為64×128×160,輸出數據為模型分類預測結果。圖像擴增方法包括平移、旋轉、左右鏡像和隨機噪聲等。訓練3D-ResNet深度學習模型的主要參數:模型深度(model depth)=10,是否加載預訓練模型(pretrained)=1,隱藏層數量配置(hidden layer cfg)=(128, 64),丟棄比率(dropout)=0.2,數據單批次數量(batch size)=10,訓練迭代次數(num_epochs)=200,學習率(learning_rate)=0.0001。
5.模型評價
以兩位影像專家閱片的結果為金標準,應用混淆矩陣(confusion matrix)評價多分類模型的診斷效能[5]。
對測試集數據的統計使用sklearn.metrics軟件(https://scikit-learn.org/stable/modules/classes.html?highlight=metrics#module-sklearn.metrics)。測試集評價指標包括宏符合率(macro accuracy,MAcc)、宏F1值(Macro F1)、微F1值(Micro F1)和召回率(recall rate)。對于多分類模型,MAcc和宏F1值兼顧了多分類所有類別的預測結果,而微F值是以目標分類為正樣本,以其它所有分類為負樣本計算而得,與二分類的計算意義相同。
AI多分類模型對各期DCE-MRI圖像自動分類結果與真實數據的比較見表2。多分類模型的評價指標基于混淆矩陣[5],使用sklearn.metrics軟件對測試集的數據進行分析。測試集中MAcc=0.995,Macro F1=0.796,Micro F1=0.989;以單個掃描期相評價,對平掃圖像的ACC=0.989,F1=0.979,召回率=0.958;動脈早期、動脈晚期和門靜脈-延遲期的ACC、F1、召回率均為1.000。

表2 3D-ResNet模型對各期DCE-MRI圖像自動分類結果與真實數據的比較 /組
在訓練集、調優集及測試集中AI模型的總體分期符合率分別為99.9%(1117/1118)、99.1%(107/108)、99.0%(103/104)。在訓練集及調優集中,各有1組肝臟多發轉移瘤的動脈晚期圖像被預測為動脈早期(圖4、5),即在訓練集及調優集中對動脈晚期的預測符合率分別為99.5%(193/194)和90.9%(10/11),而對平掃、動脈早期及門靜脈-延遲期的預測符合率均為100%;在測試集中,有1組左腎切除術后的平掃圖像被預測為不確定(圖6),其預測符合率為97.5%(39/40),AI模型對其余各期(動脈早期、動脈晚期及門靜脈-延遲期)圖像的預測符合率均為100%。

圖4 52歲女性患者的不同層面動脈晚期圖像(由兩位影像專家閱片確定),顯示肝臟多發轉移瘤,最大者位于肝右葉。腹主動脈及分支明顯強化,脾臟呈"花斑樣"強化,腎臟皮髓質界限清晰,門靜脈強化,肝靜脈無強化。可能由于肝臟占位巨大導致圖像中血管結構顯示不清,模型將動脈晚期圖像的分類預測為“動脈早期”。a)肝頂部層面;b)肝臟上部層面;c)脾臟中部層面;d)腎臟上部層面;e)腎臟中部層面;f)肝右后葉下段層面。圖5 51歲女性患者,證實為結腸癌并多發肝轉移瘤。不同層面動脈晚期圖像(由兩位影像專家閱片確定)顯示肝內多發轉移灶,腹主動脈及分支明顯強化,脾臟呈“花斑樣”強化,腎臟皮髓質界限清晰,門靜脈強化,肝靜脈無強化。可能由于動脈晚期的門靜脈強化欠充分,模型將動脈晚期圖像的分類預測為“動脈早期”。 a)心臟層面;b)肝頂部層面;c)脾臟層面;d)肝右葉層面;e)腎臟層面;f)腎臟層面。

圖6 56歲女性患者,左側腎癌根治術后常規復查MRI。由兩位影像專家閱片確定圖a~f為不同層面的平掃圖像,顯示腹部臟器均無強化。可能由于平掃圖像質量欠佳,血流抑制效果不滿意,模型對平掃圖像的分類預測為“不確定”。a)心臟層面;b)肝頂部層面;c)脾臟中部層面;d)脾臟下部層面;e)腎臟中部層面;f)腎臟下部層面。
目前AI在腹部影像中的研究主要集中于多模態MRI及CT圖像的臟器和病灶的檢測、分割及分類,對實質臟器進行容積測量,對局灶性疾病進行良惡性鑒別、病理分級等,相關研究結果顯示AI在疾病診斷、預后評估等方面具有相當潛力[6-9]。本研究關注點不是影像診斷,而是利用AI技術識別不同期相的DCE-MRI圖像,模型預測的結果既可用于后續的AI診斷,又可用于圖像質控。
本研究采用的網絡結構為3D殘差網絡(residual network,ResNet),是當前用于圖像分類的深度卷積神經網絡(deep convolutional neural networks,DC-NN)的典型方法之一[10]。本次研究結果顯示,3D-ResNet AI模型在上腹部DCE-MRI圖像的掃描期相的甄別方面具有良好效能,在測試集中的預測符合率為99.0%(103/104),與其他圖像序列甄別的研究結果相似[11-14]。在模型分類準確性較高的情況下,可以將自動分類的數據用于后續的AI診斷模型。由于肝臟MRI診斷模型是基于增強掃描不同期相進行訓練的,只有輸入符合要求的圖像才能得到準確的診斷結果,因此對掃描期相的準確分類是診斷準確的有效保證。除了應用于AI診斷,本模型還有望應用于掃描的質控。由于實際工作中存在MR掃描儀型號多樣、參數設置不一致、少數患者配合欠佳等情況,因此日常工作中DCE-MRI圖像質量不佳的情況偶有發生。基于此,本研究入組了較多量的研究數據,來源于本單位較長時間段內的多臺MR掃描儀,結果證明AI分類模型可以應用于這些不同來源的圖像數據,模型以相同的標準評價動態增強掃描的期相,有望在科室范圍內承擔圖像質控的角色。
本研究是回顧性研究,納入了臨床實際工作中的圖像數據,時間跨度較大,設備多樣,所采取的掃描方案不同,對各臺設備的掃描方案不能強求一致。因此,我們根據肝臟病變MRI鑒別診斷的主要需求,強調分析肝臟DCE圖像時,必須具備以下各期相:1、平掃(蒙片);2、動脈早期;3、動脈晚期;4、門靜脈-延遲期,對門靜脈期和延遲期的區分沒有做特殊要求。本研究結果表明,深度學習模型對區分4個期相圖像的符合率是可以接受的。但是對門靜脈期和延遲期的識別也是有必要的。我們在實際工作中采用的期相識別方法是:先用深度學習模型對一個完整DCE序列中拆分出來的圖像數據做預測,將所有預測為“門靜脈-延遲期”的圖像挑選出來,再用程序對這幾個圖像排序。排序的依據是DICOM header中記錄的掃描時間,排序的規則是:在所有“門靜脈-延遲期”圖像中,先找出離動脈晚期最近的一個期相,認為是“門靜脈期”;在“門靜脈期”之后的期相按時間由早到晚認為是“延遲期1”、“延遲期2”、……。根據本研究組既往的研究結果(未包括在本文的內容中),將深度學習與規則相結合,區分門靜脈期和延遲期的準確性與專家根據圖像特征的判斷結果大致相似,基本可以滿足臨床診斷的需求。這種將深度學習與傳統信息化工具相結合的方法,既可以用于圖像識別[15],也可以用于流程優化[16],降低了模型訓練的難度,提高了信息技術在臨床應用中的可推廣性。
在本研究中,共有3例患者的單個DCE-MRI掃描期相未被正確識別,其中訓練集與調優集中分別有1組的動脈晚期圖像被錯誤地預測為動脈早期,結合相應錯判圖像分析,可能是由于肝臟內有體積較大的病灶對門靜脈強化信息造成了干擾,提示當掃描范圍上腹部臟器內具有嚴重影響圖像期相判別的疾病時,會對模型分類效能造成影響。另1組為測試集中平掃圖像被預測為不確定,可能是因為這個病例的平掃圖像中部分層面上下腔靜脈或腹主動脈由于流入增強效應而呈高信號,而其它血管為低信號,從而造成模型分類錯誤。分析這3個病例的圖像中期相被誤判的原因,可以找到模型進一步迭代的方向。未來應挑選肝臟明顯結構異常的病例增加到訓練集中,以彌補當前模型的不足。
本研究存在一定的局限性:(1)本研究是單中心研究,納入的掃描設備有限;(2)只對上腹部DCE-MRI圖像進行分類,尚未對其它如T2WI等常規序列進行分類,后續將進一步進行研發;(3)醫學影像診斷工作中AI模型可以用于圖像識別、病灶檢出、病灶分類、病灶分期和預測等[17]。本研究提出的深度學習模型只是上腹部MR增強掃描中AI應用的初步研究,未來在識別圖像特征的基礎上,應進一步分割圖像中重要結構[18],基于不同臨床情況做出整體評估和重點病灶評估[19],并給出必要的定性和定量診斷信息[20],此時才能達到臨床應用的需求。因此本研究提出的模型只是上腹部MR增強掃描AI診斷的第一步,后續還有很多研究工作需要完成。
總之,本研究中建立了一個AI分類模型用于區分上腹部DCE-MRI掃描期相,有利于工作流程的優化,為后續對接上腹部疾病AI診斷模型打下基礎。