孫兆男, 崔應譜, 劉想, 張曉東, 王霄英, 劉偉鵬, 王祥鵬, 黃嘉豪

表1 腹盆部器官各期增強掃描的延遲時間 (s)
在傳統影像診斷模式中,某些疾病的診斷需基于特定期相或序列,如脂肪肝的CT診斷需測量平掃圖像的肝實質密度,腎結石檢出在平掃圖像上較敏感,懷疑肝細胞肝癌需關注動脈期及門脈期的強化方式等。因此獲取合格的圖像是進一步完成影像診斷任務的前提,掃描期相不準確和掃描范圍不足等圖像質量問題有可能影響疾病的診斷,是醫學影像質控的關注點之一。
人工智能(artificial intelligence,AI)是一種模仿人類思維方式的技術,在訓練AI模型時,研究者通常基于傳統影像診斷經驗,針對不同任務收集特定掃描時相及掃描范圍的圖像[1-2]。由于真實臨床工作中機型多樣、命名規則冗雜和掃描方案差異等因素,缺乏有效的整理方法,即特定AI任務相關的患者隊列選擇,這是AI模型的主要瓶頸之一。AI輔助診斷軟件在實驗階段效能很好,但臨床驗證過程中,發現許多模型預測錯誤的病例是由于圖像質量不合格導致的[3],而提升圖像質量會明顯提高模型效能。因此,亟需高效的方法篩選出滿足臨床應用場景的圖像,去除無關的冗余圖像。無論是醫生承擔的傳統影像診斷任務還是基于AI模型的輔助診斷,其共性需求是提供合格的圖像[2]。本研究目的是研發腹盆部CT圖像掃描期相及范圍AI分類模型,并利用對模型進行臨床驗證,探索其植入臨床實踐流程的可靠性。
本研究獲得了倫理審查委員會的批準(2017-1382),按照本單位AI模型訓練規范執行研究方案。
1.用例定義
根據本單位AI訓練管理方法,首先定義研發腹盆部CT圖像范圍分類模型的用戶樣例(use case),內容主要包括腹盆部CT圖像性質分類AI模型的ID、臨床問題、場景描述、模型在實際工作中的調用流程及模型輸入輸出數據結構等。AI模型返回結果的定義:圖像范圍模型返回結果為“腹部”或“盆部”或“腹盆部”;掃描期相模型的返回結果為“平掃”或“動脈期”或“門靜脈期”或“延遲期”或“排泄期”。
2.研究隊列的建立
本研究圖像來源于本院放射科4臺CT掃描儀:Siemens Somotom Definition Flash CT,GE Lightspeed VCT,Philips Brilliance 256 iCT和GE Disco-very CT750HD。腹盆部CT增強掃描各期相延遲時間的確定采用自動跟蹤觸發和固定時間兩種模式。使用自動觸發掃描模式時,觸發點設置在第12胸椎椎體水平的腹主動脈內,觸發閾值為100 HU;固定時間掃描模式中,不同目標臟器的增強掃描方案均按臨床規范執行,詳見表1。其它掃描參數:120 kV,自動毫安秒,螺距0.600~0.984,采集層厚5.0 mm,重建層厚1.0 mm,矩陣512×512,對比劑為碘佛醇(350 mg I/mL),注射流率4.0~5.0 mL/s,注射劑量為0.5 gI/kg或采用固定值90 mL,隨后注射20 mL生理鹽水沖管。
研究數據的分組情況詳見圖1。模型訓練數據集(數據集A)為回顧性搜集2019年10月14日-2019年10月18日本院PACS中連續416例行腹盆部CT平掃及增強檢查患者的所有圖像。臨床驗證數據集(數據集B)為2020年1月1日-1月3日本院連續268例患者的腹盆部CT平掃及增強檢查圖像。
按照臨床實踐規則,將圖像范圍分為三個類別,三個類別的定義如下。腹部:從膈面到髂嵴,肝臟可見,膀胱未見;盆部:從髂嵴到盆底,膀胱可見,肝臟未見;腹盆部:從膈面到盆底,肝臟、膀胱均可見。
不同目標臟器的檢查方案略有差異,按照定義規則將掃描期相分為5個。平掃:任何器官均不含對比劑;動脈期:腹主動脈、肝動脈明顯強化,脾臟呈“花斑樣”強化,腎臟皮髓質界限清晰,門靜脈可有對比劑,肝靜脈沒有對比劑;門靜脈期:門靜脈、肝靜脈可見對比劑充盈,腎臟皮髓質界限不清晰,脾臟均勻強化無“花斑樣”;延遲期:主動脈無明顯強化,腎實質均勻高密度,腎盂有少量對比劑,輸尿管可有對比劑,膀胱內小于1/3對比劑,肝脈管結構模糊;排泄期:集合系統可見對比劑充盈,膀胱內對比劑大于2/3其余器官未見對比劑。

圖1 研究隊列的數據分組情況。
3.數據處理
將訓練數據圖像導入數據管理平臺,將DICOM格式轉換為NIFTI格式,按照圖像大小將1.4M以下圖像排除,以去除定位像、跟蹤觸發圖像和重組圖像等無效圖像。
4.模型訓練
訓練腹盆部CT掃描范圍及期相分類模型時,將416例數據隨機分為訓練集(train set,)332例、調優集(validation set)42例和測試集(test set)42例。輸入圖像的窗設置為窗寬300 HU、窗位30 HU,圖像大小為96×128×128,輸出數據為對模型分類的預測結果。圖像擴增方法包括±10°以內的水平及垂直旋轉,上下、左右隨機平移的最大幅度為圖像大小的10%和體素值上下浮動萬分之一的隨機噪聲(0.0001)。訓練3D-ResNet深度學習模型時,硬件為GPU NVIDIA Tesla P100 16G,軟件包括Python3.6、Pytorch 0.4.1、Opencv、Numpy和Simple-ITK[4]。使用Adam作為訓練優化器。模型訓練時批尺寸(batch size)設定為40,學習率(learning rate)為0.001,訓練迭代次數設置為300個周期(epoch)。
5.模型的臨床驗證
臨床驗證數據集(數據集B)為268例患者的657個序列的腹盆部CT圖像。模型自動預測得到分類結果,以兩位影像醫師的分類結果為金標準,使用混淆矩陣進行模型分類結果與真實值的比較。
1.掃描范圍分類模型在數據集B中的預測結果
以掃描序列為單位統計,表2為掃描范圍分類模型在數據集B中的預測結果。分類模型在腹部、腹盆部和盆部的符合率分別為95.7%(243/254)、98.4%(362/368)和94.3%(33/35)。分類正確的638個序列均是執行標準掃描規范的圖像,19個序列的分類結果為未知類別,均是由于掃描范圍不足或過多所導致,具體情況:6個腹盆部序列的圖像由于掃描范圍下限不足,未包全膀胱及恥骨聯合;2個盆部序列的圖像為同一患者的薄層及厚層圖像,由于掃描范圍整體上移,未包全膀胱及恥骨聯合;11個腹部序列的圖像由于掃描范圍過大,掃描范圍內包括了部分盆腔(圖2)。
2.掃描期相分類模型在數據集B中的預測結果
掃描期相分類模型在數據集B的腹部圖像中的預測結果見表3。掃描期相分類模型在平掃、動脈期、門靜脈期的符合率分別為100.0%(77/77)、97.6%(82/84)和100.0%(11/11),腹部圖像中無延遲期和排泄期圖像。對172個腹部掃描序列的圖像進行分析,170個序列分類正確,2個序列將動脈期誤判為門靜脈期,此2個序列為同一例患者的動脈期薄層及厚層圖像,模型均預測錯誤。
掃描期相分類模型在數據集B的腹盆部圖像中的預測結果見表4。掃描期相分類模型在平掃、動脈期、門靜脈期、延遲期和排泄期的符合率分別為96.6%(144/149)、100.0%(9/9)、100.0%(106/106)、66.7%(44/66)和100.0%(32/32)。對362個腹盆部掃描序列進行分析,333個序列分類正確,模型對平掃序列的分類效能較好。誤判情況分析:僅4個平掃序列誤判為排泄期,其中2個序列為腹主動脈及分支彌漫粥樣硬化,1個序列是在前者基礎上合并腹部術后金屬偽影,另外1例為標準的平掃圖像;1個平掃序列被誤判為動脈期,分析原因為腹主動脈及分支彌漫粥樣硬化及腹部術后金屬偽影。模型對延遲期圖像的分類效能欠佳,僅44個序列分類正確,誤判情況分析:1個序列被誤判為排泄期,分析發現圖像采集時間稍晚于標準延遲期,膀胱內可見小于1/3對比劑;21個序列的圖像被誤判為門靜脈期,其中11個圖像采集稍早于標準延遲期,另10個序列為標準延遲期,模型分類錯誤。

圖2 數據集B中模型預測結果為未知類別的三種情況。a)正常腹盆部掃描范圍;b)測試集中腹盆部圖像(層厚5mm)的掃描范圍下限不足,未包全膀胱及恥骨聯合;c)正常腹部掃描范圍;d)測試集中腹部圖像的掃描范圍過大,包括了部分盆腔;e)正常盆部掃描范圍;f)測試集中盆部圖像(層厚5mm)的掃描范圍整體上移,未包全膀胱及恥骨聯合。

表3 掃描期相分類模型在數據集B腹部圖像中的預測結果

表4 掃描期相分類模型在數據集B的腹盆部圖像中的預測結果
掃描期相分類模型在數據集B的盆部圖像中的預測結果見表5。掃描期相分類模型在平掃、門靜脈期、延遲期和排泄期的符合率分別為100.0%(13/13)、70.0%(7/10)、88.9%(8/9)和100.0%(1/1),盆部圖像中無動脈期圖像。對33個盆部序列的圖像進行分析,29個序列分類正確,3個門靜脈序列被誤判為延遲期,1個延遲期序列被誤判為門靜脈期。

表5 掃描期相分類模型在數據集B的盆部圖像中的混淆矩陣
利用AI提升醫學影像服務全流程的安全、質量和效率是其臨床應用的方向。目前已有很多研究報告了深度學習和影像組學工具在病灶分割[5]、疾病分類[6]和預后預測[7]中發揮了較好的作用,而且在臨床工作中可將多個診斷模型組成AI診斷系統植入到影像報告流程中[8],提升診斷任務的工作效率,并提升診斷診斷率。本研究不是從影像診斷角度利用AI工具,而是探索了AI對圖像質量的應用可能性,目的是提高AI診斷模型輸入數據的質量,以保證AI診斷模型的達到較高效能。
腹盆部CT由于檢查費用低、成像速度快和密度分辨率高等優勢,在我國各級醫院廣泛開展,在影像科整體工作量中占比較高。數據是人工智能的最核心和最關鍵的組成部分,CT檢查數據量是相當可觀的,有效分類管理這些數據是當前需要解決的問題。本研究基于深度學習方法建模,對腹盆部CT圖像做出掃描范圍與期相的分類,臨床驗證結果顯示,模型對分類任務的準確性可基本達到臨床需求。這與近期研究結論相似[9],該研究表明不同的網絡結構對于CT期相多分類任務均表現出較好的分類效能。利用深度學習自動分類前列腺MR圖像序列研究亦有相似的結論[10]。本研究中對于掃描規范合格的圖像,掃描范圍分類模型效能很好,而對于掃描范圍過多或不足的圖像,模型會分為未知類別,以將非標準范圍的圖像篩選出來。綜合分析掃描期相分類模型,腹盆部圖像的門靜脈期和延遲期兩類的分類效果欠佳,分析原因為個體循環差異、掃描時間差異等原因,導致圖像本身特征差異不明顯,其余期相分類效能較好。
臨床中執行規范的腹盆部CT掃描協議,理論上所產生的圖像應該是符合規范的,可以通過RIS中既定篩選條件及PACS中的DICOM Tag收集目標圖像。但實際工作中,由于命名規則不統一、機器型號不同、特殊病例的個性化掃描等潛在原因,存在真實圖像與掃描規范要求匹配不一致情況。臨床工作或科學研究時涉及圖像收集的任務時,往往先通過既定條件從RIS中篩選目標檢查項目,再通過醫生閱圖分類,使圖像分類整理任務繁瑣。腹盆部CT圖像性質自動分類模型可輔助解決上述問題,簡捷、高效地完成腹盆部目標圖像的篩選任務,并且可服務于后續其他AI診斷模型,保證輸入合格圖像,不合格的圖像則無法進入AI模型,而由醫師診斷,以得到真實可靠的預測值。
在臨床實際工作中,由于掃描技師個人失誤、患者配合欠佳等特殊情況,使得掃描范圍不合規范或掃描期相采集不準確,往往是診斷醫生發現圖像質量不合格后,反饋給技師和患者進行補掃或加掃圖像,整個溝通時間長且容易產生醫療糾紛。未來腹盆部CT圖像性質自動分類模型可植入臨床工作流程中,在掃描完成時立即判斷圖像質量是否合格,如果不合格,可通過AI模型修正或提升圖像質量[11],也可通過信息系統實時反饋給技師,實現快速溝通,以便采取相應措施補救,降低甚至規避臨床風險[12]。
本研究存在一定局限性。腹盆部CT圖像性質多分類模型在實際應用中配合其他數據預篩方法共同完任務,并不是單獨承擔所有數據處理工作。首先是對于一項檢查所產生的所有圖像數據進行預篩。一項檢查會產生部分對圖像診斷無效圖像數據,比如去除定位像、跟蹤觸發圖像和重組圖像等,經統計,這些圖像在NIFTY格式下文件大小通常小于1.4M,當前臨床數據首先通過圖像大小濾過小于1.4M的無效數據,再輸入模型,臨床驗證時發現此方法不能完全達到目的,存在極少數大于1.4M的無效數據沒有被過濾,輸入模型后導致模型診斷效能受一定影響,未來可疊加其他方式做圖像預篩,是后續研究內容之一。
腹盆部CT圖像性質自動分類只是圖像質控方面的一個小分支,未來從患者登記、掃描、判斷最佳掃描方案、掃描參數設定、圖像質控、圖像診斷、結構化報告等各個環節都有可能通過AI輔助全流程[14]。在這個過程中,AI不僅可用于分析圖像,而且分析文本信息,結合多種信息做出輔助決策,從而實質性地改變醫學影像工作流程[15-16]。
綜上,以3D-ResNet為基礎架構的多分類模型效能是臨床可接受的,模型植入臨床工作流程可行,未來應進一步推廣臨床驗證。