胡君花,辛小燕,唐堂,于芷軒,胡安寧
南京大學醫學院附屬南京鼓樓醫院 醫學影像科,江蘇 南京 210008
胸部數字X 線攝影術(Digital Radiography,DR)設備,因其輻射劑量低,檢查費用低,成像速度快等特性,已逐步成為胸部疾病初步篩查最常見的檢查方式[1]。隨著人們醫療意識水平的提高,大家對影像數據質量的要求也相應提高。醫學影像的質量不僅關乎到臨床醫生對疾病診斷的準確率,同時也影響著就診患者的就醫體驗和對醫院的滿意度評價。而目前,DR 正位胸片質控標準由中華放射學會質控中心、各地方放射質控中心分別制定[2],質控標準化程度不高、質控標準參照不一;圖像的質量基本完全依靠人工判別,缺乏客觀性,不僅耗時耗力,且存在主觀評判差異[3]。
隨著數字化、智能化轉型的時代趨勢,DR 正位胸片的智能化質量控制顯得尤為重要。本研究主要針對醫療影像傳統質控管理的局限性,基于主流的神經網絡分割模型、分類模型,以及計算機視覺框架,構建一套基于深度學習[4-5]的DR 正位胸片質控管理系統,自動對影像數據進行質控,實現醫學影像質控的自動化、常態化和規范化。
回顧性研究已發布的ChestX-ray8 開源數據集及南京鼓樓醫院從2018—2021 年的胸部正位片(本研究中使用的所有數據均是脫敏處理后的純醫學影像),共約10 萬數據集,這份數據集簡稱NJCX8,數據集被隨機分成2 個部分:90%用來訓練,10%用來驗證。
基于人工智能深度學習理論,結合國內外各醫學影像科質控評分標準,參考《“上海市放射診斷質控標準”(修訂版)》、江蘇省質量控制中心文件及南京市影像質量控制中心文件,成立南京鼓樓醫院醫學影像科質量管理小組及質控五分制評分標準,小組成員共7 人,分別由工作5 年以上的技師及醫師共同構成。質控評分等級:滿分為5 分,若檢測出上面出現的情況,就加上相應的分數,直到這些標準全部都判斷完畢,得到最終的得分,便可以得出最終評片等級。一級片:5 分;二級片:4 ≤評分<5 ;三級片:3 ≤評分<4;廢片:<3。本研究中DR 胸部正位片質控扣分標準如表1 所示。

表1 DR胸部正位片質控扣分標準
在質控評分的異物方面,經過與質量管理小組的反復討論[6],本研究認為正位胸片中與異物相關的扣分項應當是肺野內的體外異物和肺野外可去除異物,理由包括:① 體內異物諸如心臟起搏器、心臟支架、中心靜脈導管等,由于此類異物無法移除,故不扣分;② 肺野外的體外異物諸如耳釘等,不影響影像診斷,但影響圖像美觀,故扣0.5 分;③ 肺野內的體外異物,如內衣鋼釘、項鏈等會對核心區域造成遮擋,影響診斷結果,故扣1.5 分。
在項目初期篩選了近1000 張圖像作為訓練集與測試集,對肺野、鎖骨、肩胛骨等目標區域輪廓進行了高精度的人工標注。標注工具基于Python 框架下的軟件labelmerc[7]。本文對傳統的labelmerc 軟件進行修改,使其可以特異性地完成正位胸片左右肺野、肩胛骨與鎖骨區域的多邊形描點標注,并將標注結果以json 格式保存。最后再使用Python 腳本進行批處理即可獲得各個區域的二值化(binary) mask 掩碼圖像,即對應區域為白色-灰度值為1,背景區域為黑色-灰度值為0(圖1)。

圖1 圖像標注工具(labelmerc)標注后生成的二值化圖像
傳統的語義分割框架包括OSTU 大津閾值分割算法[8],全卷積神經網絡[9](Fully Convolutional Network,FCN)框架等。而這些傳統框架無一例外地表現出邊緣精度低,噪聲穩定性差,訓練成本高,收斂速度低等問題[10]。本項目的語義分割基于U-Net 框架(圖2)。

圖2 U-Net神經網絡架構
U 型網絡結構(U-Net)[11]是基于全卷積神經網絡FCN 進行優化設計得到的分割模型。U-Net 包括兩個部分:特征提取(左側)和上采樣(右側)。
特征提取路徑又稱收縮路徑,在此路徑上每經過一個池化層(圖2 中為紅色箭頭)圖像長寬減半而特征通道數加倍。經過第一個池化層后,通道數由64 擴充至128,而特征圖尺寸減半后變為284×284。整個收縮路徑采用了裝配ReLU 激活函數和3×3 卷積核的卷積層與Max-Pooling 池化層的feed-foward 運算。收縮路徑的目的本質上是特征提取,每個3×3 的卷積核都記錄著某種“特征”,這些“特征”隨著網絡層數變得愈加抽象,最終經過上采樣將這些抽象的特征轉換為每個像素點上0 和1 的灰度值,1 代表肺野區域,0 代表肺野外區域。
上采樣路徑又稱擴展路徑,通過反卷積層實現上采樣,可以理解為上述收縮路徑的逆運算,即每經過一個上采樣層,特征圖通道數減半,特征圖尺寸加倍。U-Net采用了4 個長連接(灰色箭頭),將收縮路徑的特征圖與擴展路徑的特征圖裁剪拼接在一起。這些長連接最大程度地保留了輸入圖像攜帶的有效信息,有助于還原降采樣所帶來的信息損失。
U-Net 的損失函數即二元交叉熵[12]。訓練過程即為尋找交叉熵局部最小值的凸優化問題,當交叉熵趨于0 時,肺野區域預測結果與對應的訓練掩碼的灰度值在每個像素點上將完全相同。大量的研究表明,U-Net 即使在非常小的訓練集上也可以實現出色的精度。本研究最終使用的數據集為645 組胸片- 掩碼作為訓練集,50 組胸片-掩碼作為測試集。使用2 臺Tesla-V100 顯卡對3 個獨立的U-Net 分別進行訓練。訓練參數如下:輸入圖像:512×512,池化層移動步長:2,單批訓練樣本數:2,訓練次數:50。
神經網絡預測過程中有時會將周邊的深色區域誤以為是肺野區域,因而生成一些肺野區域外的白色噪點。類似地,在實際的肺野區域內偶爾也會存在黑色的噪點,仿佛肺野中存在“漏洞”。顯然,這兩類噪點都需要在后處理中進行移除。
移除這兩類噪聲的解決方法便是形態學運算。首先引入腐蝕和膨脹這兩個概念,腐蝕即通過腐蝕邊緣像素點讓圖像中目標區域(如肺野)“變瘦”;而膨脹即通過填充邊緣像素點使目標區域“變胖”。形態學中的兩類基本運算為開運算和閉運算。開運算即先腐蝕后膨脹的運算,其作用是:分離物體,消除小區域,那么通過開運算即可消除圖像中的白色噪點塊。閉運算則恰巧相反:先膨脹后腐蝕,通過閉運算可以消除目標區域內的黑色“空洞”從而使得連通域“閉合”。
后處理的步驟如下:對于肺野、肩胛骨、鎖骨區域分別使用14×14、9×9、3×3 的單位矩陣作為結構元素依次進行開、閉運算。
通過U-Net 可以獲得胸片中核心區域的連通域,這些信息可以幫助本研究計算聳肩度,體位偏移度以及肩胛骨/肺野重合面積比等核心質控參數。
(1)肺野區域完整性判定:通過U-Net 分割結合形態學后處理可以確定雙側肺野的具體位置,此時可在肺野區域掩碼圖中(圖1b)繪制一個距離圖像邊緣2.0~2.5 cm 的正方形邊框,若雙側肺野區域完全位于邊框之內則認為肺野區域完整,否則扣5 分。
(2)胸片L/R 識別碼標注:在正位胸片中常在人體左側或右側使用L 或R 字母進行標記,本軟件使用OCR 技術對規定標記的區域進行文字識別,如果雙側均無法識別到標識碼則扣1 分。
(3)體位偏移計算:記圖中左側鎖骨連通域為C1,右側鎖骨連通域為C2;記C1中點坐標的最大值為x1,記C2中點坐標的最小值為x2。則患者體位中心點為,記圖片中心點為xim,則體位偏移量為Δx=|xp-xim|。假設圖片尺寸為512×512,若Δx>50 則認為存在體位偏移,扣0.5 分。
(4)聳肩量計算:對圖中左、右側鎖骨分別求外接矩形,矩形對角線的水平夾角即為左、右側聳肩量。任意一側聳肩量大于30°,則認為存在聳肩,扣0.5 分。
(5)肩胛骨/肺野重合面積占比計算:首先計算左右肩胛骨和肺野各自的連通域,記左側肩胛骨面積為S1,右側肩胛骨面積為S2,記左側肩胛骨與肺野重合面積為U1,右側肩胛骨與肺野重合面積為U2,則左側重合比為O1=U1/S1,右側重合比為O2=U2/S2。若O1、O2任意一者大于1/3,則認為肩胛骨在肺野內,扣0.5 分;否則不扣分。
(6)胸片對比度:胸片對比度也是質控中的重要評分依據,對比度過高/過低時往往由于曝光過度/曝光不足,機器故障或技師操作失誤導致。對比度的計算方式不唯一,主流的算法[13]有兩種:① 記圖像中最大灰度值為Imax,最小灰度值為Imin,對比度=(Imax-Imin)/(Imax+Imin),這樣計算的灰度值將介于0~1 ;② 對比度=。
對于異物的判斷,選擇二分類器。經過測試,相對較新也較復雜的Inception-V4 架構[14]不僅訓練速度慢,而且存在嚴重的梯度消失問題,導致損失函數收斂極慢甚至完全不收斂而是反復震蕩,最終精度甚至不及50%。因此本文采用了結構較為簡單的視覺幾何群網絡(Visual Geometry Group Network,VGG)16 架構作為二分類器(圖3)。

圖3 VGG16架構圖
VGG16[15]架構由16 個參數層組成,其中13 個為卷積層,3 個為全連接層。每個卷積層與U-Net 相似,使用3×3 的卷積核以及ReLU 激活函數。此外VGG16中共有5 個池化層,同樣地采用最大值池化,即Max-Pooling 方式。傳統的VGG16 針對多分類任務設計,故而采用了softmax 損失函數,而對于二分類任務,本研究采用二值交叉熵。
在臨床操作中,技師成功采集患者圖像后,人工智能DR 質控管理系統對圖像進行自動檢測,根據醫學影像質控標準進行前端質控,在技師預覽圖像的操作界面,顯示質控評分及扣分細則,技師根據反饋的質控結果進行攝片的選取或調整。
定期從人工智能質控系統中抽取一定數量DR 攝片的質控數據,對該段時間內攝片質量進行評估和總結,提升放射質控的管理效率和整體水平。
隨機從測試模型中集中抽取300 張圖像,由人工智能質控系統和質量管理小組進行質控評分,分別記錄攝片范圍、標識、檢查體位、異物、技術參數等質控數據,以質量管理小組的評分結果為金標準,評估人工智能質控系統與質量管理小組在質控各方面的一致性,并根據測試結果對人工智能質控系統進行參數調整。
質控分數屬于偏態分布,由于檢測樣本n>30,根據中心極限定理,可以假定服從正態分布,兩樣本以±s表示,組間對比采用t檢驗,并通過Kappa 一致性檢驗,檢驗人工智能質控系統與質量管理小組的一致性,本研究所有的統計學分析均使用SPSS 22.0 統計學軟件,以P<0.05 表示差異有統計學意義。
圖像分割測試結果如圖4 所示,逐點測試精讀為:肺野96.73%,肩胛骨98.02%, 鎖骨98.71%。U-Net 的預測結果與手動標注的區域相似度極高。U-Net 甚至展示出一些手動標注無法精準實現的局部細節,例如圖4g中左鎖骨的內測輪廓。在圖像分類模型二分類訓練、對異物的識別能力中,詳細的訓練參數如下:輸入圖像尺寸:1024×1024,單批訓練樣本數:4,訓練次數:100,學習速率:1×10-6,最終測試精度為87.58%。

圖4 U-Net測試結果
在前端質控中,圖像經過傳輸后可以立即出現質控分數;后端質控中,系統可以對大量胸片進行批量質控,并可生成詳細的表格。
在測試的300 張胸片質控中,最終質量管理小組與人工智能質控系統兩組質控分析結果為:質量管理小組:一級片232 份,二級片62 份,三級片6 份,廢片 0 份,人工智能質控系統:一級片228 份,二級片67 份,三級片5 份,廢片 0 份,不同得分人數用柱狀圖表示,結果如圖5 所示。

圖5 人工智能質控系統與質量管理小組質控測試結果
配對樣本t檢驗結果:質量管理小組:4.862±0.292,人工智能質控系統:4.853±0.295;t=0.008,P=0.132,認為質量管理小組與人工智能質控系統差異無統計學意義;兩組得分交叉表(表2),采用Kappa 一致性分析,本實驗兩組測試結果Kappa=0.901,P<0.001,說明質量管理小組與人工智能質控系統在質控DR 胸片時具有較好的一致性。

表2 人工智能質控系統與質量管理小組交叉表
人工智能目前在醫學影像方面已普及,計算機智能輔助診斷等方面[16-17]更是廣泛應用于醫學影像的各個領域,如異物的檢查、疾病成像的提取以及輔助診斷等。智能影像質控系統[18-19]發展更是近年來的熱點,如李坤成[20]就加強人工智能深入學習在醫學影像學臨床應用領域的研究中提出,人工智能產品的研發必須針對臨床和影像學醫師的痛點和難點問題,而且首先需要由醫院提供數據,產品也要在臨床使用過程中不斷改進。賈曉茜等[21]就卷積神經網絡在輔助胸部數字X 線圖像質量控制工作的應用價值的研究表明,卷積神經網絡可滿足影像質量控制工作達到最低標準的要求,但要進行高級別圖像質量評分和考核等管理工作,還需更大的數據集和更加細致的特征標記。肖艷等[22]就國內放射質量控制管理現狀進行總結與分析及對放射質控未來發展趨勢進行探討的研究表明,建立統一標準化的放射質量控制標準是質控全面管理工作的基礎,智能化的放射質控將成為提高質控效率、提升質控質量的主要手段。本研究主要將人工智能與胸部X 線質控結合,并優化了質控評分系統,通過輔助系統的自檢和數據匯總,簡化質控的流程,優化質控的質量,將醫學影像帶入數字化和智能化方向。
DR 質控所需工作量龐大,目前國內醫學影像質控缺乏完整統一的質控標準,人工智能的自動化質控則可以完成這項繁瑣的工作,并且做到對每個DR 片進行客觀準確的質控。本項目通過U-Net 框架,VGG16 架構完成對DR 正位胸片的語義分析,結合制定的質控五分制評分標準,研究出一套完全自動化的正位DR 胸片智能質控系統。該系統存在以下優勢:① 該系統可以高效、精確地評估胸片質控參數,結果顯示人工智能質控系統與質量管理小組質控的結果具有很強的一致性,大大降低了質控小組成員們的評片時間成本,減輕質控管理小組的人員壓力,使衛生資源能夠被更好地合理利用;② 人工智能質控系統評分更具有客觀性,避免了主觀偏差;③ 通過前端質控,技師可及時對攝片作出調整,降低了廢片及低分片的出現,提高技師的攝片水平;集中質控統計結果圖一目了然,可以幫技師提出針對性的改進意見,并制定獎懲制度,便于科室管理。
同時,該系統存在一定局限性:① 異物識別精度有待進一步提高,提出在后續的研究中持續性地收集更多的數據樣本,使分類模型可以更好地學習正位胸片的各種情況,更進一步地提高模型的準確性,隨著模型的深度學習和更新可以讓人工智能質控系統更加完善;② 本研究數據僅來自南京鼓樓醫院醫學影像科,而攝片水平和質控水平在不同級別醫院和地區差異很大,因此,在后續研究中,希望加入多中心、大樣本的數據。