孟祥虹,吳迪嘉,馬信龍,劉愛娥
(1.天津市天津醫院放射科,天津 300211;2.上海聯影智能醫療科技有限公司,上海 201210;3.天津市天津醫院骨科,天津 300211)
肋骨骨折是最常見的胸部損傷之一,在鈍性胸部損傷患者中,40%~50%的人群患有肋骨骨折[1-2]。CT是診斷肋骨骨折的最佳檢查方法[3],但肋骨數量多、走行彎曲、變異大、行CT 檢查時還可能因呼吸偽影較重而導致圖像模糊,難以明確診斷[4],一旦漏診或誤診骨折則可能導致醫患糾紛,甚至延誤患者治療。人工智能是指利用計算機自動處理、分析、模擬人類智能行為的科學技術,其中的深度卷積神經網絡(deep convolutional neural network,DCNN)算法常用于圖像識別和分類[5],在醫學影像領域應用廣泛。目前國內外學者對人工智能輔助肋骨骨折CT 診斷的研究較少[6-7]。本研究擬應用DCNN 模型在胸部CT 圖像上對肋骨骨折進行定位和診斷,輔助醫師提高診斷準確性,縮短閱片時間,提高工作效率。
1.1 研究對象 本研究為回顧性研究,經院倫理委員會批準,項目批準號為“2020 醫倫審048”。于2015 年1 月—2019 年8 月,搜集全國5 家醫院,包括中國醫科大學附屬盛京醫院、中國醫科大學附屬第一醫院、北京中日友好醫院、哈爾濱醫科大學附屬第一醫院、河北醫科大學第三醫院的胸部CT 圖像作為訓練集和驗證集,納入2019 年11 月—2020年3 月天津醫院的胸部CT 圖像作為測試集。納入標準:(1)因胸部外傷于門、急診就診的初診患者。(2)CT 圖像包括兩側所有肋骨,檢查完成后可收集患者的DICOM 格式圖像。(3)所有訓練集、驗證集和測試集CT 圖像層厚均為0.625 mm。(4)18 歲以上成年人。排除標準:(1)肋骨骨折復查患者。(2)患者因屏氣不佳等造成圖像偽影過重、質量較差不能達到診斷要求者。(3)存在病理性肋骨骨折者。
本研究共納入胸部CT 圖像2 619 例,排除肋骨骨折保守或手術治療后復查患者428 例,呼吸偽影較重、圖像質量不佳患者134 例,病理性肋骨骨折患者57 例,最終納入2 000 例胸部CT 圖像。將數據集以4 ∶1分為訓練集和驗證集,其中,訓練集共1 600 例(年齡18~91 歲,男837 例,女763 例),用以建立DCNN 訓練模型;驗證集共400 例(年齡18~89 歲,男204 例,女196 例),用以調整超參數,確定適用于該模型的最佳參數;納入天津醫院胸部CT圖像300 例(年齡18~94 歲,男181 例,女119 例)作為測試集,用以評價該模型診斷的準確性。
1.2 掃描參數 全部訓練集、驗證集和測試集的胸部CT 檢查掃描參數為:管電壓120 kv,管電流200~300 mA,根據患者體重自動調節,CT 掃描設備包括GE(Revolution CT 和CT750,GEHealthcare,WI,USA)和西門子公司(Sensation 和Definition AS,Siemens Medical Solutions,Erlangen,Germany)的4 種機器。掃描范圍從第1 肋骨上方2 cm至第2 腰椎水平,定位像包括左右兩側所有肋骨,應用高分辨薄層骨算法進行掃描,得到橫斷位胸部CT 圖像,層厚為0.625 mm。掃描完成后,拷貝DICOM 格式圖像。
1.3 參考標準(Ground Truth)的制定 每個患者的胸部CT 圖像由2 名經驗豐富的影像診斷醫師(從事骨肌系統影像診斷工作10 年以上)在胸部CT 薄層骨窗圖像上逐層標注,用于模型訓練和驗證的金標準數據集,由另外2 名高年資主任醫師(從事骨肌系統影像診斷工作20 年以上)進行最終標注結果的確認。標注工具使用ITK-SNAP 軟件(https://itk.org)中的矩形bounding box 工具勾畫骨折部位,大小為0.7~1.2 cm2。在自己編寫的軟件上,三維立體標注12 塊胸椎椎體的中心點[x1,y1,z1;x2,y2,z2···x12,y12,z12],矩形框框出n 個骨折位置返回中心點坐標和長寬高[x1,y1,z1,width1,height1,depth1;···xn,yn,zn,widthn,heightn,depthn]。
1.4 DCNN 模型構成
1.4.1 檢測肋骨骨折的工作流程 在將CT 圖像數據導入模型之前,對數據進行預處理,即對像素值歸一化,并通過水平翻轉、逆時針和順時針旋轉15°、裁剪等方式對數據量進行擴展。本研究的DCNN 模型由3 個三維網絡構成,分別為分割網絡、關鍵點檢測網絡、骨折檢測網絡,課題組應用殘差網絡模塊(R-模塊)和瓶頸層殘差網絡模塊(B-模塊)對傳統V-Net 網絡模型進行改造,提高肋骨骨折的定位和檢測準確性,工作流程見圖1。

圖1 檢測肋骨骨折的工作流程Fig 1 Workflow of rib fracture detection
工作流程主要包括3 個步驟:第一步:使用改良的V-Net 分割網絡模型[8]從胸部CT 圖像中分割出24 根肋骨,通過Dice 指數判斷分割效果。
第二步:使用VRB-Net 關鍵點檢測網絡[9]檢測12 塊胸椎椎體中心點,分別獲得12 個關鍵點的三維空間位置,即[T01,T02,T03,T04,T05,T06,T07,T08,T09,T10,T11,T12]。通過膨脹算法擴大關鍵點為關鍵區域,判斷模型輸出結果是否在關鍵區域。結合第一步的掩膜標記24 根肋骨,左、右側肋骨從上到下依次標記為1~12 肋。
第三步:框出肋骨的骨折位置,并結合第二步結果提示骨折部位。通過模型輸出框與金標準的重疊區域,即Dice 指數是否大于0.8 判斷骨折位置是否檢出,若重疊區域超過80%則輸出為骨折。
1.4.2 肋骨骨折DCNN 模型 肋骨骨折檢測的DCNN 模型如圖2。Threshold Relu 模塊計算公式:

圖2 肋骨骨折檢測的DCNN 結構Fig 2 DCNN structures of rib fracture detection

1.4.3 模型測試 為測試模型對肋骨骨折診斷的準確性和泛化性,本研究應用訓練和驗證集以外的胸部CT 圖像進行測試。測試集診斷肋骨骨折的金標準為一名副主任醫師和一名主任醫師(分別從事骨肌系統影像診斷工作10 年和31 年)對用于測試的300 例胸部CT 圖像進行診斷,經協商一致后達成最終診斷意見。兩名低年資診斷醫師(從事骨肌系統影像診斷工作不足5 年,對金標準診斷結果不知情)和DCNN 模型同時對測試集圖像進行診斷,由其中1 名低年資診斷醫師在DCNN 模型的輔助下進行再次診斷,分別記錄診斷用時。
1.5 統計學處理 應用SPSS 25.0 軟件(第25.0 版;SPSS Inc.;Chicago,IL,USA)進行統計學分析。符合正態分布的計量資料以±s 表示,取兩位低年資醫師診斷用時的平均值,應用單因素方差分析和LSD 檢驗比較低年資醫師、DCNN 模型和在DCNN 模型輔助下的低年資醫師診斷用時有無差別。計數資料以例(%)表示。取兩名低年資醫師的平均值,應用卡方分割檢驗比較低年資醫師、DCNN 模型和在DCNN模型輔助下的低年資醫師診斷的精確率和召回率有無差別。因為無肋骨骨折部位的數量眾多而不能統計,所以難以得到DCNN 模型診斷的真陰性率。因此,本研究分別統計兩名低年資醫師、在DCNN 模型輔助下的低年資醫師和DCNN 模型診斷肋骨骨折的精確率、召回率、F1-score。其中,精確率=真陽性/(真陽性+假陽性),召回率=真陽性/(真陽性+假陰性),F1-score=2×精確率×召回率/(精確率+召回率)。應用Matlab R2017b 軟件進行數據處理并繪制精確率—召回率曲線(precision recall curve,PRC)。統計測試集中假陽性和假陰性病例的數量。P<0.05 為差異有統計學意義。
2.1 肋骨骨折診斷的精確率、召回率、F1-score 和假陽性、假陰性病例數量 在300 例測試集胸部CT圖像中,共發現797 處肋骨骨折,DCNN 模型有22 例假陽性病例和62 例假陰性病例。兩位低年資醫師及二者的平均值、DCNN 模型和在DCNN 模型輔助下的低年資醫師診斷肋骨骨折的精確率、召回率和F1-score 見表1。醫師診斷肋骨骨折的精確率低于DCNN 模型(P=0.007),在DCNN 模型輔助下,低年資醫師診斷的精確率有所增加,但無統計學差別(P=0.049),DCNN 模型和在DCNN 模型輔助下低年資醫師診斷的精確率無明顯差別(P=0.474)。低年資醫師診斷肋骨骨折的召回率低于DCNN 模型(P<0.001),在DCNN 模型輔助下醫師診斷的召回率明顯升高(P<0.001),DCNN 模型和在DCNN 模型輔助下醫師診斷的召回率無明顯差別(P=0.199),PRC曲線見圖3。低年資醫師診斷肋骨骨折的F1-score較DCNN 模型低,而在DCNN 模型的輔助下,醫師診斷骨折的F1-score 與DCNN 模型相同(圖4)。

圖3 低年資醫師、DCNN 模型和在DCNN 模型輔助下低年資醫師診斷肋骨骨折的精確率-召回率曲線Fig 3 Accuracy-recall curve of the diagnosis of rib fractures by junior doctors,DCNN model,and junior doctors assisted by DCNN model

圖4 DCNN 模型在橫斷位胸部CT 薄層骨窗圖像上自動診斷肋骨骨折Fig 4 DCNN model for automatic diagnosis of rib fractures on transverse chest thin-layer CT of bone window images

表1 兩位低年資醫師、DCNN 模型和在DCNN 模型輔助下的低年資醫師診斷肋骨骨折的精確率、召回率、F1-score 和比較結果Tab 1 The comparison of the accuracy rate,the recall rate and the F1-score of rib fractures among two junior doctors,the DCNN model and the junior doctor assisted by the DCNN model
2.2 低年資醫師和DCNN 模型肋骨骨折的診斷用時 在診斷用時方面,第1 位低年資醫師診斷肋骨骨折的時間為(159.6±35.2)s(93~226 s),第2 位低年資醫師診斷時間為(150.3±30.1)s(105~203 s),平均時間為(155.0±31.9)s(105.5~214.5 s),DCNN 模型診斷肋骨骨折的時間為(4.8±1.4)s(3~7 s),在DCNN輔助下低年資醫師診斷時間為(40.6±7.0)s(25~56 s)。低年資診斷醫師、DCNN 模型和在DCNN 模型輔助下的低年資醫師三者間診斷用時有明顯差別(F=328.1,P<0.001),DCNN 模型較低年資醫師診斷時間明顯縮短,模型幾乎可以在打開胸部CT 圖像的同時對有無肋骨骨折予以診斷,而低年資醫師在DCNN 模型輔助診斷下可明顯縮短診斷時間,提高診斷效率。
2.3 假陰性及假陽性分析 本研究所構建的DCNN 模型診斷肋骨骨折尚存在一部分假陽性和假陰性病例,在對300 例測試集進行骨折診斷時,DCNN模型有22 例假陽性病例(即誤診病例)和62 例假陰性病例(即漏診病例)。課題組對誤診病例圖像分析發現,DCNN 模型存在將血管溝(n=9)、骨島(n=6)、骨纖維異常增殖癥(n=3)和其他肋骨變異或骨質密度不均(n=4)誤認為骨折的情況(圖5)。而在對漏診病例圖像分析發現,DCNN 模型對無明顯移位的肋骨骨折(n=28)、骨皮質輕度角折而致的肋骨不全骨折(n=19)和愈合中及陳舊骨折(n=15)存在漏診(圖6)。

圖5 DCNN 模型診斷肋骨骨折假陽性病例Fig 5 False positive cases of rib fractures diagnosed by DCNN model

圖6 DCNN 模型診斷肋骨骨折假陰性病例Fig 6 False negative cases of rib fractures diagnosed by DCNN model
本研究采用多中心胸部CT 數據對DCNN 模型診斷肋骨骨折進行訓練、驗證和測試,提高了模型診斷的泛化性和魯棒性,減少了過擬合的可能。結果表明,DCNN 模型診斷肋骨骨折的精確率、召回率和F1-score 均高于低年資醫師,而低年資醫師在DCNN 模型輔助下可顯著提高診斷的召回率,并在一定程度上提高精確率,即明顯減少漏診率,一定程度上減低誤診率。而在診斷用時方面,DCNN 模型診斷肋骨骨折僅需4 s 左右,在打開CT 圖像的同時即可診斷,而低年資醫師的診斷用時在3 min 左右,如遇多發骨折的病例則用時更長,DCNN 模型可幫助醫師明顯縮短診斷時間,40 s 左右即可完成診斷。
在CT 圖像上應用DCNN 診斷肋骨骨折方面,Zhou 等[6]應用Faster R-CNN 和YOLOv3 兩種算法分別對來自3 家醫院共1 079 個病例進行模型訓練和驗證,并應用來自5 家醫院、不同層厚和像素的173 例患者胸部CT 和30 名正常人圖像作為測試集對肋骨骨折進行診斷,并按照新鮮骨折、愈合中的骨折和陳舊骨折對骨折進行分類。結果表明,Faster R-CNN 模型診斷各種類型肋骨骨折的敏感性和精確率均較高,假陽性率低,診斷用時僅為23 s 左右。醫師在模型輔助下可顯著提高骨折診斷的敏感性、精確率、縮短診斷時間。Jin 等[7]應用FracNet 算法對肋骨骨折進行診斷和分割,發現此算法診斷肋骨骨折的敏感性高達92.9%,平均假陽性率為5.27 個/每次胸部CT 檢查,圖像分割的Dice 指數為71.5%,診斷用時約為31 s,遠低于影像醫師診斷時間。在此算法的協助下,影像專家診斷肋骨骨折的準確率明顯增高,診斷用時明顯縮短。
本研究所構建的DCNN 模型仍有一些假陽性和假陰性病例,該模型存在誤將血管溝、骨島、骨纖維異常增殖癥和其他肋骨變異或骨質密度不均認為骨折的情況,課題組認為這些發生在肋骨的正常解剖結構、變異或病變與新鮮或陳舊骨折、骨痂形成的形態和密度相似,DCNN 算法難以分辨。DCNN模型對部分輕微肋骨骨折、愈合中及陳舊骨折存在漏診,這與DCNN 檢測算法的敏感性不足有關。在下一步研究中,需要課題組加入更多輕微骨折、肋骨變異和病變圖像進行訓練,優化算法模型,提高模型診斷的準確性。
本研究應用3 種DCNN 算法對肋骨骨折進行定位和診斷,模型首先結合胸椎椎體的部位對肋骨進行分割、標記,確定肋骨位置,然后再檢測骨折具體部位,這樣可對骨折部位進行自動標記,減輕醫師人工定位肋骨的負擔。Relu 級聯的檢測網絡對肋骨骨折的檢出具有明顯的優勢,通過3 個特征層分別輸出檢測結果,這樣更容易檢測出不同的骨折大小;此模型通過級聯,參考上一級輸出的檢測結果,通過Threshold Relu 和Mean 模塊,調整閾值檢測出所有陽性,防止過早的過濾掉陽性,而且會輸出更少的假陽性,緩解過擬合。本研究應用Relu 網絡檢測肋骨骨折,精確率和召回率與Zhou 等大致相當,而診斷用時較Zhou 等[6]的模型明顯縮短,僅為4 s左右,較Jin 等[7]的Dice 指數更高,用時更短。在此模型輔助下,醫師的診斷用時、誤診和漏診明顯減少。但本研究尚未對骨折類型進行分類,這也是本課題組下一步重點研究的內容。
在其他學者的研究中,DCNN 在骨折診斷上多集中在X 線片,尤其對橈骨遠端[10-11]和股骨近端[12-13]骨折的研究較多,多為在手腕正側位和骨盆正位片上對骨折進行診斷。還有作者應用DCNN 在X 線片上診斷肱骨近端、足踝、手等部位骨折,并對骨折進行分類[14-15]。結果表明,DCNN 在平片上診斷骨折的準確性高,與亞專科醫師水平相當,并普遍高于一般醫師。在應用CT 圖像診斷骨折方面,Pranata 等[16]發現應用ResNet 和SURF 算法在CT 橫斷、冠狀、矢狀位圖像上對跟骨骨折進行診斷和分類的準確性高,可達98%。Tomita 等[17]在胸、腹部和盆腔CT 圖像上應用CNN 算法診斷有無相應部位的骨質疏松性椎體骨折,診斷準確性達89.2%,與有經驗的放射科醫師相當。
本研究尚有一些不足:首先,本研究的金標準均為高年資醫師的最終診斷,而醫師的診斷存在漏診或誤診的可能,因此,以此標準對DCNN 模型進行訓練和測試存在偏倚可能。其次,本研究在測試DCNN 模型診斷效能時排除了屏氣不佳,胸部CT 圖像呼吸偽影較重的患者,而此類患者在日常工作中并不少見,如何解決這些患者肋骨骨折診斷的問題也是臨床工作中亟需解決的問題。第三,本研究僅能診斷肋骨骨折,不能對骨折類型進行區分,未來需改進算法提高對骨折分類的能力。最后,胸部外傷患者不僅有肋骨骨折,還有胸廓其他部位骨折、雙肺和縱膈、皮下軟組織等部位的損傷,如能在今后的研究中對胸外傷患者的損傷部位和程度進行系統、全面的診斷和分類,并結合現有預后評分標準指導治療、提示預后,則會大大提高DCNN 在臨床應用上的前景。
本研究所構建的DCNN 模型在胸部CT 圖像上可準確定位、診斷肋骨骨折,顯著縮短診斷用時,可輔助醫師診斷,減少漏診、誤診率,提高工作效率。