陶建華,陳聰,張懷宇,曲曉霞,郭健,鮮軍舫
鼻骨區骨質菲薄,位置淺在,是顱面部外傷中最常受累部位。由于鼻骨區體積較小,解剖結構細微,該部位骨折容易被漏診及誤診[1-3]。在臨床急診工作中,顱面部外傷患者常涉及到法醫鑒定等刑事問題,在工作量大、時間緊和視覺疲勞的情況下,能否正確判斷鼻骨區骨折顯得尤為重要[4-5]。深度學習是一種人工智能(artificial intelligence,AI)方法,通過學習樣本數據的內在規律和表示層次,通過組合低層特征形成更加抽象的表示高層屬性的特征,使機器模仿人類的視聽和思考活動。近年來人工智能技術在疾病診斷及預后評估方面逐漸發揮出較大作用,基于深度學習的AI模型構建的肺結節、頸部血管和冠狀動脈疾病檢測系統已逐步應用于臨床實踐[6-9]。此外,雖然AI方法已應用于四肢骨、骨盆、椎體和肋骨骨折的檢測且已取得較好的進展[10-12],但是在顱面部骨折方面的臨床應用尚未見到相關報道。本課題擬基于大樣本的鼻骨區骨折和非骨折影像數據,建立鼻骨區骨折的人工智能輔助診斷模型,探討此模型在輔助影像醫師初步篩查骨折部位、減少醫師因過度疲勞導致可能的漏診和誤診,提高診斷準確性方面的臨床應用價值。
1.一般資料
回顧性分析2018年1月-2019年8月因鼻骨區外傷來我院急診行鼻骨CT檢查的2080例患者的CT資料。經2位高年資醫師(工作年限>15年)共同認定(金標準),其中1000例無明確鼻骨區骨折,1080例有明確鼻骨區骨折,所有患者均無鼻骨區和副鼻竇區腫瘤。無骨折組中,男667例, 女333例,年齡18~75歲,平均(38.2±8.2)歲;骨折組中,男625例,女455例,年齡18~80歲,平均(36.5±7.1)歲。
本研究經我院倫理委員會批準(TRECKY2019-014)。
2.CT掃描方法
使用Philips brilliance 16排螺旋CT機,掃描范圍自鼻根部到鼻尖下方層面,掃描參數:120 kV,200 mAs,螺距0.438,矩陣512×512,層厚0.8 mm,層間距0.4 mm,骨算法重建。每例患者獲得原始骨算法圖像200~300幀,設置圖像的窗寬為4000 HU、窗位為700 HU。屏蔽患者個人信息后將所有圖像上傳到AI工作站進行分析,研究步驟和流程見圖1。

圖1 本研究步驟和方法的流程圖。 圖2 基于FPN算法的深度學習方法對鼻骨圖像學習過程的示意圖。a)鼻骨區定位訓練;b)鼻骨區骨折的定位訓練。
3.圖像標注
無骨折組中,在每例患者的原始CT圖像中選取鼻根部層面、鼻骨區中間層面和上頜骨額突最上端這3個層面,使用白色矩形框(可隱藏)對鼻骨進行標注,矩形框內應包括雙側鼻骨、上頜骨額突和鼻中隔前部。1000例中800例用于AI模型的鼻骨區定位訓練,100例用于AI模型的測試,100例用于AI輔助下不同醫師對骨折檢出效能的評估。
骨折組中,在每例患者鼻骨區原始CT圖像上采用矩形框對所有層面的骨折部位進行標注。先由低年資醫師進行標注,然后由具有15年以上鼻骨區骨折診斷經驗的高年資醫師進行審核和確認。矩形框內應包含骨折線,面積盡量小。1080例中680例用于訓練,240例用于AI測試,160例用于AI輔助下醫師對骨折檢出效能的評估。
4.基于深度學習的AI模型的訓練和測試
鼻骨區的定位訓練和測試:本研究中使用3D特征金字塔網絡(Feature Pyramid Network,FPN)深度學習算法[13],基于無骨折組的鼻骨區標注圖像進行定位訓練來建立AI模型,具體過程見圖2a。鼻骨的標注從鼻骨最上端起始位置到上頜骨額突結束的位置,統一將尺寸歸化為矩陣128×256×256,使用3個卷積特征的殘差網絡跳轉鏈接方式和降采樣,將CT圖像經過統一化處理,最終的特征是512通道,矩陣16×32×32。經100例測試,鼻骨區定位符合率達100%。
鼻骨區骨折的定位訓練和測試:對鼻骨區骨折的定位訓練過程如圖2b所示。訓練樣本包括680例有骨折和200例無骨折(從用于AI模型的鼻骨區定位訓練的800例無骨折中隨機選取)患者的原始CT圖像。本文設計了2.5D的FPN方法實現網絡鼻骨區骨折定位,將相鄰的3層切片堆疊起來作為輸入圖像,擴大空間信息,使骨折集中在5×5~12×12 像素中顯示。網絡在特征提取時將最后一層進行反卷積堆疊采樣,提供更多的空間信息。選取3560幀圖像(從240例骨折病例中隨機選取2560幀有骨折圖像,從100例無骨折病例中隨機選取1000幀無骨折圖像,對AI模型的骨折定位能力進行測試。
5.人工和AI輔助對骨折檢出效能的比較
選取1000幀原始圖像(從160例骨折病例中隨機選取735幀有骨折圖像,從100例無骨折病例中隨機選取265幀無骨折圖像),首先由2位低年資醫師(工作年限<3年)、1位高年資醫師(工作>10年)和AI模型分別獨立對圖像進行分析和標注。3個月后,由上述3位醫師分別對AI模型標注過的CT圖像再次進行分析和觀察,對骨折部位進行標注。

表2 低年資醫師B及在AI模型輔助下對鼻骨骨折診斷效能的比較

表3 高年資醫師C及在AI模型輔助下對鼻骨骨折診斷效能的比較
在評估過程中,AI標注框和人工標注框在x、y軸方向的重疊率均大于50%且重疊面積大于25%視為正確識別(圖3)。標注框正確識別骨折定義為真陽性;標注框未正確識別骨折定義為假陰性;標注框識別錯誤定義為假陽性(包括骨折組和無骨折組);在無骨折圖像上無標注框定義為真陰性。

圖3 人工(紅色框)與AI模型(綠色框)標注骨折的一致性較高。a)雙側鼻骨粉碎骨折,骨性鼻中隔前部骨折;b)左側鼻骨骨折,斷端成角;c)右側鼻骨骨折,斷端分離;d)右側鼻骨骨折,斷端分離;e)左側鼻骨輕微骨折、略塌陷,骨折線不清晰;f)左側上頜骨額突線性骨折,斷端無移位。 圖4 AI模型把右側血管溝(鼻骨孔)誤診為骨折。 圖5 AI模型把透亮點狀或線狀血管溝、縫間骨、鼻頜縫誤診為骨折(綠框)。a) AI模型(左側綠框)將左側鼻頜縫內縫間骨誤診為骨折,人工(紅框)和AI模型(右側綠框)均檢出右側鼻頜縫分離; b) AI模型將左側鼻頜縫和右側血管溝誤診為骨折; c) AI模型(左上綠框)將右側血管溝誤診為骨折,同時人工(右下綠框)和AI模型(紅框)均檢出左側上頜骨額突骨折; d) AI模型將右側縫間骨和血管溝均誤診為骨折; e) AI模型將左側血管溝誤診為骨折; f) AI模型將左側鼻頜縫誤診為骨折。 圖6 AI模型把鼻骨末端的鼻頜縫誤診為骨折(綠框)。 圖7 無鼻骨骨折患者。a) 橫軸面 CT 圖像,AI模型將左側缺損型鼻骨末端誤診為骨折(綠框); b) VR圖像示左側缺損型鼻骨末端。
6.統計學方法
使用SPSS 24.0統計學軟件,采用四格表或R×C表Pearson卡方檢驗對人工標注與AI輔助下人工標注骨折部位的敏感度、特異度和符合率進行比較。采用ROC曲線來分析各種標注方式對骨折的檢出效能,通過Delong檢驗比較各種標注方式的ROC曲線下面積(AUC) 。以P<0.05為差異有統計學意義。
在鼻骨骨折的測試集中,AI模型檢出骨折的敏感度為86.64%(2218/2560),特異度為41.99%(721/1717),符合率為68.71%(2939/4277);AI模型檢出的假陽性骨折數為996個,常見位置依次為血管溝、鼻頜縫和鼻骨末端(圖4~7),分別占48.99%、29.91%和21.10%。
三位醫師單獨及在AI模型輔助下對鼻骨骨折的診斷效能指標及統計分析結果見表1~3。兩位低年資醫師在AI輔助下檢出鼻骨骨折的敏感度和符合率均較獨立檢出有顯著提高,分別提高了24.35%、23.54%和17.81%、16.97%,差異均有統計學意義(P<0.05),AUC亦有明顯提高(P<0.05),但特異度的變化不明顯(P>0.05)。高年資醫師在AI模型輔助下對鼻骨骨折的檢出敏感度、特異度和符合率與獨立檢出比較,差異均無統計學意義(P>0.05)。在AI模型輔助下2位低年資醫師檢出骨折的敏感度和符合率與高年資醫師間的差距明顯縮小,敏感度的差距從29.39%和25.45%分別縮小到6.13%和3.00%,符合率的差距從28.07%和23.46%縮小到11.21%和7.44%。在3位醫師的各2種診斷方式中,以AI模型輔助下高年資醫師的診斷效能最高,AUC最大(圖8)。

表1 低年資醫師A及在AI模型輔助下對鼻骨骨折診斷效能的比較

圖8 低年資和高年資醫師獨立及在AI模型輔助下檢出骨折的ROC曲線,以AI模型輔助下高年資醫師的診斷效能最高,AUC最大。
傳統深度學習模型需要百萬級的數據集,在訓練數據相對較少的條件下,本研究采用遷移學習的預訓練模型,使用左右翻轉和直方圖隨機擾動策略進行訓練,每次訓練時對數據進行隨機變換以實現數據的擴充,從而解決數據集較小的問題。對鼻骨區骨折的檢出屬于對微小目標的識別,骨折區域在整個標準框立方體中占比太小,導致標注區域的噪聲過多,訓練效果較差。針對這種特殊情況,本研究采用2.5D網絡,將相鄰的前后兩層堆疊起來作為輸入圖像,從而可降低噪聲并彌補空間信息的不足。對于無明顯移位的輕微鼻骨區骨折,除了局部信息,還需要更大空間視野來辨識骨折、骨縫和血管溝,本研究中使用特征金字塔網絡,在特征提取時將最后一層進行反卷積堆疊來進行采樣,這種方法可以提供更多的空間信息,增加對骨折、骨縫和血管溝的識別。
低年資醫師在AI模型的輔助下檢出骨折的敏感度和符合率均有顯著提高,AUC亦有明顯增加,說明AI模型可以幫助低年資醫師對骨折進行初步篩查。急診值班工作中,工作量大,外傷嚴重且復雜,在這種高強度腦力勞動和容易視覺疲勞的環境下,AI模型輔助篩查鼻骨區骨折,可以在一定程度上減少漏診,提高診斷效能。此外AI模型縮小了低年資醫師與高年資醫師檢出骨折的敏感度和符合率之間的差距,間接減少了高年資醫師審核報告的時間。
值得注意的是AI模型檢出骨折的假陽性率較高(圖4~7),假陽性標注出現的部位主要為鼻頜縫(占44.19%)、血管溝(占41.31%)和鼻骨末端(占14.50%),這些區域也是臨床實際工作中最容易被影像醫師與骨折相混淆的部位。在橫軸面圖像上,鼻頜縫中下部分常常出現縫間骨征象,單獨觀察某一層面容易誤認為骨折碎片。鼻骨區血管溝孔較多,除了固定出現的鼻骨孔以外,鼻骨和上頜骨額突還存在其它的一些血管孔溝,且常不對稱出現,在單獨某個層面上也極易與骨折相混淆。鼻骨末端的形態多變,有M型、鋸齒型、單側缺損型和拱型等多種形態,在橫軸面圖像上,鋸齒型和單側缺損型的鼻骨末端常表現為雙側不對稱的局部缺損,容易被誤認為碎骨片和單側骨折。因此,在臨床實踐中,應連續上下多層面、多角度并結合VR圖像來觀察鼻頜縫、鼻骨孔、血管溝位置和鼻骨末端形態等,有助于將上述解剖變異與鼻骨骨折進行鑒別。AI模型評估鼻骨骨折時出現假陽性的主要原因是AI模型更多關注單層的局部信息,對某一結構上下層面的連續變化的空間信息觀察不足;其次的原因是用于訓練基于深度學習算法的AI模型的樣本數量不夠大。低年資醫師檢出假陽性骨折的主要原因也是受到鼻頜縫、血管溝和鼻骨末端不規則形態的干擾。
本研究中AI模型檢出骨折的敏感度為86.64%,低年資醫師平均約為70.00%,低于AI模型,差距主要存在于鼻骨區的輕微線性骨折,分析原因主要是低年資醫師的工作時間短、對線性骨折經驗不足所致。鼻骨的骨質較菲薄,輕微的線性骨折往往僅能見到局部骨質有線狀透亮影,斷端通常無明顯移位。在工作量大、時間緊的急診工作中,醫師在視覺疲勞的情況下,對于輕微的線性骨折更容易漏診,可以利用容積再現(volume rendering,VR)技術進行圖像重組,獲得鼻骨及鄰近區域的三維立體圖像,從而能對鼻骨區進行全面觀察,提高對線性骨折的檢出率,減少漏診。
鼻骨區包括鼻骨、上頜骨額突和骨性鼻中隔,均屬于不規則骨,和規則的四肢長骨和扁骨相比,解剖結構復雜,其形態和鄰近血管的變異較多,這給應用AI模型來檢測鼻骨區骨折帶來困難和挑戰。本研究基于深度學習算法初步建立了檢測鼻骨區骨折的AI模型,這是將AI技術應用于顱面部骨折的新嘗試。在AI模型輔助下,低年資醫師對鼻骨骨折的檢出效能有一定程度的提高,不足之處在于AI標注框的面積普遍較大、精準度不高,檢出骨折的假陽性率仍較高。針對上述問題,筆者擬在后續研究中通過增大訓練AI 模型的樣本量和多樣性、進行多中心研究和優化算法,來提高AI模型對解剖結構和骨折的空間識別能力、減少假陽性率,并通過縮小標注框來提高骨折定位的精準度,增加診斷醫師對AI骨折檢出模型的信任度,使其能更好地應用于顱面部骨折的篩查和法醫鑒定中。