王軍,何生,張智星,梁敏茜,姜增譽,李健丁
腺樣體是一團淋巴組織,位于鼻咽頂后壁。腺樣體肥大是嬰幼兒鼻咽腔梗阻最常見的病因,2~8歲時最常見。在嬰兒中,腺樣體肥大引起的呼吸困難容易導致吸吮停止,隨后出現喂養問題。對于兒童來說,腺樣體肥大可導致慢性張口呼吸、鼻炎、鼻竇炎、打鼾、睡眠呼吸暫停、日間嗜睡、中耳炎等。嚴重的、長期的氣道阻塞也可引起肺心病[1]。
目前,兒童腺樣體肥大的檢查主要包括鼻咽側位X線片和柔性鼻咽鏡檢查。然而,柔性鼻咽鏡的侵入性使得許多兒童在術前腺樣體評估時很難與醫生合作,從而限制了其在臨床診斷中的應用。因此,鼻咽側位X線成為腺樣體肥大患兒最常用的檢查工具[2],其主要X線征象為鼻咽后部軟組織增厚,腺樣體侵入鼻咽間隙[3]。通過測量腺樣體/鼻咽腔(A/N)比值,從而判斷腺樣體肥大和鼻咽腔梗阻的程度,為針對性治療提供依據。然而,在X線圖像上手工測量該比值的腺樣體厚度和氣道寬度有一定困難,這導致了測量醫師之間的大量誤差和個體差異。近幾年來,深度學習在醫學上取得了巨大進步,筆者認為其可以通過在X片自動測量上述A/N比值來幫助緩解這一問題。深度學習是以卷積神經網絡(convolutional neural networks,CNN)的形式“訓練”人工智能系統,從而對圖像進行快速和可靠的分割與測量,其已被證明在各種醫療應用中是成功的,如視網膜的分層檢測[4]、自動測量脊柱Cobb角診斷脊柱側彎[5]、預測非小細胞肺癌患者的生存率[6]、CT圖像人工智能分析技術判斷肺結節良惡性[7]等。本研究旨在分析和評估深度學習方法從鼻咽側位X線片自動測量兒童腺樣體肥大的可行性、準確性和可靠性。
1.數據收集
搜集2018年10月-2020年7月山西醫科大學第一醫院所有符合標準的鼻咽側位X線片,納入標準:①患者處于合適的標準體位,攝片條件為65 kV,12 mAs,焦片距100 cm;②清晰顯示硬腭、腺樣體、顱底、枕骨斜坡;③所有患者信息匿名化。本研究共搜集897幅圖像作為數據集,其中訓練集隨機選取663幅,驗證集隨機選取134幅,測試集隨機選取100幅。此外,還從另外三家醫院搜集了150例患者的圖像,作為外部驗證數據集。患者平均年齡為(6.45±2.92)歲,分別分析訓練集、驗證集和測試集患者的年齡和性別分布特征(表1)。整體圖像選擇過程和工作流程如圖1所示。本研究獲得了醫院倫理委員會批準,圖像只從簽署知情同意書的患者或其家屬處收集。

表1 性別及年齡構成
2.圖像處理及A/N值測量
本研究納入的所有鼻咽側位X線圖像大小統一為512×512像素PNG格式,并匿名(圖2a)。硬腭、腺樣體前緣、斜坡、翼突-顱底交叉點由兩位高年資主治醫師用不同顏色手工標注在圖像上(圖2b)。主治醫師在標注上的不一致由一位主任醫師進行仲裁。對訓練集和驗證集的圖像進行隨機水平翻轉,并對圖像進行放大和縮小,使其數據量增加至原始數據量的6倍。

圖1 本研究流程圖。 圖2 原始圖像及手工標注圖。a)原始圖像;b)手工標注圖。 圖3 測量點示意圖 。紅* 為硬腭后上端,紅----為枕骨斜坡前緣切線,綠*為翼突側板與顱底交點,紅o為腺樣體最凸點。 圖4 本研究所用的U-Net架構。 圖5 本研究所用的Res U-Net架構及殘差塊。a)Res U-Net架構;b)殘差塊。
A/N是由Fujioka等[8]提出的,計算方法為腺樣體厚度A(腺樣體前緣最凸出點到枕骨斜坡前緣切線的距離)除以氣道寬度N(硬腭后上端到翼狀突側板與顱底交點的距離)。腺樣體肥大嚴重程度由A/N比值決定,A/N比值≤0.60表示腺樣體大小正常,0.61~0.70表示腺樣體中度肥大,≥0.71表示病理性肥大[9]。
測試集的A/N比值通過自動測量方法(automation measurement solution,AMS)和醫師手動測量方法完成。將深度學習方法分割得到的測試集數據導入Matlab構建的測量模型中進行自動測量,其識別部位如圖3所示。手動測量在我院影像診斷報告系統中完成(Syngo Plaza,Siemens Healthinners,Germany),由1位主任醫師、主治醫師和住院醫師獨立測量完成。
3.U-Net及Res U-Net
原始U-Net網絡基于編碼器-解碼器結構,最初開發并用于生物醫學圖像分割,適用于解決二分類問題[10]。由于本研究是多分類圖像分割[11],輸入圖像均為RGB圖像,所以筆者將原始的U-Net架構進行優化并適合于本研究所需(圖4)。優化后的U-Net網絡具有如下特征:左側是編碼器部分,由兩個重復的3×3卷積核組成,且均使用修正線性單元函數(rectified linear unit,ReLu)[12]和一個用于下采樣的步長為2的2×2最大池化操作。本研究中筆者使用max-pooling[13]進行下采樣,可以使學到的特征更穩定,并且減少噪聲。右側是解碼器部分,解碼器部分每一步都包含對特征圖進行上采樣,采用2×2的卷積核進行卷積運算,用于減少一半的特征通道數量,接著級聯編碼器中相應的特征圖;再利用兩個3×3的卷積核進行卷積運算,在最后一層分別利用3×3和1×1的卷積核進行卷積運算,將每個8維的特征向量映射到網絡的輸出層,編碼器和解碼器卷積層均使用ReLu[12]和批量歸一化(Batch Normalization,BN)[14]。在原始U-Net中,裁剪操作可能會丟失所要分割區域的重要信息,因此筆者在U-Net的設計中使用連接操作替換原始裁剪操作的方法來避免重要信息的丟失[15]。
Res U-Net的網絡架構(圖5a)類似于前面提到的U-Net架構[16]。U-Net與Res U-Net之間的區別在于Res U-Net用殘差塊(圖5b)代替了U-Net中的標準卷積運算。He等[17]提出了在網絡上應用殘差塊的概念[17],他們所提出的網絡被稱為Res U-Net神經網絡,其被用于改善U-Net網絡的性能并解決網絡退化問題,此網絡特征通道數及網絡結構中各項參數的設置均與本研究所用的U-Net網絡相同。
分別使用U-Net和Res U-Net兩種網絡模型進行訓練,以訓練集交叉熵損失函數(loss)作為標準[18],保存性能最佳的網絡模型。訓練均采用Adam優化函數進行參數優化[19]。

圖6 不同模型的loss及accuracy變化圖。a)U-Net的loss變化圖; b) U-Net的accuracy變化圖; c) Res U-Net的loss變化圖; d) Res U-Net的accuracy變化圖。
4.硬件和軟件
硬件環境中硬盤內存為11T,CPU為Intel i9-9960x(3.10GHz),運行內存為256G,顯卡為兩張Geforce2080Ti,顯存各為11G。軟件運行環境為Windows10(64位)操作系統,Python(3.7),Tensorflow(2.1.0),Keras(2.3.1),Pycharm(2020.1.5),Matlab(R2019b,MathWorks,USA),Labelme(Version 4.2.1,MIT,USA),GraghPad Prism 9.3.1。
5.統計學分析

1.Res U-Net和U-Net網絡的損失和精確度
分別使用卷積神經網絡對訓練集和驗證集進行訓練,Batch size均為9,U-Net網絡共訓練20000次,Res U-net訓練10000次,隨著網絡迭代次數的不斷增加,U-net最優分割網絡模型的損失(loss)值為0.00035,驗證集的精確度(accuracy)最高為0.9937(圖6a)。Res U-net最優網絡對應loss值為0.00004,驗證集的精確度最高為0.9987(圖6b)。
2.Res U-Net和U-Net對測試集圖像的分割結果
分割結果包括人工標注的測試集,以及將測試集導入U-Net和Res U-Net分割模型所獲得的分割結果(圖7)。為了比較兩種深度學習網絡的分割性能,筆者利用python將兩種網絡模型的分割結果與人工標注用以下指標進行比較,包括準確度(Precision)、靈敏度(SE)、特異度(SP)、Dice相似系數(Dice Similarity Coefficient,DSC)[20]、Jaccard相似系數(Jaccard similarity coefficient,JS)[21]、假陽性率(FPR)(表2),對各參數進行統計學分析,結果顯示P值均小于0.01。

表2 U-Net和Res U-Net的分割結果的定量評估
3.自動測量方法及住院醫師、主治醫師、主任醫師的測量結果所有測試集及外部驗證集圖像都采用Res U-Net模型分割,并將分割結果導入Matlab自動測量模型中,得到A/N。同時,邀請主任醫師、主治醫師和住院醫師對測試集和外部驗證集進行A/N測量(圖8)。以主任醫師的測量結果為標準,將測試集圖像分為正常、中度肥大和病理性肥大的診斷分級,從而計算主治醫師、住院醫師以及AMS的分級準確率,進一步將AMS結果與住院醫師的測量結果相結合,得到新的分級準確率(表3)。

表3 主治醫師、住院醫師、AMS測量結果的準確度
通過t檢驗分別分析AMS與主任醫師、主治醫師及住院醫師在不同分級中的測量結果差異是否有統計學意義,結果顯示在正常組、中度肥大組以及病理性肥大組中AMS與主任醫師、主治醫師的測量結果差異均無統計學意義(P值均>0.05);AMS與住院醫師在正常組、中度肥大組的測量結果差異有統計學意義(P<0.05),在病理性肥大組中兩者差異無統計學意義(P>0.05,表4)。

圖7 a~c)原始圖像;d~f)手動分割圖;g~i)U-Net分割結果;j~l)Res U-Net分割結果。

表4 AMS分別與主任醫師、主治醫師及住院醫師的測量結果比較(P值)
4.自動測量與手動測量時間
分別統計主任醫師、主治醫師、住院醫師和AMS對測試集圖像測量所需時間,從而得到各自測量每張圖片所需平均時間(表5),結果顯示AMS所需的時間分別為主任醫師、主治醫師和住院醫師手工測量時間的22%、21%和18%,AMS與主任醫師、主治醫師、住院醫師的測量時間比較差異均有統計學意義(P值均<0.05)。

表5 AMS與主任醫師、主治醫師、住院醫師的測量時間比較
我國兒童腺樣體肥大發病率呈上升趨勢,患兒如不及時治療,將引起一系列耳鼻喉相關癥狀,對患兒健康造成較大影響[22,23]。鼻咽側位X線片目前仍是臨床上診斷腺樣體肥大最常用的檢查方法,這種檢查方法方便、快捷,且費用便宜[24]。A/N比值的測量對臨床是否選擇腺樣體手術具有一定價值[25,26]。A/N比值主要通過手工測量方法來得到結果,在臨床工作中我們發現,手工測量過程繁瑣,導致診斷醫師耗費大量時間和精力,并且容易發生主觀性錯誤,不同醫師所測得的結果可能不同,并且同一醫師在不同時間所測得的結果也可能不同。醫生快速準確地測量A/N比值可以顯著提高影像診斷效率,便于對患者及時進行針對性的治療。因此,提出一種快速可靠的A/N比值測量方法是必要的。目前人工智能在醫學領域快速發展,但國內外尚無關于腺樣體肥大A/N比值自動測量方面的研究。
本研究通過深度學習方法對鼻咽側位X線片進行分割及測量。在分割方面,由于醫學圖像比較特殊,其語義相對固定,不同部位圖像特征比較明顯,并且數據獲取難度較大,數據量較小,所以U-net模型較適用于醫學圖像的分割[9]。Res U-Net模型是對U-net模型所作的改進,其分割性能在部分研究中優于U-net[5]。本研究中,通過各項參數對分割結果的比較,Res U-Net分割性能優于U-Net,各參數差異均具有統計學意義。在測量方面,通過對測量數據進行統計學分析,結果顯示AMS與主任醫師和主治醫師在各級別腺樣體的測量結果差異無統計學意義,與住院醫師在正常組和中度肥大組的測量結果差異有統計學意義,在病理性肥大組的差異無統計學意義。通過對腺樣體分級準確率的比較,AMS的準確率與主治醫師測量準確率相當,明顯高于住院醫師,其測量結果與住院醫師測量結果相結合可以顯著提高住院醫師分級準確率。對各方法測量所需時間進行分析,AMS所需時間明顯少于手動測量所需時間,其與各級醫師測量所需時間之間的差異均有統計學意義。

圖8 不同醫師及深度學習方法測量不同患者A/N比值的結果。a~c)為主任醫師測量結果;d~f)為主治醫師測量結果;g~i)為住院醫師測量結果;j~l)為深度學習方法測量結果。
因此,通過以上研究表明,A/N比值的自動化測量能夠有效減少人工測量的繁瑣以及可能發生的主觀性錯誤,本研究所提出的自動測量方法對腺樣體肥大的評估基本能達到主治醫師水平,能夠輔助醫師進行A/N比值的測量,尤其是對初級醫師,這種方法能夠顯著降低其誤診概率,并且可以輔助其進行腺樣體肥大程度的分級。并且自動測量速度快,能夠減少各級醫師在測量中所耗費的大量精力。
本研究存在以下不足之處:①樣本量較小,訓練數據均來自我院,雖然數據采集來自不同X光機,但與外院數據仍有差別,仍需大量數據進行改善;②數據標注為不同的醫師進行手工標注,存在一定誤差,可能會對結果有一定影響;③雖然此方法測量時間較人工測量時間明顯縮短,但由于系統整合欠完善,其所需時間仍較長。相信未來隨著人工智能進一步的發展,以及數據量的逐步增大,其測量結果會更加精確;相信這項研究成果未來能夠應用到臨床診斷工作中,減少診斷醫師的工作量并且提高臨床醫師的工作效率,幫助臨床醫師作出更加適合每例患者的個性化治療方案。