深度學習骨齡評測系統對貴州省兒童及青少年骨齡測評的準確性

2019-12-19 04:00:14劉宗才吳錦華王榮品劉昌杰曾憲春

中國醫學影像技術 2019年12期

劉宗才，吳錦華，王榮品，劉昌杰，曾憲春

(貴州省人民醫院放射科，貴州貴陽 550002)

圖2 拍攝的左手X線骨齡片

目前國內外廣泛使用的骨齡評測方法主要有GP圖譜法、TW3法、CHN法和中華05法[1]。圖譜法簡單、直觀、易于掌握，但主觀性強，可靠性不如計分法[2-4]。在TW2基礎上，修訂后的TW3法獲得國際廣泛采用，但TW3法基于歐美兒童及青少年，不完全適用于我國[4]。CHN法是在TW2法的基礎上修改的適用于中國人的方法，但該方法取消了7塊骨，影響骨齡評測準確性。為適應中國兒童及青少年生長發育趨勢，張紹巖等[1]參照TW3法，分別制定了TW3-C RUS、TW3-C Carpal骨齡標準；基于法醫學和運動醫學的需要，又在TW3-C RUS基礎上增加了骨成熟度指征，稱為RUS-CHN法；以上方法總稱為《中國人手腕部骨齡標準——中華05》(以下簡稱“中華05法”)，在2006年成為目前中國唯一的骨齡行業標準。

中華05法的樣本為東部沿海的5個城市，其對西南地區適用性有待驗證。基于人工智能(artificial intelligence, AI)技術，骨齡評測已有多種自動化解決方案[5-7]。2012年后，深度學習技術開始應用于骨齡評測[8-10]。但由于骨齡標準固有的主觀性和種族差異[11]，客觀評價深度學習骨齡評測系統的臨床效能，仍有待研究[12]。本研究探討適用于深度學習骨齡評測系統的臨床試驗方案，并對比深度學習模型(模型組)和2名住院醫師(對照組)對貴州省兒童及青少年的骨齡評測準確性。

1 資料與方法

1.1 一般資料回顧性收集2016年2月—2019年6月于我院就診的148例兒童及青少年患者左手腕部骨齡X線影像，年齡2～17歲，其中男67例，平均(10.7±4.1)歲；女81例，平均(10.0±4.7)歲。生活年齡分布直方圖見圖1。納入標準：父母及受檢者均生長于貴州本地且發育正常(骨齡與生活年齡差距≤1歲)。排除標準：①手腕骨存在遮擋物；②分辨率差，影響骨骼特征觀察；③有骨折、畸形或骨發育異常等影響骨齡判斷的X線片。本研究獲本院倫理委員會批準。

圖1 樣本生活年齡分布直方圖

1.2 儀器與方法

1.2.1 骨齡片拍攝采用Carestream Health DRX-1型號機器，按下列要求拍攝左手X線片(圖2)：①左手掌面緊貼暗盒，拇指與食指約呈30°，其余4指自然分開，中指與前臂中軸在一條直線上；②除手部完全顯示外，橈、尺骨遠端應顯示3～4 cm；③DR機球管中心正對第三掌骨頭，管片距70～90 cm。骨齡片以DICOM格式存儲。

1.2.2 深度學習骨齡評測系統采用深睿醫療Dr.Wise骨齡和生長發育預測軟件0531beta版，硬件平臺GPU采用英偉達Titan Xp，所得數據設為模型組(圖3)。

圖3 深睿醫療Dr.Wise骨齡和生長發育預測軟件測量界面

1.3 骨齡評測參考標準制定從北京、河北、大連、無錫、廈門招募12名有5年以上評分法骨齡評測經驗的放射科和兒科醫師。對所有醫師，無論有無中華05 RUS-CHN法使用經驗，均依據中華05法再次進行系統的骨齡評測培訓。培訓后，選用20例2～17歲規范骨齡片，對所有醫師進行水平測試。選擇水平最佳的3名醫師(2名主任醫師，1名副主任醫師)對148例骨齡片進行雙盲標注，并取三者均值，即為本研究金標準。

1.4 對照組 2名(醫師A、醫師B)住院醫師中，醫師A近一年骨齡片讀片量不低于1 000張(采用中華05 RUS-CHN法)，醫師B近一年骨齡閱片量不低于 2 000張(采用中華05 RUS-CHN法)。閱片環境采用Dr.Wise遠程標注平臺(http://label.deepwise.com)，可根據需要縮放圖像、調節窗寬和窗位。

1.5 統計學分析采用基于Python2.7(Python Software Foundation, Beaverton, Ore)的scipy、statsmodels庫以及R軟件。模型組和對照組醫師評測骨齡的準確性采用平均絕對誤差(mean absolute difference, MAE；骨齡評測誤差的絕對值的算術平均值)衡量。采用組內相關系數(intraclass correlation coefficients, ICC)分析模型組和對照組與金標準評價骨齡的一致性，ICC>0.75為一致性良好。繪制Bland-Altman圖，計算模型組和金標準骨齡差異(骨齡偏差)的95%一致性界限。采用配對樣本t檢驗比較模型組和對照組醫師A、醫師B間平均誤差(所有樣本骨齡評測誤差的算術平均值)、MAE，以P<0.05為差異有統計學意義。采用箱式圖分析≥2～5歲、≥6～8歲、≥9～11歲、≥12～14歲、≥15～17歲5個年齡段骨齡評測誤差的變化趨勢。

2 結果

2.1 模型組、對照組與金標準準確率對比參照金標準，模型組MAE為0.295歲[95%CI(0.238,0.352)]，對照組醫師A MAE為0.438歲[95%CI(0.369,0.508)]，醫師B MAE為0.360歲[95%CI(0.295,0.425)]。模型組、對照組MAE≤0.5歲分別占84.46%(125/148)、67.57%(100/148；醫師A)和74.32%(110/148；醫師B)。模型組、對照組MAE≤1.0歲分別占93.92%(139/148)、89.19%(132/148；醫師A)和89.86%(133/148；醫師B)，見表1。

表1 參照金標準，模型組和對照組不同性別MAE

對照組醫師A、醫師B與金標準分別存在+0.363歲和+0.269歲的平均誤差。模型組與對照組MAE的差異，見表2。模型組的MAE顯著優于醫師A(t=-3.071，P=0.002)，但與醫師B的MAE差異無統計學意義(t=-1.563，P=0.120)。

表2 模型組和對照組骨齡評測的平均誤差和MAE

2.2 一致性檢驗以金標準為參照，模型組評估骨齡的一致性良好[ICC=0.994，95%CI(0.992，0.996)]，對照組醫師A[ICC=0.989，95%CI(0.959，0.995)]和醫師B[ICC=0.991，95%CI(0.979，0.996)]評估骨齡的一致性良好。模型組和金標準評測骨齡偏差的95%一致性界限為(-0.896，+0.892)，見圖2。

2.3 不同年齡段之間骨齡值的比較不同年齡段的箱式圖見圖3。≤2～5歲、≤6～8歲、≤9～11歲、≤12～14歲年齡段模型骨齡預測誤差均值(虛線)小于≤15～17歲。

3 討論

骨齡是評價兒童及青少年生長發育狀況、預測身高、診斷疾病與監測治療等的重要指標和依據，具有重要的臨床意義。長期以來，廣泛使用的圖譜法雖然簡單快捷，但評價者間差異大、評價者內可重復性差[2]；而準確率相對較高的評分法又因其操作繁瑣耗時，難以高效應用于臨床[3]。骨齡評測的自動化、智能化是一項迫切的臨床需要。

實驗性骨齡評測系統常采用半自動方式，即先手動勾選13個骨骺區域，然后系統基于特征提取和機器學習分類器獲得骨齡。2009年Thodberg等[5]基于主動表觀模型等技術，在84例TW3數據集上取得了0.80年的掌指骨骨齡預測均方根誤差[95%CI(0.68,0.93)]。近年來隨著深度學習技術的發展[13]，出現更精確、快速的骨齡評測方法，如卷積神經網絡預測GP圖譜法骨齡[8]。但算法的進展也對骨齡評測系統的臨床驗證提出了更高的要求。

驗證模型準確性的關鍵是確定真實骨齡的參考標準。既往研究[3-4]表明，采用不同骨齡評測方法評價同樣骨齡片，結果存在系統性偏差。因此，骨齡評測準確性的臨床驗證，首先需選定一種骨齡評測標準。本研究采用中華05 RUS-CHN法，設定了統一的標準。但骨齡評價的主觀因素影響仍較大：①橈尺骨骨骺、掌指骨骨骺的生長發育均是連續的變化過程，臨床采用TW3法或中華05 RUS-CHN法評價骨骺發育等級，是將連續的骨骺發育形態量化到一系列離散的典型指征，如骨骺發育狀態介于兩個發育等級之間時，閱片者只能依據主觀認知選擇最接近的等級；②受拍攝角度差異、個體發育差異等因素影響，并非所有骨骺形態都能與骨骺分級標準圖對應；此時對骨骺等級的判定依賴于閱片者對手部骨骼三維解剖結構及常見變異情況的經驗積累；③骨齡評測是重復性工作，長時間的連續閱片，即使有經驗的醫師可能也會出現偶然失誤。骨齡評價方法可靠性研究[2]表明，隨讀片經驗的不斷豐富，骨齡評價的可靠性也在增加，且技術培訓、統一評價標準也對評價者間的讀片可靠性有重要影響[14]。

為盡量減少主觀性影響，本研究在制定骨齡相對金標準時，對已具備經驗的醫師仍按統一標準進行系統培訓和測試選拔，并取3名醫師的均值作為標準。另外，為規避單中心閱片的局限，提升制定骨齡金標準的可靠性，本研究采用多中心報名的方式確定制定參考標準的3名閱片者。

本研究結果顯示，模型組MAE小于對照組，模型組絕對誤差≤0.5歲和絕對誤差≤1.0歲的占比均高于對照組，提示模型的準確率均優于對照組2名醫師；模型的平均誤差和對照組2名醫師的平均誤差差異均有統計學意義，對照組2名醫師均有高估骨齡的傾向，而模型組與金標準之間的平均誤差非常小(1.930×10-3歲)，表明深度學習模型不受主觀偏好影響的優勢；模型組和對照組醫師A的MAE差異有統計學意義(P=0.002)；模型組和對照組醫師B的MAE差異無統計學意義(P=0.120)，提示深度學習模型的骨齡評測準確率達到或超過了對照組2名醫師。為進一步考察模型組骨齡評測值和金標準骨齡之間的一致性，本研究根據ICC數值判斷結果表明，模型骨齡評測值與金標準骨齡的一致性優于對照組醫師A。

影響骨齡評測準確性結果的另一因素是樣本年齡分布，本研究在已有貴州兒童及青少年數據中，盡可能保證2～17歲年齡段的樣本均衡分布。因本研究3歲以下入組骨齡片較少，僅納入5例，多為左手外傷拍攝X光片，排除骨折的患兒；其余每歲樣本量均控制在8～10例。本研究通過繪制Bland-Altman圖，發現骨齡偏差的95%一致性界限為(-0.896，+0.892)，優于Larson等[15]采用GP圖譜法人工智能系統測評骨齡的一致性結果。此外，本研究還發現15～17歲年齡段模型骨齡預測誤差明顯大于其他年齡段，推測原因：使用中華05 RUS-CHN法，16歲以上骨齡片評測，主要取決于橈尺骨的融合程度(1/4融合、1/2融合、3/4融合)，此處差異細微，不同標注者主觀差異大，易導致模型訓練效果欠佳。

本研究的局限性：①驗證用樣本量較小，未對各年齡段骨齡評測情況進行統計學分析；②納入研究的樣本雖同來源于貴州地區，但未考慮民族等因素的影響，將在其后的研究中進一步完善。

綜上所述，將基于深度學習的骨齡評測系統用于貴州兒童及青少年臨床骨齡閱片，可取得接近甚至優于對照組醫師的準確性和一致性，具有廣闊的臨床應用前景。