郭子昇,王吉芳,沈孝龍,蘇 鵬
(北京信息科技大學機電工程學院,北京 100192)
準確評估骨齡具有重要意義,目前我國所用主要方法為G-P(Greulich-Pyle)圖譜法[1]和TW(Tanner and Whitehouse)評分法[2],均基于歐美青少年數據制定。2006年提出的中華-05評分法[3]包括TW3-C RUS(radius, ulna, and short bone)、TW3-C Carpal(腕骨)和RUS-CHN 3種方法,通過觀察非慣用手X線片中的腕、掌及指骨等骨骼形態結構推斷目標年齡,更適于我國人群,但仍存在耗時長、精度低及操作復雜等缺點。隨著計算機技術的發展,骨齡評估逐漸向自動化及人工智能方向發展[4],如基于深度學習(deep learning, DL)的卷積神經網絡(convolutional neural networks, CNN)[5]。本研究通過融合中華-05注意力與多層紋理疊加建立殘差網絡智能模型,觀察其評估骨齡的準確性。
1.1 數據集 采用北美放射學會(Radiological Society of North America, RSNA)公開數據集中的手骨X線片,受試者月齡范圍為1~228個月,含12 611幅訓練圖像、1 425幅驗證圖像和200幅測試圖像;截取前1 376幅訓練圖像原始文件作為測試集,以其余圖片為訓練集;按原始文件骨齡編號,以12個月為1歲,將測試集、訓練集圖像的新編文件歸為0~18歲,共計19類。
1.2 實驗平臺 CPU為Intel(R) Core (TM)i7-9750H,GPU為NVIDIA GeForce GTX 1650,內存8G;Windows10 64位系統。編程軟件包括Tensorflow2.1.0、Keras框架、Python3.7語言及PyCharm2019.3.3編輯器。
1.3 深度殘差網絡模型設計
1.3.1 局部二值模式(local binary pattern, LBP)多層疊加紋理增強層 引入LBP、圓形LBP及旋轉不變LBP算子的多層疊加紋理增強處理層(圖1),計算公式依次為(1)~(3)。若計算值非整數,則以雙線性插值計算插值點,見公式(4):
(1)
(2)
(3)
(4)
式(1)為LBP算子,(xc,yc)為中心像素,ic為中心像素灰度值,ip為P點像素灰度值,s為符號函數,p為鄰域P個采樣點中第p個采樣點。式(2)為圓形LBP算子,以可變半徑的圓(P=16,R=2)對近鄰像素進行編碼,其中R為采樣半徑,P為第P個采樣點,p為采樣數目。式(3)為旋轉不變LBP算子,對圓形鄰域進行二進制編碼,再通過不斷旋轉及循環位移得到一系列初始定義值,取其最小值作為該鄰域LBP值。
1.3.2 中華-05空間注意力機制 基于中華-05評分法設計空間注意力機制,包含尺、橈骨遠端、第1、3、5掌骨、拇指近節指骨、中指和小指中節指骨、拇指、中指、小指遠節指骨近端共11個易識別骨骼發育程度的區域。各骨骼連接處骨骺骨干寬度差距、鈣化程度及融合程度所致相應手部X線片區域灰度值存在差異,將其作為空間注意力機制的11個ROI引入空間網絡變壓器[6]與11個識別網絡。
以中華-05空間注意力機制根據圖像特征自動搜索11個特定區域,資源分配傾向于關鍵區域,利用空間網絡變壓器對原始輸入圖像進行逐層空間區域學習,輸出11個由更具辨識能力特征映射組成的子區域,再將其反饋于11個識別網絡,后者在特征映射后的隱藏層加入壓縮激活塊[7],并輸入一幅手部X線片圖像,隨之輸出一個D維向量;將所有網絡輸出連結成一個N×D維向量組,分別設置N和D為11和512,輸入至全連接層中,由softmax層輸出整圖骨齡評分值(圖2)。
1.3.3 集成化殘差網絡模型 參照文獻[8]設計集成化殘差網絡模型,以殘差塊為基本單元,堆疊卷積層、批量處理歸一化層和修正線性單元(rectified linear unit, ReLU);殘差塊計算公式如下:
xl+1=f(x1+F(xl,Wl))
(5)
式中,xl+1為第l+1層殘差單元輸入,F(xl,Wl)為殘差函數,Wl為第l層殘差單元的權重,f(…)為ReLU。
構建50層深度殘差網絡,第1層設置卷積層,其后連接池化層,最后連接16個瓶頸殘差模塊(圖3A);分別于每個殘差模塊后連接1個池化層和1個激活層,最后連接全連接層,堆疊方式見圖3B。
1.3.4 ZH05-DL-ResNet50 構建集成融合多層疊加紋理增強層與中華-05空間注意力機制的智能骨齡評估模型ZH05-DL-ResNet50(圖4),于50層深度殘差網絡頂層,引入LBP多層疊加的紋理增強處理層,對原始數據集進行多層疊加紋理增強處理,并于底層加入測試集輸入的X線片多層疊加紋理增強處理層,最后于池化層后引入中華-05空間注意力機制。
1.4 模型訓練與評價
1.4.1 數據增強 為優選LBP紋理增強層疊加順序,驗證引入改進處理層的有效性,對數據集依次進行LBP多層疊加紋理增強處理,對各增強處理圖集進行遍歷處理,并采用CNN依次設置120輪訓練,以測試集中平均絕對誤差(mean absolute error, MAE)最低的組合順序為最優,見公式(6)。
(6)
式中,N為樣本數,ytrue為真實值,ypred為預測值。
1.4.2 訓練策略 采用改進模型ZH05-DL-ResNet50對數據集進行多次訓練,訓練圖片為三通道,設類別數為19,每次喂入模型16幅圖片,并調整輸入圖片寬、高皆為224,設置縮放因子為1/255,以增強模型泛化能力;設初始學習率為0.000 1,配置optimizers.Adam優化器,結合fit_generator訓練方式以節約內存;計算骨齡預測值和真實值的準確率(accuracy, AC)作為模型輸出,并結合測試集所計算的MAE綜合判斷模型性能。
1.4.3 模型評價 對ZH05-DL-ResNet50模型與傳統CNN訓練時池化層、全連接層性能進行可視化比較。繪制偏置權重分布直方圖,評價ZH05-DL-ResNet50模型與傳統CNN、50-layers ResNet、DL-ResNet50及其他文獻模型評估骨齡的性能。AC為模型在訓練集與測試集中正確分類樣本占比,MAE反映預測值與真實值的吻合程度, MAE為0提示模型完美。權重表示神經元之間的連接強度,其值表示分類概率的大小。偏置值代表不斷調整尋優使樣本正確分類的值。
2.1 數據增強處理層對比結果 旋轉不變LBP-LBP-圓形LBP組合測試集的MAE最低,故以此組合順序設置多層疊加紋理增強層,見圖5。
2.2 模型可視化分析 50-layers ResNet的AC較CNN有所提升,且AC曲線收斂明顯加快;DL-ResNet50的AC較50-layers ResNet進一步提升;ZH05-DL-ResNet50曲線收斂最快,AC最高(98.14%),預測測試集骨齡的MAE計算值為0.312歲,預測效果極佳。見表1及圖6。

表1 網絡模型訓練結果
2.3 模型評估與精度 ZH05-DL-ResNet50批量數據均值方差期望走勢波動較CNN明顯減小,全連接層卷積核權重值皆在0附近顏色最深,即在0附近區域權重值取值頻次最高,而ZH05-DL-ResNet50波動范圍明顯更小,見圖7。傳統CNN訓練過程卷積層的權重曲線缺乏結構性,規律性差;而ZH05-DL-ResNet50的卷積層權重曲線規律、平滑,具有結構性,見圖8。
與其他骨齡評估模型相比,ZH05-DL-ResNet50改進模型的MAE更低而AC更高,見表2。

表2 ZH05-DL-ResNet50與文獻中的其他模型評估骨齡結果比較
基于DL的CNN用于檢測圖像和分類任務表現出色。IGLOVIKOV等[20]引入CNN,提出針對整幅手部X線片的DL骨齡評估模型,因無針對性ROI,整體評估準確性一般;SPAMPINATO等[12]提出DL骨齡評估模型BoNet,以TW法細化提取ROI,并以涵蓋0~18歲多種族人群手部X線片的公共數據集進行驗證,其MAE為0.8歲;邊增亞[21]提出基于腕骨的骨齡評估方法,以CNN對腕骨ROI進行訓練并評估骨齡;WANG等[22]提出基于CNN的骨齡分類系統,以TW法根據尺、橈骨不同發育階段的不同特征評估骨齡。以上研究均有所缺陷,如基于整幅手部圖像或某特征區域進行學習訓練可致評估精度較低,依據歐洲標準的TW或G-P法訓練ROI可能影響模型泛化能力、導致用于我國人群存在不足,訓練及預測評估模型時過度關注數據集的傳統數據增強手段而忽略醫學圖像的單通道、小對比度、復雜紋理及細粒度圖像識別等特征,可致模型訓練和預測效果不佳。
本研究引入LBP算子的多層疊加紋理增強處理層,使圖像灰度不變,減少無關信息對訓練及預測精度的干擾;依照中華-05評分法設計新的空間注意力機制,針對我國人群手骨特征進行訓練。相比G-P圖譜法及TW評分法,中華-05評分法所測同年齡段骨齡與生活年齡差值的平均數和中位數更接近0值水平線,大部分箱體相對較小,且介于-1~1之間[23]。通道注意力、輕量級卷積塊注意力、擠壓和激發注意力及空間注意力[24]等機制用于處理自然語言、分類圖像及分割語義等任務表現出色,相比原始卷積網絡可減小處理高維輸入數據計算負擔,通過結構化選取輸入子集,降低數據維度,使網絡更專注于訓練ROI和其針對性特征,且各ROI空間注意力權重更高,使模型訓練更加聚焦;以空間網絡變壓器針對原圖進行逐層學習,并截取分辨率適宜的子圖,等同于放大手部X線片中的關鍵部位,以清晰展現局部信息,進而提取表達能力更強的特征,為進一步處理提供基礎。
針對性特征改進殘差網絡模型現已用于智能診療領域中的眾多醫學成像計算機視覺任務[6]。殘差網絡易于優化,跳躍式連接的殘差塊可將輸入信息直接傳至輸出層,緩解網絡深度增加帶來的梯度消失及爆炸問題。為融合注意力機制與疊加紋理層,測試混合改進模型性能,本研究引入殘差網絡,并在相同參數下可視化分析數據分布、權重及偏置等重要指標,觀測訓練過程中的模型性能。
本研究成功建立融合中華-05空間注意力機制與LBP多層紋理疊加的混合改進式殘差網絡模型,50-layers ResNet的AC較傳統網絡模型CNN有所提升,表明引入殘差網絡可有效解決梯度消失及爆炸問題,協助提高訓練性能;DL-ResNet50的AC進一步提升,提示LBP多層紋理疊加增強層對骨齡值劃分具有明顯效果,可將更細致的手部骨骼紋理特征作為網絡輸入端;ZH05-DL-ResNet50的AC最高,表明中華-05空間注意力機制使網絡更專注于訓練11個易識別骨骼發育程度的ROI及其針對性特征,ROI內骨骺及骨干寬度、鈣化情況、融合程度等特有圖像特征對分類訓練殘差網絡更具針對性,使算力分配更傾向于手骨特征的重要區域,可釋放網絡整體計算負擔,進一步降低無關信息干擾,并協助提高訓練AC。
綜上,本研究成功建立的中華-05注意力與疊加紋理的殘差網絡智能模型可提高評估我國人群骨齡的準確率。但本研究僅對集成模型的性能進行了技術改進,未對數據集樣本分布、性別差異及網絡初始學習速率加以處理,尚有一定提升空間,有待后續進一步完善。