馮翔,康文清,吳瀚,王風云,王星皓,季超
(1.濰坊醫學院生命科學與技術學院,濰坊 261000;2.濰坊市益都中心醫院,濰坊 262500)
新冠肺炎(COVID-19)主要依靠檢測試劑、影像診斷等方式篩查。肺炎影像篩查需經驗豐富的放射科醫生、臨床醫生等逐級閱讀、診斷、分析,尤其在疑似病例大量激增的情況下,難以短時間內處理。同時,長時間閱片、分析也在一定程度上加重醫生身心負擔,易造成漏診、誤診。
近年來,以深度學習為代表的人工智能技術在醫學圖像分析領域飛速發展,其可減輕醫生的工作量,避免主觀因素影響,提高診斷準確率。Shen等[1]提出一種多尺度融合的卷積網絡,融合不同尺度感受野特征來增強網絡特征提取能力,識別率達到86.8%;張弛名等[2]引入遷移學習方法實現肺結節的輔助診斷,準確率達91.44%;張物華等[3]利用多模型融合策略來診斷肺炎X光圖像,準確率為89.08%;吳柯薇等[4]基于深度殘差網絡對冠狀動脈CT血管造影圖像斑塊進行識別,取得86.82%的準確度。實際應用中,由于CT、X光片等影像數據相對匱乏且難以獲取,上述深度模型往往面臨訓練難、易過擬合等問題。醫學圖像分類中涉及更多的是細粒度圖像分類,其難點在于圖像所屬的類別粒度更加精細。常規醫學圖像中病變組織與正常組織間往往僅在紋理、邊緣等細微處存在差異,肉眼識別存在諸多非客觀因素,尤其對經驗不足的醫師來說,疫情背景下對醫學圖像的診斷面臨巨大心理挑戰。
針對該問題,本研究構建了一種新的基于跨層連接機制的多主干網絡特征融合卷積模型,利用多尺度感受野融合思想來捕獲醫學圖像局部細節,實現COVID-19醫學影像的篩查,提高診斷準確率。仿真中引入COVID-19的X光數據集及CT數據集來驗證所提算法及模型的性能;實驗表明所提方法能夠提升影像診斷的準確率。
傳統圖像特征提取往往采用人工干預的方式,如Sobel、Robert等算子提取邊緣特征,LBP算子提取紋理特征等思路[5-6]。該方式通常針對某一屬性特征,難以兼顧像素點及區域特征的多模態性,無法表征圖像整體特性。而基于卷積神經網絡的圖像特征提取技術能夠自主分析像素聯系,無需顧慮圖像背景或亮度的變化,體現了自適應性。
傳統卷積網絡模型中因網絡層間缺乏跨層式信息互通,經多層卷積、池化后信息損失也越來越多,尤其是醫學影像中的細小紋理特征易被忽略,影響診斷。本研究借鑒UNet模型[7],在第3層卷積層后進行反卷積(Deconv)操作,并將反卷積特征與第2層的卷積特征相融合,得到跨層連接的融合特征。對于醫學圖像的分類,涉及較多的是細粒度分類,反卷積通過將各像素點分離,可更好地提取病變部位的細節信息。最后通過Concat操作將大、小尺度特征信息融合,即使較淺層次網絡也能達到較好的分類效果。跨層連接模型見圖1。

圖1 跨層連接模型示意圖Fig.1 Schematic diagram of cross-layer connection model
現有卷積網絡模型采用主干網絡來提取深層特征,其分類器性能在很大程度上取決于主干網絡所提取的特征;故通常做法是增加卷積層數目,如ResNet、DenseNet等可訓練至上千層[8-9]。但醫學圖像中數據維度相對較少,過度增加卷積層易導致過擬合現象。由文獻[10]知,擴增主干網絡并行處理性能可提高分類器的準確率。在此,基于跨層連接機制,引入一種多主干網絡并行組合的特征融合分類模型,見圖2。

圖2 基于跨層連接多主干網絡組合的特征融合模型
圖2中采用雙主干網絡,兩個網絡結構完全相同,將主干網絡1的特征圖與網絡2的對應特征圖疊加之后繼續傳遞給網絡2,同時將部分深層、淺層特征一起傳遞給全連接層。若將每一層特征圖都進行融合,將導致計算量暴增。因此,為降低計算量,僅對第3、4、5層的池化層特征融合,同時將第3、5層的池化特征一起傳遞給全連接層,深層、淺層的語義信息互通交流,增強了模型的抽象能力。
肺炎患者影像早期主要是多發的小斑片狀影及間質性改變,多以肺外側帶為主,進而發展成兩肺多發的磨玻璃狀影以及浸潤影[11];由文獻[12]知,新型冠狀病毒肺炎影像與正常肺部影像的典型區別在于其紋理特征;該特征作為一種全局信息,可用卷積神經網絡來深度分析。本研究所用數據集來源分為兩部分,見圖3,其中COVID-19為新型冠狀病毒檢測成陽性患者的影像[13],Normal為新型冠狀病毒檢測成陰性患者的影像[14]。原始圖像尺寸大小不一,首先對數據集進行歸一化,并調整其尺寸為244×244。

圖3 數據集示例Fig.3 The data set sample
另考慮到醫學影像成像過程中的機器噪聲、組織、脂肪覆蓋、臟器重疊導致各類的噪聲,以及灰度對比不突出等問題,都可能嚴重影響后續分類器性能,本研究先采取自適應直方圖均衡、高斯濾波等思路對醫學圖像進行預處理,然后再構建卷積網絡進行訓練識別。
本研究將圖像劃分成幾個區域分別對其進行直方圖均衡化操作,然后再利用線性插值法來減弱各個區域邊界處的區塊效應,優化均衡化的效果,保留醫學圖像中更多的細節信息,見圖4。

(a)原始圖像 (b)直方圖均衡化 (c)自適應直方圖均衡化圖4 圖像處理比較示意圖Fig.4 Comparison of image processing
高斯濾波過程主要是對輸入圖像計算加權平均,濾波后圖像像素值均為原像素值和掩膜內的像素值加權平均所得,濾波后的圖像更加平滑柔和,有效避免了振鈴效應;同時,濾波后每一像素點的權值隨著到中心點的距離單調變化,靠近中心的像素值的權重也更高,可更好地保留圖像的邊緣信息,且平滑程度隨高斯方差參數的變化而變化,通過調節參數可在圖像特征過分模糊、過多突變量間取折中,見圖5。

圖5 高斯濾波前后圖像比較
本研究在CAFFE深度學習環境進行,使用NVidia GTX 1050ti 4GB進行GPU加速,最大迭代次數(iteration)設置為3000次,基礎學習率(base_lr)為0.001,學習率(lr)下降策略為inv,Gamma(γ)為0.0001,power為0.75,學習率下降公式如下:
lr=base_lr·(γ·Iteration+1)-power
(1)
首先,比較LeNet模型、跨層連接模型、多主干網絡以及嵌入跨層連接機制的多主干特征融合網絡模型對新冠肺炎影像的識別準確率隨訓練迭代次數變化,見圖6。

圖6 不同模型識別準確率Fig.6 The recognition accuracy of different models
由圖6可看出,3 000次迭代下4種模型中LeNet識別準確率最低,僅為92.7%;而其他3種模型趨于95%左右,可見跨層連接模型、多主干網絡以及嵌入跨層機制的多主干特征融合模型對于肺部特征的抽取能力更好。對比這幾種模型發現,跨層連接的多主干網絡特征融合模型在較少的迭代次數下達到更高的準確率,迭代次數1 000次左右時,就已達到了95%以上的識別準確率,而單純的多主干網絡、跨層連接模型的識別準確率僅為90%左右,表明前者對于深層和淺層的語義信息利用更加豐富,是一種抽象能力更強的模型。
其次,對于所提模型設置不同的全連接神經元個數以及不同的基礎學習率進行訓練,可觀察到相關參數對模型性能影響,見圖7—圖9。

圖7 不同全連接層神經元個數對準確率的影響Fig.7 The impact of neurons number in FC layers on the accuracy

圖8 不同基礎學習率對準確率的影響Fig.8 The impact of different basic learning rates on the accuracy

圖9 不同基礎學習率對損失函數的影響Fig.9 The impact of different basic learning rates on the loss function
圖7中觀察不同全連接層神經元個數對模型準確率的影響可發現,當神經元個數較少時,在訓練開始階段(500迭代以內)準確率相對較低;而當神經元個數較多時,訓練初始階段準確率略高,但在訓練后期相較其他兩種較少神經元個數的準確率有所下降。這是因為全連接層的神經元個數增加時,一定程度上可提高網絡模型對于復雜函數的擬合性能,但是過多神經元個數也可能導致過擬合現象,因此需設置合適的全連接層神經元個數,或采用Dropout技術來抑制過擬合。
由圖8和圖9觀察不同基礎學習率對模型性能的影響可發現,當學習率過高時(lr=0.006),模型準確率沒有提升,且損失函數也在震蕩,無法收斂;表明過高的學習率無法得到模型最優解。而當學習率過低時(lr=0.00005),模型損失函數收斂速度緩慢,訓練時間過長,表明過低學習率難以在短時間內收斂。因此,只有在合適范圍內選擇相對較高的學習率,在相同迭代次數下可達到更高準確率,且模型可在更短的時間內得到全局最優解。
將跨層機制的多主干網絡特征融合模型應用于COVID-19 CT數據集,設置基礎學習率為 0.0005,其準確率和損失函數隨迭代次數的變化,見圖10。

圖10 多主干網絡組合的特征融合模型在新冠肺炎CT數據集中的表現Fig.10 Performance of multi-backbone network feature fusion model in CT data set
由圖10可看出,該模型在COVID-19 CT數據集中也取得了較高識別準確率,達到92.5%,且損失函數在6 000次訓練迭代下明顯下降,具有較強的穩健性。
綜上,本研究所提網絡模型利用融合思想將不同隱含層的特征融合為具有多視角層次的特征,在特征融合過程中實現了深淺層特征的互通交流,使得多種局部特征可優勢互補,消除了不同特征集間的冗余信息,通過將CNN特征進行高階綜合,該“粗細結合”的方式可更好地把握細粒度特征。另外,本研究采取多主干策略,其分支在開始訓練時處于隨機初始化狀態,使得不同主干的同一層權重也不盡相同,模型自適應性、穩健性大大增強。
本研究構建了一種新的基于跨層連接機制的多主干網絡特征融合卷積模型,利用多尺度感受野挖掘融合思想來捕獲醫學圖像局部細節,仿真中引入COVID-19 X光數據集及CT數據集來驗證所提算法及模型的性能。實驗證明,本研究所提模型能夠大幅提升醫學影像診斷的準確率,對于解決COVID-19疫情背景下的快速、準確、高效診斷具有重大的社會意義。