周 濤,彭彩月*,杜玉虎,黨 培,劉鳳珍,陸惠玲
(1.北方民族大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,寧夏 銀川 750021;2.北方民族大學(xué) 圖像圖形智能處理國(guó)家民委重點(diǎn)實(shí)驗(yàn)室,寧夏 銀川 750021;3.寧夏醫(yī)科大學(xué) 醫(yī)學(xué)信息與工程學(xué)院,寧夏 銀川 750004)
肺炎作為一種常見(jiàn)的胸部疾病,是由微生物和其他環(huán)境因素引起的呼吸道感染。它導(dǎo)致肺部積液和呼吸困難,對(duì)人體的呼吸系統(tǒng)造成了嚴(yán)重的危害。2019 年下半年爆發(fā)的新型冠狀病毒感染(Corona Virus Disease2019,COVID-19),已影響全球人口的健康[1]。傳統(tǒng)的肺炎診斷手段主要依賴于醫(yī)生多年的臨床經(jīng)驗(yàn),可能存在主觀誤差,且難以大規(guī)模實(shí)施。胸部影像學(xué)在肺部感染性病變的診斷中具有重要的價(jià)值,對(duì)患者進(jìn)行療效評(píng)價(jià)可利用高分辨率胸部CT[2]及X 線檢查[3]。利用深度學(xué)習(xí)技術(shù)對(duì)患者肺部影像特征進(jìn)行分析,從而進(jìn)行病情評(píng)估,能夠降低復(fù)雜的醫(yī)學(xué)數(shù)據(jù)給醫(yī)務(wù)人員帶來(lái)的負(fù)擔(dān),提高診斷效率,輔助醫(yī)生盡快形成針對(duì)性診療方案[4]。
殘差神經(jīng)網(wǎng)絡(luò)(Residual Neural Network,ResNet)[5]廣泛應(yīng)用在醫(yī)學(xué)圖像領(lǐng)域,目前在肺部疾病的臨床輔助診斷方面取得了良好的效果。Zhou 等[6]提出一種基于CT 圖像的改進(jìn)的注意力ResNet 新冠肺炎識(shí)別模型,以適應(yīng)新冠肺炎病灶區(qū)域的特性,實(shí)現(xiàn)對(duì)于新冠肺炎的識(shí)別。Chen等[7]提出一種基于Inception-ResNet的COVID-19診斷三分類模型,在Inception-Resnet 中使用自注意力機(jī)制對(duì)肺部病變進(jìn)行分類,進(jìn)一步提升了卷積神經(jīng)網(wǎng)絡(luò)的分類性能。Huang 等[8]提出了一種名為非局部通道注意力ResNet 的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),將ResNet 與非局部模塊和信道注意力機(jī)制相結(jié)合,用于監(jiān)測(cè)COVID-19 PN 患者的肺水腫程度,幫助臨床醫(yī)生為患者制定適當(dāng)?shù)闹委煼椒āajpal 等[9]提出了一種注意力瓶頸殘差網(wǎng)絡(luò)(ABResNet)對(duì)COVID-19 的正常和異常病例進(jìn)行分類,并通過(guò)提出的基于邊緣的圖切割分割(EGCS)來(lái)定位疾病感染區(qū)域,在精度更高的同時(shí)實(shí)現(xiàn)了有效的網(wǎng)絡(luò)性能。Chen 等[10]提出雙非對(duì)稱特征學(xué)習(xí)網(wǎng)絡(luò)DualCheXNet,用于多標(biāo)簽胸部疾病分類,通過(guò)結(jié)合ResNet 和DenseNet,從胸部圖像中捕獲更多的判別特征,提高胸部疾病分類性能。吳宣言等[11]提出一種深層聚合殘差密集網(wǎng)絡(luò)(DLA-RDNet),用于超聲圖像左心室分割,在下采樣部分,結(jié)合ResNet 與DenseNet 的優(yōu)勢(shì)提出殘差密集網(wǎng)絡(luò)(RDNet),充分利用所有卷積層的層次信息,實(shí)現(xiàn)了較高的增長(zhǎng)率。李鏘等[12]提出一種結(jié)合三重注意力機(jī)制的雙路徑卷積神經(jīng)網(wǎng)絡(luò)(TADPN),將ResNet 和DenseNet 結(jié)合的雙路徑網(wǎng)絡(luò)(Double Path Network,DPN)作為骨干網(wǎng)絡(luò),并利用3 種不同形式的注意力機(jī)制改進(jìn)DPN,在維持參數(shù)量穩(wěn)定的同時(shí)提高網(wǎng)絡(luò)復(fù)雜度,進(jìn)而提升對(duì)胸片疾病的分類精度。
肺部X 射線圖像病變區(qū)域多樣化,存在分布廣泛、形狀復(fù)雜、大小不一等特點(diǎn),且圖像中病灶區(qū)域存在與周圍組織對(duì)比度有限、邊界不清晰的問(wèn)題,肺炎感染癥狀的特異性會(huì)導(dǎo)致模型不能很好地關(guān)注圖像中的病變區(qū)域,難以充分提取病變區(qū)域的有效特征進(jìn)行分類。針對(duì)上述問(wèn)題,本文設(shè)計(jì)了組注意力雙殘差模塊(Group Attention Dual Residual Module,GADRM),采用通道混洗、通道注意力與空間注意力進(jìn)行高效的特征提取,融合不同通道之間的特征信息,使用兩個(gè)不同操作的殘差連接同時(shí)對(duì)特征進(jìn)行重復(fù)挖掘利用,增強(qiáng)單個(gè)模塊對(duì)病變區(qū)域特征的提取能力;設(shè)計(jì)了全局局部特征提取模塊(Global Local Feature Extraction Module,GLFEM),在特征提取網(wǎng)絡(luò)末端結(jié)合CNN 和Transformer 的優(yōu)勢(shì),使得網(wǎng)絡(luò)同時(shí)關(guān)注全局以及局部的高語(yǔ)義特征信息,進(jìn)一步增強(qiáng)網(wǎng)絡(luò)的語(yǔ)義特征提取能力;構(gòu)造了跨層雙注意力特征融合模塊(Cross-layer Dual Attention Feature Fusion Module,CDAFFM),利用空間注意力增強(qiáng)淺層網(wǎng)絡(luò)的紋理、形狀等低語(yǔ)義信息,對(duì)深層網(wǎng)絡(luò)的高語(yǔ)義信息進(jìn)行通道增強(qiáng),將二者融合獲得更豐富的上下文信息,對(duì)網(wǎng)絡(luò)提取到的跨層特征進(jìn)行增強(qiáng)。
ResNet 的出現(xiàn)有效緩解了由于網(wǎng)絡(luò)深度增加帶來(lái)的梯度消失和網(wǎng)絡(luò)退化問(wèn)題,能夠加快神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度,并且大幅提升深度網(wǎng)絡(luò)的泛化能力和穩(wěn)定性,常用于醫(yī)學(xué)圖像的肺部分類。然而,肺部X 射線圖像的病灶區(qū)域較小、形狀復(fù)雜,與正常組織間的邊界模糊,模型常常無(wú)法提取圖像的全局特征和局部特征,且難以聚焦于病灶區(qū)域。此外,原始?xì)埐罹W(wǎng)絡(luò)采用卷積操作進(jìn)行特征提取,無(wú)法獲得病灶的全局信息。
為了有效利用X 光圖像中的全局與局部病變區(qū)域特征,提高模型對(duì)于不同類型肺炎的識(shí)別能力,本文提出面向特征增強(qiáng)的雙殘差Res-Transformer 肺炎識(shí)別模型DRT Net。該模型的整體結(jié)構(gòu)如圖1 所示,包含GADRM(A)、CDAFFM(B)以及GLFEM(C)。DRT Net 利用Res-Transformer 結(jié)構(gòu)對(duì)于肺炎圖像的全局特征提取能力與局部特征提取能力,結(jié)合3 種不同的特征增強(qiáng)策略提升模型對(duì)于病變區(qū)域的感知能力。

圖1 DRT Net 整體框架Fig.1 Overall framework of DRT Net
殘差單元通過(guò)殘差連接實(shí)現(xiàn)恒等映射,避免由于網(wǎng)絡(luò)加深而造成的梯度消失問(wèn)題。殘差連接有Add 型殘差連接和Concat 型殘差連接[13]。其中,Add 型殘差連接將尺寸相同的輸入圖像和輸出圖像進(jìn)行元素級(jí)相加,從而進(jìn)行特征重用;Concat 操作是在特征圖尺寸相同的情況下進(jìn)行通道拼接,對(duì)特征圖進(jìn)行通道方向的擴(kuò)張,將特征信息進(jìn)行融合。
基礎(chǔ)的殘差網(wǎng)絡(luò)性能有限,對(duì)于圖像特征感知不充分。本文設(shè)計(jì)的GADRM 如圖2 所示,首先構(gòu)造雙殘差結(jié)構(gòu),該結(jié)構(gòu)結(jié)合兩種不同方式的殘差連接對(duì)特征進(jìn)行重復(fù)挖掘利用與探索,提高模塊對(duì)于病變區(qū)域特征的提取能力。其次,利用通道混洗操作將組卷積之后的特征圖之間的通道信息進(jìn)行融合,將融合后的特征圖組劃分為4個(gè)子組,執(zhí)行不同的特征轉(zhuǎn)換。然后,使用深度可分離卷積提取各組特征并進(jìn)行融合,提高組內(nèi)特征的可識(shí)別性。最后,結(jié)合擠壓激勵(lì)操作與空間注意力操作構(gòu)造GADRM,增強(qiáng)模塊的特征表達(dá)能力。

圖2 組注意力雙殘差模塊Fig.2 Group attention dual residual module
GADRM 模塊的詳細(xì)流程包括4 個(gè)階段。
階段一:將特征圖M 按通道數(shù)劃分為兩組,M1包含四分之三通道數(shù),M2包含四分之一通道數(shù)。特征圖M 首先經(jīng)過(guò)1×1 的卷積操作并在通道維度進(jìn)行分組,得到8 組特征圖Groupi,其中i=1,2,…,8,每組特征圖通道數(shù)是輸入特征圖的1/8。
階段二:將每組特征圖Groupi在通道維度平均劃分為4 組,每組特征圖用Xr表示,其中r=1,2,3,4。該階段主要有3 個(gè)步驟。
步驟一:首先將輸入特征Xr進(jìn)行通道混洗,其流程如圖3 所示。首先通過(guò)Reshape 操作將輸入通道從一維變成兩維,其中一維表示卷積組數(shù),另一維是每個(gè)卷積組包含的通道數(shù);然后,進(jìn)行Transpose 操作將擴(kuò)展出的兩維進(jìn)行置換;最后進(jìn)行Flatten 展平操作,將置換后的通道展平,完成最后的通道混洗。計(jì)算過(guò)程如下:

圖3 通道混洗操作Fig.3 Channel shuffle operation
其中r=1,2,3,4。
步驟二:使用DWConv()表示GADRM 中3×3 深度可分離卷積(圖2 中3×3DWConv),并使用Yr表示DWConv()的輸出。計(jì)算過(guò)程如下:
式中r=1,2,3,4。
步驟三:利用通道映射之間的相互依賴性可以改進(jìn)特定語(yǔ)義的特征表示。將第r組的特征圖Yr輸入到SE 模塊[14]。首先,通過(guò)自適應(yīng)全局平均池化(Global Average Pooling,GAP)將特征層的長(zhǎng)寬進(jìn)行壓縮,只留下通道維度的信息。然后,使用兩個(gè)全連接層FCSigmoid和FCRelu對(duì)通道信息進(jìn)行加權(quán),得到各分組通道的權(quán)重:
式中r=1,2,3,4。
最后將各通道的權(quán)重與各分組特征圖相乘,得到通道加權(quán)特征圖:
式中:r=1,2,3,4,i=1,2,…,8。
階段三:利用空間注意模塊來(lái)聚合空間關(guān)系,使網(wǎng)絡(luò)更加關(guān)注圖像的病灶區(qū)域,如圖4 所示。首先將所有組得到的特征圖Gi進(jìn)行求和得到:

圖4 擠壓激勵(lì)模塊和空間注意力模塊Fig.4 Squeeze excitation module and spatial attention module
式中i=1,2,…,8。
接著對(duì)特征圖G使用全局平均池化(Global Average Pooling,GAP)和全局最大池化(Global Max Pooling,GMP)來(lái)獲取兩種不同的上下文信息;將兩個(gè)特征圖GAP(G)∈R1×H×W和GMP(G)∈R1×H×W拼接起來(lái),再通過(guò)一個(gè)3×3 的卷積操作獲得特征圖G空間維度的權(quán)重:
式中,Concat 表示特征圖拼接操作,Conv 表示一個(gè)標(biāo)準(zhǔn)的3×3 卷積操作。
最后在權(quán)重W和輸入特征圖G之間進(jìn)行逐元素乘法運(yùn)算,得到最終的空間注意力圖:
階段四:最后特征圖N經(jīng)過(guò)一個(gè)1×1 卷積層操作后,按通道數(shù)將其劃分成兩部分,四分之三個(gè)通道的特征圖N1被添加到下方跳躍連接路徑中,與初始特征圖M1相加;另外四分之一個(gè)通道的特征圖與上方跳躍連接路徑的初始模塊做拼接操作;最終將通道合并作為輸出。其數(shù)學(xué)表示如下:
其中:Output 表示該模塊的最終輸出,Concat 表示特征圖沿通道方向的拼接操作。
CNN 具有平移不變性和局部敏感性等歸納偏置,可以很好地捕捉圖像細(xì)粒度特征和局部信息,是計(jì)算機(jī)視覺(jué)領(lǐng)域的主流模型[15]。但是CNN 感受野有限,現(xiàn)有的CNN 方法通常只使用從網(wǎng)絡(luò)深層提取的高級(jí)語(yǔ)義信息進(jìn)行分類,不具備獲取全局信息的能力,這會(huì)導(dǎo)致有用信息的丟失,使模型的分類效果不佳。Transformer 編碼器解碼器結(jié)構(gòu)使并行計(jì)算得以實(shí)現(xiàn),提高了模型的訓(xùn)練效率,并且利用自注意力機(jī)制能夠捕獲數(shù)據(jù)之間的長(zhǎng)距離信息和依賴關(guān)系。
本文在網(wǎng)絡(luò)深層設(shè)計(jì)了一個(gè)GLFEM 同時(shí)提取局部信息和全局信息。該模塊對(duì)高層語(yǔ)義信息進(jìn)行全局建模,同時(shí)融合CNN 和Transformer 的優(yōu)勢(shì),提取更豐富的特征信息,能夠使網(wǎng)絡(luò)充分提取病變區(qū)域的有效特征,從而提升網(wǎng)絡(luò)對(duì)于肺炎疾病的分類性能。GLFEM 的具體流程如圖5 所示,該模塊由局部信息編碼模塊、全局信息編碼模塊和特征融合模塊3 個(gè)子模塊組成,它們進(jìn)行的操作分別為圖像局部特征信息提取、圖像全局特征信息提取以及特征信息融合。

圖5 全局局部特征提取模塊Fig.5 Global local feature extraction module
首先特征圖X∈RH×W×C進(jìn)入局部信息編碼模塊,通過(guò)一個(gè)卷積核大小為3×3 的卷積層進(jìn)行局部信息編碼,然后通過(guò)一個(gè)卷積核大小為1×1 的卷積層進(jìn)行通道數(shù)的調(diào)整,通過(guò)學(xué)習(xí)輸入通道的線性組合將張量投影到高維空間,此時(shí)X∈RH×W×d。
其次,通過(guò)Unfold,Transformer,F(xiàn)old 結(jié)構(gòu)進(jìn)行全局的特征建模。為了使網(wǎng)絡(luò)能夠?qū)W習(xí)具有空間歸納偏置的全局表示,先將輸入的特征圖劃分成Patch。此時(shí)特征圖表示為XU,且XU∈RP×N×d。其中P=WH,N為Patch 的個(gè)數(shù)且N=HW/P,H和W分別為Patch 的高度和寬度。如圖5 所示,通過(guò)Unfold 操作將相對(duì)位置相同的特征圖拼接在一塊,即圖中顏色相同的位置,分別在每個(gè)塊內(nèi)進(jìn)行自注意力計(jì)算,相應(yīng)地減少計(jì)算量。然后將拼成的一個(gè)序列輸入到Transformer進(jìn)行建模。
然后,通過(guò)應(yīng)用Transformer 來(lái)編碼patch 間關(guān)系,其數(shù)學(xué)表示如下:
通過(guò)Fold 操作將計(jì)算完自注意力的特征圖組重新按照相對(duì)位置還原為初始形狀。與丟失像素空間順序的視覺(jué)Transformer 相比,該模塊同時(shí)保留了Patch 的順序與每個(gè)Patch 內(nèi)像素的空間順序。
將全局特征建模后的特征塊XG通過(guò)1×1卷積將通道數(shù)調(diào)整回原始大小,通過(guò)一個(gè)殘差連接與原始輸入特征圖沿通道方向進(jìn)行拼接,最后再通過(guò)一個(gè)3×3 的卷積層進(jìn)行特征融合得到輸出。
CNN 中的卷積操作在提取特征的同時(shí)丟失了底層的紋理細(xì)節(jié),使得高層次特征和低層次特征分布在網(wǎng)絡(luò)兩端。高層次特征具有更強(qiáng)的語(yǔ)義信息,但分辨率低且對(duì)細(xì)節(jié)的感知能力較差;淺層特征分辨率高,包含更多位置細(xì)節(jié)、邊緣和紋理等信息,但由于特征提取不充分,其語(yǔ)義性低且噪聲多。此外,特征提取網(wǎng)絡(luò)中不同層關(guān)注的信息也是有差異的,利用不同層的特征融合上下文信息能夠提升網(wǎng)絡(luò)的分類性能。然而,簡(jiǎn)單的相加易造成信息冗余,并不能充分利用二者的優(yōu)勢(shì),因此本文設(shè)計(jì)了CDAFFM,用淺層語(yǔ)義信息彌補(bǔ)深層語(yǔ)義信息的缺失,如圖6 所示。將淺層網(wǎng)絡(luò)的紋理、形狀等低語(yǔ)義信息利用空間注意力進(jìn)行增強(qiáng),將深層網(wǎng)絡(luò)的高語(yǔ)義信息進(jìn)行通道增強(qiáng)。篩選后的通道和空間信息相加,使圖像淺層上下文信息與深層上下文信息進(jìn)行高效融合,保留更多有用信息,提升模型的分類性能。

圖6 跨層雙注意力特征融合模塊Fig.6 Cross-layer dual attention feature fusion module
對(duì)于原始輸入的低層特征圖A,經(jīng)過(guò)3 個(gè)相同的1×1 卷積操作進(jìn)行特征映射,得到特征圖B,C,D。對(duì)于特征圖B和特征圖C,其原始尺寸為C×H×W,將二者從三維特征經(jīng)Reshape 操作轉(zhuǎn)換到二維特征,尺寸變?yōu)镃×N(N=H×W),之后將特征圖B進(jìn)行轉(zhuǎn)置,其形狀變?yōu)镹×C,并與特征圖C相乘,獲得空間注意力值Wspatial;特征圖D同樣經(jīng)過(guò)Reshape 操作變?yōu)镃×N,將特征圖D與Wspatial相乘獲得空間維度上篩選后的特征圖,最后將特征圖Reshape 為C×H×W。
空間注意特征圖的計(jì)算過(guò)程如下:
式中:Sji度量第i個(gè)位置對(duì)第j個(gè)位置的影響,即第i個(gè)位置和第j個(gè)位置之間的關(guān)聯(lián)程度,其值越大越相似。其輸出為:
其中:α表示尺度系數(shù),初始化為0,通過(guò)逐漸地學(xué)習(xí)分配到更大的權(quán)重。在每個(gè)位置處得到的結(jié)果特征M是所有位置上的特征和原始特征的加權(quán)和,它具有全局上下文視圖,并根據(jù)空間注意力圖選擇性地聚合上下文,使相似的語(yǔ)義特征相互增益,從而提高類內(nèi)緊湊性和語(yǔ)義一致性。
對(duì)于高語(yǔ)義的特征圖E,則不經(jīng)過(guò)1×1 卷積操作進(jìn)行特征映射,直接進(jìn)行Reshape 操作分別獲得二維特征圖F,G,H。將特征圖F進(jìn)行轉(zhuǎn)置使得其形狀變?yōu)镹×C(N=H×W),轉(zhuǎn)置后的特征圖F與G相乘獲得通道維度的注意力值Wchan-nel,將Wchannel與特征圖H相乘獲得通道維度上篩選后的特征圖,最后將特征圖Reshape 為C×H×W。
通道注意特征圖的計(jì)算如下:
式中Xji為第i個(gè)通道對(duì)第j個(gè)通道的影響值。其輸出為:
其中:β表示尺度系數(shù),初始化為0,經(jīng)過(guò)逐漸學(xué)習(xí)分配到更大的權(quán)重。每個(gè)通道的結(jié)果特征為N,表示所有通道特征和原始特征的加權(quán)和。
最后,將高低層篩選后的特征圖相加獲得特征結(jié)果圖。
本文使用的數(shù)據(jù)集為公開(kāi)數(shù)據(jù)集COVID-19 CHEST X-RAY DATABASE[16-17],該數(shù)據(jù)集由來(lái)自卡塔爾大學(xué)和達(dá)卡大學(xué)的研究人員以及來(lái)自巴基斯坦和馬來(lái)西亞的合作者與醫(yī)生合作創(chuàng)建。分類實(shí)驗(yàn)選取其中的COVID-19 陽(yáng)性病例、正常肺部圖像以及病毒性肺炎圖像,如圖7 所示。將數(shù)據(jù)集經(jīng)簡(jiǎn)單篩選后重新分成訓(xùn)練集和驗(yàn)證集。其中,訓(xùn)練集包括2 893 張COVID-19陽(yáng)性病例圖像、2 400 張正常肺部圖像以及1 076張病毒性肺炎圖像;測(cè)試集包括723 張COVID-19 陽(yáng)性病例圖像、600 張正常肺部圖像以及269張病毒性肺炎圖像。將所有不同尺寸的原始圖像縮放至224×224 像素,然后轉(zhuǎn)換為向量格式并進(jìn)行像素值歸一化處理。

圖7 數(shù)據(jù)集展示Fig.7 Dataset display
通過(guò)對(duì)分類模型實(shí)驗(yàn)結(jié)果的定量對(duì)比,能夠判斷分類模型的優(yōu)劣。本文主要以準(zhǔn)確率(Accuracy,A)、平均精確率(Precision-Macro,P)、平均召回率(Recall-Macro,R)、平均F1 值(F1 score-Macro,F(xiàn)1)和AUC 值為評(píng)價(jià)指標(biāo),分析了改進(jìn)的網(wǎng)絡(luò)模型對(duì)肺炎分類效果的影響。
評(píng)價(jià)指標(biāo)的數(shù)學(xué)表達(dá)式如下:
其中:TN,TP,TN 和FN 分別表示真陽(yáng)性、假陽(yáng)性、真陰性和假陰性的數(shù)量,TP 是正確標(biāo)記為陽(yáng)性的模型預(yù)測(cè)結(jié)果的數(shù)量,F(xiàn)P 是錯(cuò)誤標(biāo)記為陽(yáng)性的模型預(yù)測(cè)結(jié)果的數(shù)量,TN 是正確標(biāo)記為陰性的模型預(yù)測(cè)結(jié)果的數(shù)量,F(xiàn)N 是錯(cuò)誤標(biāo)記為陰性的模型預(yù)測(cè)結(jié)果的數(shù)量。
本文在三分類模型中單獨(dú)計(jì)算每一類的評(píng)價(jià)指標(biāo),最后求評(píng)價(jià)指標(biāo)的算術(shù)平均。此外,AUC 被定義為ROC 曲線下與坐標(biāo)軸圍成的面積,作為數(shù)值可以直觀地評(píng)價(jià)分類器的好壞。AUC 越大,分類器效果越好。
實(shí)驗(yàn)環(huán)境為Windows Server 2019 Datacenter 的64 位系統(tǒng),搭載Intel Xeon Gold 6154,3.0GHz x36 CPU 處理器,計(jì)算機(jī)內(nèi)存為256 GB,采用兩塊并行的TITAN Ⅴ顯卡加速圖像處理,程序編寫采用Python 語(yǔ)言,基于GPU 版本的Pytorch 框架進(jìn)行網(wǎng)絡(luò)搭建和訓(xùn)練。使用Adam 優(yōu)化器進(jìn)行優(yōu)化,學(xué)習(xí)率衰減值設(shè)置為0.000 1,對(duì)于肺部X 射線數(shù)據(jù)集的訓(xùn)練周期設(shè)為150,訓(xùn)練批處理大小設(shè)置為8。損失函數(shù)使用交叉熵?fù)p失。
為了評(píng)估模塊的有效性,通過(guò)不同的網(wǎng)絡(luò)模型來(lái)測(cè)試各個(gè)模塊,評(píng)估指標(biāo)包括準(zhǔn)確率(A)、宏平均精確率(P)、宏平均召回率(R)、宏平均F1 值和AUC 值,如表1 所示。本文在DPN92 網(wǎng)絡(luò)的基礎(chǔ)上依次進(jìn)行8 項(xiàng)實(shí)驗(yàn)。Network1:DPN92 網(wǎng)絡(luò);Network2:添加CDAFFM 的DPN92 網(wǎng)絡(luò);Network3:與GLFEM 結(jié)合的DPN92 網(wǎng)絡(luò);Network4:將初始特征提取塊改為GADRM 的網(wǎng)絡(luò);Network5:使用 CDAFFM 以及 GLFEM 的DPN92 網(wǎng)絡(luò);Network6:使用GADRM 以及GLFEM 的網(wǎng)絡(luò);Network7:使用GADRM 以及CDAFFM 的網(wǎng)絡(luò);Network8:本文所提出的DRT Net。

表1 消融實(shí)驗(yàn)結(jié)果對(duì)比Tab.1 Result comparison of ablation experiments
與Network1 相比,Network2 在添加了CDAFFM 模塊后的性能參數(shù)均有所提升,準(zhǔn)確率、精確率、召回率、F1 值與AUC 值分別提升了0.33%,1.42%,1.29%,1.87%與0.17%,由此證明CDAFFM 模塊能夠?qū)⒉煌A段的特征融合增強(qiáng),增強(qiáng)了模型對(duì)特征的提取能力;Network3 在添加GLFEM 模塊后的準(zhǔn)確率、精確率、召回率、F1 值與AUC 值分別提升了0.49%,1.60%,1.79%,2.08%與0.28%,證明了GLFEM 模塊的有效性;Network4 在添加GADRM 模塊后的準(zhǔn)確率提升了0.55%,精確率提升了2.35%,召回率提升了4.01%,F(xiàn)1 值提升了3.83%,AUC 值提升了0.44%,由此驗(yàn)證了GADRM 模塊能夠使網(wǎng)絡(luò)具有更好的提取特征。
添加兩個(gè)模塊的Network5,6,7 的各項(xiàng)評(píng)價(jià)指標(biāo)又高于只添加一個(gè)模塊的Network2,3,4;添加GADRM,GLFEM 與CDAFFM 3 個(gè)模塊的DRT Net 性能最好,且與初始的Network1 模型相比,肺炎分類的準(zhǔn)確率從初始的96.92%上升到 98.41%,精確率從 91.28% 上升到94.42%,召回率從90.26%上升到94.20%,F(xiàn)1值從 90.03% 上升到 94.26%,AUC 值從98.84% 上升到99.65%。由此可知,本文所提出的DRT Net 性能最優(yōu),在肺部X 射線圖像數(shù)據(jù)集上對(duì)于肺炎的分類性能最佳。為了更直觀地進(jìn)行實(shí)驗(yàn)對(duì)比,繪制消融實(shí)驗(yàn)結(jié)果雷達(dá)圖,如圖8 所示。DRT Net 折線位于最外側(cè),模型性能最優(yōu)。此外,為了考察不同模型對(duì)于三類樣本分類預(yù)測(cè)的標(biāo)簽(Y-Pre)和真實(shí)情況(Y-True)之間的差異,本文采用混淆矩陣對(duì)消融實(shí)驗(yàn)測(cè)試結(jié)果進(jìn)行可視化,如圖9 所示。通過(guò)混淆矩陣對(duì)比可以看出,DRT Net 對(duì)三類樣本的識(shí)別更為均衡且分類效果更優(yōu),能夠?qū)崿F(xiàn)肺炎的準(zhǔn)確分類。

圖8 消融實(shí)驗(yàn)結(jié)果雷達(dá)圖Fig.8 Radar chart of ablation experiment results

圖9 消融實(shí)驗(yàn)中各模型的混淆矩陣Fig.9 Confusion matrix of each model in ablation experiments
為了驗(yàn)證本文模型對(duì)于肺炎的分類能力,在同一數(shù)據(jù)集[16-17]上 與 ResNet50[5],ResNet101[5],Res2Net50[18],DenseNet121[19],Resnext101[20],MobileNetV2[21]和DPN92[22]等網(wǎng)絡(luò)模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表2 所示。在經(jīng)過(guò)數(shù)據(jù)預(yù)處理的數(shù)據(jù)集上訓(xùn)練網(wǎng)絡(luò),本文模型的準(zhǔn)確率為98.41%,精度為94.42%,召回率為94.20%,F(xiàn)1 值為94.26%,AUC 值為99.65%,性能優(yōu)于其他網(wǎng)絡(luò),具有更好的分類性能。對(duì)比實(shí)驗(yàn)結(jié)果雷達(dá)圖如圖10 所示,DRT Net 折線位于最外側(cè),性能最好。本文采用混淆矩陣對(duì)各模型測(cè)試集的結(jié)果進(jìn)行可視化,結(jié)果如圖11所示。通過(guò)混淆矩陣對(duì)比可以看出,DRT Net對(duì)于三類樣本的識(shí)別能力相較其他分類網(wǎng)絡(luò)更為均衡且分類效果更優(yōu)。

圖11 各模型分類結(jié)果的混淆矩陣Fig.11 Confusion matrix of classification results for each model
本文提出了一種面向特征增強(qiáng)的雙殘差Res-Transformer 肺炎識(shí)別模型DRT Net,設(shè)計(jì)了GADRM,采用雙殘差結(jié)構(gòu)進(jìn)行高效的特征融合,將通道混洗、通道注意力、空間注意力與雙殘差結(jié)構(gòu)結(jié)合,提升模型對(duì)病灶區(qū)域特征的提取能力;在網(wǎng)絡(luò)末端采用GLFEM,結(jié)合CNN 和Transformer 的優(yōu)勢(shì)使網(wǎng)絡(luò)充分提取圖像的全局特征和局部特征,對(duì)高層語(yǔ)義信息進(jìn)行全局建模,獲得高層語(yǔ)義信息的全局特征;設(shè)計(jì)了CDAFFM,融合淺層網(wǎng)絡(luò)的紋理、邊緣等空間信息以及深層網(wǎng)絡(luò)的通道信息,進(jìn)一步增強(qiáng)網(wǎng)絡(luò)的特征提取能力。在COVID-19 CHEST X-RAY數(shù)據(jù)集上進(jìn)行相關(guān)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,DRT Net 網(wǎng)絡(luò)的準(zhǔn)確率、精確率、召回率、F1 值和AUC 值分別為98.41%,94.42%,94.20%,94.26%和99.65%。該模型能夠輔助放射科醫(yī)生使用胸部X 光影像診斷肺炎病例,對(duì)患者及時(shí)展開(kāi)針對(duì)性的治療。