王宇昕,付曉薇,趙思宇,陳 芳
(1.武漢科技大學 計算機科學與技術學院,湖北 武漢 430065;2.智能信息處理與實時工業系統湖北省重點實驗室,湖北 武漢 430065;3.武漢科技大學校醫院超聲影像科,湖北 武漢 430065)
乳腺癌是女性最常見的惡性腫瘤疾病之一,已經嚴重威脅到了女性的身心健康,盡早確診是防治乳腺癌的關鍵[1]。在多種乳腺癌成像技術中,超聲成像因其成本低、無輻射且信息采集實時成為了乳腺癌檢測的首選方法,對其早期診斷和治療具有重大意義。醫生通過形態學和紋理特征判斷超聲乳腺圖像中腫瘤的位置、尺寸和形狀,以此確定腫瘤的良惡性。但診斷結果依賴醫生的臨床經驗,存在一定的主觀性,易導致漏診與誤診[2]。
為此,計算機輔助診斷系統被廣泛應用于乳腺癌的臨床診斷。腫瘤區域的自動分割是該系統的關鍵步驟,分割結果的質量直接影響診斷結果的準確性和可靠性[3]。然而,精確的腫瘤分割需要經驗豐富的臨床醫生進行手動標注,過程耗時且影響診斷效率。另外,由于超聲圖像中存在大量散斑噪聲,導致腫瘤邊緣較為模糊,且不同個體的腫瘤形狀不一,為腫瘤區域的自動分割帶來了極大的挑戰。因此,超聲乳腺腫瘤圖像的分割具有重要的研究意義和臨床價值。
目前,研究人員對超聲乳腺腫瘤圖像的分割方法進行了大量研究。Horsch等人[4]首先采用一種基于閾值的分割算法,通過設置初始參數對超聲乳腺腫瘤圖像進行閾值處理。但該方法忽略了空間特征,分割結果受噪聲影響較大。Feng等人[5]提出一種自適應的模糊C均值(AFCM)聚類方法,通過設置初始聚類區域的數量和噪聲容忍水平對乳腺超聲圖像進行分割。此方法考慮了空間特征,在一定程度上克服了噪聲敏感問題。Cai等人[6]提出了一種基于相位的活動輪廓模型(PBAC),使用結合邊界和區域信息的能量泛函對乳腺腫瘤的邊界進行提取。這些傳統方法受人為初始參數設置影響較大,存在一定的局限性。因此,將傳統分割方法應用于超聲乳腺腫瘤分割的效果并不理想。
隨著深度學習技術的快速發展,大量的卷積神經網絡(CNN)模型已應用于圖像分割任務中。與傳統方法相比,基于CNN的方法無需手工設計提取特征,通過學習多層次的特征信息,即可對圖像的深層特征進行自動提取[7]。全卷積神經網絡(FCN)[8]將傳統CNN的全連接層替換為卷積層,實現了端到端的像素級分割。但該方法細節保留不充足,導致分割結果較粗糙。為此,Ronneberger等人[9]在FCN的每一層間引入跳躍連接,將細粒度的淺層特征與粗粒度的深層特征結合起來,提出了具有對稱編-解碼結構的U-Net模型。其中,編碼部分提取特征圖高分辨率的局部特征,用于獲取圖像的上下文信息,解碼部分用于還原各層的特征圖,表達圖像的全局特征。編-解碼結構間的跳躍連接能有效補充細節信息,有利于提高圖像分割的質量。
對于具有較少數據樣本的醫學圖像,U-Net能夠對其進行模型訓練并實現分割[10]。Almajalid等人[11]最先將U-Net應用到超聲乳腺腫瘤分割中,但受U-Net中感受野大小固定的影響,分割后的圖像細節仍存在部分缺失。Zhou等人[12]設計了具有嵌套結構和密集跳躍連接的UNet++,根據不同規模的數據集,對多尺度特征進行不同層次的提取。在醫學圖像處理中,注意力機制可使網絡專注于感興趣區域的學習[13]。
因此,近年來的醫學圖像分割模型大多結合U-Net與注意力機制進行改進。Zhuang等人[14]提出RDAU-Net用于分割乳腺腫瘤圖像,結合注意力門(AG)模塊[15]、ResNet[16]和擴張卷積[17],以提升網絡對腫瘤特征的學習能力。Vakanski等人[18]在U-Net的編碼部分引入顯著性圖,使用改進后的AG模塊將注意力集中在腫瘤顯著性高的區域上,但該方法在一定程度上依賴先驗知識,容易錯誤篩除顯著性高的圖像。Byra等人[19]提出Selective Kernel U-Net(SK-U-Net),通過一種通道注意力機制動態調整網絡感受野大小,有效利用不同尺度的空間信息,使得分割結果得到了較大的優化。Zhu等人[20]設計了殘差多尺度模塊用于獲取更大的感受野,并在U-Net的跳躍連接部分結合擠壓激勵(SE)模塊[21],在通道上融合不同層之間的特征信息,能夠使分割結果保留更多的腫瘤細節信息。這些研究在一定程度上均提高了分割精度,但對于邊緣模糊、形狀變化較大的超聲乳腺腫瘤圖像,仍無法得到令人滿意的效果。
鑒于此,基于U-Net,結合空間注意力和通道注意力,該文提出一種多層融合注意力(Multi-layer Fusion Attention,MLFA)的方法,以實現噪聲強干擾下的超聲乳腺腫瘤區域的精確分割。
其主要優勢有:
(1)借鑒深度學習中遷移學習的思想,在U-Net的編碼部分使用預訓練模型ResNet-34,提高網絡的特征提取能力,以更好地區分腫瘤與背景區域;
(2)針對噪聲強干擾下腫瘤邊緣模糊的問題,引入MLFA模塊對相關聯的深層特征和淺層特征進行空間和通道維度上的自適應融合,使網絡聚焦于局部腫瘤特征的學習,保留更多的腫瘤邊緣細節信息;
(3)在公開的超聲乳腺腫瘤數據集上與其他分割網絡進行比較,驗證了該方法具有較好的圖像分割性能。
在編-解碼結構的網絡中,編碼路徑提取特征的準確性會直接影響后續解碼路徑分割的精度。但由于圖像特征的差異性,同時改進兩種路徑并不能顯著提高分割精度。因此,該文對U-Net的編碼部分和跳躍連接部分進行改進,即在編碼部分使用預訓練模型ResNet-34[16]的網絡參數進行特征提取,同時在跳躍連接部分引入MLFA模塊,融合不同層次的特征,加強網絡對特征的傳遞與利用,提升了模型的靈敏度和分割精度。
網絡的總體架構如圖1所示,分為編碼部分和解碼部分。在編碼過程中,輸入圖像首先經過一個7×7卷積(步長為2,填充邊距為3)進行通道加倍,再使用2×2最大池化進行下采樣,特征圖尺寸減半。然后,進入ResNet-34的四個殘差塊組合,維度分別是64、128、256和512,使用殘差塊的數量分別是3、4、6、3。除前兩層外,每增加一層,特征圖尺寸減半,通道數翻倍。

圖1 提出的分割網絡結構
在解碼過程中,編碼末端輸出的特征圖經過雙線性插值的上采樣操作后,與來自第4層的同尺度特征圖共同輸入到MLFA模塊中,得到增強語義信息后的特征圖。隨后,繼續經過兩組由3×3卷積(步長為1,填充邊距為1)、批歸一化(BN)和ReLU激活組成的標準卷積模塊。剩余層數均采取了上述操作,每增加一層,特征圖尺寸加倍,通道數減半。對最后一層的特征圖,使用上采樣操作和3×3卷積,將特征圖通道數降為1,尺寸恢復至輸入圖像大小。經過Sigmoid函數激活,映射出每個像素的前景和背景概率。若概率大于0.5則為前景腫瘤區域,反之則為背景,最終實現超聲乳腺腫瘤的二值分割。
CNN通過堆疊卷積層來增加網絡深度,從而提取到具有豐富語義信息的特征。然而,隨著網絡深度加深,訓練模型時易出現梯度消失現象,影響網絡的分割效果。ResNet通過引入殘差塊,直接將原始輸入信息傳至下一層,在加深網絡層次的同時,避免了網絡性能的退化。
殘差塊的基本結構如圖2所示。其中,x代表殘差塊的輸入特征,F(·)代表卷積操作。殘差塊的輸出可以表示為:H(x)=F(x)+x。該文使用去除全連接操作的預訓練模型ResNet-18、ResNet-34以及ResNet-50作為特征提取器進行對比實驗,分別由圖2中不同數目的基本殘差塊構成,網絡參數如表1所示。實驗中發現,ResNet-34模型的分割效果優于其余兩種模型,具體見實驗部分。為此,使用ResNet-34作為超聲乳腺腫瘤分割網絡的特征提取器。

表1 ResNet模型參數

圖2 基本殘差塊結構
在深度卷積神經網絡中,相鄰層間的特征信息具有相關性[20]。淺層特征包含高分辨率的位置信息,深層特征包含低分辨率的全局信息。但是,U-Net中傳統的跳躍連接操作僅能實現淺層信息的簡單融合,更深層的信息未充分利用,造成淺層特征與深層特征之間存在語義鴻溝。為此,該文設計了MLFA模塊,將其運用在跳躍連接部分,對不同層次的特征進行空間與通道維度上的融合,從而使模型更加聚焦于腫瘤特征的學習。該模塊結構如圖3所示。

圖3 MLFA模塊結構
在MLFA模塊中,包含空間注意力模塊(SAM)和通道注意力模塊(CAM)兩個部分。首先,將淺層特征圖FL∈RC×H×W和深層特征圖FH∈RC×H×W共同輸入SAM,得到空間級特征圖FS∈RC×H×W,突出淺層特征的感興趣區域,弱化不相關的背景區域。同時,將FH輸入CAM,對通道特征進行動態權重分配,表達深層特征不同通道的重要程度,得出通道級特征圖FC∈RC×H×W。最后,將兩個模塊的輸出的特征圖相加進行融合,得到輸出特征圖Fout。
2.3.1 空間注意力模塊
在SAM中,首先,將FL與經過上采樣后的FH分別通過一個1×1卷積進行相加融合。然后,經過一個ReLU激活函數和一個1×1卷積,將通道數降為1。此時,特征圖中的每一個像素都是該像素在全部通道方向上的一個特征值。最后,對特征圖進行Softmax操作,生成注意力權重圖Fα∈R1×H×W,再與FL相乘,即可得到空間級特征圖FS。空間注意力可由公式(1)和(2)表示:
Fα=σ1(Conv1×1(σ0(Conv1×1(FL)+
Conv1×1(FH))))
(1)
Fs=FL×Fα
(2)
其中,Convi×i(·)代表卷積操作,i代表卷積核大小;σ0為ReLU激活函數;σ1為Softmax激活函數。以下公式參數同式(1)。
2.3.2 通道注意力模塊
深層特征包含豐富語義特征的同時分辨率較低,因此采用通道注意力,使模型更關注特征的通道信息。首先,使用卷積核大小為3×3、擴張率各為1和2的兩個擴張卷積分支對輸入的特征圖進行分裂,得到兩個具有不同感受野大小的特征圖Fr1∈RC×H×W和Fr2∈RC×H×W,如公式(3)所示:

(3)
其中,Convi×i,r(·)代表擴張卷積操作,i代表卷積核大小,r代表擴張率。
然后,將兩個特征圖進行相加融合,再進行全局平均池化(gap)操作,得到具有全局感受野的特征。通過一個縮減維度的全連接(fc)提取特征,得到壓縮后的特征z∈Rd×1,如公式(4)所示:
z=w0(gap(Fr1+Fr2))
(4)
其中,w0∈Rd×C代表全連接的權值,d代表輸出維度。
最后,根據不同感受野的特征聚合信息,通過softmax函數產生兩個權值,分別映射到Fr1和Fr2各自的對應通道,同時將Fr1和Fr2分別與兩個權值相乘。最終,將各自通道上的特征圖進行相加,得到對通道信息動態選擇后的特征圖Fc,可由公式(5)表示:
Fc=Fr1×σ1(z)+Fr2×σ1(z)
(5)
MLFA模塊的最終輸出結果Fout如公式(6)所示:
Fout=Fs+Fc
(6)
實驗超聲乳腺腫瘤數據集共有791幅,來自兩個公開的超聲乳腺數據集UDIAT[22]和Dataset BUSI[23]。UDIAT中包含163幅超聲影像,其中110幅是良性腫瘤,53幅是惡性腫瘤,平均圖像大小為760×570像素。BUSI收集了628幅20~75歲女性的超聲乳腺腫瘤影像,其中包含419幅良性腫瘤和209幅惡性腫瘤,平均圖像大小為500×500像素。兩個數據集中的所有樣本均有一個病灶,且都帶有手工標注的分割標簽。
為了平衡數據集的良惡性分布,該文對兩個數據集進行混合分類處理。將二者混合后按7∶1∶2的比例隨機劃分成訓練集554張、驗證集79張、測試集158張,其中良性與惡性腫瘤分布均以2∶1的比例保持不變。在實驗中,圖像尺寸統一設置為128×128大小。
采用Dice系數、IoU、Precision和Recall作為評估分割模型性能的指標,計算公式分別如下:
(7)
(8)

(9)
(10)
其中,TP代表被正確分割的腫瘤區域,FP代表被誤分割為腫瘤的背景區域,FN代表被誤分割為背景的腫瘤區域。Dice系數是統計中衡量二元分類模型精度的指標,值越接近1,分割結果越準確。IoU是比較有限樣本集之間相似性和差異性的指標,值越大,相似性越高。Recall反映所有真實樣本中預測為正樣本的比例。Precision反映所有分割結果中預測為正的比例。這些客觀評價指標對醫生進行乳腺癌的病理診斷具有很好的分析價值。
另外,采用FLOPs作為評估模型復雜度的評價指標。FLOPs為浮點運算次數,用于衡量模型的計算量。
使用Python環境下的Pytorch深度學習框架,構建網絡模型并完成實驗。服務器硬件配置為Intel(R)Core(TM)i9-9900K CPU @ 3.60 GHz,GPU 顯卡配置為Nvidia GeForce RTX 2080,操作系統為Ubuntu 18.04。實驗中使用he normal初始化網絡參數,batch_size為8,epoch為100。模型優化器為Adam。初始學習率為0.001,采用多步長衰減策略進行衰減。損失函數使用Dice Loss[24],其適用于目標尺寸變化較大的圖像分割,并在訓練過程中對難以學習的樣本進行有針對性的優化,從而緩解樣本分布不均衡帶來的負面影響,提升模型的性能。該損失函數如式(11)所示:
Diceloss(P,M)=1-Dice(P,M)=
(11)
其中,P代表模型分割的預測像素值,M代表簽像素值。
為了減少過擬合,并在有限訓練樣本數量下進行分割,對訓練集所有樣本進行數據增強,包含以50%的概率進行水平翻轉、豎直翻轉以及仿射變換等操作,增強后的訓練集擴充至原來的十倍。訓練過程中使用相同的參數設置,同時通過驗證集對結果進行監督,并取在驗證集上損失最小的模型作為分割模型進行測試。
為了驗證ResNet-34提取特征的能力,在U-Net的編碼部分使用層數不同的ResNet模型進行對比實驗。結果如表2所示,使用ResNet-34得出的分割結果要優于使用ResNet-18與ResNet-50得出的結果。

表2 ResNet模型的對比結果
另外,為了驗證文中所提的注意力機制的有效性,將兩個結合通道注意力和空間注意力的模塊CBAM[25]和SCSE[26]分別添加到U-Net的跳躍連接部分,與MLFA模塊進行對比。表3為三種注意力機制的對比實驗結果,MLFA模塊在各項指標上均優于CBAM和SCSE,證明了文中多層融合注意力機制的有效性。

表3 注意力機制的對比結果
將改進模型與U-Net[9]、UNet++[12]、Attention U-Net[15](A-U-Net)、SK-U-Net[19]和RDAU-Net[14]五種分割網絡模型進行對比實驗,結果如表4所示。與對比模型相比,文中模型在五項指標上均有不同程度的提高。相較于其中效果最好的Attention U-Net,文中模型在Dice、IoU、Recall和Precision上分別提升了2.41、2.51、1.67以及2.16百分點。同時,文中模型的FLOPs為3.05G,較Attention U-Net減少了40%,說明文中模型在算法復雜度上具有較大優勢。

表4 不同模型在指標上的分割結果
總體來說,文中模型在保證準確性的同時,在性能上也取得了較好的表現。
圖4為文中模型的分割可視化效果對比。其中,圖(a)是測試集中的4幅受散斑噪聲干擾較大的原始超聲乳腺腫瘤圖像,圖(b)是圖(a)對應的標簽圖像。對于腫瘤邊界較為明顯的乳腺超聲圖像,例如第1幅圖,五種模型均能劃分出腫瘤的大致區域。其中SK-U-Net、RDAU-Net與文中模型在分割結果明顯更接近于標簽圖像。但對于邊緣復雜或者小目標的乳腺腫瘤區域,例如第4幅圖,由于周邊干擾因素較大,對比模型均存在將部分易混淆的背景區域誤分割為腫瘤區域的情況。可以直觀看出,文中模型較其他模型分割效果較好,對于小目標以及噪聲干擾大的超聲圖像魯棒性更強,在分割腫瘤邊緣較復雜的超聲圖像時更接近標簽圖像。

圖4 不同模型的分割結果對比
針對超聲乳腺腫瘤圖像中散斑噪聲較大、腫瘤邊緣模糊以及形狀復雜等問題,基于U-Net提出了一種多層融合注意力的分割方法。在保持U-Net對稱結構的基礎之上,在編碼部分引入預訓練模型ResNet-34,對輸入的圖像特征進行提取。同時,在跳躍連接部分引入MLFA模塊,通過混合注意力機制對圖像的深層特征和淺層特征進行自適應融合與增強,進一步提升了網絡的分割性能。通過實驗證明,該方法較其他已有方法抗噪聲干擾更強,對于不同尺寸、邊緣復雜的乳腺腫瘤都有較好的分割效果,分割結果的精度得到了有效提高。在未來的研究工作中,將著重結合改進的損失函數提出更高效的分割網絡,以實現更高精度的超聲乳腺腫瘤圖像的自動分割。