引入反饋注意力的并行式多分辨率語義分割算法

2023-02-03 05:14:02孫紅袁巫凱趙迎志

包裝工程 2023年1期

孫紅，袁巫凱，趙迎志

孫紅，袁巫凱，趙迎志

（上海理工大學光電信息與計算機工程學院，上海 200093）

為了進一步提升語義分割精度，解決當前語義分割算法中特征圖分辨率低下，低級信息特征隨意丟棄，以及上下文重要信息不能顧及等問題，文中嘗試提出一種融合反饋注意力模塊的并行式多分辨率語義分割算法。該算法提出一種并行式網絡結構，在其中融合了高低分辨率信息，盡可能多地保留高維信息，減少低級信息要素的丟失，提升分割圖像的分辨率。同時還在主干網絡中嵌入了帶反饋機制的感知注意力模塊，從通道、空間、全局3個角度獲得每個樣本的權重信息，著重加強樣本之間的特征重要性。在訓練過程中，還使用了改進的損失函數，降低訓練和優化難度。經實驗表明，文中的算法模型在PASCAL VOC2012、Camvid上的MIOU指標分別為77.78%、58.67%，在ADE20K上的也有42.52%，體現了出較好的分割性能。文中的算法模型效果相較于之前的分割網絡有一定程度的提升，算法中的部分模塊嵌入別的主干網絡依舊表現出較好的性能，展現了文中算法模型具備一定的有效性和泛化能力。

圖像語義分割；反饋式注意力；多分辨率

近年來，隨著互聯網人工智能的迅猛發展，計算機視覺不斷地被應用于人們生活的方方面面，并持續地為人們帶來各種便捷。圖像語義分割則在計算機視覺的下游任務中占據十分重要的一環，可以說沒有語義分割，計算機視覺的發展就不會有這么浩瀚宏大。圖像語義分割簡而言之，就是對圖像中的像素點進行細致地分類處理，分成不同的區塊代表著不同的語義[1]。

圖像語義分割[2]也一路發展而來也并不是一帆風順，以前傳統的方法利用閾值法[3]和區域法等關注RGB、紋理這些低級特征[4]從而限制了分割精度的提升。自從全卷積神經網絡[5]（Fully Convolutional Networks，FCN）被提出以后，語義分割至此進入了新階段。VGG[6]由Simonyan等提出，通過不斷堆疊3*3卷積核提升模型性能；2015年何凱明及其團隊[7]提出的ResNet，借以在輸入和輸出之間增加殘差連接，以提供恒等映射，這樣改變信息傳導的方式以至于后來的很多語義分割模型都以此為網絡主干強化特征提??；同年Ronneberger等[8]提出了影響廣泛的U–Net網絡，它采用“U型”結構，在編碼層上通過接連不斷地下采樣，壓縮圖像獲取語義信息，在解碼層恢復信息，取得了較好的效果，后來很多研究工作在編解碼器上進行迭代和修改，目前被大范圍地應用于各類醫學圖像分割。Chen等[9]創新性地提出了DeepLab，使用空洞卷積擴展感受野，搭配以完全連接的條件隨機場（CRF），提高了模型捕獲細節的能力；之后DeepLab相繼推出V2、V3等，極大地提升了獲得上下文關鍵信息的能力，分割性能節節攀升，但是這些方式也依舊帶來了問題，即各種復雜的池化下采樣操作不斷降低特征圖分辨率，過大的卷積核明顯增加了網絡復雜度，訓練起來費時費力。

伴隨著SENet[10]的興起，越來越多的科研人員開始將注意力機制引入圖像語義分割中企圖可以生成密集的上下文信息。比如十字交叉注意力模塊CCNet[11]，著重關注空間維度上的信息建模，同時考慮一個像素和全局像素之間的關系[12]，該算法也有效降低了時間和空間復雜度；之后各種注意力模塊被相繼提出，比如自注意力模塊，疊加了通道和局部空間的雙注意力，甚至多頭注意力[13]等，對特征圖的重要信息把握更加準確有效。

另外影響圖像的語義分割的精度還在于對邊緣信息的把控，也有諸多科研人員在這方面做了工作，即若存在某一個像素點與相鄰像素點的灰度值產生較大的差異，那么該像素可能處于邊緣地帶。有人通過加強邊緣輪廓部分的像素，來改善分割的效果。在常用的邊緣檢測中，借助微分算子進行卷積實現分割，簡單且高效，并且不同的任務，可選擇的邊緣檢測算子一般也是不同的，如Canny檢測算子[14]等。還有很多諸如此類的將傳統的分割手段和深度學習方式混合在一起的，這種定義方式有利于得到較好的分割效果，但是定義的過程也較為煩瑣[15]。

盡管當前語義分割算法已經取得了一些較好的效果，但是由于算法設計過程中特征圖分辨率低，信息特征丟失，上下文信息顧及不全的問題依然存在，導致最后的分割效果不太理想。文中提出一種新的并行式網絡結構，并在其中融合了高低分辨率信息，盡可能多地保留高維信息，減少低級信息要素的丟失。同時還在主干網絡中嵌入了帶反饋機制的全維感知注意力模塊，以此來獲得每個樣本的權重信息，著重加強樣本之間的特征重要性。在訓練過程中，還采用融合損失函數，降低訓練和優化難度。經實驗表明，文中的算法模型具有較好的分割性能。

1 文中方法

1.1 整體框架

文中提出的網絡模型整體框架見圖1，主要是由并行式結構、多分辨率融合模塊、下采樣模塊和反饋注意力模塊4個部分組成。分上下2部分來看，在上半部分，輸入的特征圖先經過并行式多分辨率融合的主干網絡，輸出得到O1；在下半部分，輸入的特征圖經過反饋注意力模塊，輸出得到O2，然后O1和O2在通道維度上進行concatenate拼接后經過線性分類器得到最終的輸出Output。

圖1 網絡框架

并行式多分辨率的融合保證了高分辨率的圖像信息完全保留，不像其他語義分割算法忽略低分辨率的圖像信息特征，反饋注意力模塊也保證了關注重要特征信息，這樣的方式更加有利于圖像分割的效果。

1.2 并行式多分辨率主干網絡

在當下這個時間點，語義分割算法對輸入圖的分辨率要求越來越高。VGGNet的網絡結構導致它最終得到的特征圖（Feature Map）分辨率很低，空間的結構信息損失比較嚴重。此外，很多主干網絡提升圖像分辨率的方式都是先降低分辨率，再升分辨率，典型的有U–Net（見圖2），或者通過引入編解碼器（Encoder & Decoder）的結構，比如SegNet[16]（見圖3）等。文中獨特的并行式多分辨率網絡摒棄了傳統的串聯卷積層的堆疊，以高低分辨率的并聯輔以改進過的下采樣模塊和融合模塊，很好地兼顧了高低維的特征信息。

圖2 U–net網絡

圖3 SegNet網絡

1.2.1 并行式網絡結構

并行式網絡結構（Parallel Network Structure，PNS）與傳統串聯式特征圖堆疊不同但效果更好是因為在編碼結構中，高分辨率轉為低分辨率會造成像素信息的丟失和不完整。

在文中網絡結構中，給出了3個stage，第個stage就包含行并列的分辨率不同的channel map。把每個stage的每行稱為一個block。在2個stage之間，會產生一個分支的擴展，同分辨率的會直接進行平移復制到下一個stage，不同分辨率之間會進行融合模塊的相互作用，并且任何一個較低分辨率圖都來源于前一個高分辨率圖的下采樣（該模塊后面會詳述）和同分辨率圖的平移復制。

第1個stage由高分辨率的特征圖構成，里面擁有著豐富的語義信息，將保留的高維信息直接平移轉到第2個stage，形成一個block分支，同時經過改進過的下采樣模塊，將高分辨率的channel map生成次分辨率的特征圖和第2個block分支，而后在第2個stage中重復一樣的操作，再生成更次分辨率，即更低分辨率的特征圖。整個網絡結構有3個stage，不僅能很好地保留高維信息，減少高分辨率圖像像素的恢復過程，也不會隨意丟棄低頻像素的淺層特征（這恰恰是目前圖像語義分割算法所忽略的），并且這樣做減少了一定參數量的上升，由后續實驗結果也可以看出，并行式網絡結構相較于多層次編解碼器式的串聯結構運算量有一定的下降。

1.2.2 多分辨率融合模塊

多分辨率融合模塊（Multi Resolution Fusion Module，MRFM）特征結構見圖4，它的作用就在于高分辨率圖像[17]融合了更多的邊界信息和空間位置信息，可以用于對低分辨率圖像進行信息指導[18]和抽取，因此，不好好利用低分辨率信息甚至隨意丟棄，對分割效果將會產生較大的影響。

與別的融合模塊[19]不同的是，先對輸入的高分辨率圖和低分辨率圖在通道維度上進行concatenate拼接，再進入Channel shuffle操作，為的是保證特征通信的作用，即不同組之間強化信息交流，提升特征提取能力，這里不采用密集逐點卷積（Dense Pointwise Convolution）的原因是模型計算較為復雜，帶來了復雜度的上升，“交流能力”也并不突出。再采用全局平均池化（Global Average Pooling，GAP）取代全連接層實現降維，對其在通道維度上進行壓縮，避免了全連接層出現過擬合，進一步提升網絡的泛化能力，見式（1）。

(1)

式中：op為全局平均池化輸出的函數；c為輸入feature map的第個通道；和為輸入的高和寬2個維度。

圖4 多分辨率融合模塊

接著左中右經過卷積層分別接續歸一化（Batch Normalization）操作和激活函數。最后再經過1*1的卷積層和Swish激活函數生成分辨率較高的圖像。這里選用Swish激活函數還是有一些好處的。它的表達式見式（2）。

1.2.3 下采樣模塊

下采樣模塊主要用于高分辨率向低分辨率轉換的過程中，模塊細化見圖5。

一般在深層網絡中，過多的下采樣操作會不斷壓縮特征圖，進而丟失重要的語義信息，這也是諸如編解碼結構式網絡普遍出現的問題。文中使用的下采樣模塊可以盡可能減少下采樣帶來的缺陷。首先，輸入的高分辨率的圖像經過平均池化（Average Pooling），卷積層，再進行歸一化操作。另外，最右側加了一層連接分支，添加了一個與卷積并行的單層SE（Squeeze and Excitation）模塊，它包括2D均值池化和卷積層，以此來獲取更大的感受野，壓縮與激活操作對重要的信息賦予了更多的權重。最后，經過矩陣相乘，依舊通過Swish激活函數輸出低分辨率圖。這樣的下采樣模塊在降低分辨率的同時，還能實現多尺度處理。

圖5 下采樣模塊

1.3 反饋全局注意力模塊

在進行一次的端到端的訓練過程中，后面的信息無法對前面的信息采集過程進行干預和指導，當前面出現偏差時，后面也只能“將錯就錯”，難以修正，對輸出結果造成一定的影響，此時反饋機制[17]應運而生。它最初的靈感來源于人腦會將眼前看到的信息回傳到大腦，再通過大腦判斷和預測后進行下一步動作。為了更好地留住空間與通道上的重要信息，文中創造性地提出了反饋注意力模塊（Feedback attention module，FAM），見圖6，意在將反饋機制引入空間注意力之中。

式中：O為經過歸一化后的輸出；為最終的輸出特征；x為輸入的樣本特征圖。

整個APM（見圖7）中主要包含了3個種類的注意力分別是通道注意力機制（Channel Attention），帶反饋的局部空間注意力（Local Spatial Attention with Feedback，LSAF）和全局空間注意力機制（Global Spatial Attention）。從通道到空間一體化的注意力機制對重要信息的把控更為專注，大幅提高網絡特征信息提取的效率。以下詳細敘述3種注意力機制的內部細節。

圖6 反饋注意力模塊

圖7 注意力感知模塊圖

式中：BN（）為Batch Normalization；FC（）為全卷積層；GAP（）為全局池化操作。

2）帶反饋的局部空間注意力（見圖9）。這部分包含一個由密集連接（Dense connection）、上采樣和下采樣構成的反饋塊。反饋機制中穿插了很多deconv層和conv層，以每個deconv層的輸入是前面所有conv層的輸出（紅線），每個conv層的輸入是前面所有deconv層的輸出（紫線）來做concatenate拼接。其次，除了第1個group以外，在每個conv之前都加了1*1的卷積層，每個deconv之前也都增加了1*1卷積層，也即每次concatenate之后都要1*1的卷積來調整。最后，為了使輸出更好一些，結合了所有conv層的輸出（綠線）后，在2個1*1的卷積層之間串聯一個3*3的卷積，以此來聚合局部的空間信息。另外在最前面的1*1卷積后引出一條跳躍連接（Skip Connection），使得未經過任何操作的圖像的低級特征被引入其中，再疊加經過反饋機制后的高級特征，可以取得更好的效果。

式中：（）為Batch Normalization；為卷積操作，右上角的標代表卷積核的大小。反饋機制嵌入局部空間注意力之中，可以更加有效地增加信息的“重吸收”功能，更好地聚集空間的局部信息。

3）全局空間注意力（見圖10）。空間注意力是對局部空間注意力的補充。運用的是1*1的卷積層和reshape函數的并行，用softmax調整輸出大小尺度，重新reshape之后輸出。

1.4 損失函數

1.4.1 關于交叉熵損失

交叉熵損失（Cross Entropy Loss）在計算機視覺中的應用是極其廣泛的，尤其在下游的分類與分割任務中。交叉熵損失在單標簽任務（二分類問題也包含在其中）中，即每個樣本只能有1個標簽，比如ImageNet（1個用于圖像識別的數據集）圖像分類任務，每張圖片只能有1個固定的標簽。

對于單個樣本，假設真實分布為，網絡輸出分布為*，總的類別數為，則在這種情況下，交叉熵損失函數的計算方法見式（8）。在多分辨率融合模塊中添加交叉熵損失函數可以較為準確地衡量Ⅰ區域和Ⅱ區域之間的相似性，從而抑制偏差，一定程度上減小了該模塊訓練的成本花銷，有利于低分辨率的信息提取。

整個模型的損失函數由多分辨率融合模塊和最終的輸出組成，損失函數見式（9）。

其中(1)和(2)分別是多分辨率融合損失和最終的輸出損失，和是權重系數，用于調節2種損失之間的權重比例，在后續實驗過程中可以進行針對性的優化與調整使得分割效果更為精細，則交叉熵損失的公式為：

圖10 空間注意力

式中：y為經過one–hot獨熱編碼的向量表示；*為預測輸出的概率分布。

本質上來說，交叉熵損失函數是一種類與類之間的競爭機制，善于關注并且學習類間信息，但是也存在問題，即它總是只關注正確標簽預測正確的準確性，而對沒有正確預測的就忽略了，這樣學習的特征可能并不完善，后續也打算繼續嘗試修改交叉熵損失。

1.4.2 標簽平滑

在分類與分割問題中（一般二分類問題中），把標簽的one–hot編碼（把對應類別的值編碼為1，其他為0）和交叉熵損失結合起來調整參數時，過分信任標簽會帶來問題。對一個數據集來說，由于大家的目標任務和想法不同，標注的準則可能存在些許的偏差，一些對像素要求較高的如邊緣信息的任務甚至會出現標注出錯。模型對標簽充分信任帶來的后果就是有可能不同類別輸出的分數差異很大，較容易造成過擬合。

將標簽平滑機制引入交叉熵損失之中，即損失函數轉化為：

式中：()為標準的交叉熵損失；為一個常數；為類的個數；為預測正確的類；為類的個數。

標簽平滑這個手段本質上就是嘗試在標簽中加入適當的噪聲，給模型“放松”，改善模型過度“自信”的表現進而盡力規避模型發生過擬合。經過實驗，當將值調整到0.34左右，并且剔除部分標簽指標，觀察可以得到較好的分割效果。

2 實驗及對比分析

2.1 實驗設備及環境

該模型所需要的實驗設備及環境參數見表1。

表1 設備環境及參數

2.2 數據集與評價指標

根據圖像語義分割對分辨率的要求和場景，文中數據集選擇的是Camvid、PASCAL VOC2012和ADE20K。

Camvid數據集是由劍橋大學發布的具有目標類別圖片數據集合，他是從駕駛汽車的角度拍攝的，駕駛場景的復雜性顯著增加了所需觀察目標的多樣性和差異性。PASCAL VOC2012也是語義分割常用公開數據集，包括人、動物、交通工具等，是由訓練集、驗證集和測試集3部分組成。ADE20K是MIT提出的，包括了室內室外、自然場景、單張場景等多種類別的場景數據集。

圖像語義分割算法的評價指標，文中采用平均交并比（Mean Intersection over Union，MIoU）和參數量（Parameters）這2個指標。前者用于衡量算法模型的分割效果，后者則是用來計算該網絡結構所需要的運算量，用于參考模型復雜度。

2.3 預訓練與相關設置

文中的算法模型在用于分割網絡之前，先用于分類網絡進行預訓練，即最后的輸出僅包含高分辨率特征而不在通道維度上進行concatenate拼接的多分辨率融合操作。在訓練過程中，把已經處理好的圖片和標簽送入到數據集（3種數據集）中進行訓練，初始學習率（Learning Rate）為0.000 1，訓練迭代次數設置為300。當損失函數的值越來越小，相應的學習率也逐漸變小。采用Poly學習率策略進行調整，當模型的損失函數波動越來越小，趨于穩定時結束訓練，記錄此刻模型的參數和結果。

2.4 實驗結果與對比

2.4.1 模型中模塊對比實驗

文中實驗模型主要是由并行式多分辨率融合與交互、反饋注意力機制等模塊組成。為了驗證上述2個主要模塊對于圖像分割效果的作用，利用Cityscapes數據集，在文中網絡模型的基礎上添加或者刪除2個模塊并對比分割效果。

表2中序號1代表僅采用并行式網絡結構，并且head輸出僅是高分辨率特征，與預訓練的分類模型類似，序號2則是在采用并行式網絡結構的基礎上，高低分辨率融合，最后在通道維度上進行concatenate拼接，以高分辨率特征進行輸出。序號3是在2的基礎上加入文中的多分辨率融合模塊（MRFM）；序號4則是在3上加入反饋注意力機制模塊（FAM）?？梢园l現，在輸出時疊加了各個通道維度的信息以后，對分割的效果是有提升的，同時，在引入了多分辨率融合模塊后，分割效果的漲點也很明顯，在參數量上有一定的增加，但是參數量的小幅增長是在可接受范圍內的。另外發現反饋注意力機制能明顯聚合通道信息和全局信息，在MIOU指標上有較大的提升，并且此時參數量增加也不多，是一個“性價比”很高的模塊。

表2 模塊數據對比

為了進一步驗證反饋注意力模塊（FAM）的泛化能力、可移植性和性能表現，抓住反饋注意力模塊的“重點關注高級特征通道和空間信息”的特點，嘗試將該模塊引入主流的一些主干網絡中。文中選取了2個主干網絡分別是使用最廣泛的ResNet（2015）和VGG式家族性能較好的RepVGG（2021）。將主干網絡首先在ImageNet上進行預訓練，利用動態學習率進行迭代后在Cityscapes上進行測試，表現效果見表3。

表3 反饋注意力模塊實驗

FAM在2個主干網絡上都取得了較好的效果，具備較高的可移植性。在ResNet中，性能表現很好，即使面對輕量的CBAM模塊，在參數量增加不多的情況下，卻可以有效提升MIOU指標，原因是反饋模塊的嵌入對被遺棄的低級信息進行“廢料利用”很到位。再者，在面對RepVGG本身獨特的卷積操作和訓練技巧面前，反饋式注意力模塊依舊可以有效漲點。

2.4.2 數據集下網絡模型對比

為進一步驗證文中提出的算法模型在圖像語義分割算法上的有效性，分別在PASCAL VOC2012、Camvid和ADE20K數據集上與其他公開的算法模型進行了對比實驗。將MIOU作為評價指標，觀察統計效果，見表4。

表4 模型對比

從表4可以明顯看出，在MIOU指標上文中模型相較于其他模型都有比較明顯的漲點，在PASCAL、Camvid、ADE20K三大數據集上分別達到了77.78%、58.67%、42.52%。著重對比DeepLab V3和DMNet在VOC 2012和Camvid上的效果，文中模型相較于DeepLab V3有接近2%和3.2%的提升，對比DMNet也有3.32%和0.84%的漲幅。另外在面對ADE20K這個場景數據集下，文中模型、PASCAL和Camvid的指標成績都不是特別好，但是文中模型依然有一定程度的提升，反映出文中模型具有很高的有效性和可行性。

為了更加清楚地說明文中模型在分割效果上的提升，將分割圖、標注圖、原圖進行展示，并將文中模型分別與FCN、SegNet等網絡模型的進行細節對比，對比效果見圖11。圖11中圈出來的即為效果顯著的地方。

如圖11所示，文中分別選取了FCN、SegNet、DeepLab V3、PSPNet這些網絡與文中模型進行分割效果對比。在第1行中，文中模型左側的垃圾桶、遠處的藍色自行車、右側汽車輪胎部分以及邊上的行人都分割得更加精細；在第3行中，汽車底部的輪胎和遠處紅色區域的黃色窗戶也進行了有效的還原；第4行的模型勝在第2輛車的輪廓以及右上角樹枝樹干，展現出了部分細節的優勢。

為了展現室內復雜場景下文中算法的優越性與可行性，在PASCAL VOC2012數據集上選取了人像和靜物擺件2類圖，見圖12，分別與各大主流分割網絡進行對比。第1張圖中，FCN人像與桌子邊緣破碎，右上角盆栽和電視邊緣也出現分割還原不清楚，后面的幾組網絡均存在類似問題，而文中網絡在桌子的邊緣、綠黃2人的中間、盆栽底部以及電視正下方展現出較好的效果。對于第2行電腦桌面場景，SegNet甚至出現水杯沒有分割出來的情況，其余網絡模型也存在電腦周邊分割不到位的地方，尤其是電腦底座難以分割還原完整，分辨率較低。這兩者均被文中算法較為明顯地分割出來（見圖12中圓圈標注），邊緣處已大幅度完整平滑，達到了原圖90%的水準。由此可見，在文中算法中，維持高分辨率和反饋模塊對分割效果起到了積極作用。

圖11 部分分割效果對比圖

圖12 室內復雜場景分割效果對比

3 結語

文中對當下圖像語義分割中存在的分辨率低導致的分割精度不夠準確的問題，提出了并行式多分辨率融合的模型，專注以高分辨率信息指導低分辨率信息，減少像素信息的丟失，同時引入帶反饋的注意力機制，注重通道和局部空間語義信息，保留更重要的特征信息。經過部分實驗表明，文中模型在PASCAL VOC2012、Camvid等數據集上取得了較好的提升效果，實驗效果優于DeepLab V3等常用分割網絡，顯著好于FCN、SegNet等網絡，證明文中模型對語義分割存在一定的有效性和泛化能力。

盡管文中模型取得了較好的性能效果，但是依然存在一些問題，還有較大的提升空間。在一個好的圖像語義分割算法中，分割精度高只是一方面，分割過程中的速度也尤為重要。關于分割速度，以后可以嘗試使用輕量型網絡，減少深層嵌套的卷積神經網絡，盡可能在性能不衰減、效果不打折扣的同時減少參數量和網絡深度。另外，在訓練基礎網絡過程中容易忽略或者解決不好loss，因此在接下來的工作主要是嘗試將輕量型網絡應用到現有的模型中，減少參數量和模型復雜度，并且在模型的各個重要位置添加損失函數繼續降低訓練和優化難度。

[1] 張燦. 基于卷積神經網絡的圖像語義分割算法研究[D]. 武漢: 華中科技大學, 2017: 5-10.

ZHANG Can. Research on Image Semantic Segmentation Algorithm Based on Convolutional Neural Network[D]. Wuhan: Huazhong University of Science and Technology, 2017: 5-10.

[2] 曾孟蘭, 楊芯萍, 董學蓮, 等. 基于弱監督學習的圖像語義分割方法綜述[J]. 科技創新與應用, 2020(8): 7-10.

ZENG Meng-lan, YANG Xin-ping, DONG Xue-lian, et al. Review of Image Semantic Segmentation Methods Based on Weakly Supervised Learning[J]. Technology Innovation and Application, 2020(8): 7-10.

[3] 劉碩. 閾值分割技術發展現狀綜述[J]. 科技創新與應用, 2020(24): 129-130.

LIU Shuo. Overview of Threshold Segmentation Technology Development[J]. Technology Innovation and Application, 2020(24): 129-130.

[4] 吳世燃, 嚴國平, 楊小俊. 紙塑復合袋表面缺陷圖像分割算法的設計與實現[J]. 包裝工程, 2021, 42(1): 244-249.

WU Shi-ran, YAN Guo-ping, YANG Xiao-jun. Design and Implementation of Image Segmentation Algorithm for Surface Defects of Paper Plastic Composite Bag[J]. Packaging Engineering, 2021, 42(1): 244-249.

[5] LONG J, SHELHAMER E, DARRELL T. Fully Convolutional Networks for Semantic Segmentation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Washington, DC: IEEE Computer Society, 2015: 3431-3440.

[6] SIMONYAN K, ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition[EB/OL]. (2015-04-10)[2021-05-15]. https://arxiv. org/pdf/1409. 1556.pdf.

[7] HE K M, ZHANG X Y, REN S Q, et al. Deep Residual Learning for Image Recognition[C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 770-778.

[8] RONNEBERGER O, FISCHER P, BROX T. U-Net: Convolutional Networks for Biomedical Image Segmentation[C]// Lecture Notes in Computer Science, Cham: Springer International Publishing, 2015: 234-241.

[9] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFS[EB/OL]. (2014-12-22) [2021-05-15]. https://arxiv.org/abs/1412.7062

[10] HU Jie, SHEN Li, SUN Gang. Squeeze-and-excitation networks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA. IEEE : 7132-7141.

[11] HUANG Z L, WANG X G, HUANG L C, et al. CCNet: Criss-Cross Attention for Semantic segmentation[C]// Proceedings of the IEEE International Conference on Computer Vision, NJ, IEEE Press, 2019: 603-612

[12] ZHONG Z L, LIN Z Q, BIDART R, et al. Squeeze- and-Attention Network for Semantic Segmentation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Washington, DC, IEEE Computer Society, 2020: 13062-13071.

[13] LI X, ZHONG Z S, WU J L, et al. ExpectationMaximization Attention Networks for Semantic Segmentation[C]// Proceedings of the IEEE International Conference on Computer Vison, Piscataway, NJ, IEEE Press, 2019: 9166-9175.

[14] 田貝樂, 牛宏俠, 劉義健. 一種優化的Canny邊緣檢測算法[J]. 鐵路計算機應用, 2021(10): 14-18.

TIAN Bei-le, NIU Hong-xia, LIU Yi-jian. Optimized Canny Edge Detection Algorithm[J]. Railway Computer Application, 2021, 30(10): 14-18.

[15] GAO You-wen, ZHOU Ben-jun, HU Xiao-fei. Research on Convolution Neural Network Image Recognition Based on Data Enhancement[J].Computer Technology and Development, 2018, 28(8): 62-65

[16] BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495.

[17] LI QILEI, LI ZHEN, LU LU, et al. Gated Multiple Feedback Network for Image Super-Resolution[EB/OL].[2021-0416]. http://arxiv.org/abs/1907.04253

[18] MA Ning-ning, ZHANG Xiang-yu, ZHENG Hai-tao, et al. ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design[EB/OL]. 2018: arXiv: 1807.11164. https://arxiv.org/abs/1807.11164

[19] 盧印舉, 郝志萍, 戴曙光. 融合雙特征的玻璃缺陷圖像分割算法[J]. 包裝工程, 2021, 42(23): 162-169.

LU Yin-ju, HAO Zhi-ping, DAI Shu-guang. Glass Defect Image Segmentation Algorithm Fused with Dual Features[J]. Packaging Engineering, 2021, 42(23): 162-169.

[20] WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional Block Attention Module[C]// Computer Vision - ECCV 2018, Cham, Springer International Publishing, 2018: 3-19.

Parallel Multi-resolution Semantic Segmentation Algorithm with Feedback Attention

SUN Hong,YUAN Wu-kai,ZHAO Ying-zhi

(School of Optical-Electrical and Computer Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China)

The work aims to propose a parallel multi-resolution semantic segmentation algorithm integrating feedback attention module, in order to further improve the accuracy of semantic segmentation and solve the problems of low resolution of feature map, random discarding of low-level information features and failure to take into account important contextual information in the current semantic segmentation algorithm. The algorithm exhibited a parallel network structure, which integrated high and low resolution information, retained high-dimensional information as much as possible, reduced the loss of low-level information elements, and improved the segmentation resolution. At the same time, a perceptual attention module with feedback mechanism was embedded in the backbone network to obtain the weight information of each sample from the perspectives of channel, space and global, focusing on strengthening the importance of characteristics among samples. In the training process, the improved loss function was also used to reduce the difficulty of training and optimization. Experiments showed that the proposed algorithm model achieved 77.78% and 58.67% MIOU indexes on Pascal voc2012 and Camvid respectively, and 42.52% on ADE20K, reflecting better segmentation performance. Compared with the previous segmentation network, the algorithm model has a certain degree of improvement. Some modules embedded in other backbone networks still show good performance, which shows that the algorithm model has certain effectiveness and generalization ability.

image semantic segmentation; feedback attention; multi-resolution

TP391

1001-3563(2023)01-0141-10

10.19554/j.cnki.1001-3563.2023.01.016

2021–12–29

國家自然科學基金（61472256，61170277，61703277)

孫紅（1964—），女，博士，副教授，主要研究方向為大數據與云計算、控制科學與工程、模式識別與智能系統。

責任編輯：曾鈺嬋