史彩娟,陳厚儒,葛錄錄,王子雯
注意力殘差多尺度特征增強的顯著性實例分割
史彩娟,陳厚儒,葛錄錄,王子雯
(華北理工大學人工智能學院,河北 唐山 063210)
顯著性實例分割是指分割出圖像中最引人注目的實例對象。現有的顯著性實例分割方法中存在較小顯著性實例不易檢測分割,以及較大顯著性實例分割精度不足等問題。針對這2個問題,提出了一種新的顯著性實例分割模型,即注意力殘差多尺度特征增強網絡(ARMFE)。模型ARMFE主要包括2個模塊:注意力殘差網絡模塊和多尺度特征增強模塊,注意力殘差網絡模塊是在殘差網絡基礎上引入注意力機制,分別從通道和空間對特征進行選擇增強;多尺度特征增強模塊則是在特征金字塔基礎上進一步增強尺度跨度較大的特征信息融合。因此,ARMFE模型通過注意力殘差多尺度特征增強,充分利用多個尺度特征的互補信息,同時提升較大顯著性實例對象和較小顯著性實例對象的分割效果。ARMFE模型在顯著性實例分割數據集Salient Instance Saliency-1K (SIS-1K)上進行了實驗,分割精度和速度都得到了提升,優于現有的顯著性實例分割算法MSRNet和S4Net。
顯著性實例分割;注意力機制;殘差網絡;多尺度;特征增強
視覺顯著性即關注場景中最突出、最明顯、占有主體部位的對象。利用視覺顯著性進行的顯著目標檢測與顯著實例分割生成的顯著圖只與顯著對象相關,符合人類視覺系統的普遍規律[1]。而非顯著性任務的目標檢測任務和圖像分割,則是以整個場景內所有對象為目標。ELAZARY和ITTI[2]對人類視覺系統的研究也證實了最吸引人的對象在視覺系統中更加突出。因此,顯著性目標檢測(salient object detection,SOD)[3-5]和實例分割(instance segmentation,IS)[6-9]得到了廣泛關注和研究,并被應用于圖像視頻的場景理解[10]、智能車輛的輔助駕駛[11]、人機交互的圖像媒體編輯[12]以及工業檢測中機器人感知系統[13]等。
顯著性目標檢測是指檢測出圖像視頻場景中最突出的部分。傳統的顯著性目標檢測[14]方法均依賴于人工提取特征,非常耗時、精度不高、且效率低下。隨著深度學習的發展,采用卷積神經網絡(convolutional neural networks,CNN)[15]能夠自動提取多尺度特征,無需人工干預,且提取的特征更為魯棒。因此,目前大部分SOD均采用CNN提取的特征。但現有SOD方法僅能對圖像場景中突出區域進行框定(bounding box,BBox),無法將每個實例單獨區分,不能滿足計算機視覺領域更深入地應用需求。
而IS的提出有效解決了區域內多實例區分的問題。IS能夠為圖像中每個實例分配掩碼,并根據各自掩碼屬性區分類別信息。最初的IS方法受到R-CNN二階段目標檢測框架的啟發,將分割掩碼的分支添加到目標檢測的框架之中,其中最具有代表性的工作為HE等[16]提出的Mask R-CNN方法。之后逐漸發展出基于直接掩碼生成的方法[17]和基于一階段目標檢測框架的方法[18]。
但IS是對場景內所有的實例進行區分,與人的視覺顯著性特點不符。因此,為了實現對顯著性目標進行實例分割,2017年LI等[19]首次提出顯著性實例分割概念,結合SOD及IS的特點,在SOD為主體對象生成目標框(BBox)的基礎上,額外為每個主體對象輸出準確的掩碼(Mask)。圖1給出了顯著性實例分割示意圖。文獻[19]設計了MSRNet (multi-scale refinement network)模型,并且創建了顯著性實例分割數據集(salient instance saliency-1K,SIS-1K)。MSRNet借助對應的實例對象聚類以及預先計算的邊緣圖[20]取得實例對象的掩碼,最終生成的掩碼通過使用準確的像素分割圖對每個實例對象進行標記。但MSRNet過于依賴邊緣圖的精度,時間成本開銷較大。2019年FAN等[21]基于Mask R-CNN提出了S4Net(single stage salient instance segmentation),該網絡實現了端到端的訓練方式,且受到基于傳統圖割的分割方法(GrabCut)啟發,利用實例對象和周圍背景間的關系幫助分割。但是S4Net對場景中較小顯著性實例對象不易識別和分割,對較大顯著性實例對象分割精度不足。

圖1 顯著性實例分割
近年,CNN以其良好的特征學習能力得到了廣泛研究和應用,其能夠提取多層多尺度特征,其中深層特征中包含豐富的語義信息,而淺層特征中包含空間結構細節。為了充分融合利用多層多尺度卷積特征,文獻[22]提出了特征金字塔網絡(feature pyramid networks,FPN),此后FPN被廣泛應用于目標檢測和圖像分割等任務。另外,其他許多工作也將多尺度特征進行融合來提升算法模型的精度。如LIU等[23]提出的PANet (path aggregation network)是基于FPN,通過構筑自底向上的信息通路促進特征信息流動;GHIASI等[24]提出的NAS-FPN通過神經網絡搜索技術生成最合適的網絡模型結構,從而增強特征圖所含信息。顯著性實例分割面臨的挑戰性之一就在于圖像場景中目標的大小可能相差較大,難以檢測到顯著性實例,因此本文將基于特征金字塔進行多尺度特征增強,從而提升顯著性實例分割的精度。
起源于機器翻譯和自然語言處理領域的注意力機制,近年被廣泛應用于計算機視覺領域。圖像中應用的注意力機制可以分為軟注意力[25]和硬注意力[26]。軟注意力機制對圖像的通道和空間敏感。使用軟注意力機制計算出的結果是個[0,1]的區間數值,且可以微分,能夠通過CNN計算梯度得到特征權重信息,篩選出對任務有幫助的特征;硬注意力機制則是對圖像中各區域進行關注,結果非0即1。對任務有幫助的區域判定為1,其余無效區域判定為0。硬注意力是不可微的注意力機制,訓練過程要通過增強學習來完成。本文將利用軟注意力機制提升每個顯著實例的關注度,使提取的特征信息更加完備,從而克服顯著性實例分割面臨的另一個挑戰,即顯著性區域的邊界與具有相似特征的其他實例混淆或重疊。
因此,為了解決現有顯著性實例分割方法的不足,本文設計了一種新的顯著性實例分割模型,即注意力殘差多尺度特征增強網絡(attention residual multi-scale feature enhancement network,ARMFE),該模型包括2個模塊:①注意力殘差網絡模塊(attention residual network,Att-ResNet),通過特征權值篩選的方式提升檢測分割較大實例對象的精度;②多尺度特征增強模塊(multi-scale feature enhancement module,MFEM),通過特征融合的方式提升較小顯著性實例對象的分割效果。
本文模型ARMFE在顯著性實例分割數據集SIS-1K上進行了實驗,并與現有算法進行了比較,取得了更優的分割精度,提升了分割速度。
本文的顯著性實例分割模型ARMFE,其框圖如圖2所示。由圖可以看出,ARMFE主要通過特征提取、特征融合及顯著分割3個階段完成顯著性實例分割。
(1) 特征提取階段。提出基于注意力機制的殘差網絡模塊Att-ResNet進行顯著性特征提取。
Att-ResNet是在殘差網絡(ResNet)[27]基礎上引入通道注意力(channel attention,CA)和空間注意力(spatial attention,SA)。通過通道和空間上的不同權值,篩選出屬于顯著實例的特征,從而克服具有相似特征的不同實例的混淆或重疊問題。
(2) 特征融合階段。設計了多尺度特征增強模塊豐富特征圖上的顯著實例信息。將Att-ResNet模塊提取的特征先采用特征金字塔網絡FPN進行初步融合,再使用本文設計的多尺度特征增強模塊MFEM。通過跨尺度的特征融合以及增強模塊,豐富并提純每個特征圖中顯著特征信息,從而解決大小相差較大的不同尺度顯著性實例分割的問題。
(3) 顯著分割階段。基于Mask-RCNN實例分割結構,將增強后的顯著特征圖通過檢測分支和分割分支來生成邊界框BBox和掩碼Mask,最終組合生成顯著實例分割的顯著圖。

圖2 ARMFE框圖
接下來,本文將對注意力殘差網絡模塊Att-ResNet和多尺度特征增強模塊MFEM進行詳細介紹。
近年,由于軟注意力機制相較于硬注意力機制,不僅可微且對空間通道敏感,軟注意力機制被廣泛應用于計算機視覺領域。軟注意力機制可以賦予各類特征不同的權值,實現對特征的篩選,從而令網絡模型選擇出符合任務目標的相關特征。
因此,本文將軟注意力機制引入殘差網絡,設計了注意力殘差網絡Att-ResNet模塊對特征進行選擇。該模塊在殘差網絡基礎上引入CA和SA子模塊,分別在通道層次和空間層次對特征進行篩選,從而獲取空間和通道所包含的顯著特征信息。
1.1.1 通道注意力子模塊
CA子模塊采用了SENet[28]中的擠壓激勵模塊,該模塊能夠在空間維度上將特征進行壓縮,進而對不同通道中的特征進行選擇。通過CA子模塊實現將包含顯著特征的通道特征賦以較大權值,同時抑制其他特征的作用。
CA子模塊首先順著空間維度進行特征壓縮,并將每個二維的特征通道轉換成一個具有全局感受野的標量,代表在特征通道上響應的全局分布。再通過學習特征通道間的相關參數,為每個特征通道生成對應權值。生成的權值代表了特征圖上每個通道包含顯著特征的程度,最后每個通道權值依次與原始特征相乘,完成在通道層次上對原始特征的篩選。
CA的具體實現及其結構如圖3所示。首先將殘差網絡提取的初始特征圖××經過全局平均池化變換為1×1×的數列,令個維度的特征圖同時共享特征信息;然后經過一層全連接層(fully connected layers,FC)將特征維度降低到輸入的1/16,然后經過ReLu函數激活后再通過一個全連接層升回到原來的維度。使用Sigmoid函數增強通道間相關性,每個通道計算權值后與原特征圖相乘。

圖3 通道注意力子模塊
1.1.2 空間注意力子模塊
Att-ResNet不僅采用子模塊CA,實現對不同特征通道的選擇。還進一步引入子模塊SA,通過關注空間上的特征,進一步提高對顯著特征的篩選能力。
SA子模塊從空間層次出發,對同一通道的不同位置的像素進行特征篩選,再對顯著特征進一步進行選擇,從而增強特征提取階段特征圖中顯著實例的空間位置信息。
SA子模塊首先在列通道的維度通過2步并行的池化操作提取出更加豐富的高層特征,不再改變輸入的特征尺寸,而是壓縮成通道數為1的特征圖,通過卷積核進行空間特征參數學習,進而表征出每個像素在空間位置的權值信息。生成的空間權值再與原輸入特征相乘,完成空間上的特征篩選。
SA子模塊具體實現和結構如圖4所示。SA子模塊的輸入是通道注意力處理后的特征圖,圖尺寸為××。通過使用全局平均池化和最大池化操作,于此同時保持通道數不變,得到尺寸為××1的2張特征圖。將2張特征圖相加后通過卷積核為7×7的卷積層,增強空間相關性后使用Sigmoid函數,為每個通道計算權值并與原特征圖相乘。

圖4 空間注意力子模塊
1.1.3 注意力殘差網絡模塊
圖5給出了Att-ResNet結構圖,Att-ResNet的每個Block之間都集成了通道CA子模塊和SA力子模塊。以殘差網絡的第一個Block為例:初始輸入圖像由ResNet提取得到特征圖1,然后進第一個Block內(圖5中的輸入),依次經過CA和SA子模塊處理,每次得到的結果均與前次輸入的特征圖進行乘法運算,得到特征圖2,再通過跳躍連接將1與2進行相加操作,合成一個Block的最終輸出3。
Att-ResNet的運行速度與普通的殘差網絡ResNet水平相當,將在第2節進行驗證討論。
研究表明,多尺度卷積特征中的淺層特征圖感受野較小,適合處理小目標;而深層特征圖分辨率低,包含目標屬性的語義信息更加豐富,對較大目標的處理更為有效。為了融合與利用多尺度信息,FPN被廣泛應用于目標檢測和圖像分割。
但是,現有FPN類方法采用順序特征信息流動方式使生成的特征圖更多地關注相鄰尺度信息,忽略了尺度跨度較大的特征信息。導致FPN在信息傳遞期間,每次融合都會將非相鄰尺度中的特征信息進行稀釋,導致用于分割的特征圖不完整,精度不高。
因此,本文設計了一種多尺度特征增強模塊MFEM。與依靠橫向連接的FPN不同,MFEM首先使用不同倍率的池化和上采樣的操作,將多個尺度的特征圖融合為統一的單一尺度,達到集成每個尺度特有信息的作用。再利用精煉子模塊整合全局信息,提取出其中的顯著語義特征,將背景信息過濾,增強顯著物體特征。最后再通過不同倍率的池化和上采樣的操作重新生成多個固定尺寸的特征圖,用于顯著實例分割。另外,為了進一步增強用于分割的特征圖,借助殘差跳躍連接的思想,將前后2部分特征圖使用殘差跳躍連接進行逐元素相加操作,為精煉后的多尺度特征圖補充了原始信息。
該增強結構可促進每個跨度的信息交融,及多個尺度的互補信息,達到更佳的顯著性實例分割效果。結構如圖6所示。

圖5 注意力殘差網絡模塊

圖6 多尺度特征增強模塊
多尺度特征增強模塊由2部分組成:
(1) FPN特征圖的縮放融合。將FPN生成的特征圖尺度由大到小排列為{2,3,4,5,6},不同尺度的特征圖分別經過不同倍率的最大池化操作和雙線性插值上采樣運算,縮放至4尺寸后(如2經過4倍最大池化,5經過2倍上采樣)進行逐元素加法運算實現多尺度特征融合及信息交融,即4?。
(2) 融合特征圖的精煉和重縮放(復原)。對于輸出的融合特征圖連續通過3個3×3卷積,并通過批歸一化(batch normalization,BN)和ReLU激活函數,處理后得到4?。之后進行第一步的重縮放,復原。重新生成與原有尺寸個數相同的特征圖,此時每張特征圖都向其他尺度共享了所包含的空間信息和語義信息。最后引入跳躍連接,將與進行融合,打通了原始信息和精煉后信息之間的路徑,保證信息傳遞的同時進一步增強每層尺度內的特征。
另外,本模塊在后續步驟中舍棄尺度較大的2,僅使用{6,5,4,3}進行檢測和分割,進一步提高運行速度,同時保持較高精度。
本文模型在數據集SIS-1K上進行了實驗,并與相關方法進行了視覺與數據對比,及消融實驗。
(1) 數據集。本文采用SIS-1K數據集,該數據集是LI等[19]專門為顯著性實例分割所創建。其中包含1 000張高質量圖片和與顯著性實例對象一一對應的手工標注分割真值圖。該數據集中一部分是容易分辨的簡單場景圖片,另一部分為多個顯著性實例對象重疊的復雜場景圖片。
(2) 實驗環境。本文模型采用Tensorflow 1.15深度學習框架、編程語言Python 3.6實現,在Ubuntu 18.04下使用1*GTX1080ti 11 G顯卡完成實驗。
(3) 超參數。從SIS-1K中隨機選取500幅圖像作為訓練集,選取200張作為驗證集,將最后剩余的300張圖片作為測試集。由于數據集圖片較少,在網絡模型訓練過程中通過水平翻轉圖片的方式增加圖片數量。網絡初始訓練學習率設置為0.002,共迭代40 000次,在經過20 000次迭代后學習率變為0.000 2。權重衰減和動量分別設置為0.000 1和0.9。
(4) 比較方法。本文所提ARMFE模型的性能表現將在2.3節中與開創性工作的MSRNet以及基于Mask R-CNN的S4Net進行比較。
圖7給出了本文模型在SIS-1K數據集上的分割效果圖,并與S4Net模型和MSRNet模型進行了比較。圖中從上至下,①和②行為簡單背景圖;③和④行為復雜場景圖。①,②行與③,④行的不同處在于圖中顯著性實例對象的數量及大小。

圖7 顯著實例分割效果圖
通過視覺比較可以看出,無論在分割難度低的簡單背景,還是分割難度較高的復雜背景,本文模型ARMFE在單目標場景的檢測框更加完整,分割出的實例掩碼也更加完整。例如,①行中火車車頂能夠完整包含進檢測框內,③行的人像腿部掩碼覆蓋面積更加接近真值圖;對于包含尺度不一的實例對象場景,本文所提多尺度特征增強模塊能夠通過共享不同尺度特征圖內的信息解決較小目標漏檢及錯檢問題。在MSRNet中,②行距離較近的鹿掩碼無法區分出現粘連,③行錯誤的將右下角也作為顯著實例進行了掩碼生成;在S4Net中,②行左上角的鹿未被檢測分割,④行的2名行人被誤認為同一實例,這些問題在使用注意力機制和多尺度特征增強結合的算法后得以解決。
本節給出了ARMFE模型在SIS-1K數據集上運行結果,并與MSRNet、S4Net進行了比較。
本文采用Microsoft COCO公開評估指標計算mAP0.5和mAP0.7。mAP0.5為交并比閾值為0.5下的平均精度;mAP0.7為交并比閾值為0.7下的平均精度。其中mAP數值越大,該算法性能越強;Times數值越小,算法的運行速度越快。表1列出了3種顯著性實例分割算法的數值對比。S4Net與本文模型在2.1節所述實驗環境下,超參設置及迭代次數均保持一致。MSRNet采用其原文數據。“N/A”為算法原文未給出數據。
從表1可以看出,本文的ARMFE無論使用交并比閾值為0.5的平均精度(mAP0.5)還是閾值為0.7的平均精度(mAP0.7)衡量,均優于MSRNet和S4Net的表現,說明本文所提的網絡模型能夠有效提升顯著性實例分割的精度。使用ResNet-50為基礎模型時,ARMFE相較S4Net 在mAP0.5上的結果提升了7.1%,在mAP0.7上提升5.9%。2項指標消耗的時間成本分別增加0.003 s和0.002 s,證實了ARMFE在提升分割精度的情況下,依然能夠保持高速實時的特性。

表1 不同顯著性實例分割算法的精度對比
本節對模型ARMFE中的模塊進行消融實驗,驗證每個模塊的有效性并詳細闡述各自功能。結果見表2。

表2 消融實驗
注:黑體為最優數據
在ResNet-50為基礎模型的情況下,實驗分別添加了AM和MFEM,得到的數據顯示:每個模塊比表1中S4Net的平均精度均有不小提升。其中單獨使用AM網絡的mAP0.5從82.0%漲至87.2%,提升5.2%;mAP0.7從61.4%漲至65.1%提升3.7%。單獨使用MFEM得到網絡mAP0.5提升4.7%;mAP0.7提升2.0%。此時AM的表現相較于MFEM更加突出,同時僅付出0.001的時間開銷。以ResNet-101為基礎模型,單獨使用AM的mAP0.5則下降了0.3%,mAP0.7持平;單獨使用MFEM,mAP0.5和mAP0.7均能獲得0.5%的提升。
結合不同深度基礎模型下AM及MFEM的表現,可以得出AM的性能表現與網絡深度有關,在較淺層的ResNet下能夠有效幫助特征提取,為檢測分割提供良好的幫助;但在深層網絡后則顯得較為乏力,反觀MFEM無論網絡層數深淺,均能發揮良好作用,保持網絡精度的提升。
AM和MFEM組合能夠獲取穩定的精度提升。但從時間成本上看,深層網絡付出開銷占比較大,同時精度提升較小。因此,本文最終選擇ResNet-50作為基礎網絡框架。
實驗證明,本文模型ARMFE能夠在有效改善當前顯著性實例分割任務所存在的顯著對象漏檢、錯檢及掩碼覆蓋精度問題。
本文模型ARMFE能夠更好地解決顯著性實例分割任務中尺度不一的實例對象漏檢和錯檢問題,以及單個實例掩碼檢測框不準確、覆蓋精度不足的問題,還實現了精度與速度間的平衡。與當前相關工作對比,不僅精度有所提高,而且視覺上感知更加直觀明顯。后續將更加關注如何有效地利用特征圖,進一步提高顯著性實例分割中實例對象的掩碼精度。
[1] LI F F, VANRULLEN R, KOCH C, et al. Rapid natural scene categorization in the near absence of attention[J]. Proceedings of the National Academy of Sciences, 2002, 99(14): 9596-9601.
[2] ELAZARY L, ITTI L. Interesting objects are visually salient[J]. Journal of Vision (Electronic Resource), 2008, 8(3): 3.1-3.15.
[3] WANG B, CHEN Q, ZHOU M, et al. Progressive feature polishing network for salient object detection[C]//The 34th AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2020: 12128-12135.
[4] BORJI A, CHENG M M, HOU Q, et al. Salient object detection: a survey[J]. Computational Visual Media, 2019, 5(2): 117-150.
[5] QIN X B, ZHANG Z C, HUANG C Y, et al. BASNet: boundary-aware salient object detection[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 7471-7481.
[6] CHEN H, SUN K Y, TIAN Z, et al. BlendMask: top-down meets bottom-up for instance segmentation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2020: 8570-8578.
[7] BOLYA D, ZHOU C, XIAO F Y, et al. YOLACT: real-time instance segmentation[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). New York: IEEE Press, 2019: 9156-9165.
[8] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 8759-8768.
[9] CHEN K, PANG J M, WANG J Q, et al. Hybrid task cascade for instance segmentation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 4969-4978.
[10] ANDERSON P, HE X D, BUEHLER C, et al. Bottom-up and top-down attention for image captioning and visual question answering[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 6077-6086.
[11] ZENG W, WANG S, LIAO R, et al. Dsdnet: deep structured self-driving network[C]//The 16th European Conference on Computer Vision. Heidelberg: Springer, 2020: 156-172.
[12] VIAZOVETSKYI Y, IVASHKIN V, KASHIN E. StyleGAN2 distillation for feed-forward image manipulation[C]//The 16th European Conference on Computer Vision. Heidelberg: Springer, 2020: 170-186.
[13] PARK D, SEO Y, SHIN D, et al. A single multi-task deep neural network with post-processing for object detection with reasoning and robotic grasp detection[C]//2020 IEEE International Conference on Robotics and Automation (ICRA). New York: IEEE Press, 2020: 7300-7306.
[14] ITTI L, KOCH C, NIEBUR E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(11): 1254-1259.
[15] CHAUHAN R, GHANSHALA K K, JOSHI R C. Convolutional neural network (CNN) for image detection and recognition[C]//2018 First International Conference on Secure Cyber Computing and Communication (ICSCCC). New York: IEEE Press, 2018: 278-282.
[16] HE K M, GKIOXARI G, DOLLáR P, et al. Mask R-CNN[C]// 2017 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2017: 2980-2988.
[17] NEVEN D, BRABANDERE B D, GEORGOULIS S, et al. Towards end-to-end lane detection: an instance segmentation approach[C]//2018 IEEE Intelligent Vehicles Symposium (IV). New York: IEEE Press, 2018: 286-291.
[18] XIE E Z, SUN P Z, SONG X G, et al. PolarMask: single shot instance segmentation with polar representation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2020: 12190-12199.
[19] LI G B, XIE Y, LIN L, et al. Instance-level salient object segmentation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 247-256.
[20] PONT-TUSET J, ARBELAEZ P, T BARRON J, et al. Multiscale combinatorial grouping for image segmentation and object proposal generation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 39(1): 128-140.
[21] FAN R C, CHENG M M, HOU Q B, et al. S4Net: single stage salient-instance segmentation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 6096-6105.
[22] LIN T Y, DOLLáR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 936-944.
[23] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 8759-8768.
[24] GHIASI G, LIN T Y, LE Q V. NAS-FPN: learning scalable feature pyramid architecture for object detection[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 7029-7038.
[25] FU J, LIU J, TIAN H J, et al. Dual attention network for scene segmentation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 3141-3149.
[26] ZHAO B, WU X, FENG J S, et al. Diversified visual attention networks for fine-grained object classification[J]. IEEE Transactions on Multimedia, 2017, 19(6): 1245-1256.
[27] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 770-778.
[28] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7132-7141.
Salient instance segmentation via attention residual multi-scale feature enhancement
SHI Cai-juan, CHEN Hou-ru, GE Lu-lu, WANG Zi-wen
(College of Artificial Intelligence, North China University of Science and Technology, Tangshan Hebei 063210, China)
Salient instance segmentation is to segment the most noticeable instance object in the image. However, there remain some problems in the existing methods of salient instance segmentation. For example, the small salient instances are difficult to be detected and segmented, and the segmentation accuracy is insufficient for large salient instances. Therefore, to solve these two problems, a new salient instance segmentation model, namely the attention residual multi-scale feature enhancement network (ARMFE), has been proposed. ARMFE includes two modules, i.e. the attention residual network module and the multi-scale feature enhancement module. The attention residual network module combines the residual network with the spatial attention sub-module and the channel attention sub-module to enhance the features. The multi-scale feature enhancement module can further enhance the information fusion for features with large scale span based on the feature pyramid. Therefore, the proposed ARMFE model canmake full use of the complementary information of multi-scales features by attention residual multi-scale feature enhancement, and then simultaneously improve the accuracy of detecting and segmenting large instance objects and small instance objects. The proposed ARMFE model has been tested on the salient instance segmentation dataset Salient Instance Saliency-1K (SIS-1K), and the segmentation accuracy and speed have been improved. This indicates that our proposed model outperforms other existing salient instance segmentation algorithms, such as MSRNet and S4Net.
salient instance segmentation; attention mechanism; residual network; multi-scale; feature enhancement
TP 391.4
10.11996/JG.j.2095-302X.2021060883
A
2095-302X(2021)06-0883-08
2021-04-12;
2021-05-21
國家自然科學基金項目(61502143);河北省研究生示范課項目(KCJSX2019097);華北理工大學杰出青年基金項目(JQ201715);唐山市人才資助項目(A202110011)
史彩娟(1977-),女,河北唐山人,教授,博士。主要研究方向為圖像處理、計算機視覺等。E-mail:scj-blue@163.com
21 May,2021
12 April,2021;
National Natural Science Foundation of China (61502143);Graduate Model Class Project of Hebei Province (KCJSX2019097); Distinguished Youth Foundation of North China University of Science and Technology (JQ201715); Talent Foundation ofTangshan (A202110011)
SHI Cai-juan (1977-), female, professor, Ph.D. Her main research interests cover image processing, computer vision, etc. E-mail:scj-blue@163.com