摘 要:由于忽略了對多尺度特征的提取,以及不同層次特征之間的差異,顯著性目標檢測仍然存在預測結構不完整、細節丟失的問題。為了解決這些問題,提出了一個新的顯著性檢測模型M3Net。該網絡主要由多尺度特征自適應融合模塊和循環反饋聚合模塊組成。多尺度特征自適應融合模塊旨在自適應地捕捉和聚合不同層次的多尺度特征。循環反饋聚合模塊組成可以在迭代過程中對不同層次特征聚合的同時,有效地防止特征的稀釋。在五個基準數據集上的實驗結果表明,該網絡在Fβ、Em、MAE三種評價指標上優于十種現有網絡。在DUT-OMRON數據集上,Fβ指標比排名第二的顯著性檢測模型提高了0.4%,Em指標提高了0.3%;在ECSSD數據集上,Fβ指標比排名第二的顯著性檢測模型提高了0.2%,Em指標提高了0.3%,同時網絡還具有優秀的速度表現。
關鍵詞:顯著性檢測;多尺度特征;自適應加權;循環聚合
中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2023)02-053-0628-06
doi: 10.19734/j.issn.1001-3695.2022.05.0294
Multi-scale feature multi-path adaptive multiplexing for salient object detection
Xu Wencheng, Zhou Zhiping, Cheng Jiarui, Gai Shan
(School of Information Engineering, Nanchang Hangkong University, Nanchang 330063, China)
Abstract:Due to ignore the extraction of multi-scale features and the differences between features at different levels, salient object detection still has the problems of incomplete prediction structure and loss of details. To solve these problems, this paper proposed a new saliency detection model named M3Net. The network mainly consisted of multi-scale features adaptive fusion module(MAF) and recurrent feedback aggregation module(RFA). MAF could adaptively capture and aggregate multi-scale features at different levels. RFA could effectively prevent feature dilution while aggregating features at different levels in the iterative process. The experimental results on 5 benchmark datasets show that the network outperforms 10 existing networks in three evaluation metrics of Fβ, Em, and MAE. On the DUT-OMRON dataset, the Fβ is 0.4% higher than the second-ranked saliency detection model, and the proposed Em is 0.3% higher. In ECSSD dataset, the Fβ is 0.2% higher than the second-ranked saliency detection model, and the Em is 0.3% higher, and the network also has excellent speed performance.
Key words:saliency detection; multi-scale features; adaptive weighting; recurrent aggregation
0 引言
視覺顯著性在人類視覺系統中起著至關重要的作用,它引導人類在復雜的視覺場景中關注到最顯要的信息,顯著性目標檢測(salient object detection,SOD)就是在對人類這項視覺機制進行模擬。近年來,顯著性目標檢測技術得到了迅速的發展,它已經被廣泛應用于圖像分割[1]、圖像或視頻壓縮[2]、視覺目標跟蹤[3]等其他計算機視覺任務的預處理過程中。
在過去幾十年中,研究人員提出了大量基于手工特征(如顏色、紋理和對比度)的SOD方法[4]。然而,手工特征存在難以界定和歸納,無法對高級語義信息進行表征,以及對場景變化不具有魯棒性等問題,這限制了它們在復雜場景中的應用。近年來,卷積神經網絡(convolutional neural network, CNN)顯示出強大的特征提取能力,極大地促進了SOD的發展。許多基于CNN的方法通過設計不同的特征融合策略來聚合多層CNN特征,取得了卓越的性能。隨著全卷積網絡(fully convolutional neural network,FCN)的提出,各種基于FCN[5]的網絡相繼出現,并占據了SOD的優勢地位。
盡管取得了長足的進展,SOD仍然面臨著兩個巨大的挑戰:a)顯著對象內部的復雜性會導致最終生成的顯著圖或多或少地存在結構上的不完整;b)當前景或背景較為復雜時,顯著圖仍然會出現邊緣粗糙、細節丟失等現象。
在各類基于FCN的SOD方法中,U型結構[6]頗受關注。U型結構利用自上而下的路徑和橫向連接來實現對不同抽象層次的語義特征復用,通過自底向上的路徑逐級解碼,最終恢復高分辨率顯著特征。最新的研究大多數以U型結構為基礎,以圖像邊緣、局部上下文等信息輔助引導,對網絡結構進行優化而展開的。但是,U型結構也存在一些固有的不足:首先,多次下采樣操作容易導致顯著目標的空間和細節信息的丟失,通過側向連接和上采樣進行相鄰分辨率的特征融合,不能有效恢復所丟失的信息;其次,解碼階段直接將卷積特征作為輸入,忽視了多尺度特征的提取和不同通道特征的差異,從而可能無法正確引導生成精確的顯著圖。
標簽解耦模型[7]引入目標邊緣和內部細節兩種輔助標簽,通過多任務學習策略來提高顯著性檢測的性能。該模型需同時完成三個預測任務,不同任務的學習相輔相成、共享知識,為SOD研究探索了一種新的思路。但是,該模型中對交互解碼模塊采用了緊耦合設計,交互特征對主體解碼器和細節解碼器的貢獻是等同的,這有可能導致用于不同預測任務的特征相互干擾,進而影響到模型的最終性能。
基于以上觀察,本文受多任務學習策略和通道注意力機制啟發,提出了一種新的顯著性檢測模型M3Net(multi-scale feature multi-path adaptive multiplexing network)。M3Net基于標簽解耦模型的設計思路,引入了多尺度特征自適應融合模塊(multi-scale features adaptive fusion module,MAF)和循環反饋聚合模塊(recurrent feedback aggregation module,RFA)。MAF使用具有不同膨脹因子的膨脹卷積并行提取不同尺度的局部上下文信息,然后根據通道注意力對不同尺度的特征自適應加權融合,為解碼階段提供信息更加豐富的特征。RFA接收語義抽象最高層次的反饋信號,并將其與低層細節特征、相鄰層次的交互特征進行充分融合。RFA通過級聯的方式對特征進行逐級解碼,可使語義抽象層次從低到高的各層特征能保留顯著目標的結構性信息和細節信息。
1 相關工作
針對顯著性目標檢測任務目前面臨的挑戰,研究人員提出了各種基于不同特征融合策略的模型。Hou等人[8]提出了一種基于HED的帶有捷徑分支的跨層結構,集成不同層次的特征以輸出更精確的顯著性預測結果;Zhang等人[9]將多層次特征整合到多分辨率中,生成一系列預測,然后對它們進行融合處理以生成最終預測結果;Liu等人[10]利用兩種像素級上下文注意模塊捕獲全局和局部上下文信息;Wu等人[11]發現低層次的特征極大地增加了計算成本,但最終結果幾乎沒有改善,因此舍棄了低層次特征,并對高層次的特征反復聚合,以提高預測結果的準確性;Wang等人[12]利用自上而下和自下而上的注意機制,以兩種方式迭代整合多層次特征; Liu等人[13]利用簡單的池化操作和特征聚合模塊來建立快速準確的模型;Zhao等人[14]引入了通道注意力和空間注意力,以提取多維度的特征并抑制背景噪聲;Pang等人[15]提出了聚合交互模塊以集成相鄰層次的特征,并提出自交互模塊以獲得更高效的多尺度表示。
除了基于特征融合的顯著性目標檢測算法外,研究人員考慮到還可以利用邊緣標簽進行輔助訓練,進行多任務建模。Wang等人[16]提出了一種金字塔注意結構,將注意力更多地集中在顯著區域,并提出了一種顯著邊緣檢測模塊來檢測顯著對象邊界;Su等人[17]提出了一種邊界定位流來增強邊界,并設計了一個復雜的內部感知流來提高內部的特征不變性;Zhao等人[18]將局部邊緣信息和全局位置信息結合起來,得到顯著邊緣特征,然后將相同的顯著邊緣特征與多級顯著性特征耦合;Wu等人[19]設計了一個交叉細化單元,可同時改善邊緣和顯著性特征;Zhao等人[14]直接用二值交叉熵構建邊緣損失,以強調邊界的重要性;Liu等人[13]使用額外的邊緣數據集對邊緣檢測和SOD模型進行聯合訓練;Liu等人[20]引入了額外的訓練數據,并試圖同時對顯著性目標檢測、邊緣檢測和骨架檢測進行聯合建模。
盡管研究人員提出了眾多優秀的顯著性檢測模型,本文注意到通過設計更加合理的多尺度特征提取與聚合方法以及多任務建模方式,顯著性檢測模型的性能仍有很大的提升空間。
2 本文方法
本文提出一種新的顯著性目標檢測模型M3Net,網絡總體結構如圖1所示。網絡使用ResNet-50作為主干網絡提取卷積特征,使用編碼器—解碼器結構進行預測輸出。具體來說,編碼階段首先利用加載預訓練權重的ResNet-50生成五層輸出,之后通過多尺度特征自適應融合模塊(MAF)獲得自適應加權的多尺度特征。在解碼階段通過循環反饋聚合模塊(RFA)迭代地聚合具有不同映射的特征。針對容易預測的中心像素和難以預測的邊緣像素的分布不平衡問題,本文對顯著性標簽進行解耦處理,通過多任務監督訓練來提升顯著目標檢測的精度。
2.1 多尺度特征自適應融合模塊(MAF)
卷積神經網絡經過一系列的卷積和池化操作能獲得高度抽象的語義特征。但是,對于SOD任務而言,當尺寸較小的目標或背景較為復雜時,多次下采樣操作容易導致受關注目標的邊緣細節信息和空間結構信息丟失。這些關鍵性信息一旦丟失,僅通過上采樣和側向連接進行特征融合無法有效彌補,進而導致最終預測的顯著圖存在空洞和邊緣缺損等現象。此外,有研究表明,卷積神經網絡的同一層次內不同通道的特征存在較高程度的信息冗余[21]。若無差別地對待各個通道特征,可能會導致融合操作后重要特征被稀釋[22]。為此,在將卷積特征輸入到解碼器之前,植入多尺度特征自適應融合模塊(MAF),結合通道注意力對多個尺度特征進行自適應加權融合以獲取多尺度特征表達。MAF的結構如圖2所示,它由兩條并行的膨脹卷積分支、一條通道類注意力分支和殘差連接組成。
文獻[23]提出的多尺度融合模塊MSFM利用線性插值獲取不同尺度的特征,之后在每個尺度分支上使用普通卷積對特征進行提取,最后使用拼接操作對多尺度特征進行融合。與MSFM不同的是,MAF使用不同膨脹因子的多個膨脹卷積來捕獲不同感受野的上下文局部特征,并利用通道注意力機制對特征進行自適應加權,以突顯不同通道特征的重要程度。具體而言,對于主干網絡ResNet-50后四個stage提取到的卷積特征fi(i=2~5),首先將卷積特征f2~f5經過3×3卷積核得到第一次抽象后的特征gi。然后,將gi分別輸入到兩條膨脹卷積分支b1和b2,輸出具有不同分辨率的特征fac1和fac2,分支b1和b2中的膨脹卷積的ratio分別取2和4。為了凸顯不同通道特征之間的差異,將gi輸入類通道注意力模塊ASE,產生兩組64維向量γ1和γ2,分別用于對fac1和fac2的每個通道進行自適應加權。ASE模塊通過對傳統的SE模塊改進而成,其最后一個全連接層輸出的權重數目是輸入通道Cin的兩倍。最后將加權后的多分辨率特征與特征gi進行融合得到多尺度特征表達hi。主要過程可以表示為
其中:C、AC分別表示普通卷積和Atrous 卷積;3×3表示卷積核尺寸;ASE表示amended squeeze excited模塊;ratioj(j=1,2)分別表示兩條膨脹卷積分支中Atrous卷積核的膨脹因子。需要注意的是,為了減少后續特征融合時通道維度變換引起的計算開銷,M3Net中所有卷積核的輸出通道數目都設為64。卷積特征f2~f5經過MAF模塊后生成的各層特征h2~h5都含有不同感受野的上下文語義特征,通過RFA模塊的后續處理能逐步強化多分辨率語義表征能力,進而可有效克服多次下采樣操作引起的特征稀釋對預測結果帶來的不良影響。
2.2 循環反饋聚合模塊(RFA)
受文獻[7]啟發,本文提出循環反饋聚合模塊RFA,對編碼特征h2~h5進行逐級解碼,生成用于預測目標主體和內部細節的特征表達fbody和fdetail。然后,對fbody和fdetail按通道合并計算顯著目標的語義表達fsem,將其用于顯著性目標預測任務。考慮到不同任務存在相關性,RFA以多尺度特征h2~h5和fsem反饋的信號作為輸入,輸出fbody和fdetail。由于主體分支與細節分支結構一致,以目標主體預測分支(圖1中的上分支)中的RFA模塊展開闡述,RFA的內部結構如圖3所示。
值得注意的是,RFA模塊中反饋輸入fsem對預測任務的貢獻機制與文獻[7]有著本質上的不同,主要體現在兩個方面:a)M3Net中采用了兩個結構相互獨立的RFA模塊進行解碼操作,fsem對預測目標主體和內部細節兩個任務的貢獻互不相關;b)針對每個預測任務,RFA模塊使用了三條獨立的分支來計算fsem對各個層次特征的貢獻度δk,而非沿著自頂向下的路徑。采用這種設計不僅能有效地消除緊耦合設計帶來的δk之間的相互依賴,避免不同層次特征之間發生串擾,還能使得網絡自適應地學習到fsem對各個預測分支不同層次特征的貢獻度。解碼表達fbody的計算過程可表示為
其中:δk表示fbody對層次k解碼表達的貢獻量;U2表示兩倍上采樣;C3×3表示常規的3×3卷積運算;Dk表示在層次k上對多組特征進行加法運算時是否采用下采樣操作。當k=2時不進行下采樣處理,而當k=3(或4)時,分別使用倍率為2(或4)的下采樣。
3 實驗和結果
3.1 實驗細節
本文選用ResNet-50作為主干網絡,并加載它在ImageNet上預訓練的權重,其他參數隨機初始化。本文將ResNet-50的最大學習率設置為0.00 5,其他部分的最大學習率設置為0.05,使用warm up和線性衰減策略對學習率進行優化,整個網絡通過隨機梯度下降(SGD)進行端到端訓練,動量衰減和權重衰減分別設置為0.9和0.000 5,batchsize設置為20,最大訓練次數為48。在訓練過程中使用水平翻轉、隨機裁剪和多尺度輸入進行數據增強處理。在測試過程中,只需將測試圖像大小調整為320×320,然后輸入網絡即可獲得預測結果,無須任何后處理。所有實驗均在Ubuntu16.04操作系統,Interl CoreTMi7-8700K CPU @ 3.70 GHz×12處理器(64 GB內存),GTX 1080ti GPU(11 GB內存)顯卡,PyTorch 1.9.0,CUDA10.2環境下完成。
3.2 數據集
a)訓練數據集。本文使用DUTS-TR數據集對M3Net進行訓練,DUTS-TR數據集是DUTS數據集的一部分,也是用于顯著性目標檢測的最大和最常用的數據集,其包含的10 553幅訓練圖像均從ImageNet DET訓練/驗證集中收集而來。
b)測試數據集。本文使用了五個常用的公開數據集對提出模型進行評估,分別是DUTS-TE、DUT-OMRON、ECSSD、HKU-IS和PASCAL-S數據集。DUTS-TE中包含5 019幅從ImageNet DET測試集和SUN數據集中收集的測試圖像;DUT-OMRON中包含5 168幅高質量圖像,是一個具有單數或復數個顯著對象和相對復雜背景的大規模數據集;ECSSD包含1 000幅語義上有意義但結構相對復雜的圖像;HKU-IS包含4 447幅對比度較低或具有復數個顯著對象的圖像;PASCAL-S包含從PASCAL VOC數據集中手動挑選出來的850幅圖像。
3.3 評價指標
為了更加全面地對本文模型進行評估,選用最大F-measure(Fβ)、E-measure(Em)和平均絕對誤差(MAE)三種指標對本文模型和現有方法進行性能上的比較。此外,還繪制了F-measure和PR曲線來展示模型的整體性能。
a)PR曲線。通過比較不同閾值下模型生成的顯著圖與真值圖,可以得到一系列精確召回對,由此繪制PR曲線。
b)F-measure。通過計算加權調和平均,F-measure可以對精確度和召回率進行綜合考量,具體為
其中:precision表示精確度;recall表示召回率;β2通常被設置為0.3以更加強調精確度。
c)E-measure。其用來衡量顯著圖和真值圖之間的結構相似性,具體為
其中:φ表示增強的對準矩陣,反映分別減去真值圖和顯著圖的全局平均值之后的相關性。
d)平均絕對誤差(MAE)。它表示顯著圖和真值圖之間的L1距離,用來衡量它們之間的平均像素級絕對誤差,具體為
其中:G表示真值圖;S表示顯著圖;W和H是圖像的寬度和高度;G(i,j)和S(i,j)表示(i,j)處顯著值。
3.4 實驗對比
將M3Net與現有的十種最先進的方法進行比較,為了比較公平,使用各方法提供的顯著圖與本文模型生成的顯著圖在相同實驗環境下進行比較。
如表1所示,將M3Net與十種現有的方法在Fβ、Em和MAE三方面進行了比較。M3Net顯示出了良好的性能,并顯著優于其他方法,證明了M3Net的有效性。具體來說,M3Net在相同的測試環境下,在DUT-OMRON、ECSSD、HKU-IS、 PASCAL-S數據集的性能明顯優于現有方法。雖然與DUTS-TE數據集上的其他方法相比,它的性能不是最優的,但是也非常具有競爭力,接近最優方法。
圖4、5展示了各方法在不同數據集上的F-measure和PR曲線。可以看出,與其他方法相比,M3Net在DUT-OMRON、ECSSD、HKU-IS和PASCAL-S數據集上具有明顯突出的部分,在DUTS-TE數據集上也非常有競爭力。這些結果表明,M3Net具有優秀的生成高質量顯著圖的能力。
為了進一步驗證M3Net的性能,將其和其他現有方法進行可視化結果比較,如圖6所示。從圖6可以看出,M3Net可以有效地檢測出各種富有挑戰場景下的顯著對象,包括與背景相似的目標(第1和6行)、傾斜視角下的復數個目標(第2行)、被遮擋的小目標(第3行)、易混淆的復雜目標(第4行)、被嚴重干擾的目標(第5行)。由此可以發現M3Net在保留顯著對象完整結構的同時,對細節保留方面也具有明顯的優勢,這證明了本文方法的優越性。
3.5 消融實驗
為了驗證M3Net中各個模塊的有效性,本文在DUTS-OMORN數據集上進行了一系列消融實驗。
在相同的其他配置下,為了找到RFA的最佳迭代次數K,分別對K=1,2,3進行了實驗,對比結果如表2所示。從表2數據可以看出,對RFA模塊迭代多次時的模型性能整體上要優于僅使用1次RFA,但是K=3時模型的性能與K=2時相比呈現下降趨勢,這說明過多次數的迭代會導致重要的特征被稀釋。因此確定RFA的最佳迭代次數為K=2。
為了評估MAF和RFA的有效性,本文在DUTS-OMORN數據集上進行了四次消融實驗,對比結果如表3所示。需要注意的是,當RFA模塊加入到網絡時,訓練階段RFA的迭代次數都設置為2。根據表3可知,單獨添加MAF或RFA時模型的性能都能得到一定程度的提升,而同時加入MAF和RFA時模型性能達到最優。
3.6 速度對比
為了驗證M3Net的時間性能,與部分現有方法進行速度的比較,結果如表4所示。從表4中可以得知,M3Net處理一幅320×320像素的圖像速度達到60 fps,達到實時檢測要求,表明M3Net在提升檢測精度的同時也有著不錯的速度表現。
4 結束語
為了解決顯著性目標檢測中顯著圖結構不完整以及邊緣粗糙、細節丟失的問題,本文提出了M3Net。該網絡設計了多尺度特征自適應融合模塊,通過捕捉并整合多尺度特征改進了網絡性能;設計了循環反饋聚合模塊,對多種特征進行迭代地聚合處理,有效緩解了特征在自頂向下的傳播過程的稀釋問題。測試結果表明,本文方法在Fβ、Em、MAE三個指標整體優于十種最先進的方法,并且能在不同場景的數據集上生成結構完整、邊緣細節豐富的顯著圖,同時具有良好的速度性能。在接下來的工作中,將主要研究與偽裝目標檢測任務的聯合學習,進一步提高網絡的檢測精度。
參考文獻:
[1]Donoser M,Urschler M,Hirzer M,et al. Saliency driven total variation segmentation[C]// Proc of IEEE International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2009: 817-824.
[2]Guo Chenlei,Zhang Liming. A novel multiresolution spatiotemporal saliency detection model and its applications in image and video compression [J]. IEEE Trans on Image Processing,2010,19(1): 185-198.
[3]Stalder S,Grabner H,Gool L V. Dynamic objectness for adaptive tracking[C]// Proc of Asian Conference on Computer Vision. Berlin: Springer,2012: 43-56.
[4]Wang Wenguan,Lai Qiuxia,Fu Huazhu,et al. Salient object detection in the deep learning era: an in-depth survey[J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2021,44(6): 3239-3259.
[5]Long J,Shelhamer E,Darrell T. Fully convolutional networks for semantic segmentation[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2015: 3431-3440.
[6]Ronneberger O,Fischer P,Brox T. U-Net: convolutional networks for biomedical image segmentation[C]// Proc of International Confe-rence on Medical Image Computing and Computer-Assisted Intervention. Berlin: Springer,2015: 234-241.
[7]Wei Jun,Wang Shuhui,Wu Zhe,et al. Label decoupling framework for salient object detection[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 13025-13034.
[8]Hou Qibin,Cheng Mingming,Hu Xiaowei,et al. Deeply supervised salient object detection with short connections[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2017: 3203-3212.
[9]Zhang Pingping,Wang Dong,Lu Huchuan,et al. Amulet: aggregating multi-level convolutional features for salient object detection[C]// Proc of IEEE International Conference on Computer Vision. Pisca-taway,NJ: IEEE Press,2017: 202-211.
[10]Liu Nian,Han Junwei,Yang Minghsuan. PICANet: learning pixel-wise contextual attention for saliency detection[C]// Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition. Pisca-taway,NJ: IEEE Press,2018: 3089-3098.
[11]Wu Zhe,Su Li,Huang Qingming. Cascaded partial decoder for fast and accurate salient object detection[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 3907-3916.
[12]Wang Wenguan,Shen Jianbing,Cheng Mingming,et al. An iterative and cooperative top-down and bottom-up inference network for salient object detection[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 5968-5977.
[13]Liu Jiangjiang,Hou Qibin,Cheng Mingming,et al. A simple pooling-based design for real-time salient object detection[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 3917-3926.
[14]Zhao Ting,Wu Xiangqian. Pyramid feature attention network for saliency detection[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 3085-3094.
[15]Pang Youwei,Zhao Xiaqi,Zhang Lihe,et al. Multi-scale interactive network for salient object detection[C]// Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 9413-9422.
[16]Wang Wenguan,Zhao Shuyang,Shen Jianbing,et al. Salient object detection with pyramid attention and salient edges[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 1448-1457.
[17]Su Jinming,Li Jia,Zhang Yu,et al. Selectivity or invariance: boun-dary-aware salient object detection[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 3799-3808.
[18]Zhao Jiaxing,Liu Jiangjiang,Fan Dengping,et al. EGNet: edge gui-dance network for salient object detection[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 8779-8788.
[19]Wu Zhe,Su Li,Huang Qingming. Stacked cross refinement network for edge-aware salient object detection[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 7264-7273.
[20]Liu Jiangjiang,Hou Qibin,Cheng Mingming. Dynamic feature integration for simultaneous detection of salient object,edge,and skeleton[J]. IEEE Trans on Image Processing,2020,29: 8652-8667.
[21]Han Kai,Wang Yunhe,Tian Qi,et al. GhostNet: more features from cheap operations[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 1580-1589.
[22]Hu Jie,Shen Li,Sun Gang. Squeeze-and-excitation networks[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2018: 7132-7141.
[23]Wang Xuesong,Wang Caisheng. MSFM: multi-scale fusion module for object detection[C]// Proc of International Conference on Lear-ning Representations. 2021: 1-9.
[24]Qin Xuebin,Zhang Zichen,Huang Chenyang,et al. BASNet: boundary-aware salient object detection[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 7479-7489.
[25]Qin Xuebin,Zhang Zichen,Huang Chenyang,et al. U2-Net: going deeper with nested U-structure for salient object detection[J]. Pattern Recognition,2020,106: 107404.
[26]Chen Zuyao,Xu Qianqian,Cong Runmin,et al. Global context-aware progressive aggregation network for salient object detection[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2020: 10599-10606.
[27]Wei Jun,Wang Shuhui,Huang Qingming. F3Net: fusion,feedback and focus for salient object detection[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2020: 12321-12328.
[28]Zhang Miao,Liu Tingwei,Piao Yongri,et al. Auto-MSFNet: search multi-scale fusion network for salient object detection[C]// Proc of ACM International Conference on Multimedia. New York: ACM Press,2021: 667-676.
[29]Zhao Xiaoqi,Pang Youwei,Zhang Lihe,et al. Suppress and balance: a simple gated network for salient object detection[C]// Proc of European Conference on Computer Vision. Berlin:Springer,2020:35-51.
[30]Zhao Zhirui,Xia Changqun,Xie Chenxi,et al. Complementary trila-teral decoder for fast and accurate salient object detection[C]// Proc of ACM International Conference on Multimedia. New York: ACM Press,2021: 4967-4975.
[31]蔣亭亭,劉昱,馬欣,等. 多支路協同的 RGB-T 圖像顯著性目標檢測[J]. 中國圖象圖形學報,2021,26(10): 2388-239.(Jiang Tingting,Liu Yu,Ma Xin,et al. Multi-path collaborative salient object detection based on RGB-T images[J]. Journal of Image and Graphics,2021,26(10): 2388-239.)
[32]陳琴,朱磊,后云龍,等. 基于深度中心鄰域金字塔結構的顯著目標檢測[J]. 模式識別與人工智能,2020,33(6): 496-506.(Chen Qin,Zhu Lei,Hou Yunlong,et al. Salient object detection based on depth center neighborhood pyramid structure[J]. Pattern Recognition and Artificial Intelligence,2020,33(6): 496-506.)
[33]何偉,潘晨. 注意力引導網絡的顯著性目標檢測[J]. 中國圖象圖形學報,2022,27(4): 1176-1190.(He Wei,Pan Chen. The salient object detection based on attention-guided network[J]. Journal of Image and Graphics,2022,27(4): 1176-1190.)
收稿日期:2022-05-30;修回日期:2022-08-01 基金項目:國家自然科學基金資助項目(62061032)
作者簡介:徐溫程(1997-),男,河北廊坊人,碩士研究生,主要研究方向為深度學習、目標檢測等(791003527@qq.com);周之平(1975-),男,江西南昌人,講師,碩導,博士,主要研究方向為目標檢測等;程家睿(1998-),女,山東濱州人,碩士研究生,主要研究方向為深度學習等;蓋杉(1980-),男,吉林長春人,教授,碩導,博士,主要研究方向為模式識別等.