摘要:針對傳統顯著性目標檢測方法在檢測不同尺度的多個顯著性目標方面的不足,提出了一種多尺度特征深度復用的顯著性目標檢測算法,網絡模型由垂直堆疊的雙向密集特征聚合模塊和水平堆疊的多分辨率語義互補模塊組成。首先,雙向密集特征聚合模塊基于ResNet骨干網絡提取不同分辨率語義特征;然后,依次在top-down和bottom-up兩條通路上進行自適應融合,以獲取不同層次多尺度表征特征;最后,通過多分辨率語義互補模塊對兩個相鄰層次的多尺度特征進行融合,以消除不同層次上特征之間的相互串擾來增強預測結果的一致性。在五個基準數據集上進行的實驗結果表明,該方法在Fmax、Sm、MAE最高能達到0.939、0.921、0.028,且檢測速率可達74.6 fps,與其他對比算法相比有著更好的檢測性能。
關鍵詞:顯著性目標檢測;多尺度特征;雙向密集特征聚合;多分辨率語義;深度學習
中圖分類號:TP391.41文獻標志碼:A
文章編號:1001-3695(2022)08-048-2515-05
doi:10.19734/j.issn.1001-3695.2022.01.0033
Deep multiplexing multi-scale features for salient object detection
Zhou Zhiping,Fan Bin,Gai Shan,Xu Wencheng
(School of Information Engineering,Nanchang Hangkong University,Nanchang 330063,China)
Abstract:In view of the shortcomings of traditional salient target detection methods in detecting multiple salient targets at different scales,this paper presented a salient object detection algorithm with deep multiplexing of multi-scale features.The network model consisted of vertically stacked bidirectional dense feature aggregation modules and horizontally stacked multi-resolution semantic complementary modules.Firstly,the bidirectional dense feature aggregation module extracted semantic features of different resolutions based on the ResNet backbone network,and then performed adaptive fusion on the top-down and bottom-up paths in turn to obtain multi-scale representation features at different levels.The multi-resolution semantic complementation module fused the multi-scale features of two adjacent levels to eliminate the mutual crosstalk between features at different levels and enhance the consistency of prediction results.The experimental results on 5 benchmark datasets show that the method can achieve the highest Fmax,Sm,MAE of 0.939,0.921,0.028,and the detection rate can reach 74.6 fps,which has better detection performance compared with other comparison algorithms.
Key words:salient object detection;multi-scale features;bidirectional dense feature aggregation;multi-resolution semantic;deep learning
0引言
顯著性目標檢測(salient object detection,SOD)是計算機視覺領域的一項關鍵技術,旨在從輸入圖像中分割出視覺上最為明顯的區域。深度學習技術的興起促進了SOD技術的大力發展,并將SOD性能提升到一個新的水平。SOD已被廣泛應用于計算機視覺的多個領域,如圖像分割[1]、視覺跟蹤[2]、圖像質量評估[3]、圖像檢索[4]、邊緣檢測[5]等。在基于CNN的SOD模型中,不同層次的特征可以表征顯著性對象的不同特性。具體來說,低層語義特征有著顯著對象的詳細信息,但包含大量噪聲,而高級語義特征可幫助網絡定位顯著對象的位置,但缺乏有關對象的詳細信息。
如何從尺度變化的數據中提取更有效的信息,以及怎么使得預測結果與圖像中的顯著目標在空間上保持一致,仍然是兩個懸而未決的問題。近年來所開展的研究工作專注于設計復雜的網絡結構,提取具有強辨識能力的多尺度特征或對多尺度特征進行高效的融合,以滿足對不同尺度顯著性目標檢測的要求。Zhang等人[6]提出了一個通用的聚合多級卷積特征的框架,它以完全連接的方式組合來自多層的特征。Hou等人[7]在整體嵌套邊緣檢測模型(HED)中引入快捷連接,提出了一種跳層結構,該結構具有一系列從高級特征到低級特征的快捷連接。Liu等人[8]通過選擇性地聚合上下文信息來構建全局上下文特征,然后將全局上下文和多尺度局部上下文進行歸并來提升效果。Wu等人[9]提出了一種新穎的級聯部分解碼器框架,該框架丟棄了低層特征以降低深度聚合模型的復雜性,并利用生成的相對精確的注意力圖來精煉高層特征。Pang等人[10]提出聚合交互模塊,通過相互學習的方式有效地利用相鄰層的特征和自適應模塊,使網絡自適應地提取多尺度信息,以更好地處理尺度的變化。
此外,為了生成更好的顯著性映射圖,有必要對多層次的特征進行歸并。然而,過度集成不同分辨率的特征,不僅會帶來大量的計算開銷,還會導致有用特征被稀釋,進而使算法性能退化。為此,研究學者提出了多種不同的方案以克服這一問題。Feng等人[11]采用每個編碼器塊和相應的解碼器塊構建的注意反饋模塊來幫助結合多層次特征。Wei等人[12]采用選擇性融合策略,通過元素級乘法操作來融合不同層次的特征以抑制冗余信息,避免不同層次特征之間的相互污染。Qin等人[13]提出了一個兩層嵌套的U型結構來集成多層次的深層特征。Chen等人[14]將殘差學習引入到HED的體系結構中,在自上而下的路徑中使用反向注意力來指導殘余顯著性學習,引導網絡能快速而有效地發現缺失的對象部分和缺損細節。陳琴等人[15]提出結合中心鄰域對比度機制和卷積神經網絡,為有效提高多尺度特征的表示能力提供了一種強有力的方法。
綜上所述,如何將CNN主干網絡中不同層次的特征有效融合至關重要。該文基于U-Net網絡模型[16],提出一種多尺度特征深度復用的顯著性目標檢測模型(deep multiplexing multi-scale feature,DMMF)。該模型中設計了雙向密集特征聚合模塊(bidirectional dense aggregation,BDA),在top-down和bottom-up兩條通路中對主干網抽取的不同分辨率的CNN特征進行重用,并利用殘差連接進行特征增強。通過堆疊多個不同尺度的BDA模塊來提取具有多種分辨率語義的多層次特征。結合文獻[10]的設計理念,設計了多分辨率語義互補模塊(multi-resolution semantic complement,MSC),按照級聯方式將其植入到U-Net的bottom-up通路中以增強模型對顯著性目標的預測能力。
1多尺度特征深度復用網絡
多尺度特征深度復用的顯著性目標檢測網絡如圖1所示。該網絡以ResNet50作為主干網絡。為了使初始特征更加多樣化,提出了一個堆疊的雙向密集特征聚合模塊對主干網絡提取的特征進行全分辨率融合,提取語義更為豐富的多尺度特征。對于獲取到的多個層次的多尺度特征,采用級聯的多分辨率語義互補模塊來保留相鄰特征節點中的有用信息,逐級還原顯著性目標的語義信息和空間信息。
1.1雙向密集特征聚合模塊
雙向密集特征聚合模塊旨在聚合不同分辨率的特征。形式上,給出多尺度列表特征Lin=(Ll1in,Ll2in,…),其中Lliin表示li層的特征,該算法的目標是找到一個可以有效聚合不同特征并輸出新特征列表的變換f:Lout=f(Lin)。傳統的FPN[17]以自頂向下的方式聚合多尺度特征,其本質上受到單向信息流的限制。為了解決這個問題,PANet[18]增加了一個額外的自下而上的路徑聚合網絡,性能提升的同時帶來了更多的參數和計算;NAS-FPN[19]使用神經架構搜索來搜索更好的跨尺度特征網絡拓撲,但在搜索過程中需要數千個GPU小時,并且發現的網絡不規則且難以解釋或修改;EfficientDet[20]通過對PANet進行化簡構建了BiFPN模塊,并通過多次堆疊BiFPN更有效地獲得更具鑒別性的多尺度特征。
雙向密集特征聚合模塊通過雙向(自頂向下和自底向上)跨尺度連接路徑進行多尺度特征提取,當融合不同分辨率的特征時,由于輸入特征具有不同的分辨率,它們通常對輸出特征的貢獻不均等,該算法通過一個簡單的注意力機制為每個輸入增加一個額外的權重,讓網絡學習每個輸入特征的重要性。然而,不同于簡單的級聯操作,該算法通過堆疊不斷減小規模的雙向密集特征聚合模塊來實現更高級別的特征融合,以更少量的參數達到相同甚至更優的效果。
BDA模塊的結構如圖1所示。以圖2的BDA5模塊為例,下標“5”表示該模塊有5個輸入信號,對應于ResNet50網絡五個stage上提取到的基本特征a1~a5。首先,a5通過上采樣與a4進行逐元素線性加權操作以及3×3卷積(含批歸一化層、ReLU激活函數層)操作獲得m4,同理自底向上依次獲得m3、m2以及b1;然后,b1下采樣與m2、a2進行逐元素線性加權操作以及3×3卷積(含批歸一化層、ReLU激活函數層)獲得b2,同理自頂向下地依次獲得b3、b4、b5;最后,將b5作為 MSC的輸入之一c5,同時b1、b2、b3、b4作為模塊BDA4的輸入。與BDA5類似,BDA4將得到b1、b2、b3、b4四個輸出,b4將作為 MSC的輸入之一c4,同時b1~b3作為模塊BDA3的輸入,最終BDA3的三個輸出作為MSC的輸入c1~c3。
圖2中BDA5的融合過程如式(1)(2)所示。
mk=0k=1,5
conv(w1ak+w2×up(ak+1))1lt;klt;5 (1)
bk=conv(w1ak+w2×up(mk+1))k=1
conv(w1ak+w2mk+w3×down(bk-1))1lt;klt;5
conv(w1ak+w3×down(bk-1))k=5(2)
其中:mk(k=2~k)是自上而下路徑的中間特征;conv表示對特征進行3×3卷積,再加上批歸一化(batch normalization)和ReLU激活函數的一組操作;wi為特征融合階段給每個輸入所分配的權重系數,wi初始化為(0,1)的隨機數,并利用Laplace平滑進行歸一化處理,wi=(w+ε)/∑i(w+ε),i=1,2,3,其中ε=1×10-4,用于避免數值計算的不穩定。網絡每次訓練后更新wi,使用ReLU函數保證其非負,并通過Laplace平滑重新歸一化處理。
1.2多分辨率語義互補模塊
堆疊的雙向密集特征聚合模塊用于從骨干網絡提取不同層次有效的多尺度特征,而多分辨率語義互補模塊則是讓相鄰層次的多尺度特征在空間、語義上相互補充,不斷增強適合當前分辨率的特征,削弱不合適的特征,進而找到適合當前輸入信息的特征。
自上而下經過BDA5~BDA3獲得一組最終的多尺度語義特征c1~c5,分辨率依次為320×320、160×160、80×80、40×40、20×20,這些特征都含有來自不同尺度目標的語義信息,但各個語義成分的重要程度存在差異。如果簡單地將這些特征進行線性融合會造成特征之間的相互干擾,弱化那些具有較強鑒別能力的特征,進而影響算法的檢測性能。為此,提出多分辨率語義互補模塊,以充分挖掘各個粒度特征中的有用信息,形成優勢互補。MSC的詳細情況如圖3所示。
MSC可以表示為
fg=conv(concat(f1,f2))(3)
f*1=f1⊕fg,f*2=f2⊕fg,fc=conv(f*1,f*2)(4)
其中:f1、f2表示相鄰特征;conv表示帶批量歸一化層和ReLU激活函數的空洞卷積;⊕為逐元素加法;為逐元素乘法。MSC首先通過concat操作將輸入特征進行合并;然后通過rate為1的空洞卷積,同時進行歸一化和ReLU操作,這樣就得到了融合兩個輸入特征的全局語義信息;再通過逐元素相加將得到的全局語義信息添加回輸入特征,分別對輸入特征進行空間和語義上的補強;最后通過逐元素乘法,并加入自適應權重來有選擇地繼承兩組從空間和語義上得到補強的特征。這樣,MSC就實現了讓輸入特征繼承的重要特性,同時丟棄了更多噪聲的目標。
2實驗和結果分析
2.1數據集
a)訓練數據集。本文方法在DUTS-TR上進行網絡訓練,DUTS-TR是DUTS數據集的一個子集,總共包含10 553幅圖像,它是目前規模最大和最常用的顯著性目標檢測訓練數據集。為了確保模型的收斂,設置訓練的輪次為80,采用SGD優化器,初始學習率為1×10-3,權重衰減為5×10-4,其中,動量項系數為0.9。所有實驗均在Linux 16.04操作系統,GPU(GTX TITAN-XP),PyTorch 1.0.0,CUDA 9.0環境下完成。
b)測試數據集。使用六個常用的基準數據集對提出的方法進行評估,包括DUT-OMRON[21]、DUTS-TE[22]、HKU-IS[23]、ECSSD[24]、PASCAL-S[25]。DUT-OMRON包括5 168幅圖像,其中大多數包含一個或兩個結構復雜的前景目標。DUTS數據集由DUTS-TR和DUTS-TE兩部分組成,因為算法訓練時使用了DUTS-TR數據集,為此選擇包含5 019幅圖像的DUTS-TE進行測試;HKU-IS包含4 447幅圖像,其中包含多個與圖像邊界相交的不連續顯著對象;ECSSD包含1 000幅結構復雜的圖像,多數圖像包含尺度較大的前景目標;PASCAL-S包含850幅圖片,這些圖像都有著復雜的前景對象和雜亂的背景。
2.2評估指標
為了更全面地進行實驗評價,該算法選擇了F-measure、平均絕對精度(MAE)、S-measure三個廣泛使用的評價指標來對算法的性能進行評價。
a)F-measure是綜合precision和recall的加權調和平均值,定義如下:
Fβ=(1+β2)×precision×recallβ2×precision×recall(5)
其中:β2一般設置為0.3。F-measure越大表示預測結果越準確,本文選擇所有閾值計算出的最大值作為評價結果。
b)平均絕對誤差(MAE)是計算預測的顯著圖與真值圖之間的平均絕對誤差,計算公式如下:
MAE=1H×W∑Hx=1∑Wy=1|P(x,y)-G(x,y)|(6)
其中:P代表預測的顯著圖;G代表對應的真值圖;(H,W)代表圖像的大小;(x,y)代表像素點的對應坐標。MAE越小表示預測結果越好。
c)S-measure是通過度量目標感知(object-aware)So和區域感知(region-aware)Sr的結構相似性來評估預測的顯著圖和真值圖之間的結構相似性的評價指標,計算公式如下:
S=αSo+(1-α)Sj(7)
其中:α通常設置為0.5。S-measure越大,表示檢測的顯著圖與真值圖在空間結構上越相似。
2.3性能分析
本文在DUTS-TE、DUT-OMRON、HKU-IS、ECSSD和PASCAL五個顯著性檢測數據集上,使用上述評價指標,將新提出的方法與目前最先進的11種方法進行比較,結果如表1所示。
由表1可知本文提出的方法有著很好的性能,在大多數數據集的比較指標上表現優于其他顯著性檢測模型。其中,在HKU-IS數據集上該算法表現最好,在三個評價指標上都優于其他方法,Fmax比U2Net提高了0.004,Sm比U2Net提高了0.005,MAE比U2Net減小了0.003;在DUTS-TE數據集上,提出方法的Fmax和Sm均優于其他方法,只有MAE略低于F3Net;在ECSSD數據集上,提出方法的MAE和Sm均優于其他方法,只有Fmax略低于U2Net。因此,綜合所有的數據集和評價指標,提出的方法對多個顯著目標和尺度變化有著很好的性能體現。
此外,在數據集ECSSD上不同方法之間的平均速度(FPS)比較如表2所示。從表2可以看出,提出方法的檢測速度為74.6 fps,僅次于MINet的86 fps,但檢測性能優于MINet。
為了更直觀地說明提出算法的優勢,將11種最先進的檢測方法在不同場景下的預測結果可視化,比較結果如圖4所示。圖4中,第1行是小的顯著性目標的情況,第2行是大的顯著性目標的情況,第3、4行是包含多個大小不同的顯著性目標的情況,第5行是前景、背景對比度較低的情況,第6行是在復雜場景下的情況。
由圖4可以看出,本文算法在小目標、大目標、具有不同尺度目標、復雜背景等情況下的檢測效果與真值圖都相差無幾。較其他算法,在小目標情況下可以有效屏蔽背景干擾,檢測到小的顯著目標;在大目標情況下能更完整地檢測除顯著性目標外,不會出現缺損;在具有不同尺度目標時也能很好地檢測到物體的輪廓邊緣;在前景、背景對比度低的情況下,能很好地找到目標的完整輪廓;在復雜背景場景下,也能有效地檢測到顯著目標而不會檢測到干擾目標。
2.4消融分析
1)不同BDA模塊對算法性能的影響
為了獲得更好的多尺度信息,該算法巧妙地堆疊多個BDA模塊。為了驗證如何堆疊更利于模型預測,在HKU-IS數據集上,對不同堆疊方案進行了測試和比較,結果如表3所示,其中“×n”表示對結構相同的重復堆疊n次。
從表3可以看出,重復對BDA5模塊堆疊多次時算法性能比使用單個模塊要好,說明多次對多分辨率特征進行融合有助于提升算法性能。但當堆疊次數超過3時,算法性能會下降,因為隨著網絡模型變深,容易導致梯度消失,從而使得網絡更難以訓練;對三個不同構型的BDA模塊進行堆疊時,算法性能最優,這反映了對不同分辨率的多層語義特征融合能防止有用的特征被稀釋,從而捕獲更具判別性的抽象特征。
2)MSC和BDA組合策略對算法性能的影響
為了驗證MSC和BDA兩個模塊在模型中的有效性,針對不同組合策略,在DUTS-TE數據集上進行測試。使用F-measure、MAE和S-measure三個評價指標進行性能比較,結果如表4所示。
其中:baseline為原始的U-Net網絡模型,BDAs為按“BDA5+BDA4+BDA3”堆疊的子網絡,BDA*s表示不進行加權的BDAs,即式(1)(2)中所有權重wi取為1。從表4可以看出,在baseline上引入BDAs或MSC模塊后算法性能都能獲得一定程度的提升。而baseline+BDAs+MSC策略獲得的性能最佳,相較于baseline,模型的Fmax、Sm指標分別提高了0.038和0.048,MAE下降了0.02。說明堆疊多個BDA和MSC模塊能抽取更利于檢測任務的抽象特征,引入自適應加權策略融合不同層次的特征可避免特征之間的相互干擾,進而使得預測結果與圖像中顯著性目標更為一致。
3結束語
為了克服顯著性目標檢測中多尺度問題,本文提出一種基于多尺度特征深度復用的顯著性目標檢測方法。該方法設計了一個雙向密集特征聚合模塊,對主干網絡提取的卷積特征進行多次重用,利用自適應加權融合特征,以消除不同層次特征的相互干擾;設計了多分辨率語義互補模塊,對分辨率相鄰的兩組特征進行融合,在空間和語義上進行相互增強。測試結果表明,本文方法在Fmax、Sm和MAE分別能達到0.939、0.921、0.028,均優于11種較先進的方法,且能準確地檢測到圖像中不同尺度的多個目標,有效地處理背景較為復雜的場景。在下一步的研究工作中,將引入多監督的思想和采用新的注意力機制來更有效地尋找顯著目標的輪廓,并使用深度可分離卷積來減少模型的參數。
參考文獻:
[1]李鋒林,李亮.基于顯著性檢測的目標圖像分割算法[J].電子科技,2017,30(1):69-71.(Li Fenglin,Li Liang.Object segmentation method using saliency detection[J].Electronic Science and Technology,2017,30(1):69-71.)
[2]Wang Yong,Wei Xian,Lu Ding,et al.A robust visual tracking method via local feature extraction and saliency detection[J].Visual Computer,2020,36(4):683-700.
[3]陳晨.基于視覺感知的圖像質量評價方法研究[D].西安:西安電子科技大學,2019.(Chen Chen.Research on image quality evaluation method based on visual perception[D].Xi’an:Xidian University,2019.)
[4]Wang Haoxiang,Li Zhihui,Li Yang,et al.Visual saliency guided complex image retrieval [J].Pattern Recognition Letters,2020,130(2):64-72.
[5]張艷邦,張芬,張姣姣.基于圖像邊緣特征的目標檢測算法[J].內江科技,2021,42(4):47-67.(Zhang Yanbang,Zhang Fen,Zhang Jiaojiao.Target detection algorithm based on image edge features[J].Neijiang Science amp; Technology,2021,42(4):47-67.)
[6]Zhang Pingping,Wang Dong,Lu Huchuan,et al.Amulet:aggregating multi-level convolutional features for salient object detection[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2017:202-211.
[7]Hou Qibin,Cheng Mingming,Hu Xiaowei,et al.Deeply supervised salient object detection with short connections [J].IEEE Trans on Pattern Analysis amp; Machine Intelligence,2019,41(4):815-828.
[8]Liu Nian,Han Junwei,Yang M H.PiCANet:learning pixel-wise contextual attention for saliency detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:3089-3098.
[9]Wu Zhe,Li Su,Huang Qingming.Cascaded partial decoder for fast and accurate salient object detection[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:3907-3916.
[10]Pang Youwei,Zhao Xiaoqi,Zhang Lihe,et al.Multi-scale interactive network for salient object detection[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:9413-9422.
[11]Feng Mengyang,Lu Huchuan,Ding Errui.Attentive feedback network for boundary-aware salient object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:1623-1632.
[12]Wei Jun,Wang Shuhui,Huang Qingming.F3Net:fusion,feedback and focus for salient object detection[C]//Proc of the 34th AAAI Confe-rence on Artificial Intelligence.Palo Alto,CA:AAAI Press,2020:12321-12328.
[13]Qin Xuebin,Zhang Zichen,Huang Chenyang,et al.U2-Net:going deeper with nested U-structure for salient object detection [J].Pattern Recognition,2020,106(10):107404.
[14]Chen Shuhan,Tan Xiuli,Wang Ben,et al.Reverse attention for salient object detection[C]//Proc of the 15th European Conference on Computer Vision.Cham:Springer,2018:236-252.
[15]陳琴,朱磊,后云龍,等.基于深度中心鄰域金字塔結構的顯著目標檢測 [J].模式識別與人工智能,2020,33(6):496-506.(Chen Qin,Zhu Lei,Hou Yunlong,et al.Salient object detection based on deep center-surround pyramid[J].Pattern Recognition and Artificial Intelligence,2020,33(6):496-506.)
[16]Ronneberger O,Fischer P,Brox T.U-Net:convolutional networks for biomedical image segmentation[C]//Proc of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention.Cham:Springer,2015:234-241.
[17] Lin T Y,Dollár P,Girshick R,et al.Feature pyramid networks for object detection[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:2117-2125.
[18]Mei Yiqun,Fan Yuchen,Zhang Yulun,et al.Pyramid attention networks for image restoration [EB/OL].(2020-06-03).https://arxiv.org/pdf/2004.13824.pdf.
[19]Ghiasi G,Lin T Y,Le Q V.NAS-FPN:learning scalable feature pyramid architecture for object detection[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:7036-7045.
[20]Tan Mingxing,Pang Ruoming,Le Q V.EfficientDet:scalable and efficient object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:10781-10790.
[21]Yang Chuan,Zhang Lihe,Lu Huchuan, et al. Saliency detection via graph-based manifold ranking[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2013:3166-3173.
[22]Wang Lijun,Lu Huchuan,Wang Yifan,et al.Learning to detect salient objects with image-level supervision[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:136-145.
[23]Li Guanbin,Yu Yizhou.Visual saliency based on multiscale deep features[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition.Washington DC:IEEE Computer Society,2015:5455-5463.
[24]Yan Qiong,Xu Li,Shi Jianping,et al.Hierarchical saliency detection[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition.Washington DC:IEEE Computer Society,2013:1155-1162.
[25]Li Yin,Hou Xiaodi,Koch C,et al.The secrets of salient object segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2014:280-287.
[26]Zeng Yu,Zhuge Y,Lu Huchuan,et al.Multi-source weak supervision for saliency detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:6074-6083.
[27]Deng Zijun,Hu Xiaowei,Zhu Lei,et al.R3Net:recurrent residual refinement network for saliency detection[C]//Proc of the 27th International Joint Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:684-690.
[28]Liu Jiangjiang,Hou Qibin,Cheng Mingming,et al.A simple pooling-based design for real-time salient object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:3917-3926.
[29]Zhao Jiaxing,Liu Jiangjiang,Fan Dengping,et al.EGNet:edge gui-dance network for salient object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:8779-8788.
[30]Qin Xuebin,Zhang Zichen,Huang Chenyang,et al.BASNet:boundary-aware salient object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:7479-7489.
收稿日期:2022-01-04;修回日期:2022-03-01基金項目:國家自然科學基金資助項目(62061032)
作者簡介:周之平(1975-),男,江西南昌人,講師,碩導,博士,主要研究方向為目標檢測(zhouzhp@126.com);樊斌(1997-),男,江西九江人,碩士研究生,主要研究方向為深度學習、目標檢測等;蓋杉(1980-),男,吉林長春人,教授,碩導,博士,主要研究方向為模式識別等;徐溫程(1997-),男,河北廊坊人,碩士研究生,主要研究方向為目標檢測等.