999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多尺度Transformer與層次化邊界引導的顯著性目標檢測

2022-12-31 00:00:00楊世偉王永雄蘭博天
計算機應用研究 2022年12期

收稿日期:2022-04-07;修回日期:2022-05-23" 基金項目:國家自然科學基金資助項目(61673276)

作者簡介:楊世偉(1997-),男,河南平頂山人,碩士研究生,主要研究方向為計算機視覺、顯著性目標檢測;王永雄(1970-),男(通信作者),上海人,教授,博導,博士,主要研究方向為機器視覺、智能機器人(wyxiong@usst.edu.cn);蘭博天(2001-),男,山西晉中人,本科生,主要研究方向為機器視覺、深度學習.

摘 要:針對顯著性目標檢測算法中全局和局部信息難以聯合表征和目標邊界難以細化的問題,提出了一種多尺度Transformer與層次化邊界引導的顯著性目標檢測算法。首先,構建Transformer模型提取全局信息,同時通過自注意力機制獲取有判別性的淺層局部特征,對全局和局部信息進行聯合表征。然后,引入Tokens-to-Token方法提取多尺度特征,使模型實現尺度變換平滑的編解碼。進一步,提出了一種層次化的邊界學習策略,引導模型在每個解碼特征層提取精細化的顯著性目標邊界特征,提升顯著性目標邊界的預測準確性。實驗結果表明,提出的算法在四個公開顯著性目標檢測數據集上均優于八種主流的顯著性目標檢測算法,并且通過消融實驗驗證了提出模型和邊界學習策略的有效性。

關鍵詞:顯著性目標檢測;多尺度特征;層次化邊界引導;Transformer

中圖分類號:TP18"" 文獻標志碼:A

文章編號:1001-3695(2022)12-048-3820-05

doi:10.19734/j.issn.1001-3695.2022.04.0162

Hierarchical boundary guided multi-scale Transformer for salient object detection

Yang Shiwei,Wang Yongxiong,Lan Botian

(School of Optical-Electrical amp; Computer Engineering,University of Shanghai for Science amp; Technology,Shanghai 200093,China)

Abstract:To address the issues that jointly represent the global and local information and refine the boundary in the salient object detection,this paper proposed a hierarchical boundary guided multi-scale Transformer for salient object detection.Specifi-cally,it firstly utilized Transformer to jointly represent the global information,while obtained the local feature via self-attention mechanism in the shallow layers.Then,it introduced Tokens-to-Token to extract the multi-scale features,smoothing the process of alternating the scale features simultaneously.Furthermore,it proposed a strategy of hierarchical boundary learning to guide the refinement of salient object boundary,improving the precise prediction of salient object boundary.The experimental results demonstrate that the proposed algorithm outperforms the eight popular salient object detection algorithms on the four public benchmarks.It evaluates the effectiveness of the proposed model and boundary guided strategy via ablation studies.

Key words:salient object detection;multi-scale features;hierarchical boundary guided;Transformer

0 引言

顯著性目標檢測(salient object detection,SOD)的目的是對圖像中最具有視覺吸引力的目標進行分割,實現一種與人類視覺感知系統相似的信息處理能力[1]。近些年,由于顯著性目標檢測在許多計算機視覺任務中扮演了重要的作用,如視頻壓縮[2]、人體行為預測[3]、自動導航[4]。所以,準確、可靠的顯著性目標檢測算法受到越來越多研究人員的關注。

傳統顯著性目標檢測算法的設計主要依賴不同的先驗信息和手工特征,如顏色對比度[5]、亮度[6]以及前景和背景之間的差異性[7]。然而,傳統算法忽略了語義信息,限制了算法對顯著性目標的特征表征能力,使得其難以應用于復雜的場景。近些年,隨著卷積神經網絡(convolution neural network,CNN)的發展,全卷積網絡(fully convolutional network,FCN)[8]逐漸成為顯著性目標檢測的主流模型[9~11]?;谌矸e網絡的顯著性檢測算法發揮了卷積操作的局部特性,結合在網絡深層捕獲高層的語義特征,能夠更準確地對顯著性目標進行定位。

然而,由于深度卷積特征的局部特性,基于全卷積網絡的模型設計通常需要權衡全局和局部特征的提取結構。為了獲取深層全局特征,在編碼過程中,需要疊堆卷積層以獲得更大的感受野,但這也會使特征丟失部分的局部信息。此外,若保留顯著性目標的局部信息表征,特征在淺層很難包含足夠的高層語義。因此,這種不一致性可能會使全局與局部特征的提取缺乏效率,如何聯合表征全局和局部信息始終是顯著性目標檢測的研究重點。隨著近些年Transformer模型在計算機視覺任務[12~14]中取得的成功,其刻畫特征長距離依賴的優越性被廣泛用于解決特征的全局表征問題。然而,視覺Transformer模型[15]通常是通過分塊操作將圖像直接組合為一個固定長度的序列,模型的編碼過程僅在一個粗等級尺度的序列上進行,未考慮到不同尺度顯著性目標的情況,導致在解碼階段很難得到清晰的顯著性目標預測結果。

針對上述問題,本文提出了一種多尺度Transformer與層次化邊界引導的顯著性目標檢測算法(hierarchical boundary guided multi-scale transformer,HBGMT)。首先構建基于Transformer模型的特征提取網絡,通過自注意力機制提升局部信息的表征能力,使模型在淺層刻畫全局特征的同時,保持層內的局部特征。同時,由于視覺Transformer模型忽略了不同尺度顯著性目標的特征捕獲,本文引入Tokens-to-Token(T2T)方法[16]實現多尺度的編解碼過程,賦予模型刻畫多尺度特征的能力,提升顯著性目標的預測準確性。進一步,在Transformer模型中引入層次化的邊界學習策略,構建聯合層次化邊界預測的多任務學習,增強顯著性目標局部邊界預測的精準性。算法過程是,將圖像按固定尺寸提取相互不重疊的圖像塊,作為Transformer模型的輸入序列。然后,序列在編碼階段通過T2T方法,在每一層前對特征序列實現結構化的下采樣,使Transformer層在淺層聯合表征全局和局部信息的同時,增加特征的尺度特性。然后,在解碼階段通過逆向T2T方法逐層恢復特征的序列尺度,輸出與原始圖像相同尺寸的顯著性目標預測結果。同時,通過建立跳層連接的方式,使模型的解碼過程包含更多的淺層局部信息。此外,對解碼部分每個層級的輸出特征設置邊界損失函數構建多任務學習任務,引導Transformer模型實現更精細化的顯著性目標邊界預測。

本文提出一種多尺度Transformer與層次化邊界引導的顯著性目標檢測算法,稱為hierarchical boundary guided multi-scale transformer(HBGMT)。通過在不同層級引入T2T方法形成多尺度形式的Transformer,加強模型對多尺度特征的捕獲能力,提升算法對顯著性目標的預測準確性;提出了一種層次化的邊界學習策略,構建聯合層次化邊界預測的多任務學習,引導Transformer模型在每個特征層級提取邊界特征,精細化顯著性目標的預測邊界。

1 相關工作

1.1 顯著性目標檢測

近些年,研究者將全卷積網絡作為顯著性目標檢測的主流架構,尤其是引入跳層連接架構聯合全局和局部語義信息。Hou等人[17]考慮到高層特征有利于定位顯著性區域,同時淺層特征能夠提供底層細節,因此在淺層和深層特征對之間引入跳層連接,增加底層和高層的特征融合。Zhao等人[18]在跳層連接引入過渡層和門結構,為抑制編碼器提取的冗余特征。同時,為了更好地定位顯著性目標,在編碼器中構建了Fold-ASPP模塊。Liu等人[19]提出一種金字塔池化模塊,使得編碼器能夠捕獲高層的語義信息。此外,在每個跳層連接中引入特征融合模塊,補充解碼階段丟失的特征細節信息。Zhao等人[20]采用VGG網絡作為編碼器,在每個卷積組之后添加邊緣監督信號,通過聯合邊緣損失引導網絡提取更多的低層特征。然而,在全局和局部信息的刻畫方面,上述方法通常受限于卷積操作的感受野尺寸。雖然增加更深的卷積層能夠擴大感受野,提升卷積操作對全局信息的捕獲,但局部信息隨著卷積層增加而逐漸減少的問題仍未能解決。

1.2 Transformer模型

Transformer模型最早在機器翻譯任務中被提出,其利用多頭自注意力機制,有效刻畫了序列中詞之間的長距離依賴關系。由于Transformer模型依賴特征長距離的建模能力,其在計算機視覺任務中的工作越來越受到關注。在圖像分類任務中,Dosovitskiy等人[15]提出一種只包含Transformer模型的編碼器,將圖像提取為互不重疊的圖像塊作為編碼器的輸入,實現類似詞的序。然后,分別通過自注意力機制和位置編碼同時提取序列中圖像塊之間的局部和全局信息。在目標檢測任務中,Carion等人[21]提出一種基于Transformer模型的編解碼器,對卷積神經網絡提取的特征進行序列化作為Transformer編碼器的輸入,挖掘目標候選特征與圖像整體的上下文關系。在視頻修復任務中,Zeng等人[22]提出一種時空Transformer模型,用于刻畫時間與空間之間的長距離依賴關系。在最新的研究工作中,Liu等人[23]將Transformer引入至顯著性目標檢測任務中,提出了一個適用于多模態顯著性目標檢測的模型。模型利用Transformer的自注意力機制,刻畫顯著性目標的全局依賴性,同時采用T2T和逆向T2T方法加強表征的多尺度特性,進一步引入邊界信息精細化顯著性目標預測的邊界。上述方法在不同的計算機視覺任務中,發揮了Transformer模型刻畫特征長距離依賴關系的特性,加強網絡對全局信息的刻畫能力。受此啟發,本文將Transformer模型引入至顯著性目標檢測任務,利用其自注意力機制,聯合表征顯著性目標的全局和局部信息。進一步,引入層次化邊界引導策略至Transformer模型,精細化顯著性目標的邊界預測結果。本文提出的HBGMT與Liu等人[23]的方法差別在于兩點:a)HBGMT將T2T和逆向T2T方法均勻設置在每個Transformer模塊中,使得特征的表征更為層次化,多尺度表征能力更強;b)HBGMT將邊界信息的引導作用于多個層級Transformer模塊的層級,對顯著性目標的邊界預測實現更準確的引導。

2 提出的方法

2.1 HBGMT

HBGMT算法的整體框架由六個Transformer模塊組成,形成編碼和解碼的結構,如圖1所示。根據數據流方向,圖像首先進行圖像序列化操作,形成序列數據作為HBGMT算法的輸入。然后,序列依次通過由六個Transformer模塊組成的編碼和解碼結構,提取局部和全局的層次化特征,模塊中的T2T和逆向T2T方法分別實現Token序列長度的減少和增加,以在編解碼過程中提取多尺度特征。此外,建立編碼到解碼階段的特征跳層連接,進一步使解碼階段能夠包含更多的淺層局部信息。最后,對HBGMT算法輸出的圖像塊序列進行重新排列,得到預測的顯著性目標圖和層次化的邊界圖。具體而言,給定一張輸入圖像X∈Euclid Math TwoRApH×W×c,H、W和C分別為輸入圖像的高度、寬度和通道數。圖像首先以像素點的形式序列化展開為X′∈Euclid Math TwoRApWH×C,HBGMT算法的顯著性目標檢測數據流表示如下:

F1=T1(X′),Fi=Ti(Fi-1) i={2,3}

Fi=Ti([Fi-1,F7-i]) i={4,5,6}S=σ(T6)(1)

其中:S∈Euclid Math TwoRApH×W×1是序列重構為圖像的顯著性目標預測圖;σ為sigmoid函數;Ti為第i個Transformer模塊;[·]為特征的疊加操作。此外,通過層次化邊界學習策略,引導深層的Transformer模塊對顯著性目標的邊界進行預測,各層次的目標邊界預測圖可由表示如下:

Bi=σ(Li(Fi))(2)

其中:Bi∈Euclid Math TwoRApHi×Wi×1為對應第i個Transformer模塊輸出的邊界預測圖,Hi和Wi分別為對應的高度和寬度;Li為對應的線性映射,將嵌入通道維數映射至單通道,可以看做是一個可學習的單層全連接神經網絡;Fi為對應Transformer模塊提取的特征。需要注意的是,上述層次化邊界學習策略選擇了深層Transformer模塊進行邊界引導,即i={3,4,5,6},使模型在深層保留目標邊界的局部信息。后面章節將對Transformer模塊中的細節和層次化學習策略進行介紹。

2.2 Transformer層

Transformer層是本文采用的Transformer模塊中主要的特征提取結構,其通過內部的多層次并行結構,加強了特征間全局依賴關系的捕獲。多頭自注意力(multi-head self-attention,MSA)和多層感知機(multi-layer perceptron,MLP)是Transformer層主要的結構,如圖1所示。多頭自注意力是自注意力(self-attention,SA)[24]的擴展,目的是更好地并行提取特征間多形式的全局相關性。自注意力可表示如下:

Q=FWQ,K=FWK,V=FWV,SA(F)=softmax(QKTdk)V(3)

其中:Q、K和V分別是自注意力輸入序列F∈Euclid Math TwoRApl×d通過三個映射函數的計算結果,WQ、WK和WV分別為可學習的參數;softmax(·)為softmax函數;dk為K的特征通道數。為了實現多個注意力的并行提取,多頭注意力通過疊加操作,將多個注意力結果并行融合,表示如下:

MSA(F)=[SA1(F),SA2(F),…,SAm(F)](4)

其中:[·]為疊加操作;m是并行自注意力的數量。除了多頭自注意力的并行形式之外,Transformer層還采用層歸一化操作[25]和多層感知機得到最終的特征,可表示如下:

i=MSA(LN(Fi-1))+Fi-1,Fi=MLP(LN(i))+i(5)

其中,LN(·)為層歸一化操作,Fi∈Euclid Math TwoRApli×di為對應第i個Transformer模塊中的層級特征。需要注意的是,為了簡化表示,模塊之間的跳層連接在上式中省略。

2.3 T2T和逆向T2T

T2T方法在保留局部信息的同時,通過平滑的方式減少特征序列的長度,構建多尺度形式的特征提取模型。首先,將序列重構為圖像形式,再設置滑動窗口,將窗口內的所有序列元素拼接,將拼接結果作為新的序列。往復上述步驟,將圖像形式的序列元素重新轉換為序列形式,T2T方法的一個簡單示例如圖2(a)所示。具體而言,給定T2T的輸入特征序列為F∈Euclid Math TwoRApl×d,其中l是序列長度。首先,將T重構為圖像I∈Euclid Math TwoRAph×w×d,其中l=hw。然后,設置一個尺寸為k×k、步長為s的滑動窗口,對圖像I每個滑窗內的元素進行拼接。最后,將上述滑窗操作遍歷作用于圖像I并轉換為新的特征序列Fr∈Euclid Math TwoRAplr×dk2,其中序列長度lr計算如下:

lr=hrwr=h+2p-kk-s+1」w+2p-kk-s+1」(6)

其中:·」為向下取整操作;p為超出邊界的填充尺寸。

在HBGMT算法的上采樣過程中引入逆向T2T方法,通過對特征序列通道維度進行拆分和重排列,增加了序列長度,為解碼階段提供了平滑的上采樣操作,逆向T2T方法的一個簡單示例如圖2(b)所示。具體而言,給定逆向T2T方法的輸入特征序列為F′r∈Euclid Math TwoRAplr×dr,其中dr為上一個Transformer模塊輸出序列的通道數,lr是序列長度。首先,將F′r的通道數通過線性映射增加至drk2,并重構為圖像I′r∈Euclid Math TwoRAphr×wr×drk2,其中lr=hrwr。然后,設置一個尺寸為k×k、步長為s的滑動窗口,對Ir中每個元素以通道維數展開,擴展至窗口中對應k2個位置內,得到尺寸擴展后的圖像Io∈Euclid Math TwoRApho×wo×dr。最后,將圖像Io重構為特征序列Fo∈Euclid Math TwoRAplo×dr,其中lo=howo,ho和wo可以根據式(6)進行反推得到,如下所示。

ho=(hr-1)(k-s)-2p+k,wo=(wr-1)(k-s)-2p+k(7)

需要注意的是,滑動窗口的步長若小于窗口尺寸則會產生窗口重疊,進而重疊區域數值被替換的現象。在逆向T2T方法中采用了累加策略,即對重疊位置的數值進行累加,避免丟失重疊區域的信息。

2.4 聯合層次化邊界預測的多任務學習

受邊緣引導在顯著性目標檢測算法的啟發[26],本文在Transformer模型中引入邊界學習策略,并進一步將邊界學習擴展至Transformer模型的每個特征提取層級,構成層次化邊界學習策略。在模型的深層引導對目標局部邊界特征的提取,構建聯合層次化邊界檢測的多任務學習,加強Transformer模型對顯著性目標邊界的預測精準性。具體而言,多任務學習由顯著性目標檢測任務和多個層次化的顯著性目標邊界檢測任務組成。顯著性目標檢測任務的損失函數采用二值交叉熵(binary cross entropy,BCE),可表示如下:

S=∑x,y-S⌒(x,y)ln S(x,y)-(1-S⌒(x,y))ln(1-S(x,y))(8)

其中:S⌒∈Euclid Math TwoRApH×W×1為顯著性目標的標簽,每個像素均為1或者0,分別表示對應位置(x,y)的像素屬于顯著性或非顯著性目標;∑x,y為簡化表示的求和操作,將每個像素位置的計算結果求和。

對于層次化邊界檢測任務,首先根據顯著性目標的標簽S⌒進行Sobel邊緣檢測[27],得到的顯著性目標邊界標簽可表示如下:

B⌒=1{(fHS⌒)2+(fWS⌒)2}(9)

其中:B⌒∈Euclid Math TwoRApH×W×1為顯著性目標邊界標簽;fH和fW分別是高和寬方向的Sobel算子;為卷積運算符號;1{·}為將圖像中大于0.2的元素進行置1操作。然后,每個層級的顯著性目標邊界檢測任務的損失函數可表示如下:

B=∑iηi∑x,y-B⌒i(x,y)ln Bi(x,y)-

(1-B⌒i(x,y))ln(1-Bi(x,y))(10)

其中:B⌒i∈Euclid Math TwoRApHi×Wi×1為對應第i個Transformer模塊的顯著性目標邊界標簽,通過對B⌒采用最鄰近插值下采樣得到;ηi為每個層級邊界損失函數的權重。最后,多任務學習的聯合損失函數可表示如下:

=S+B(11)

3 實驗結果

在本章中,首先對實驗配置進行介紹,包括訓練實施細節、數據集和評價指標。接著,將HBGMT算法與八種主流的方法進行比較。最后,通過消融實驗驗證了T2T和逆向T2T方法所形成的多尺度形式和層次化邊界學習策略的有效性。

3.1 實施細節

HBGMT算法的構建和訓練是通過基于Python的PyTorch深度學習網絡庫實現的,訓練和推理實驗在一張英偉達GTX2080Ti顯卡上完成。訓練細節方面,與其他大部分顯著性檢測方法類似,HBGMT算法訓練使用的數據集是DUTS[28]的訓練集部分,包含10 533張圖像樣本。訓練以8個樣本組成批處理數據,對模型參數進行9E4次的學習更新,使用Adam[29]優化器對HBGMT算法的參數進行優化。優化器的初始學習率設置為1E-4,并在4.5E4和7E4次迭代時進行調整,分別降低為1E-5和1E-6。多任務學習聯合損失函數方面,層次化邊界損失函數權重ηi均設為{0.5,0.5,0.5 ,0.5}。數據增強處理方面,將圖像利用雙線性插值調整為256×256,進行隨機翻轉和隨機裁剪至224×224。需要注意的是,在推理階段,圖像直接采用雙線性插值調整為224×224。模型結構細節方面,Transformer模塊的結構細節主要涉及Transformer層、T2T和逆向T2T方法。其中,六個Transformer層包括自注意力的并行數量、多頭自注意力的層級深度和輸出序列的通道數,分別為{1,1,6,6,1,1}、{1,1,4,4,2,2}和{64,64,384,384,384,384};下采樣部分的T2T方法包括滑動窗口的尺寸k、步長s和填充尺寸p,分別為{7,3,3}、{3,1,1}和{2,1,1};上采樣部分的逆向T2T方法對應滑動窗口的尺寸、步長和填充尺寸為{3,3,7}、{1,1,3}和{1,1,2}。輸入圖像的尺寸為224×224,通過三個包含T2T方法的Transformer模塊以后,序列重構的圖像尺寸Hi×Wi分別依次為{56×56,28×28,14×14}。同樣,經過三個包含逆向T2T方法的Transformer模塊后,序列重構的對應尺寸為{28×28,56×56,224×224}。

3.2 數據集

本文將HBGMT算法在四個主流的顯著性目標檢測數據集上進行驗證,包括DUTS-TE[27]、DUT-OMRON[30]、HKU-IS[31]以及PASCAL-S[32]。DUTS-TE是DUT數據集的訓練集,包含5 019張圖像樣本。DUT-OMRON是最具挑戰性的數據集,包含5 169張背景復雜且顯著性目標不唯一的圖像樣本。HKU-IS包含4 447張高質量圖像樣本,并且圖像中也常存在多個顯著性目標。PASCAL-S包含850張圖像樣本,雖然樣本數量不多,但復雜重疊的顯著性目標仍對算法帶來了很大的挑戰。

3.3 評價指標

本文使用了三個主流的顯著性目標檢測評價指標,包括平均絕對誤差(mean absolute error,MAE)、F度量(F-measure,Fβ)以及結構性度量(S-measure,Sm)。其中,MAE計算顯著性目標預測結果S和真實標簽S⌒之間的差異表示如下:

MAE(S⌒,S)=1WH∑x,y|S⌒(x,y)-S(x,y)|(12)

F度量是準確率和召回率的加權調和平均,表示如下:

Fβ=(1+β2)×precision×recallβ2×precision+recall(13)

其中:β2設為0.3;precision和recall分別為顯著性目標檢測預測結果的準確率和召回率。結構性度量同時評估面向物體和面向區域的結構信息,表示如下:

Sm=α×So+(1-α)×Sr(14)

其中:α設為0.5;So和Sr分別為面向物體和面向區域的結構相似性度量[33]。

3.4 與其他方法的性能比較

本文與八種顯著性目標檢測算法進行比較,包括PiCANet[34]、BASNet[35]、CPD-R[36]、AFNet[37]、GateNet[18]、ITSD-Bicon[38] 、VST[23]以及DMMF[10]。為了得到公平的比較結果,所有結果均采用對應算法公開的顯著性目標預測結果進行比較。

表1列出了各算法在MAE、Fβ以及Sm三個指標的定量比較結果。其中,由于DMMF算法未采用Fβ作為評價指標,從而此處DMMF算法的Fβ結果無法統計。通過比較可以看到,HBGMT算法在大部分數據集及上都取得了優于其他方法的結果。在較難的數據集DUT-OMRON上,HBGMT算法在Fβ和Sm評估指標上領先次優的結果均為0.005,這主要受益于Transformer模型能夠在淺層聯合表征顯著性目標的全局和局部信息,加強了復雜顯著性目標的捕獲能力。同時,層次化邊界引導策略也使模型能夠更進一步對顯著性目標的邊界進行精細化的預測。在MAE評估指標方面,HBGMT算法的定量提升不明顯,基本保持在0.001~0.002。

圖3是HBGMT算法與其他方法的可視化定性比較。其中,DMMF算法未有提供顯著性目標的預測圖,因此未能進行可視化定性比較??梢钥闯?,HBGMT算法對顯著性目標的全局信息和邊界細節捕獲能力明顯更強。圖3第1~4行,HBGMT算法對于多個目標或存在遮擋的情況,通過全局信息的聯合表征能夠完整地辨別出顯著性目標。第5~9行,HBGMT算法在層次化邊緣學習的引導下,顯著性目標的細微邊界相比于其他方法能夠被更準確地捕獲。

3.5 消融實驗

為了進一步驗證HBGMT算法多尺度形式以及邊界引導策略的有效性,本文在DUTS-TE和DUT-OMRON上設置了消融實驗。首先,構建不包含多尺度形式的HBGMT算法,稱為基線模型。通過基線模型與多尺度形式模型的比較結果,驗證引入T2T和逆向T2T方法形成模型多尺度形式的有效性。具體而言,基線模型去除了T2T方法和解碼部分的模塊,并對解碼過程中Transformer層進行修改,使解碼部分的參數量與編碼部分匹配,盡可能保證模型的性能不受參數量減少的影響。其中,自注意力的并行數量、多頭自注意力的層級深度和輸出序列的通道數分別為{3,3,6}、{3,3,4}和{384,384,384}。表2的第1、2行分別列出了基線模型和僅包含多尺度形式HBGMT算法之間的比較結果??梢钥闯觯喑叨刃问降慕Y構提升了模型在三個評價指標MAE、Fβ和Sm上的表現,加強了模型對于顯著性目標的特征提取能力。然后,通過對編碼階段的每個層級逐步添加邊界引導策略,分析層次化邊界引導策略的有效性。表2的第3~6行列出了HBGMT算法在逐步采用邊界引導策略后的比較結果。可以看出,隨著在更多層級采用邊界引導,模型的各項指標逐步提升。其中,Sm的不斷提升表示層次化邊界引導策略有效增強了模型對顯著性目標邊界和整體結構預測的精準性,層次化邊界引導的有效性得到了驗證。

4 結束語

本文提出了一種多尺度Transformer與層次化邊界引導的顯著性目標檢測算法(HBGMT)。首先,通過Transformer模型的自注意力機制,聯合表征顯著性目標的全局和局部信息。然后,引入Tokens-to-Token(T2T)方法加強模型對多尺度特征的捕獲能力,提升算法對顯著性目標的預測準確性。提出的層次化邊界學習策略可以引導Transformer模型在每個特征層級提取邊界特征,提高了顯著性目標的預測邊界。比較實驗表明:HBGMT算法在大部分指標上優于八種主流算法,并通過消融實驗驗證了算法和各個模塊的有效性。為了保證顯著性目標檢測的實時性。在今后的研究中,引入更輕量的Transformer模型,提升HBGMT算法的計算速度以滿足實時性應用場合是后續工作的重點。

參考文獻:

[1]Itti L,Koch C,Niebur E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1998,20(11):1254-1259.

[2]Zhu Shiping,Chang Qinyao,Li Qinghai.Video saliency aware intelligent HD video compression with the improvement of visual quality and the reduction of coding complexity[J].Neural Computing and Applications,2022,34(10):7955-7974.

[3]Weng Zhengkui,Li Wuzhao,Jin Zhipeng.Human activity prediction using saliency-aware motion enhancement and weighted LSTM network[J].EURASIP Journal on Image and Video Processing,2021,2021(1):1-23.

[4]Guo Binghua,Guo Nan,Cen Zhisong.Motion saliency-based collision avoidance for mobile robots in dynamic environments[J].IEEE Trans on Industrial Electronics,2022,69(12):13203-13212.

[5]Cheng Mingming,Mitra N J,Huang Xiaolei,et al.Global contrast based salient region detection[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2014,37(3):569-582.

[6]Einhauuser W,Kounig P.Does luminance-contrast contribute to a sa-liency map for overt visual attention?[J].European Journal of Neuroscience,2003,17(5):1089-1097.

[7]He Shengfeng,Lau R W H.Saliency detection with flash and no-flash image pairs[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2014:110-124.

[8]Long J,Shelhamer E,Darrell T.Fully convolutional networks for semantic segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:3431-3440.

[9]Dong Bo,Zhou Yan,Hu Chuanfei,et al.BCNet:bidirectional collaboration network for edge-guided salient object detection[J].Neurocomputing,2021,437:58-71.

[10]周之平,樊斌,蓋杉,等.多尺度特征深度復用的顯著性目標檢測算法[J].計算機應用研究,2022,39(8):2515-2519.(Zhou Zhiping,Fan Bin,Gai Shan,et al.Deep multiplexing multi-scale features for salient object detection[J].Application Research of Computers,2022,39(8):2515-2519.)

[11]Zhao Ting,Wu Xiangqian.Pyramid feature attention network for saliency detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:3085-3094.

[12]Liu Ze,Lin Yutong,Cao Yue,et al.Swin transformer:hierarchical vision transformer using shifted windows[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:10012-10022.

[13]Arnab A,Dehghani M,Heigold G,et al.Vivit:a video vision transformer[C]//Proc of IEEE/CVF International Conference on Compu-ter Vision.Piscataway,NJ:IEEE Press,2021:6836-6846.

[14]Wang Wenhai,Xie E,Li Xiang,et al.Pyramid vision transformer:a versatile backbone for dense prediction without convolutions[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:568-578.

[15]Dosovitskiy A,Beyer L,Kolesnikov A,et al.An image is worth 16×16 words:transformers for image recognition at scale[C]//Proc of International Conference on Learning Representations.[S.l.]:ICLR Press,2021.

[16]Li Yuan,Chen Yunpeng,Wang Tao,et al.Tokens-to-token vit:training vision transformers from scratch on ImageNet[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:558-567.

[17]Hou Qibin,Cheng Mingming,Hu Xiaowei,et al.Deeply supervised salient object detection with short connections[J].IEEE Trans on Pattern Analysis amp; Machine Intelligence,2019,41(4):815-828.

[18]Zhao Xiaoqi,Pang Youwei,Zhang Lihe,et al.Suppress and balance:a simple gated network for salient object detection[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2020:35-51.

[19]Liu Jiangjiang,Hou Qibin,Cheng Mingming,et al.A simple pooling-based design for real-time salient object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:3917-3926.

[20]Zhao Jiaxing,Liu Jiangjiang,Fan Dengping,et al.EGNet:edge gui-dance network for salient object detection[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:8779-8788.

[21]Carion N,Massa F,Synnaeve G,et al.End-to-end object detection with transformers[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2020:213-229.

[22]Zeng Yanhong,Fu Jianlong,Chao Hongyang.Learning joint spatial-temporal transformations for video inpainting[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2020:528-543.

[23]Liu Nian,Zhang Ni,Wan Kaiyuan,et al.Visual saliency transformer[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:4722-4732.

[24]Zhao Henghuang,Jia Jiaya,Koltun V.Exploring self-attention for image recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:10076-10085.

[25]Ba J L,Kiros J R,Hinton G E.Layer normalization[EB/OL].(2016-07-21)[2022-04-03].https://arxiv.org/abs/1607.06450.

[26]Wang Yupei,Zhao Xin,Hu Xuecai,et al.Focal boundary guided salient object detection[J].IEEE Trans on Image Processing,2019,28(6):2813-2824.

[27]Kanopoulos N,Vasanthavada N,Baker R L.Design of an image edge detection filter using the Sobel operator[J].IEEE Journal of Solid-State Circuits,1988,23(2):358-367.

[28]Wang Lijun,Lu Huchuan,Wang Yifan,et al.Learning to detect salient objects with image-level supervision[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:136-145.

[29]Kingma D P,Ba J.Adam:a method for stochastic optimization[EB/OL].(2014-12-22)[2022-04-04].https://arxiv.org/abs/1412.6980.

[30]Yang Chuan,Zhang Lihe,Lu Huchuan,et al.Saliency detection via graph-based manifold ranking[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2013:3166-3173.

[31]Li Guanbin,Yu Yizhou.Visual saliency based on multiscale deep features[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:5455-5463.

[32]Li Yin,Hou Xiaodi,Koch Christof,et al.The secrets of salient object segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2014:280-287.

[33]Fan Dengping,Cheng Mingming,Liu Yun,et al.Structure-measure:a new way to evaluate foreground maps[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:4548-4557.

[34]Liu Nian,Han Junwei,Yang Ming-Hsuan.PiCANet:learning pixel-wise contextual attention for saliency detection[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:3089-3098.

[35]Qin Xuebin,Zhang Zichen,Huang Chenyang,et al.BASNet:boundary-aware salient object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:7479-7489.

[36]Wu Zhe,Su Li,and Huang Qingming.Cascaded partial decoder for fast and accurate salient object detection[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:3907-3916.

[37]Feng Mengyang,Lu Huchuan,Ding Errui.Attentive feedback network for boundary-aware salient object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:1623-1632.

[38]Yang Ziyun,Soltanian-Zadeh S,Farsiu S.BiconNet:an edge-preserved connectivity-based approach for salient object detection[J].Pattern Recognition,2022,121:108231.

主站蜘蛛池模板: 久久久91人妻无码精品蜜桃HD| 国产亚洲精品在天天在线麻豆| 亚洲精品第一页不卡| 亚洲欧美精品在线| 日韩精品少妇无码受不了| 成年人视频一区二区| 国内精品久久久久久久久久影视| 欧美69视频在线| 午夜免费小视频| 男女精品视频| yy6080理论大片一级久久| 久久中文无码精品| 亚洲中文无码av永久伊人| 色窝窝免费一区二区三区| 久久国产精品嫖妓| 中日韩一区二区三区中文免费视频| 中文国产成人精品久久| 亚洲精品自产拍在线观看APP| 亚洲天堂2014| 久久精品女人天堂aaa| 九九九国产| 亚洲免费三区| 亚洲综合天堂网| 成人午夜网址| 国产黄色免费看| 三级欧美在线| 亚洲国产精品不卡在线| 狂欢视频在线观看不卡| 婷婷丁香在线观看| 亚洲码在线中文在线观看| 国产一区免费在线观看| 97精品伊人久久大香线蕉| 国产午夜人做人免费视频| 成人福利在线视频| 71pao成人国产永久免费视频| 国精品91人妻无码一区二区三区| 久久人与动人物A级毛片| 国产尹人香蕉综合在线电影| 亚洲福利视频一区二区| 亚洲青涩在线| 欧美日韩资源| 国产高潮流白浆视频| 免费看美女自慰的网站| 久久久精品久久久久三级| 狠狠色成人综合首页| 香蕉视频在线观看www| 国产SUV精品一区二区6| 青青草国产一区二区三区| 欧美精品1区2区| 中国成人在线视频| 午夜少妇精品视频小电影| 综合亚洲色图| 欧美日本在线一区二区三区| 99ri国产在线| 免费观看亚洲人成网站| 国语少妇高潮| 国产精品免费入口视频| 色哟哟国产精品一区二区| 亚洲va欧美va国产综合下载| 啊嗯不日本网站| 亚洲天堂网2014| 99精品久久精品| 欧美午夜视频| 亚洲无码视频一区二区三区| 午夜精品久久久久久久无码软件| 高清国产va日韩亚洲免费午夜电影| 欧美日韩动态图| 久久精品人人做人人爽| 91精品国产丝袜| 日韩高清中文字幕| 99久久成人国产精品免费| 国产日本视频91| 国产成年无码AⅤ片在线| 亚洲国产精品不卡在线 | 2020久久国产综合精品swag| 内射人妻无套中出无码| 久久免费精品琪琪| 欧美一级特黄aaaaaa在线看片| 亚洲网综合| 久久国产高潮流白浆免费观看| 在线欧美a| 亚洲天堂伊人|