999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于通道權(quán)重的順序精煉RGB-D顯著檢測網(wǎng)絡(luò)

2022-12-31 00:00:00卞華軍王華軍趙赫威

收稿日期:2021-12-16;修回日期:2022-02-22

基金項(xiàng)目:四川省人工智能重點(diǎn)實(shí)驗(yàn)室項(xiàng)目(2020RYJ02);模式識別與智能信息處理四川省高校重點(diǎn)實(shí)驗(yàn)室(MSSB-2020-10)

作者簡介:卞華軍(1996-),男,江蘇鹽城人,碩士研究生,主要研究方向?yàn)橛?jì)算機(jī)視覺、圖像處理(969923258@qq.com);王華軍,男,四川成都人,博導(dǎo),博士(后),主要研究方向?yàn)橛?jì)算機(jī)視覺、人工智能、模式識別;趙赫威(1997-),男,河北邢臺人,碩士研究生,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、深度學(xué)習(xí).

摘 要:提出了一種新型的用于RGB-D顯著目標(biāo)檢測的網(wǎng)絡(luò)框架(SR-Net)。為了有效整合多模態(tài)特征的互補(bǔ)性,將深度特征提取作為獨(dú)立分支,采用卷積塊注意模塊(CBAM)進(jìn)行深度特征增強(qiáng),并整合增強(qiáng)后的深度特征與RGB 特征的互補(bǔ)信息。為了去除冗余特征,減少背景噪聲對預(yù)測結(jié)果的干擾,在上采樣網(wǎng)絡(luò)中設(shè)計(jì)了一種順序精煉網(wǎng)絡(luò),即通過整合多層次、多尺度特征的互補(bǔ)性,獲取初級全局特征,并采用基于通道權(quán)重的初級全局特征權(quán)重矩陣獲取模塊(PFW)獲取初級全局特征的權(quán)重矩陣;其次利用獲取到的權(quán)重矩陣對各層次特征進(jìn)行精煉,以抑制背景噪聲帶來的干擾;最后,為了更好地優(yōu)化整個網(wǎng)絡(luò),提出了一種新的損失函數(shù)。在四個公共數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該模型在不同的模型評價指標(biāo)上均優(yōu)于近年來九種先進(jìn)方法,獲得了優(yōu)異的性能。

關(guān)鍵詞:顯著性目標(biāo)檢測; RGB-D; 通道權(quán)重; 順序精煉

中圖分類號:TP391.41"" 文獻(xiàn)標(biāo)志碼:A

文章編號:1001-3695(2022)09-046-2854-07

doi:10.19734/j.issn.1001-3695.2021.12.0696

Sequential refined RGB-D saliency detection network based on channel weight

Bian Huajun, Wang Huajun, Zhao Hewei

(School of Network Security, Chengdu University of Technology, Chengdu 610059, China)

Abstract:This paper proposed a new network framework for RGB-D salient object detection (SR-Net). In order to effectively integrate the complementarity of multi-model features, this paper took the depth feature extraction as an independent branch, used the convolutional block attention module(CBAM) to enhance the depth feature, and integrated the complementary information of the enhanced depth feature and RGB feature. Then, in order to remove feature redundancy and reduce the interfe-rence of background noise on the prediction results, it proposed a sequential refining network in the up-sampling network. That is, first, the primary global features were obtained by integrating the complementarity of multi-level and multi-scale features, and used the primary global feature weight matrix acquisition module (PFW) which based on the channel weight to obtain the weight matrix of the primary global feature, and then used the obtained weight matrix to refine the features of each level to suppress the interference which caused by background noise. Finally, in order to better optimize the whole network, it proposed a new loss function. The experimental results on four public datasets show that the model is superior to nine advanced methods in different model evaluation indexes, and achieves more advanced performance.

Key words:salient object detection; RGB-D; channel weight; sequential refine

0 引言

基于RGB-D的顯著目標(biāo)檢測(RGB-D SOD)旨在從一對RGB圖像及深度圖像中檢測到最具吸引力的部分。在過去的十幾年里,顯著目標(biāo)檢測(SOD)因可以廣泛應(yīng)用于圖像分割[1]、圖像編輯[2]以及視頻分析[3]等領(lǐng)域的預(yù)處理階段,而備受關(guān)注。傳統(tǒng)的顯著目標(biāo)檢測方法主要依賴于手工制作的低級特征[4~7]來進(jìn)行顯著目標(biāo)檢測,但因缺少對顯著目標(biāo)語義信息的獲取而很難在背景比較復(fù)雜等情況中取得良好的實(shí)驗(yàn)效果。近年來,隨著深度學(xué)習(xí)的快速發(fā)展,眾多研究工作者開始將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)應(yīng)用于RGB-D SOD中,并取得良好的實(shí)驗(yàn)效果。Li等人[8]首次采用深度神經(jīng)網(wǎng)絡(luò)搭建了一個基于多尺度特征的顯著性模型;Wu等人[9]提出級聯(lián)部分解碼器模型(cascaded partial decoder, CPD), 將主干網(wǎng)絡(luò)中較深的特征進(jìn)行整合, 得到初始顯著性圖, 進(jìn)而通過整體注意力模塊細(xì)化特征, 獲得最終的顯著性圖;Liu等人[10]認(rèn)為主干網(wǎng)絡(luò)從淺到深提取多層次特征,生成粗顯著圖,它定位了顯著目標(biāo),但失去了輪廓細(xì)節(jié),其在DR-CNNNet中采用DRCNN用于從深到淺渲染顯著目標(biāo)。低層側(cè)輸出借助于深層側(cè)輸出、原始深度線索和粗顯著圖,可以從多個尺度生成顯著對象,從而保留更多的輪廓細(xì)節(jié);Wu等人[11]在MCMF-Net中提出了一種利用深度數(shù)據(jù)從相應(yīng)的幾何信息中檢測顯著目標(biāo)邊界的方法,而不是簡單地從深度數(shù)據(jù)中提取顯著目標(biāo)特征。但是,隨著研究工作的不斷進(jìn)行,現(xiàn)仍然存在兩種難點(diǎn)亟待解決:a)如何有效整合多模態(tài)、多尺度及多層次特征的互補(bǔ)性;b)如何有效抑制復(fù)雜背景噪聲帶來的干擾,并去除特征中所包含的冗余信息。因此,為了解決以上兩種問題,本文提出了一種基于通道權(quán)重的順序精煉RGB-D顯著目標(biāo)檢測網(wǎng)絡(luò)(SR-Net)。具體的,在SR-Net中,本文采用基于注意力機(jī)制的CBAM(convolutional block attention module)模塊增強(qiáng)深度特征并有效整合多模態(tài)特征的互補(bǔ)性,并設(shè)計(jì)一種順序精煉網(wǎng)絡(luò),首先通過多層次、多尺度特征融合以獲取初級全局特征(如圖1所示),并采用基于通道權(quán)重的初級全局特征權(quán)重矩陣獲取模塊(primary global feature weight matrix acquisition module,PFW)獲取初級全局特征的權(quán)重矩陣并去除冗余信息,再利用獲取到的權(quán)重矩陣對各層次特征進(jìn)行精煉,以抑制背景噪聲帶來的干擾。

RGB圖像包含了顯著目標(biāo)的顏色、紋理等信息,而深度圖像可以獲得顯著目標(biāo)的結(jié)構(gòu)及空間布局,兩者獲取到的特征具有互補(bǔ)性。對比僅將深度圖像作為RGB圖像的補(bǔ)充[12]不同,在下采樣網(wǎng)絡(luò)中,本文采用了兩個獨(dú)立的ResNet-50骨干網(wǎng)絡(luò)分支分別進(jìn)行深度特征和RGB特征提取,提取到的深度特征采用基于注意力機(jī)制的CBAM模塊進(jìn)行深度特征增強(qiáng),將增強(qiáng)后的深度特征與RGB進(jìn)行互補(bǔ)性特征整合,有效地整合了多模態(tài)特征的互補(bǔ)性。背景噪聲會對最終顯著目標(biāo)預(yù)測結(jié)果造成嚴(yán)重影響,希望在上采樣中可以去除各層次特征中的冗余信息,并采用初級全局特征對各層次特征進(jìn)行精煉,以強(qiáng)調(diào)和增強(qiáng)各層次中的重要信息。綜上,本文在上采樣網(wǎng)絡(luò)中,首先初步整合各層次、各尺度特征的互補(bǔ)性,以同時結(jié)合低層次特征中包含的紋理信息和高層次特征中包含的語義信息,獲取初級全局特征(見圖1中Fprd1),將獲取到的初級全局特征輸入到PFW模塊,去除冗余信息,并獲取初級全局特征的權(quán)重矩陣(如圖1中weights所示),用以精煉各層次特征,降低背景噪聲的干擾。

與以往簡單整合多模態(tài)特征的互補(bǔ)性不同,首先本文采用了兩個ResNet-50骨干網(wǎng)絡(luò)分支進(jìn)行RGB和深度特征提取,并采用CBAM模塊進(jìn)行深度特征增強(qiáng),有效整合了多模態(tài)特征的互補(bǔ)性。再者,為了去除各層次特征中包含的冗余信息,降低背景噪聲帶來的干擾,在上采樣網(wǎng)絡(luò)中設(shè)計(jì)了順序精煉網(wǎng)絡(luò),并設(shè)計(jì)了基于通道權(quán)重的PFW模塊,去除初級全局特征中的冗余信息,獲取初級全局特征的權(quán)重矩陣,用于后續(xù)精煉各層次特征。如圖1所示,本文模型的顯著目標(biāo)預(yù)測結(jié)果邊緣清晰(如圖2第一行圖像所示),且結(jié)構(gòu)完整(如圖2第二、三行圖像所示)。綜上所述,本文貢獻(xiàn)主要如下:

a)采用一種基于注意力機(jī)制CBAM模塊進(jìn)行深度特征增強(qiáng),與以往工作僅將深度特征作為RGB特征的補(bǔ)充不同,采用單獨(dú)ResNet-50單獨(dú)骨干網(wǎng)絡(luò)分支進(jìn)行深度特征提取;

b)設(shè)計(jì)了一種順序精煉網(wǎng)絡(luò),首先通過整合多層次、多尺度特征,獲取初級全局特征,然后采用初級全局特征的權(quán)重矩陣去精煉各層次特征,以去除冗余信息;

c)設(shè)計(jì)了一種初級全局特征權(quán)重矩陣獲取模塊(PFW),其基于注意力機(jī)制,對獲取到的初級全局特征進(jìn)行特征冗余去除,獲取相應(yīng)權(quán)重矩陣,進(jìn)而用于精煉各層次特征;

d)為了更好地優(yōu)化本文設(shè)計(jì)的整個網(wǎng)絡(luò),提出了一種新的損失函數(shù),經(jīng)實(shí)驗(yàn)證明,在新的損失函數(shù)的優(yōu)化下,本文提出的SR-Net在四個公共數(shù)據(jù)集上均獲得優(yōu)秀的實(shí)驗(yàn)效果。

1 總體模型架構(gòu)

如圖1所示提出了基于通道權(quán)重的順序精煉RGB-D顯著目標(biāo)檢測網(wǎng)絡(luò)(SR-Net)。即兩個獨(dú)立的ResNet-50特征提取骨干網(wǎng)絡(luò)分支,一個初級全局特征獲取分支,一個基于通道權(quán)重采用初級全局特征進(jìn)行上采樣特征精煉分支。具體的,在ResNet-50特征提取骨干網(wǎng)絡(luò)分支中,convi(i=1,…,5)分別代表各層特征提取骨干網(wǎng)絡(luò),提取到的深度特征會經(jīng)過深度特征增強(qiáng)模塊(CBAM)進(jìn)行特征增強(qiáng),隨后將增強(qiáng)后的特征與骨干網(wǎng)絡(luò)提取到的RGB特征進(jìn)行多模態(tài)特征融合,獲得經(jīng)過多模態(tài)整合后的特征,并輸送至上采樣網(wǎng)絡(luò)中。在初級全局特征獲取分支中,多模態(tài)整合后的特征會首先經(jīng)過全局上下文獲取模塊(global contextual module,GCM)及上采樣操作來進(jìn)行上下文信息綜合和上采樣;其次,整合了經(jīng)過上述預(yù)處理后的多層次及多尺度特征的互補(bǔ)性,獲得初級全局特征。在采用初級全局特征進(jìn)行上采樣特征精煉分支中,獲取到的初級全局特征會首先經(jīng)過基于注意力權(quán)重機(jī)制的全局特征精煉模塊(PFW),去除初級全局特征的冗余信息,并生成對應(yīng)權(quán)重矩陣(如圖1中weights(W)所示),然后,利用生成的權(quán)重對各層次特征進(jìn)行精煉;最后,整合多層次、多尺度精煉后的特征,獲取最終的顯著目標(biāo)預(yù)測結(jié)果。為了更好地優(yōu)化本文基于通道權(quán)重的順序精煉網(wǎng)絡(luò),在網(wǎng)絡(luò)中的不同層次進(jìn)行上采樣,以獲取到的該層次的顯著目標(biāo)預(yù)測結(jié)果圖,并計(jì)算子損失函數(shù),特別的,根據(jù)該層次對最終顯著目標(biāo)預(yù)測結(jié)果的影響程度,給予該層次的子損失函數(shù)以不同的權(quán)重(如圖1中0.1×loss1所示)。具體的關(guān)于整個網(wǎng)絡(luò)的介紹如下文所述。

1.1 深度特征增強(qiáng)模塊(CBAM)

為了有效整合來自RGB特征和深度特征的互補(bǔ)性,以往的工作多采用簡單的連接方式,例如,級聯(lián)、對應(yīng)元素點(diǎn)乘、相加,或僅將深度特征作為RGB特征的補(bǔ)充進(jìn)行多模態(tài)特征融合,并未深度考慮由于內(nèi)在的模態(tài)差異及深度特征的冗余性,直接采用簡單的方式整合多模態(tài)特征融合會帶來一些冗余信息和噪聲。受文獻(xiàn)[13]的啟發(fā),本文采用通道注意力機(jī)制及空間全局注意力機(jī)制構(gòu)建深度特征增強(qiáng)模塊,進(jìn)而對深度特征進(jìn)行特征增強(qiáng)。如圖3所示,將輸入的特征圖Finput分別經(jīng)過max-pooling及avg-pooling,獲得關(guān)于特征圖的各通道權(quán)重,然后經(jīng)過比率變換提取全局通道信息并對應(yīng)元素相加,獲得基于通道注意力機(jī)制的特征圖FCA,具體計(jì)算過程如下:

f1=convc/ratio→c(δ(convc→c/ratio(maxpool(Finput))))(1)

f2=convc/ratio→c(δ(convc→c/ratio(avgpool(Finput))))(2)

FCA=sigmoid(conv2→1([f1,f2]))(3)

其中:Finput代表輸入特征圖;maxpool、avgpool分別代表著全局最大池化和全局平均池化;convi→j代表將通道數(shù)由i轉(zhuǎn)變到j(luò)的1×1卷積;ratio代表比例變換;δ表示ReLU激活函數(shù);f1及f2表示計(jì)算過程中的中間過渡變量;FCA表示經(jīng)過通道注意力機(jī)制精煉后得到的特征圖。隨后,將FCA分別經(jīng)過基于空間的maxpool及avgpool,獲得空間層面上的關(guān)于顯著目標(biāo)的權(quán)重,然后采用級聯(lián)進(jìn)行連接,并通過7×7卷積將通道數(shù)轉(zhuǎn)換為1,獲得基于空間注意力機(jī)制的特征圖FSA,具體的計(jì)算過程為

FSA=sigmoid(conv2→1[maxpool(FCA),avgpool(FCA)])(4)

其中:FCA表示經(jīng)過通道注意力機(jī)制精煉后得到的特征圖;maxpool及avgpool分別表示基于空間的全局最大池化和全局平均池化;FSA表示經(jīng)過全局注意力精煉后得到的特征圖。

1.2 初級特征獲取

如圖2所示,經(jīng)過深度增強(qiáng)后的特征會和骨干網(wǎng)絡(luò)提取到的RGB特征進(jìn)行對應(yīng)元素相加,以整合上下文信息并輸送到全局上下文信息獲取模塊(GCM),進(jìn)行上下文信息綜合,獲得特征Si。隨后,因多層次、多尺度的特征所包含的關(guān)于顯著目標(biāo)的信息具有互補(bǔ)性,有效整合多層次、多尺度特征的互補(bǔ)性,進(jìn)而獲取到的初級全局特征,會包含更多的關(guān)于顯著目標(biāo)的主要信息,當(dāng)使用其進(jìn)行基于注意力機(jī)制的全局信息權(quán)重獲取時,權(quán)重的置信度會更高。基于以上思想,并因各層次特征的尺度不同,首先將各層次的特征經(jīng)過上采樣到相同的尺寸大小(88×88×32),具體的上采樣(up×n)計(jì)算過下:

Sui=ReLU(BN(conv1(upsample*n(Si))))(5)

其中:Si代表通過全局上下文信息獲取模塊去除冗余信息后的特征;upsample*n代表對Si進(jìn)行n倍的上采樣操作;conv1代表3×3的卷積;BN表示正則化;ReLU代表ReLU激活函數(shù);Sui表示經(jīng)過上采樣后的輸出特征。最后,上采樣后的各層次特征會進(jìn)行對應(yīng)元素相乘,獲取初級全局特征,具體的獲取初級全局特征的計(jì)算過程如下:

Fprd1=SulSu2Su3Su4Su5(6)

其中:Sui表示經(jīng)過上采樣后的輸出特征;表示對應(yīng)元素點(diǎn)乘;Fprd1表示獲取到的初級全局特征。

1.3 初級全局特征權(quán)重矩陣獲取模塊(PFW)

如圖4所示,在初級全局特征獲取分支中,有效整合了多層次、多尺度特征的互補(bǔ)性,獲得初級全局特征Fprd1。因全局特征會包含更多的關(guān)于顯著目標(biāo)的重要特征,所以當(dāng)采用全局特征指導(dǎo)精煉各層次的特征時,可以去除該層次特征中所包含的冗余信息,并自動選擇和增強(qiáng)該特征中所包含的重要特征,降低背景噪聲干擾。基于以上思路,本文提出了初級全局特征權(quán)重獲取模塊,其框架如圖4所示,具體內(nèi)容如下所述:

首先,經(jīng)過初級全局特征獲取分支獲取到的初級全局特征Fprd1會根據(jù)其即將進(jìn)行精煉的網(wǎng)絡(luò)層次進(jìn)行是否進(jìn)行下采樣判斷,值得注意的是,考慮到上采樣的過程相較于下采樣會引入更多的噪聲,在統(tǒng)一不同尺寸的特征時,本文選擇將Fprd1進(jìn)行下采樣,而非對較小尺寸的特征進(jìn)行上采樣。具體的下采樣判斷的計(jì)算公式為

Fprd1=F.interpolate(Fprd1) if sizeSi!=sizeFprd1

Fprd1otherwise(7)

其中:sizeSi、sizeFprd1分別表示各層次特征和初級全局特征的尺寸;F.interpolate表示基于雙線性插值的下采樣操作;Fprd1表示經(jīng)過下采樣判斷過程后的輸出結(jié)果。然后,經(jīng)過下采樣后的輸出結(jié)果Fprd1均會經(jīng)過空間層次的全局平均池化,特別的,在這一部分,本文對Fprd1進(jìn)行了空間全局平均池化,而非空間全局最大池化,主要原因在于,本文認(rèn)為最大池化會伴有特殊性及不穩(wěn)定性,單個通道的權(quán)重會對最終整體權(quán)重分布造成極大的影響,因此采用空間全局平均池化,可以更加確保整個網(wǎng)絡(luò)的魯棒性和準(zhǔn)確性。

最后,經(jīng)過全局平局池化的特征會先后經(jīng)過3×3的卷積和sigmoid激活函數(shù),生成最終的關(guān)于初級全局特征的權(quán)重矩陣,用于后續(xù)指導(dǎo)精煉各層次特征。具體的計(jì)算過程如下:

weights(W)=sigmoid(conv2(savgpool(Fprd1)))(8)

其中:Fprd1表示經(jīng)過下采樣判斷過程后的輸出結(jié)果;savgpool表示基于空間的全局平均池化;sigmoid表示sigmoid激活函數(shù),weights(W)表示關(guān)于初級全局特征的空間權(quán)重矩陣。

1.4 特征精煉網(wǎng)絡(luò)

如圖1所示,因初級全局特征會包含更多的關(guān)于顯著目標(biāo)的信息,當(dāng)用其指導(dǎo)精煉各層次網(wǎng)絡(luò)的特征,可以去除該層次特征中所包含的冗余信息,并自動選擇和增強(qiáng)關(guān)鍵信息。因此,本文將獲取到的初級全局特征的空間權(quán)重與各層次特征進(jìn)行點(diǎn)乘,以獲得經(jīng)過初級全局特征精煉后的各層次特征。隨后,按順序自定向下地整合各層次精煉后的特征,以有效地結(jié)合多層次、多尺度特征的互補(bǔ)性,并獲得最終的顯著目標(biāo)預(yù)測結(jié)果。具體的特征精煉過程如下:

Sri=WiSi(9)

其中:Si表示通過全局上下文信息獲取模塊去除冗余信息后的特征;表示對應(yīng)元素點(diǎn)乘;Wi表示初級全局特征的空間權(quán)重;Si表示經(jīng)過初級全局特征指導(dǎo)精煉后的各層次的輸出結(jié)果。再者,因經(jīng)過初級全局特征精煉后的各層次特征所包含的信息不同,為了整合各層次、各尺度特征的互補(bǔ)性,本文自上而下地將各層次特征進(jìn)行對應(yīng)元素點(diǎn)乘或級聯(lián),為了更清晰地?cái)⑹稣麄€整合流程,在這里,本文將輸入實(shí)例化為Sr4及Sr5,具體的計(jì)算過程為

Sr45=BN(conv3(Sr4Sr5))(10)

其中:Sr4及Sr5為經(jīng)過初級全局特征精煉后的各層次特征;Sr45為整合了上述兩層特征的互補(bǔ)性后獲取到的特征。

最后,將融合了多層次、多尺度后的特征(Fprd2)上采樣到與真值圖(ground truth,GT)相同尺寸(352×352),并考慮到直接進(jìn)行上采樣會損失一些細(xì)節(jié),并帶來噪聲,為了解決這一問題,本文采用了一種簡單且有效的特征尺寸轉(zhuǎn)換模塊(feature size conversion module,F(xiàn)CS)。具體的,F(xiàn)SC首先采用1×1的卷積將特征通道數(shù)進(jìn)行改變,然后,采用殘差網(wǎng)絡(luò)對輸入特征圖進(jìn)行上采樣,提高信息流通,并防止因網(wǎng)絡(luò)深度造成的梯度消失和退化問題,具體的計(jì)算過程如下:

f3=ReLU(BN(conv96→1(Fprd2)))(11)

result=ReLU(BN(conv4(f3))+BN(conv5(f3)))(12)

其中:Fprd2為上采樣網(wǎng)絡(luò)的最終輸出;ReLU為ReLU激活函數(shù);f3表示中間過渡變量;conv4及conv5為殘差網(wǎng)絡(luò)中采用不同尺寸的卷積層對特征圖進(jìn)行上采樣的操作;result為整個模型的最終預(yù)測結(jié)果。

1.5 損失函數(shù)

為了更好地訓(xùn)練整個網(wǎng)絡(luò),本文提出了一種新的損失函數(shù),實(shí)驗(yàn)表明,在新的損失函數(shù)的優(yōu)化下,整個模型可以收斂到最低點(diǎn),最終的顯著目標(biāo)預(yù)測結(jié)果結(jié)構(gòu)更加完整,邊緣更加清晰,損失函數(shù)的具體構(gòu)成如下所述。

如圖2所示,將初級全局特征、特征精煉分支的輸出及最終的顯著目標(biāo)預(yù)測結(jié)果上采樣到與真值圖相同尺寸的大小,具體的上采樣過程已在式(5)進(jìn)行了詳細(xì)介紹,然后對經(jīng)過上采樣后的特征分別進(jìn)行損失函數(shù)計(jì)算,損失函數(shù)搭建在二元交叉熵?fù)p失函數(shù)上,二元交叉熵?fù)p失函數(shù)的計(jì)算公式為

=G log S+(1-G)log(1-S)(13)

其中:G表示真值圖;S表示預(yù)測結(jié)果圖,當(dāng)計(jì)算結(jié)果越小時,代表最終的預(yù)測結(jié)果越貼近真值圖。為了更好地讓損失函數(shù)貼近整個模型的實(shí)際運(yùn)行狀態(tài),本文給予不同層次融合節(jié)點(diǎn)的損失函數(shù)以不同的權(quán)重,以強(qiáng)調(diào)隨著融合進(jìn)程,各網(wǎng)絡(luò)層次的預(yù)測結(jié)果對最終的顯著目標(biāo)預(yù)測結(jié)果影響程度,具體的損失函數(shù)為

loss=0.1loss1+0.3loss2+0.5loss3(14)

其中:lossi(i=1,2,3)分別為上采樣網(wǎng)絡(luò)的不同融合節(jié)點(diǎn)所計(jì)算得到的損失函數(shù);loss3為對整個模型最后預(yù)測輸出所計(jì)算得到的損失函數(shù);loss為總體損失函數(shù)。

2 實(shí)驗(yàn)及結(jié)果分析

2.1 數(shù)據(jù)集

為了有效驗(yàn)證SR-Net模型的有效性,在四個公共數(shù)據(jù)集上進(jìn)行了綜合實(shí)驗(yàn),即SIP[14]、NJUD[15]、NLPR[16]、LFSD[17]。其中:SIP[14]包含了通過華為Meta10獲取到的929張高分辨率人物圖像,且數(shù)據(jù)集多集中于現(xiàn)實(shí)世界的人物中;NJUD[15]數(shù)據(jù)集包含了從互聯(lián)網(wǎng)及3D中電影收集到的1 985張圖像;NLPR[16]包含了1 000張RGB-D圖像,具有像素級真值圖,深度圖像是通過Kinect在不同照明條件和采集場景下捕獲,數(shù)據(jù)集的圖像中可能存在多個顯著對象;LFSD[17]包含了100張由Lytro light field camera相機(jī)分別從室內(nèi)外采集到的分辨率為360×360的圖像。

2.2 評價指標(biāo)

為了從定量的角度去評判本文模型的好壞,在實(shí)驗(yàn)中引入了精準(zhǔn)—召回率曲線(PR曲線)及五種評價指標(biāo),分別為Fmax、Fada、Fωβ、Sm、MAE。PR曲線可以通過由一系列精確召回對生成,所獲的曲線越接近于(1,1),越代表模型的預(yù)測結(jié)果精度越高,具體的精準(zhǔn)率(P)和召回率(R)的計(jì)算公式為

P=|S′∩G||S′|,R=|S′∩G||G|(15)

其中:G為真值圖;S′為根據(jù)閾值的預(yù)測結(jié)果圖S的二值化掩碼。因精準(zhǔn)率和召回率有時可能會相互矛盾,所以需要綜合考慮,最常用的方法是Fmax,即Fmax是精準(zhǔn)率和召回率的加權(quán)調(diào)和平均值,定義為

Fmax=(1+β2)P×Rβ2×P+R(16)

其中:P、R分別為精準(zhǔn)率和召回率;β2為權(quán)重,遵從文獻(xiàn)[18]的建議,本文將β2設(shè)置為0.3以強(qiáng)調(diào)精度。 MAE表示模型預(yù)測結(jié)果與真值圖的平均像素級誤差,當(dāng)數(shù)值越小時,表示模型的預(yù)測精度越高,具體計(jì)算公式為

MAE=1H×W∑Hy=1∑Wx=1|S(x,y)-G(x,y)|(17)

其中;S為模型的預(yù)測結(jié)果;G為真值圖;H及W分別為預(yù)測結(jié)果圖的高度和寬度。

2.3 實(shí)驗(yàn)細(xì)節(jié)

遵從文獻(xiàn)[18,19]的意見,從NJUD及NLPR數(shù)據(jù)集中分別選擇1 485及700張圖片作為訓(xùn)練集,其剩余圖片將與SIP及LFSD數(shù)據(jù)集共同作為測試集進(jìn)行模型測試。本文使用ResNet-50作為骨干網(wǎng)絡(luò),并使用Adam算法進(jìn)行整個網(wǎng)絡(luò)的優(yōu)化,將整個網(wǎng)絡(luò)在一塊batchsize設(shè)置為8的NVIDIA GeForce RTX 2080Ti GPU上進(jìn)行訓(xùn)練,網(wǎng)絡(luò)初始學(xué)習(xí)率設(shè)置為1E-4,并使其每隔60 epoch降低至原來的0.1倍,整個網(wǎng)絡(luò)在200 epoch停止訓(xùn)練,并保存最好的模型進(jìn)行測試,整個模型的實(shí)驗(yàn)搭建在PyTorch平臺上。

2.4 與先進(jìn)的模型比較

本小節(jié)將從定性與定量兩種角度將本文SRNet與近年來最先進(jìn)的九種模型[20~27]進(jìn)行比較。為了公平起見,使用原文所給出的源代碼進(jìn)行實(shí)驗(yàn)結(jié)果復(fù)現(xiàn)(如文獻(xiàn)[24]),或直接使用原文給出的該模型的顯著目標(biāo)預(yù)測結(jié)果。

2.4.1 定性分析

a)如圖5所示,本文從九種對比模型中隨機(jī)選取六種先進(jìn)模型同SR-Net進(jìn)行了定性分析。具體的:如圖5的第一行圖像所示。首先,在對人手及所持物體檢測時,眾多檢測方法,如CoNet[22]、BiANet[24]、CMWNet[25]、D3Net[26]未能獲取到準(zhǔn)確的顯著目標(biāo),并且檢測結(jié)果中含有大量的噪聲。再者,cmSalGAN[20]雖然檢測到顯著目標(biāo)的大致輪廓,但缺少了很多邊緣細(xì)節(jié)。相反的,本文模型能夠準(zhǔn)確地將人手及所持物體檢測出來,并且顯著目標(biāo)的邊緣更加清晰,第二行圖像同樣證明了這一點(diǎn)。

b)本文SRNet能夠在多目標(biāo)情景中,精準(zhǔn)檢測到顯著目標(biāo)。參見圖5第三行圖像,由于圖像中包含了多目標(biāo),受多目標(biāo)的干擾,一些檢測方法,如BBS-Net[21]、CoNet[22]、BiANet[24]、CMWNet[25]、D3Net[26]未能準(zhǔn)確檢測到主要顯著目標(biāo),且檢測結(jié)果中或多或少的包含了噪聲。相反的,本文模型能夠精準(zhǔn)獲取多目標(biāo)中的顯著目標(biāo),并且有效減少了噪聲干擾,圖5中第四行圖像亦是如此。

c)本文模型能夠在復(fù)雜背景下,獲取到顯著目標(biāo)。參見圖5第六行圖像,由于汽車后部復(fù)雜的背景干擾,一些檢測模型未能將整個汽車的完整輪廓進(jìn)行檢測出來,如CoNet、BiANet。再者,雖然CMWNet、D3Net獲取到了汽車的大致輪廓,但附帶了眾多的噪聲,使得整個檢測結(jié)果看上去較為雜亂。相反的,本文模型能夠完整將汽車檢測出來,并且有效地減少了背景噪聲帶來的干擾,這充分證明了本文模型同樣可以有效應(yīng)對復(fù)雜背景問題。

2.4.2 定量分析

為了更加直觀地展現(xiàn)本文模型的有效性,如表1及圖6所示,從定量角度將模型與九種最先進(jìn)方法在五種評價指標(biāo)及PR曲線上進(jìn)行比較,具體的:

如圖6所示,本文模型在三個公共數(shù)據(jù)集(SIP、NJUD、NLPR)上均取得了最高的精準(zhǔn)—召回率,僅在LFSD數(shù)據(jù)集上取得次優(yōu)的結(jié)果。再者,如表1所示,本文在五個評價指標(biāo)上將模型與對比方法進(jìn)行定量評估,可以直觀得到,在SIP及NLPR數(shù)據(jù)集上,本文模型在五種評價指標(biāo)上均優(yōu)于近年來最先進(jìn)的方法,與時間維度最近的cmSalGAN (TMM21)[20]相比,本文模型在四個數(shù)據(jù)集上均大幅度領(lǐng)先,例如,在SIP數(shù)據(jù)集上,SRNet相較于cmSalGAN在Fada及Fωβ指標(biāo)上分別提高了2.6%和3.9%,在MAE指標(biāo)上降低了17%,這充分證明了提出模型相較于最新的cmSalGAN模型,實(shí)驗(yàn)效果更加出色。最后,與九種對比方法中的相對最優(yōu)方法BBS-Net相比,本文SRNet仍然可以取得杰出的實(shí)驗(yàn)效果,具體的,SRNet在SIP及NLPR數(shù)據(jù)集上的5種評價指標(biāo)均優(yōu)于BBS-Net,僅在NJUD及LFSD數(shù)據(jù)集上的一些評價(如MAE)指標(biāo)略低于BBS-Net,這充分證明,本文模型與相對最優(yōu)方法相比,仍然具有明顯優(yōu)勢。

2.5 消融實(shí)驗(yàn)

在這一部分,將進(jìn)行消融實(shí)驗(yàn)以驗(yàn)證在SR-Net中設(shè)計(jì)的順序精煉網(wǎng)絡(luò)、PFW模塊以及損失函數(shù)。具體的:

a)為了驗(yàn)證本文提出的順序精煉網(wǎng)絡(luò)的有效性將圖1中的三個融合節(jié)點(diǎn)Fprd1、Fprd2、result分別進(jìn)行可視化,可視化結(jié)果如圖7所示,可以直觀地看到,隨著順序精煉網(wǎng)絡(luò)的進(jìn)行,在初級全局特征的指導(dǎo)下,圖像中的顯著目標(biāo)逐漸完整。并過濾了大部分背景噪聲。再者,為了更加充分地證明本文提出的順序精煉網(wǎng)絡(luò)的有效性,同樣將三個融合節(jié)點(diǎn)的輸出分別進(jìn)行定量分析,如表2所示,在三個數(shù)據(jù)集上對三個融合節(jié)點(diǎn)進(jìn)行五種模型評價指標(biāo)測量,實(shí)驗(yàn)結(jié)果如表2所示,可以清晰獲得,隨著順序精煉網(wǎng)絡(luò)的進(jìn)行,融合節(jié)點(diǎn)所獲得的顯著目標(biāo)檢測結(jié)果質(zhì)量在不斷提高。因此,通過視覺與定量兩種角度,都完美的驗(yàn)證了本文提出的順序精煉網(wǎng)絡(luò)的有效性。

b)如1.3小節(jié)所述,首先獲取到初級全局特征,所以級全局特征會包含大量的關(guān)于顯著目標(biāo)的主要特征,因此當(dāng)使用其作為指導(dǎo)特征時,可以精煉和加強(qiáng)被指導(dǎo)特征中所包含的重要特征,并去除冗余信息,本文提出PFW模塊以去除冗余信息,并獲取初級全局特征的權(quán)重矩陣,以便于指導(dǎo)融合。為了證明本文PFW模塊的有效性,將圖1中的PFW去除(對比模型標(biāo)注為SRNet1),初級全局特征僅通過將各層次特征進(jìn)行對應(yīng)元素相乘而獲得,后續(xù)并未通過PFW模塊去除初級全局特征包含的冗余信息,獲取權(quán)重矩陣,具體的消融實(shí)驗(yàn)結(jié)果如表3所示。從表3中可以獲得,在未采用的PFW模塊的對比模型中,其在三個數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果均低于SR-Net,且平均降低了1%~2%,這充分證明了本文在SR-Net中所提出的用來獲取初級全局特征權(quán)重的PFW模塊的有效性。

c)如1.5節(jié)所述,為了更好地訓(xùn)練整個網(wǎng)絡(luò),設(shè)計(jì)了一種新的損失函數(shù),并給予不同融合節(jié)點(diǎn)以不同的權(quán)重,進(jìn)而強(qiáng)調(diào)不同融合節(jié)點(diǎn)對最終損失函數(shù)的影響程度不同。為了驗(yàn)證本文所提損失函數(shù)的有效性,將所設(shè)計(jì)的損失函數(shù)進(jìn)行改變,即僅計(jì)算最終顯著目標(biāo)預(yù)測結(jié)果的損失函數(shù),并給予權(quán)重為1,而并未計(jì)算過程中的融合節(jié)點(diǎn)的損失函數(shù),具體的計(jì)算公式可以表示為ζloss=ζloss3。消融實(shí)驗(yàn)結(jié)果(對比模型標(biāo)注為SRNet2)如表3所示。可以獲得,在本文設(shè)計(jì)的損失函數(shù)的優(yōu)化下,本文實(shí)驗(yàn)結(jié)果相較于SRNet2,在三個數(shù)據(jù)集上均處于全指標(biāo)領(lǐng)先,領(lǐng)先程度也均處于1%~2%,這充分證明了,在本文設(shè)計(jì)的新的損失函數(shù)的優(yōu)化下,可以獲得更加精準(zhǔn)的顯著目標(biāo)預(yù)測結(jié)果。

2.6 失敗案例

為了促進(jìn)未來研究工作者對這一領(lǐng)域的研究,本節(jié)將對實(shí)驗(yàn)過程中的一些失敗案例進(jìn)行介紹,并給出對該失敗案例的一些思路,如圖8所示,具體的:

a)深度圖誤導(dǎo)。如圖8第一行圖像中,因深度圖像主要突出了第一個玩具,而并未強(qiáng)調(diào)后續(xù)玩具,促使本文模型及CoNet[16]在顯著目標(biāo)預(yù)測時,只將第一個玩具作為預(yù)測結(jié)果檢測出來,并未識別到后續(xù)玩具。第二行圖像同樣證明了本文的這一觀點(diǎn)。

b)與顯著目標(biāo)顏色對比度相近的背景的干擾。如圖8第三行圖像,由于RGB圖像中的雕塑與背景玩具的顏色十分相近,即使深度圖只強(qiáng)調(diào)了雕塑,但因RGB圖像中顏色對比度相近的背景的干擾,本文模型cmSalGAN[20]、CoNet[22]在檢測過程中,都包含了來自背景的噪聲。

3 結(jié)束語

本文提出一種新型的用于RGB-D顯著目標(biāo)檢測的網(wǎng)絡(luò)框架(SR-Net)。為有效整合多模態(tài)特征的互補(bǔ)性,將深度特征提取作為獨(dú)立分支,并采用深度特征模塊CBAM進(jìn)行深度特征增強(qiáng),整合增強(qiáng)后的深度特征與RGB 特征的互補(bǔ)信息。其次為了去除特征冗余,減少背景噪聲對預(yù)測結(jié)果的干擾,在上采樣網(wǎng)絡(luò)中設(shè)計(jì)了一種順序精煉網(wǎng)絡(luò),即通過整合多層次、多尺度特征的互補(bǔ)性,獲取初級全局特征;采用通過PFW模塊獲取到的初級全局特征的權(quán)重矩陣進(jìn)行各層次特征的精煉;最后提出一種新的損失函數(shù),在四個公共數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明該模型在不同的模型評價指標(biāo)上均優(yōu)于近年來的九種先進(jìn)方法。

參考文獻(xiàn):

[1]Wang Wenguan, Shen Jianbing, Yang Ruigang, et al. Saliency-aware video object segmentation[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2018,40(1):20-33.

[2]Cheng Mingming, Zhang Fanglue, Mitra N J, et al RepFinder: fin-ding approximately repeated scene elements for image editing[J].ACM Trans on Graphics,2010,29(4):article No. 83.

[3]Fan Dengping, Wang Wenguan, Cheng Mingming, et al. Shifting more attention to video salient object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2019:8546-8556.

[4]Borji A, Itti L. State-of-the-art in visual attention modeling[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2013,35(1):185-207.

[5]Borji A. Saliency prediction in the deep learning era: successes and limitations[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2021,43(2):679-700.

[6]王豪聰,張松龍,彭力.融合邊界信息和顏色特征的顯著性區(qū)域檢測[J].計(jì)算機(jī)工程與應(yīng)用,2019,55(3):179-183.(Wang Haocong, Zhang Songlong, Peng Li. Salient region detection based on fusion of boundary information and color features[J].Computer Engineering and Application,2019,55(3):179-183.)

[7]翟繼友,屠立忠,莊嚴(yán).邊界先驗(yàn)和自適應(yīng)區(qū)域合并的顯著性檢測[J].計(jì)算機(jī)工程與應(yīng)用,2018,54(6):178-182.(Zhai Jiyou, Tu Lizhong, Zhuang Yan. Significance detection of boundary a priori and adaptive region merging[J].Computer Engineering and Application,2018,54(6):178-182.)

[8]Li Guanbin, Yu Yizhou. Visual saliency based on multiscale deep features[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.2015:5455-5463.

[9]Wu Zhe, Su Li, Huang Qingming. Cascaded partial decoder for fast and accurate salient object detection[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:3902-3911.

[10]Liu Zhenyi, Shi Song, Zhao Peng, et al. Salient object detection for RGB-D image by single stream recurrent convolution neural network[J].Neurocomputing,2019,363:46-57.

[11]Wu Junwei, Zhou Wujie, Luo Ting, et al. Multiscale multilevel context and multimodal fusion for RGB-D salient object detection[J].Signal Processing,2021,178:107766.

[12]Guo Jingfang, Ren Tongwei, Bei Jia, et al Salient object detection in RGB-D image based on saliency fusion and propagation[C]//Proc of the 7th International Conference on Internet Multimedia Computing and Service.2015:article No.59.

[13]Woo S, Park J, Lee J Y, et al. CBAM: convolutional block attention module[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:3-19.

[14]Fan Dengping, Lin Zheng, Zhang Zhao, et al. Rethinking RGB-D salient object detection: models, data sets, and large-scale benchmarks[J].IEEE Trans on Neural Networks and Learning Systems,2021,32(5):2075-2089.

[15]Ju Ran, Ge Ling, Geng Wenjing, et al. Depth saliency based on anisotropic center-surround difference[C]//Proc of IEEE International Conference on Image Processing.Piscataway,NJ:IEEE Press,2014:1115-1119.

[16]Hou Wenpeng, Li Bing, Wei Huaxiong, et al. RGBD salient object detection:a benchmark and algorithms[C]//Proc of European Conference on Computer Vision.2014:92-109.

[17]Li Nianyi, Ye Jinwei, Ji Yu, et al. Saliency detection on light field[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2017,39(8):1605-1616.

[18]Piao Yongrui, Ji Wei, Li Jingjing, et al. Depth-induced multiscale recurrent attention network for saliency detection[C]//Proc of IEEE/CVF International Conference on Computer Vision.2019:7254-7263.

[19]Chen Hao, Li Youfu. Progressively complementarity-aware fusion network for RGB-D salient object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:3051-3060.

[20]Jiang Bo, Zhou Zitai, Wang Xiao, et al. cmSalGAN: RGB-D salient object detection with cross-view generative adversarial networks[J].IEEE Trans on Multimedia,2021,23:1343-1353.

[21]Zhai Yingjie, Fan D P, Yang Jufeng, et al. Bifurcated backbone strategy for RGB-D salient object detection[J].IEEE Trans on Image Processing,2021,30:8727-8742.

[22]Ji Wei, Li Jingjing, Zhang Miao, et al. Accurate RGB-D salient object detection via collaborative learning[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2020:52-69.

[23]Zhao Xiaoqi, Zhang Lihe, Pang Youwei, et al. A single stream network for robust and real-time RGB-D salient object detection[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2020:646-662.

[24]Zhang Zhao, Lin Zheng, Xu Jun, et al. Bilateral attention network for RGB-D salient object detection[J].IEEE Trans on Image Processing,2021,30:1949-1961.

[25]Li Gongyang, Liu Zhi, Ye Linwei, et al. Cross-modal weighting network for RGB-D salient object detection[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2020:665-681.

[26]Fan Dengping, Lin Zheng, Zhang Jiaxiang, et al. Rethinking RGB-D salient object detection: models, data sets, and large-scale benchmarks[J].IEEE Trans on Neural Networks and Learning Systems,2021,32(5):2075-2089.

[27]Zhao Jiaxing, Cao Yang, Fan Dengping, et al. Contrast prior and fluid pyramid integration for RGBD salient object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:3922-3931.

主站蜘蛛池模板: av大片在线无码免费| 天堂在线视频精品| 国产一二三区在线| 美美女高清毛片视频免费观看| a天堂视频| 久久国产成人精品国产成人亚洲| 午夜国产精品视频黄| 国产欧美在线观看视频| 日韩一区二区在线电影| 成人精品亚洲| 91麻豆国产视频| 久久香蕉国产线看观看式| 免费人欧美成又黄又爽的视频| 无码日韩人妻精品久久蜜桃| 91成人免费观看在线观看| 亚洲无线一二三四区男男| 91探花国产综合在线精品| A级毛片高清免费视频就| 91最新精品视频发布页| 3D动漫精品啪啪一区二区下载| yy6080理论大片一级久久| 国产精品亚洲一区二区在线观看| 婷婷激情亚洲| 国产理论一区| 91美女在线| 久久久久久久蜜桃| 热思思久久免费视频| 99久久婷婷国产综合精| 一级毛片不卡片免费观看| 一级一级一片免费| 午夜精品一区二区蜜桃| 天堂网亚洲系列亚洲系列| 国产欧美精品一区二区| 97se亚洲综合在线| 另类欧美日韩| 精品国产一区91在线| 国产精品手机视频一区二区| 国产玖玖玖精品视频| 精品国产污污免费网站| 国产成人亚洲毛片| 欧洲日本亚洲中文字幕| 国产精品女主播| 欧美性天天| 精品偷拍一区二区| 99热这里只有精品在线观看| 日本不卡免费高清视频| 一级做a爰片久久免费| av一区二区三区高清久久| 91在线播放免费不卡无毒| aⅴ免费在线观看| 亚洲人成色在线观看| 无码AV日韩一二三区| 久久成人18免费| 亚洲国产天堂久久综合| 国产精品微拍| 国产精品自拍露脸视频 | 国产欧美在线视频免费| Aⅴ无码专区在线观看| a亚洲天堂| 国产欧美视频在线观看| 亚洲h视频在线| 狠狠做深爱婷婷综合一区| 日本一区高清| 欧美亚洲激情| 蜜桃臀无码内射一区二区三区| A级毛片无码久久精品免费| 尤物视频一区| 视频一区视频二区日韩专区| 亚洲区欧美区| 日韩欧美成人高清在线观看| 成人综合久久综合| 国产一二视频| 久久网欧美| 国产成人1024精品| 日本妇乱子伦视频| 强奷白丝美女在线观看| 精品国产Av电影无码久久久| 无码中文字幕加勒比高清| 久久精品人人做人人综合试看| 国产一线在线| 欧美精品二区| 精品国产aⅴ一区二区三区|