999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種弱監(jiān)督查詢圖像分割方法研究

2022-08-18 01:56:40
無(wú)線互聯(lián)科技 2022年11期
關(guān)鍵詞:區(qū)域

劉 富

(西華大學(xué),四川 成都 610039)

0 引言

給出查詢語(yǔ)句,查詢圖像分割(Referring Image Segmentation)要求分割出符合語(yǔ)句描述的目標(biāo)。 如對(duì)于查詢語(yǔ)句“Person sitting on the chair”,該方法僅會(huì)分割出坐在椅子上的人,而將其余目標(biāo)視為背景。 由于語(yǔ)言具有良好的交互性,該方法在監(jiān)控、機(jī)器人等領(lǐng)域具有較大的潛在應(yīng)用價(jià)值。

Hu 等[1]分別使用VGG,LSTM 網(wǎng)絡(luò)提取視覺與語(yǔ)言信息[2-3],并通過(guò)級(jí)聯(lián)完成跨模態(tài)信息融合后直接預(yù)測(cè)分割區(qū)域。 針對(duì)Hu 等[1]提出的不足,后續(xù)的研究大多從視覺、語(yǔ)言特征的提取以及二者的結(jié)合策略這三個(gè)角度探索更為準(zhǔn)確的分割方法。 Liu 等[4]認(rèn)為當(dāng)查詢語(yǔ)句過(guò)長(zhǎng)時(shí),語(yǔ)言特征無(wú)法保留各個(gè)詞的信息,因此采用了逐詞的級(jí)聯(lián)策略。 在上述方法中,網(wǎng)絡(luò)為提取視覺信息會(huì)進(jìn)行大尺度的下采樣,這會(huì)導(dǎo)致圖像中細(xì)節(jié)信息的丟失,因此Ye 等[5]在改進(jìn)視覺、語(yǔ)言結(jié)合策略的同時(shí)提出了多級(jí)的方法。 不同于上述單階段的分割方法,Yu 等[6]使用注意力機(jī)制提取語(yǔ)句中的關(guān)鍵信息并將其與視覺信息級(jí)聯(lián)以進(jìn)行對(duì)語(yǔ)言所描述目標(biāo)的檢測(cè)。 檢測(cè)到目標(biāo)后,便可在檢測(cè)框內(nèi)分割出語(yǔ)言所描述目標(biāo)。

為了學(xué)習(xí)目標(biāo)與語(yǔ)句的對(duì)應(yīng)關(guān)系,查詢圖像分割需要大量的訓(xùn)練數(shù)據(jù),然而像素級(jí)標(biāo)簽的制作極為煩瑣。 為了解決該問(wèn)題,本文提出了一種僅使用語(yǔ)言所描述目標(biāo)中心點(diǎn)的分割方法。

在強(qiáng)監(jiān)督情形下,語(yǔ)言所描述目標(biāo)區(qū)域與背景像素?cái)?shù)量相當(dāng),因此可直接使用交叉熵?fù)p失。 然而在中心點(diǎn)監(jiān)督下,由于中心點(diǎn)所占像素過(guò)少,若直接使用交叉熵?fù)p失,網(wǎng)絡(luò)會(huì)將所有像素預(yù)測(cè)為背景,因此需考慮平衡前后景損失。 考慮到目標(biāo)中心點(diǎn)與其周圍像素具有較高的特征相似性,那么網(wǎng)絡(luò)將周圍像素預(yù)測(cè)為前景的可能性較大,然而標(biāo)簽卻將它們視為背景,因此,若是能降低周圍像素的損失,便能引導(dǎo)網(wǎng)絡(luò)分割出覆蓋整個(gè)目標(biāo)的區(qū)域。 基于此,本文設(shè)計(jì)了自適應(yīng)目標(biāo)損失衰減項(xiàng),該項(xiàng)通過(guò)計(jì)算中心點(diǎn)與其周圍像素的余弦相似性以降低周圍像素?fù)p失。

引入自適應(yīng)目標(biāo)損失衰減項(xiàng)后,網(wǎng)絡(luò)能夠預(yù)測(cè)出語(yǔ)言所描述目標(biāo)的大致位置及形狀,然而對(duì)于彼此靠近的同類物體,所得分割區(qū)域趨向于覆蓋多個(gè)目標(biāo)。為劃分毗鄰的目標(biāo),本文在圖像中語(yǔ)言所描述的不同目標(biāo)間構(gòu)造了成對(duì)損失,其核心思想在于不同目標(biāo)的分割區(qū)域不應(yīng)當(dāng)重疊,網(wǎng)絡(luò)框架圖如圖1 所示,圖中Concat表示視覺特征X、語(yǔ)言特征ht及空間位置信息S的級(jí)聯(lián),L1表示含自適應(yīng)目標(biāo)損失衰減項(xiàng)的分割損失,L2表示針對(duì)不同查詢目標(biāo)的成對(duì)損失,用以阻止網(wǎng)絡(luò)將單一像素分配給多個(gè)目標(biāo)。

圖1 網(wǎng)絡(luò)框架

1 弱監(jiān)督查詢圖像分割

1.1 自適應(yīng)目標(biāo)損失衰減項(xiàng)

查詢圖像分割須同時(shí)處理視覺信息與語(yǔ)言信息。視覺部分,使用卷積神經(jīng)網(wǎng)絡(luò),如ResNet,提取特征X,X =Wθ(I),X∈?Cl×H×W,其中I表示輸入圖片,Wθ表示卷積網(wǎng)絡(luò)參數(shù),Cl,H,W分別表示特征通道數(shù)、高以及寬。 語(yǔ)言部分,對(duì)于語(yǔ)句S,使用LSTM 提取隱狀態(tài)(hidden state)H ={h1,h2,...,ht}[3],其中hi,i∈{1,2,...,t} 表示處理第i個(gè)詞后的隱狀態(tài),t表示詞的數(shù)量。 整條語(yǔ)句信息選擇LSTM 最終隱狀態(tài)ht,ht∈?Cl。 此外,查詢語(yǔ)句中的方位詞,如“l(fā)eft”“bottom”等為待分割目標(biāo)提供了準(zhǔn)確的位置信息,因此網(wǎng)絡(luò)需增加空間位置信息E,E∈?8×H×W,用以準(zhǔn)確匹配語(yǔ)言。其以圖像中心為原點(diǎn)構(gòu)建坐標(biāo)系并分配坐標(biāo),之后便可構(gòu)建分割損失。

式(1)中,yi^表示中心點(diǎn)標(biāo)簽,yi表示網(wǎng)絡(luò)預(yù)測(cè)像素,i是語(yǔ)言查詢目標(biāo)的概率。 (1- ai) 為自適應(yīng)目標(biāo)損失衰減項(xiàng),表示像素i與中心點(diǎn)像素視覺特征的余弦相似性,引入該項(xiàng)的原因是,對(duì)于中心點(diǎn)周圍像素,與中心點(diǎn)屬于同一個(gè)目標(biāo)且位置相近,則其對(duì)應(yīng)視覺特征與中心點(diǎn)應(yīng)當(dāng)具有較高的相似性,而對(duì)應(yīng)級(jí)聯(lián)的語(yǔ)言特征又完全相同。 在該條件下,網(wǎng)絡(luò)會(huì)將中心點(diǎn)周圍像素同樣預(yù)測(cè)為前景,但所給標(biāo)簽卻將之視為背景,這不利于網(wǎng)絡(luò)的收斂同時(shí)也將導(dǎo)致預(yù)測(cè)區(qū)域僅覆蓋目標(biāo)中心點(diǎn)。 引入該項(xiàng)后,對(duì)于中心點(diǎn),分割損失保持不變,而對(duì)于非中心點(diǎn),其分割損失為交叉熵?fù)p失與(1-ai) 的積。 該情況下,對(duì)于中心點(diǎn)周圍像素,與中心點(diǎn)的余弦相似性ai較大,則(1- ai) 值較小,即使網(wǎng)絡(luò)將這些像素預(yù)測(cè)為前景也不會(huì)產(chǎn)生較大的損失,有利于分割區(qū)域向中心點(diǎn)周圍擴(kuò)散。 對(duì)于遠(yuǎn)離中心點(diǎn)的像素,(1- ai) 值較大,不會(huì)影響背景的準(zhǔn)確識(shí)別。 在中心點(diǎn)監(jiān)督下,背景像素遠(yuǎn)遠(yuǎn)多于中心點(diǎn),會(huì)導(dǎo)致網(wǎng)絡(luò)將所有像素預(yù)測(cè)為背景。 因此,本文增加超參數(shù)λ用以降低背景損失在總體損失中的比重。 式(2) 中Xc,Xi分別表示目標(biāo)中心點(diǎn)及第i個(gè)像素的視覺特征。 式(3)表示預(yù)測(cè)層,其中‖表示視覺特征X、語(yǔ)言特征ht及位置信息E的級(jí)聯(lián),Wc表示預(yù)測(cè)層參數(shù),σ表示sigmoid激活函數(shù),y表示分割區(qū)域,y∈?H×W。

自適應(yīng)目標(biāo)損失衰減有利于預(yù)測(cè)區(qū)域由目標(biāo)中心點(diǎn)向目標(biāo)周圍擴(kuò)散,然而,當(dāng)多個(gè)同類別目標(biāo)彼此靠近時(shí),這樣的擴(kuò)散會(huì)導(dǎo)致預(yù)測(cè)區(qū)域覆蓋其他目標(biāo)。 因此,本文設(shè)計(jì)了成對(duì)損失用以輔助臨近目標(biāo)的劃分,核心思想是針對(duì)不同目標(biāo)的查詢分割區(qū)域不應(yīng)當(dāng)產(chǎn)生重疊。

1.2 成對(duì)損失

記同一幅圖像中針對(duì)不同目標(biāo)的查詢語(yǔ)句分別為Sa,Sb,其對(duì)應(yīng)的分割結(jié)果為ya,yb;記ya,yb中大于0.5(表示前景) 且重疊的區(qū)域?yàn)镺,則成對(duì)損失可表述為:

式(4)中,| O|表示重疊前景區(qū)域的像素總數(shù);m表示成對(duì)損失懲罰系數(shù),用于控制成對(duì)損失比重。 該成對(duì)損失將迫使網(wǎng)絡(luò)僅能將單個(gè)像素視為某一個(gè)目標(biāo)的區(qū)域,緩解區(qū)域不正常擴(kuò)散的問(wèn)題。

結(jié)合分割損失L1,成對(duì)損失L2便可構(gòu)造網(wǎng)絡(luò)總損失:

2 實(shí)驗(yàn)結(jié)果及分析

本文在UNC 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),共包含19 994 幅圖片,對(duì)應(yīng)142 090 條查詢語(yǔ)句;其中120 624 條用于訓(xùn)練,10 834 條用于驗(yàn)證(val),5 657 條用于測(cè)試集A(testA),5 059 條用于測(cè)試集B(testB)。 兩測(cè)試集的差別在于testB 中查詢語(yǔ)句不包含人,而testA 包含。 這樣的切分策略有助于準(zhǔn)確評(píng)估查詢圖像分割方法在不同場(chǎng)景下的性能。 度量指標(biāo)選擇IoU,該值越高表示分割性能越好。

2.1 實(shí)驗(yàn)細(xì)節(jié)

本方法視覺特征提取網(wǎng)絡(luò)選擇ResNet,并且使用經(jīng)ImageNet 預(yù)訓(xùn)練后的參數(shù)。 語(yǔ)言特征提取選擇LSTM 并隨機(jī)初始化。 背景像素比重λ設(shè)置為0.05,該值由中心點(diǎn)像素在圖像中的比例所決定。 成對(duì)損失懲罰系數(shù)m設(shè)置為1。 優(yōu)化器選擇Adam Optimizer 并設(shè)置初始學(xué)習(xí)率為0.000 4,batch_size 設(shè)置為8。 網(wǎng)絡(luò)在訓(xùn)練集上共迭代10 次,并且每迭代3 次學(xué)習(xí)率降低為當(dāng)前值的10%。 圖像在輸入網(wǎng)絡(luò)前調(diào)整為“320×320”大小并保留原圖像縱橫比。 測(cè)試時(shí),與強(qiáng)監(jiān)督方法相同,使用條件隨機(jī)細(xì)化分割區(qū)域[4]。 特別注明的是本方法在測(cè)試時(shí)僅需要圖像及對(duì)應(yīng)查詢語(yǔ)句。

2.2 實(shí)驗(yàn)結(jié)果

2.2.1 定量分析

UNC 數(shù)據(jù)集下的實(shí)驗(yàn)結(jié)果如表1 所示,其中C 表示僅使用交叉熵?fù)p失及前后景平衡項(xiàng)λ;“C+S”表示在算法C 的基礎(chǔ)上引入自適應(yīng)目標(biāo)損失衰減項(xiàng),即公式(1);“C+S+P”則表示引入衰減項(xiàng)及成對(duì)損失,即公式(5)。 可以看出,相較于算法C,“C+S”在三個(gè)子集下的測(cè)試精度分割分別提高了2.17%,1.57%,2.34%,表明目標(biāo)損失衰減能夠引導(dǎo)預(yù)測(cè)區(qū)域由目標(biāo)中心點(diǎn)向整體擴(kuò)散。 引入成對(duì)損失“C+S+P”,網(wǎng)絡(luò)能夠更為準(zhǔn)確地劃分臨近目標(biāo),測(cè)試精度得到進(jìn)一步提升。

表1 各方法在UNC 數(shù)據(jù)集下的分割性能(IoU)

2.2.2 定性分析

實(shí)驗(yàn)主觀結(jié)果如圖2 所示, 圖像下方文字表示查詢語(yǔ)句,其中(b)(c)中白色區(qū)域分別表示算法C 及本文所提方法“C+S+P”所得分割區(qū)域;(d)表示測(cè)試標(biāo)簽,分割區(qū)域與測(cè)試標(biāo)簽的重合度越高表示分割性能越好。 可以看出,算法C 未分割出左側(cè)大象的嘴部,僅得到目標(biāo)的大致方位。 而“C+S+P”通過(guò)自適應(yīng)地降低中心點(diǎn)周圍像素?fù)p失,有效地?cái)U(kuò)散了分割區(qū)域,因此覆蓋程度更高。 這表明本文所提方法能夠僅在語(yǔ)言所描述目標(biāo)中心的監(jiān)督下得到較為準(zhǔn)確的結(jié)果。

圖2 UNC 驗(yàn)證集下測(cè)試結(jié)果

2.3 結(jié)論

本文提出了一種僅使用語(yǔ)言所描述目標(biāo)中心點(diǎn)的弱監(jiān)督查詢圖像分割方法,通過(guò)引入自適應(yīng)目標(biāo)損失衰減項(xiàng)及成對(duì)損失,能夠引導(dǎo)網(wǎng)絡(luò)分割區(qū)域由中心點(diǎn)至目標(biāo)整體正確擴(kuò)散,進(jìn)而得到覆蓋度更高的預(yù)測(cè)區(qū)域。 考慮到視覺特征、語(yǔ)言特征直接級(jí)聯(lián)的方式無(wú)法充分評(píng)估二者關(guān)聯(lián),未來(lái)將在多模態(tài)信息的結(jié)合策略上做進(jìn)一步改進(jìn)。

猜你喜歡
區(qū)域
分割區(qū)域
探尋區(qū)域創(chuàng)新的密碼
科學(xué)(2020年5期)2020-11-26 08:19:22
基于BM3D的復(fù)雜紋理區(qū)域圖像去噪
軟件(2020年3期)2020-04-20 01:45:18
小區(qū)域、大發(fā)展
商周刊(2018年15期)2018-07-27 01:41:20
論“戎”的活動(dòng)區(qū)域
區(qū)域發(fā)展篇
區(qū)域經(jīng)濟(jì)
關(guān)于四色猜想
分區(qū)域
公司治理與技術(shù)創(chuàng)新:分區(qū)域比較
主站蜘蛛池模板: 日韩最新中文字幕| 中国精品自拍| 欧美第一页在线| 久久久久人妻一区精品| 免费AV在线播放观看18禁强制| 99精品国产高清一区二区| 五月婷婷导航| 亚洲日韩精品综合在线一区二区| 午夜毛片免费观看视频 | 中字无码av在线电影| 欧美日本在线播放| 国产福利微拍精品一区二区| 91在线无码精品秘九色APP| 久久久久夜色精品波多野结衣| 91在线精品麻豆欧美在线| 久久国产精品影院| 在线播放91| 国产一在线| 欧美另类视频一区二区三区| 国产va欧美va在线观看| 色综合久久无码网| 国产视频你懂得| 天天摸天天操免费播放小视频| 国产高清国内精品福利| 亚洲一欧洲中文字幕在线| 成人午夜视频免费看欧美| 天天色天天综合网| 亚洲欧美一级一级a| 日韩欧美亚洲国产成人综合| 国内精自视频品线一二区| 亚洲精品日产精品乱码不卡| 成人在线视频一区| 精品91自产拍在线| 亚洲动漫h| 国产精品成人AⅤ在线一二三四| 波多野吉衣一区二区三区av| 欧美综合在线观看| 久久免费视频播放| 亚洲欧美不卡视频| 欧美一区二区三区国产精品| 亚洲综合激情另类专区| 色噜噜狠狠狠综合曰曰曰| 国产精品jizz在线观看软件| 97se综合| 亚洲美女一区二区三区| 岛国精品一区免费视频在线观看| 精品人妻一区二区三区蜜桃AⅤ | 日韩精品一区二区深田咏美| 国产三级精品三级在线观看| 99精品在线视频观看| 国产成人啪视频一区二区三区| 99re在线视频观看| 亚洲最新地址| 人妻一区二区三区无码精品一区 | 欧美午夜在线播放| 中日韩一区二区三区中文免费视频| 成人字幕网视频在线观看| AV在线麻免费观看网站| 一级毛片免费高清视频| 国产激情影院| 亚洲成a人片| 国产在线麻豆波多野结衣| 中国一级特黄视频| 亚洲精品波多野结衣| 91精品国产麻豆国产自产在线| 久久青草免费91线频观看不卡| 国产精品对白刺激| 啪啪永久免费av| 久久不卡精品| 这里只有精品在线| 亚洲成aⅴ人片在线影院八| 欧洲熟妇精品视频| 日韩国产欧美精品在线| 日韩精品无码免费专网站| 日韩毛片免费观看| 国产青榴视频| 欧美天堂久久| 欧美三级视频网站| 国产素人在线| 国产在线观看91精品| 玖玖精品在线| 国产精品一老牛影视频|