999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于注意力的圖像視覺關(guān)系識別研究

2018-02-15 03:03:06李玉剛王永濱
關(guān)鍵詞:檢測模型系統(tǒng)

李玉剛,王永濱

(1.中國傳媒大學(xué) 計(jì)算機(jī)與網(wǎng)絡(luò)空間安全學(xué)院,北京 100024;2.廣播科學(xué)研究院,北京 100866)

1 引言

通常理解一張圖像不但要能夠識別出圖像中存在的物體,對圖像中物體之間關(guān)系的分析是理解一張圖像的關(guān)鍵。而一張圖像通常包含幾十種關(guān)系,比如視覺基因組(Visual Genome)[1]平均每張圖像包含35個(gè)物體及21對關(guān)系。這些關(guān)系中大部分對理解圖像沒有影響,如果不加選擇的識別圖像中所有的物體及其之間的關(guān)系不但對理解圖像沒有任何幫助而且增加了計(jì)算量。一張圖像中的關(guān)系通常被表示成多個(gè)相互獨(dú)立的(主語、謂語、賓語)三元組形式,但是觀察發(fā)現(xiàn)圖像中物體之間的關(guān)系通常存在著依賴關(guān)系,比如圖1包含多個(gè)物體及多個(gè)關(guān)系,但是理解圖像的關(guān)鍵物體只有體重秤、站在體重秤上的人和踩在體重秤上的人及他們?nèi)咧g的關(guān)系。

本文受到基于注意力機(jī)制的圖像描述生成算法[2]啟發(fā),利用長短時(shí)記憶網(wǎng)絡(luò)(Long Short Term Memory networks,LSTMs)為視覺關(guān)系之間的依賴建模,基于關(guān)系之間存在的聯(lián)系提取圖像中的主要物體并識別物體之間的關(guān)系。

圖1 圖中包含多個(gè)物體及物體之間關(guān)系

2 相關(guān)工作

近幾年,由于深度學(xué)習(xí)算法的推動(dòng),圖像識別的準(zhǔn)確率得到大幅提升,更多的學(xué)者轉(zhuǎn)向?qū)D像理解的研究,從而建立圖像與語義之間的橋梁。圖像視覺關(guān)系識別是圖像理解的基礎(chǔ),主要有兩種方法:把物體及其關(guān)系作為一個(gè)整體去識別;分別識別圖像中的物體及物體之間的關(guān)系[3-5]。前一種方法由于物體及關(guān)系的表現(xiàn)形式多樣實(shí)際應(yīng)用時(shí)計(jì)算復(fù)雜度高,本文采用后一種方法,涉及以下幾種算法。

2.1 長短時(shí)記憶模型(LSTM)

LSTM是一種特殊結(jié)構(gòu)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),能夠保存之前較長時(shí)刻的狀態(tài)。LSTM在RNN的基礎(chǔ)上增加了3個(gè)門:遺忘門f控制是否遺忘當(dāng)前狀態(tài),輸入門i指示是否讀取輸入,輸出門o控制是否輸出:

xt=σ(Urr(t-1)+Uwwk(t))
it=σ(Uirr(t-1)+Uiwwk(t))
ft=σ(Uorr(t-1)+Uowwk(t))
r(t)=ft⊙r(t-1)+it⊙xt
o(t)=r(t)⊙o(t)

(1)

式中σ表示sigmoid函數(shù),xt、it,ft,r(t),o(t)分別表示隱層狀態(tài)、輸入、遺忘、記憶和輸出,U表示需要學(xué)習(xí)的權(quán)重矩陣。

2.2 物體檢測算法SSD

針對物體檢測的算法比較多:R-CNN[6],YOLO[7],SSD[8]以及它們的很多改進(jìn)算法。SSD相比于其它的模型由于取消了候選框(Region proposals)、像素重采樣(pixel resampling)這些階段,使SSD更容易訓(xùn)練,也更容易把檢測模型融合進(jìn)系統(tǒng)之中[9]。本文采用SSD進(jìn)行物體檢測,其網(wǎng)絡(luò)結(jié)構(gòu)基于VGG-16,使用前面的5層,然后利用astrous算法將fc6和fc7層轉(zhuǎn)化成兩個(gè)卷積層,再額外增加了3個(gè)卷積層和1個(gè)average pool層。不同層次的feature map分別用于default box的偏移以及不同類別得分的預(yù)測,最后通過nms得到檢測結(jié)果。

2.3 Encoder-Decoder

近幾年,注意力模型(Attention Model)被廣泛應(yīng)用于機(jī)器翻譯[10]、圖像描述[2]、自然語言處理等領(lǐng)域。目前,注意力機(jī)制多采用Encoder-Decoder框架,如圖2所示。

圖2 引入注意力的Encoder-Decoder

Decoder在輸出Yi時(shí)根據(jù)前一個(gè)時(shí)刻隱層節(jié)點(diǎn)的輸出Hi-1與Encoder隱層節(jié)點(diǎn)的輸出進(jìn)行匹配,即通過函數(shù)fatt(Xi,Hi-1)計(jì)算出在圖像的不同位置提取的特征Xi(i=1,2…L,L表示輸入序列長度)與Hi-1的相關(guān)程度αti,然后通過計(jì)算時(shí)刻t關(guān)注的圖像中的物體。

3 系統(tǒng)架構(gòu)

本文提出一種基于注意力機(jī)制的圖像視覺關(guān)系識別框架,系統(tǒng)架構(gòu)如圖3所示。系統(tǒng)主要分為兩模塊:物體檢測和關(guān)系識別,物體檢測模塊采用SSD識別出圖像中包含的多個(gè)物體作為關(guān)系識別模塊的輸入。關(guān)系識別模塊是基于注意力模型的RNN,通過使用VGG-16提取物體檢測模塊輸出的物體的classme、box及visual特征[3]作為輸入,組成物體特征集合,每次從集合中提取兩個(gè)物體并識別物體之間的關(guān)系。

圖3 系統(tǒng)架構(gòu)

3.1 注意力模型

注意力模型受人類注意力機(jī)制的啟發(fā),人在觀察圖像的時(shí)候不是一次就把整幅圖像的每個(gè)位置都看過,大多是根據(jù)經(jīng)驗(yàn)將注意力集中到圖像中的特定位置。注意力模型打破了Encoder-Decoder模型在編解碼時(shí)都依賴于內(nèi)部一個(gè)固定長度向量的限制,提取圖像中特定區(qū)域的特征,從而有效地降低計(jì)算復(fù)雜度。通過在解碼端選擇與上下文信息z0匹配的編碼輸出序列,由于解碼器是基于LSTM的循環(huán)神經(jīng)網(wǎng)絡(luò),時(shí)刻t-1的隱層輸出作為t時(shí)刻的輸入從而能夠保持之前序列的信息。目前,注意力模型已經(jīng)在物體識別[11]、圖像描述[2]、自然語言處理[12]等領(lǐng)域得到了廣泛應(yīng)用。

eti=fatt(ai,ht-1)

(2)

式中ai表示從圖像中提取的物體特征,ht-1表示前一時(shí)刻的隱狀態(tài),通過注意力模型fatt計(jì)算得到時(shí)刻t每個(gè)物體ai的權(quán)重。fatt可以理解為求兩者的相似性,常見的方法包括:求兩者的向量點(diǎn)積、求兩者的向量Cosine相似性或者通過引入額外的神經(jīng)網(wǎng)絡(luò)求值。

3.2 訓(xùn)練

模型在訓(xùn)練時(shí)采用端到端的方式,損失函數(shù)使用交叉熵函數(shù),為了降低梯度消失造成的影響采用rmsprop優(yōu)化算法。初始化時(shí),首先用MS COCO對SSD進(jìn)行訓(xùn)練,然后用高斯權(quán)重初始化整個(gè)系統(tǒng)。VGG-16使用ImageNet 2012進(jìn)行預(yù)訓(xùn)練。

3.3 測試

關(guān)系序列(r1,r2,…,rN)中每個(gè)元素rt通過從物體集合O中挑選兩個(gè)物體并結(jié)合之前的關(guān)系r1,r2,…,rt-1得到。

=P(rk|O,r1,…,rk-1)

(3)

生成序列時(shí)如果前一時(shí)刻的元素是錯(cuò)的將導(dǎo)致后面時(shí)刻元素的預(yù)測結(jié)果錯(cuò)誤,從而使整個(gè)序列出現(xiàn)錯(cuò)誤。為解決這個(gè)問題我們采用Beam搜索算法查找最有可能的關(guān)系序列。Beam算法的主要思想是查找N個(gè)可能的序列組,然后計(jì)算每個(gè)序列組的得分從中選擇分?jǐn)?shù)最高的作為最終結(jié)果。

4 實(shí)驗(yàn)及分析

4.1 數(shù)據(jù)集和度量標(biāo)準(zhǔn)

本文采用視覺基因組(Visual Genome)[1]數(shù)據(jù)集,包含99,658張圖像,共200個(gè)物體分類和100對視覺關(guān)系。我們?nèi)∑渲?000張圖像用于訓(xùn)練,1000張圖像用于測試。本文采用Recall@50(R@50)及Recall@100(R@100)對實(shí)驗(yàn)結(jié)果進(jìn)行度量,R@K表示沒K個(gè)預(yù)測結(jié)果中正確結(jié)果所占的比例。

4.2 實(shí)驗(yàn)結(jié)果及分析

由于本文提出的系統(tǒng)涉及到物體檢測和關(guān)系識別兩個(gè)部分,我們只驗(yàn)證關(guān)系識別模塊的準(zhǔn)確性,給系統(tǒng)輸入已完成物體檢測的圖像。與以往的識別圖像中所有物體之間的關(guān)系不同,本文提出的圖像關(guān)系識別算法提取圖像中的主要物體及其之間的關(guān)系。為了簡化,目前只識別騎、上、穿幾個(gè)關(guān)系對系統(tǒng)進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果如表1所示。

表1 視覺關(guān)系識別實(shí)驗(yàn)結(jié)果

由實(shí)驗(yàn)結(jié)果可見,本系統(tǒng)的識別精度略低于同類其它系統(tǒng),這是由于目前本系統(tǒng)主要關(guān)注是否能夠提取圖像中的主要物體及其關(guān)系,在這方面系統(tǒng)的表現(xiàn)達(dá)到了實(shí)驗(yàn)預(yù)期。

5 總結(jié)與展望

本文提出了一種基于注意力機(jī)制的端到端的圖像視覺關(guān)系識別算法,算法的關(guān)鍵是能夠在對整張圖像的理解基礎(chǔ)上提取出圖像中的關(guān)鍵物體并識別它們之間的關(guān)系,簡化了視覺關(guān)系識別的計(jì)算復(fù)雜度。算法在MS COCO數(shù)據(jù)集上測試得到了較高的準(zhǔn)確度。可預(yù)見,該方法今后會(huì)在圖像/視頻檢索、圖像描述、物體檢測等領(lǐng)域得到廣泛應(yīng)用。今后我們的工作主要在以下幾個(gè)方面:1)擴(kuò)大系統(tǒng)能夠識別的關(guān)系集合,使系統(tǒng)能夠識別更多的關(guān)系,并提高系統(tǒng)的識別準(zhǔn)確度;2)對多個(gè)物體之間的關(guān)系進(jìn)行建模,比如(男人,拿,桶,喂,馬);3)研究關(guān)系識別在圖像及視頻內(nèi)容檢測、搜索方面的應(yīng)用。

猜你喜歡
檢測模型系統(tǒng)
一半模型
Smartflower POP 一體式光伏系統(tǒng)
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
WJ-700無人機(jī)系統(tǒng)
ZC系列無人機(jī)遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
主站蜘蛛池模板: 亚洲精品无码日韩国产不卡| 国产真实二区一区在线亚洲| 九九热视频精品在线| 国产精品太粉嫩高中在线观看| 国产新AV天堂| 国产成人a在线观看视频| 伊人无码视屏| 亚洲欧美在线综合图区| 久久久成年黄色视频| 久久国产黑丝袜视频| 国产成人毛片| 国产高清毛片| 久操线在视频在线观看| 色妺妺在线视频喷水| 成人福利在线观看| 久久久久国产一级毛片高清板| 中文成人在线| 国产亚洲欧美在线人成aaaa| 伊人久久婷婷| 亚洲人网站| 亚洲毛片在线看| 伊人久久大香线蕉影院| 华人在线亚洲欧美精品| 亚洲最新网址| 国产欧美在线观看精品一区污| 国产精品性| 欧美成人综合视频| 日韩久草视频| 尤物亚洲最大AV无码网站| 美女裸体18禁网站| 免费在线视频a| 九一九色国产| 毛片网站观看| 真实国产乱子伦高清| 国产簧片免费在线播放| 992tv国产人成在线观看| 亚洲国产成人久久77| 国产在线观看91精品| 视频一区视频二区日韩专区| 97成人在线视频| 久久亚洲国产视频| 国产免费久久精品44| 亚洲AV免费一区二区三区| 日本久久网站| 四虎精品免费久久| 男女男免费视频网站国产| 午夜福利亚洲精品| 青草午夜精品视频在线观看| 精品久久蜜桃| 亚洲伊人天堂| 免费在线不卡视频| 色窝窝免费一区二区三区| 亚洲资源站av无码网址| 欧美成人一级| 波多野结衣一区二区三区四区| 美女一区二区在线观看| 国产国语一级毛片在线视频| 在线视频一区二区三区不卡| 国产小视频在线高清播放| 一级毛片在线直接观看| 亚洲欧美日韩视频一区| 一级毛片不卡片免费观看| 国产福利一区二区在线观看| Aⅴ无码专区在线观看| 热99re99首页精品亚洲五月天| 成人午夜视频网站| 99视频在线看| 伊人色天堂| a免费毛片在线播放| 园内精品自拍视频在线播放| 免费jjzz在在线播放国产| 香蕉视频在线精品| 免费一级成人毛片| 国产人在线成免费视频| 国产色婷婷视频在线观看| 亚洲天堂网在线播放| 国产一级毛片网站| 国产chinese男男gay视频网| 亚洲资源在线视频| 亚洲av无码成人专区| 亚洲无线一二三四区男男| 日韩欧美中文字幕在线精品|