999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向視覺(jué)對(duì)話的自適應(yīng)視覺(jué)記憶網(wǎng)絡(luò)

2021-10-13 04:51:30高聯(lián)麗宋井寬
關(guān)鍵詞:特征實(shí)驗(yàn)模型

趙 磊,高聯(lián)麗,宋井寬

(電子科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 成都 611731)

當(dāng)前,計(jì)算機(jī)視覺(jué)[1]與自然語(yǔ)言處理[2]相結(jié)合的跨模態(tài)任務(wù)獲得大量關(guān)注,如圖像描述生成(image captioning)[3-4]、視覺(jué)問(wèn)答(visual question answering)[5-6]等。視覺(jué)對(duì)話任務(wù)是指計(jì)算機(jī)根據(jù)圖片、圖片描述以及歷史對(duì)話信息對(duì)人所提出的問(wèn)題進(jìn)行流暢自然地回答。視覺(jué)對(duì)話技術(shù)可以應(yīng)用于大量的實(shí)際生活場(chǎng)景中,如協(xié)助視覺(jué)障礙患者完成對(duì)周圍環(huán)境的感知;如升級(jí)客服系統(tǒng),使之智能化地對(duì)消費(fèi)者所提出的問(wèn)題作答;或讓機(jī)器人擁有類似于人的交流能力。

視覺(jué)對(duì)話是一項(xiàng)充滿挑戰(zhàn)性的任務(wù)。其中,視覺(jué)共指消解問(wèn)題是關(guān)鍵的一個(gè)研究點(diǎn),它是指如何找到問(wèn)題中的代詞在圖片中的具體目標(biāo)指代。在視覺(jué)對(duì)話任務(wù)中最常用的數(shù)據(jù)集VisDial 中,有近38%的問(wèn)題以及19%的答案包含代詞,如‘he’‘his’‘it’‘there’‘they’‘that’‘this’等。文獻(xiàn)[7]通過(guò)神經(jīng)模塊網(wǎng)絡(luò)確定問(wèn)題中的代詞在歷史對(duì)話中所指代的具體實(shí)體,然后從輸入的圖片完成視覺(jué)定位。文獻(xiàn)[8]提出了適用于視覺(jué)對(duì)話的雙重注意力網(wǎng)絡(luò),它通過(guò)多頭注意力機(jī)制學(xué)習(xí)問(wèn)題與歷史對(duì)話信息之間的潛在關(guān)聯(lián),然后利用自底向上的注意力機(jī)制完成視覺(jué)上的目標(biāo)檢測(cè)。文獻(xiàn)[9]提出了遞歸的視覺(jué)注意力來(lái)對(duì)歷史對(duì)話進(jìn)行遍歷,直至找到高置信度的視覺(jué)指代。總結(jié)先前的工作,它們都是通過(guò)文本定位和視覺(jué)定位兩個(gè)步驟來(lái)解決視覺(jué)共指消解問(wèn)題。然而,每一步過(guò)程都有可能產(chǎn)生誤差,從而導(dǎo)致最終回答的問(wèn)題精度不足。誤差產(chǎn)生的主要原因是問(wèn)題中的代詞在對(duì)話歷史中所指代的目標(biāo)依然難以確定。如在歷史對(duì)話中其指代的目標(biāo)在比較靠前的輪次,或者存在語(yǔ)義相近,容易混淆的文本目標(biāo),這都容易導(dǎo)致文本定位的誤差。而由歷史對(duì)話中所找到的文本指代完成視覺(jué)定位同樣容易產(chǎn)生誤差。其原因?yàn)閳D像中背景信息比較復(fù)雜,如背景中有同目標(biāo)類似的物體,亦或其背景的顏色特征、紋理特征與目標(biāo)相近等,容易誤檢而造成誤差。同時(shí)先前工作都忽視了在很多情況下,問(wèn)題的回答不需要利用歷史對(duì)話,簡(jiǎn)單的視覺(jué)信息可以直接完成作答。

本文將對(duì)話過(guò)程中已完成定位的視覺(jué)信息存儲(chǔ)在外部的記憶庫(kù)中,從而將上述的兩個(gè)步驟進(jìn)行整合。在每回答一個(gè)問(wèn)題時(shí),不需要從歷史對(duì)話中尋找問(wèn)題中代詞具體的指代,而是直接從視覺(jué)記憶庫(kù)中進(jìn)行讀取。通過(guò)外部視覺(jué)記憶庫(kù)對(duì)文本定位和視覺(jué)定位的整合,將先前的兩步定位可能產(chǎn)生的誤差縮減為對(duì)單步視覺(jué)記憶讀取的誤差,理論上單步的誤差要小于兩步的誤差。為了更好地處理視覺(jué)信息可直接作答的情形,在讀取視覺(jué)記憶庫(kù)的時(shí)候,采用了自適應(yīng)的方式,即動(dòng)態(tài)地學(xué)習(xí)一個(gè)置信度。進(jìn)一步地,引入視覺(jué)殘差連接來(lái)緩解此問(wèn)題,從而更好地應(yīng)對(duì)不同的情況。

1 自適應(yīng)視覺(jué)記憶網(wǎng)絡(luò)

1.1 數(shù)據(jù)處理

(q2,a2),···,(qt?1,at?1)),以及候選答案A。視覺(jué)類數(shù)據(jù)包括圖片I,以及視覺(jué)記憶庫(kù)Mt=(m0,m1,···,mt?1)。

視覺(jué)對(duì)話任務(wù)中的輸入主要包括文本類數(shù)據(jù)和視覺(jué)類數(shù)據(jù)兩種模態(tài)數(shù)據(jù)。其中,文本類數(shù)據(jù)包括當(dāng)前輪次所提出的問(wèn)題qt,歷史對(duì)話Ht=(C,(q1,a1),

本文對(duì)文本類數(shù)據(jù)均利用詞嵌入方法將每一個(gè)詞映射為詞向量。隨后,映射后的當(dāng)前問(wèn)題qt利用自注意力機(jī)制得到帶權(quán)重的詞向量qa,用以表示在問(wèn)題中重要的詞語(yǔ)。同時(shí),將映射之后的歷史對(duì)話和候選答案都輸入LSTM 中,取最后一個(gè)隱藏層的狀態(tài)為其對(duì)應(yīng)特征,分別為=(h0,h1,···,ht?1)和Aλ。

視覺(jué)類數(shù)據(jù)中的圖片I利用在Visual Genome上預(yù)訓(xùn)練好的Faster R-CNN 提取目標(biāo)級(jí)特征V=(v1,v2,···,vn)。本文將提取的目標(biāo)數(shù)量固定為36 個(gè)。初始的視覺(jué)記憶庫(kù)m0是由圖片描述C對(duì)圖片I進(jìn)行軟注意力計(jì)算所得。

1.2 網(wǎng)絡(luò)模型

本文所采用的網(wǎng)絡(luò)框架為編碼器?解碼器模式。整體框架圖如圖1 所示,其中自適應(yīng)視覺(jué)記憶模塊是整個(gè)網(wǎng)絡(luò)的重點(diǎn)。它的輸入為當(dāng)前問(wèn)題的帶權(quán)重特征qa對(duì)圖片I的特征V進(jìn)行注意力計(jì)算所得到的視覺(jué)特征Vq,具體如下:

圖1 本文所設(shè)計(jì)的自適應(yīng)視覺(jué)記憶網(wǎng)絡(luò)AVMN 的框架圖

式中,fq和fv分別表示非線性變換函數(shù);“ ?”表示哈達(dá)瑪積;“·”表示矩陣相乘。

之后,Vq輸入到自適應(yīng)視覺(jué)記憶模塊中讀取外部的視覺(jué)記憶庫(kù)以完成初步的目標(biāo)定位。其詳細(xì)流程如算法1 所示。

算法1 自適應(yīng)視覺(jué)記憶模塊數(shù)據(jù)讀寫(xiě)流程:

考慮到在很多情形下問(wèn)題的回答不需要用到視覺(jué)相關(guān)的歷史信息,直接利用問(wèn)題便可從圖片中定位到目標(biāo)特征。因此,本文將Vq經(jīng)過(guò)線性變換處理后得到的特征輸入到sigmoid 函數(shù)中學(xué)習(xí)一個(gè)參數(shù)λ,并用此參數(shù)得到帶有權(quán)重的外部視覺(jué)記憶信息。然后利用軟注意力機(jī)制讀取到視覺(jué)記憶,具體如下:

式中,fv_a表示非線性變換。進(jìn)一步地,將視覺(jué)特征Vq與取得的視覺(jué)記憶做融合,也可以視為對(duì)視覺(jué)特征Vq做殘差連接。具體融合方式為:

式中,F(xiàn)C 均表示全連接線性變換;Norm 和Gate分別表示L2 正則化運(yùn)算和門函數(shù);[,]表示向量之間的級(jí)聯(lián)操作。此階段所讀取到的最終特征mt還要被更新到外部記憶庫(kù)中。

為進(jìn)一步地提煉所讀取出來(lái)的視覺(jué)特征,使其更專注于所提出的問(wèn)題,利用經(jīng)過(guò)自注意力計(jì)算的問(wèn)題qa對(duì)mt做如下計(jì)算:

式中,σ表示sigmoid 函數(shù)。同時(shí)將歷史對(duì)話作為答案生成的補(bǔ)充信息。同樣利用注意力機(jī)制使歷史對(duì)話中的有效信息集中到相關(guān)問(wèn)題上,具體為:

最終將當(dāng)前問(wèn)題特征、外部記憶庫(kù)所讀出來(lái)的視覺(jué)特征及歷史對(duì)話特征進(jìn)行融合,具體方式為:

式中,fq_h_v為線性變換;[,]表示級(jí)聯(lián)操作;F則是融合之后的特征,也是整個(gè)框架中編碼器的輸出。它之后被輸入到解碼器中,用以給候選的100 個(gè)答案進(jìn)行排序。

本文中解碼器采用多任務(wù)學(xué)習(xí)機(jī)制,即判別式和生成式的融合。其中,判別式解碼器是通過(guò)計(jì)算每個(gè)候選答案的特征與編碼器輸出的融合特征之間的點(diǎn)乘相似度,用softmax 函數(shù)獲得候選答案的后驗(yàn)概率。并通過(guò)對(duì)交叉熵?fù)p失函數(shù)的最小化來(lái)訓(xùn)練模型。生成式編碼器是用LSTM 語(yǔ)言模型來(lái)直接生成答案,并通過(guò)對(duì)數(shù)似然損失函數(shù)完成訓(xùn)練。本文將兩者損失函數(shù)相加,完成對(duì)最終模型的訓(xùn)練。

2 實(shí)驗(yàn)結(jié)果及分析

2.1 數(shù)據(jù)集

本文所有實(shí)驗(yàn)都在數(shù)據(jù)集VisDial1.0[10]上進(jìn)行。該數(shù)據(jù)集采集于Amazon Mechanical Turk 數(shù)據(jù)采集平臺(tái)。其中,訓(xùn)練集的圖片均來(lái)自于COCO 2014 數(shù)據(jù)集,共包含大約12.3 萬(wàn)張圖片。驗(yàn)證集和測(cè)試集的圖片則采集于Flickr 數(shù)據(jù)集,分別包含2000 和8000 張圖片。訓(xùn)練集和驗(yàn)證集中,每張圖片對(duì)應(yīng)10 輪問(wèn)答,測(cè)試機(jī)則僅有一輪問(wèn)答。每個(gè)問(wèn)題都包含有100 個(gè)候選答案。

2.2 評(píng)價(jià)指標(biāo)

實(shí)驗(yàn)中所采用的評(píng)價(jià)指標(biāo)共4 類,包括:平均排序(mean)、平均排序倒數(shù)(mean reciprocal rank,MRR)、召回率(recall@)、歸一化折現(xiàn)累計(jì)收益(normalized discounted cumulative gain,NDCG)。

平均排序用于表示人工標(biāo)注的正確答案在所有候選答案排序中的平均排名。平均排序倒數(shù)是指將所有正確答案的排名取倒數(shù),并做平均化處理。召回率表示在所有候選答案的排序中人工標(biāo)注的正確答案位于前k所占的比例,本文將k設(shè)置為1、5 和10。歸一化折現(xiàn)累計(jì)收益則是考慮到候選答案中可能存在多個(gè)正確答案的情形,它旨在處罰那些正確但又排名較低的答案。

2.3 實(shí)驗(yàn)設(shè)置

本文所設(shè)計(jì)的模型主要基于PyTorch1.0 實(shí)現(xiàn)。模型在數(shù)據(jù)集上共訓(xùn)練15 個(gè)周期,批大小設(shè)為32,初始學(xué)習(xí)率設(shè)為0.001,經(jīng)歷一個(gè)熱身周期,并在第10 個(gè)周期后降至0.0001。訓(xùn)練優(yōu)化器選用Adam。

2.4 定量及定性實(shí)驗(yàn)

為驗(yàn)證本文所設(shè)計(jì)模型的有效性,將此模型和近年來(lái)效果最優(yōu)的算法進(jìn)行對(duì)比。對(duì)比方法包括:

1)VGNN[11]:利用圖神經(jīng)網(wǎng)絡(luò)將視覺(jué)對(duì)話模擬為基于局部觀測(cè)節(jié)點(diǎn)的圖模型推導(dǎo)。每輪對(duì)話被視為圖節(jié)點(diǎn),對(duì)應(yīng)的回答表示為圖中缺失的一個(gè)值。

2)CorefNMN[7]:利用模塊神經(jīng)網(wǎng)絡(luò)完成字詞級(jí)別的目標(biāo)定位。

3)DVAN[12]:以雙重視覺(jué)注意力網(wǎng)絡(luò)來(lái)解決視覺(jué)對(duì)話中的跨模態(tài)語(yǔ)義相關(guān)性。充分地挖掘了局部視覺(jué)信息和全局視覺(jué)信息,并利用3 個(gè)階段的注意力獲取來(lái)生成最終的答案。

4)FGA[13]:針對(duì)視覺(jué)對(duì)話的因子圖注意力方法,可以有效地整合多種不同模態(tài)的數(shù)據(jù)。

5)RVA[9]:用于遍歷歷史對(duì)話信息的遞歸注意力機(jī)制。

6)DualVD[14]:自適應(yīng)的雙重編碼模型。學(xué)習(xí)更豐富的、全面的視覺(jué)特征用以回答多樣的問(wèn)題。

表1 為本文所提出的算法AVMN 與上述方法在VisDial1.0 測(cè)試集上的實(shí)驗(yàn)結(jié)果在平均排序倒數(shù)(MRR)、召回率(recall@k)、平均排序(mean)、歸一化折現(xiàn)累計(jì)收益(NDCG)各項(xiàng)指標(biāo)上的對(duì)比。其中,AVMN*表示解碼器為判別式的,AVMN 表示解碼器采用多任務(wù)學(xué)習(xí)方式,在訓(xùn)練的時(shí)候加入了生成式損失函數(shù)。

從表1 可看出,本文所提出的AVMN 即使在沒(méi)有加入生成式損失函數(shù)的情況下已經(jīng)在各項(xiàng)指標(biāo)上全面超過(guò)了各對(duì)比方法。在采用多任務(wù)學(xué)習(xí)方式后,實(shí)驗(yàn)結(jié)果又獲得了可觀的提升,進(jìn)一步和對(duì)比方法拉開(kāi)了一定差距。具體地,完整的AVMN 在平均倒數(shù)排序MRR 上的結(jié)果比所有對(duì)比方法中最優(yōu)的方法DualVD 提升了0.6%,在召回率R@1 上比效果最佳的FGA 提升了0.59%,在同樣代表精確性的平均排序上取得了4.03 的結(jié)果。在保證答案的精確度的同時(shí),它在歸一化折現(xiàn)累計(jì)收益NDCG 上也取得了56.92 的結(jié)果,相比相關(guān)的最優(yōu)方法取得了0.7%的提升。FGA 在R@5 上的結(jié)果比AVMN 略高,但是它利用因子圖將多種類型數(shù)據(jù)進(jìn)行交互,所取得的提升建立在代價(jià)較大的計(jì)算上。以上實(shí)驗(yàn)結(jié)果證明了AVMN 的先進(jìn)性。

表1 本文算法與其他算法的結(jié)果對(duì)比

AVMN 在VisDial1.0 上的定性實(shí)驗(yàn)結(jié)果如圖2所示。其中Baseline 代表沒(méi)有加入自適應(yīng)視覺(jué)記憶模塊的基準(zhǔn)模型,GT 代表人工標(biāo)注的正確答案,Predict 代表AVMN 預(yù)測(cè)的答案。從圖中前兩個(gè)示例可以看出,AVMN 所生成的答案相較基準(zhǔn)模型更為準(zhǔn)確,和GT 一致。同時(shí),它也可以對(duì)不存在代詞的問(wèn)題進(jìn)行準(zhǔn)確的回答,如后兩個(gè)示例所示。

圖2 本文所設(shè)計(jì)的自適應(yīng)視覺(jué)記憶網(wǎng)絡(luò)AVMN 在VisDial1.0 數(shù)據(jù)集上的定性結(jié)果

2.5 消融實(shí)驗(yàn)

在此實(shí)驗(yàn)部分,設(shè)計(jì)針對(duì)本文所提出的算法AVMN 中主要組成部分在VISDial1.0 驗(yàn)證集上的消融實(shí)驗(yàn)。實(shí)驗(yàn)中主要設(shè)置了兩個(gè)算法的變體:1)沒(méi)有使用記憶庫(kù)的原始模型;2)僅使用了記憶庫(kù),但沒(méi)有采用自適應(yīng)讀取的模型。表2 為消融實(shí)驗(yàn)的結(jié)果展示。值得注意的是,此實(shí)驗(yàn)部分中所有模型的解碼器是判別式的。

表2 針對(duì)算法主要模塊的消融實(shí)驗(yàn)結(jié)果

表2 中第一行是原始模型的實(shí)驗(yàn)結(jié)果。記憶代表AVMN 中使用的記憶庫(kù)。從數(shù)據(jù)可看出,原始模型相比完整模型的實(shí)驗(yàn)結(jié)果表現(xiàn)較差。第二行為加入記憶庫(kù)后模型的實(shí)驗(yàn)結(jié)果。它在平均排序倒數(shù)MRR 和歸一化折現(xiàn)累計(jì)收益NDCG 上提升明顯,尤其在NDCG 上,提升幅度超過(guò)1%。其原因是視覺(jué)記憶相比之前的方法縮減了定位步驟,其中間誤差減少,準(zhǔn)確性以及相關(guān)性隨之提升。第三行是加入對(duì)記憶庫(kù)自適應(yīng)讀取后完整模型的實(shí)驗(yàn)結(jié)果。相較于進(jìn)加入記憶庫(kù)后的模型,它主要在召回率R@5 和R@10 上取得了較大的提升。其原因是自適應(yīng)讀取的加入使得本不需要?dú)v史信息的問(wèn)題得到了更精確的回答。

3 結(jié)束語(yǔ)

本文設(shè)計(jì)了一種為解決視覺(jué)對(duì)話中視覺(jué)共指消解的自適應(yīng)視覺(jué)記憶網(wǎng)絡(luò)AVMN。先前的方法為緩解指代模糊的問(wèn)題,基本都是分兩步,先從歷史對(duì)話中找到代詞的具體指代,然后再?gòu)膱D片中定位到視覺(jué)目標(biāo)。視覺(jué)記憶網(wǎng)絡(luò)直接將對(duì)話歷史中已完成定位的視覺(jué)信息存儲(chǔ)到外部的記憶模塊中。這種方式將兩步縮減為一步,減少在文本定位和視覺(jué)定位兩步過(guò)程中所產(chǎn)生的誤差。同時(shí)在面臨僅需要圖片便能回答的問(wèn)題,加入了對(duì)外部視覺(jué)記憶的自適應(yīng)讀取,以及初始圖片的殘差連接。在視覺(jué)對(duì)話領(lǐng)域最流行的數(shù)據(jù)集VisDial 上的實(shí)驗(yàn)結(jié)果證明了本文所設(shè)計(jì)模型相較于其他優(yōu)秀算法的先進(jìn)性。消融實(shí)驗(yàn)驗(yàn)證了視覺(jué)記憶網(wǎng)絡(luò)內(nèi)對(duì)最終結(jié)果的影響,更進(jìn)一步地證明了它的有效性。

猜你喜歡
特征實(shí)驗(yàn)模型
一半模型
記一次有趣的實(shí)驗(yàn)
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
3D打印中的模型分割與打包
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
主站蜘蛛池模板: 亚洲最大福利视频网| 丁香综合在线| 国产不卡在线看| 日韩高清欧美| 三上悠亚一区二区| 亚洲AⅤ无码国产精品| 一本一道波多野结衣一区二区| 无码综合天天久久综合网| 午夜视频免费一区二区在线看| 午夜国产精品视频黄 | 久久不卡精品| 成年人免费国产视频| 中文字幕1区2区| 欧美一区二区三区欧美日韩亚洲| 亚洲天堂自拍| 亚洲欧美综合另类图片小说区| 亚洲成人一区二区三区| 亚洲区欧美区| 亚洲精品福利网站| 国产高潮流白浆视频| 爽爽影院十八禁在线观看| 无码啪啪精品天堂浪潮av| 亚洲欧洲日韩综合色天使| 免费视频在线2021入口| 国产亚洲精品自在久久不卡| 亚洲成A人V欧美综合| 色悠久久久久久久综合网伊人| 国产真实乱人视频| 欧美亚洲网| 亚洲视频免费在线| 日韩欧美中文在线| 鲁鲁鲁爽爽爽在线视频观看 | 搞黄网站免费观看| 久久婷婷国产综合尤物精品| 在线播放91| 欧美在线视频不卡第一页| 在线中文字幕网| 免费看黄片一区二区三区| 一区二区偷拍美女撒尿视频| 国产精品毛片一区视频播 | 亚洲日韩AV无码一区二区三区人| 色综合久久无码网| 免费在线看黄网址| 国产真实乱子伦视频播放| 丁香五月婷婷激情基地| 一本二本三本不卡无码| 亚洲精品无码久久毛片波多野吉| 国产成人亚洲综合a∨婷婷| 色综合手机在线| 欧美a在线| 久草视频精品| 中国精品自拍| 亚洲第一视频区| 伊人久久福利中文字幕| 欧美日韩国产系列在线观看| 26uuu国产精品视频| 久久国语对白| 成人在线视频一区| 亚洲狠狠婷婷综合久久久久| 伊人久综合| 六月婷婷精品视频在线观看 | 四虎影视8848永久精品| 狠狠干综合| 国产日韩欧美在线视频免费观看| 天堂av综合网| 亚洲综合九九| 亚洲一区免费看| 久久人妻xunleige无码| 国产一二三区在线| 国产激爽大片高清在线观看| 欧美特级AAAAAA视频免费观看| 精品三级在线| 欧美午夜久久| 动漫精品中文字幕无码| 亚洲区第一页| 日韩中文欧美| 熟女视频91| 国产精品第| 久久精品国产91久久综合麻豆自制| 永久免费无码成人网站| 国产第三区| 99视频在线看|