999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于綜合幾何關系稀疏自注意力機制的圖像標注方法研究

2022-01-01 00:00:00李艷金小峰
計算機應用研究 2022年4期

摘要:針對基于Transformer框架的圖像標注任務中提取視覺特征容易引入噪聲問題且為了進一步提高視覺的上下文信息,提出了一種基于綜合幾何關系稀疏自注意力機制的圖像標注方法。首先通過結合圖像區域的絕對位置、相對位置和空間包含關系提取詳細全面的視覺表示,獲取圖像中潛在的上下文信息;其次提出了注意力層權重矩陣的稀疏化方法,該方法解決了Transformer忽略圖像區域的局部性并引入噪聲信息的問題;最后,采用了強化學習方法作為指導策略,實現模型在句子級別優化目標序列。通過在MS-COCO數據集上進行的對比實驗結果表明,提出的方法在BLEU1、BLEU4、METEOR、ROUGE-L、CIDEr和SPICE指標上分別比基線模型提升了0.2、0.7、0.1、0.3、1.2和0.4,有效提升了圖像自動標注的性能。

關鍵詞:圖像標注; Transformer; 自注意力機制; 稀疏化方法

中圖分類號:TP391.4文獻標志碼:A

文章編號:1001-3695(2022)04-029-1132-05

doi:10.19734/j.issn.1001-3695.2021.07.0339

Research on image captioning method based on sparse self-attention mechanism of integrated geometric relationship

Li Yan, Jin Xiaofeng

(Intelligent Information Processing Laboratory, Yanbian University, Yanji Jilin 133002, China)

Abstract:Aiming at the problem that extracting visual features in image annotation task based on Transformer framework is easy to introduce noise, and in order to further improve the visual context information, this paper proposed an image captioning method based on comprehensive geometric relationship sparse self attention mechanism. Firstly, it combined the absolute position, relative position and spatial inclusion relationship of the image region to obtain a detailed and comprehensive visual representation so as to obtain the potential context information in the image. Secondly, this paper proposed the sparse method of attention layer weight matrix, which solved the problem that Transformer ignored the locality of image region and introduced noise information. Finally, this paper used the reinforcement learning method as the guidance strategy to optimize the target sequence at the sentence level. The experimental results on MS-COCO dataset show that the proposed method improves the baseline model by 0.2, 0.7, 0.1, 0.3, 1.2 and 0.4 respectively in BLEU1, BLEU4, METEOR, ROUGE-L, CIDEr and SPICE, which effectively improves the performance of image automatic captioning.

Key words:image captioning; Transformer; self-attention mechanism; sparse method

0引言

近年來,結合圖像和文本的跨模態研究越來越多地引起自然語言處理和機器視覺領域學者的關注。主流的任務包括圖像描述生成[1]、機器視覺問答[2]及視覺導航[3]。相關的技術在眾多實際場景中得到了廣泛的應用,包括圖片或相冊自動生成描述,幫助視覺障礙人群感知周邊環境的視覺內容等。

許多早期的圖像自動標注模型使用一個表示整個圖像的單一特征向量來編碼視覺信息[4,5],沒有利用關于對象及其空間關系的信息。2015年,文獻[6]首次使用R-CNN目標檢測器提取圖像的多個目標特征并為該目標生成單獨的標注。文獻[7]利用Faster R-CNN檢測出圖像中的高層語義詞,再通過注意力機制將高層語義信息融入到網絡模型中,對初始圖像描述進行再生成,然而仍然沒有根據檢測到的對象之間的空間關系進行建模。文獻[8]通過檢測圖像中不同區域相關聯的單詞來生成圖像描述,為生成的目標單詞建立了空間映射,但并沒有明確地建模空間區域之間的任何關系。和本文的工作內容類似,Anderson等人[9]通過結合自上而下的注意力模型和自下而上的LSTM模型來解決注意力模型的局限性,作者使用這種方法提高了視覺問答和圖像自動標注任務性能,證明了目標檢測中得到的特征與視覺注意相結合是有效的。Hu等人[10]首先在目標檢測中提出幾何注意問題,使用邊界框坐標和大小來推斷對象對關系的重要性,證明了如果兩個邊界框位置越近、大小越相似,那么它們的關系就更強。此外,Yang等人[11]利用圖結構構建了圖像場景圖和語義場景圖,通過自動編碼器構建了詞典,并將其嵌入到圖像場景圖中,雖然這個模型在文本中學習如何找到典型的空間關系,但無法捕捉給定圖像的視覺場景圖。文獻[12]結合目標檢測和注意力機制,充分考慮了圖像高層視覺語義所對應的中文屬性信息,抽取不同尺度和層次的屬性上下文表示。文獻[13]提出的自我批評強化學習方法對圖像標注任務中的句子生成了積極的影響。Liu等人[14]提出了一種視覺策略的強化學習方法,即提出了一個上下文感知的視覺策略網絡,它在每一個時間步網絡都明確地將先前的視覺注意作為上下文,然后根據當前的視覺注意判斷上下文是否有助于當前詞匯的生成,然而這種視覺策略并沒有利用圖像區域的空間關系。

最近,隨著Transformer架構在NLP相關的機器翻譯[15]等序列到序列學習任務研究領域中取得的顯著成功,該框架也被應用于圖像自動標注方法。2018年,Sharma等人[16]首次將Transformer引入到圖像自動標注任務中,顯著提高了圖像自動標注性能。作者使用了兩種方式提取圖像特征,一是單一的全局圖像特征,另一個是為了提取細粒度的圖像特征采用均勻采樣的方法。此后,研究人員發現結合空間關系可以提高目標檢測性能[10],因此提出了利用區域的邊界框以相對方式建模區域之間的位置關系[17],還有通過分析圖像中目標區域的面積大小去改善圖像自動標注[18]。

盡管Transformer的自注意力機制在構建遠程依賴關系方面比CNN更強大且比RNN更能捕獲長序列特征,但是在計算機視覺領域中,Transformer還是存在一些缺陷的。注意力層捕捉到的注意力圖并不總是有效和可解釋的[19],原因是自注意力機制使用圖像中的所有區域計算權重,一方面它可能會忽略圖像區域的局部性并引入噪聲,如背景信息;另一方面存在著訓練過程緩慢和潛在性能下降的問題。因此,本文認為,如果綜合考慮目標區域的絕對位置、相對位置和空間關系等因素加強對上下文信息的捕捉,并依據注意力層權重系數的重要程度進行稀疏化,以此增強編碼器的區域視覺表示能力,從而能夠增強解碼器解碼圖像和文本的對應關系,改善標注性能。

1Transformer自注意力機制

Transformer框架是由一個編碼器和一個解碼器構成,兩者都是由多頭自注意力和全連接前饋網絡兩個子層堆疊而成。編碼器輸入的輸入向量和解碼器輸入的輸出向量是成對出現的,通過Transformer框架可以從輸入向量得到輸出向量。在每一層中,輸入向量為A∈N×D,其中N代表實體的個數,D代表每個實體的輸入維度。在自然語言處理中,輸入向量可以理解為句子中所有單詞的嵌入向量;而在計算機視覺中,輸入向量可以理解為圖像中的所有目標區域的嵌入向量。Transformer的關鍵之處是采用了自注意力機制來強化特征,它的每一層通過線性變換將輸入向量A轉換為查詢Q、鍵K和值V,然后使用縮放點積注意力計算注意力權重:

self_attention(Q,K,V)=softmaxQKTdkV(1)

其中:dk是值V的維度;Q=AWQ、K=AWK、V=AWV,WQ、WK、WV分別為查詢、鍵和值的權重矩陣。采用多頭注意力機制將每個注意力結果連接起來,計算方法為

MultiHead (Q,K,V)=Concat(head1,…,headh)WO(2)

其中:WO為權重矩陣;h為多頭的個數;headi計算方法為

headi=self_attention(AWQi,AWKi,AWVi)

(3)

然后殘差連接并作標準化處理:

A1=Norm(A+MultiHead(Q,K,V))(4)

子層的下一個層是前饋神經網絡,它應用于注意層的每個輸出并實現殘差連接:

A2=Norm(A1+φ(A1Wf))(5)

其中:φ為前饋神經網絡。

每一個子層將其前一層的輸出作為輸入。解碼器部分也是采用了和編碼器相同的模塊,不同之處在于添加了交叉注意子層用來對源隱藏狀態進行多頭關注,另外為了在解碼器預測目標序列時保持下文單詞的不可見狀態加入了掩碼操作。Transformer架構如圖1所示。

從模型的框架結構可以看出Transformer的關鍵組件是自注意力機制。與CNN相比,使用自注意力機制明確地利用了全局依賴關系,但是Transformer還存在訓練速度緩慢的問題,其中一個關鍵原因是自注意力機制需要所有的目標來計算注意力圖。

2改進的自注意力機制

本文的改進方法首先結合圖像目標區域的絕對位置、相對位置和空間關系,進一步捕捉目標區域上下文信息;其次為解決Transformer忽略圖像區域的局部性而引入噪聲的問題,采用權重較高的部分目標區域計算注意力圖,通過修改式(1)中的注意力權值矩陣,提出了綜合幾何關系的稀疏自注意力機制。

2.1絕對位置信息

絕對位置能夠使模型知道重要的目標區域的位置信息。當兩個目標區域存在相似的外觀特征,可通過絕對位置信息區分這兩個目標。因此對于圖像中的每個目標區域Bi(xmin, ymin, xmax, ymax),通過矩陣嵌入的方式獲取其絕對位置特征,計算方式如下:

A(i)=BiWemb(6)

其中:i代表區域的編號;(xmin,ymin)和(xmax,ymax)分別代表區域的左上角點坐標和右下角點坐標;Wemb∈d×4為權重矩陣;d為特征的維度。

2.2相對位置信息

為了更好地集成視覺特征的相對位置信息,本文根據邊界框的幾何結構添加相對位置信息。一個目標區域的邊界框可以表示為(x,y,w,h),其中x、y、w和h表示該框的中心坐標及其寬度和高度。因此,對于Bi和Bj,本文可以將它們的幾何關系表示為一個四維向量R(i,j):

R(i,j)=log|xi-xj|wi,log|yi-yj|hi,logwiwj,loghihjT(7)

因此相對位置的幾何注意權重可由下式計算得到:

Rw(i,j)=ReLU(Emb(R(i,j))WG)(8)

其中:Emb(·)是按照文獻[16]所采用的三角函數位置編碼算法計算每個R(i,j)值,然后與一個權重矩陣WG相乘并投影為標量來表達兩個區域的相對位置關系的權重。

2.3區域的空間關系

通過分析目標區域的空間關系,可以進一步細分這些區域之間的關系。文獻[18]模型使用了三個Transformer子模型,以編碼目標區域之間的空間關系并解碼不同的區域信息,但是該文獻只考慮了查詢(query)和鍵(key)之間的空間關系。本文進一步擴展了關系類型,提出了父類、子類和相鄰類三種關系。采用式(9)計算區域Bi和Bj空間關系并構建三個相應的鄰接矩陣來標記區域關系。其中,area表示區域面積,ε是閾值。當滿足式(9)中第一個條件時,區域Bi是Bj的父類,記為3;滿足第二個條件時,區域Bi是Bj的子類,記為1;否則區域Bi和Bj僅為相鄰關系,記為2。

再根據式(9)提取并構建父類、子類和相鄰類的鄰接矩陣{Ωp,Ωc,Ωc},進一步將其嵌入到每個子Transformer中的空間硬注意力,使得每個子Transformer對應一種關系,以突出強調這一種關系的特征。

Ω(Bi,Bj)i≠j=3area(Bi)lt;area(Bj)andarea(Bi∩Bj)area(Bi)≥ε

1area(Bi)gt;area(Bj)andarea(Bi∩Bj)area(Bi)≥ε

2otherwise(9)

2.4基于綜合幾何關系的稀疏自注意力機制

提取目標區域的絕對位置信息、相對位置信息和空間關系信息后,本文修改了式(3)中head的計算方法。首先使用絕對位置信息修改了查詢Q和鍵K的值,即在查詢和鍵上都加上絕對位置信息的特征,其次利用相對的位置信息來調整注意力的權重,最后根據空間區域構建的三類鄰接矩陣突出每一種空間關系,公式如下:

head(x)=self_attention(Q,K,V,A,R)=

Ωi softmax(Q+A)(K+A)Tdk+RV(10)

其中:A是絕對位置信息編碼;R是相對位置信息編碼;Ωi∈

{Ωp,Ωc,Ωn};V表示值;dk為值的維度。

進一步地,為了解決Transformer忽略圖像區域的局部性而引入噪聲的問題,本文提出采用稀疏自注意力機制計算注意力圖的方法。將得到的注意力權重降序排序,實驗結果證明保留前50%的目標區域參與softmax計算效果最佳,剩下的目標區域的權重值設置為負無窮,這樣處理的結果不僅保證了遠程依賴關系的建模能力,還可以加速模型的訓練速度。計算公式如下:

head(x)=self_attention(Q,K,V,A,R)=

Ωi softmaxτk(Q+A)(K+A)Tdk+RV(11)

其中:τn表示注意力權重排序算法。

因此,改進的自注意力機制算法結構如圖2所示。本文的解碼器參照文獻[18],由一個一層LSTM層和一個Transformer解碼層組成。LSTM層相當于一個存儲模塊,Transformer層通過自注意力機制推斷出圖像中與文字最相關的區域。解碼器是加寬的解碼器,即解碼器中包含三個Transformer,這樣每個子Transformer都可以隱式地從不同關注角度解碼目標區域。本文的整體模型架構如圖3所示。

2.5損失函數

為了得到模型的最優參數θ*,以交叉熵損失函數作為目標函數進行訓練:

θ*=argmaxθ∑Tt=1log p(y*t|I,y*1:t-1;θ)(12)

其中:標準譯文為y*1:T;I表示為編碼器提取到的圖像特征;θ表示為模型需要優化的參數。

然后使用自我批評訓練方法[13]訓練優化不可微的評價指標CIDEr,其中梯度更新策略可以用下式表示:

θLRL(θ)=-1n∑ni=1(r(yi1:T)-b)θlog p(yi1:T;θ)(13)

b=1n∑ir(yi1:T)(14)

其中:n為波束搜索中的超參數波束大小,它能提高解碼階段輸出翻譯結果的質量;r(·)是計算目標句CIDEr分數所得的獎勵值;b是當前模型在測試階段生成詞的獎勵值,是解決高方差梯度估計所加的約束,即在每個時間步t從返回的獎勵中減去測試階段產生的獎勵值作為更新策略的實際獎勵,從而避免迭代一直朝著錯誤方向進行,加速收斂速度。因此式(13)的含義是在每個時間步t解碼時,如果當前生成的詞比測試階段生成的詞好,即獎勵值更高,那么整個梯度式子的值為負數,則函數趨向于較小函數值的參數點處,從而會提高該詞被選中的概率,降低其他詞被選中的概率。

3實驗結果與分析

3.1數據集及評價指標

本文實驗數據集采用了MSCOCO,該數據集含有123 287張圖像,每張圖像有五個人工標注文本。按照Karpathy等人[6]的劃分方法將數據集劃分為訓練集、驗證集和測試集,分別包含113 287、5 000和5 000個圖像。對標注文本丟棄了出現次數少于4的單詞,最終的詞匯量大小為10 369個。評價指標使用BLEU、METEOR、ROUGE-L、CIDEr和SPICE。

3.2參數設置

本文采用基于ResNet101的ImageNet數據集預訓練模型再進一步使用VisualGenome數據集訓練Faster-RCNN模型。對每張圖像檢測10~100個目標區域并對其邊界進行歸一化后計算空間圖矩陣。其中RPN生成的目標邊界框使用NMS丟棄IoU超過0.7的重疊邊界框,然后使用分塊池化網絡(RoI pooling)將候選識別區域轉換為相同的大小維度;預測每個識別區域的類標簽時進一步丟棄了類預測概率低于0.2的所有邊界框,最后每個區域生成一個2 048維的特征向量,這些特征向量作為Transformer模型的輸入。

Transformer的頭部數量設置為8,編碼器層數為3層,每層有3個子Transformer。首先使用交叉熵損失函數訓練本文模型30次,初始學習率為2.0×10-4,每隔3次迭代學習率降0.8倍,優化函數為Adam,批大小為10。然后使用強化學習的自我批評訓練方法繼續訓練模型30次以解決曝光偏差問題,學習率為2.0×10-5。最后模型提取的圖像特征維度為1 024,詞嵌入維度為1 024,LSTM的隱層向量維度為1 024。評估模型時波束搜索范圍參數k設置為3。

3.3稀疏自注意力機制中超參n的選取實驗

稀疏自注意力機制的唯一調整參數就是n值,本文在相同的硬件、模型超參和數據集規模條件下,實驗確定了最佳的n值,實驗結果如表1所示。從表1可以看出,當n=0.5時,即保留前50%的目標區域參與注意力機制計算效果最佳;當n=0.3和n=0.4時,由于參與計算的目標區域過少,所以性能不佳;而當n=0.6和當n=0.7時,又由于參與計算的圖像區域過多,會引入噪聲導致性能變壞。

3.4標注性能

為驗證本文模型的標注性能,與當前具有代表性圖像自動標注模型Att2all[13]、Bottom-up Top-down[9]、文獻[5]、Object_TF[17]、文獻[4]和ImageTF[18]進行對比實驗。

通過表2的對比結果可以看出本文模型性能最優,BLEU1、BLEU4、METEOR、ROUGE-L、CIDEr、SPICE等指標分別比模型中最好的文獻[18]提升了0.2、0.7、0.1、0.3、1.2和0.4。其中Att2all模型使用了強化學習的方法解決訓練時指標不對等和曝光偏差問題,但并沒有考慮到如何強化圖像的視覺特征;Bottom-up Top-down使用細粒度目標提取來增強模型細粒度標注能力,但并沒有建立圖像區域之間的聯系;文獻[5]引入圖像間的視覺相似性和文本相似性信息,從而在預測圖像的文本描述時保持相似圖像的有效語義信息;Object_TF采用了相對位置關系對每個區域設置相對權重,但考慮得不夠全面,本文結合目標區域的絕對位置、相對位置和空間關系的自注意力機制能夠提取更詳細與全面的視覺表示;文獻[4]提出了一種結合引導解碼和視覺注意力機制的雙層LSTM網絡的圖像語義描述模型,提高了模型的精度和泛化能力,而本文采用Transformer模型在語義特征提取能力上比LSTM效果要好;ImageTF采用了加寬的Transformer模型以達到和原始Transformer模型同樣的性能,而本文通過注意力層權重矩陣的稀疏化能夠減少噪聲影響,加快訓練速度。實驗結果表明,本文模型提出的綜合幾何關系的稀疏自注意力機制能夠提升圖像自動標注的性能。

3.5消融實驗

將ImageTF模型作為基線模型,分別對綜合幾何關系的自注意力機制和結合稀疏化的兩種模型進行了消融實驗,前一個模型記為ImageTF_CR,第二個模型記為ImageTF_CR_P。采用交叉熵損失函數對三種模型訓練30次,實驗結果如表3所示。從表3結果可以看出,與基線模型相比,ImageTF_CR和ImageTF_CR_P各項評價指標均有改善。ImagTF_CR相比基線模型CIDEr和BLEU4提升明顯,ImageTF_CR_P相比基線模型除了CIDEr和BLEU4提升顯著外,BLEU1、SPICE和ROUGE-L也有明顯的提升。說明本文提出的綜合幾何關系稀疏自注意力機制切實能夠使模型學習到圖像各個區域的相對關系,稀疏化可以過濾掉噪聲的影響,提高圖像的局部性特征,從而提高圖像自動標注模型的性能。

3.6圖像自動標注模型可視化示例

為了更好地評估編碼的視覺表示,本文在圖4中可視化了解碼步驟中每個視覺特征對模型輸出的貢獻。從圖4中可以看到,使用基模型和本文方法在生成單詞時都能夠注意到相應的區域。但是本文方法的結果更為準確一些,當模型生成單詞“large”和“baby”時,它可以注意到相應的區域,提供了更為細粒度的分割。

3.7圖像自動標注模型預測示例

表4是使用本文模型對圖像自動標注的部分示例。其中示例1正確推斷出對象之間的關系類型,準確地描述了女士坐在椅子上抱著泰迪熊而不是泰迪熊在女士的旁邊;示例2和4表明了本文模型能夠更加細化提取到的特征能消除噪聲影響,即女士拿的是綠色的香蕉而不是一串水果,小男孩是在用牙刷刷牙而不是嚼東西;示例3表明本文模型具有更好的計數能力。

4結束語

針對基于Transformer框架的圖像標注任務中提取視覺特征容易引入噪聲問題且為了進一步提高視覺的上下文信息,提出了基于綜合幾何關系稀疏自注意力機制的圖像自動標注方法。結合目標區域的絕對位置、相對位置和空間關系的自注意力機制能夠提取更詳細與全面的視覺表示;注意力層權重矩陣的稀疏化能夠減少噪聲影響,加快訓練速度。實驗表明,本文方法有效提升了圖像自動標注的性能。在下一步工作中,解碼器的交叉注意層引入本文的綜合幾何注意力機制,以期進一步提升標注性能。

參考文獻:

[1]Vinyals O, Toshev A, Bengio S, et al. Show and tell: a neural image caption generator[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:3156-3164.

[2]吝博強,田文洪.基于層次注意力機制的高效視覺問答模型[J].計算機應用研究,2021,38(2):636-640.(Lin Boqiang, Tian Wenhong. Efficient image question answering model based on layered attention mechanism[J].Application Research of Computers,2021,38(2):636-640.)

[3]Johnson J, Hariharan B, Van Der Maaten L, et al. CLEVR: a diagnostic dataset for compositional language and elementary visual reasoning[C]//Proc of IEEE Conference on Computer Vision and Pattern Recog-nition.Piscataway,NJ:IEEE Press,2017:2901-2910.

[4]馬坤陽,林金朝,龐宇.結合引導解碼和視覺注意力的圖像語義描述模型[J].計算機應用研究,2020,37(11):3504-3506,3515.(Ma Kunyang, Lin Jinzhao, Pang Yu. Image semantic description model based on guided decoding and visual attention[J].Application Research of Computers,2020,37(11):3504-3506,3515.)

[5]劉暢,周向東,施伯樂.圖像語義相似性網絡的文本描述方法[J].計算機應用與軟件,2018,35(1):211-216,231.(Liu Chang, Zhou Xiangdong, Shi Bole. Image caption based on image semantic simila-rity network[J].Computer Applications and Software,2018,35(1):211-216,231.)

[6]Karpathy A, Li Feifei. Deep visual-semantic alignments for generating image descriptions[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:3128-3137.

[7]王難尋.基于高層語義的圖像描述生成模型研究[D].合肥:合肥工業大學,2020.(Wang Nanxun. Research on image captioning models based on high-level semantics[D].Hefei:Hefei University of Technology,2020.)

[8]Fang H, Gupta S, Iandola F, et al. From captions to visual concepts and back[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:1473-1482.

[9]Anderson P, He Xiaodong, Buehler C, et al. Bottom-up and top-down attention for image captioning and visual question answering[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2018:6077-6086.

[10]Hu Han, Gu Jiayuan, Zhang Zheng, et al. Relation networks for object detection[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:3588-3597.

[11]Yang Xu, Tang Kaihua, Zhang Hanwang, et al. Auto-encoding scene graphs for image captioning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:10685-10694.

[12]肖雨寒,江愛文,王明文,等.基于視覺—語義中間綜合屬性特征的圖像中文描述生成算法[J].中文信息學報,2021,35(4):129-138.(Xiao Yuhan, Jiang Aiwen, Wang Mingwen, et al. Chinese ima-ge captioning based on middle-level visual-semantic composite attri-butes[J].Journal of Chinese Information Processing,2021,35(4):129-138.)

[13]Rennie S J, Marcheret E, Mroueh Y, et al. Self-critical sequence training for image captioning[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:7008-7024.

[14]Liu Daqing, Zha Zhengjun, Zhang Hanwang, et al. Context-aware visual policy network for sequence-level image captioning[C]//Proc of the 26th Annual International Conference on Multimedia.New York:ACM Press,2018:1416-1424.

[15]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing.New York:Curran Associates Inc.,2017:6000-6010.

[16]Sharma P, Ding Nan, Goodman S, et al. Conceptual captions: a cleaned, hypernymed, image alt-text dataset for automatic image captioning[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.2018:2556-2565.

[17]Herdade S, Kappeler A, Boakye K, et al. Image captioning: transforming objects into words[EB/OL].(2019).https://arxiv.org/abs/1906.05963v2.

[18]He Sen, Liao Wentong, Tavakoli H R, et al. Image captioning through image transformer[EB/OL].(2020-04-29)[2020-10-02].https://arxiv.org/abs/2004.14231v1.

[19]Tang Gongbo, Müller M, Rios A, et al. Why self-attention?A targeted evaluation of neural machine translation architectures[EB/OL].(2018-08-27)[2018-09-11].https://arxiv.org/abs/1808.08946.

收稿日期:2021-07-29;

修回日期:2021-09-21

基金項目:延邊大學世界一流學科建設培育項目(18YLPY14);國家社會科學基金重大資助項目(18ZDA306);延邊大學外國語言文學世界一流學科建設攻關科研項目(18YLGG01)

作者簡介:李艷(1996-),女(朝鮮族),吉林圖們人,主要研究方向為機器感知;金小峰(1970-),男(通信作者)(朝鮮族),黑龍江東寧人,教授,碩導,碩士,主要研究方向為機器感知(xfjin@ybu.edu.cn).

主站蜘蛛池模板: 91精品国产福利| a级毛片一区二区免费视频| 无码高清专区| 日韩精品亚洲人旧成在线| 日韩乱码免费一区二区三区| 色噜噜狠狠狠综合曰曰曰| 免费国产好深啊好涨好硬视频| 国产综合无码一区二区色蜜蜜| 国产网站免费看| 欧美成人日韩| 国产成人夜色91| 国产交换配偶在线视频| 色综合久久无码网| 欧美日韩一区二区三区在线视频| 欧美日韩成人在线观看| 日韩福利在线视频| 国产精品高清国产三级囯产AV | 亚洲娇小与黑人巨大交| 国产青青草视频| 天天躁夜夜躁狠狠躁图片| 亚洲日韩在线满18点击进入| 亚洲av色吊丝无码| 国产乱子伦视频在线播放| 成人国产免费| 亚洲色图欧美视频| 久久人妻xunleige无码| 99久久免费精品特色大片| 亚洲人成高清| 免费观看欧美性一级| 色婷婷丁香| 国产主播喷水| 国产99在线| 人妻出轨无码中文一区二区| 狠狠色狠狠色综合久久第一次| 欧美天堂在线| 制服无码网站| 一级毛片免费不卡在线| 在线亚洲精品自拍| 国产第三区| 国产门事件在线| 欧美成人日韩| 一本久道久久综合多人| 91麻豆国产在线| 欧美午夜一区| 91麻豆国产在线| 中文字幕不卡免费高清视频| 久久久久久久久亚洲精品| 26uuu国产精品视频| 国产精品视频免费网站| 国产精品青青| 午夜激情福利视频| 亚洲国产综合自在线另类| 又爽又黄又无遮挡网站| 国产一区三区二区中文在线| 91精品国产自产在线观看| 亚洲 欧美 日韩综合一区| 无遮挡国产高潮视频免费观看| 色综合综合网| 色婷婷丁香| 久操中文在线| 国产情侣一区| 国产免费a级片| 人妻免费无码不卡视频| 婷五月综合| 亚洲天堂福利视频| 五月婷婷综合网| 国产办公室秘书无码精品| 成人福利免费在线观看| 日韩天堂在线观看| 久久人体视频| 亚洲一区二区在线无码| 伊人五月丁香综合AⅤ| 亚洲毛片一级带毛片基地| 国产精品三级av及在线观看| 国产黄色片在线看| 国产麻豆精品在线观看| 欧美第一页在线| 亚洲一区二区视频在线观看| 黄色a一级视频| 久久无码高潮喷水| 午夜不卡视频| 国产成人区在线观看视频|