999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于小樣本學習和語義信息的圖像描述模型

2021-08-20 04:54:30王會勇盧超張曉明
計算機工程 2021年8期
關鍵詞:單詞信息模型

王會勇,盧超,張曉明

(河北科技大學信息科學與工程學院,石家莊 050000)

0 概述

圖像描述模型的主要工作是根據圖像的內容生成對圖像的描述語句,需要識別圖像中的對象,另外還要考慮所生成描述語句的語法正確性,以接近人類的描述結果。主流的圖像描述方法傾向于采用編碼器-解碼器模式的端到端神經網絡模型[1]。通常使用基于卷積神經網絡(CNN)的結構將圖像編碼成特征向量,然后使用長短期記憶(LSTM)網絡對該向量解碼生成描述。這些模型通常建立在大量由圖像-描述對構成的數據集上,如微軟COCO(Microsoft Common Objects in Context)數據集[2],并且通常依賴在相同數據集上訓練的目標檢測器只能識別固定類別的對象。將這些目標檢測器和描述模型訓練集之外的對象稱為集外對象(Out of Dataset,OOD)。傳統的目標檢測器在不經調整和額外訓練的情況下,往往無法有效識別集外對象,因此依賴這些檢測器的圖像描述模型難以描述集外對象,阻礙了這些模型在現實場景中的泛化。另外,這些集外對象也沒有對應的人工編寫的描述語句供模型進行學習,圖像描述模型在訓練時就無法學習到如何對這些對象及所處的場景進行描述,難以生成正確的語句。因此,要對集外對象進行描述,需要解決2 個問題:即如何使圖像描述模型識別出集外對象;在圖像描述模型未對集外對象進行過描述訓練的情況下,如何為該對象生成恰當的描述。

小樣本目標檢測器屬于小樣本學習領域的一個新分支。利用包含集外對象的少量示例圖像作為樣本(一般為1~10 張),檢測器就可以識別出這些新對象。相較于傳統目標檢測器,可識別的對象不再局限于訓練集中那些固定的類別,而且不需要額外的訓練,為圖像描述模型識別集外對象提供了途徑。

知識圖譜作為一個龐大的資源,以三元組的形式提供了豐富的事實和知識,如果能夠有效利用,則能為自然語言處理任務提供幫助。根據知識圖譜提供的與新對象相近實體的語義信息,可以幫助描述模型計算上下文語義信息,明確語句中使用的單詞,從而幫助模型生成質量更好的語句。

本文提出一種新的模型可以對集外對象進行描述。對于給定圖像,采用Resnet101[3]網絡提取視覺特征,同時使用小樣本目標檢測器識別新對象,后根據識別出來的對象類別標簽查詢相關的知識圖譜信息,并將與新對象相關的實體和LSTM 的當前隱藏狀態作為其輸入,最終得到對圖像的描述。

1 相關研究

1.1 圖像描述模型與新對象描述

目前圖像描述方法主要利用端到端的序列模型來產生符合一定句法結構的句子。文獻[4]提出CNN+RNN 架構,該架構利用LSTM 逐字生成句子。文獻[5]通過整合軟、硬注意力機制進一步擴展了文獻[4]的工作,在生成相應的單詞時自動關注圖像內的顯著區域。此外,不同于文獻[5]的工作中解碼階段每個時刻都要計算圖像上的注意力,文獻[6]設計了自適應注意力機制以決定何時依賴視覺信息。文獻[7]通過自下而上和自上而下2 種注意機制來增強生成語句的質量。另外,還有一些研究通過結合語義信息來改進圖像描述模型,如文獻[8]為語義信息添加注意力來提升圖像描述的能力。為進一步挖掘圖像中的信息,文獻[9]提出基于高級圖像特征的方法,同時結合了圖像質量這種低級圖像特征和動作分類以及面部識別這些高級圖像特征。文獻[10]提出一種結合圖片場景因素的圖像語義理解模型,以解決當前圖像描述模型中描述錯誤或忽略場景的問題。考慮語句的語法信息,文獻[11]提出使用句子的詞性標簽的方法來幫助模型確定是否需要某個單詞,提高了單詞的選擇效率。結合最近NLP 的研究趨勢,Transformer 結構在某些任務中性能優于LSTM 等傳統循環神經網絡,因此文獻[12]使用Transformer 替代傳統圖像描述模型中的LSTM 解碼器來提升模型的能力。表1 所示為不同模型在BLEU4[13]和METEOR[14]評測標準下的實驗結果。

表1 傳統圖像描述模型的評測結果Table1 Evaluation results of traditional image caption models %

盡管最近基于深度學習的圖像描述方法取得了較好的結果,但它們在很大程度上依賴于數據集。這些類型的方法能生成數據集中已有對象的描述,但如果在測試集中遇到集外對象,則難以生成相應的描述。因此,該方法需要大量圖像-描述對用來訓練模型,可識別新對象的圖像描述模型,希望能夠在面對訓練數據集中不存在的新對象時也可以生成良好的描述。

可識別新對象的圖像描述方法一般先將圖像描述訓練數據集中的圖像-描述對拆分,分別基于圖像數據和描述數據訓練單獨的對象目標檢測器(或可能增加標簽分類器)和語言模型(基于RNN),然后兩部分相結合進行聯合訓練,可以對遇到的新對象進行描述。本文所提出的方法與之類似,采用小樣本目標檢測器識別圖中的對象,基于LSTM 結構生成描述,但是可識別的對象類型范圍不再受限于檢測器的可識別范圍。

文獻[15]提出了DCC(Deep Compositional Captioner)模型,結合對圖像的多標簽分類器,描述了可以生成訓練集中不包含的對象。為更好地接收對象的標簽,文獻[16]提出一種復制機制來生成新對象的描述。該方法使用單獨的目標檢測為新對象進行分類,在體系結構添加了一個新網絡,用于接收目標檢測器識別出來的對象,并將它們與LSTM 合并以生成描述,文獻[17]在此基礎上提出一種新的復制機制,使用指針網絡將新對象標簽復制到描述語句中,提高了模型可用的詞匯量。與上述方法不同,文獻[18]提出依據模板輸出描述,然后用填入對象標簽的方法來保證對象標簽的接收,并且使用Resnet101 網絡提取視覺特征,因此模型對新對象識別的平均F1 值較基線模型提高了9.4 個百分點。表2 所示為模型的實驗測評結果。

表2 可識別新對象的圖像描述模型評測結果Table 2 Evaluation results of image caption models that can identify novel objects %

相較于表1 的模型,表2 中的模型需要關注模型對新對象的識別能力,因此加入了對圖像中對象的平均F1 值(AVG F1)的測評,而基本不再提供BLEU4 結果。另外,因為需要分割一部分圖像用來測試對新對象的描述能力,模型可用的訓練數據變少,并且受目標檢測器檢測能力的影響,可識別新對象的圖像描述模型的描述能力有所下降。

1.2 運用知識圖譜的圖像描述模型

知識圖譜中包含大量的事實知識,一般用三元組(h,r,t)來表示,h表示頭實體,t表示尾實體,r表示2 個實體之間的關系。常見的知識圖譜有DBpedia[19]、ConceptNet[20]等。通過表示學習的方法生成三元組的向量,以這種形式為圖像描述模型提供外部知識。CNet-NIC[21]使用YOLO9000[22]作為對象識別的模塊,經過訓練可以識別9 000 個對象類別,使用ConceptNet作為外部知識圖譜來獲取與對象相關的背景知識。描述對象識別模塊在圖像中找到對象,根據各個對象檢索兩組相關詞。然后將得到的詞提供給經過預訓練的RNN模塊,以獲得相關詞語的對應向量空間嵌入,METEOR得分為25.6%,較基線模型提高了0.4 個百分點。文獻[23]給定具有關聯標簽和其他數據(例如地理位置標簽等數據)的圖像,將圖像輸入描述模板生成器,對于生成器生成的包含占位符的描述語句,根據實體類型和頻率選擇使用合適的候選詞進行填充,利用來自社交媒體的社會與體育事件生成數據集,在其數據集上的METEOR 得分為11.0%,較基線模型提高了1.1 個百分點。KGA-CGM(Knowledge Guided Attention-Caption Generation Model)模型[24]用于在知識圖譜的支持下為訓練集中不包含的對象(但包含在目標檢測器的訓練集中的對象)生成描述。KGA 的核心目標是將外部語義注意力引入描述生成模型中,通過外部語義信息提高模型的描述能力,F1 得分為35.8%,提高了2.2個百分點,準確率達到34.2%,提高了3.1個百分點。另外,文獻[25]采用TransE[26]方法來學習主語到賓語之間的轉換嵌入,TransE 是知識圖譜中常用的表示學習方法,該模型關注于對象之間關系的檢測,較其基線模型BLEU4 值提高了7 個百分點。

包括上述模型在內,過去所謂的對新目標進行圖像描述的模型都普遍依賴于在完整數據集上預訓練過的目標檢測器,所以在進行描述時出現的對象對于目標檢測器不能算是集外對象。集外對象與訓練集對象的范圍關系如圖1 所示。

圖1 集外對象與目標檢測器訓練集中對象的范圍關系Fig.1 Scope relationship between objects out of the dataset and objects in the train set of the object detector

超出了之前訓練時數據集的范圍,即進入到集外對象的范圍內,也就超出了檢測器的認知范圍,對這些集外對象無法準確識別,進而圖像描述模型的能力也會隨之下降。而傳統模則需要重新訓練目標檢測器,才能使目標檢測可識別的類別范圍擴大,之后還要再訓練圖像描述模型。在目前沒有解決深度學習模型訓練時對設備算力的依賴前提下,重新訓練無疑需要付出額外成本,這限制了圖像描述模型的泛化能力。本文使用基于小樣本學習的目標檢測器[27],該檢測器與其他小樣本學習方法[28]類似,可以根據提供的少量樣本來識別出集外對象,而無需重新進行大量的訓練,提高了對新對象描述的能力。同時,使用來自知識圖譜與圖像中對象相關的實體信息作為背景語義信息,提升模型所生成描述的質量。

本文的主要貢獻如下:

1)將小樣本目標檢測器嵌入到圖像描述模型中來幫助識別集外對象。構建了one-shot COCO 和one-shot FSOD 數據集,每個類別的對象都有一張包含該對象的圖像相對應,為小樣本目標檢測器識別數據集中的對象提供了參考樣本。

2)提出使用知識圖譜來幫助對集外對象進行描述的方法。通過查找知識圖譜中與集外對象(語義)相近的實體,結合注意力機制,幫助模型確定描述語句生成的各個時刻上需要輸出的單詞。

2 圖像描述模型

本文提出的圖像描述模型的具體實現細節及訓練流程,包括如何使用小樣本目標檢測器,以及知識圖譜提供的相關實體信息。描述模型的整體結構如圖2 所示。該模型采用編碼器-解碼器結構,編碼器是在ImageNet上進行過預訓練的Resnet101 網絡,解碼器使用了LSTM 網絡。分別是代表描述開始和結束的特殊符號,LSTM 網絡接收到符號后,會開始生成語句,每輸出一個單詞,就會進入下一時刻,直到模型判斷應該輸出符號為止。編碼器對圖像進行特征提取,小樣本目標檢測器通過將樣本與圖像進行對比,判斷出所包含的對象,然后在知識圖譜中查詢出與該對象相關的實體,通過注意力機制確定與LSTM 當前隱藏狀態相對應的參考詞供解碼器使用。例如,小樣本目標檢測器在輸入圖像中檢測到樣本圖像中的對象,即“horse”,然后模型將在提供相關背景知識的KG 中查詢與“horse”語義上相近的詞,得到“zebra”“carriage”等實體,這些實體詞與“horse”共同組成參考詞供LSTM 使用。在LSTM 接收參考詞之前,需要根據注意力機制提供的權重來確定參考詞的重要性,確定與當前狀態最相關的參考詞。每個輸入圖像I,都有5個樣本語句S作為參考,S={w1,w2,…,wN},wi表示參考語句中的第i個單詞。

圖2 圖像描述模型的總體結構Fig.2 Overall structure of image description model

2.1 小樣本目標檢測

本文使用文獻[27]提出的小樣本目標檢測器,該檢測器以faster-RCNN[29]為基礎,使用一張包含待檢測對象的圖像作為樣本,與輸入的圖像分別提取圖像特征,通過圖像特征的比較,判斷輸入圖像中是否包含樣本圖像中的對象,并給出置信度,用以說明檢測器對這一結果的把握程度。圖3右側為樣本圖像,包含的對象為“bicycle”,左側為輸入圖像檢測后得到的結果。本文使用檢測器的結果為語言模型提供對象的類別標簽信息。

圖3 小樣本目標檢測器檢測結果(左)與樣本圖像(右)展示Fig.3 Detection result(left)and sample image(right)of the few-shot object detector

2.2 輸入圖像的特征

Resnet101 網絡原本是用于圖像分類的模型,包含101 層CNN 網絡,因為其良好的泛化性能,本文采用這個網絡作為圖像描述模型的編碼器,保留Resnet101 前半部分的網絡主體結構,剔除其作為圖像分類器的功能,從而利用其提取圖像特征的能力。將待描述的圖像作為編碼器的輸入,將圖像特征編碼為固定維度的張量輸出給解碼器,供其生成圖像描述使用。

2.3 對象相關實體的信息

本文參考文獻[23]的方法,使用DBpedia Spotlight 工具進行實體抽取,DBpedia Spotlight 是用來對自然語言文本進行DBpedia 資源注釋的工具,提供了對命名實體識別、名稱解析以及其他信息提取任務有用的功能。使用DBpedia Spotlight 從COCO 數據集中的圖像描述中自動提取812 個不同的實體標簽。然后利用Rdf2vec[30]工具為每一個實體標簽生成對應唯一的向量,向量的維度為500。將這些實體從文本映射到向量空間中,以通過向量化的形式表示語義信息,具有相關語義信息的實體向量在向量空間中有著相近的分布。這些語義向量與由文本計算得到的GloVe[31]詞向量同樣帶有語義信息,但是實體向量的生成中包含了知識圖譜中相互關聯的三元組之間的語義信息,可以補充GloVe 的能力,而LSTM 在逐個生成描述語句中的單詞時,就是依賴于單詞之間的語義信息,判斷單詞之間的相關性,確定當前需要輸出的單詞。通過計算圖像中對象的向量和實體向量的相似度,得到與對象最接近的5 個實體向量,這些向量所對應的實體,即為對象的相關實體。

圖像描述模型使用注意力機制來整合三元組中的實體信息Kt。首先計算各個實體向量與LSTM 模型的隱藏狀態的注意力得分g,計算公式如式(1)所示:

其中:ei表示相關實體(entity)的向量;ht表示LSTM層的隱藏狀態矩陣;Whe是ei的轉換矩陣,將實體向量轉化為和LSTM 層隱藏狀態相同的尺寸;t代表描述生成過程中的某一時刻。實體在當前時刻的注意力權重信息由基于softmax 的式(2)計算得到:

其中:L表示相關實體的數目;t代表描述生成過程中的某一時刻。最后將注意力權重與對應的實體向量相乘,由式(3)計算當前時刻所需實體信息:

其中:αti表示第t時刻實體的權重信息;ei表示第i個實體向量;L表示相關實體的數目。

為了給圖像描述模型提供更豐富的語義信息,本文使用自然語言處理工具NLTK 中的WordNet包,查找到數據集中的每個對象類別的近義詞集,利用WordNet包中自帶的path_similarity、Leacock-Chodorow Similarity、Wu-Palmer Similarity3 種語義相似度計算策略,分別為每個對象類別提供了3 種計算策略下的5 個同義詞。來自WordNet同義詞使用GloVe 詞向量表示,同樣結合注意力機制來進行整合。但與實體信息不同的是,將使用WordNet相似度計算得到的結果作為該同義詞的基本權重。圖像描述模型所使用的來自WordNet的同義詞信息D由式(4)計算:

其中:si表示同義詞的向量;βi表示第i個同義詞的權重;L表示同義詞的數目。同義詞權重信息由基于softmax 的式(5)對基礎權重計算得到:

其中:ni表示同義詞的基礎相似度;L表示同義詞的數目。將知識圖譜的實體信息和WordNet 的同義詞信息送入解碼器供描述模型使用。

2.4 基于LSTM 的解碼器

為了接收并處理生成描述所需的信息,文本設計一種基于LSTM 網絡的解碼器。用于生成描述的解碼器如圖4 所示。其中,Wi是上一時刻生成的單詞,BOS 是語句的起始標志,而EOS 是結束標志,Ci表示由式(1)計算得到的來自知識圖譜的相關實體信息,Pt是當前時刻輸出的單詞對應的概率值,yt是t時刻輸出的單詞,J表示句子的長度,D表示同義詞信息。

圖4 基于LSTM 的描述生成模塊Fig.4 LSTM-based description generation module

LSTM 網絡解碼器方法如下:

1)由編碼器得到的圖像特征與由小樣本目標檢測器得到的對象標簽向量進行拼接,輸入到第1 層LSTM 網絡中。

2)將輸出結果與來自知識圖譜的實體信息進行拼接,輸入到第2 層LSTM 網絡中。

3)將上一步輸出結果與上一時刻輸出的單詞向量進行拼接,輸入到第3 層LSTM 網絡中。

4)第3 層LSTM 網絡的輸出結果,輸入到softmax 層進行計算,為整個詞典上的單詞計算概率,概率最高的單詞即為模型所預測的當前時刻應該輸出的單詞。

5)輸出當前時刻的單詞之后,將LSTM 層當前的狀態信息送入下一時刻,準備計算下一時刻的單詞,直到模型預測的輸出單詞為結束符號。

圖像描述模型在t時刻輸出的單詞對應的概率經過式(6)~式(8)依次計算得到:

其中:It是來自CNN 的圖像特征,即圖5 中的Visual feature;B是對象的標簽信息,即圖5 中的是第1 層LSTM 上一時刻的隱藏狀態;⊕表示將向量進行拼接是第1 層LSTM 的輸出結果。

其中:ct是對象的相關實體信息;D是同義詞信息;Wct是對ct和D的拼接結果的轉換矩陣是第2層LSTM上一時刻的隱藏狀態是第2 層LSTM 的輸出結果。

其中:wt-1是上一時刻的輸出單詞是LSTM 層上一時刻的隱藏狀態;pt是模型計算出的t時刻所有單詞的概率。模型將根據計算結果選出概率最高的單詞作為t時刻的輸出結果。圖像描述模型的目標函數如式(9)所示,其計算結果為模型的損失值,代表模型當前輸出的描述與數據集中真實描述之間的誤差。通過對模型進行優化訓練,使式(9)計算出模型的損失值達到最小。

其中:L表示描述語句的長度;yn是模型生成的語句中輸出的第n個單詞;P(yn)表示所輸出單詞對應的概率。

模型訓練時使用teacher forcing[32]方法來加速模型的訓練速度,即在訓練過程中,每個時刻模型不使用上一時刻自身輸出的單詞,而使用訓練樣本提供的真實描述中的單詞作為輸入,來預測到當前時刻所需要的單詞。為了避免teacher forcing 方法帶來的負面影響,即描述模型的泛化能力較差會影響面對集外對象時生成的描述質量,本文采用了集束搜索方法。搜索寬度為k,即每個時刻輸出預測的單詞時,保留當前累計預測概率最高的前k個語句的結果,在下一時刻分別為每個句子生成下一個單詞,最終保留所有語句中總體預測概率最高的一個作為輸出語句。

3 實驗

為測試本文提出的圖像描述模型對集外對象的描述性能,模型在COCO 訓練集上進行訓練,使用COCO 數據集和FSOD[33]的測試集進行測試。如前文所述,使用傳統的模型所用的目標檢測器,會在COCO 數據的所有類別上進行訓練,所以在COCO數據集上進行測試時不存在完全的新對象。為公平比較,本文使用基于Resnet101 的圖像描述模型作為基準,并且使用相同的數據集分割來進行訓練,然后對比模型的性能,基線模型來自文獻[5],也是本文所提出的圖像描述模型的基礎模型。

3.1 數據集

小樣本學習的關鍵在于模型對新類別的識別能力,為了訓練一個能夠檢測未知物體的模型,必須使用具有大量物體類別的高多樣性數據集。

COCO 數據集是一個龐大的數據集,用于圖像識別、分割和描述。為提供小樣本目標檢測器需要的樣本圖像,本文根據COCO 數據集的類別構建了one-shot COCO 數據集。如圖5 所示,針對COCO 中的每個類別標簽都有來自ImageNet[34]的圖像相對應,這些圖像中的主體內容即所對應類別的對象,不會包含太多背景畫面,以避免太多干擾信息影響目標檢測器的識別。圖5 中的Labels 就是COCO 數據集中對象的類別標簽。使用小樣本目標檢測器來識別圖像中的對象,根據提供的樣本圖像可適應不同類別的對象,而不需要再進行額外的訓練,能夠高效地擴大可識別對象的類別,更好地幫助圖像描述模型對集外對象進行描述。

圖5 one-shot COCO 數據集示意圖Fig.5 Schematic diagram of one-shot COCO dataset

COCO 數據集包含有限的類別,為此本文使用FSOD 數據集對模型進行后續的測試。FSOD 數據集是專門為小樣本學習而設計的,其構建目的是評估模型在新類別上的泛化能力,測試集包含200 個類別。通過在FSOD 上的測試,可以反映出基于小樣本目標檢測器的圖像描述模型面對更多類別的集外對象時的表現。

3.2 參數設置

模型使用PyTorch[35]框架來實現,運用Adam 優化方法進行訓練,初始學習率為10-3,每10 000 個batch 衰減1/2。模型都是從頭開始進行端到端的訓練,不需要額外的數據集。本文使用NLP 領域中常用的GloVe 詞向量,維度為300,將LSTM 模塊中的隱藏層維度設置為512,激活函數為sigmoid 函數。本文使用小樣本學習目標檢測器同樣運用Adam 優化器,且已經進行過預訓練,實驗中不再進行微調。模型在訓練集上總共訓練了20 個epoch,其中前13 個epoch 只訓練解碼器,之后7 個epoch 對編碼器也進行微調。對照實驗所使用的基線模型采用了相同的訓練參數。

3.3 評估指標

BLEU4、METEOR、ROUGE_L[36]和SPICE[37]通常用來評估生成的圖像描述的質量,其中,BLEU4 最早應用于機器翻譯結果的評測,根據機器生成的結果與人工標注的語句中的共現情況來計算得分;METEOR使用WordNet 提供的信息,考慮到了生成的描述與參考描述之間的同義詞、詞根和詞綴的匹配情況;ROUGE_L 主要考慮生成的描述語句中所使用單詞的召回率(Recall);SPICE 是專門用來進行圖像描述結果評價的標準,更多地考慮語義信息,使評測結果更接近人類的判斷。模型在這些評價標準上的得分越高,就表明模型的性能越好。為了保持公正性,在本文的實驗中的得分指標都是利用COCO 官方發布的代碼來計算的。另外,對于COCO數據集和不包含人工描述FSOD的圖像描述的評估,參考文獻[16,38]的方法和指標,統計描述結果中各個類別對象的F1 得分,并且結合了精確率(Precision)、召回率(Recall)和準確率(Accuracy)。具體計算如式(10)所示:

其中:Precision 表示某類對象的精確率;Recall 表示該類對象的召回率。精確率、召回率和準確率的計算公式如式(11)~式(13)所示:

其中:TP 表示被模型預測為正值的正樣本;FN 表示被模型預測為負值的正樣本;TN 表示被模型預測為負值的負樣本;FP 表示被模型預測為正值的負樣本。

3.4 結果分析

需要對比測試的項目為對圖像的描述性能、新對象的識別準確率。模型和基準采用了相同的訓練標準進行訓練。

3.4.1 在COCO 數據集上的實驗

實驗中對COCO 數據集進行了重新的劃分,并且按照訓練小樣本目標檢測器時的劃分,將COCO數據集分割為4 組(split1~split4),每組都有20 個類別,使用后3 組作為訓練集,第1 組作為測試集進行測試。訓練集中包含第1 組對象的圖像將被剔除,而測試集保持不變,包含全部類別。這樣是為了使目標檢測器和圖像描述訓練數據集保持一致。具體分組與統計如圖6 所示。

圖6 COCO 數據集類別分組Fig.6 Groups of COCO dataset categories

測試時需要模型生成對圖像的描述,并且根據新對象是否出現在描述中來判斷模型是否對圖像中的新對象進行了描述,并且統計準確率。描述語句在COCO 數據集上的描述測評結果對比如表3 所示,其中,KG 為使用知識圖譜信息,withoutKG 則只使用來自目標檢測器的標簽信息。

表3 COCO 數據集上的評測結果Table 3 Evaluation result on COCO dataset %

通過表3 的對比可以發現,本文提出的模型較基線模型在各項測評中均有所提升。在不使用來自知識圖譜的信息時,模型能力的提升來自于對小樣本目標檢測器的利用,通過接收集外對象的標簽信息,生成的描述中可以包含這些對象,提高了描述的正確性。如果使用來自知識圖譜的信息,則評測結果可以進一步提高,說明這些信息可以幫助提升描述結果的質量。因為來自知識圖譜的相關實體信息提供了當前對象以及已生成單詞的相關語義信息,可以幫助模型計算出當前時刻最適合輸出的單詞。

在COCO 數據集上的F1 得分結果對比如表4 所示,其中,Seen 表示訓練集中出現過的類別,Unseen是集外對象的結果。

表4 在COCO 數據集上的F1 值結果Table 4 F1 score on COCO dataset %

本文提出的模型在COCO 數據集上的準確率、精確率、召回率如表5 所示,其中,Seen 表示訓練集中出現過的類別,unseen 是集外對象的結果。

表5 在COCO 數據集上的準確率、精確率和召回率Table 5 Accuracy,precision and recall on COCO dataset %

由表4 和表5 可知,本文提出的模型在對新對象的描述F1 值上較基準模型提高了16.1 個百分點,在整個測試集上的平均F1 值提高了6.6 個百分點。且模型面對新對象時的準確率、精確率和召回率會低于面對已知對象,這與傳統描述模型的情況類似。由此可知,本文提出的模型在面對新對象時的描述能力相對于基線模型有所提升,但是因為新對象沒有出現在訓練集中,并且會受目標檢測器的影響,對這些對象的能力要弱于對已知對象的描述。另外,是否使用知識圖譜對結果的提升影響較小,說明對圖像中對象的準確度更多地受到小樣本目標檢測器的影響,特別是在集外對象的識別。

3.4.2 同義詞采用不同計算策略對模型的影響

來自WordNet 的同義詞信息可以提供與對象相近的語義信息,從而提升圖像描述模型的能力。為此,本文比較了WordNet 中不同語義相似度計算策略對模型描述能力的影響,3 種計算策略下同義詞對模型的影響如表6 所示(粗體為結果最優),其中,path 表示path_similarity,lch 表示Leacock-Chodorow Similarity,wup 表示Wu-Palmer Similarity 策略。

表6 3 種計算策略下同義詞對模型的影響Table 6 Influence of synonyms under three computing strategies on the model %

從表6 可以看出,模型額外使用WordNet 同義詞與只使用實體信息相比還有進一步提升。但不同的計算策略得到的最終描述結果總體差距不大,推測是因為所使用的不同同義詞之間的語義相似度較高,提供給模型的語義信息是相近的,所以最終結果也會相近。

3.4.3 測試搜索寬度對模型的影響

不同的搜索寬度(beam size)意味著模型在生成描述時,同時保留高概率的潛在輸出單詞。例如搜索寬度為3 時,模型在ti時刻保留3 個最好的待完成的語句,進入ti+1時刻分別為每個語句計算出概率最高的后續單詞,并對所有的語句進行排序,然后保留概率最高的前3 名,進入到下一時刻。為測試不同搜索寬度對模型的影響,本文設計了在COCO 數據集上運用不同搜索寬度的實驗,使用Wu-Palmer Similarity 策略下的同義詞權重。實驗結果如表7 所示(粗體為結果最優)。

表7 不同搜索寬度下的評測結果Table 7 Evaluation results under different beam size %

表7 中記錄了6 種搜索寬度下模型生成描述語句的評測結果。可以看出在BLEU4、METEOR 和ROUGE_L 3 項指標上,隨著搜索寬度的增大,模型表現更好。由于SPICE 是專為圖像描述設計的測評指標,本文的測評優先考慮SPICE。結合圖7 可以看出,搜索寬度為3 或4 時,結果最好,繼續增大搜索寬度,SPICE 結果并不會提高。另外,寬度為4 時,其他評測指標的上的表現都高于寬度為3 時的結果,綜合以上結果,在搜索寬度為4 時模型的表現最好。

圖7 不同搜索寬度下的SPICE 結果Fig.7 SPICE results under different beam sizes

在COCO 數據集為每張圖像所提供的5 句人工標注的樣本中,并不一定都會包含某個對象,這會對模型的訓練產生影響,導致模型在描述中忽略這個對象。本文剔除了這些數據,因此模型訓練時的數據集規模變小。本文使用包含20 個集外對象的完整COCO 訓練集訓練的基線模型,并使用相同的參數設置,此時BLEU4 得分可以達到30.4,使用分割后的訓練集,基線模型的BLEU4 得分為19.22,由此判斷描述模型受到訓練數據集規模的縮小的影響。

3.5 在FOSD 數據集上的對比實驗

對于FSOD 數據集,本文同樣構建了包含每個類別對象的樣本數據集。經過COCO 數據集上的訓練,模型已經具備圖像描述的能力,接下的測試重點是對集外對象的識別能力。本文對FSOD 測試集上的每個類別進行測試,每個類別得到一個準確率,通過平均200 個類別對象的分數獲得最終的F1 值為16.2%,精確率為17.6%,召回率為15.0%,準確率為16.9%。FSOD 數據集圖像內容比COCO 數據集復雜,而且對象類別數量更多,對模型的能力要求更高。圖8 所示為圖像描述模型的描述能力,對比了基線模型和本文提出的模型,搜索寬度為4,使用了知識圖譜信息和WordNet 信息,同義詞權重計算策略為Wu-Palmer Similarity。

圖8 本文模型與基線模型實驗結果對比Fig.8 Comparison between experimental results of this model and baseline model

在圖8 中,加下劃線的詞就是該圖像中對應的對象的標簽。圖8(a)中的對象是“train”,對基線模型和小樣本圖像描述模型來說都不算是新對象,所以2 個模型的描述都包含這一對象。在剩下的圖像中,“skateboard”“elephants”“refrigerator”“airplane”為新對象,所以基線模型難以描述這些對象,而小樣本圖像描述模型可以識別并生成包含這些對象的描述。

圖9 所示為模型生成描述時所采用的樣本圖像與待描述的圖像,其中圖像右側為小樣本檢測器的參考圖像。小樣本圖像描述模型通過目標檢測器的檢測,識別出圖9(a)圖像中的“pizza”,和圖9(b)圖像中的“bus”,并且在描述中包含了識別出來的新對象。

圖9 樣本圖像與待描述圖像的展示Fig.9 Display of sample images and images to be described

在圖10(a)和圖10(b)中,待描述的圖像相同,但是參考樣本圖像不同。圖10(a)中的“bus”被小樣本目標檢測器檢測出來,但是圖10(b)中的“umbrella”卻沒有被識別出來。從圖10 的結果可以看出,未被識別的“umbrella”是樣本圖像與實際待描述對象的差異導致的,這一問題有待后續改進。

圖10 采用不同樣本圖像時的識別結果Fig.10 Recognition results when using different sample images

4 結束語

本文提出一個基于小樣本學習和語義信息的圖像描述模型。利用小樣本目標檢測器,并結合知識圖譜中與對象相關的實體信息作為背景知識,對集外對象進行描述。實驗結果表明,與基線模型相比,該模型不僅能夠識別集外對象,還可以有效提升所生成描述的質量,并且減少對訓練數據集中對象類別數量上的依賴,有利于圖像描述模型的實際應用。下一步研究是改進小樣本識別模塊以提高檢測器的性能。

猜你喜歡
單詞信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
單詞連一連
看圖填單詞
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
最難的單詞
單詞拾趣
海外英語(2006年8期)2006-09-28 08:49:00
主站蜘蛛池模板: 亚洲精品成人片在线观看| 91po国产在线精品免费观看| 亚洲性一区| 亚洲精品成人7777在线观看| 国产成人综合亚洲欧美在| 亚洲精品视频在线观看视频| 亚洲AⅤ无码日韩AV无码网站| а∨天堂一区中文字幕| 亚洲日韩日本中文在线| 人妻无码中文字幕第一区| 婷婷99视频精品全部在线观看| 欧美日韩理论| 国产成人精品一区二区| 中文字幕在线免费看| 久久窝窝国产精品午夜看片| 青草精品视频| 日韩国产一区二区三区无码| 日本伊人色综合网| 国产成人高清精品免费软件| 五月婷婷丁香综合| 制服丝袜在线视频香蕉| 国产熟女一级毛片| 国内a级毛片| 午夜免费小视频| 超碰91免费人妻| 亚洲欧美不卡视频| 亚洲免费毛片| 亚洲最大在线观看| 亚洲综合18p| 国产女人爽到高潮的免费视频| 日韩天堂在线观看| 亚洲第七页| 国产成年女人特黄特色毛片免| 青青国产视频| 亚洲一区二区三区在线视频| 四虎国产精品永久一区| 欧美日韩中文字幕在线| 日韩成人在线一区二区| 韩日免费小视频| 国产成年无码AⅤ片在线| 91久久精品日日躁夜夜躁欧美| 丝袜无码一区二区三区| 国产精品网址在线观看你懂的| 最新国产精品第1页| 97精品久久久大香线焦| 亚洲一区二区三区香蕉| 国产精品hd在线播放| 日韩高清一区 | 国产又爽又黄无遮挡免费观看| 久久国产精品电影| 国产精品xxx| 国产乱子伦视频在线播放 | 国产h视频在线观看视频| 精品国产中文一级毛片在线看| 成人免费网站久久久| 国产成人高清在线精品| 欧美劲爆第一页| 精品久久人人爽人人玩人人妻| 成人在线亚洲| 国产在线91在线电影| 99这里精品| 色综合久久无码网| 国产男女免费完整版视频| 伊在人亚洲香蕉精品播放| 一本大道香蕉高清久久| 人人爽人人爽人人片| 久久久噜噜噜久久中文字幕色伊伊 | 亚洲精品高清视频| 天天综合色网| 伊人大杳蕉中文无码| 欧美性猛交xxxx乱大交极品| 国产一级一级毛片永久| 2021国产在线视频| 国产精品主播| 色妺妺在线视频喷水| 一区二区影院| 一级毛片网| 任我操在线视频| 波多野结衣一区二区三区四区| 国产剧情国内精品原创| 精品视频福利| 国产打屁股免费区网站|