999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

圖像標題生成中的人物類名實體填充方法研究

2019-10-21 02:01:54張家碩姚建民
中文信息學報 2019年9期
關鍵詞:信息方法

張家碩,洪 宇,唐 建,程 夢,姚建民

(蘇州大學 計算機科學與技術學院,江蘇 蘇州 215006)

0 引言

圖像標題生成任務是為給定圖像自動生成含義和內容對等的標題。這一標題也稱為圖注(caption)。面向圖像的標題自動生成技術有著廣泛的應用前景,例如助殘機器人、跨媒體信息處理和認知智能。同時,這一任務也是跨領域的研究課題,對于圖像處理和自然語言處理技術均有較高的依賴性。

現有基于端到端(圖像—語言)架構的跨媒體生成技術已經取得了矚目的研究成果,借助圖像特征的編碼和語言特征的解碼過程,能夠將一個圖像自動“翻譯”為一條基本符合人類語言規范的語句。此外,注意力機制的引入使得模型性能獲得了較大幅度的提升。然而,大量的數據觀測顯示,這類標題雖然有著較為流暢的可讀性,但在表意層面卻相距真實標題甚遠,表達力明顯的欠缺。其中,實體信息匱乏是目前標題生成最為明顯的短板之一。

對于圖像中的具體命名實體(人、物、機構、地點和時間),現有標題生成技術無法給出精確且貼切的命名,例如,針對圖1中的人名實體,現有技術僅僅會輸出“一名男子”或“一個運動員”,而無法輸出其真實的姓名“費德勒”。其原因在于現有數據集本身即缺少有形的實體標注。如微軟圖像標注數據集(MSCOCO)[1]和雅虎圖像標注數據集(Flickr)[2]等。而真實的圖像標題含有確切的實體信息,因此,本文前期工作為采集維基百科頁面上的圖像與真實標題數據對,構造包含實體信息的數據集,并基于此數據集訓練得到圖像標題生成系統。但是,這一研究結果顯示,雖然生成的標題中蘊涵了具體的人名實體,但往往都是錯誤的。例如,錯將圖1中的“費德勒”生成為“納達爾”(另一位網球運動員)。原因在于,訓練數據集中只有關于“納達爾”樣本。

本文針對上述生成標題中實體信息匱乏的問題展開研究,目標在于為圖像生成含有人名實體的標題,使之對圖像內容的描述更加具體且精確。主要包括兩個步驟: ①使用采集于維基百科的數據訓練得到圖像標題生成系統;②對自動生成的圖像標題進行去實體化(即將原有生成的名實體或人物的泛化稱謂進行濾除)及實體填充(使用正確的人名實體填入生成的圖像標題中)。由此,本文將現有前沿的問答技術引入圖像標題的優化過程中。具體地,針對人名實體,完型填空任務等價于回答通用Who類型問題,即以“誰”為疑問詞的問題。

因此,我們采用閱讀理解模型R-NET[3]專門抽取目標段落中的文字序列作為答案,而這一答案將被最終填充于上述人名實體的空槽,從而形成一種修正人名實體的圖像標題生成后處理技術。

上述待抽取的目標段落指的是與目標圖像相關的文本段落。本文針對源于維基百科的數據進行實驗,使用了結構化數據處理方法,實現了圖像與其所在網頁中的關聯段落的一一對齊,并將這類段落認定為局部相關信息。此外,本文將上述段落中不同人名實體詞條鏈接的網頁內容指定為外部信息,例如,“費德勒”與“納達爾”作為鏈接詞條,往往導向以兩者為關鍵詞條的維基百科網頁,這類網頁的第一段簡介往往直觀地綜述了人名實體的主要信息。本文實驗嘗試借助R-NET在上述兩種不同的段落級數據源中進行人名實體的抽取與標題槽的填充,并分別進行測試。實驗結果顯示,利用外部信息的方法取得了更為有效的填充性能。此外,不管使用哪一種信息源進行名實體抽取與填充,修訂后的圖像標題都在BLEU值上取得了性能提升。

本文組織結構如下: 第1節介紹相關工作;第2節介紹包含人名實體信息的圖像標題生成方法;第3節給出實驗結果和分析;第4節總結工作并提出未來展望。

1 相關工作

圖像標題生成是指給定一張圖像,為其生成一種特定語言的標題。該任務早期的工作主要集中于基于模板和基于相似圖像檢索的方法。Kulkarni等[4]首先通過目標檢測算法從圖像中提取出實體、實體的屬性以及實體與實體之間的空間位置關系,填充到人工編輯的標題模板中,再根據自然語言的統計規則選擇最優標題。Kuznetsova等[5]在通過檢索得到相似圖像之后,對所得相似圖像的標題做出修改,以適應當前圖像。

近年來,繼神經網絡中的編碼器—解碼器框架在機器翻譯任務中取得顯著效果之后,其被應用于圖像標題生成任務中,并迅速成為該任務上的主流方法。Vinyals等[6]使用卷積神經網絡(Convolutional Neural Network,CNN)[7]作為編碼器,將CNN中最后一層的輸出作為圖像的特征矩陣。同時,利用循環神經網絡(Recurrent Neural Network,RNN)[8]作為解碼器,對上述所得特征矩陣解碼,逐步生成單詞序列。Xu等[9]將注意力機制引入編碼和解碼過程中,在RNN進行解碼的每個時刻,使用注意力機制為局部特征分配權重,動態地關注當前時刻圖像中的重點區域。Karpathy等[10]使用目標檢測領域中包含卷積特征的區域(Regions with CNN features,R-CNN)[11]算法提取出圖像中的實體特征,并用其代替整張圖像的特征作為解碼端RNN的輸入。Rennie等[12]將強化學習中的策略梯度方法結合到了編碼器—解碼器框架中,使用基于共識的圖像標題指標(Consensus-based Image Description Evaluation,CIDEr)[13]代替交叉熵,在訓練過程中對CIDEr分值進行優化。Anderson等[14]使用準確率更高的Faster R-CNN算法[15]提取圖像中的實體特征,在解碼階段結合注意力機制,并同樣使用了強化學習方法。

針對生成標題中實體信息匱乏的問題,Tran等[16]通過人臉識別方法識別出部分名人及地標等。但此方法可擴展性不足,不能處理數據集中未出現過的人物、地標等名實體。顯然,解決這一問題的策略之一是基于命名實體詞典進行查找。然而,名實體及標記數據集的構建往往需要人工參與,且需要保證獲取名實體相關信息的檢索技術具有極高的精度。此外,Venugopalan等[17]分別從圖像分類數據集和圖像標題生成數據集中學習更加細粒度的類別標簽和圖像標題,并將標簽融入所生成的標題中。但這些細粒度的類別標簽仍屬于類的范疇,尚未精確到個體信息。Lu等[18]提出一種Entity-aware標題生成模型,該研究是目前唯一嘗試“蘊含人名實體對象的圖像標題生成”的相關工作,但在數據和方法上與本文有以下不同:

? 其一,Lu等[18]使用的數據集采集于圖片分享網站,圖片上傳者已為圖片標注出相關的標簽(例如,事件、主題、人物、地點等)。因此,該數據集中的圖片天然帶有實體標注。而本文數據集采集于維基百科。其中,每條數據包括圖片及相關文本段落,并不具有對圖片的實體標注。

? 其二,Lu等[18]方法的輸入為圖片及對圖片的實體標注,重點在于對已知的實體標注進行篩選及精準填充至生成的標題中。而本文方法的輸入為圖片及相關的文本段落,重點在于從文本段落中自動抽取出圖片中包含的人名實體。

2 基于人名實體填充的圖像標題生成

本節首先給出方法框架,然后分別對標題生成和面向Who問題的閱讀理解方法給予介紹。

2.1 方法框架

圖2給出了結合人名實體填充的圖像標題生成方法框架。與以往方法不同,本文以圖像以及與其相關的段落作為輸入,并從相關段落中抽取圖像場景中關鍵角色的人名實體,對生成的原標題進行修正。值得注意的是,相關段落中的人名實體往往多種多樣,例如,在一段關于“費德勒參加網球公開賽”的段落中,其競爭對手、頒獎嘉賓、解說員、裁判員和教練員都在枚舉和提名之列,從而人名實體抽取的關鍵問題是判定哪一個實體是圖像中的“主角”或“參與者”,而非簡單調用一套名實體識別方法并進行標題實體槽填充即可解決的問題。總體架構的核心部分包括兩個方面: 圖像標題生成和圖像參與者的名實體抽取。

圖像標題生成部分,本文基于端到端的神經網絡方法,具體地,使用加入注意力機制的CNN-LSTM模型進行標題的自動生成。本文采集真實的維基百科圖像—標題數據集對該模型進行訓練,其學習過程如圖3所示。圖2給出了該模型生成的標題樣例,即“Joeperformingwiththeband”(譯文: Joe與樂隊合作演出)。實驗結果顯示,基于上述維基百科數據集訓練而得的模型可為圖像生成具有確切的名實體的標題。這是基于標準數據集訓練所得系統所不具備的。盡管受限于有限數據集固有的局限性,而無法大范圍地生成正確的圖像參與者名稱,但對某些高頻出現于訓練樣本中的名實體(例如“奧巴馬”),其往往仍能給予正確結果;相比而言,MSCOCO中的標題則缺少名實體及其標記,無法支持生成具體人名實體的應用需求。

人名實體抽取使用了微軟提出的閱讀理解系統R-NET,該系統的輸入為問題和相關段落,輸出為該問題的答案。如前所述,本文將生成的圖像標題進行人名實體的識別與濾除,形成了類似完型填空任務的樣本,對于有待填充的實體槽,本文將其轉化為Who類型的問題表述,并在此基礎上使用閱讀理解系統R-NET在相關段落上抽取答案。

圖2 圖像標題優化方法的總體框架

圖3 圖像標題生成系統

下例給出了上述處理步驟的結果:

例1Caption(標題): Bruce Arena playing for the Italy.

Cloze(完型填空): playing for the Italy.

WHO-type Question(Who類型問題): Who playing for the Italy?

SlotFilling(槽填充):

Revised Caption(修正后的標題): WikiLando playing for the Italy.

本文使用斯坦福命名實體識別工具實現對生成標題中人名實體的識別。具體地,使用Stanfordcorenlp(1)https://github.com/Lynten/stanford-corenlp,調用該工具包內命名實體識別函數ner()即可獲得一句話中的命名實體詞。工具包,完成對生成標題中人名實體的識別。進而結合轉換規則將所生成標題轉換為尋找正確人名實體的問句。相關測試圖像、圖像標題和對齊于圖像的段落均采集于維基百科頁面。實驗中的圖像—段落對齊采用了基于結構化數據的定位策略。對齊的段落被用作局部信息。此外,本文采用維基百科的詞條鏈接,引入了對應段落中所有人名實體的鏈接網頁內容,并將正文中第一段作為外部相關信息,實驗對比了兩者對人名實體抽取的不同影響。

2.2 圖像標題生成

其中,Wva、Wha和Wa是要學習的參數。最后通過softmax層獲得每個單詞的條件概率分布,如式(4)所示。

(4)

其中,yt即為當前時刻所生成的單詞。

2.3 基于R-NET的人名實體抽取方法

2.3.1 Who問題生成

該模塊首先利用斯坦福命名實體識別工具,識別出已生成初始標題中的命名實體,將實體類型為“PERSON”的實體替換為疑問關鍵詞“Who”。由于所生成標題結構并不復雜且長度較短,所以通過規則即可將標題轉換為質量較好的問題,例如,圖2中所生成標題“Joeperformingwiththeband.”轉換為問句過程:

? 使用NER工具得到待糾正的人名實體對象

[PERSON]

? 根據轉換規則將“Joe”轉換為“Who”,補充謂語動詞,其他成分保持不變,形成由Who引導的特殊疑問句:

Who is performing with the band?

2.3.2 閱讀理解模型R-NET

目前,在閱讀理解任務上存在較多性能較高的方法,值得說明的是,這些方法均滿足本文需求,在方法性能較高的前提下,本文對閱讀理解方法的選擇并無特殊要求。具體地,本文采用R-NET實現人名實體抽取工作,該模型以問題和相關段落為輸入,借以從段落中抽取文字串,并將其作為答案給予返回,在本文中,等價于抽取出段落中的人名實體。模型的整體架構如圖4所示。

圖4 R-NET 模型結構圖

R-NET的網絡結構主要分為以下四層:

(5)

其中,ct為注意力分布向量,如式(6)所示。

(6)

(7)

2.4 局部及全局相關信息獲取

本文的測試數據均采集于維基百科頁面,包括圖像、圖像的相關文檔以及圖像下方的標題(參考答案)。具體地,本文為每張測試圖像構造了兩種相關文檔,分別稱為局部信息和全局信息,并以此兩種信息作為人名實體抽取來源。本節將具體介紹上述兩種相關文檔的獲取方法,該方法框架如圖5所示。相關代碼已上傳至此(2)https://github.com/jiasureZ/filling-name-in-image-captioning。

圖5 相關文檔獲取方法

局部信息指圖像所在維基頁面中與圖像直接相關的文檔。維基頁面上的一篇文章往往包含多張附圖,但與每張圖像相關的信息只存在于個別段落中。例如,圖6中子圖a、子圖b分別與段落Pa、段落Pb對應。

圖6 圖像—相關段落樣例

我們通過以下方法獲取頁面中與圖像直接相關的內容: 首先獲取圖像所在網頁的源代碼,在網頁源代碼中定位圖像所在的網頁位置,分別將該位置上、下首次出現的標題類標簽作為局部信息的上、下邊界,取出上、下邊界范圍內的文檔作為局部信息。

此外,維基百科會為文章中出現的人物提供詞條鏈接(圖7),該鏈接指向人物的介紹頁面,對人物進行詳細介紹。

全局信息是指局部信息內出現的所有人物的維基百科介紹內容。首先找到頁面內所有的鏈接,對所有鏈接進行如下操作: 根據每個鏈接的title屬性確定此鏈接是否指向人物的維基百科介紹,若title屬性的值為“PERSON”,則將該鏈接認定為有效鏈接(局部信息中平均包含13.7條人物鏈接)。經觀測發現,第一段落內容均存在源代碼中首個段落標簽之內,同樣通過解析網頁的方式獲取該鏈接指向頁面的第一段落內容。最后,使用所有人物詞條的第一段落組合形成全局信息。這里之所以使用人物詞條的第一段落,是因為第一段落中包含了人物職業、主要經歷等人物最顯著的特征,對每個候選都有較強的區分性,有利于我們后期對人名實體進行抽取。

圖7 人物詞條樣例

3 實驗及分析

3.1 實驗數據

因為通用的圖像標題生成數據集如MSCOCO和Flickr30K等本身不包含命名實體類的具體詞匯,所以模型無法學習到生成人名實體詞的能力,即無法為圖像生成包含人名實體信息的標題。因此,我們通過網絡爬蟲技術從維基百科頁面爬取圖像以及圖像下方的標題,組成二元組,構建我們的實驗數據,與上述數據集不同,這些標注中人名實體信息充足,是理想的訓練數據。為避免數據稀疏問題,本文對采集而得的數據進行了過濾。具體地,借助斯坦福命名實體識別工具對圖像標題中不含人名實體的數據對進行了濾除,以確保本文使用的所有數據均包含人名實體。

我們一共搜集了4.1K條與人物相關的(圖像,標題)數據對,涉及體育、音樂、政治等多個領域,將數據隨機劃分,形成3 505條訓練數據、335條驗證數據和和260條測試數據,用以訓練標題生成模型。測試階段,我們為260張圖像構造兩種不同的相關文檔,即之前所述的局部信息和全局信息,并基于此兩種相關文檔驗證了上述無監督方法的有效性。

3.2 評價標準

我們的目標是生成含有人名的圖像標題,是否生成正確的人名是我們最為關注的一點,因此,我們使用生成標題中人名實體的準確率作為主要的評價指標,同時使用BLEU以及ROUGE-L值輔助評價所生成標題的質量。BLEU值是一種基于精確度的相似性度量方法,考察生成標題與圖像真實標題中的n元組(n-gram)的匹配程度。ROUGE-L是一種基于召回率的相似性度量方法,主要考察生成標題的充分性和真實性。但除本文所使用的人名實體的準確率之外,目前圖像標題的評價指標僅從相似度角度考察生成標題和真實標題的匹配程度,尚不能針對生成標題中實體的質量做出評價(包括上述BLEU和ROUGE-L存在同樣的缺陷),原因在于這些評價準則并未對人名實體詞和其他詞匯區分對待。例如,無論是人名實體詞“Obama”還是冠詞“a”,其在分值的計算過程中的地位是相當的。所以,使用上述兩種評價指標(BLEU和ROUGE-L)尚且不能完全體現出經修正人名實體之后的標題的優越性。

3.3 實驗對比設置

為驗證本文所提方法的有效性,我們進行了以下對比實驗。

?Baseline: 本文的對比基準是指由圖像標題生成系統生成的初始標題,即此時未對標題中人名實體進行修正。

?Similarity+TFIDF: 一種基于TFIDF的相似度方法。具體地,在得到初始標題之后,對初始標題中的人名實體詞進行識別和濾除,形成待填充的空槽,并將此成分殘缺的表述視為模板,用文章中出現的所有人名依次填入空槽中,構成多個候選標題。計算得到候選標題以及圖像的相關文檔中所有單詞的TFIDF權重,使用余弦相似度逐句計算候選標題和文檔中每句話的文本相似度,將相似度最高的余弦距離作為此候選標題的分值。最終,選擇分值最高的候選標題作為本圖像的最終標題。

?Similarity+Skip: 與Similarity+TFIDF方法類似,經相同方法得到候選標題之后,使用預訓練的句向量Skip-thoughts[2]模型分別將候選標題和相關文檔中所有句子編碼成向量表示。之后,逐句計算候選標題與文檔中所有句子的余弦相似度,使用最高的兩個相似度結果的平均值作為該候選標題的最終得分。同樣,選擇得分最高的候選標題作為圖像的最終標題。

?+R-NET: 本文第2節中所介紹的方法,即將人名實體填充任務等價于由Who引導的閱讀理解任務。由此,使用在閱讀理解任務上較為前沿的模型R-NET實現對圖像對應的人名實體的抽取,并將抽取結果填充至含有空槽的初始標題中,以此作為圖像的最終標題。

?Entity-aware: 在本文數據集上,我們與該方法進行了對比。因該方法以圖片及對應的實體標注為輸入,所以,我們首先從圖片相關的文本段落中識別出所有的命名實體,作為圖片的實體標注,進而使用該方法進行了對比實驗。

3.4 結果分析

基于上述兩種實驗數據以及實驗設置方式,我們得到了如下的方法性能,并從人名實體抽取準確率(表1)及修正后圖像標題質量(表2、表3)兩方面對實驗結果進行了分析。此外,因本文組織了局部信息和全局信息兩種相關文本,源于此兩種文本,抽取而得的人名實體在表述方式上有所不同,表4對比了不同人名表述方式對最終結果的影響。

表1 人名實體抽取準確率對比

表1是使用上述幾種方法在人名實體抽取準確率上的性能對比結果。可以發現,若不對初始標題中人名實體進行修正,其準確率僅有4.23%。基于兩種相似度的方法效果相近,但均難以準確判斷出正確的人名實體。Entity-aware方法適合在已有實體標注的情況下進行圖像標題生成,而基于本文數據時,數據集中的圖片并不具有實體標注。雖然我們從文本中識別出命名實體集合作為對圖片的實體標注,以模擬該方法的輸入,但這種方式將引入一定噪聲,即該集合內存在較多的命名實體不能作為圖片的準確標注,這導致該方法獲得的人名實體準確率較低,進而影響了最終的標題生成質量。相比而言,本文所提出的+R-NET的方法可以在準確率這一指標上取得明顯優勢。這也驗證了本文所提方法的合理性,即將初始標題中的人名實體修正過程轉化為由Who引導的閱讀理解任務,進而依靠R-NET模型較高的性能便可以完成對人名實體的抽取。對比表中兩列性能可以發現,基于全局信息的人名實體抽取準確率較基于局部信息時更優。經對語料進行觀測發現: 很多時候,圖像只是作為文章的配圖,文章(局部信息)并不是對圖像的詳細注解,與圖像內容僅僅具有淺層的相關性。因此,抽取出正確的人名實體需要高度的理解能力,這使得使用局部信息作為背景知識文檔時的人名實體抽取準確率較低。而全局信息由各個候選人物的維基百科詞條中第一段落組成。在第一段落中往往包含了人物職業、主要經歷等人物最顯著的特征,對每個候選都有較強的區分性。所以使用全局信息的人名實體抽取準確率有明顯提升。

表2 基于局部信息的方法性能表

表2是基于局部信息的對比結果,可以發現我們提出的+R-NET方法優于上述兩種相似度匹配的方法。該方法在人名實體的抽取上可以獲得較高的準確率,進而,使用抽取而得的人名實體對生成標題進行填充之后,使得最終標題在BLEU值及ROUGE-L值上都取得了最高的性能。表3是基于全局信息的對比結果,依然可以發現+R-NET方法的優越性。

表3 基于全局信息的方法性能表

無論哪種方法,相較于Baseline來說,人名實體抽取的準確率都得到了較大幅度的提高。例如,+R-NET方法在基于局部信息時,人名實體抽取的準確率提升至35.38%,基于全局信息時,準確率提升至52.31%。但是經對人名實體修正之后得到的最終標題在BLEU以及ROUGE-L值卻并未取得對等幅度的提升,BLEU-4及ROUGE-L值上僅分別提升2.93%和3.52%。這是由于BLEU以及ROUGE-L值本身特點所致,它們均屬于一種相似度匹配的度量方法。直接考察生成標題和真實標題的匹配程度,并不會對人名實體詞給予較大的關注度。對生成標題中人名實體詞的質量并不敏感,無法體現出對句中人名實體修正之后的優勢。

同時,對比表2和表3可以發現,在使用全局信息作為人名實體的抽取來源時,在人名抽取準確率上優于使用局部信息。例如,本文所提的+R-NET方法在使用局部信息時的人名實體抽取準確率為35.38%,使用全局信息作為人名實體抽取來源時,準確率上升至52.31%。但是,最終標題的BLEU及ROUGE-L值卻出現了下降的現象,此時的BLEU-4和ROUGE-L值分別下降了2.45%和0.11%。這是由于全局信息的文本特征所致,全局信息中的人名均是全稱,而真實標題和局部信息中的人名均是單獨的姓或名。比如,圖8中所示的例子: 真實標題和局部信息中均是“Gilbert(吉爾伯特)”,而在全局信息中則是“PaulBrandonGilbert(保羅·布蘭登·吉爾伯特)”。所以即使我們獲得正確的人名實體,依然會造成BLEU以及ROUGE-L值偏低。尤其當人名實體抽取結果錯誤時,對二者產生的負面影響更大,因為會填入一個有誤且更長的單詞序列。

圖8 測試數據樣例

無論抽取結果為簡稱還是全稱,只要屬于同一人物,應該視為相同的結果。所以,事實上最終所得標題性能優于表3所顯示的數值。例如,使用人名簡稱替換該人物的全稱之后,可以獲得如表4所示數據。

表4 不同人名表述方式對最終結果的影響對比

表4說明了不同人名表達方式對最終BLEU和ROUGE-L值的影響。首先,對在全局信息上獲得的結果進行修正: 將其中的錯誤人名修改正確,以此作為原始結果。進而,+R-NETFull name表示將原始結果中的人名全部替換成全稱;+R-NETShort name表示將原始結果中的人名全部替換成簡稱。由表中數據可見,雖然標題中為同一個人物,可以理解為獲得了相同的結果,但是當用BLEU值和ROUGE-L值衡量時,依然存在較為明顯的差異。對與標準答案表述方式不同的結果會給予較低的分值,在本文中,未能準確評價我們所提方法在基于全局信息時的表現。

雖然對實用過程有積極幫助,但提升后的性能,尚無法完全補全或修正錯誤的人名實體。而且目前的評價方法側重對語言流暢度的測量,并未重點考察生成標題中人名實體的質量。例如,人名實體的準確率及含量等。對于單點的詞項或人名實體替換前后的效果,無法有效體現。

此外,我們從數據角度進行了錯誤分析。我們使用從維基百科爬取的數據訓練圖像標題生成模型,這些數據雖然滿足了對人名實體信息含量的要求,但數據中的標題復雜多樣,在訓練階段,加大了模型學習的難度。如圖9所示,兩張圖像極為相似,但其真實標題的差別較大。

4 總結與展望

本文提出了一種包含人名實體信息的圖像標題生成方法,從人物信息開始我們的初步探究,通過結合圖像相關的背景知識,為圖像生成了含有具體人名的圖像標題。本文借助閱讀理解系統,輔助實現一種面向人名實體補充與修正的圖像標題自動生成策略。在實驗環節,本文采用了基于R-NET的閱讀理解模型實現具體人名實體的發現。值得說明的是,目前基于SQUAD數據集及評測框架獲得較高性能排名的閱讀理解模型較多,且隨著技術的不斷進步,形成了多項優于R-NET架構的閱讀理解模型。因此,在實用過程中可以通過閱讀理解模塊的方法更替,實現圖像標題生成的進一步優化和分析。本文側重檢驗閱讀理解模型在標題生成中的正面作用,并借助引入R-NET進行實際性能的測評(即使用閱讀理解模型和不使用該模型的圖像標題生成的性能對比實驗)。

在之后的工作中,我們將探索生成包含更多準確命名實體信息(如時間、地點等)的方法,并嘗試將相關文檔、圖像同時作為圖像標題生成系統的輸入,使用有監督的方法,經訓練之后,直接為圖像生成包含準確實體信息的標題。

猜你喜歡
信息方法
學習方法
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
健康信息(九則)
祝您健康(1987年2期)1987-12-30 09:52:28
主站蜘蛛池模板: 四虎永久在线精品国产免费| 狠狠色噜噜狠狠狠狠色综合久 | 色综合热无码热国产| 又爽又大又黄a级毛片在线视频| 国产jizzjizz视频| 午夜成人在线视频| 综合久久久久久久综合网| 美女无遮挡拍拍拍免费视频| 欧洲精品视频在线观看| 熟妇丰满人妻av无码区| 在线五月婷婷| 久久久91人妻无码精品蜜桃HD| 国产一区二区网站| 国产亚洲精品在天天在线麻豆| 日韩国产综合精选| 国产精品吹潮在线观看中文| 欧美一区二区福利视频| 色婷婷在线影院| 久久中文无码精品| 久久性妇女精品免费| 亚洲日韩国产精品无码专区| 国产高清毛片| 日韩毛片免费| 亚洲美女高潮久久久久久久| 精品欧美视频| 国产鲁鲁视频在线观看| 色一情一乱一伦一区二区三区小说 | 91亚洲影院| 国产办公室秘书无码精品| 夜夜拍夜夜爽| 久久人午夜亚洲精品无码区| 亚洲区第一页| 国产亚洲视频免费播放| 欧美福利在线播放| 女人爽到高潮免费视频大全| 99在线观看视频免费| 国产综合色在线视频播放线视| 色婷婷成人网| 中文字幕无线码一区| 欧美中日韩在线| 2021精品国产自在现线看| 日韩A∨精品日韩精品无码| 亚洲第一视频区| 亚洲成人手机在线| 国产主播福利在线观看| 欧美日韩国产成人高清视频 | 亚洲人成成无码网WWW| 99久久精品久久久久久婷婷| 国产成人综合久久精品下载| 国产在线小视频| 色亚洲激情综合精品无码视频| 免费国产不卡午夜福在线观看| 国产无码精品在线播放| 国产96在线 | 手机在线国产精品| 日韩在线2020专区| 国产精品爽爽va在线无码观看 | 国产成人一区| 91精品伊人久久大香线蕉| 91在线精品免费免费播放| 一区二区三区国产精品视频| 国产尤物jk自慰制服喷水| 91精品国产自产91精品资源| 国产精品片在线观看手机版| 一级毛片免费高清视频| а∨天堂一区中文字幕| 亚洲三级片在线看| 毛片手机在线看| av在线人妻熟妇| 久久永久视频| 免费在线播放毛片| 免费精品一区二区h| 在线国产欧美| 亚洲精品无码在线播放网站| 激情爆乳一区二区| 人人澡人人爽欧美一区| 色综合网址| 婷婷色丁香综合激情| 在线观看网站国产| 欧美中日韩在线| 免费人欧美成又黄又爽的视频| 色成人亚洲|