張大任,艾山·吾買爾,宜 年,劉婉月,韓 越
(1.新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2.新疆大學(xué)新疆多語(yǔ)種信息技術(shù)實(shí)驗(yàn)室,新疆 烏魯木齊 830046)
自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)兩個(gè)領(lǐng)域都是如今的研究熱點(diǎn),圖像標(biāo)題生成作為融合了自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)的交叉任務(wù),同樣是人工智能領(lǐng)域的一個(gè)熱門方向.圖像標(biāo)題生成是指利用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等方法和技術(shù),生成能夠描述圖像視覺(jué)內(nèi)容的文本語(yǔ)言,其在圖文轉(zhuǎn)換、信息檢索、智能人機(jī)交互等領(lǐng)域都能給人類生活帶來(lái)許多方便,具有廣泛的應(yīng)用前景.
早期圖像標(biāo)題生成任務(wù)解決方案可以分為基于檢索的方法[1]和基于模板的方法[2].這兩種方法依賴于數(shù)據(jù)集大小,且需要事先定義完整的物體、屬性與場(chǎng)景等概念,因此在生成標(biāo)題的豐富性和流暢性上存在極大限制.近年來(lái),人們把關(guān)注點(diǎn)放在基于深度神經(jīng)網(wǎng)絡(luò)的圖像標(biāo)題生成上,基于深度神經(jīng)網(wǎng)絡(luò)的方法生成的標(biāo)題在語(yǔ)法正確性、語(yǔ)義準(zhǔn)確性和泛化能力方面有很好的效果.其中最經(jīng)典的為Google公司提出的Neural Image Caption Generator模型[3],受機(jī)器翻譯領(lǐng)域編碼器-解碼器的框架[4]的啟發(fā),使用基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的GoogleNet替換機(jī)器翻譯模型中用于提取語(yǔ)言特征的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),使用該網(wǎng)絡(luò)提取圖像特征,再以循環(huán)神經(jīng)網(wǎng)絡(luò)作為解碼器解碼卷積神經(jīng)網(wǎng)絡(luò)提取出的圖像特征.這種在機(jī)器翻譯編碼器-解碼器框架下修正的模型對(duì)圖像標(biāo)題生成任務(wù)產(chǎn)生很大的影響,相關(guān)工作主要是在此基礎(chǔ)上進(jìn)行修改和改進(jìn).Aneja等[5]將卷積神經(jīng)網(wǎng)絡(luò)作為解碼器并完成解碼操作,使訓(xùn)練速度得到快速提高,同時(shí)對(duì)于卷積神經(jīng)網(wǎng)絡(luò)存在的時(shí)序限制問(wèn)題予以合理規(guī)避.
基于傳統(tǒng)CNN+RNN的編碼器解碼器的框架,Vinyals等[6]提出附加額外注意力機(jī)制的圖像標(biāo)題生成模型,將從編碼器的卷積層取得的圖像特征,對(duì)圖像特征注意力進(jìn)行加權(quán),將加權(quán)后的特征向量發(fā)送至循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)其完成解碼操作.Lu等[7]認(rèn)為傳統(tǒng)采用的空間注意力機(jī)制在提取圖像中新特征時(shí)缺乏便捷性,于是提出“視覺(jué)哨兵”概念,將注意力的圖像特征權(quán)重與“哨兵向量”權(quán)重分別控制,構(gòu)成Adaptive Attention模型.Anderson等[8]在2018年提出了結(jié)合自下而上和自上而下的注意力機(jī)制,采用Faster RCNN[9]等目標(biāo)檢測(cè)模型,再利用傳統(tǒng)的自上而下的注意力機(jī)制來(lái)動(dòng)態(tài)關(guān)注不同的物體.與之類似的還有文獻(xiàn)[10],通過(guò)在模型中添加目標(biāo)檢測(cè)模塊,提高模型對(duì)圖像突出對(duì)象的描述能力.You等[11]試圖從圖像中發(fā)現(xiàn)更多的語(yǔ)義信息,并將語(yǔ)義屬性特征及視覺(jué)屬性特征融合到字幕模型中以提高描述質(zhì)量.Chen等[12]提出了抽象場(chǎng)景圖(ASG)結(jié)構(gòu)來(lái)表示用戶意圖,在細(xì)粒度的層次控制所生成的描述.Zhang等[13]通過(guò)與圖像描述模型相關(guān)任務(wù)之間的聯(lián)合訓(xùn)練,從其他任務(wù)獲取知識(shí),提高模型的準(zhǔn)確性.
針對(duì)現(xiàn)有的圖像標(biāo)題生成存在模型的訓(xùn)練目標(biāo)和評(píng)測(cè)標(biāo)準(zhǔn)無(wú)法匹配的問(wèn)題,Rennie等[14]提出SCST框架,用強(qiáng)化學(xué)習(xí)方法對(duì)CIDEr[15]評(píng)價(jià)指標(biāo)直接優(yōu)化來(lái)訓(xùn)練整體模型,使訓(xùn)練階段更加穩(wěn)定.Chen等[16]提出了一個(gè)新的基于條件生成對(duì)抗網(wǎng)的圖像字幕框架,作為傳統(tǒng)的基于強(qiáng)化學(xué)習(xí)的編解碼架構(gòu)的擴(kuò)展,顯著提高了圖像標(biāo)題生成模型性能.
盡管圖像標(biāo)題生成已取得如此優(yōu)異的成果,但不可避免地存在許多問(wèn)題,一是目前模型還是使用LSTM作為解碼器,而LSTM對(duì)較長(zhǎng)序列不能很好地支持限制了模型性能;二是現(xiàn)有圖像標(biāo)題生成模型基本都是針對(duì)英語(yǔ)且只能生成一種語(yǔ)言的文本描述.針對(duì)上述問(wèn)題,本文提出了基于CNN與Transformer混合結(jié)構(gòu)的多語(yǔ)言圖像標(biāo)題生成模型.通過(guò)CNN對(duì)圖像提取后,使用Transformer中自注意力機(jī)制強(qiáng)化長(zhǎng)序列單詞間的聯(lián)系,并通過(guò)多語(yǔ)言聯(lián)合訓(xùn)練增強(qiáng)圖像標(biāo)題生成質(zhì)量,提高模型魯棒性.實(shí)驗(yàn)表明,該模型比傳統(tǒng)基于LSTM的圖像標(biāo)題生成模型質(zhì)量更高,且可以同時(shí)生成多種語(yǔ)言的圖像標(biāo)題.
在計(jì)算機(jī)視覺(jué)領(lǐng)域,基于深度學(xué)習(xí)方法的模型通常使用卷積神經(jīng)網(wǎng)絡(luò)從圖像中提取特征,并輔以其他模塊來(lái)完成諸如分類和檢測(cè)之類的任務(wù).而自然語(yǔ)言處理領(lǐng)域是對(duì)文本詞匯編碼,依據(jù)不同任務(wù)使用不同解碼器完成任務(wù).與其他基于深度學(xué)習(xí)的研究工作一樣,當(dāng)前基于序列學(xué)習(xí)的圖像標(biāo)題生成模型也是端到端的訓(xùn)練,同樣遵循了機(jī)器翻譯任務(wù)中編碼器解碼器模型的基本框架,如圖1所示.在機(jī)器翻譯任務(wù)中,編碼器解碼器框架主要是為了解決不同語(yǔ)言的同一句子之間的長(zhǎng)度不匹配的問(wèn)題,該框架將待翻譯語(yǔ)句轉(zhuǎn)化為固定長(zhǎng)度的中間向量,之后再借助循環(huán)神經(jīng)網(wǎng)絡(luò)作為解碼器解碼成為目標(biāo)語(yǔ)言的表達(dá)形式.

圖1 機(jī)器翻譯中編碼器解碼器結(jié)構(gòu)
以往有關(guān)機(jī)器翻譯的工作的研究為圖像標(biāo)題生成任務(wù)提供了一些啟發(fā).在機(jī)器翻譯任務(wù)中,輸入和輸出都是單詞序列.而在圖像標(biāo)題生成模型中,從卷積特征到自然語(yǔ)言生成的步驟非常相似.研究人員試圖對(duì)編解碼器進(jìn)行簡(jiǎn)單的更改,在圖像標(biāo)題生成任務(wù)中取得了良好的效果.具體而言,基于卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)領(lǐng)域的成功經(jīng)驗(yàn),將VGGNet、GoogleNet、ResNet等網(wǎng)絡(luò)結(jié)構(gòu)用作編碼器以提取圖像的卷積特征.在解碼階段,由于生成的描述語(yǔ)句中的單詞具有明顯的上下文關(guān)系,因此使用基于循環(huán)神經(jīng)網(wǎng)絡(luò)的解碼模塊.

圖2 注意力機(jī)制算法流程
注意力機(jī)制模型的算法流程如圖2所示,其計(jì)算過(guò)程可以分成3個(gè)階段,分別是相似度度量、權(quán)重值計(jì)算以及最后相對(duì)于基準(zhǔn)向量的注意力向量計(jì)算.
在相似度度量階段,假設(shè)解碼器上一時(shí)刻的隱藏層輸出St-1,通常是用一個(gè)Fatt函數(shù)將St-1與編碼器各位置的圖像特征vi做相似度計(jì)算,得到像素區(qū)域和語(yǔ)言之間的相似度eti,計(jì)算公式為
eti=Fatt(St-1,vi).
(1)
在完成第一階段的相似性度量之后,需要對(duì)得到的相似性數(shù)值進(jìn)行歸一化處理,避免數(shù)值取值范圍不同造成的不良影響.具體做法是把計(jì)算結(jié)果通過(guò)一個(gè)Softmax函數(shù)來(lái)轉(zhuǎn)化為概率,得到權(quán)重α,計(jì)算公式為
(2)
對(duì)得到的權(quán)重和相對(duì)應(yīng)的輸入進(jìn)行加權(quán)求和,即可得到最終的注意力向量Ct,并作為解碼器當(dāng)前的部分輸入,從而生成Yt,計(jì)算公式為:
(3)
Yt=Decoder(Ct,St-1,Yt-1).
(4)
在RNN或者LSTM中,需要按照單詞的連續(xù)序列進(jìn)行計(jì)算,從而獲得依賴信息,通過(guò)注意力機(jī)制,語(yǔ)言模型能夠生成單詞的不同時(shí)刻,找到需要關(guān)注的視覺(jué)區(qū)域,起到特征融合的作用.
機(jī)器翻譯領(lǐng)域提出的Transformer模型,是為了解決LSTM不能并行計(jì)算和不能較好支持較長(zhǎng)距離序列依賴的問(wèn)題,使用注意力機(jī)制去捕獲更深層的關(guān)聯(lián)特征.Transformer由多個(gè)模塊堆疊而成,其中每個(gè)模塊中的多頭注意力機(jī)制由多個(gè)自我注意力機(jī)制組成.Transformer對(duì)傳統(tǒng)的自我注意力機(jī)制進(jìn)行了改進(jìn),這里稱為縮放點(diǎn)積注意力機(jī)制(scaled dot-product attention),縮放點(diǎn)積注意力機(jī)制是Transformer 的核心組件,由查詢(Query)、鍵(Key)和值(Value)三部分組成.
縮放點(diǎn)積注意力機(jī)制的計(jì)算過(guò)程:使用所有鍵和查詢進(jìn)行點(diǎn)積計(jì)算并除以d,點(diǎn)積后的結(jié)果經(jīng)過(guò)一個(gè)Softmax函數(shù)獲得注意力機(jī)制在值上的權(quán)重.在計(jì)算注意力時(shí),一般將鍵和值分別打包成矩陣K={k1,k2,…,kn}和矩陣V={v1,v2,…,vn}.加權(quán)在查詢對(duì)應(yīng)的矩陣Q={q1,q2,…,qn}上的注意力權(quán)重并行計(jì)算可以表示為
竹節(jié)蓼藥材的HPLC指紋圖譜建立及聚類分析…………………………………………………… 黎 理等(12):1640
(5)
Transformer中使用的不是單獨(dú)的自我注意力機(jī)制,而是一種多頭注意力機(jī)制,讓模型處理來(lái)自不同表示子空間的各種信息.多頭注意力機(jī)制包含n個(gè)平行的頭(head),其中每個(gè)頭都會(huì)經(jīng)過(guò)一個(gè)獨(dú)立的縮放點(diǎn)積注意力機(jī)制.經(jīng)過(guò)多頭注意力機(jī)制的加權(quán)特征MF可以表示為:
(6)
MultiHead(Q,K,V)=Concat(head1,…,headn)WO.
(7)

Transformer架構(gòu)在大小和計(jì)算規(guī)模上都比傳統(tǒng)的CNN更具效率和可擴(kuò)展性.在計(jì)算機(jī)視覺(jué)領(lǐng)域中采用Transformer的相關(guān)工作中主要有兩種模型架構(gòu):一種是純Transformer結(jié)構(gòu);另一種是將CNN主干網(wǎng)與Transformer相結(jié)合的混合結(jié)構(gòu).本文采用的是基于CNN與Transformer的混合結(jié)構(gòu)(見(jiàn)圖3).

圖3 CNN與Transformer混合模型
如圖3所示,本文的模型共分為3個(gè)模塊,分別是圖像特征提取部模塊、特征編碼模塊、語(yǔ)言模型解碼模塊.特征提取部分將輸入圖像通過(guò)卷積神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換為特征圖,添加位置編碼后輸入特征編碼模塊;特征編碼模塊將特征圖進(jìn)行轉(zhuǎn)換,學(xué)習(xí)特征圖像素之間的關(guān)系,傳入語(yǔ)言解碼模塊;語(yǔ)言模型解碼模塊根據(jù)編碼后的特征及傳入的文本標(biāo)題,生成預(yù)測(cè)標(biāo)題句子,將生成標(biāo)題與實(shí)際標(biāo)題計(jì)算損失得到損失值,反向傳播進(jìn)行參數(shù)優(yōu)化,最終生成符合人類語(yǔ)言習(xí)慣的圖像標(biāo)題句子.
在多語(yǔ)言圖像標(biāo)題生成方面,本文借鑒了多任務(wù)學(xué)習(xí)參數(shù)硬共享的模式,通過(guò)在不同任務(wù)中使用相同功能的網(wǎng)絡(luò)參數(shù),而同時(shí)保持不同任務(wù)中不同功能參數(shù)之間的差異性來(lái)設(shè)計(jì)模型.這種方式在一定程度上可以提升模型的性能,減輕過(guò)擬合.因?yàn)樵蕉嗳蝿?wù)同時(shí)學(xué)習(xí),模型就越能捕捉到多個(gè)任務(wù)中相同的特征表示,相當(dāng)于多個(gè)任務(wù)的數(shù)據(jù)集同時(shí)訓(xùn)練相同的網(wǎng)絡(luò)層從而提高模型的性能.
通過(guò)對(duì)不同語(yǔ)言的預(yù)處理,無(wú)須添加額外解碼器,單編碼器單解碼器同樣可以實(shí)現(xiàn)多語(yǔ)言圖像標(biāo)題生成,參考多語(yǔ)言機(jī)器翻譯,在語(yǔ)言輸入模型時(shí)提前在句子開(kāi)頭添加語(yǔ)言標(biāo)簽,通過(guò)這樣的方式標(biāo)明輸入的句子屬于哪種語(yǔ)言,之后混合多種語(yǔ)言統(tǒng)一訓(xùn)練,實(shí)現(xiàn)一個(gè)模型輸出多個(gè)語(yǔ)言.
由于數(shù)據(jù)集中6種語(yǔ)言所屬語(yǔ)系的差別,不同語(yǔ)言間聯(lián)合訓(xùn)練可能會(huì)有不一樣的效果,因此我們根據(jù)語(yǔ)言相似度及語(yǔ)系,劃分出5種組合分別訓(xùn)練,由遠(yuǎn)至近分別為英語(yǔ)與漢語(yǔ)、英語(yǔ)與俄語(yǔ)、哈薩克語(yǔ)與維吾爾語(yǔ)、烏茲別克語(yǔ)與維吾爾語(yǔ)以及所有語(yǔ)言的混合訓(xùn)練.多語(yǔ)言圖像描述對(duì)于文本預(yù)處理有更高的要求,由于語(yǔ)言之間的差別,訓(xùn)練不可避免會(huì)出現(xiàn)許多干擾,為在這種情況下減少干擾,挖掘語(yǔ)言信息,提升多語(yǔ)言模型生成效果,由于多語(yǔ)言語(yǔ)料庫(kù)中的某些命名實(shí)體具有語(yǔ)音相似性,本文采取了將輸入模型的語(yǔ)言拉丁化,把多語(yǔ)言數(shù)據(jù)集中的不同語(yǔ)言轉(zhuǎn)換為普通拉丁文.
深度學(xué)習(xí)相關(guān)的圖像標(biāo)題生成方法的發(fā)展離不開(kāi)包含成對(duì)圖像標(biāo)題的公開(kāi)數(shù)據(jù)集.針對(duì)多語(yǔ)言數(shù)據(jù)集稀缺的情況,本文對(duì)圖像標(biāo)題生成領(lǐng)域的小型通用數(shù)據(jù)集Flickr8K[17]進(jìn)行多語(yǔ)言標(biāo)注,數(shù)據(jù)集規(guī)模如表1所示,為了把英語(yǔ)的數(shù)據(jù)集擴(kuò)展為多語(yǔ)言的數(shù)據(jù)集,采用機(jī)器翻譯的方法,其具有良好的擴(kuò)展性,更容易擴(kuò)大訓(xùn)練數(shù)據(jù)規(guī)模.機(jī)器翻譯與人工校對(duì)相結(jié)合的方式作為構(gòu)建數(shù)據(jù)集主要方法,盡可能獲得高質(zhì)量多語(yǔ)言圖像標(biāo)題生成數(shù)據(jù)集.

表1 數(shù)據(jù)集規(guī)模
本文對(duì)比谷歌翻譯、百度翻譯、有道翻譯和民族翻譯局等幾個(gè)公開(kāi)翻譯網(wǎng)頁(yè)接口,選擇的構(gòu)建方案是將原始英文數(shù)據(jù)通過(guò)谷歌翻譯將其翻譯為俄語(yǔ)、哈薩克語(yǔ)和烏茲別克語(yǔ).將原始英語(yǔ)通過(guò)有道翻譯將其翻譯為中文.將校對(duì)后的中文通過(guò)民族翻譯局將其翻譯為維吾爾語(yǔ).最終獲得包含英語(yǔ)、漢語(yǔ)、俄語(yǔ)、哈薩克語(yǔ)、烏茲別克語(yǔ)和維吾爾語(yǔ)共6種語(yǔ)言的多語(yǔ)言Flickr8K圖像標(biāo)題生成數(shù)據(jù)集,將標(biāo)題句子分詞,去除標(biāo)點(diǎn)符后,對(duì)句子長(zhǎng)度進(jìn)行統(tǒng)計(jì),結(jié)果如圖4所示,可以發(fā)現(xiàn)構(gòu)建的多語(yǔ)言數(shù)據(jù)集句子長(zhǎng)度分布較為相似,通過(guò)機(jī)器翻譯與人工校對(duì)相結(jié)合構(gòu)建的多語(yǔ)言Flickr8K圖像標(biāo)題生成數(shù)據(jù)集與原始分布相近且標(biāo)注質(zhì)量較好.

圖4 6種語(yǔ)言句子長(zhǎng)度統(tǒng)計(jì)
實(shí)驗(yàn)在Ubuntu18.04操作系統(tǒng)上進(jìn)行,GPU為GeForce RTX 2080 Ti(11 GB),CPU為Intel(R) Core(TM) i5-9400F CPU @ 2.90 GHz處理器,內(nèi)存32 GB.Pytorch版本1.4.0,Torchvision版本0.5.0,F(xiàn)airSeq版本0.9.0.使用預(yù)訓(xùn)練的resnet101作為特征提取器,解碼器為完整的Transformer模型,Transformer層數(shù)為4,詞向量維度為256,隱藏層維度為512,Batch Size為32,Dropout為0.5,激活函數(shù)為Swish,多頭注意力頭的個(gè)數(shù)為8,全連接隱藏層狀態(tài)為4 096,優(yōu)化器方法是Adam,Label smoothing=0.1,學(xué)習(xí)率衰減方法為noam,訓(xùn)練epoch為100.解碼階段采用Beam Search策略來(lái)進(jìn)行預(yù)測(cè),Beam Size大小為5.預(yù)處理時(shí)使用Uroman工具將所有語(yǔ)言進(jìn)行拉丁轉(zhuǎn)化.
評(píng)價(jià)模型表現(xiàn)的優(yōu)劣會(huì)用不同的評(píng)價(jià)指標(biāo)描述,并且不同的評(píng)價(jià)指標(biāo)側(cè)重不同的角度進(jìn)行評(píng)估.本文實(shí)驗(yàn)使用的評(píng)測(cè)指標(biāo)有BLEU[18](Bilingual Evaluation Understudy)、METEOR[19](Metric for Evaluation of Translation with Explicit Ordering)、ROUGE[20](Recall-Oriented Understudy for Gisting Evaluation)和CIDEr[15](Consensus-based Image Description Evaluation).
BLEU是一個(gè)基于N-gram共線統(tǒng)計(jì)的指標(biāo),用來(lái)衡量?jī)蓚€(gè)句子之間的相似性.根據(jù)兩個(gè)句子的N-gram共線頻率,可以計(jì)算出所生成的句子對(duì)于參考句的查準(zhǔn)率.METEOR在計(jì)算兩個(gè)句子的相似程度時(shí),同時(shí)考慮同義詞等相關(guān)信息,利用同義詞庫(kù)作為輔助信息,計(jì)算生成的描述句對(duì)于參考描述性句的準(zhǔn)確性與召回率之間的調(diào)和平均.ROUGE類似于BLEU,本文采用了基于最大公共序列的ROUGE-L來(lái)計(jì)算召回率.CIDEr通過(guò)對(duì)每個(gè)n元組進(jìn)行TF-IDF權(quán)值計(jì)算測(cè)量圖像描述的一致性.這4個(gè)指標(biāo)均是值越大,表明模型越好.其中BLEU-1、BLEU-2、BLEU-3、BLEU-4、METEOR、ROUGEL、CIDEr指標(biāo)分?jǐn)?shù)分別由B_1,B_2,B_3,B_4,M,R,C表示.
僅使用英文單語(yǔ)言訓(xùn)練,與主流的神經(jīng)網(wǎng)絡(luò)圖像標(biāo)題生成模型對(duì)比,同時(shí)對(duì)比不使用混合結(jié)構(gòu)的Transformer圖像標(biāo)題生成模型,結(jié)果如表2所示.

表2 不同模型結(jié)構(gòu)下實(shí)驗(yàn)結(jié)果
從表2可以看出,與基礎(chǔ)的NIC模型相比,添加注意力后的圖像標(biāo)題生成模型提升效果顯著,在各個(gè)指標(biāo)上都有明顯提升,改進(jìn)的軟注意力機(jī)制與自適應(yīng)注意力機(jī)制有較為明顯的差距.與傳統(tǒng)的CNN+RNN圖像標(biāo)題生成模型不同,兩種基于Transformer的圖像標(biāo)題生成模型之間差距極大.僅靠Transformer模型進(jìn)行圖像特征提取及圖像標(biāo)題生成,最終結(jié)果極差,幾乎不能生成完整的句子;而CNN與Transformer的混合模型卻比傳統(tǒng)的圖像標(biāo)題生成模型有更好的評(píng)測(cè)分?jǐn)?shù),將BLEU-4值從18.3提升到23.6,相對(duì)于原始NIC模型提升幅度達(dá)到28.9%.這兩組實(shí)驗(yàn)說(shuō)明在數(shù)據(jù)規(guī)模較小的情況下,僅靠Transformer模型實(shí)現(xiàn)圖像標(biāo)題生成并不可行,而使用CNN進(jìn)行特征提取,將原始LSTM替換為在自然語(yǔ)言處理領(lǐng)域效果更好的Transformer模型是提升小規(guī)模數(shù)據(jù)集效果的一種可行方法.
對(duì)于多語(yǔ)言聯(lián)合訓(xùn)練,本文根據(jù)語(yǔ)系按相關(guān)性由遠(yuǎn)至近的原則,對(duì)6種語(yǔ)言分成5組分別進(jìn)行實(shí)驗(yàn),英語(yǔ)、漢語(yǔ)屬于不同語(yǔ)系,英語(yǔ)、俄語(yǔ)屬于同一語(yǔ)系不同語(yǔ)族,哈薩克語(yǔ)、維吾爾語(yǔ)屬于統(tǒng)一語(yǔ)族不同語(yǔ)支,維吾爾語(yǔ)、烏茲別克語(yǔ)則語(yǔ)系語(yǔ)族語(yǔ)支都相同.將6種語(yǔ)言進(jìn)行混合訓(xùn)練,所有實(shí)驗(yàn)結(jié)果如表3所示.

表3 不同語(yǔ)言混合訓(xùn)練結(jié)果
通過(guò)實(shí)驗(yàn)結(jié)果可以看出,多語(yǔ)言聯(lián)合訓(xùn)練對(duì)大多數(shù)語(yǔ)言是有所提升的,烏茲別克語(yǔ)與維吾爾語(yǔ)聯(lián)合訓(xùn)練在質(zhì)量相對(duì)平均的情況下,兩種相似語(yǔ)言的聯(lián)合訓(xùn)練帶來(lái)了明顯的提升.英語(yǔ)和漢語(yǔ)聯(lián)合訓(xùn)練也有較好的提升,這兩種語(yǔ)言盡管形態(tài)差異大,但數(shù)據(jù)質(zhì)量較高,因此聯(lián)合訓(xùn)練會(huì)有較好結(jié)果.英語(yǔ)和俄語(yǔ)、高質(zhì)量與質(zhì)量一般形態(tài)相近的兩種語(yǔ)言聯(lián)合訓(xùn)練,效果反而有所下降.6種語(yǔ)言混合訓(xùn)練在英漢上會(huì)有進(jìn)一步提升,俄語(yǔ)和哈薩克語(yǔ)與混合前相當(dāng),而烏茲別克語(yǔ)與維吾爾語(yǔ)盡管有所提升但還是不如僅使用兩種語(yǔ)言聯(lián)合訓(xùn)練.這些都說(shuō)明在小規(guī)模數(shù)據(jù)上,數(shù)據(jù)集質(zhì)量對(duì)模型的影響比語(yǔ)言學(xué)上的相關(guān)性要顯著得多.盡管如此,在數(shù)據(jù)集質(zhì)量相同的情況下,盡可能使用語(yǔ)種相近的語(yǔ)言進(jìn)行多語(yǔ)言聯(lián)合訓(xùn)練,是未來(lái)多語(yǔ)言圖像標(biāo)題生成的改進(jìn)方向.為了直觀地看出聯(lián)合訓(xùn)練后模型的性能,給出一些模型生成的例子,生成的例子如圖5所示.

圖5 圖像標(biāo)題生成結(jié)果
實(shí)驗(yàn)表明,本文提出的基于CNN與Transformer混合結(jié)構(gòu)的多語(yǔ)言圖像標(biāo)題生成模型比傳統(tǒng)基于LSTM的圖像標(biāo)題生成模型質(zhì)量更高,且可以同時(shí)生成多種語(yǔ)言的圖像標(biāo)題,顯著提升了圖像標(biāo)題生成模型的應(yīng)用范圍.
本文首先介紹了現(xiàn)有圖像標(biāo)題生成任務(wù)的常見(jiàn)方法,分析存在的問(wèn)題:一是目前模型還是使用LSTM作為解碼器,而LSTM對(duì)較長(zhǎng)序列不能很好地支持,限制了模型性能;二是現(xiàn)有圖像標(biāo)題生成模型基本都是針對(duì)英語(yǔ)且只能生成一種語(yǔ)言的文本描述.針對(duì)上述問(wèn)題,本文拓展基于公開(kāi)數(shù)據(jù)集的多語(yǔ)言圖像標(biāo)題生成數(shù)據(jù)集,提出了基于CNN與Transformer混合結(jié)構(gòu)的多語(yǔ)言圖像標(biāo)題生成模型.實(shí)驗(yàn)表明,該模型比傳統(tǒng)基于LSTM的圖像標(biāo)題生成模型質(zhì)量更高,且可以同時(shí)生成多種語(yǔ)言的圖像標(biāo)題,顯著提升了圖像標(biāo)題生成模型的應(yīng)用范圍.
雖然實(shí)驗(yàn)效果較好,但仍然存在不足之處.實(shí)驗(yàn)數(shù)據(jù)集規(guī)模相較于英文通用圖像標(biāo)題生成數(shù)據(jù)集還是較小.未來(lái)將在增加語(yǔ)料的同時(shí)可以引入強(qiáng)化學(xué)習(xí)方法,對(duì)最終結(jié)果進(jìn)行進(jìn)一步優(yōu)化,得到更好的評(píng)測(cè)分?jǐn)?shù),而如何在圖像標(biāo)題生成數(shù)據(jù)量不足的情況下,通過(guò)各種方法提升生成標(biāo)題的質(zhì)量也是未來(lái)需要研究的問(wèn)題.