王 紅 白云清 盧林燕
(中國民航大學計算機科學與技術學院 天津 300300)
隨著全媒體時代的到來,多模態(tài)數(shù)據(jù)融合方法的研究成為業(yè)界關注的熱點。圖文關聯(lián)的本質是跨模態(tài)信息匹配[1],通過分析隱含語義信息,把具有相同或者相似含義的圖像與文本模態(tài)進行關聯(lián)。圖像與文本的研究主要集中在單向關聯(lián),如圖像識別[2-3]、圖像描述[4-6]、文本生成圖像[7-8]等。近年來,圖文關聯(lián)從分類網(wǎng)絡[9]發(fā)展為不同模態(tài)特征的融合,主要包含特征提取、特征嵌入、目標函數(shù)三個部分。
在特征提取方面,出現(xiàn)了將RNN、LSTM和VQA等深度學習算法應用到圖文關聯(lián)上的算法[10-12]。HGLMM+GMM模型是一種高斯-拉普拉斯混合模型(Hybrid Gaussian-Laplacian Mixture Model)和高斯混合模型(Gaussian Mixture Model)的組合[13],用于文本信息的特征提取,主要結合了兩個分布模型的優(yōu)勢,能夠根據(jù)不同組件的不同維度進行混合分布建模。完全卷積網(wǎng)絡[14]是一種通過提取高維的圖像特征獲得更多細節(jié)信息的方法,主要用于圖像分割。本文使用了它的特征提取部分。
在特征嵌入方面,主要有深度卷積網(wǎng)絡(VGGNet)和殘差網(wǎng)絡(Residual Network,ResNet)[15]。根據(jù)ResNet,Liu等[16]提出了一種特征嵌入模型RRF-NET,該模型是一個雙分支網(wǎng)絡,每個分支上連接了四個完全連接層(Fully Connected,F(xiàn)C)。在第三個FC層上構建循環(huán)殘差融合模塊,引入正向的殘差連接與反向的循環(huán)連接,并對循環(huán)中的每一次輸出融合,獲得更深入的更具有代表性的特征。此外,該模塊還附加有批量歸一化層(BN)[17]和整流線性單元(ReLU)層用于批規(guī)范化和緩解梯度彌散。
在目標函數(shù)方面,一個好的損失函數(shù)可以使處理過的特征得到充分的計算,如歐幾里得函數(shù)[18]。本文采用的是基于余弦距離的雙向排序函數(shù),可得到分離模態(tài)的相似度。
在航空安全事件信息管理與應用領域,目前的研究方法主要以針對文本模態(tài)的數(shù)據(jù)處理為主[19-20],而面向多模態(tài)數(shù)據(jù)特別是圖文關聯(lián)的分析研究甚少。為此,本文提出了HG-RRF(HGLMM+GMM+RRF)模型,將HGLMM+GMM與RRF相結合,在分別提取文本與圖像特征的基礎上,通過RRF嵌入進行圖文關聯(lián)。該模型旨在利用混合分布特征提取的靈活性和深度特征嵌入的表現(xiàn)力,實現(xiàn)航空安全事件圖文關聯(lián)的方法研究。
航空安全事件中圖文關聯(lián)的研究思路如圖1所示,其中:1)特征提取。考慮到圖像與文本作為兩種不同的模態(tài)擁有完全不同的特征,所以針對兩種模態(tài)先分別采用HGLMM+GMM與FCN方法進行特征向量的提取。2)特征嵌入。將特征提取獲得的圖像特征向量和文本特征向量分別輸入到對應的特征嵌入網(wǎng)絡中,進行參數(shù)更新、非線性激活、RRF特征嵌入與批規(guī)范化,從而得到更深、更具有代表性的特征向量。3)特征融合。將已經(jīng)獲得的文本與圖像特征向量通過內(nèi)積計算映射到同一空間中,在這個空間內(nèi)通過基于余弦距離的雙向排序結果損失函數(shù)計算模態(tài)間的相似度。

圖1 研究思路
由于文本與圖像是兩種表征不同的模態(tài),故分別對其使用相應的特征提取方式。
2.1.1文本特征提取
對于文本信息,采用HGLMM與GMM的組合模型提取特征。令x為隨機變量,單變量情況下的HGLMM為:
h(x;μ,σ,m,s,b)=l(x;m,s)b·g(x;μ,σ)1-b
(1)
式中:l(x;m,s)是參數(shù)化的拉普拉斯分布,m為拉普拉斯分布的位置參數(shù),s為尺度參數(shù),g(x;μ,σ)是參數(shù)化的高斯分布,μ為平均差,σ為標準差,b為控制這兩個分布之間的加權幾何平均。將HGLMM與GMM組合,表示如下:
hg(x;μ,σ,m,s,b)=h(x;μ,σ,m,s,b)+g(x;μ,σ)
(2)
2.1.2圖像特征提取
對于圖像信息,采用FCN對其進行特征提取。FCN是將像素級分類用于語義級別的圖像分割,可以接收任意大小的輸入圖像。FCN通過端到端訓練,輸出融合了精細層與粗略層的全局結構的局部預測。它的網(wǎng)絡層通常由三維數(shù)組表示:
slayer=h×w×d
(3)
式中:h和w是空間維度;d是特征或通道維數(shù)。卷積網(wǎng)絡的層是平行層,令x為網(wǎng)絡中的某一特定層,y為其后繼層,則y層在坐標(i,j)的數(shù)據(jù)向量yij計算公式如下:
yij=fks({xsi+δi,sj+δj}0≤δi,δj≤k)
(4)
式中:k為卷積核尺寸;s為步長;fks決定層的類型(例如卷積或者池化);δ為步長內(nèi)的偏移量。該卷積網(wǎng)絡的損失函數(shù)為最后一層空間維度的總和,梯度也是每層空間梯度的總和。
2.2.1循環(huán)連接
首先,在網(wǎng)絡每個分支的第三個FC層上添加一個循環(huán)連接,使網(wǎng)絡展開為多層。然后,將通過該FC層處理的特征返回輸入,進行循環(huán)的特征處理,從而提取出更深層次的特征向量。特征模塊上的循環(huán)連接如圖2(a)和圖2(b)所示,T為循環(huán)次數(shù)。由經(jīng)驗值得知,T取3時,可提取出最具有表現(xiàn)力的特征。

(a)循環(huán)連接層
2.2.2殘差連接
為這個特征嵌入模塊的輸入向量增添一個殘差連接,也稱一致性連接。該連接是由ResNet啟發(fā)得到的,其優(yōu)點是可以減小過擬合的風險。殘差學習的計算方式如下:
H(x)=F(x)+x
(5)
在ResNet中,F(xiàn)(x)是經(jīng)過一系列層級聯(lián)而成的學習模塊,再將它與原始的輸入特征x相加。同理,一致性連接將輸入的特征向量與經(jīng)過一次FC層、BN層和ReLU層計算得到的特征向量相加,得到新的特征向量。新的特征向量再通過循環(huán)連接返回到輸入,繼續(xù)重復這一步驟,直到循環(huán)次數(shù)結束。一致性連接與循環(huán)連接方向相反,前者用于加強特征,后者用于加深特征。殘差連接的學習方式如下:
h(x)=σ(f(x))+x
(6)
h(xt)=σ(f(xt))+xt
(7)
式中:f(x)表示FC層的輸出;σ(f(x))表示施加給FC層的ReLU函數(shù)。將殘差連接與之前的循環(huán)連接結合,循環(huán)第t次。圖3(a)是ResNet的示意圖,圖3(b)是本文使用的一致性連接。

(a)ResNet層圖示
2.2.3中間特征融合
一般情況下,特征流入部署在FC層的特征嵌入模塊后,經(jīng)過其中的一致性映射以及循環(huán),將輸出一個最終的特征。為了增加中間輸出特征對最后輸出特征的影響,需要對循環(huán)中每一步輸出的特征向量通過卷積融合的方式整合到一起,該過程的計算公式如下:
Sconv=wf×S+bf
(8)
式中:wf和bf分別為權重和偏移量。
融合模塊如圖4所示。

圖4 嵌入模塊的特征融合
2.2.4嵌入分支
由于圖像和文本表征不同,因此采用不同的特征提取方式提取特征,所提出的特征在維度與其他特性上也有所差異。所以特征嵌入分別為它們布置了相同功能以用來處理不同特性特征的分支。分支示意圖如圖5所示,輸入可以是文本或者圖像的提取特征。

圖5 RRF特征嵌入分支圖
該分支有4個FC層。FC1的Dropout函數(shù)用于對輸入特征進行參數(shù)更新,ReLU函數(shù)可以緩解梯度彌散和運算效率的問題。FC2附帶的BN層則用于規(guī)范化數(shù)據(jù),提高網(wǎng)絡泛化能力。FC3用作RRF特征嵌入。FC4對RRF的輸出特征再次進行批規(guī)范化與歸一化。
將文本特征與圖像特征映射到同一空間,其目的是衡量二者的相似性。將圖像x與文本y映射在同一空間的特征分別表示為f(x)與f(y),使用余弦距離度量相似性,距離數(shù)值與相似性呈負相關,其公式如下:
(9)
式中:s(x,y)表示余弦距離度量的計算結果。通過這種方式進行計算,可以使s(x,y)與相似度呈正相關。該損失函數(shù)由圖像到文本的排序損失與文本到圖像的排序損失構成。
2.3.1圖像到文本的排序損失

(10)
式中:N為參與加權的單向損失數(shù)量總和;α1和α2表示權重;m為邊界參數(shù)。
2.3.2文本到圖像的排序損失
(11)
2.3.3雙向排序損失
本文在分析兩種模態(tài)間的單向等級損失之后,將2個損失函數(shù)整合到一起,同時考慮更為豐富的因素,生成雙向的等級損失函數(shù)。公式如下:
(12)
式中:β1、β2分別為衡量圖像-文本、文本-圖像2個單向等級損失的權重。
分別在公共數(shù)據(jù)集Flickr30K和航空安全事件數(shù)據(jù)集上進行實驗。公共數(shù)據(jù)集Flickr30K[21]共有31 783幅圖像,每一幅圖片都相應地標注有5個句子描述,參考Karpathy等的實驗數(shù)據(jù)分布,令其中29 783幅圖像作為訓練集,1 000幅作為驗證集(驗證與訓練一同進行),1 000幅作為測試集。民航領域數(shù)據(jù)集是根據(jù)世界民航事故調查跟蹤信息手工組織得到的民航安全事件數(shù)據(jù)集。該數(shù)據(jù)集共有1 432幅圖像,參考公共數(shù)據(jù)集Flickr30K的形式,對每一幅圖片標注了3個自然語言句子描述,選取了1 232幅圖像作為訓練集與驗證集的合集,200幅作為測試集。
模型訓練在目前流行的深度學習工具Caffe上進行。模型的輸入是針對文本與圖像分別進行特征提取過的特征向量,輸入后根據(jù)維度的不同區(qū)分其特征,進入各自分支進行訓練。FC1輸出的特征通道為2 048,此后均縮小為512以精簡計算量。對于Flickr30K的訓練驗證集中的30 783個訓練樣本,數(shù)據(jù)分1 000批次輸入訓練(在民航安全事件數(shù)據(jù)集上的訓練批次則按比例縮小),將基礎學習率置為0.1,權重變化次數(shù)置為5 000,權重衰減項設為0.000 5,測試間隔為1 000。對于民航安全事件數(shù)據(jù)集的訓練驗證集中的1 232個訓練樣本,數(shù)據(jù)分40批次輸入訓練,學習率與權重衰減項仍為0.1和0.000 5,權重變化次數(shù)為200,測試間隔為200。
本文采用R@K作為對于所研究算法模型效率的評估指標。R@K中R即召回率Recall,K是所取的排名個數(shù)。該指標用來反映排名結果的前K個內(nèi)容中是與另一模態(tài)相匹配結果的召回率。
首先對特征提取算法的效果進行分析。本文使用了HGLMM+GMM作為圖像特征的提取算法。在文獻[13]所提出的2種改進方法中,HGLMM的效果較好,根據(jù)Benjamin等所進行的實驗結果,使用HGLMM+GMM方法的特征提取效果優(yōu)于僅使用HGLMM方法進行特征提取,R@K指標在圖像到文本的檢索與文本到圖像的檢索下均有1%左右的提升。
此外,對于將RRF-NET的2個分支進行融合這一部分,本文同樣選取了一種將兩種模態(tài)映射到同一隱藏空間方式計算相似度的融合方法——典型相關分析[22](Canonical Correlation Analysis,CCA),K分別取1、3和5。
圖6中的R@K結果表明,基于相同的特征提取算法HGLMM+GMM,由于RRF-NET中結合一致性連接和循環(huán)連接對特征作出了深度嵌入,以及該網(wǎng)絡使用的雙向排序損失函數(shù)相對于傳統(tǒng)CCA,相似度計算精度更高,并且表現(xiàn)出在K取值增長時效果的優(yōu)越性,所以使用RRF-NET模型的跨模態(tài)融合結果明顯優(yōu)于傳統(tǒng)的CCA方法。

(a)從文本到圖像檢索的R@K結果
與RRF-NET網(wǎng)絡模型對比的基線模型(Baseline)通過如下方式設置:雙分支,但將RRF-NET模型中的RRF模塊替換為普通FC層,即在每條分支上部署4個FC層。使用上述的基線模型與將第三層部署為RRF模塊的RRF-NET網(wǎng)絡進行比較。
另外,將本文方法與其他一些典型的面向圖像和文本雙模態(tài)的特征嵌入方法進行對比,實驗均在公共數(shù)據(jù)集Flickr30K上進行,K取1和5,實驗結果如表1所示。

表1 Flickr30K數(shù)據(jù)集下的各方法實驗結果比較 %
由Baseline與RRF-NET的對比證實,在網(wǎng)絡架構上使用RRF模塊進行特征嵌入的效果顯著優(yōu)于沒有使用RRF模塊的基線模型。此外本文提出的HG-RRF模型與以往的一些方法相比,都具有表現(xiàn)力足夠強的結果。在K取比較大的數(shù)值時,相應的召回率會有很大幅度的提高。由于特征提取方面做出的對HGLMM結合GMM這一改進,實驗效果相對于僅使用HGLMM提取特征的RRF-NET模型有接近1%的提升。
民航安全事件數(shù)據(jù)集上的圖文關聯(lián)結果如圖7所示,在檢索出的相應結果中尋找對應的事件表示。對于圖像到文字的檢索,用加粗的字體來表示正確的關聯(lián)結果。對于文字到圖像的檢索,使用一個笑臉圖例來表示正確關聯(lián)的結果。

(a)由文本檢索圖像的結果
將本文提出的HG-RRF模型應用在航空安全事件數(shù)據(jù)集上,反映實驗效果的實驗指標R@K如表2所示。這里同樣使用了Baseline模型與HG-RRF模型比較,K取1和3。

表2 航空安全事件數(shù)據(jù)集下的實驗結果比較
可以看出,在航空安全事件數(shù)據(jù)集上,將HGLMM+GMM特征提取與部署了RRF模塊的特征嵌入結合,比在不設置RRF模塊的Baseline網(wǎng)絡上進行,前K個排名結果反映的召回率均得到了顯著的提高。
本文提出一種跨模態(tài)圖文關聯(lián)模型HG-RRF,并將它應用在航空安全事件的數(shù)據(jù)管理上,對圖像與文本進行關聯(lián),實驗表明該圖文關聯(lián)方法有較好的效果,為構建大規(guī)模、多模態(tài)、多來源的航空安全事件信息庫提供方法支撐,同時也能使急需聚焦的安全事件相關信息實現(xiàn)半自動化關聯(lián),提高了知識構建的效率。如何將更多的跨模態(tài)信息(如視頻、音頻等)納入航空安全事件知識圖譜的構建中,還有待進一步研究。