陳 沖,蒙祖強
(廣西大學 計算機與電子信息學院,廣西 南寧 530004)
知識圖譜是由包含頭尾實體以及關系的三元組構成的。隨著大數據技術和多媒體的發展,知識三元組的表示方法也越來越多樣化。由于三元組實體的異構性和多語義性,實體語義經常會發生改變,直接導致知識圖譜出現不同模態的語義缺失。知識補全方法的提出很好解決了這一問題。傳統的知識補全方法主要包括Trans系列方法[1]、基于知識表示的方法[2]、路徑表示法[3]以及基于強化學習的方法[4]。而傳統方法在知識補全中僅考慮了結構上的實體與關系表示,因此不能解決跨模態問題。
張量分解方法[5]的提出為解決跨模態知識圖譜的知識表示提供了新的方向。張量分解模型將多源知識圖譜的實體和關系作為嵌入層的輸入并形成一個高階張量,然后將其分解產生一個核心張量和多個低維張量的運算形式,在知識補全中由其它模式張量對特定張量進行鏈接預測。張量分解通常應用于二元事件、多邊關系推理與知識問答等。
為了增強多模態知識圖譜的補全能力,本文提出了一種運用多模態嵌入進行張量分解的方法ME-TD來解決多種模態的知識補全問題。我們同時考慮兩種模態的信息:實體描述信息和視覺信息,并通過實驗對比多種知識補全模型驗證了基于多種模態實體的嵌入的張量分解方法比單一模態嵌入的TuckER張量分解、傳統TuckER張量分解以及TranE等方法的健壯性要好,并在知識圖譜連接預測的評測任務中取得了較好的效果。主要體現在:①通過描述性文本嵌入的實體和通過視覺嵌入的實體在低維空間中具有共同的語義表征;②文字描述和視覺嵌入在知識圖譜補全中可以相互補充。
TransE方法最早是由Borders等學者首先提出的,在知識圖譜表示學習中,TransE將嵌入向量表示為3個不同的分量,并映射到相同的平面空間,該向量空間被認為是從頭向量向尾向量水平移動的特殊平面。TransE方法假設h+r≈t,其中h,r,t分別表示頭部、關系和尾部的向量,定義三重能量函數為d(h+r,t), 并根據最小化邊緣的排序目標對實體和關系的表示進行學習。雖然該方法能夠根據能量和預定義的邊緣計算出評分更高的三元組,但存在一些缺點:首先是不能很好處理嵌入層多個實體對同一點的競爭,其次是在知識補全中僅能處理一對一的關系,容易造成語義缺失。
由于單一模態的實體之間建立語義關系網已經無法準確表示具有多源類型數據的事件,隨著知識的進一步延伸,我們不可忽略地將文本、圖像、音頻、視頻等文件內容與該知識關系網進行非靜態的語義關聯,并形成功能更為強大的多模態知識庫。基于圖像嵌入的多模態表示學習模型IKRL[6]和基于實體描述的多模態知識表示模型DKRL[7]在同等條件下實現了基于三元組的實體補充,假設E代表模型的能量函數,EM代表多模態實體補充的能量表示,為了使模態實體補充ES和EM的學習過程達成一致,EM被重新定義為:EM=EMM+EMS+ESM。 多模態知識表示學習旨在縮小不同模態之間的異質性差距,在知識補全中發揮著不可或缺的作用。然而,這種方法僅僅是針對其中一種模態來實現定向的多模態表示,無法在模態交互中進行知識補全。
基于張量分解的方法將多模態知識圖譜中的實體與關系之間的語義表示為不同的張量,將得到的高階張量分解為多個低階張量并進行多關系連接預測,以達到知識圖譜補全的目的。以下兩種算法是關于矩陣奇異值張量分解的高階擴展[8,9]。由于張量分解在知識庫鏈接預測中表現較好,許多學者將其與多邊關系推理、計算機視覺、智能推薦系統進行結合。Aaron Schein通過設計不同類型二元事件正態分布的實驗很好驗證了貝葉斯泊松張量分解[10]的有效性。由于單一模態的張量分解無法有效處理深度學習中的多模態問題,Hedi Ben-younes等針對VQA任務提出了一種多模態塔克分解模型MUTAN[11],假設qs表示問題特征的向量集合,vs表示圖片特征向量的集合,三重向量的塔克分解可以表示為T=((Gc×1Wq′)×2Wv′)×3Wo, 其中T∈Rdq×dv×|A|,Gc表示核心向量,Wq,Wv,Wo代表分解后的三重向量。通過這種模型有效地參數化視覺和文本表示之間的雙線性交互,同時保持著友好的融合關系。
為了更有效地將圖像實體、描述文本和知識三元組3種不同模態的信息聯合嵌入到TuckER模型中進行聯合表征,本文提出了一種知識圖譜補全模型——多模態學習改進的張量分解模型ME-TD。與基礎張量分解模型不同,本文方法可以運用于同時包含描述文本、視覺元素的多模態知識圖譜中,采用知識三元組與非結構化數據相分離的特征提取與分析方法[12],并經過多模態聯合表征形成一個三階核心張量,經過三模式的張量分解得到3個不同語義空間的特征矩陣[7,9],通過矩陣的鏈接預測實驗,獲得知識三元組與多模態數據的聯合評分,從而進行知識圖譜的有效補全。
cp張量分解[13]作為最常見的一種張量分解算法,其將一個高維的核心張量表示為n次不同張量的和。假設張量X是在特定位置索引上對應的一個元素,A,B,C分別代表張量X分解后的3個特定因子矩陣,設R為張量分解的次數,r代表張量的秩,λ為權重向量,r秩展開的張量分解表示為
(1)
與cp張量分解不同,TuckER張量分解[5,11]作為高階形式的主成分分析,將輸入維度為 (I,J,K) 的三階張量X∈RI×J×K表示為(P,Q,R)維度的核心張量G∈RP×Q×R和一組矩陣A,B,C共同的乘積,即X≈G×1A×2B×3C, 其中A∈RI×P,B∈RJ×Q,C∈RK×R。 圖1靜態展示了三階張量TuckER原理圖。

圖1 三模式下TuckER分解原理
2.2.1 模型定義
本文將多模態形式的知識圖譜定義為集合K={Em,Rs,T}, 其中Em表示多模態實體的集合,Rs表示[1…s]種不同關系的集合,T表示全部的知識三元組集合。其中Em={e1,e2,…,en},Rs={r1,r2,…,rs}, 三元組T={(h0,r0,t0)},h0表示頭實體,t0表示尾實體,r0表示實體之間的關系。其中ke表示實體的嵌入維度,kr表示關系的嵌入維度。
本文定義了3種模塊化特征表示:描述文本特征表示、視覺模塊表示和知識三元組嵌入的表示。實體描述表示為Ed∈Em, 經過詞嵌入網絡輸出為描述實體特征向量d,視覺的輸入表示為Ev∈Em, 輸出為視覺特征向量v,知識三元組的輸入為Et,經過E-R自編碼器輸出為知識表示向量t,假設ε為激活函數的因子系數。本文多模態融合的目標是利用TuckER學習一個多模態表示評分函數
fm=εf[(d?v)⊕t]
(2)
并通過改進的張量分解模型來判斷每一個多模態表示的三元組是否為正確有效的三元組。
2.2.2 模型組成
本文提出的多模態學習改進的張量分解模型ME-TD原理如圖2所示。文中方法主要包含以下4個部分:描述文本特征提取模型、視覺特征提取模型、多模態融合表示模塊和改進的張量分解模型。

圖2 ME-TD模型原理
2.2.3 描述實體特征提取網絡
在知識圖譜領域中,同一種類別的實體所產生的描述具有相似的性質,而一種文本描述也可以同時關聯多種不同模態的實體[14]。若Description={D1,D2,D3,…,Dn} 表示實體指向的描述文本,調用jieba庫對描述文本進行分詞后得到文本Di的知識元組集,每一個知識元組包含知識圖譜中頭實體、謂語、介詞和賓語代表的尾實體。令Set=[T1,T2,T3,…,Tn] 表示由n行知識文本詞構成的數據集,本章使用了Google于近年來推出的Word2Vec系列的CBOW模型[15-17],通過上下文預測中間詞來對描述文本進行詞嵌入。
為了進一步學習描述文本實體特征,假定存在Ti=[di1,di2…dis,hi,ti1,ti2…tis],Tj=[dj1,dj2…djt,hj,tj1,tj2…tjt], 其中Ti,Tj∈Set, 將Ti作為CBOW網絡的輸入,并表示成一個one-hot獨熱向量,hi可以表示為:x5=[0,0,0…0,1,0,0,0…0], 我們選取語義連貫的三元組表示:(hi,di1,ti1), 并對三元組向量進行求和作為神經網絡模型的輸入,即:X=x1+x5+x6=[1,0,0…0,1,1,0,0…0]。
接下來我們設定輸入層維度為(2S+1),過渡到連接層的參數矩陣為W,連接層的維度為m,參數矩陣為b,過渡到輸出層的維度為m×(2S+1), 最終計算輸出層的維度表示為:do=(1×(2S+1))×((2S+1)×m)×(m×(2S+1))=2S+1, 其中,W、b為待訓練的參數,設J(θ)為損失函數,為了極小化損失函數,本文采用梯度下降法來不斷提供一個極小增量,經過α次訓練最終得到最優參數W′和b′,對應的向量為:W′=W+αΔW,b′=b+αΔb, 假設期望輸出的hi對為:Y_=[0,0,0…0,1,0,0,0…0]。
設σ為激活函數因子,經過連接層得到
D′=(X×W′)×b′
(3)
設y=σ*D′, 即Y=[y1,y2,y3…y2s+1], 總損失函數為
(4)

圖3 i時刻下描述文本預訓練過程
2.2.4 視覺特征提取網絡
與實體文本描述不同,視覺元素在多模態知識圖譜中主要有3種特點:多語義性、多關系性和離散性。在傳統圖像識別與圖像分類中,圖像提取特征的方法包括:SIFT方法[18]、HOG方法[19]以及SURF[20,21]等。近些年隨著企業級知識圖譜中圖形數據的海量擴展以及圖形語義性的增強,圖像實體的形狀、紋理、色彩等不同的特征子空間中皆可存在一定的局部特征[22]。本文使用了來自Oxford大學的VGG團隊提出的通過增加網絡的深度來進行學習的VGG模型[23],相比較AlexNet[24]來說,在卷積核上有了一定的技術改進,通過多次堆疊3×3卷積核來替代原來的大尺度卷積核,在神經網絡的運算過程中不僅能更好區分決策函數,還極大減少了參數的數量。VGG模型的變種VGG19在基于VGG16的基礎上增加了三層3×3卷積核,包括16個卷積層和3個全連接層[25]。


圖4 VGG19模型原理
由圖4可知,在VGG19中,我們使用了3個3×3卷積核代替一個7×7卷積核,即3個步長為1的3×3卷積核組合為一個大小為7的感受野,參數數量達到3×(9×C×C), 相比較7×7卷積核參數量7×(7×C×C) 直接減少了22×C2的參數量,C指神經網絡輸入和輸出的通道數[26]。以上改進不僅能夠在一定程度上控制模型擬合程度,還能有效提升圖像的訓練效果[11,26]。
2.2.5 多模態表示模塊
我們假設T為三模式張量分解的原始張量,分別將圖像的特征表示向量v和描述文本的特征表示d作為模型的一維和二維輸入,再將文本知識三元組的嵌入特征t作為模型的第三維輸入。我們用Wi∈Rke,kr表示圖像、描述文本特征向量以及知識三元組嵌入的映射矩陣,bi為偏置參數。圖像的特征向量v和文本屬性特征向量d分別通過一個完整的全連接層進行維度變換,得到了圖像特征向量v′和文本屬性特征向量d′
v′=v×W1+b1,d′=d×W2+b2
(5)
為了統一表示多模態融合特征,本文提出了3種融合方法:
(1)首先是兩種或3種模態相加融合操作(add-fusion),本文將描述文本特征向量d′和視覺特征向量v′在同一平面上進行相加后得到融合特征向量Mul(v,d), 然后再將Mul(v,d)輸入到第二個全連接層,映射到與文本知識三元組相同維度的語義空間中,得到Mul′(v,d), 將其與嵌入向量t進行相加后得到最終的多模態融合向量Mul(v,d,t)。 多模態融合的定義為
Mul(v,d)=v′+d′=W3(v+d)+b3
Mul′(v,d)=Mul(v,d)×W4+b4
Mul(v,d,t)=Mul′(v,d)+t
(6)
(2)其次是兩種或3種模態的相乘操作(mul-fusion),直接相加的模態融合會帶來一定的噪聲,會失去一部分重要的特征信息[27]。為了在知識圖譜描述中充分體現視覺元素的特征表示,本文將圖像特征表示向量v經過全連接層映射到與描述文本特征向量d相互垂直的超平面中得到特征向量v″,然后與向量d進行相乘操作后得到Mul(v″,d)。 以下為多模態融合運算過程
v″=v×W5+b5
Mul′(v,d)=v″?d
(7)
(3)最后一種是對文本知識三元組特征向量進行連接映射(ConMap-fusion)。將多模態表示特征向量Mul(v″,d)經過全連接層,與知識三元組實體對特征t進行相同維度語義空間的映射,得到C′Mul;t, 然后與特征t進行拼接,得到最終的多模態實體特征表示Mul(v,d,t), 此時多模態融合計算過程為
C′Mul;t=Mul(v″,d)×W6+b6
Mul(v,d,t)=[C′Mul;t;t]×W7+b7
Mul′(v,d,t)=Mul(v,d,t)×W0+b0
(8)
其中,[;] 代表拼接操作,b0表示全連接映射偏參。
2.2.6 改進的張量分解模型
文獻[8]從語義和結構的角度對張量分解方法進行了明確的分析和討論。假設?i∈[1,Dd],j∈[1,Dv],k∈[1,Dt] 為多模態張量函數Ф的3個有限數量的參數,經過張量分解產生 (l,m,n) 維度的三階核心張量Zc以及3個多模態因子矩陣Wd、Wv和Wt,矩陣的秩分別為Td、Tv和T0,則
Wv[j,m]×Wt[k,n]
其中?l∈[1,Td],m∈[1,Tv],n∈[1,T0]
(9)
我們重新定義知識庫MG=(D(d,v),Dt,Rm),D(d,v)可以表示為除了知識三元組外所有類型實體的全部集合,Dt為文本知識構成的節點集合,Rm為所有節點間對應的邏輯關系集合。描述文本嵌入維度為Dd,視覺元素嵌入維度為Dv,知識嵌入維度為A。將Ф(x)表示為改進的塔克分解的評分函數,x代表不同mode的模態。將以上各項應用到塔克分解模型[6,8]中,得到改進后的多模態塔克分解模型。
本文的核心是將改進的三模式TuckER模型的多模態的輸入表示為Ф∈RDd×Dv×|A|, 輸入到模型之后輸出表示為一個核心張量Tc以及3個因子矩陣Wd,Wv,Wt共同的乘積。由主定理可以推導出
Φ(d,v,t)=Tc×1dTWd×2vTWv×3Wt
(10)
其中,Wd∈RDd×Td,Wv∈RDv×Tv,Wt∈R|A|×To,dT和vT分別表示描述實體矩陣和圖像矩陣的轉置運算。其中核心張量Tc∈RTd×Tv×To。模型原理如圖5所示。

圖5 ME-TD分解模型一
參照模型一是將改進的三模式的TuckER模型的多模態的輸入表示為Ф∈RDd×|A|, 輸入到模型之后輸出表示為一個核心張量Tc與兩個因子矩陣Wd,Wt和參照矩陣Wo共同的乘積。由主定理可以推導出
Φ(d,t,o)=Φc×1dTWd×2Wt×3Wo
(11)
其中,Wd∈RDd×Td,Wt∈R|A|×To,dT是d的轉置,代表描述實體的轉置運算。其中Tc∈RTd×To。 模型原理如圖6所示。

圖6 ME-TD分解模型二
參照模型二是將改進的三模式的TuckER模型的多模態的輸入表示為Ф∈RDv×|A|, 輸入到模型之后輸出表示為一個核心張量Tc與兩個因子矩陣Wv,Wt和參照矩陣Wo共同的乘積。由主定理可以推導出
Φ(v,t,o)=Φc×1vTWv×2Wt×3Wo
(12)
其中,Wv∈RDv×Tv,Wt∈R|A|×To,vT是v的轉置,代表圖像矩陣的轉置運算。其中Tc∈RTv×To。 模型原理如圖7所示。

圖7 ME-TD分解模型三
參照文獻[4]、文獻[28]和文獻[31],本文使用了兩個公開數據集FB15K和icews14,經過多模態實體鏈接建立了兩個基于多模態知識庫表示的數據集:FB15K-IMG-DES、icews14-IMG-DES。我們保留描述文本實體與圖像實體所對應的一對一的三元組連接,將一對多、多對一和多對多復雜的關系進行刪除,并剔除沒有關聯關系的多模態實體,得到新的多模態三元組數據集FB15K-IMG-DES與icews14-IMG-DES。實驗數據集信息見表1。

表1 實驗知識圖譜數據集
為了降低過擬合對本次實驗的影響,我們根據驗證集性能并通過隨機搜素算法[32]進行超參數的訓練。為了尋找訓練最優參數,設置實體和關系嵌入維度區間de∈{30,50,100,150,200},dr∈{30,50,100,150,200}, 學習率區間lr∈{0.0005,0.001,0.005,0.01}, 學習衰減率區間lr′∈{1,0.995,0.99,0.95},批量標準化步長區間num_iteration∈{50,100,500}, dropout區間可以設置為(0.3,0.4,0.5)。最后采用批處理化原則[3]來提高訓練的速度。
3.3.1 實驗設計
本次實驗目的是驗證模型ME-TD在知識補全鏈接預測上有更好的效果。鏈接預測指根據負例三元組預測缺失的頭、邏輯關系或尾[6,8,30]。對于給定的多模態知識三元組 (hm,r,tm), 可以根據實體Em和關系r來推測第三個實體,如 (hm,r,?) 和 (?,r,tm), 或根據頭尾實體來間接地推測缺失的關系,如 (hm,?,tm)。 例如:對于兩個知識圖譜三元組(Tokyo,is captial of,Japan)和(櫻花的圖片,is planted on,富士山的圖片),并將第一個三元組的頭實體和尾實體分別與第二個三元組的尾實體和頭實體進行關聯,產生了兩個新的三元組:(pic1,is located in,Tokyo),(pic2,derived from,Japan)。參照文獻[31]和文獻[32],對于測試集中包含的三元組,我們使用正例三元組來替換訓練集中的三元組并創建一組負例三元組,對于每個測試三元組,將測試集實體關系對與所有尾實體tm相結合,生成n個候選三元組,使用鏈接預測函數對每個新三元組進行相似性評分,并對按照分數由高到低進行排序[31,32]。
3.3.2 評估指標
參考文獻[5]、文獻[7],本文選取常規平均排名(MR)、平均倒序排名(MRR)、Hits@10、Hits@3作為知識圖譜鏈路預測的重要指標。計算公式如下

(13)

(14)
(15)
(16)
3.3.3 實驗結果分析
本次實驗環境為:Win10 32位操作系統,物理內存4 G。本文選取TransE和TuckER模型進行對比,采用矩陣預測任務來評價模型的知識補全能力。圖8展現了ME-TD在icews14-IMG-DES數據集上不同的學習率下模型訓練損失值變化曲線,通過預訓練發現ME-TD在lr=0.01時取得最好的損失收斂效果。實驗結果見表2、表3。

表2 FB15K-IMG-DES上各模型鏈接預測比較

表3 icews14-IMG-DES上各模型鏈接預測比較

圖8 ME-TD不同學習率訓練效果變化曲線
實驗結果表明,ME-TD在FB15K-IMG-DES數據集上取得了最低的MR和最高的Hits@3,具體表現如下。
本文方法與傳統的TuckER模型比較,數據集FB15K-IMG-DES在MRR上提高了2.71,在Hits@3上提高了0.14。而TransE則在預測中表現較差,主要原因在于FB15K-IMG-DES數據集實體與實體之間具有更復雜的多模態語義關系。ME-TD不僅能夠在多模態嵌入形成核心張量過程中實現高層的語義互補,而且在三模式張量分解中保持各個模態的相對獨立性,可以預測出更加精準的多模態實體。本文模型相比于IKRL,在Hits@10上提高了0.15,說明基于特定模態的定向知識表示僅僅考慮了定向的圖像語義補充,而忽略了對嵌入在文本描述中的信息進行編碼。相比于TuckER,ME-TD在Hits@10和Hits@3上分別提高了0.18和0.14,說明TuckER僅僅對知識三元組進行嵌入,在張量分解中降低了知識的語義獨立性,因此在預測效果不如ME-TD。
在icews14-IMG-DES上,由于實體之間的語義關系相對簡單,本文ME-TD模型在MRR、MR、Hits@3和Hits@10指標均明顯優于TransE、TuckER模型,較優于IKRL模型,特別是Hits@3達到了0.75,進一步說明了對于不同復雜程度的多模態知識圖譜,ME-TD均能夠學習到更顯著、更全面的多模態知識表征,在鏈接預測中減小正例三元組預測出現錯誤的概率,在知識補全中具有較強的穩定性。
可見ME-TD模型具有較好的基于多模態知識圖譜鏈接預測效果。與此同時,本文模型相較于其它模型能夠有效補充描述文本與視覺元素中的信息,成功將多源知識補充到三元組本身,減小張量分解在三元組預測出現錯誤的幾率。
為了進一步驗證多模態嵌入知識表示方法對張量分解補全模型的積極影響,在FB15K-IMG-DES和icews14-IMG-DES數據集上進行消融實驗,具體設計方法如下:①本次實驗忽略描述文本模態對知識補全的影響,將三元組結構與圖像模態進行融合,并將這種方法記為ME-TD(Vision)。②在數據集上忽略圖像模態對知識補全的影響,將三元組與描述實體進行融合,記為ME-TD(Description)。③同時剔除描述文本和圖像的影響的塔克分解方法,記為ME-TD(TuckER)。在訓練集中設定實體維度de=200,關系維度dr=30,學習率lr=0.01,半衰減率lr’=0.95,訓練步長設定為num_iteration=100,采取和以上實驗相同的評估方法,各個模型仿真結果如表4、圖9和圖10所示。由表4可知,ME-TD在各項指標均優于其它模型,由于文本描述和圖像在高層空間的增強表示,ME-TD(Describtion)和ME-TD(Vision)在各項指標上優于ME-TD(TuckER)方法,實驗驗證了本文提出的模型為多模態知識庫實體鏈接預測提供了很好的幫助,進一步提升了知識圖譜的補全能力。

表4 ME-TD模型在不同知識圖譜上的消融實驗結果

圖9 各模型在FB15K-IMG-DES上鏈接預測結果比較

圖10 各模型在icews14-IMG-DES上鏈接預測結果比較
由圖9和圖10,對于icews14-IMG-DES和FB15K-IMG-DES數據集,MRR和MR表現最優的均是本文模型(ME-TD)。實驗發現,在同時忽略描述實體特征或者圖像特征的情況下,本文模型在各個指標上均受到一定的影響。對于icews14-IMG-DES,在忽略描述文本的條件下,由于圖像信息可以幫助文中模型ME-TD獲取更加顯著的知識圖譜實體特征,所以Hits@10表現最佳,知識補全效果較好。如果忽略圖像實體對知識圖譜的影響,由于自有描述文本實體特征向量失去作用,使得Hits@3和Hits@10相對于傳統模型下降,導致知識補全效果較差。對于FB15K-IMG-DES,由于知識圖譜的具有較為復雜的描述關系,在忽略圖像實體的影響時,描述文本特征能夠代替圖像實體加強知識三元組的語義特征,而描述文本特征失去作用時,圖像實體也可以代替描述文本實體完善知識三元組語義特征。由此驗證描述文本、圖像、知識三元組嵌入的三模式張量分解能夠獲取最佳的知識補全效果。
本文面向知識圖譜補全提出了一種利用多模態嵌入改進的張量分解的模型ME-TD,該方法結合了圖像、描述文本和知識三元組3種模態,經過三模式張量分解完成了兩種模態特征矩陣預測第三種模態矩陣的工作。本文列舉不同的知識圖譜補全模型進行實驗對比,并設計了兩組分別剔除單一模態的消融實驗,實驗結果驗證了ME-TD具有最穩定、效率最好、結果最佳的知識補全效果。在今后的研究中,我們還將從以下方面進一步探索:
(1)本文僅僅考慮了一對一關系的多模態輔助元素的知識補全,接下來將拓展到一對多和多對多復雜關系的知識圖譜補全的探索與研究。
(2)本文在進行多模態嵌入的過程中,僅僅考慮了多模態實體的嵌入,而忽略了關系的類別,因此,下一步工作中將重新設計算法,把關系模式考慮進去,以便獲取更加精確的知識補全結果。