任澤裕,王振超,柯尊旺,李 哲,吾守爾·斯拉木
1.新疆多語種信息技術實驗室,新疆多語種信息技術研究中心,烏魯木齊830046
2.新疆大學 信息科學與工程學院,烏魯木齊830046
3.新疆大學 軟件學院,烏魯木齊830046
在數據領域,多模態用來表示不同形態的數據形式,或者同種形態不同的格式,一般表示文本、圖片、音頻、視頻、混合數據[1]。多模態數據是指對于同一個描述對象,通過不同領域或視角獲取到的數據,并且把描述這些數據的每一個領域或視角叫做一個模態[2]。而多模態數據融合,主要是指利用計算機進行多模態數據的綜合處理[3],負責融合各個模態的信息來執行目標預測。數據融合是一項具有挑戰性的任務。首先,數據是由非常復雜的系統生成的;其次,由于數據多樣性的增多,可以提出的新的可以進行研究的類型、數量以及規模都變得越來越大;第三,為使得各個數據集自身的優勢得以最大程度的利用,使用異構數據集,使得缺點得到一定程度的抑制并不是一項簡單的任務[4]。常見的機器學習算法等均可嘗試應用于多模態數據融合中。
關于多模態的融合方法,大致可分為模型無關的融合方法和基于模型的融合方法兩大類。其中,模型無關的方法較簡單但實用性低,融合過程容易產生損失;基于模型的融合方法較復雜但準確率高、實用性強,也是目前運用的主流方法。
在多模態融合的過程中,融合發生的時間是一個重要的考慮因素。針對不同的融合時期或融合水平,模型無關的融合方法共有三種,每種融合方法都有各自的特點。在不同的實驗中,可以嘗試使用不同的融合方法去得到更好的結果[5]。模態的一些特性,如不同的數據采集速率,對如何同步整個融合過程提出了新的挑戰。以下對三種融合方法做詳細的概述。表1對三種融合方法進行比較。

表1 三種模型無關融合方法性能比較Table 1 Performance comparison of threemodel-independent fusion methods
1.1.1 早期融合
早期融合,又稱為特征融合,是指對模態進行特征提取之后立刻進行的一種融合方式。特征融合的優勢在于可以在早期利用來自不同模態的多個特征之間的相關性,適用于模態之間高度相關的情況。例如,在結合語音識別的音頻和視頻特征時采用早期融合[6]。但對于特征的提取難度較大[7],并不是最理想的融合方法。
這種方法很難表示多模態特征之間的時間同步[8]。由于各種模態的表征、分布和密度可能有所不同,只進行簡單的屬性之間的連接可能會忽視各個模態獨有的屬性和相關性,并可能會產生數據之間的冗余和數據依賴[9]。并要求需要融合的特征在融合之前以相同的格式進行表示。隨著特征數量的增加,很難獲得這些特征之間的交叉相關性。圖1所示為早期融合方法。

圖1 早期融合方法Fig.1 Early fusion methods
1.1.2 后期融合
后期融合,也稱為決策層融合,指的是在每種模態都做出決策(分類或回歸)之后才進行的融合。進行后期融合,需要使用相應的模型對不相同的模態進行訓練,再對這些模型輸出的結果進行融合。與之前的早期融合作比較,該融合方式可以處理簡單的數據異步性。另一個優勢是允許使用最適合分析每種單一模態的方法,如音頻使用隱馬爾可夫模型(Hidden Markov Model,HMM)、圖像使用可支持向量機(Support Vector Machines,SVM)。
但后期融合忽視了多個模態之間的低水平的相互作用,并且融合起來難度較高。由于不同的分類器需要不同的決策,學習過程變得既耗時又費力。圖2所示為后期融合方法的結構。

圖2 后期融合方法Fig.2 Post fusion method
1.1.3 混合融合
混合融合綜合了早期融合與后期融合的優點,但也使得模型的結構變得復雜并加大了訓練的難度。由于深度學習模型所具有的靈活性和多樣性的結構特點,比較適合使用混合融合方法。例如,Ni等人[10]將混合融合方式應用于多媒體分析任務中,提出基于多重BP(Back Propagation)網絡的圖像融合方法,充分利用了各網絡的精度。圖3所示為混合融合方法的結構。

圖3 混合融合方法Fig.3 Hybrid fusion method
綜上所述,三種融合方法各有優勢和劣勢。早期融合可以較容易地找到各個特征之間的關系,卻容易造成過擬合;后期融合可以解決過擬合問題,但不允許分類器同時訓練所有數據[11];混合融合方法較前兩者方法靈活,但是需要針對具體體系結構,根據具體問題與研究內容去選擇較適宜的融合方法。
基于模型的融合方法較模型無關的方法應用范圍更廣且效果更好,現在的研究更傾向于此類方法。常用方法包括多核學習方法、圖像模型方法、神經網絡方法等。
1.2.1 多核學習方法
多核學習(Multi-Kernel Learning,MKL)方法是內核支持向量機(SVM)方法的擴展,是深度學習之前最常用的方法,其允許使用不同的核對應數據的不同視圖[12-13]。由于核可以看作各數據點之間的相似函數,因此該方法能更好地融合異構數據且使用靈活[14]。McFee等人[15]使用MKL從聲學、語義和藝術家的社會觀三方面進行音樂藝術家相似性排序,提出的新的多內核學習(MKL)算法,它可以學習相似的空間項目來產生相似的空間,以最佳方式將所有特征空間組合到一個統一的嵌入空間中。圖4為多核學習的過程。

圖4 多核學習過程Fig.4 Multi-kernel learning process
在某些應用中,可能有來自不同的模態或對應于不同實驗方法的結果的不同信息源,而且每個信息源都有自己的一個或多個內核[16]。該方法的優點是核選擇靈活,損失函數為凸函數(極小值即為最小值),可使用全局最優解訓練模型,提升模型性能??梢栽O計更好的MKL算法提高精度,減少復雜性和訓練時間。
由于在許多應用中,人們提出許多可能的核函數,不是選其中一個而是將它們結合使用,導致在多核學習方法中存在大量的工作。較高的時間復雜度和空間復雜度是導致多核學習方法不能廣泛應用的主要原因。另一個缺點是占用內存大,對訓練數據有一點的依賴性。
1.2.2 圖像模型方法
圖像模型方法也是一種常見的融合方法,主要通過對圖像進行分割、拼接、預測的操作將淺層或深度圖形進行融合,從而得到最終的融合結果[14]。
常見的圖像模型分為生成式(聯合概率)模型和判別式(條件概率)模型。許多研究中使用圖像模型,尤其是在統計自然語言處理方面,集中在生成模型上,這些模型試圖對輸入和輸出的聯合概率分布進行建模[17]。早期主要使用生成模型,如動態貝葉斯網絡(Dynamic Bayesian Networks)[18]、隱馬爾可夫模型。后來的研究中,判別模型更受歡迎,比生成模型更簡單、更容易學習。常見的判別模型如條件隨機場(Conditional Random Field,CRF)[19],對圖像的組成成分進行分類標記[20]。表2對生成模型和判別模型進行比較。

表2 生成模型與判別模型比較Table 2 Comparison of generation model and discrimination model
圖像模型的優勢主要是它們容易發掘數據中的空間結構和時間結構,通過將專家知識嵌入到模型中,使得模型的可解釋性增強。缺點是特征之間具有復雜的依賴關系,并且模型的泛化性不強。
1.2.3 神經網絡方法
神經網絡方法是目前應用最廣泛的方法之一[21]。常使用長短期記憶網絡(Long Short-Term Memory,LSTM)和循環神經網絡(Recurrent Neural Network,RNN)來融合多模態信息。例如利用雙向長短期記憶網絡進行多模態情感識別[22];利用多模態循環神經網絡(multimodal Recurrent Neural Networks,m-RNN),直接將圖像表示和詞向量以及隱向量作為多模判斷的輸入,在圖像字幕處理等任務中表現出良好的效果[23]。
一些研究者通過模型拼湊達到了比多核學習和圖像模型更好的效果。將神經網絡方法應用于多模態融合中具有較強的學習能力、較好的可擴展性。缺陷是隨模態數量的增加,深度學習可解釋性變差,并需要依賴大量的訓練數據。表3對三種基于模型的融合方法進行比較[24-26]。

表3 基于模型的融合方法比較Table 3 Comparison of model-based fusion methods
基于遺傳算法(Genetic algorithm,GA)的神經網絡結構優化是最早用于神經網絡結構搜索和優化的元啟發式搜索算法之一[27]。在21世紀初,一種稱為增強拓撲的神經進化(NEIT)[28]的算法也使用GAs來進化越來越復雜的神經網絡結構,受到了廣泛關注。Shinozaki等人[29]應用GAs和協方差矩陣進化策略來優化DNN的結構,將DNN的結構參數化為基于有向無環圖表示的簡單二進制向量。由于遺傳算法搜索空間可能非常大,并且搜索空間中的每個模型評估都很昂貴,所以使用大型GPU集群的并行搜索來加速該過程。如果設計了網絡體系結構的合適表示,并且在搜索過程中訓練和測試多個體系結構的成本不是非常昂貴,那么這些神經網絡結構搜索和優化技術可以容易地擴展到多模態設置[30]。
貝葉斯優化(Bayesian Optimization,BO)[31]是超參數優化的一種流行選擇,常被用于多模態融合優化[32]。
2.1.1 圖片特征提取
Dalal等人提出的方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征提取算法[33]主要是通過計算圖像局部區域梯度,并將每個局部區域中各像素點梯度的方向直方圖級聯。HOG特征提取算法的基本流程圖如圖5所示。

圖5 HOG特征提取算法的基本流程圖Fig.5 Basic flow chart of HOG feature extraction algorithm
具體步驟如下[34]:
(1)對圖像進行灰度化操作和γ標準化處理。
(2)用中心對稱算子k=[-1,0,1]及轉置計算橫縱坐標的方向梯度。
(3)將圖片分割為多個小方塊,并且每個小方塊由4個單元所組成,每個單元由8×8像素組成。方塊的滑動步長為1個單元。θ(x,y)把[0,π]分為9個小區間。單元中的每一個像素點都為直方圖通道進行權重為g(x,y)的加權投票,從而得到每個單元內9個方向的梯度直方圖。
(4)按照順序級聯9個單元的梯度直方圖,得到圖像的HOG特征μHOG。
2.1.2 文本特征提取
林敏鴻等人[35]采用雙向門控循環網絡(Bidirectional Gate Recurrent Unit,Bi-GRU)構建文本特征提取網絡,并對Bi-GRU層的輸出進行加權以突出關鍵部分,從而獲得更精確的文本特征表達。該網絡結構如圖6所示。

圖6 文本特征提取網絡結構Fig.6 Text feature extraction network structure
在Bi-GRU神經網絡中,將詞向量{ωi1,ωi2,…,ωit}按正向輸入方式得到相應的前向隱藏層輸出{hi1,hi2,…,hit}。hit的計算如式(1):同理,得到相應的后向隱藏層輸出{gi1,gi2,…,git}。

將hit和git拼接得到第t個單詞上下文信息的表示如式(2):

將hit輸入一層隱藏層,用tanh激活得到yit,接而得到標準注意力權重,如式(3)、(4):

文本特征表示Ti,計算公式如式(5):

2.1.3 語音特征提取
語音特征提取是以幀為單位進行提取的。在語音特征提取任務中,一般采用openSMILE工具[36]對語音數據進行特征提取。還有一種就是采用梅爾頻率倒譜系數(Mel Frequency Cepstral Coefficient,MFCC),基于人類聽覺感知(不能感知超過1 kHz的頻率)進行特征提取[37]。MFCC的整個過程如圖7所示。

圖7 MFCC特征提取過程Fig.7 MFCC feature extraction process
在Mel濾波器組處理階段,通過式(6)將普通頻率轉化到Mel頻率:

在動態特征階段,需要增加與倒頻譜特征隨時間變化相關的特征。從時間樣本t1到時間樣本t2的窗口中的信號X在幀中的能量由式(7)表示:

分幀提取的特征信息只反應了本幀語音的特性,為了使特征更能體現時域連續性,可以在特征維度增加前后幀信息的維度。常采用一階差分和二階差分。c()t表示第t幀的MFCC特征。一階差分的計算方法如式(8)所示:

利用多模態信息進行自然語言處理,要明確語音信息、文本信息和視覺模態信息如何進行融合。尤其是利用同源多模態信息或異源多模態信息時的語義融合范式是否相同。
根據具體融合操作不同,可以大致劃分為三種主要的方法:基于拼接和線性組合等簡單融合操作的方法、基于注意力機制的融合方法和基于雙線性池化的融合方法。這三種方法均是通過對特征向量進行相關操作達到多模態信息的融合及表達。
2.2.1 簡單融合操作的方法
深度學習可以通過簡單的操作將來自不同信息源的向量化特征進行融合,如連接或加權求和。這些操作通常有很少或沒有關聯參數,因為深度模型的聯合訓練可以調整高層的特征提取層次以適應相應的操作。方法如下:
(1)連接可以組合低級輸入特征[38-40]或由預先訓練的模型[41-42]提取的高級特征。
(2)對于具有權重的加權求和,利用一種迭代方法實現,該方法要求預先訓練的向量表示具有相同數量的元素,并按照適合元素相加的順序排列[43]。這可以通過訓練一個全連接層來進行維度控制并為每個模態重新排序來實現。
研究表明[44]可以利用漸進探索的神經結構搜索[45]來尋找一些融合功能的合適設置。并且每個融合功能都可以根據需要融合的層以及使用連接或加權和作為融合操作進行配置。
2.2.2 基于注意力機制的方法
目前注意力機制被廣泛用于融合操作。注意力機制指的是由小型“注意力”模型在每個時間步長動態生成的一組標量權重向量的加權和[46-47]。通常使用多個輸出來生成多組動態權重以進行求和。這組注意力的多個輸出可以動態產生求和時要用到的權重,因此最終在拼接時候可以保存額外的權重信息。在將注意力機制應用于圖像時,對不同區域的圖像特征向量進行不同的加權,得到一個最終整體的圖像向量。
(1)圖注意力機制
將用于文本問題處理的LSTM模型進行擴展,得到了一個以LSTM隱藏狀態為條件的圖像注意力模型,該模型的輸入是當前嵌入單詞和參與的圖像特征的拼接[48]。最終利用LSTM的隱藏狀態進行多模態融合的表征,進而可以被應用于視覺問答任務之中。這種基于RNN的編碼-解碼器模型的注意力模型可以用來幫助圖像字幕問題分配注意力權重[49],并且可以通過文本查詢來找到圖像對應的位置。堆疊注意力網絡(Stacked Attention Networks,SANs)同樣也可以使用多層注意力模型對圖像進行多次查詢,逐步推斷出答案,模擬多步驟的推理過程[50]。在每一層中,通過將前一層根據圖像特征和文本特征生成的查詢向量添加到當前注意力模型生成的圖像向量中,生成一個細化的查詢向量并發送到下一層。將這一過程多次迭代,從而得到問題的答案。圖8為視覺問答的堆疊注意力網絡模型圖。

圖8 視覺問答的堆疊注意力網絡Fig.8 Stacked attention network for visual question answers
(2)圖和文本的對稱注意力機制
與圖像注意力機制不同。共同注意力機制使用對稱的注意力結構來生成注意力圖像特征向量和注意力語言向量[51]。平行共注意力機制是利用一種聯合表征方法,推導出圖像和語言的注意力分布。交替共注意力機制則具有級聯結構,首先利用語言特征生成含有注意力的圖像向量,然后利用含有注意力的圖像向量生成出含注意力的語言向量。平行注意力機制和交替注意力機制模型圖如圖9、圖10所示。

圖9 平行共注意力機制Fig.9 Parallel co-attention mechanism

圖10 交替共注意力機制Fig.10 Alternating co-attention mechanism
與平行共注意力網絡類似,雙重注意力網絡(Dual Attention Network,DAN)同時估計圖像和語言的注意力分布,從而獲得注意力特征向量[52]。這種注意力模型以特征和相關的記憶向量為條件。與共同注意力相比,這是一個關鍵的區別,因為使用重復的DAN結構,記憶向量可以在每個推理步驟中迭代更新。
為了模擬模態之間的高階交互作用,兩個數據模態之間的高階相關性可以表示為兩個特征向量的內積,并用于導出兩個模態的參與特征向量[53]。
(3)其他類似注意力機制
門控多模態單元是一種基于門控,為圖像和文本分配注意力權重的方法[54]。該方法基于門控機制動態生成的維度特定標量權重,計算視覺特征向量和文本特征向量的加權和。
2.2.3 基于雙線性池化的融合方法
雙線性池化通過計算外積的方式將視覺特征向量與文本特征向量進行融合,從而創建聯合表示空間,這種方法可以充分利用向量元素間的交互作用。這種方法也被稱為二階池化[55]。與簡單的向量組合操作(假設每個特征向量為n維)不一樣的是,簡單的向量組合操作(如連接、逐位相乘和加權求和)都會生成一個n或2n維的表征向量,而雙線性池化則會產生一個n2維的表征向量。這意味著這種方法更有表現力。
雙線性池化方法同樣可以與注意力機制相結合。通過雙線性池化相關方法,如多模態低秩雙線性池,可以將融合的雙模態表示作為注意力模型的輸入特征,進而得到含有注意力的圖像特征向量,再次使用該方法與文本特征向量融合,得到最終的聯合表示[56]。
深度結構化語義模型[57](Deep Structured Semantic Model,DSSM)在2013年由Huang等人提出,是搜索領域的模型,屬于后期融合。通過使用深度神經網絡(DNN)把兩種不同的模態數據表示為低維度的語義向量,并通過cosine距離計算兩個語義向量之間的距離,最終訓練出語義相似度模型。該模型既可以用來預測語義相似度,又可以獲得某個模態的低維語義向量表達。該模型由輸入層、表示層、匹配層三層結構構成,詳細流程圖如圖11所示,模型圖如圖12所示。

圖11 DSSM模型流程圖Fig.11 Flow chart of DSSM

圖12 DSSM模型圖Fig.12 Illustration of DSSM
3.1.1 輸入層
輸入層的任務是將句子映射到一個向量空間里并將它輸入到DNN中。
英文的輸入層需要借助單詞哈希表來實現,此類方法[57]旨在減少BOW向量的維數。它以字母n-gram為基礎進行單詞的切分,是專門為該任務開發的一種新方法。給定一個單詞(如good),首先給該單詞添加單詞開始和結束標記(如#good#),將單詞分解成字母n-grams,例如字母三元組:#go,goo,ood,od#。最后用字母ngrams的向量來表示這個單詞。采用這種方法可以壓縮空間,較為實用。
3.1.2 表示層
這層主要通過使用DNN將高維稀疏文本特征映射到語義空間中的低維密集特征,最終得到一個128維的低維語義向量。
將特征向量X映射到對應的語義概念向量y,如式(9)~(11):

用tanh作為隱藏層和輸出層的激活函數。
3.1.3 匹配層
查詢和文檔的語義相似性可以用兩個語義向量的余弦相似度來表示。計算余弦相似度的方法如式(12)所示:

其中yQ和yD分別是查詢和文檔的概念向量。給定查詢,文檔按照它們的語義相關性分數排序。
通過softmax函數,根據文檔之間的語義相關性得分,式(13)用來計算給定查詢的文檔的后驗概率:

其中γ是softmax函數中的平滑因子,D為要排序的候選文檔集,在理想條件下包含所有可能的文檔。
此模型[57]的主要貢獻是對之前提出的潛在語義模型在三方面進行了重大拓展。第一,通過直接針對文檔排名的目標來優化所有版本模型的參數;其次,受最近在語音識別方面非常成功的深度學習框架的啟發,使用多個隱藏表示層將線性語義模型擴展到它們對應的非線性模型。所采用的深層架構進一步增強了建模能力,從而可以捕獲和表示查詢和文檔中更復雜的語義結構;第三,使用了一種基于字母n-gram的單詞散列技術,這種技術被證明有助于擴大深度模型的訓練,從而可以在實際的網絡搜索中使用大量的詞匯。DSSM對文檔排序任務的性能提升較為顯著。
在大規模的真實世界數據集(驗證數據集)上對該模型進行評估,評估的所有排名模型的表現均通過NDCG[58]進行比較,表4中的結果表明,深度結構化語義模型表現最佳,以顯著的優勢擊敗了其他方法。其中,表4給出了DSSM在不同環境中的結果。

表4 DSSM與其他模型以及在不同環境下的比較結果Table 4 Comparative results with other models and in different environments of DSSM
對于多模態序列學習而言,模態往往存在兩種形式的交互:模態內關聯與模態間關聯。Zadeh等人提出的記憶融合網絡模型(Memory Fusion Network,MFN)[61]用來處理多模態序列建模,對模態內與模態間進行不同的處理。
記憶融合網絡由三部分組成,分別是:長短期記憶系統、增量記憶注意力網絡和多模態門控存儲器。模型圖[61]如圖13所示,σ代表sigmoid激活函數,τ代表tanh激活函數,⊙代表哈達瑪積,⊕代表元素加法。每個LSTM從一個方面對信息進行編碼,如語言。記憶融合網絡輸入的是一個多模態序列,其中包含N個T維的模態。
3.2.1 長短期記憶系統LSTMs
在每一個模態序列中,一個LSTM隨著時間對特定模態的交互進行編碼。在每個時間點,各個模態的信息被輸入到特定的LSTM中。對于第n個模態,cn表示分配給該模態的LSTM的內存,并用hn表示各個LSTM的輸出,其中dcn為LSTM內存cn的維度。不同序列的輸入、內存和輸出的規模有所不同。
式(14)~(19)為LSTM定義的更新規則[62]:

in、fn、on分別表示第n個LSTM的輸入門、遺忘門和輸出門,mn為第n個LSTM在時間t下的內存更新?!汛砉_瑪積,即元素乘積;σ為sigmoid激活函數。
3.2.2 增量記憶注意力網絡DMAN

3.2.3 多模態門控存儲器
上一層的輸出值直接傳入該組件,用來標識長短期記憶系統的內存中哪些維度構成了跨模態交互。并將c?[t-1,t]輸入神經網絡Du:R2×dc?Rdmem來產生多模態門控存儲器的跨模態更新規則u?t,如式(22)所示。dmem為多模態門控存儲器的維度。

這個更新公式是在對t時刻跨模態交互的觀察的基礎上對多模態門控存儲器進行修改的。
多模態儲器分別由兩組門電路構成,分別為維持門γ1和更新門γ2,并分別由不同的神經網絡控制。γ1負責記錄多模態門控存儲器當前有多少種狀態;γ2負責基于跨模態更新規則u?t對多模態門控的內存進行更新。使用c?[]t-1,t作為輸入的多視角門控存儲器門控機制的Dγ1,Dγ2:R2×dc?Rdmem的控制部分,式(23)為γt1的計算公式:

在MFN遞歸的每一個時間點上,u利用維持門、更新門和當前的跨模態更新規則u?t進行更新,公式(24)如下:

通過用tanh函數來激活ut,用以提高模型的穩定性。多模態門控存儲器較LSTM存儲器有兩個優點:第一,多模態門控存儲器具有更復雜的門控機制,兩個門電路均由神經網絡控制,所以性能更優。第二,多模態門控存儲器的值在每次迭代中不會經歷sigmoid激活,這樣有利于加快收斂。
3.2.4 MFN的輸出
MFN的輸出包括多模態門控存儲器的最終狀態和每個長短期記憶系統的輸出,計算方法如式(25):

其中,hT表示單個序列信息,⊕表示向量的連接。
通過廣泛的實驗,將MFN與多個公開的基準數據集上提出的多模態序列學習的各種方法進行了比較。MFN優于所有多模態方法,優于所有目前最前沿的模型。
Wu等人[63]提出的多模態循環融合模型(Multi-modal Circulant Fusion,MCF),是一種同時使用特征和矩陣的融合方法,通過此模型來發現多模態特征之間的相互作用。MCF的模型圖如圖14(a)、圖14(b)所示。

圖14 多模態循環融合模型Fig.14 Flowchart of multimodal circulant fusion
給定兩個不相同模態的特征向量:視覺特征x∈Ro和文本特征y∈Rn,式(26)、(27)是對投影向量的表示:

其中,W1∈Rd×o和W2∈Rd×n為投影矩陣,負責將兩個輸入要素投影到低維空間。
用投影向量V∈Rd、C∈Rd構造循環矩陣A∈Rd×d和B∈Rd×d,如式(28)、(29):

為了讓投影向量和循環矩陣中的元素充分發揮作用,有以下兩種不同的乘法運算:
第一種選擇使用循環矩陣和投影向量相乘,如式(30)、(31):

第二種是讓循環矩陣的投影向量與每個行向量作哈達瑪積,如式(32)、(33):

其中,ai∈Rd和bi∈Rd為循環矩陣A和B的行向量。
最后,通過一個投影矩陣W3∈Rd×k,將F∈Rd和G∈Rd的元素和向量轉化為目標向量M∈Rk。
在MSVD數據集上,將MCF模型與其他同類模型進行比較,得到表5所示結果。

表5 與其他模型在MSVD數據集上比較Table 5 Comparison with other models on MSVD
多模態網絡架構主要分為三種,即協同架構、聯合架構和編解碼器架構。
協同架構的目標是查找協同子空間中各個模態之間的關聯性。多模態協同架構是將各種單一模態在約束條件的作用下實現相互協同[69]。由于各個模態中所包含的信息有所差異,所以多模態協同架構有助于保留每個模態獨特的特征。
此類架構[70]在跨模態學習中擁有較為廣泛的應用,主流的協同方法是基于跨模態相似性方法,該方法旨在通過直接測量向量與不同模態的距離來學習公共子空間?;诳缒B相關性的方法[71]旨在學習一個共享子空間,從而使不同模態表示集的相關性最大化。圖15為協同融合架構示意圖。

圖15 協同融合架構示意圖Fig.15 Schematic diagram of collaborative integration architecture
跨模態相似性方法在相似性度量的約束下保持模態間和模態內的相似性結構,使得相同語義或相關對象的跨模態相似距離盡可能小,不同語義的距離盡可能大[14]。
Kiros等人提出的模態間排名方法[72]用來解決圖像-文本融合任務,其中x為圖像嵌入向量,v為文本嵌入向量,xk、vk分別為用于文本嵌入的對比圖像和用于圖像嵌入的對比句子。定義分數函數s(x,v)=xv,等價于余弦相似度。對排名的損失函數表示如公式(34)所示:

此類方法較好地保存了各個模態之間的相似性結構。協同架構的優點是每個獨立的模態都可以運行,這個優點有助于跨模式的遷移學習,目的是在各個模態之間傳遞信息。但此類架構的缺點是模態融合難度比較大,同時模型很難在多種(兩種以上)模態之間實現遷移學習。
聯合模態是指將多模態空間映射到共享語義子空間中,從而融合多個模態特征[69]。每個獨立模態通過各自單獨的編碼之后,就會被映射到共享子空間中,依據這樣的方法,在情感分析、語音識別等多模態的分類和回歸任務中都表現優異。圖16為聯合融合架構示意圖。

圖16 聯合融合架構示意圖Fig.16 Schematic diagram of joint fusion architecture
聯合架構的核心是實現特征“融合”,直接相加是一種最簡單的方法。此方法在不同的隱藏層之間形成共享語義子空間,將經過轉換的每個單模態特征向量的語義進行組合,從而完成多模態間的融合,方法如式(35):

其中,W為權重,x代表每個單模態,f將單個模態的語義映射到共享語義子空間上,g為最終的結果。
以上方法雖然實現簡單,但容易造成語義丟失,“乘”方法優化了它的這一缺點,讓特征語義得到充分的融合。表達式如式(36):

其中,v表示各個模態,?表示外積(即兩個向量的向量積)。
此類架構對單個模態的語義的完整性有著比較高的要求,對于數據的不完整在后期的融合之中會被解決。文獻[73]通過各個模態的特征之間的相關性,來找出多個模態之間的關聯,并對這些特征進行分類后使用,在視頻分類任務中的使用效果顯著。
聯合架構較其他架構而言,具有融合方式簡單的優點,其共享子空間擁有語義不變性,這有利于模型中將一種模態轉化為另一種模態。缺點是每個單獨的模態在早期較難處理和發現。
此類架構一般在需要將一種模態映射到另一種模態的多模態轉換時使用,由解碼器與編碼器兩個部分組成。編碼器將初始模態映射到向量中,解碼器基于之前的向量生成一個新模態。編解碼器架構在視頻解碼、圖像標注、圖像合成等研究領域具有十分廣泛的應用。
此類架構的優點是可以在初始模態的基礎上生成一個新的模態。缺點是每一個編碼器和解碼器只能唯一的編碼一種模態。圖17為編碼器融合架構示意圖。

圖17 編解碼器融合架構示意圖Fig.17 Schematic diagram of codec fusion architecture
多模態融合技術,它融合了聽覺、視覺、嗅覺、觸覺等多種交互方式,使得表達信息的效率和表達信息的完整度更高。多模態以其描述對象的完全性,在多個領域有廣泛的應用。以下列舉幾個比較常見的應用。
從不確定目標中檢索特定時刻。以2D形式來表示不同的時間片段,為每個時間片段賦予預訓練視頻特征和語言特征的融合。關注的任務為時序動作檢測,即需要在給定的長視頻中,檢測出其存在的動作片段類別,并定位出動作開始和結束的時間點。
Zhang等人提出了一種新的2D時間鄰接網絡[74],核心思想是在二維時間圖上檢索一個時刻,該時刻將相鄰的候選時刻視為時間上下文,該模型可以擴展到其他時間定位任務,如時間動作定位、視頻重定位等。圖18為2D時間鄰接網絡。

圖18 2D時間鄰接網絡框架圖Fig.18 2D time adjacency network frame diagram
提出的2D時間相鄰網絡的框架。它由用于語言表示的文本編碼器、用于視頻表示的2D時間特征映射提取器和用于矩定位的時間鄰近網絡組成。在模型中,給定一個未剪輯的視頻和一句話做實驗,來檢索最佳匹配的臨時段。2D時間特征圖部分主要負責提取輸入的視頻中的特征,并將這些特征編碼成二維時間特征圖。在該部分首先對將視頻分割為多個視頻剪輯,二維時間特征圖由三個維數組成,前兩維表示開始和結束片段索引,最后一維表示特征維度(A∈RN×N×Dv)在文本編輯器中,對于句子中的每一個單詞通過GloVe word2ve模型生成其嵌入向量;再將嵌入向量輸入一個三層雙向LSTM網絡[62],并使用其最后一層隱藏層作為輸入句子的特征表示。提取出的語言和視頻特征表示之后,從所有候選中預測句子所查詢的最佳匹配時刻。它主要包括三個連續的過程:多模態融合、上下文建模和分數預測。(B,C∈RN×N×DH)
此類應用是指在輸入兩種或多種模態信息(通常包括文本、視頻、圖像、語音等信息)之后,輸出一段對多種模態信息綜合之后的總結概括。如何使用相關文本、音頻和視頻信息生成文本摘要。
Li等人提出了一種提取多模態摘要的方法[75],可以自動生成一個文本摘要給定的一組文件、圖像、音頻和視頻有關的一個特定的主題。關鍵思想是縮小多模態內容之間的語義差距。對于音頻來使用圖像作為對齊來指出文檔中的重要句子。對于文本信息,設計了一種選擇性使用其轉錄的方法。對于視覺信息,使用神經網絡學習文本和圖像的聯合表示。最后,考慮所有的多模態方面,通過預算優化子模態函數,最大化顯著性、非冗余性、可讀性和圖像覆蓋范圍,生成文本摘要。多模態模型的框架圖如圖19。

圖19 多模態摘要模型框架圖Fig.19 Schematic diagram of multimodal abstract model
情感分析作為近幾年研究的一個熱點問題,受到廣大研究者的青瞇。之前的情感分析大多指文本情感分析,是指利用自然語言處理和文本挖掘技術,對帶有情感色彩的主觀性文本進行分析、處理和抽取的過程[76]。
近一段時間研究者們開始探索視覺方面情感分析的新思路,并取得了一些進展,并將研究方向轉向了多模態中的圖像。
Truong等人提出了一種利用視覺信息進行情感分析的新方法[77],稱為視覺方面注意力網絡。該模型有一個分層的三層架構,將表示從單詞聚合到句子,然后聚合到特定于圖像的文檔表示,最后聚合到最終的文檔表示。基于這樣的觀察,即一個句子傾向于集中在特定的東西上,就像每個圖像一樣,設計了一個模型。該模型的最底層是一個單詞編碼器,負責把單詞轉化成句子表示。中間層是句子編碼層,借助于視覺方面的注意力,將句子表示轉化為文檔表示。頂層為分類層,負責為文檔添加情感標簽。模型圖如圖20所示。

圖20 視覺注意力網絡Fig.20 Visual attention network
對人機對話系統的研究一直以來都是人工智能研究領域中的一個重要的研究方向。人們希望能夠與機器進行類似于人與人之間的自然的交流,然而由于自然語言本身的復雜性遠高于人造語言,因此對自然語言的處理到目前仍十分具有挑戰性,也是人工智能領域最為困難的問題之一。難點主要包括:內容的有效界定、語言的歧義性和瑕疵輸入的處理。其中最難以處理的問題是如何消除在對話過程中廣泛存在的歧義性。
盡管此前在許多研究中提出了不同的解決方法并取得了不錯的處理效果,但大多數是基于單一模態信息提出的解決方案,例如:文本處理和語音識別等。而在交流的過程中,信息的傳遞通常是通過多種形式進行的,如語音、肢體語言和面部表情等。而不同的模態信息在信息的表達性上具有不同層次的效果,因此在許多情況下難以通過某種單一模態的信息了解到信息傳遞者所要表達的完整意圖。
而多模態人機對話系統則是充分利用了多模態信息之間的互補性,綜合來自同一實例的音頻、視頻、圖像、語義等信息進行識別工作,以獲得更完整、更好的表達特征,對解決語言理解的歧義性具有很好的效果,如圖21所示。例如,當用戶詢問“這本書的價格”時,對話系統需要通過視頻根據用戶的肢體動作來判斷出用戶所詢問的書目信息進而做出相應反饋。

圖21 基于視覺-音頻的多模態識別模型圖Fig.21 Visual-audio multimodal recognition model diagram
Le等人[78]開發了一個基于視頻的對話系統,在該系統中是基于給定視頻的視覺和聽覺方面進行對話,比傳統的基于圖像或文本的對話系統更具挑戰性,因為視頻的特征空間跨越多個圖像幀,使得難以獲得語義信息;以及對話代理必須感知和處理來自不同模態(音頻、視頻、字幕等)的信息來獲得全面的了解。而大多數現有的工作都是基于RNNs和序列到序列的架構,這對于捕獲復雜的長期依賴關系(如在視頻中)不是很有效。為了克服這一點,提出了多模態變壓器網絡(MTN,一個基于多頭注意力的神經網絡,可以在多模態環境下產生良好的會話應答)來編碼視頻和合并來自不同模態的信息。模型的整體框架如圖22所示。

圖22 多模態轉換網絡架構Fig.22 Multi-modal conversion network architecture
Cui等人[79]提出了用戶注意力指導的多模態對話系統。模型的整體框架圖如圖23所示,該框架的任務是生成回復文本和選擇回復圖像,希望通過利用多模態對話的形式,結合不同模態信息,以給用戶更加直觀的印象,同時能夠更加清晰地了解用戶的表達。從高層的角度來看,雙向RNN模型被用于編碼用戶和聊天機器人之間的話語級交互。對于低層視角,多模態編碼器和解碼器能夠分別編碼多模態話語和生成多模態響應。多模態編碼器在分類-屬性組合樹的幫助下學習圖像的視覺呈現,然后視覺特征通過注意機制與文本特征交互;而多模式解碼器根據對話歷史選擇所需的可視圖像并生成文本響應。為了評估提出的模型,該文作者在零售領域的公共多模態對話數據集上進行了大量實驗。實驗結果表明,通過整合多模態話語和基于用戶屬性級注意力的視覺特征編碼,模型效果優于現有的先進方法。

圖23 用戶注意力指導的多模態對話系統模型Fig.23 User attention guided multimodal dialog system model
深度學習技術以數據驅動學習的特點,在自然語言處理、圖像處理、語音識別等領域取得了巨大成就[80]。由于深度學習模型具有數據量大、神經網絡層數較深、結構復雜等特點,使得可解釋性變差,是人工智能領域中的一大挑戰。因為在數據通過神經網絡并得出相關預測結果時,人們往往難以解釋其產生的原因,這樣就會導致在很多時候研究人員不清楚如何修正和優化神經網絡,進而提高其效率或避免其在應用過程中產生難以挽回的錯誤。
多模態融合技術通過充分利用多模態信息之間的互補性,能夠獲得更完整、更好的特征表達。使得在保證模型效果的情況下,在學習的過程中對不同的特征獲得不同程度的強化,這對深度學習的可解釋性有一定的幫助。在此基礎之上可以進一步引入注意力機制,這種方法在保證模型效果的前提下,通過引入注意力向量,對信息特征及多模態深度學習網絡中的隱藏層特征賦予不同的權重,并在訓練過程中對該權重進行學習,進一步加強了其學習效果。通過利用各個特征對于模型學習的重要性程度對模型進行理解,進而達到解釋模型的效果。
本文總結了多模態數據融合的研究現狀,總結分析多模態融合方法、單一模態的表示、融合完成后信息的表示、多模態深度學習模型、融合架構。多模態融合方法分為模型無關的融合方法和模型相關方法兩種。模型無關方法有早期、晚期、混合融合三種;模型相關方法包括多核學習方法、圖像模型方法和神經網絡方法三種。單一模態的表示、融合完成后信息的表示是融合過程的基礎,確保特征提取及融合過程中信息的完整性是融合成功的關鍵。
由于單一模態缺乏多樣性,現如今的研究者已經開始著手進行多模態的輸入與輸出,當輸出信息包含多種模態時,可以盡可能達到研究者的期望。例如當給出一段外文視頻,對其中的語言并不熟悉時,可以通過圖片和視頻大致領會重要內容。在未來的研究中,跨模態學習將會變成一個熱點問題,在各個研究領域都會有廣泛的應用。人工智能的最終目的是設計出完全與人類智能相媲美的智能計算機系統[81]。而單一的自然語言處理、計算機視覺和語音識別技術從一種模態對信息的理解與人類的行為之間有著較為明顯的差異。所以多模態的應用比單一模態更接近人類的行為。作為一種能讓機器更加貼近人類行為的技術,跨模態學習有望在未來獲得全面的發展。
下一步可利用多模態交互在空間上可以更快、效率更高、交互識別準確率更高的優勢,而且對于關鍵的任務完成率更高的特點,針對多模態人機交互融合進行研究。單一的交互模式有時候在交互過程當中會有一定的局限性,并且交互效率較低,而采用多模態融合交互模式會解決這些問題。并對模態間的語義沖突、多模態融合程度評價標準等研究不充分的問題進一步研究,推動該技術在機器學習的一些新的領域中的發展。