999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向深度學習的多模態融合技術研究綜述

2020-05-20 10:24:32張彩慶李小珍張德海
計算機工程 2020年5期
關鍵詞:語義模態深度

何 俊,張彩慶,李小珍,張德海

(1.昆明學院 信息工程學院,昆明 650214; 2.云南大學 a.外國語學院; b.軟件學院,昆明 650206)

0 概述

近年來,深度學習(Deep Learning,DL)在圖像識別、機器翻譯、情感分析、自然語言處理(Natural Language Processing,NLP)等領域得到廣泛應用并取得較多研究成果,為使機器能更全面高效地感知周圍的世界,需要賦予其理解、推理及融合多模態信息的能力,并且由于人們生活在一個多領域相互交融的環境中,聽到的聲音、看到的實物、聞到的味道都是一種模態,因此研究人員開始關注如何將多領域數據進行融合實現異質互補,例如語音識別的研究表明,視覺模態提供了嘴的唇部運動和發音信息,包括張開和關閉,有助于提高語音識別性能。可見,利用多種模式的綜合語義對深度學習研究具有重要意義。深度學習中的多模態融合技術(Multimodality Fusion Technology,MFT)[1]是模型在分析和識別任務時處理不同形式數據的過程。多模態數據的融合可為模型決策提供更多信息,從而提高決策總體結果的準確率,其目標是建立能夠處理和關聯來自多種模態信息的模型。

MFT主要包括模態表示、融合、轉換、對齊技術[2]。由于不同模態的特征向量最初位于不同的子空間中,即具有異質性,因此將影響多模態數據在深度學習領域的應用[3]。為解決該問題,可將異構特征投影到公共子空間,由相似向量表示具有相似語義的多模態數據[4]。因此,多模態融合技術的主要目標是縮小語義子空間中的分布差距,同時保持模態特定語義的完整性,例如利用多模態融合特征,提高視頻分類[5]、事件檢測[6-7]、情感分析[8-9]、跨模態翻譯[10]等跨媒體分析性能。特別是多模態融合近期在計算機視覺、NLP和語音識別等應用中取得的突出性成果[11],已引起學術界和工業界的廣泛關注。本文根據多模態融合架構、融合方法、模態對齊方式和公開數據資源等,對面向深度學習的多模態融合技術進行分析與研究。

1 多模態融合架構

多模態融合的主要目標是縮小模態間的異質性差異,同時保持各模態特定語義的完整性,并在深度學習模型中取得較優的性能。多模態融合架構分為[2]:聯合架構,協同架構和編解碼器架構。聯合架構是將單模態表示投影到一個共享語義子空間中,以便能夠融合多模態特征。協同架構包括跨模態相似模型和典型相關分析,其目標是尋找協調子空間中模態間的關聯關系。編解碼器架構是將一個模態映射到另一個模態的多模態轉換任務中。3種融合架構在視頻分類、情感分析、語音識別等領域得到廣泛應用,且涉及圖像、視頻、語音、文本等融合內容,具體應用情況如表1所示。

表1 3種多模態融合架構的應用情況

Table 1 Application situation of three architectures for multimodal fusion

架構應用領域融合內容參考文獻聯合架構視頻分類語音、視頻、文本文獻[5,12]事件檢測語音、視頻、文本文獻[7]情緒分析語音、視頻、文本文獻[13-14]視覺問答圖像、文本文獻[15-16]情感分析語音、視頻、文本文獻[17]語音識別語音、視頻文獻[18]協同架構跨模態搜索圖像、文本文獻[19-20]圖像標注圖像、文本文獻[21]跨模態嵌入圖像、視頻、文本文獻[22-23]轉移學習圖像、文本文獻[24]編解碼器架構圖像標注圖像、文本文獻[25]視頻解碼視頻、文本文獻[26-27]圖像合成圖像、文本文獻[28]

1.1 聯合架構

多模態融合策略是集成不同類型的特征來提高機器學習模型性能,消除不同模態的異質性差異。聯合架構是將多模態空間映射到共享語義子空間中,從而融合多個模態特征[2],如圖1所示。每個單一模態通過單獨編碼后,將被映射到共享子空間中,遵循該策略,其在視頻分類[12]、事件檢測[7]、情感分析[13-14]、視覺問答[15-16]和語音識別[17-18]等多模態分類或回歸任務中都表現出較優的性能。

圖1 聯合融合架構示意圖

多模態聯合架構的關鍵是實現特征“聯合”,一種較簡單的方法是直接連接,即“加”聯合方法。該方法在不同的隱藏層實現共享語義子空間,將轉換后的各個單模態特征向量語義組合在一起,從而實現多模態融合,如式(1)所示:

(1)

其中,z是共享語義子空間中的輸出結果,v是各單模態的輸入,w是權重,下標表示不同的模態,通過映射f將所有子模態語義轉換到共享子空間。

另一種常用方法是“乘”聯合方法,如文獻[29]將語言、視頻和音頻等模態融合在統一的張量中,而張量是由所有單模態特征向量的輸出乘積構成,如式(2)所示:

(2)

其中,z表示融合張量后的結果輸出,v表示不同的模態,?表示外積算子。

盡管“加”聯合方法簡單且容易實現,但其特征向量語義組合容易造成后期語義丟失,使模型性能降低,而“乘”聯合方法彌補了這一不足,通過張量計算使特征語義得到充分融合,例如文獻[17]的多模態情感預測模型由包括許多內部乘積的連續神經層組成,其充分利用深度神經網絡的多層性質,將不同模態有序分布在不同層中,并在模型訓練過程中動態實現向量語義組合。

此外,聯合架構對每個單模態的語義完整性有較高要求,數據不完整或錯誤問題在后期融合中會被放大,一些研究人員通過聯合訓練或模態相關性來解決這一問題。文獻[30-31]通過多模態聯合處理某些單模態中的部分數據缺失問題,以便可以利用更多且更完整的訓練數據,或者在一種或多種模態數據缺失的情況下,盡量減少對后續訓練任務的影響。文獻[12]利用各單模態特征之間的相關性(如權重相似性)來發現模態之間的關系,從而對這些特征進行分類使用,該方法在視頻分類任務中的實驗結果表明其有助于提高機器學習模型性能。

多模態聯合架構的優點是融合方式簡單,且共享子空間通常具備語義不變性,有助于在機器學習模型中將知識從一種模態轉換到另一種模態。其缺點是各單模態語義完整性不易在早期發現和處理。

1.2 協同架構

多模態協同架構是將各種單模態在一些約束的作用下實現相互協同[2]。由于不同模態包含的信息不同,因此協同架構有利于保持各單模態獨有的特征和排它性,如圖2所示。

圖2 協同融合架構示意圖

協同架構在跨模態學習中已經得到廣泛應用,主流的協同方法是基于交叉模態相似性方法,該方法旨在通過直接測量向量與不同模態的距離來學習公共子空間[32]。基于交叉模態相關性的方法旨在學習一個共享子空間,從而使不同模態表示集的相關性最大化[4]。

交叉模態相似性方法在相似性度量的約束下保持模態間和模態內的相似性結構,使得相同語義或相關對象的跨模態相似距離盡可能小,不同語義的距離盡可能大,例如文獻[23]提出的模態間排名方法用于完成視覺和文本融合任務,將視覺和文本的匹配嵌入向量表示為(v,t)∈D,融合目標函數用一個損失函數f表示,如式(3)所示:

(3)

其中,α是邊緣,S是相似性度量函數,t-是與v不匹配的嵌入向量,v-是與t不匹配的嵌入向量,且t-和v-是隨機選擇的樣本。該方法保持了模態間和模態內的相似性結構,同時實現模態之間相互協同。此外,文獻[22,33-34]采用其他方法來度量距離,如歐式距離,其目的都是使配對樣本距離最小化。除了學習模態間相似性的度量外,跨模態應用的另一個關鍵問題是保持模態間相似性結構,此類方法通常對模態特征的類別進行分類,使它們在每種模態下具有一定的區分度[19],同時兼顧模態協同和特征融合。由于協同架構的這一靈活特點,使其在語音識別、遷移學習和圖像標注等領域都有廣泛應用。

協同架構的優點是每個單模態都可以獨立運行,這一特性有利于跨模式遷移學習,其目的是在不同模態或領域之間傳遞知識。其缺點是模態融合難度較大,使跨模態學習模型不容易實現,同時模型很難在兩種以上的模態之間實現遷移學習。

1.3 編解碼器架構

編解碼器架構通常用于將一種模態映射到另一種模態的多模態轉換任務中,主要由編碼器和解碼器兩部分組成。編碼器將源模態映射到向量v中,解碼器基于向量v生成一個新的目標模態樣本。該架構在圖像標注、圖像合成、視頻解碼等領域有廣泛應用,如圖3所示。

圖3 編解碼器融合架構示意圖

目前,編解碼器架構重點關注共享語義捕獲和多模序列的編解碼問題。為有效捕獲源模態和目標模態兩種模態的共享語義,主流的解決方案是通過一些正則化術語保持模態之間的語義一致性,需確保編碼器能正確檢測和編碼信息,而解碼器能推理高級語義和生成語法,以保證源模態中語義的正確理解和目標模態中新樣本的生成。為解決多模序列的編碼和解碼問題,需訓練一個靈活的特征選擇模塊,而訓練序列的編碼或解碼可以看作順序決策問題,因此通常需采用決策能力強的模型和方法處理該問題,例如深度強化學習(Deep Reinforcement Learning,DRL),其是一種常用的多模序列編解碼工具[35]。

盡管多數編解碼器架構只包含編碼器和解碼器,但也有一些架構是由多個編碼器或解碼器組成。例如:文獻[36]提出一種跨樂器翻譯音樂的模型,其中涉及一個編碼器和多個解碼器;文獻[37]是一種圖像到圖像的翻譯模型,由多個內容編碼器和樣式編碼器組成,每個編碼器都負責一部分工作。

編解碼器架構的優點是能夠在源模態基礎上生成新的目標模態樣本。其缺點是每個編碼器和解碼器只能編碼其中一種模態,并且決策模塊設計復雜。

2 多模態融合方法

多模態融合方法是多模態深度學習技術的核心內容,本文將從融合技術的角度出發對早期、晚期和混合融合方法[38-39]進行分析。多模態融合方法如表2所示。

表2 多模態融合方法

將多模態融合方法分為模型無關的方法和基于模型的方法,前者不直接依賴于特定的深度學習方法,后者利用深度學習模型顯式地解決多模態融合問題,例如多核學習(Multiple Kernel Learning,MKL)方法、圖像模型(Graphical Model,GM)方法和神經網絡(Neural Network,NN)方法等。

2.1 模型無關的融合方法

模型無關的融合方法可以分為早期融合(基于特征)、晚期融合(基于決策)和混合融合[11]。如圖4所示,早期融合在提取特征后立即集成特征(通常只需連接各模態特征的表示),晚期融合在每種模式輸出結果(例如輸出分類或回歸結果)后才執行集成,混合融合結合早期融合方法和單模態預測器的輸出。

圖4 3種模型無關的多模態融合方法

2.1.1 早期融合方法

為緩解各模態中原始數據間的不一致性問題,可以先從每種模態中分別提取特征的表示,然后在特征級別進行融合,即特征融合。由于深度學習本質上會涉及從原始數據中學習特征的具體表示,從而導致有時需在未抽取特征之前就進行數據融合,因此特征層面和數據層面的融合均稱為早期融合。

模態之間通常是高度相關的,但這種相關性在特征層和數據層提取難度很大。文獻[52]認為,不同的數據流所包含的信息之間在較高層次才能具有相關性。文獻[53]提出多模態數據的早期融合不能充分展示模態之間的互補性,但可能導致冗余向量的輸入。因此,研究人員通常采用降維技術來消除輸入空間中的冗余問題,例如文獻[54]中的主成分分析(Principal Component Analysis,PCA)方法被廣泛應用于多模態深度學習的降維處理中。此外,多模態早期融合方法還需解決不同數據源之間的時間同步問題,文獻[55]提出多種解決同步問題的方法,如卷積、訓練和池融合等,能較好地將離散事件序列與連續信號進行整合,實現模態間的時間同步。

2.1.2 晚期融合方法

晚期融合方法也稱為決策級融合方法,深度學習模型先對不同模態進行訓練,再融合多個模型輸出的結果。因為該方法的融合過程與特征無關,且來自多個模型的錯誤通常是不相關的,因此該融合方法普遍受到關注。目前,晚期融合方法主要采用規則來確定不同模型輸出結果的組合,即規則融合,例如最大值融合、平均值融合、貝葉斯規則融合以及集成學習等規則融合方法[56]。文獻[55]嘗試將早期和晚期融合方法進行比較,發現當模態之間相關性比較大時晚期融合優于早期融合,當各個模態在很大程度上不相關時,例如維數和采樣率極不相關,采用晚期融合方法則更適合。因此,兩種方法各有優缺點,需要在實際應用中根據需求選擇。

2.1.3 混合融合方法

混合融合方法結合了早期和晚期融合方法,在綜合兩者優點的同時,也增加了模型的結構復雜度和訓練難度。由于深度學習模型結構的多樣性和靈活性,比較適合使用混合融合方法,因此在多媒體、視覺問答、手勢識別[57]等領域應用廣泛。文獻[58]在視頻和聲音信號融合過程中,先進行僅基于視頻信號和聲音信號的視聽深度神經網絡模型訓練,分別產生模型預測結果,再將視頻信號和聲音信號的集成特征輸入視聽深度神經網絡模型中產生模型預測結果,最后采用加權方式整合各模型的預測結果,獲得最終識別結果。混合融合方法的組合策略的合理性問題是提高模型性能的關鍵因素。文獻[42]利用混合融合方法實現多媒體事件檢測的典型應用,通過早期融合與晚期融合來捕捉特征關系和處理過擬合問題,設計雙融合的混合融合方案,達到88.1%的準確率,是目前該領域取得的最優結果。

綜上,3種融合方法各有優缺點,早期融合能較好地捕捉特征之間的關系,但容易過度擬合訓練數據。晚期融合能較好地處理過擬合問題,但不允許分類器同時訓練所有數據。盡管混合多模態融合方法使用靈活,但研究人員針對當前多數的體系結構需根據具體應用問題和研究內容選擇合適的融合方法。

2.2 基于模型的融合方法

基于模型的融合方法是從實現技術和模型的角度解決多模態融合問題,常用方法包括MKL、GM、NN方法等。

2.2.1 多核學習方法

MKL是內核支持向量機(Support Vector Machine,SVM)方法的擴展,其允許使用不同的核對應數據的不同視圖[59]。由于核可以看作各數據點之間的相似函數,因此該方法能更好地融合異構數據且使用靈活,在多目標檢測[43]、多模態情感識別[44]和多模態情感分析[45]等領域均具有非常廣泛的應用。文獻[60]使用MKL從聲學、語義和社會學等數據中進行音樂藝術家相似性排序,將異構數據集成到一個單一、統一的相似空間中,該方法較符合人類的感知。文獻[61]在阿爾茨海默病分類中使用MKL進行多模態融合,通過在高斯核上進行傅里葉變換,顯式計算映射函數,從而得到一個更簡單的解決方案,其是一種較新的多核學習框架。這兩個研究成果都具有可擴展性和易于實現的特點,并取得了非常出色的學習性能。

除了核選擇的靈活性外,MKL的另一個優勢是損失函數為凸,允許使用標準優化包和全局最優解進行模型訓練,可大幅提升深度神經網絡模型性能。MKL的主要缺點是在測試期間需要依賴訓練數據,且占用大量內存資源。

2.2.2 圖像模型方法

GM是一種常用的多模態融合方法,主要通過圖像分割、拼接和預測對淺層或深度圖形進行融合,從而生成模態融合結果。常見圖像模型有聯合概率生成模型和條件概率判別模型[62]等。早期人們多數使用生成模型進行多模態融合,如耦合和階乘隱馬爾可夫模型、動態貝葉斯網絡等,這些模型充分利用聯合概率的預測能力進行建模,但不利于實現數據的空間和時間結構。近期提出的條件隨機場(Conditional Random Fields,CRF)方法通過結合圖像描述的視覺和文本信息,可以更好地分割圖像[63],并在多模態會議分割[64]、多視點隱藏[65]、潛在變量模型[66]、多媒體分類任務、連續版本的數據擬合等方面都有較好的融合效果。GM方法利用回歸模型對多個連續版本的數據進行擬合,預測后續版本數據的趨勢,從而提高多媒體分類任務的性能。

GM融合方法的優點是能夠有效利用數據空間和時間結構,適用于與時間相關的建模任務,還可將人類專家知識嵌入到模型中,增強了模型的可解釋性,但是模型的泛化能力有限。

2.2.3 神經網絡方法

NN是目前應用最廣泛的方法之一,已用于各種多模態融合任務中[30]。視覺和聽覺雙模語音識別(Audio-Visual Speech Recognition,AVSR)是最早使用神經網絡方法進行多模態融合的技術,目前神經網絡方法已在很多領域得到了應用,例如視覺和媒體問答[67]、手勢識別[68]和視頻描述生成[69]等,這些應用充分利用了神經網絡方法較強的學習能力和分類性能。近期神經網絡方法通過使用循環神經網絡(Recurrent Neural Network,RNN)和長短期記憶網絡(Long Short-Term Memory,LSTM)來融合時間多模態信息,例如文獻[50]使用LSTM模型進行連續多模態情感識別,相對于MKL和GM方法表現出更優的性能。此外,神經網絡多模態融合方法在圖像字幕處理任務中表現良好,主要模型包括神經圖像字幕模型[70]、多視圖模型[71]等。神經網絡方法在多模態融合中的優勢是具備大數據學習能力,其分層方式有利于不同模態的嵌入,具有較好的可擴展性,但缺點是隨著模態的增多,模型可解釋性變差。

3 多模態對齊方法

多模態對齊是多模態融合的關鍵技術之一,指從兩個或多個模態中查找實例子組件之間的對應關系。例如,給定一個圖像和一個標題,需找到圖像區域與標題單詞或短語的對應關系[72]。多模態對齊方法分為顯式對齊和隱式對齊。顯式對齊關注模態之間子組件的對齊問題,而隱式對齊則是在深度學習模型訓練期間對數據進行潛在對齊,如表3所示。

表3 多模態對齊方法

3.1 顯式對齊方法

無監督方法在不同模態的實例之間沒有用于直接對齊的監督標簽,例如:文獻[73]提出的動態時間扭曲(Dynamic Time Warping,DTW)方法是一種動態規劃的無監督學習對齊方法,已被廣泛用于對齊多視圖時間序列;文獻[74]根據相同物體的外貌特征來定義視覺場景和句子之間的相似性,從而對齊電視節目和情節概要。上述兩個研究成果都在沒有監督信息的前提下,通過度量兩個序列之間的相似性,在找到它們之間的最佳匹配后按時間對齊(或插入幀),實現字符標識和關鍵字與情節提要和字幕之間的對齊。還有類似DTW的方法用于文本、語音和視頻的多模態對齊任務,例如文獻[75]使用動態貝葉斯網絡將揚聲器輸出語音與視頻進行對齊。盡管無監督對齊方法無需標注數據,可以節省數據標注成本,但對實例的規范性要求較高,需具備時間一致性且時間上沒有較大的跳躍和單調性,否則對齊性能會急劇下降。

監督方法是從無監督的序列對齊技術中得到啟發,并通過增強模型的監督信息來獲得更好的性能,通常可以將上述無監督方法進行適當優化后直接用于模態對齊。該方法旨在不降低性能的前提下,盡量減少監督信息,即弱監督對齊。例如:文獻[76]提出一種類似于規范時間扭曲的方法,主要利用現有(弱)監督對齊數據完成模型訓練,從而提升深度學習模型性能;文獻[77]利用少量監督信息在圖像區域和短語之間尋找協調空間進行對齊;文獻[78]訓練高斯混合模型,并與無監督的潛變量圖像模型同時進行弱監督聚類學習,使音頻信道中的語音與視頻中的位置及時對齊。因此,監督方法的對齊性能總體上優于無監督方法,但需要以標注數據為基礎,而準確把握監督信息的參與程度是一項極具挑戰的工作。

3.2 隱式對齊方法

圖像模型方法最早用于對齊多種語言之間的語言機器翻譯及語音音素的轉錄[79],即將音素映射到聲學特征生成語音模型,并在模型訓練期間對語音和音素數據進行潛在對齊。構建圖像模型需要大量訓練數據或手工運行,因此隨著深度學習研究的深入及訓練數據的有限,該方法已不適用。

神經網絡方法是目前解決機器翻譯問題的主流方法,無論是使用編解碼器模型還是通過跨模態檢索都表現出較好的性能。利用神經網絡模型進行模態隱式對齊,主要是在模型訓練期間引入對齊機制,通常會考慮注意力機制。例如,圖像自動標注應用中在生成連續單詞時[80],注意力機制允許解碼器(通常是RNN)集中在圖像的特定部分,該注意力模塊為一個淺層神經網絡,其與目標任務一起完成端到端訓練。該方法目前已被廣泛應用于語音數據標注、視頻文本對齊和視頻轉錄等領域[81],但由于深度神經網絡的復雜性,因此設計注意力模塊具有一定的難度。

4 公開數據集

多模態融合技術作為一個具有極大發展潛力的研究方向,大量研究人員一直對現有模型進行不斷創新和探索以完善數據集,提升多模態深度學習模型性能,提高預測準確率。表4列舉了常見用于多模態融合技術研究和應用的公開數據集,并給出各數據集目前的最優學習結果,其中包括準確率(Accurary,ACC)、正確分類率(Correct Classification Rate,CCR)、等錯誤率(Equal Error Rate,EER)和平均精度均值(Mean Average Precision,MAP)。

表4 多模態融合公開數據集

5 多模態融合技術研究展望

現有多模態融合技術可有效提升深度學習模型性能,但仍有一些問題亟待解決,例如跨模態遷移學習、特征間語義鴻溝、模態泛化能力等。

1)多模態融合技術在深度學習等新興研究領域的進一步應用探索。隨著深度學習應用的不斷深入,多模態融合技術的優勢凸顯,如基于傳感器數據、人類活動識別、醫學研究等多模態融合方面,這些領域會在未來幾年獲得更多的關注。特別是自主機器人和多媒體兩個應用領域中的多模態融合問題正在引起深度學習研究人員的極大關注,例如視頻轉錄、圖像字幕、在線聊天機器人等。

2)多模態融合技術為多數據集之間的跨模態遷移學習提供了橋梁,盡管遷移學習已廣泛應用于多模態深度學習領域,但由于長期以來人工數據標注成本高和許多領域的標注數據資源稀缺問題,因此基于多模態融合的遷移學習仍是下一步將重點關注的方向。

3)目前深度學習多模態融合中的語義沖突、重復和噪聲等問題仍未得到較好解決。雖然注意力機制可以部分處理這些問題,但其主要為隱式運行,不易受到主動控制。解決該問題的一種有效方法為將邏輯推理能力集成到多模態融合技術中,深度學習與邏輯推理的結合將賦予機器智能更多的認知能力。

4)多模態融合技術將在情感識別與分析領域發揮更大作用。目前利用多模態融合進行情感識別研究仍處于部分融合階段,尚未建立一個情感分析的綜合數據庫,下一步可將人體的所有特征包括面部表情、瞳孔擴張、語言、身體運動、體溫等進行多模態融合,以獲得更全面、詳細的情感識別結果。

5)多模態融合中的特征間語義鴻溝、模態泛化能力、多模態組合評價標準等關鍵問題仍將得到持續關注。為解決多模態特征的語義鴻溝,實現各模態信息的無障礙交流互通,需要探索更有效的語義嵌入方法。模態泛化能力是將已有模態上學習的多模態表示和模型推廣到未知模態上,使機器具備高效、準確學習數據庫外數據的能力。如何高效、規范地組合模態是一個從理論到具體算法都亟待解決的問題,并且還需設計一個更具普適性的評價標準來判定組合形式的優劣。

6)多模態深度學習的目標函數通常為非凸優化函數,目前的深度學習訓練算法不能有效避開鞍點,導致尋優過程失敗,使得研究人員無法獲知是優化過程未找到最優解導致預測結果較差,還是其他模態融合和模態對齊中存在問題。針對該情況,需設計求解非凸優化問題的求解算法。

6 結束語

本文總結了深度學習領域多模態融合技術的研究現狀,對融合架構、融合方法、模態對齊等進行重點分析。融合架構按照特征融合方式的不同,分為聯合架構、協同架構和編解碼器架構。融合方法包括早期、晚期、混合這3種與模型無關的方法以及多核學習、圖像模型這2種基于模型的方法。模態對齊是多模態融合技術的難點,其常用處理方式為顯示對齊和隱式對齊。近期在模態融合技術上的研究促進了大量新型多模態算法的提出,并且拓展了多模態學習的應用范圍。這些模型和算法各有優缺點,可在不同領域應用中發揮優勢和作用。多模態深度學習作為一種能使機器具有更多人類智能特性的技術,有望在今后獲得長足發展。后續將針對模態語義沖突消解、多模態組合評價、跨模態轉移學習等問題進行深入研究,促進多模態融合技術在深度學習等新興領域的應用與發展。

猜你喜歡
語義模態深度
深度理解一元一次方程
語言與語義
深度觀察
深度觀察
深度觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
認知范疇模糊與語義模糊
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
主站蜘蛛池模板: 巨熟乳波霸若妻中文观看免费| 99热最新在线| 欧美国产日韩在线播放| 成人国产小视频| 精品少妇人妻一区二区| 欧美一级爱操视频| 亚洲人成色在线观看| 国产经典在线观看一区| 9966国产精品视频| 欧美日韩中文国产| 人妻丰满熟妇αv无码| av在线人妻熟妇| 成人一级免费视频| 中国一级特黄大片在线观看| 国产精品丝袜在线| 六月婷婷激情综合| 国产特一级毛片| 91欧美在线| 爱色欧美亚洲综合图区| 香蕉视频在线精品| 热久久这里是精品6免费观看| 嫩草国产在线| 国产91在线|日本| 中文字幕在线视频免费| 亚洲免费人成影院| 91精品日韩人妻无码久久| 亚洲精品欧美日本中文字幕| 激情综合激情| 国内精品小视频福利网址| 综合色亚洲| 色综合成人| 免费啪啪网址| 伊人久综合| 666精品国产精品亚洲| 无码精品一区二区久久久| 亚洲自偷自拍另类小说| 黄色网页在线播放| 日韩国产高清无码| 伊人网址在线| 日韩欧美色综合| 亚洲天堂2014| 97色婷婷成人综合在线观看| 成人午夜亚洲影视在线观看| 久久天天躁夜夜躁狠狠| 成人午夜视频网站| 欧美在线天堂| 91探花在线观看国产最新| 99在线观看国产| 国产不卡网| 精品久久久久久中文字幕女| 国产黄视频网站| 亚洲aaa视频| 久久中文字幕2021精品| 欧美色图第一页| 精品国产91爱| 亚洲欧洲日产国产无码AV| 极品国产在线| 2020久久国产综合精品swag| 亚洲日韩在线满18点击进入| 国产v欧美v日韩v综合精品| 亚洲欧美日韩精品专区| 青青操视频在线| 久久黄色小视频| 美女扒开下面流白浆在线试听| 日韩成人免费网站| 久久人搡人人玩人妻精品一| 国产成人亚洲无吗淙合青草| 国产精品视频a| 亚洲国产清纯| 国产精品欧美在线观看| 四虎永久在线视频| 久久女人网| 九九热视频在线免费观看| 国产激情影院| 亚洲色图另类| 久久伊人操| 一级毛片不卡片免费观看| 熟妇丰满人妻| 国产视频你懂得| 狠狠色丁香婷婷| 国产午夜小视频| 久久精品波多野结衣|