黃慶明,王樹徽,許倩倩,李亮,蔣樹強
(1. 中國科學院大學 計算機科學與技術學院,北京 100049; 2. 中國科學院計算技術研究所 智能信息處理實驗室,北京 100190)
人類通過多模態(tài)協(xié)同的方式對世界進行感知與認知。視覺是生物獲取環(huán)境信息的一種主要方式,Hubel 和Wiesel通過生物學實驗發(fā)現(xiàn),高級生物通過不同復雜度的組織細胞對視覺信息進行逐步提取與整合,實現(xiàn)視覺場景解構與結構化感知[1]。受上述研究啟發(fā), Marr[2]建立了完整的、可實現(xiàn)的視覺計算理論框架。在語言方面,Chomsky[3]提出了研究人類語言機能的研究范式,并為計算機模擬語言生成奠定了理論基礎。心理學實驗表明,視覺與聽覺之間存在復雜的相互作用關系,即麥格克效應[4]。人類大腦的信息處理機制以圖、文、聲等多模態(tài)協(xié)同方式進行。基于人腦強大的多模態(tài)信息抽象能力,人類的認知過程體現(xiàn)為將多模態(tài)信息進行層級漸進的符號概念轉(zhuǎn)化和符號推理。物理符號系統(tǒng)假說認為智能是用計算機和心理學方法進行宏觀的人腦功能模擬[5]。信息加工心理學將心理過程看作是符號序列的信息加工過程[6]。心物同形論認為認知是對物理現(xiàn)實到人類知覺現(xiàn)實的復雜同型轉(zhuǎn)換過程,而這一理論被大量借鑒到視覺計算領域[7]。最新的人腦結構研究表明,人類大腦當中通過各種結構的連接組成功能區(qū)域來實現(xiàn)從連接到認知的轉(zhuǎn)換[8]。上述感知與認知理論框架是發(fā)展人工智能理論與方法研究的重要依據(jù)。
隨著信息技術的不斷發(fā)展,人類社會已全面進入網(wǎng)絡互聯(lián)時代。網(wǎng)絡用戶群體數(shù)量的不斷增長,以及手機、攝像頭等具有強大環(huán)境感知能力的終端設備的不斷普及,使得對物理世界與網(wǎng)絡世界的記錄越來越翔實,并呈現(xiàn)跨模態(tài)、跨數(shù)據(jù)源的復雜關聯(lián)特性,即不同模態(tài)、不同來源的圖像、視頻、文本、音頻通過多源互補方式刻畫同一對象與事件信息。如何對體量巨大的跨媒體數(shù)據(jù)進行有效管理與利用,是應對重大變化的信息新環(huán)境的迫切需要,也是發(fā)展新一代人工智能亟待突破的瓶頸問題。
在海量跨媒體內(nèi)容當中,超過90%的內(nèi)容通過圖像、視頻等視覺方式呈現(xiàn),以圖像視頻為中心的跨媒體分析推理技術近年來引發(fā)了學術界和工業(yè)界的廣泛關注和深入研究[9]。跨媒體分析推理的研究目標是在對視覺、語言等不同模態(tài)信息的語義貫通理解基礎上,實現(xiàn)“舉一反三”的類人智能推理,是促使人工智能從感知進階到認知并走向類人智能的關鍵,也是信息科學、計算科學、神經(jīng)科學、認知科學交叉的國際前沿科學問題。傳統(tǒng)跨媒體處理方式是通過單一模態(tài)分析方法,如圖像視頻處理,自然語言處理,語音識別等,對特定模態(tài)通道的語義進行獨立分析,然后進行結果融合。這一方式導致了對跨媒體內(nèi)容的語義理解局限粗淺,難以從其中獲取充分全面的知識,無法應對開放復雜的跨媒體內(nèi)容演化和多元化的跨媒體應用場景。近年來由于直播、短視頻推薦等新應用的出現(xiàn)和流行,數(shù)據(jù)的爆炸增長和內(nèi)容的良莠不齊對網(wǎng)絡跨媒體數(shù)據(jù)管理與內(nèi)容服務造成了巨大挑戰(zhàn)。
針對以圖像視頻為代表的海量網(wǎng)絡跨媒體內(nèi)容,借鑒高級生物的感知與認知機理,團隊對跨媒體內(nèi)容統(tǒng)一表征與符號化表征、跨媒體深度關聯(lián)理解、類人跨媒體智能推理等關鍵技術開展研究;基于上述關鍵技術,研究團隊著力于解決發(fā)展新一代人工智能的知識匱乏共性難題,開展大規(guī)模跨媒體知識圖譜的構建及人機協(xié)同標注技術研究,為跨媒體感知進階到認知建立理論支撐,進一步為多模態(tài)分類、跨媒體檢索、事件發(fā)現(xiàn)與預測等跨媒體內(nèi)容管理與服務熱點應用領域提供了可行思路。
跨媒體由不同來源、不同模態(tài)的信息以交織融合的方式產(chǎn)生與演化。跨媒體不同模態(tài)信息的異構性為跨媒體統(tǒng)一計算帶來了“異構鴻溝”難題。另一方面,相比于傳統(tǒng)單一媒體,跨媒體內(nèi)容中蘊含更為豐富的語義信息,然而跨媒體數(shù)據(jù)到語義知識之間存在較大的“語義鴻溝”,導致對跨媒體理解的粗淺和片面。針對海量跨媒體的形式異構、內(nèi)容復雜、動態(tài)演化等特點,研究組針對以圖像視頻為中心的跨媒體分析推理理論與方法開展了深入研究,建立了跨媒體分析推理研究的通用框架與范式,如圖1所示。具體而言,研究組通過符號化與統(tǒng)一表征、深度關聯(lián)理解、類人智能推理等方式構建了從數(shù)據(jù)到知識的歸納通路,通過粗粒度圖譜構建、細粒度圖譜構建和人機協(xié)同知識標注平臺實現(xiàn)從知識到數(shù)據(jù)的演繹通路,最后在跨媒體歸納推理和演繹推理技術框架上,構建跨媒體分析推理引擎技術原型系統(tǒng),為內(nèi)容管理與服務提供技術支撐。

圖1 以圖像視頻為中心的跨媒體分析推理技術框架Fig.1 Cross-media analysis and reasoning framework centered on images and videos
網(wǎng)絡跨媒體內(nèi)容中包含大量的視覺及圖文聯(lián)合表達信息,對這些信息的統(tǒng)一表征是實現(xiàn)跨媒體統(tǒng)一計算的基礎性問題,而將跨媒體信息進行符號化轉(zhuǎn)換則是支撐跨媒體推理和認知的關鍵。然而,盡管近年來圖像分類與檢測技術取得了一定進展,但對跨媒體當中的視覺信息的符號化轉(zhuǎn)換精度仍處在較低水平。進一步深入分析,針對視覺模態(tài)與文本模態(tài)的符號化表征方式之間存在的顯著差異,也為跨媒體統(tǒng)一計算與符號化表征造成了本質(zhì)困難。
為此,研究組近年來開展了如下的研究工作。針對視覺內(nèi)容的局部、淺層表征在描述性、顯著性和判別性不足等難題,借鑒生物視覺感知理論,對視覺表征進行視覺空間擴展和縱向特征層級融合。引入視覺內(nèi)容上下文,模擬生物神經(jīng)元信息傳遞規(guī)律,建模視覺基元間相關性和信息傳遞關系,建立了視覺內(nèi)容的通用符號表征體系。模擬生物視覺層級信息傳遞過程,提出視覺層級表征的遞進式融合方法,實現(xiàn)了動態(tài)復雜時空環(huán)境下的多尺度視覺目標高效聚焦與跟蹤。針對圖像和文本內(nèi)容的異構性問題,提出跨媒體符號化統(tǒng)一表示及調(diào)和統(tǒng)一表示方法,實現(xiàn)了圖文模態(tài)當中從局部到整體的內(nèi)容語義對齊表示。
針對視覺內(nèi)容匹配與檢索的需求,提出了描述性視覺單詞和視覺短語的通用提取算法框架。對視覺單詞的空間近鄰關系統(tǒng)計矩陣上的隨機游走穩(wěn)態(tài)結果進行挖掘,得到視覺場景中語義顯著的單詞集合與頻繁共現(xiàn)的視覺詞對。如圖2所示,本文方法通過視覺單詞及其多尺度組合刻畫視覺物體和場景,具有可比擬文本詞和短語的強描述能力。

圖2 描述性視覺單詞和視覺短語的通用提取算法框架Fig.2 Descriptive visual words visual phrases generation framework
所提方法可用于檢索排序等任務,實現(xiàn)了視覺單詞表征能力的階躍,與傳統(tǒng)視覺單詞相比具有顯著精度優(yōu)勢,檢索的平均精度均值(mean average precision, MAP)相對提高19.5%,重排序精度相對提高12.4%,處理速度快11倍以上[10]。
針對復雜的圖文內(nèi)容,提出一種圖像和文本的多粒度符號信息建模表示方法,將圖像利用物體檢測技術提取到包含顯著物體的圖像區(qū)域并編碼成視覺符號表征,實現(xiàn)圖像?文本的聯(lián)合自注意統(tǒng)一表征,并分別將圖像和文本映射到隱含聯(lián)合表示空間。使用Wordpiece Token得到文本詞匯、短語、句子符號表示,并使用自注意機制分別學習圖像和文本內(nèi)小塊的關聯(lián),進一步聚合小塊的信息得到圖像和文本的隱含空間表示。其中建模自注意機制的層包括多頭自注意力子層和對每個位置的前饋網(wǎng)絡子層。使用難例挖掘配合優(yōu)化三元組損失和體現(xiàn)數(shù)據(jù)高階結構特性的三角損失學習圖像和文本到隱含空間的映射函數(shù)。基于該算法進行了圖像文本匹配檢索的實驗,在FLICKR30K數(shù)據(jù)集上性能超過當時最佳算法,在MSCOCO數(shù)據(jù)集上性能和最優(yōu)算法相當,并且檢索速度更快[11]。
跨媒體數(shù)據(jù)對象之間存在復雜的關聯(lián)關系。考慮到異構媒體數(shù)據(jù)內(nèi)容和結構的復雜關聯(lián),本項目突破傳統(tǒng)數(shù)據(jù)擬合學習的桎梏,提出了一種基于高斯過程隱變量模型的非線性關聯(lián)學習框架,通過跨模態(tài)數(shù)據(jù)的相似度信息來表示數(shù)據(jù)間的拓撲結構,并通過設計合理的正則約束,使得跨模態(tài)觀測空間的拓撲關系能夠被有效通過隱含子空間進行保持,從而實現(xiàn)了拓撲保持的跨模態(tài)表示學習;此外,所提方法還能夠利用跨媒體對象間的語義關系作為先驗知識來指導跨模態(tài)表示的學習,實現(xiàn)了異構數(shù)據(jù)間的有效關聯(lián)建模;在海量跨模態(tài)數(shù)據(jù)庫上的多視角分類和跨模態(tài)檢索等任務上的算法評測結果表明所提方法具有較好的性能表現(xiàn)。
如圖3所示,進一步,通過深入挖掘跨模態(tài)對象間的內(nèi)在聯(lián)系,對跨模態(tài)數(shù)據(jù)間的不同關聯(lián)結構構建了一種調(diào)和約束,以隱含一致表示的拓撲表示為橋梁,建立了跨模態(tài)高斯隱變量模型的參數(shù)空間,更好地實現(xiàn)了異構信息間的共享機制,在4個標準數(shù)據(jù)集上進行的大量實驗結果表明了所提非線性非參數(shù)跨模態(tài)實體關聯(lián)方法相比于傳統(tǒng)線性、參數(shù)化及深層非線性的跨模態(tài)統(tǒng)一表征方法具有更好的模型容量,能夠更有效和精確地對跨模態(tài)數(shù)據(jù)對象的深層高階非線性關系進行刻畫[12]。

圖3 基于高斯過程隱變量模型的跨媒體調(diào)和學習Fig.3 Harmonized multimodal learning with gaussian process latent variable models
與傳統(tǒng)單模態(tài)內(nèi)容理解方式不同,跨媒體依賴于對不同模態(tài)內(nèi)容的綜合理解。同時,由于模態(tài)互補性、異構性和信息不均衡性,針對特定模態(tài)的獨立語義分析容易造成對跨媒體理解的粗淺、片面等現(xiàn)象。為此,研究組針對全局、層次化、細粒度的跨媒體語義理解和語義保持的內(nèi)容轉(zhuǎn)換生成等跨媒體深度語義關聯(lián)理解技術開展系統(tǒng)深入的研究,目標是從復雜跨媒體內(nèi)容中獲取全面、深入的語義信息,并進一步實現(xiàn)跨模態(tài)內(nèi)容的演繹生成,這也是使機器具備類人跨模態(tài)信息轉(zhuǎn)換的重要技術。
針對海量網(wǎng)絡圖像視頻缺乏高質(zhì)量語義標注及部分標簽低質(zhì)沖突等難題,借鑒格式塔心物同型論,在圖像視頻數(shù)據(jù)上構建數(shù)據(jù)場(特征關聯(lián)拓撲圖),并在數(shù)據(jù)的不完全語義信息上構建語義場,進而建立數(shù)據(jù)拓撲結構與語義向量結構之間的數(shù)據(jù)?語義場同型化映射框架。
從散度場角度,基于數(shù)據(jù)場多層拓撲信息擴散建模思想,提出了可擴展半監(jiān)督誘導式多核學習方法,融合多種互補視覺特征提高學習能力。通過多核融合的近似近鄰搜索來確定有信息量的緊湊無標注訓練數(shù)據(jù)子集。通過無標注域的條件期望一致性實現(xiàn)在無標注數(shù)據(jù)的語義標簽擴散,學習過程快速有效。所提方法具有良好的理論收斂特性,相比于傳統(tǒng)方法具有更低的算法復雜度,在處理圖像分類和個性化圖像重排序時具有更好的性能表現(xiàn),需要的用戶交互更少。所提方法[13]是利用無標注網(wǎng)絡數(shù)據(jù)進行半(弱)監(jiān)督視覺學習的早期工作之一。
從旋度場角度,提出了針對海量無序標注的群體語義修正模型,從旋度場角度對標注不一致性進行建模和因子化。基于成對比較的隨機圖霍奇排序,構建Erd?s-Rényi隨機圖和隨機正規(guī)圖逼近,從不完整及不平衡的數(shù)據(jù)、視頻的質(zhì)量分值和用戶判斷不一致性中得到成對比較數(shù)據(jù)的霍奇分解,實現(xiàn)了群體不一致標注的精確修正。在不同的群體標注數(shù)據(jù)量下,證明了兩種隨機圖設計都具有良好的采樣近似特性。在大規(guī)模直播視頻質(zhì)量評估任務上驗證了所提方法的有效性,該方法也適用于標注質(zhì)量難以控制的網(wǎng)絡眾包信息處理。該項研究為群體語義標注的組織實施方式提供了指導,為將群體智能引入到圖像視頻理解領域提供了理論保證和關鍵技術[14]。
借鑒人類的層次化、概念化、實體化漸進認知過程,建模層次化語義關聯(lián)結構,建立面向極多類數(shù)據(jù)的層次化視覺特征與層次分類聯(lián)合學習框架,實現(xiàn)了從粗粒度語義到細粒度語義的漸進圖像視頻語義理解。
1) 提出了局部到整體的視覺語義層次化表示方法,對視覺表現(xiàn)和語義概念間的概率隸屬關系進行建模。通過組稀疏編碼,獲得更加準確的圖像層面的稀疏表示,利用混合范數(shù)正則化學習具有結構稀疏特性的判別性視覺概念隸屬度分布。在不同概念層級上進行投影和距離計算,實現(xiàn)了一種新的圖像語義度量。所提視覺語義描述符合人類語義理解習慣,具有天然的可解釋性,適用于包括大規(guī)模語義圖像搜索,圖像標注和語義圖像重排序等在內(nèi)的主流視覺應用場景[15]。
2) 提出了層次化語義類別指導的視覺特征學習方法。對于在層次化類別結構當中的每個中間節(jié)點,同時學習一個判別性字典和分類模型,不同層次上的字典通過挖掘不同粒度的判別性視覺特性學習得到。低層細粒度類別的字典集成了其祖先節(jié)點的字典,在低層的類別通過所構建的字典中的多尺度視覺共同描述。在主流大規(guī)模極多類數(shù)據(jù)集上的實驗表明所提方法在當時取得了最高的識別精度,在處理極多類分類問題時達到更好的精度?效率折衷。研究成果[16]被CVPR大會主席、IJCV副主編等多名國際重量級學者重點引用。
跨媒體內(nèi)容轉(zhuǎn)換生成是在不同模態(tài)的深入理解基礎上,在語義保持的約束下進行不同模態(tài)的內(nèi)容轉(zhuǎn)換生成,如從視覺到文本的內(nèi)容轉(zhuǎn)換生成(圖像/視頻概述[17-18]),從多模態(tài)到視覺的內(nèi)容轉(zhuǎn)換生成(圖像內(nèi)容生成[19])。
在從視覺到文本的內(nèi)容轉(zhuǎn)換方面,視頻自然語言描述任務是在對視覺內(nèi)容理解的基礎上,生成對視覺內(nèi)容的自然語言描述,是一種更深層次的跨媒體內(nèi)容理解任務。當前的方法通常是引入跨模態(tài)注意力機制,動態(tài)地整合輸入信息進行建模,最終生成與源輸入語義對應的語言描述或者圖像內(nèi)容。然而,現(xiàn)有方法忽略了不同模態(tài)內(nèi)容的結構信息,從而導致了語言描述結果不精確且效率低下等難題。
為克服這一問題,在自然語言描述方面,利用句法信息的先驗知識來指導視頻描述中多模態(tài)特征的融合,可設計一種語法指導的分層注意力模型。引入了一種分層注意力機制,同時利用語義和句法線索來整合2D圖像特征、3D運動特征和句子上下文特征。該模型包含一個內(nèi)容注意力模塊和一個句法注意力模塊,兩者分別從時序的維度和模態(tài)的維度對上述特征進行聚合。如圖4所示,整個內(nèi)容轉(zhuǎn)換過程包含3個部分:特征編碼器、分層注意力模塊、描述生成器。在大規(guī)模公開數(shù)據(jù)集上的實驗表明,合理利用2D圖像和3D運動特征有利于視覺單詞的生成,而有效利用句子上下文特征有利于非視覺單詞的生成[17]。

圖4 句法指導的視頻概述生成模型框架Fig.4 Syntax-guided video caption generation framework
此外,在視頻描述任務中,具有最好性能的處理方式為基于注意力的模型,它們通過將顯著的視覺成分和句子進行準確關聯(lián)。然而,現(xiàn)有的研究遵循一般化的視覺信息處理過程,即在等間隔采樣的視頻幀上進行視覺表觀特征提取和運動信息特征提取,從而不可避免地遇到視覺信息表征冗余,對內(nèi)容噪聲敏感和不必要的運算開銷等難題。
為此,提出一個即插即用的選幀網(wǎng)絡Pick-Net,在視頻概述過程對包含更多信息量的視頻幀進行選擇。如圖5所示,基于標準的編碼器?解碼器結構,設計了一種基于強化學習的序列化網(wǎng)絡訓練過程,其中每次幀選擇的獎勵被設計為最大化視覺多樣性和最小化句子生成與真實句子之間的差異性。得到正向獎勵的幀選擇候選結果將被選擇,并且編碼器?解碼器的隱含表示將被更新用于未來的處理過程。這個過程一直持續(xù)直到整個視頻序列處理完畢。相應地,一個緊湊的幀子集能夠被有效選擇來對視覺信息進行表征并且無性能損失地進行視頻概述。實驗結果表明所提方法在僅僅選擇6~8幀的情況下就能獲得與傳統(tǒng)方法相近的視頻概述結果[18]。

圖5 基于幀選擇的高效視頻概述方法Fig.5 Efficient video captioning based on PickNet
在從文本到視覺的內(nèi)容轉(zhuǎn)換生成方面,其核心難點問題在于文本信息的信息量遠遠小于視覺模態(tài)的信息量,且文本與視覺模態(tài)的異構性也為這一任務帶來了更大的挑戰(zhàn)。
針對上述問題,提出一種增量推理的生成對抗網(wǎng)絡,通過推理目標圖像中視覺的增量和指令中知識信息的增量之間的一致性,來保證生成結果的正確性。如圖6所示,該模型包括3個模塊,分別是指令編碼器、圖像生成器和推理判別器。對于指令編碼器,分別采用單詞級別和指令級別的GRU網(wǎng)絡作為編碼器去對當前指令和歷史指令進行分析,得到知識信息的表示。對于生成器,采用多層感知機將上述的表示投影到語義增量的特征圖,然后將其與原始圖像的特征圖進行合成。之后這個合成的表示和原始圖像通過圖像解碼器來生成目標圖像,其中原始圖像作為一種具有指示作用的輔助。最后,利用推理編碼器來推理歷史視覺信息,保持視覺增量和當前指令的一致性。其中視覺增量從原始圖像和目標圖像的特征圖中提取。通過采用多模態(tài)條件判別器對上述的一致性進行衡量,保證了生成圖像的邏輯合理性。通過將圖像中的視覺增量和用戶意圖的語義增量進行連接,解決了文本與圖片交互生成的問題[19]。

圖6 基于增量推理的圖片內(nèi)容生成對抗網(wǎng)絡Fig.6 Generative adversarial network with linguistic instruction by increment reasoning
推理的本質(zhì)是基于某些前提條件找到結論的過程,是人類有別于其他生物的高級思維能力。從計算與人工智能角度而言,實現(xiàn)機器推理的關鍵是在現(xiàn)有數(shù)據(jù)表征結構(符號、向量、矩陣)基礎上,對數(shù)據(jù)對象之間的關聯(lián)性進行人類可解釋的挖掘、補全與推斷。然而,實現(xiàn)機器的類人推理目前仍存在較大困難。首先,機器對多模態(tài)信息的符號化轉(zhuǎn)換未能達到人類水平,從而為后續(xù)的推理任務帶來阻礙。進一步來看,機器對信息的處理方式與生物神經(jīng)系統(tǒng)存在本質(zhì)區(qū)別,機器以單向的前饋或反饋機制為主要方式,而人類認知系統(tǒng)中的信息處理通路與交互反饋更加復雜。最后,人類所具有的舉一反三甚至直覺頓悟等能力目前機器尚不具備。
基于上述現(xiàn)狀,研究組近年來對類人跨媒體智能推理技術開展了初步的研究。具體而言,跨媒體機器推理的“類人”特性可體現(xiàn)為機器推理的可解釋性、推理過程的人機可協(xié)同性以及主動交互性等。其中,可解釋性推理著力于解決現(xiàn)有數(shù)據(jù)驅(qū)動方法機理難以解釋且難以泛化的固有缺陷,實現(xiàn)表征、組件和結果的可解釋性,提高人機互信水平;人機協(xié)同群智推理是在海量用戶產(chǎn)生噪聲知識的基礎上,通過數(shù)據(jù)學習和知識指導實現(xiàn)潛在實體對象關聯(lián)的推斷與補全,提高跨媒體知識量和稠密度;主動交互式推理是在人機之間充分的多模態(tài)信息交換基礎上,完成各類語義標注、內(nèi)容轉(zhuǎn)換生成、事件預測等任務。
目前,大多數(shù)視頻事件分析算法都是基于端到端的深度模型,具有黑盒屬性(black-box),阻礙了算法的實際應用。一種可解釋性視頻事件分析的方法是基于概念表征進行事件分析。但是現(xiàn)有基于概念表征的視頻事件識別方法僅利用簡單的池化方法處理視頻幀的概念表征以獲取整個視頻的概念表示,未充分考慮概念的時序存在模式、概念間的關系以及概念與事件間的關系。基于此,如圖7所示。

圖7 概念挖掘網(wǎng)絡Fig.7 Concept knowledge mining network
本文利用場景、物體、動作概念檢測器獲取初始概念表征,提出概念知識挖掘網(wǎng)絡,研究概念與事件間的依存關系,從而獲取豐富且完備的視頻概念表征,進行可解釋性的視頻事件識別。概念知識挖掘網(wǎng)絡主要包含初始概念表征的提取,域內(nèi)概念知識挖掘和域間概念知識挖掘以及概念表示融合模塊。時序概念感受野動態(tài)挖掘網(wǎng)絡的核心模塊是時序動態(tài)卷積。時序動態(tài)卷積包括系數(shù)生成和結果融合兩個模塊,系數(shù)生成模塊可以根據(jù)具有不同感受野的卷積核的輸出結果生成加權系數(shù),用于融合不同時序感受野下的概念表征,從而得到完備的視頻概念表征。實驗結果表明,所提算法[20]在FCVID、ActivityNet等主流大型事件識別數(shù)據(jù)集上均取得較好的事件識別性能,同時所提算法也可以對事件識別結果進行可解釋性分析。
在跨媒體問答任務當中,針對現(xiàn)有隱式推理方法缺乏可解釋性,而顯式推理方法需要額外的標注信息的問題,從統(tǒng)計建模的角度出發(fā),分析兩類方法優(yōu)化過程的主要差異。分析結果表明隱式推理方法缺乏足夠解釋性的根本原因是缺少對推理過程的直接建模。如圖8所示,考慮到自然監(jiān)督條件下缺少回答程序的標注,假設問題文本之下存在一組隱變量z代表推理過程,并重構優(yōu)化問題為優(yōu)化問題、答案以及推理過程隱變量的聯(lián)合分布,對推理過程進行直接建模。通過變分推斷方式對優(yōu)化問題進行求解,并采用基于變分自編碼器的方法對分解得到的模塊進行建模,模型的每個部分都是從原始的聯(lián)合分布建模推導得到,保證了建模過程可解釋性。將本研究推導得到的模型與現(xiàn)有的3種使用不同融合策略的隱式推理方法進行結合,在真實數(shù)據(jù)集以及合成數(shù)據(jù)集上進行實驗,都取得了性能的提升,并且在推理過程可視化方面較基線更可解釋[21]。

圖8 過程可解釋的跨媒體問答模型Fig.8 Interpretable visual question answering
隨著互聯(lián)網(wǎng)的迅速發(fā)展,人們可接觸到的數(shù)據(jù)量日益增長。為緩解信息過載問題、改善用戶體驗,推薦系統(tǒng)得到廣泛應用。然而,傳統(tǒng)推薦方法的性能易受到數(shù)據(jù)稀疏性和冷啟動問題的制約。為此,將知識圖譜作為輔助信息的推薦算法得到大量關注。現(xiàn)有結合知識圖譜的推薦算法大多使用實數(shù)向量在歐氏空間中進行建模,然而,實數(shù)向量的內(nèi)積不具備內(nèi)在的反對稱性且表達能力有限。為此,研究組提出了基于四元數(shù)的協(xié)同知識圖譜推薦網(wǎng)絡[22],其框架如圖9所示,將用戶?項目交互矩陣及知識圖譜構建為協(xié)同知識圖譜,利用四元數(shù)及其漢密爾頓乘積實現(xiàn)三元組旋轉(zhuǎn)匹配的語義規(guī)則,并實現(xiàn)結合注意力機制的偏好傳播與聚合方法,從而進一步提高個性化推薦的精準程度。

圖9 基于四元數(shù)的知識圖譜推薦方法Fig.9 Quaternion-based knowledge graph network for recommendation
具體而言,利用四元數(shù)漢密爾頓乘積可建模旋轉(zhuǎn)的性質(zhì),設計三元組旋轉(zhuǎn)匹配的語義規(guī)則。為進一步提升推薦效果,可以采用結合注意力機制的偏好傳播與聚合方法。沿協(xié)同知識圖譜關系路徑,利用每個實體的鄰居實體信息輔助偏好的學習,使網(wǎng)絡更適用于推薦任務。利用三元組的可信度分數(shù)度量每個實體和其鄰居實體連接的強弱程度,進而求取該路徑的注意力分數(shù)。基于每個實體本身的嵌入和其鄰居嵌入得到每個實體的最終嵌入。
對于跨模態(tài)相關的任務,現(xiàn)有模型往往都需要較大規(guī)模的標注數(shù)據(jù)集來訓練模型,且要求數(shù)據(jù)集內(nèi)的視覺內(nèi)容足夠豐富,文本描述足夠詳細,以使得模型能夠很好地感知跨模態(tài)信息并將其關聯(lián)理解。但是,數(shù)據(jù)的標注需要消耗很大的人力物力以及時間,而跨模態(tài)數(shù)據(jù)又因為涉及不同模態(tài)的理解,對標注的要求高于純視覺任務(分類、分割等),標注跨模態(tài)數(shù)據(jù)集更是代價極大。為了解決這個問題,可將跨模態(tài)任務和主動學習相結合進行推理[23]。
為此,提出一種面向圖像描述生成任務的結構化語義對抗主動學習框架,利用主動學習挑選值得標注的、更有指導意義的數(shù)據(jù),從而在減少標注的花費的同時,又能夠使模型推理學習到最有價值的數(shù)據(jù)。
具體如圖10所示,基于跨模態(tài)的結構化語義框架和對抗學習的主動學習模型,將視覺圖像中的關鍵物體、物體狀態(tài)和物體間聯(lián)系表示為一個結構化的特征表示,進而判斷樣本的語義豐富度。該模型由3部分組成:結構化語義構建模塊、多任務學習模塊和標注狀態(tài)判別器。結構化語義構建模塊提取關鍵物體的區(qū)域特征,并將其編碼為結構化的語義表示;之后,多任務學習模塊計算了基于詞級的快照損失和基于句級的重建損失,并以此更新模型;最后,狀態(tài)判別器使用對抗學習機制判別樣本的標注狀態(tài),并以此選取有價值的樣本。作為模型關鍵部分的狀態(tài)判別器中引入了對抗學習的機制。通過已標注樣本和未標注樣本在判別器內(nèi)的對抗學習,使得結構化表示變得更加可分、更加充分,同時使得判別器判別有價值樣本的能力更加強大。

圖10 圖像概述生成的結構化語義對抗主動學習Fig.10 Adversarial active learning for image captioning
用自然語言預測視頻中潛在的未來事件是一項嶄新且具有挑戰(zhàn)性的交互推理任務,可廣泛應用于安全輔助駕駛、視頻監(jiān)控(安防)、和人機交互等重要場合。該任務要求能夠推理未來事件的不確定性和多樣性,產(chǎn)生合理且多樣化的預測和描述。對于這種跨模態(tài)交互推理,提出了隱含隨機變量采樣的跨模態(tài)多樣性表示學習網(wǎng)絡[24]。通過引入隨機隱變量因子顯式地捕獲視頻中未來事件的隨機性和多樣性,對異質(zhì)模態(tài)數(shù)據(jù)之間的復雜關聯(lián)關系進行建模,以此生成合理的且多樣化的自然語言語句來描述潛在的未來事件。引入隱變量因子分別對事件宏觀主旨以及視覺注意力進行建模。一方面,對應多種潛在的事件主旨,生成多樣性的語言描述;另一方面,在特定事件主旨下,模型使用隨機性注意力機制,針對性地改變視頻關注點,更精準地定位視頻中的線索內(nèi)容。這兩個關鍵點使得提出的算法能夠全面地且精準地對視頻未來事件進行預測和描述。
如圖11所示,引入一種宏觀的隱變量因子,并使其符合特定的高斯分布,以對預測事件的宏觀特性(主旨、表達風格)進行表征和決策。技術效果: 在對視頻進行預測性描述時,模型首先對此宏觀的隱變量因子進行隨機采樣,進而根據(jù)不同采樣值生成多樣性的語言描述,對應多種潛在的事件;還引入一種微觀的隱變量因子,構建一種隨機性的注意力機制。此注意力機制模擬視覺關注點的隨機性變化,根據(jù)事件宏觀特征(主旨)針對性地挖掘可見視頻中的細節(jié)線索。技術效果:在對視頻進行預測性描述時,模型對此微觀的隱變量因子進行采樣,進而根據(jù)不同采樣值改變視頻內(nèi)容的關注點。

圖11 跨模態(tài)推理網(wǎng)絡生成過程示意Fig.11 Generation process of the proposed structured stochastic recurring network
隨著移動互聯(lián)網(wǎng)滲透到社會生活的各方面,各大網(wǎng)絡平臺跨媒體數(shù)據(jù)呈現(xiàn)爆炸性增長和快速演化態(tài)勢。然而,從碎片化數(shù)據(jù)難以直接提取系統(tǒng)完備的跨媒體知識,相關領域仍然面臨跨媒體知識匱乏的困境。相比于傳統(tǒng)的知識圖譜構建任務,跨媒體知識工程面臨更加嚴峻的技術挑戰(zhàn):1)跨媒體知識圖譜的構建依賴于不同模態(tài)實體的有效獲取,雖然目前計算機已經(jīng)能夠識別各類視覺物體和文字實體,但距離通用的實體檢測仍具有較高的技術難度,其主要難點在于對于新增實體無法有效識別;2) 不同模態(tài)的實體之間的關系種類與層級繁多,依賴全自動的數(shù)據(jù)關聯(lián)分析技術雖然能夠在短期內(nèi)擴充圖譜的知識條目規(guī)模,但總體而言存在知識重復、冗余、質(zhì)量較低且系統(tǒng)智能演化緩慢的不足,而另一方面單純依賴人工標注的方式構建的跨媒體知識圖譜存在標注緩慢、效率低下等問題,難以有效適應跨媒體內(nèi)容的動態(tài)演化。
為了應對上述挑戰(zhàn),研究組以電影知識為核心,構建了人機協(xié)同的跨媒體知識加工和演化更新基本技術框架。具體而言,所構建的跨媒體知識圖譜包含兩個層面的知識:1) 粗粒度知識,圍繞特定的電影刻畫了大量的屬性知識和時空共現(xiàn)信息,如演員、導演、海報、評論、相關報道、影視主題曲等;1) 細粒度知識,針對某個電影內(nèi)容,刻畫電影鏡頭中的人物、表情、動作、關系、交互方式、字幕語義等知識。通過粗粒度和細粒度兩個層級的知識標注,形成了以電影為主題的多層次多粒度跨媒體知識,從而為后續(xù)的跨媒體分析推理提供支撐。
跨媒體知識工程旨在通過收集分布在互聯(lián)網(wǎng)各影片平臺中的跨媒體數(shù)據(jù),從而構建節(jié)點規(guī)模億級的電影粗粒度知識圖譜數(shù)據(jù)庫,并通過開放網(wǎng)絡接口的方式實現(xiàn)高效的知識共享服務。
為保證知識圖譜的體量與數(shù)據(jù)質(zhì)量,圖譜中數(shù)據(jù)主要來自國內(nèi)外主流的視頻網(wǎng)站、影片數(shù)據(jù)庫、視頻評論網(wǎng)站,例如IMDB、Amazon、Metacritic、AllMovie、Rotten Tomatoes、豆瓣、微博、嗶哩嗶哩、維基百科等。其中主要包含以下數(shù)據(jù)類型:
1)文本:影片基本信息、演員信息、角色臺詞、專業(yè)影評、用戶評論、新聞;
2)圖片:劇照、演員頭像、演員其他照片等;
3)視頻:精彩片段、幕后花絮、視頻報道等;
4)音頻:電影片頭曲、主題曲、插曲等;
5)關系:劇照中的角色關系、影片劇集關系、用戶觀影記錄等。
構建電影粗粒度知識圖譜的技術框架如圖12所示,主要包括數(shù)據(jù)源調(diào)研、數(shù)據(jù)采集、數(shù)據(jù)存儲與服務接口、數(shù)據(jù)演示等5部分,其中技術難點主要包括數(shù)據(jù)對齊和數(shù)據(jù)結構設計。

圖12 粗粒度跨媒體知識圖譜構建系統(tǒng)Fig.12 Coarse-grained cross-media knowledge graph construction system
一方面,未對齊的數(shù)據(jù)不僅會產(chǎn)生冗余、低信息量的節(jié)點,更可能降低圖譜中知識的可靠性。具體而言,同一影片在不同平臺的名稱并不一定相同,例如《肖申克的救贖》《月黑風高》《刺激1995》均可以代表同一部電影作品;在一個平臺中,相同的名稱可能對應不同的影片,例如在IMDB中通過關鍵詞“Terminator”將會同時檢索到電影《終結者》及于1991年和2001年發(fā)行的兩部影片。為保證數(shù)據(jù)高度對齊,同時考慮到IMDB的權威性與完備性,擬優(yōu)先獲取來自兩類平臺的數(shù)據(jù):
1)IMDB頁面中包含的外部鏈接,例如IMDB電影頁面包含的Amazon商品頁面、Metacritic電影主頁等,如圖13(a)所示。
2)外部鏈接中包含IMDB電影頁面的平臺,例如豆瓣、維基百科等,如圖13(b)所示。

圖13 爬取的兩類網(wǎng)站Fig.13 Two types of websites crawled
另一方面,不合理的數(shù)據(jù)結構不僅會降低知識檢索的效率,更導致大量孤立節(jié)點,降低圖譜知識密度。在知識圖譜中,存在節(jié)點、關系和屬性3種數(shù)據(jù)存儲方式。如圖14所示,將具有唯一性的數(shù)據(jù)存儲為節(jié)點,如影片、演員、編劇角色、公司、新聞、專業(yè)影評、用戶評論、劇照、主題曲、花絮彩蛋等;將重復性很高的數(shù)據(jù)存儲為屬性,如性別、年齡、影片時長、發(fā)行年份、電影分類、評分等;將具有重要語義信息的數(shù)據(jù)存儲為關系,如導演了、參演了、評論了、獲得獎項、想看過再看等。通過設置合理的數(shù)據(jù)存儲方式,一方面可減少語義信息較少的冗余節(jié)點,另一方面可減少相鄰節(jié)點過少的孤立節(jié)點,從而提高圖譜中有效知識的密度。

圖14 電影粗粒度知識圖譜節(jié)點關系示意Fig.14 Diagram of node relationship of coarse-grained film knowledge graph
跨媒體知識工程的發(fā)展前景為實現(xiàn)跨媒體知識的自主進化和泛化。一方面,針對跨媒體數(shù)據(jù)快速更新演化的特點,如何及時準確地提取跨媒體信息,實現(xiàn)跨媒體知識的自主增長與進化,成為亟待解決的問題;另一方面,針對圖譜中知識缺失問題,需設計高效的跨媒體知識補全算法,通過有效的知識泛化提高圖譜中跨媒體知識的密度。
結合跨媒體分析推理技術需求,開展構建細粒度跨媒體知識圖譜,并針對電影知識圖譜構建任務目標,建立了如圖15所示的人機協(xié)同知識標注系統(tǒng)。由于電影包含了豐富的圖、文、聲多模態(tài)信息,故選擇電影視頻(包括電影、紀錄片等不同類型)作為跨媒體知識圖譜構建的基礎數(shù)據(jù)。該跨媒體分析推理引擎中包含完備的電影視頻語義概念抽取的技術,包括視頻事件識別、動作識別、語音識別、表情識別、人臉識別、OCR、場景分類、物體檢測、字幕解析等算法模塊,對已經(jīng)進行鏡頭分割與聚合的視頻數(shù)據(jù)進行語義粗標注。在電影粗標注的基礎上,搭建了群智標注平臺(如圖15所示),引入人類智慧對標注結果進行定期的糾錯和更新,并利用修正過的視頻語義概念信息對事件識別、動作識別、場景分類等語義粗標注模型進行進一步更新和優(yōu)化,改善語義粗標注算法在后續(xù)標注當中的準確率。目前,已完成了264部中文電影的知識標注,知識圖譜的規(guī)模達到節(jié)點2 707 350,邊(事實) 4 159 220的規(guī)模。

圖15 人機協(xié)同細粒度圖譜標注系統(tǒng)Fig.15 Fine-grained knowledge graph labeling system with human-computer collaboration
在后續(xù)研究工作當中,將進一步對500部英文電影和紀錄片進行知識標注,并不斷完善和優(yōu)化跨媒體分析推理引擎。
基于上述關鍵技術研究成果,以億級跨媒體數(shù)據(jù)的跨媒體統(tǒng)一表征索引與檢索為基礎,構建跨媒體分析推理引擎。該計算引擎的目標主要有3個層面:1) 驗證跨媒體知識對跨媒體分析推理的支撐作用;2)通過跨媒體分析推理進一步提高跨媒體知識生產(chǎn)效率;3) 通過跨媒體分析推理各技術子系統(tǒng)的集成,進一步突出可解釋、可泛化分析推理的技術特色。目前該跨媒體分析推理引擎主要包含如下幾個部分:
1) 跨媒體統(tǒng)一表征與檢索,實現(xiàn)億級以上跨媒體數(shù)據(jù)的統(tǒng)一可度量表征、高效索引與檢索;
2) 跨媒體問答引擎,包括人問機答和機問人答兩部分,為圖譜演化、內(nèi)容服務提供支持;
3) 跨媒體遷移引擎,針對內(nèi)容監(jiān)測與內(nèi)容服務的多元化應用場景,利用無標注或者少量標注跨媒體數(shù)據(jù)進行遷移與泛化學習,滿足各類開放域應用需求。
視頻計算引擎,針對各類網(wǎng)絡視頻內(nèi)容,實現(xiàn)內(nèi)容識別預警,跨模態(tài)的內(nèi)容搜索定位和視頻事件的推理預測,為視頻內(nèi)容監(jiān)測與服務提供技術支撐。
本文介紹了研究組近年來以圖像視頻為中心的跨媒體分析與推理方面的研究工作,提出了統(tǒng)一表征、關聯(lián)理解、類人推理等方法,開展構建跨媒體知識圖譜和支撐知識圖譜構建的各類技術平臺,初步建立了數(shù)據(jù)驅(qū)動與知識指導相結合的跨媒體分析推理技術框架。可服務于跨媒體內(nèi)容管理與服務等應用場景。
從跨媒體分析推理技術的發(fā)展前景來看,跨媒體知識的自主高效演化與可解釋、可泛化的類人跨媒體分析推理將繼續(xù)成為未來相關領域的前沿熱點研究問題,也是通向強人工智能的關鍵瓶頸。為此,結合領域前沿研究趨勢,研究組針對跨媒體分析與推理的核心難題進行集中研究與攻關,擬從以下幾個方面具體開展未來工作:
1) 現(xiàn)有技術已能從不同模態(tài)數(shù)據(jù)當中檢測出不同類型的實體,如人物、物體、地標建筑、事件、主題等,然而,相比于實體數(shù)量,跨媒體知識圖譜中的關系知識表示數(shù)量規(guī)模仍有待提高(平均每個實體包含的關系知識三元組不超過5條)。為從根本上提高跨媒體連接知識的稠密度,研究組擬對多模態(tài)實體提純、鏈接與多模態(tài)關系的發(fā)現(xiàn)、補全等前沿技術問題進行定義并構建相應的數(shù)據(jù)集,并在此基礎之上形成相關的技術突破。
2) 針對跨媒體知識演化更新緩慢的難題,深入開展深度人機協(xié)作的跨媒體分析推理技術,并在跨媒體知識圖譜構建當中構建相應的原型系統(tǒng)。擬從個體協(xié)作和群體協(xié)作兩個層面開展相應研究。在人機個體協(xié)作方面,針對跨媒體事件語義理解、內(nèi)容轉(zhuǎn)換與生成等復雜跨媒體任務特點,以主動學習和問答交互式學習為技術主線,開發(fā)人機問答博弈系統(tǒng),建立人問機答和機問人答相互博弈演化的跨媒體知識更新框架。在人機群體協(xié)作,深入研究群智挖掘與推薦技術,實現(xiàn)“標一當百”的跨媒體群智計算,并將其應用在跨媒體知識工程當中。
3) 突破現(xiàn)有跨媒體知識圖譜當中由于大量時空偶發(fā)貢獻造成的虛假或不合理關聯(lián)信息,進一步開展跨媒體事理關系圖譜的構建,刻畫深層次跨媒體事理知識。
4) 深入研究機理、過程、結果可信的魯棒跨媒體分析推理理論方法。結合符號主義與聯(lián)結主義,研究數(shù)據(jù)去偏置的因果學習和因果辨識與組合推理等關鍵技術,實現(xiàn)公平、可信、可泛化的跨媒體分析推理技術框架。