田晟兆,胡迎茜,谷 成,陳端兵,4*
(1.電子科技大學大數據研究中心 成都 611731;2.中國航天科工集團公司第二研究院 北京 海淀區 100854;3.航天科工防御技術研究試驗中心 北京 海淀區 100854;4.成都數之聯科技股份有限公司 成都 610041)
近年來,深度學習在計算機視覺感知[1]、語音識別[2]、文本理解[3]等領域取得巨大成功,引起了研究者的極大關注。然而,當前大部分深度學習方法需要海量的標注樣本才能學習到泛化性較好的智能識別模型,單純依靠數據驅動的建模方式使得基于深度學習的目標識別面臨新的挑戰。一方面,僅采用數據驅動方式難以解決標注樣本較少的問題。對于很多實際問題,要么是很難采集到大量樣本,要么是標注樣本的成本極高,僅依靠少量標注數據,使用數據驅動建模很難得到可靠的模型;另一方面,模型的不穩定性和難解釋性一直是深度學習理論面臨的難點問題,伴隨海量標注數據的大量噪聲導致深度學習不穩定,深度學習模型提取的特征很難直觀地理解和解釋。這些問題和挑戰限制了深度學習解決更復雜、更抽象問題的可能性。
導致這些問題和局限的根本原因在于當前人工智能方法與人類智能存在較大差異,人類自身學習識別并不需要大量的標注樣本,而是通過已有知識、經驗,對照少量樣例歸納總結并進行分析與判斷,實現目標的穩定識別。縮小人工智能與人類智能的鴻溝,仍然是現代人工智能面臨的巨大挑戰。
將外部可理解的語義空間知識引入識別建模過程,采用知識與數據聯合驅動的方式進行智能模型構建是解決上述問題的一條重要途徑。一方面知識與數據聯合驅動建模,需要統一先驗知識和數據信息的表征形式,實現相互補充,一定程度上解耦深度學習模型訓練對海量數據的強依賴性,緩解小樣本問題;另一方面,相比于數據,知識的穩定性和可靠性更高,基于知識與數據聯合驅動模型更符合真實的人類思維與思考習慣,有利于提高識別算法的穩定性、可靠性與魯棒性,能夠進一步提高識別效果,為后續更上層的智能化應用(推理、決策等)提供基礎感知模型。知識與數據聯合驅動的識別建模能夠突破當前基于深度學習的目標識別建模的瓶頸,解決深度學習在小樣本、模型可解釋性問題上的局限性。
如何擺脫深度學習模型對海量標注樣本的依賴,突破人工智能在小樣本問題上的瓶頸,提高模型可解釋性,正逐漸成為重要的研究方向。本文首先以外部知識在智能識別模型構建中的引入方式為區分準則,提出一種模型構建方法的分類標準;然后對每類構建方法在解決小樣本、模型可解釋性問題方面的探索進行了綜述總結;最后,提出了一種知識與數據聯合驅動建模方式,并基于此提出了需要進一步研究的問題與未來的研究方向。
外部認知經驗與知識一直是智能識別建模的重要要素。根據外部認知經驗與知識在智能識別模型構建過程中的引入方式,可以將模型構建方法分為3 類:基于顯式知識的建模方法、基于隱式知識的建模方法以及基于融合知識的建模方法。
基于顯式知識的建模方法直接對顯式的目標特征知識進行建模。早期的專家系統就屬于這類方式。本質上是將外部認知經驗與知識總結建模為形式化的邏輯規則,然后將這些規則集成嵌入系統運行流程中,如圖1 所示。

圖1 基于顯式知識的建模
基于隱式知識的建模方法是現階段較常用的建模方式,其特點在于外部的認知經驗與知識通過樣本數據的標簽信息引入建模過程中。這類方式不直接對認知經驗知識進行建模,需要在模型訓練過程中通過有監督方式歸納學習目標特征,完成識別建模。典型的基于隱式知識的建模方式如圖2 所示。

圖2 基于隱式知識的建模
基于融合知識的建模方法同時結合了上述兩種建模方式,近年來得到廣泛研究的知識圖譜相關技術就是采用這種建模方法,如圖3 所示。外部認知經驗與知識通過顯式和隱式兩種方式引入模型。如知識圖譜構建過程中的本體模型就是典型的顯式知識引入方式,直接對目標知識進行建模;隱式知識引入通過樣本標簽體現,用于知識提取、消歧、融合等構建過程。這類方式通常先從數據中挖掘提取知識,構建形成知識庫,然后基于知識庫構建各類識別應用模型。

圖3 基于融合知識的建模
直接對經驗和認知知識進行建模可以追溯到20 世紀[4-7]。當時,符號主義主導著人工智能的發展,1955 年文獻[8]提出了基于知識與經驗的推理模型,然后逐漸演化為專家系統[9-10]。
這類模型無需標注訓練樣本,通過追蹤模型運行邏輯,模型輸出結果就能得到較好的解釋,較低的數值計算復雜度使得模型具有良好的穩定性。
然而,早期的專家系統將經驗知識建模為規則或邏輯程序,雖然便于計算機處理,但這類方式往往只能建模較為簡單的知識,表達復雜知識與邏輯的能力有限,很難刻畫復雜和不確定的知識。此外,由于缺乏自動化的知識獲取和表征方法,導致專家系統效率很低,可移植性和魯棒性差,逐漸被基于數據驅動的人工智能模型替代。
基于隱式知識的建模方法應用較為廣泛,傳統的機器學習方法(支持向量機、決策樹、隨機森林等)與深度學習方法(卷積神經網絡、循環神經網絡、生成對抗網絡等)都屬于這種建模方法。不同的是傳統的機器學習方法是尋求建立人工設計的特征與數據標簽之間的映射關系,而深度學習方法采用一種端到端的方式直接對數據本身進行建模,通過深度神經網絡自動學習提取特征并建立深度特征與數據標簽之間的映射關系。
近年來,為了能夠在監督信息有限的情況下基于隱式知識進行建模,彌合人工智能與人類智能之間的鴻溝,針對小樣本學習(few-shot learning, FSL)的研究應運而生。
傳統的機器學習方法在面對小樣本問題時,通常采用特征工程相關方法進行處理,如對有限的樣本進行采樣,擴充數據集或對特征進行增強,使得樣本特征分布更趨近于真實的特征分布。這類處理方法雖然一定程度上緩解了小樣本問題,但由于方法對特征選擇和提取的依賴性,導致傳統機器學習方法在處理復雜、高維的數據時具有一定的局限性。因此,在處理圖像、音視頻等數據方面逐漸被深度學習模型所替代。而在深度學習方面,對小樣本深度學習相關的研究已經比較深入,也取得了一系列極有價值的研究成果。
當前的小樣本深度學習可以視為一種先驗知識與數據的聯合,即尋求在海量基類數據上學習提煉先驗知識(元學習),然后在只有少量樣本的測試類上應用。但是,從度量學習訓練模式不難發現,現有的小樣本深度學習方法所使用的先驗知識通常來自與測試類別類似或同質且具有海量標注數據的基類,本質上并沒有解耦模型對海量樣本的強依賴性,只是轉移了海量數據的需求方向(從目標類轉移到基類,從目標知識的學習轉移到先驗知識的學習)。此外,元學習得到的類語義空間無法與真實語義符號空間關聯,導致模型可解釋性不高,難以有效實現知識的持續積累和更新擴展。目前,小樣本學習方法主要分為數據增強和度量學習(元學習)兩類。
數據增強是利用先驗知識擴充數據集。早期的FSL 從相似的類中學習幾何變換進行數據擴展[11],后續不少工作從特征和屬性的合成及遷移角度間接對數據進行擴展[12-18],其中,文獻[15]基于自編碼網絡結構,采用無監督預訓練的方式增強模型對數據特征的感知能力,利用少量標注樣本實現了較好的識別效果。此外,還有不少工作[19-23]建立生成模型實現樣本的生成擴展。近幾年,基于數據的分布[24-26]以及模型注意力分布[27]等統計信息的方法也引起了研究人員的關注并取得了較好的效果,如文獻[27]針對小樣本場景下的知識蒸餾提出了一種基于教師模型響應的數據增強方法,有效地提升了小樣本知識蒸餾效果。
此外,文獻[28-30]將數據增強融合到弱監督對比學習框架中,如圖4 所示,在無標注數據上使用不同的數據增強方法產生多個數據視圖,然后通過對比數據視圖使得模型學習到目標特征,完成表征模型的預訓練,然后利用下游識別任務對應的少量標注樣本,進行有監督微調訓練,以降低模型對海量標注樣本的依賴性。

圖4 基于數據增強的弱監督對比學習框架
度量學習是一種元學習方法,其目標是學習一種相似性度量,通常采用跨任務的N-way K-shot訓練范式。在訓練過程中,從基類數據集中隨機抽取N個類別,每個類別隨機選擇K個樣本作為支持集,再從這N個類的剩余樣本中隨機抽取部分樣本作為查詢集。這種學習方式如圖5 所示。

圖5 度量學習框架
度量學習的目的就是使模型學會識別查詢集。典型的度量學習工作包括:孿生神經網絡[31]、三元組排序網絡[32]、原型網絡[33-34]、基于注意力自適應模塊[35]、組合特征聚合模塊[36]、主特征網絡[37]、匹配網絡[38-41]、關系網絡[42]及其改進網絡[43-44]以及協方差度量網絡[45-46]等。此外,文獻[47-51]對特征間的關系進行建模以實現度量學習。其中,文獻[51]提出了基于多尺度的標簽傳播網絡,利用多尺度生成器生成多個尺度的圖像特征,并集成關系度量模塊獲得多個不同尺度特征下的樣本相似性得分。除了度量學習外,還有部分工作采用基于記憶的元學習方法將小樣本學習任務表示為序列學習任務[52-55]。最近,文獻[56]基于集成學習思想,提出了一種集成度量學習方法,綜合考慮圖像級和局部特征級子度量以及標簽傳播度量,最后將多個子度量融合作為最終度量輸出。
基于隱式知識的建模將所有的處理都放在向量空間進行計算。這類模型將數據標簽嵌入映射到一個標簽向量空間(如one-hot 編碼),學習特征向量空間與標簽向量空間之間的映射關系。當前基于數據挖掘的知識驅動相關方法大多采用這一類模式。這種模式具有較好的數學特性,能充分利用算力開展大規模運算。
對于傳統機器學習方法,由于人工設計的特征本身具有較為明確的含義,因此,模型的可解釋性較好。如支持向量機中模型的決策結果來自于支持向量與目標向量的距離,決策樹中模型的決策結果來自于節點的條件判斷。
然而深度學習方法卻具有可解釋性不高、依賴海量數據以及魯棒性不強等局限性。因此,如何使得深度學習模型突破這些瓶頸,逐漸成為深度學習模型研究的重點。事實上,美國國防部高級研究計劃局(DARPA)在2016 年發布了“可解釋的人工智能”(explainable artificial intelligence, XAI)項目[57-59],其目標就是建立一套新的機器學習技術,生成可解釋的模型,結合有效的解釋技術,使得最終用戶能夠理解、一定程度的信任并有效地管理未來的人工智能系統。2018 年,DARPA 啟動“下一代人工智能”(AI Next)項目,用于構建能夠進行類似人類交流和邏輯推理的人工智能工具。我國在2020 年度國家自然科學基金指南引導類原創探索——面向復雜對象的人工智能理論基礎研究項目中,計劃通過信息科學與數學、物理學、化學等基礎學科的深度交叉融合,從復雜性與多尺度視角探索人工智能基礎理論與方法,突破現有人工智能可解釋性瓶頸,推動動態、穩健與可信的智能模型與方法體系的構建。2022 年,國家自然科學基金委員會發布了“可解釋、可通用的下一代人工智能方法重大研究計劃”,旨在建立規則和學習的有效融合機制,打破現有深度學習“黑箱算法”的現狀,建立一套適用于不同領域、不同場景(語音、圖像、視頻等)的通用方法體系。
近年來,相關方向也有不少研究工作[60-66],其中,文獻[62]利用有限狀態機探索循環神經網絡(RNN)的內在機制,將RNN 的內部流程表達為有物理意義的模型。文獻[66]提出基于心智理論(theory of mind, ToM)的可解釋性AI 模型,提高對深度學習模型輸出的信心。
基于融合知識的建模方法首先從數據中挖掘提取知識,構建形成知識庫,然后應用于各類場景。當前得到廣泛研究的知識圖譜就是采用這類技術路線,大致包含4 個方向:知識建模、知識提取、知識表征以及知識應用。
當前,基于融合知識的建模已經有不少研究工作,如何從數據中建模、提取知識并進行表征和應用已得到廣泛關注。基于融合知識的建模方法本質上屬于一種雙空間模型,其中符號空間(語義空間)模擬認知知識,亞符號空間(向量空間)模擬感知狀態。文獻[67-72]提出的模型尋求學習特征向量空間和語義符號空間的對應關系,使兩個空間能夠直接相互映射以支撐應用。這類模式對樣本的標注要求很高,需要盡可能精確到每一個語義符號,模型才有可能學習得到映射關系。
此外,當前大多數知識的提取和表征方法都還是依賴于海量的標注數據,僅在知識應用層考慮了小樣本,整體來看,并沒有從根本上解決深度學習模型對海量樣本的依賴問題。此外,由于知識圖譜最早是由語義任務推動發展的,因此大部分知識圖譜的設計能夠很好地描述事物間的邏輯關系,但在屬性特征表達方面偏弱,很難支撐圖像、語音等相關的任務。
知識建模的核心是本體構建,其目的是為了確定知識圖譜能描述的知識。本體被廣泛認可的定義為“共享概念模型的明確形式化規范說明”[73]。本體構建的主要方法有:IDEF5 法、骨架法、TOVE法、METHONLOGY 法、KACTUS 法、七步法和SENSUS 法等。此外,文獻[74]結合隱式狄利克雷分布和關聯規則算法,提出了一種半自動的領域本體構建方法。文獻[75]在知識建模方面開展了深入的探索,研究了關聯圖譜的定義、架構以及構建的關鍵技術,并深度分析了關聯圖譜分析與研究所面臨的若干挑戰問題。并圍繞裝備目標及其關聯標準知識,研究了裝備-標準知識圖譜建模[76]、標準化管控建模[77]以及裝備標準關聯圖譜可視化應用[78],在此基礎上,針對裝備目標及其標準構建了異構信息關聯圖譜[79],并在此基礎上定義了通用化、系列化和模塊化等評價指標[80]。
知識提取的目的是從非結構化的文本和其他結構化或半結構化的數據源中發現和識別實體和關系。知識提取的主要任務包括實體識別與對齊、關系提取以及知識圖譜補全。實體識別一直都是研究的熱點問題[81-83],特別是近幾年,預訓練語言模型已應用于實體識別并取得了很好的識別效果和性能[84-85]。關系提取方面,不少工作者采用圖卷積神經網絡及其變體建模實現關系提取任務[86-89]。此外,相關的小樣本與元學習問題也有相應的研究[90-93]。早期的信息抽取沒有考慮到實體抽取和關系抽取兩個任務之間的相關性,近年來,不少研究將兩個任務進行聯合建模[94-97],如文獻[97]提出了一個基于跨度和圖模塊的混合模型KSBERT,引入領域字典、依存關系結構等外部句法、語義知識,針對特定領域的實體和關系聯合抽取實現了較好的效果。知識圖譜補全方面,近年來,也有不少的研究工作注意到了小樣本問題,并提出了相應的解決方案[98-103]。
知識表征學習,也稱為知識圖譜嵌入[104],是使用低維向量表示實體和關系信息的過程。當前的知識表征方法根據嵌入的核心思想可分為幾何表征模型和神經網絡表征模型。幾何表征模型將關系解釋為語義空間中的幾何變換,典型方法如基于莫比烏斯變換的嵌入方法[105]、KDCoE 模型[106]、ATTH模型[107]、DensE 模型[108]、BiQUE 模型[109]、ChronoR模型[110]以及對偶四元數知識圖嵌入方法[111]。神經網絡表征模型方面,也取得了大量優秀的研究成果[112-120],其中,文獻[119]提出了一種時序圖信息的嵌入方法,然后基于圖神經網絡,提出了一種結合圖的鄰接矩陣與卷積神經網絡的關鍵節點挖掘算法[120],可以有效地將圖中節點的鄰域信息嵌入到矩陣中。
知識應用方面,數據和知識聯合驅動的方法在越來越多的領域得到了應用[121-136],這種結合已逐步成為理論指導數據科學的新模式。
文獻[121]引入圖搜索神經網絡(graph search neural network, GSNN)有效地將大量知識圖合并到視覺分類任務中,并使用這些結構化先驗知識提高圖像分類性能。文獻[123]使用一個視覺語義嵌入模型,從知識庫和文本中挖掘語義嵌入,并進一步訓練一個端到端CNN 框架,從而將圖像特征線性映射到豐富的語義嵌入空間。文獻[124]使用包含外部知識的顯式知識模塊和隱式知識模塊實現知識的學習,融合知識整合模塊與目標檢測網絡,利用全局推理提高目標檢測性能。文獻[125]在給定一個已學習的知識圖譜下,將每個節點(即視覺類別)的語義嵌入作為輸入,經過一系列圖卷積,預測每個類別的視覺分類器。文獻[127]使用GCN訓練知識圖譜,并將其用于小樣本甚至零樣本的動作識別任務。文獻[128]利用一幅圖像中所有對象對之間的視覺上下文關系和幾何關系(關系信息由關系知識圖譜定義),捕獲有用的信息來推斷不可見類別,并使用條件隨機場將該方法集成到傳統的零樣本學習方法中。文獻[129]以結構化的知識圖譜形式表示語義關聯,并將該圖譜集成到深度神經網絡中,通過知識圖譜遷移網絡(knowledge graph transfer network, KGTN)實現小樣本學習。文獻[132]提出了知識傳輸網絡(knowledge transfer network,KTN)體系結構,提出的框架將視覺特征學習、知識推斷和分類器學習結合到一起。文獻[133]提出了一種稠密圖傳播(dense graph propagation, DGP)模塊,利用知識圖譜提供的類別語義描述及關系信息擴展原有的圖像分類器,使之能夠適應新類別。文獻[135]提出了一種圖的小樣本學習算法,融合了從輔助圖中學習的先驗知識,同時在圖之間傳輸節點級和圖級結構。文獻[136]通過語義嵌入,由語義之間的差距生成用于屬性傳播網絡的語義知識圖譜,隨后使用注意力機制進行圖像分類。
早期的基于顯式知識的建模方法、當前廣泛使用的基于隱式知識的建模方法,以及現階段基于融合知識的建模方法都存在各自的局限性。因此,文獻[137]提出發展“第三代人工智能”,即融合知識驅動和數據驅動的人工智能模型,利用知識、數據、算法和算力4 個要素,建立新的可解釋和魯棒的人工智能理論與方法。
新一代的知識和數據聯合驅動建模方式本質上屬于融合知識建模方式,但不再尋求語義符號空間和特征向量空間的相互映射,而是將其分別映射到同一個連續的高維空間并進行融合,即將特征向量空間以及語言符號空間融合映射到同一個連續的類語義空間中,在此空間中完成語義符號和特征向量的關聯融合。一種知識和數據的聯合驅動建模方式如圖6 所示。

圖6 一種知識和數據的聯合驅動建模方式
認知經驗知識和數據分別通過弱監督或無監督的方式進行表征學習,學習到的表征模型能夠將知識或數據映射到各自的向量空間,然后通過表征融合模型,將兩個空間進行融合嵌入,最后基于融合表征進行建模。
相比于顯式知識建模方法,知識將不再建模為具體的規則語句,而是建模為圖譜等形式。相比于規則化的語句,圖譜更容易映射、轉換為連續數值進行計算,且能夠表達更為復雜的邏輯關系,并進行一定程度的推理。此外,本文提出的建模方式解耦了認知經驗知識的建模和數據表征的建模,根據實際情況可選擇聯合驅動建模,也可以選擇單一途徑(只有經驗知識或只有數據)進行建模,一定程度上兼容了基于顯式知識的建模方法和基于隱式知識的建模方法,同時也克服了顯式知識建模方法和隱式知識建模方法的局限性。
采用知識和數據聯合驅動建模的工作還鮮有報道,其有效性還有待進行更多的實踐驗證。此外,如何根據模型的輸出,有效追溯到認知知識,使得模型輸出和中間特征可解釋,也還有待進一步研究與探索。
當前,無論是小樣本深度學習還是基于數據挖掘的知識驅動技術都已經引起了學術界的廣泛關注。這個方向的興起,既來源于學術界對人工智能接近人類智能的追求,又受到工業界對廉價機器學習的需求推動。在此背景下,本文提出了一種模型構建方法的分類標準;然后對每類構建方法在解決小樣本、模型可解釋性問題方面的探索進行了綜述總結;最后,設想了一種知識與數據聯合驅動建模方式。
目前,對知識與數據聯合驅動的識別技術研究已取得許多極具價值的成果,盡管如此,以下幾方面還需進一步研究。
1)現有的小樣本深度學習方法先驗知識的來源途徑有限,本質上仍然依賴與目標類相似或同質的海量樣本,僅轉移了海量數據的需求方向。
2)元學習得到的類語義空間無法與真實語義符號空間關聯,導致模型可解釋性不高,難以有效實現知識的持續積累和更新擴展。
3)當前基于數據挖掘的知識驅動方法都還依賴于海量的標注數據,僅在知識的應用層考慮了小樣本的情況,如何在小樣本或零樣本情況下生成知識還有待進一步研究。
4)雖然在知識圖譜領域,利用自然語言文本提取實體、關系與屬性構建知識庫已有大量研究,但是這類知識庫往往是為了解決語義搜索和語義理解相關應用而構建的,而面向目標識別應用的知識庫還沒有得到很好的研究。
5)在知識與數據聯合驅動模型中,知識的質量如何度量,知識的質量與數據的質量如何影響模型,以及二者產生的交互效應,還缺乏定性和定量的研究。