知識和數據協同驅動的群體智能決策方法研究綜述

2022-04-14 02:18:38蒲志強易建強劉振丘騰海孫金林李非墨

自動化學報 2022年3期

蒲志強易建強劉振丘騰海孫金林李非墨

群體智能 (Collective intelligence,CI)起源于對群居性生物及人類社會性行為的觀察研究,因其分布性、靈活性和健壯性等優勢,為很多極具挑戰的復雜性問題提供了新的解決方案,是新一代人工智能重點發展的五大智能形態之一[1].進一步,由無人機、無人車等自主無人平臺組成的無人集群系統獲得長足發展,在智能交通管控、區域物流調度、機器人集群控制、復雜網絡同步等領域取得了一系列研究和應用成果[1-11].特別是在軍事智能領域,群體智能已被認為是有可能帶來顛覆性變革的新技術,國內外紛紛部署相關研究項目,如美國的 “進攻性蜂群使能戰術” (Offensive swarm-enabled tactics,OFFSET)項目、“拒止環境中的協同作戰” (Collaborative operations in denied environment,CODE)項目,印度2019 年發布的首個無人機集群概念項目 “空射彈性資產群” (Air-launched flexible assetswarm,ALFA-S),國內中國電子科技集團、北航、國防科大等開展的無人機集群試飛項目等[12].

盡管群體智能已成為當前發展熱點,但現今并沒有關于這一概念的統一定義[6-7].不同學者從生物群體智能[13]、人群智能[1]、多智能體系統[9]、復雜網絡[14-15]、演化博弈論[16]等截然不同的學科視角出發展開研究,從不同側面取得了豐富的研究成果.本文統一稱其為 “群體智能”,并選擇其對應英文為Collective intelligence.一方面因為在我國新一代人工智能中,群體智能已顯性地成為一種智能形態,此時已有必要將不同學科下的概念加以融合;另一方面CI 在英文文獻中的內涵也更為廣泛[1-6],能相對更好地與 “群體智能”這一概念相對應.特別地,本文將融合控制論等學科進展,較多著墨于由無人系統這類物理平臺組成的群體系統.因此,本文在談及統一性概念時采用 “群體智能”,而在具體問題中則可能結合上下文稱這樣的系統為 “集群系統”“多智能體系統”等.

當前群體智能決策主要基于兩大類方法:知識驅動和數據驅動.知識驅動方法[17]可充分利用已有知識,包括已有模型與算法知識、規則經驗知識以及特定領域知識.知識的廣泛內涵便于實現多學科知識的靈活集成;同時,許多基于模型的知識驅動方法具有完備的理論支撐體系,在分析算法穩定性、最優性、收斂性等方面具有天然優勢;此外,知識驅動模型具有更好的可解釋性;而知識作為一種數據和信息高度凝練的體現,也往往意味著更高效的算法執行效率.但在實際應用中,特別是大規模群體協同等復雜問題中,群智激發匯聚的知識機理尚不完全清晰,知識獲取的代價高昂,同時現有知識難以實現復雜群體行為龐大解空間的完備覆蓋,也難以支持集群行為的持續學習與進化.近年來廣泛興起的深度強化學習等數據驅動方法[18]具有無需精確建模、能實現解空間的大范圍覆蓋和探索、從數據中持續學習和進化、算法通用性強等特點,同時具有海量開源模型和算法庫等工具支撐.然而,這類方法在理論特性分析上往往存在困難,其典型的“黑箱”特性也帶來了可解釋性差等問題;同時,其高度依賴高質量的大數據,而在群體智能應用中,這類數據本身較難獲取;此外,隨著群體規模和問題復雜度的提升,解空間維度災難問題為學習效率帶來了嚴峻挑戰;而其依賴龐大算力的特點也使得個人或一般性機構在開展研究時面臨嚴重瓶頸.知識驅動與數據驅動方法的主要優缺點總結如圖1所示.

圖1 知識驅動和數據驅動各自優缺點Fig.1 Advantages and disadvantages of knowledgebased and data-driven methodologies

基于上述分析,將知識驅動和數據驅動兩大類方法相結合,利用各自優勢,形成知識與數據協同驅動的新方法路徑,有望為群體智能系統研究和應用提供更為廣闊的空間.這類方法盡管在近年來逐步受到關注[19-23],但尚未形成體系.為此,本文首先對知識驅動和數據驅動概念進行定性界定,在此基礎上系統梳理了知識與數據協同驅動可能存在的不同方法路徑,主要從知識與數據的架構級協同、算法級協同兩個不同層面進行了方法歸類,總體框架如圖2 所示.在架構級協同層面,從個體架構、群體架構兩方面介紹常見架構體系,為復雜群體協同問題提供總體解決框架;在算法級協同層面,進一步劃分為算法的層次化協同、組件化協同,并在每類協同方法中具體選取了若干代表性方法進行介紹.這里,架構級協同和算法級協同間的區別和關聯在于,前者為復雜問題的解決搭建了基礎框架,這為各類知識驅動、數據驅動以及知識與數據協同驅動的算法提供了 “容器”,體現為不同算法間的邏輯關系;而算法級協同則主要探討具體算法內部如何協同運用知識與數據的相關要素,體現為某類算法內的邏輯關系.在對上述兩大類協同方法進行詳細介紹后,本文最后從群體智能理論進一步深化、應用進一步落地等實際需求出發,指出了知識與數據協同驅動的群體智能決策中未來幾個重要的研究方向.值得說明的是,由于知識與數據驅動的外延極其廣泛,學科交叉特點十分明顯,本文難以覆蓋所有方法,但致力于系統地為知識與數據協同驅動這類極具潛力的方法開啟討論,并為當前群體智能以及機器學習兩大熱點領域各自及其交叉領域的研究提供必要借鑒.

圖2 知識與數據協同驅動總體框架Fig.2 Overall framework of knowledge-based and data-driven methods integration

1 知識和數據驅動的概念界定

本質上來說,任何人為設計的方法均包含 “知識”,例如所有神經網絡模型中網絡結構、激活函數、超參數的選取都體現了人的經驗或先驗知識,但學術界顯然默認神經網絡屬于數據驅動方法.從這個意義來說,所有數據驅動方法都體現了知識和數據協同的理念.但這樣的理解卻使問題變得過于 “平凡”,失去了對方法設計的指導意義.本文所述知識與數據協同,體現了一種更有針對性的 “顯式”協同.以下將首先對知識驅動及數據驅動方法進行適當界定,并簡要介紹各自發展的總體情況.值得一提的是,這種界定本身仍停留在定性列舉而非嚴格的概念定義層面.

1.1 知識驅動概念界定及簡介

本文所述 “知識”包括一系列基于數學/物理模型的算法知識、規則經驗知識以及面向特定應用的領域知識.知識驅動是許多實際群體智能系統的主要研究路徑,在無人集群任務規劃、博弈決策、協同控制等方方面面具有廣泛的應用基礎.

一是數學/物理模型知識.以群體動力學模型為例,典型的模型知識包括Reynold 模型[24]、Vicsek 模型[25]、Couzin 模型[26]、Cucker-Smale 模型[27]等,這為群體中的個體微觀運動提供了動力學基礎.二是基于模型的算法知識,包括各類基于模型推導的路徑規劃算法[28],任務分配算法[29-30],基于一階[31-32]、二階[33-34]、高階[35-36]模型的一致性控制算法等,這類方法從解析的群體數學/物理模型出發,基于解析求導的優化理論以及Lyapunov 等穩定性理論實現群體問題求解.三是規則經驗知識,包括由人們對于集群基礎行為的認知構建起的集群簡單行為規則,如各類基于模糊理論[37]、知識系統[38]構建起的規則推理方法等.四是面向特定應用場景的領域知識,這是群體智能系統走向實用化的重要支撐,例如在兵棋推演系統[39]中構建的各類實體要素模型和裁決規則知識,這類知識為群體學習進化提出了新的約束條件,但同時也對問題求解空間進行了極大約簡.

以上基于機理模型、先驗知識或規則的知識驅動方法在確定、簡單、低維的單體或群體系統中表現出良好的性能,但現實中群體系統往往難以建模,且缺乏領域知識,同時當集群規模擴大,特別是集群表現出高維、復雜、強不確定性的行為特征時,已有的模型或規則經驗知識難以覆蓋整個解空間,知識驅動方法的適用性、穩定性、魯棒性將大大降低.

1.2 數據驅動概念界定及簡介

蟻群算法、粒子群優化算法以及直接對無人集群系統行為具有重要借鑒意義的狼群算法、鴿群算法等生物啟發式進化計算方法在群體智能系統中具有廣泛的應用[13,40-41].囿于數據驅動方法廣泛的外延,本文所述 “數據驅動方法”側重于深度學習、強化學習等近些年廣泛興起的機器學習算法,但在某些方法分類中附帶包括上述進化計算方法.

深度學習具有高維數據的 “感知”能力,強化學習具有在與環境交互中的 “決策”能力,因此這兩種方法天然具有與大規模群體智能系統應用結合的優勢,特別是兩種算法結合形成的深度強化學習(Deep reinforcement learning,DRL)方法.文獻[42]和文獻[43]分別對深度學習和強化學習進行了綜述,而DeepMind 團隊的系列成果則為深度強化學習的研究樹立起里程碑,代表性成果為三篇發表在Nature上的文章,分別介紹了在Atari 游戲[44]、圍棋程序AlphaGo[45]及其進階版AlphaGo Zero[46]上的應用.針對多智能體問題,文獻[4-5,47-48]系統介紹了強化學習在多智能體系統中的應用.針對非完全信息、大規模組合空間博弈問題,DeepMind 采用模仿學習、強化學習、多智能體學習等組合方法,訓練的AlphaStar[49]能戰勝99.8%的專業人類玩家,但其 “多智能體”屬性主要體現在由不同策略構成策略池從而進行聯盟學習,具體到每個策略,仍是將所有操作算子看作一個整體進行單智能體學習.OpenAI團隊提出一種多智能體深度確定性策略梯度(Multi-agent deep deterministic policy gradient,MADDPG)算法,通過集中評判-分散執行方式使智能體具有自主決策能力,在動態環境中實現智能協同合作與對抗[50],但其端到端的學習架構在復雜問題中面臨挑戰.此外,OpenAI 針對DOTA 2 開展的多智能體研究也取得了不錯的成果,其開發的人工智能系統OpenAI Five 于2019 年4 月擊敗DOTA 2 人類冠軍,核心技術特點是針對Open AI Five 這類具有上億參數量的大規模決策系統,設計了一種新穎的 “手術” (Surgery)訓練機制,從而能夠在模型和環境不斷變化的情況下對智能體進行持續訓練,而無需從頭訓練獲取參數,降低了新模型設計驗證的成本[51].

綜上所述,盡管DRL 等數據驅動方法在單智能體及多智能體系統中取得了一定的研究成果,但面對非完全信息、復雜物理約束等實際問題,如何結合先驗知識與算法模型,提高算法效率、降低算力要求,亟待進一步深入研究.

2 知識和數據的架構級協同

從數據驅動的角度來看,當前一類主流的方法是端到端的機器學習算法,即輸入原始狀態信息,經黑箱模型后直接輸出所需要的結果,如感知模型中物體識別的類別、決策模型中智能體的行為動作等.然而,對于復雜系統和復雜任務而言,特別是無人集群系統所面臨的復雜任務,端到端的學習模型難以奏效,此時一個合理的智能體任務體系架構便顯得尤為重要.對群體智能系統體系架構的研究,至少源于兩方面的需求,一是描述不同復雜任務中的通用機理和邏輯流程,有助于挖掘問題內在的不變性機理并進行標準化建模;二是將復雜問題分解為若干較易解決的子問題,極大降低問題處理的復雜度.體系架構為復雜大規模問題求解搭建起基本框架,在此基礎上,針對架構中的不同邏輯模塊(子成員、子任務、子系統等),確定是采用知識驅動、數據驅動還是知識與數據協同驅動等具體算法.因此,體系架構充當了算法容器的功能,使得不同驅動方式的算法形成有機協同,即實現架構級協同.

體系架構研究的內涵十分廣泛,且存在截然不同的問題研究角度和方法路徑.針對本文所討論的群體智能系統,大致可從兩方面剖析其體系架構問題:一是個體的體系架構,研究個體如何自主決策;二是群體的體系架構,研究群體如何協同決策.

2.1 常見個體與群體體系架構

若將每個個體看作一個智能體(Agent),則從Agent 建模角度來看,個體的體系架構大致可分為3 類:反應式體系架構、慎思式體系架構和混合式體系架構[52].反應式體系架構模擬了動物反應式行為的特點,包含多個能獨立輸入輸出的模塊,每個模塊采用反應式的 “感知—動作”結構,對輸入信息進行反應式的動作,Brooks[53]提出的包容式體系結構便是典型的反應式體系架構,而多智能體控制方法中基于行為的控制方法[54]也體現了這一特點.純反應式架構的缺陷在于,Agent 僅基于局部信息做決策,在大規模系統中,這種相對 “近視”的決策機制可能難以獲得理想結果.慎思式體系架構則將對輸入信息進行邏輯推理,典型的例子為著名的信念–意圖–期望 (Believe-desire-intension,BDI)模型[55],智能體基于所建立的信念庫、意圖庫、期望庫,按照一定的邏輯推理規則進行推理決策.慎思式架構的缺陷在于,其推理過程往往較復雜,難以很好地適應實時性要求很高的環境.混合式體系架構兼具了反應式架構對環境的快速反應和慎思式架構的邏輯推理特點,采用層次化體系結構,對于群體系統往往包含3 層,自上而下分別為合作層、推理層和反應層[52],合作層處理智能體間的合作任務,推理層完成智能體內部的慎思式推理,反應層執行環境刺激的反應式行為和上層下達的行為指令.混合式架構對于群體智能系統這類復雜系統具有較好的適用性.此外,上述3 類體系架構主要側重于應用導向的系統功能實現,另一種體系架構研究思路是從認知科學出發,致力于刻畫自然或人工智能體認知、發育過程中的認知機理,并基于此實現人類認知水平的智能行為,著名的認知架構模型包括 “狀態、算子與結果” (State,operator,and result,SOAR)模型、基于理性思維的自適應控制(Adaptive control of thought-rational,ACT-R)模型等[56].

群體體系架構刻畫存在于各智能體中的通訊和控制模式,體現了集群中個體間的信息共享、存儲和協作方式,對群體系統的一致性、自主性、涌現性等特性具有直接影響[57].從群體中智能體的組織方式和通信、控制模式來看,群體架構大致可分為網絡結構、層次結構、聯盟結構三類[52].網絡結構中,每個智能體的地位均等,符合條件的智能體間均能進行信息交互,最大限度體現了群體系統的自組織特性;層次結構中,智能體分為不同層次,每層的決策和控制權來自于其上層的指令輸出,分層架構體現了問題的逐級抽象特點,便于復雜任務的層次化分解;聯盟結構中,智能體根據一定規則劃分為不同聯盟,聯盟內和聯盟間分別采用不同的信息交互機制形成群體協同,這種結構體現了一定的功能異構性.

上述個體和群體結構為復雜系統架構建模提供了基本思想和模型要素,面向不同應用領域,則將基于上述基礎模型進行進一步設計.以無人集群系統最為典型的應用領域 ——軍事指揮控制領域為例,這是一個典型的多要素、巨復雜場景,其智能指揮控制過程難以采用單一的端到端模型加以刻畫,體系架構設計便顯得尤為重要.面向多無人機任務規劃等任務,洛克希德 · 馬丁公司提出了多態認知智能體架構(Polymorphic cognitive agent architecture,PCCA)[58],其核心是包含一個認知層,并進一步自上而下分解為宏觀(Macro)、微觀(Micro)、原子(Proto)三層認知架構,宏觀認知層采用基于SOAR 的知識推理模型,微觀認知層采用基于ACT-R 的專家推理模型,原子認知層采用基于群智分布式自組織方式實現.面向無人機/車異構集群城市作戰任務,美國國防部高級研究計劃局(DARPA)開展的OFFSET 項目[59],將復雜任務自上而下分解為集群任務層(Swarm mission)、集群戰術層(Swarm tactics)、集群原子操作層(Swarm primitives)、集群算法層(Swarm algorithm),任務層刻畫宏觀任務需求,戰術層描述完成任務所需的戰術序列,原子操作層表征完成某戰術所需具體執行的行為,算法層則代表為實現具體行為所需的各項技能,每一層又進一步劃分為不同功能模塊,是一個典型的層次化體系架構.更一般地,觀察–判斷–決策–執行(Observe-orient-decide-act,OODA)循環理論已被普遍接受為描述指揮決策過程的通用模型框架[60],其將作戰過程分解為由觀察、判斷、決策、執行四個環節串聯形成的決策環,并可作為一般性模型拓展到多智能體仿真[61]、應急響應[62]等應用領域中.

2.2 知識與數據架構級協同概念模型

從知識和數據協同驅動的角度來說,上述一般性個體架構模型、群體架構模型以及作為示例的軍事指揮控制架構模型從三方面體現了知識和數據協同的特點:一方面,這類組織架構本身便體現了先驗知識的運用,是一類高度抽象的內嵌知識;另一方面,將復雜問題分解為若干子問題,往往表現為不同問題求解子模塊,針對每個子模塊,可以進一步確定是采用數據驅動方法還是知識驅動方法加以求解,進而便于對各類基于知識或數據驅動的方法進行靈活集成;此外,從數據驅動來看,增強了數據驅動模型的可解釋性,并使數據驅動模型帶來的不確定性被限定在某個子模塊內.

以OODA 循環為例,結合OFFSET 等采用的層次化、模塊化思想,我們可將復雜的群體決策問題描述為如圖3 所示的概念架構模型.該模型將從原始狀態輸入到最終行為輸出間的決策控制過程分為觀察、判斷、決策、執行四層,每一層根據需要進一步分解為不同顆粒度的子模塊,知識和數據協同驅動的思想則滲透到所有層次子模塊中,即可根據每個子模塊的功能特點、問題復雜度靈活選擇是采用知識驅動方法(淺灰色圓角矩形)還是數據驅動方法(深灰色矩形),并進一步研究具體采用哪一種知識驅動方法,如基于模型的解析算法(Algorithm)或啟發式的經驗知識(Heuristic)等,或哪一種數據驅動方法,如深度學習中的卷積神經網絡(Convolutional neural network,CNN)模型、強化學習中的近端策略優化(Proximal policy optimization,PPO)算法、多智能體強化學習中的MADDPG 算法等.特別地,涌現(Emergence)作為我們對群體系統重要的期待特征,當前存在大規模復雜系統涌現機理不清晰、復雜任務涌現規則難以設計等問題.為此,結合層次化分解思想,我們可將群智涌現行為局限在較低層次的執行層,而非具有更高復雜度和問題抽象度的判斷、決策層,便于自組織、涌現方法在實際系統中的集成應用,這種思想與洛克希德 · 馬丁PCCA 模型中的原子層設計類似.

圖3 知識和數據架構級協同概念模型Fig.3 Conceptual model for framework-level integration of knowledge-based and data-driven methods

3 知識和數據的算法級協同

前述個體或群體體系架構主要針對復雜系統、綜合任務,如圖3 所示的概念架構往往包含多種算法,并在不同層次、不同功能模塊間體現出知識與數據的協同.與此對應,許多算法本身便體現了知識與數據協同驅動的特點,由此形成 “算法級”的知識和數據協同路徑,在此就幾類代表性算法進行綜述,并根據算法的主要特點,進一步分為層次化協同算法、組件化協同算法兩類.層次化協同算法與架構級協同思路類似,算法本身體現了一種分層思想,所不同的是,這種分層思想被包含在一個具體的算法內部,可以直觀地理解為 “算法包含架構”,而非架構級協同那樣是 “架構包含算法”;組件化協同則代表了其他一大類非層次化協同的方法,我們將探討更為 “精細”的知識與數據協同路徑,即協同不僅僅體現在分層這種單一思想上,而是將知識驅動或數據驅動部分看作另一方的某一個算法組件,二者緊密結合形成一個完整算法.

3.1 層次化協同算法

3.1.1 神經網絡樹

神經網絡樹是一種典型的知識與數據協同驅動模型,其中神經網絡模型代表數據驅動,決策樹結構則代表了知識驅動,其實質是將若干神經網絡模型以決策樹的結構有效組織起來,使之兼具決策樹模型可解釋性強、易于集成專家知識以及神經網絡模型自主學習的優點.神經網絡樹的研究已有數十年歷史,研究者很早便意識到將符號主義的決策樹模型與聯結主義的神經網絡模型結合起來的優勢[63],并提出了多種結合方式,如首先設計一個決策樹,再從中生成層次化神經網絡模型[64],或反過來從已訓練好的神經網絡中提取決策規則[65].

針對多機器人協同環境建模場景中的機器人異常行為檢測問題,文獻[66]提出采用Siamese 神經網絡(Siamese neural network,SNN)[67]來計算兩個環境信息向量x1和x2間的距離,從而實現機器人異常行為的檢測,考慮到機器人群體采集到的環境信息維數十分龐大,作者進一步將由T個機器人采集到的環境信息分為T個子向量,并將原始的SNN設計為一個層次化網絡結構,由此簡化了SNN 網絡的訓練過程.機器人自主導航往往包含目標搜索、避碰避障等多種任務,各任務間的協調成為自主導航的關鍵,為此,文獻[68]針對自主導航中的多種子任務分別設計神經網絡控制器,進一步設計一個基于神經網絡的協調器來調整子任務控制器的輸出權重,子網絡及協調網絡間構成一個層次化體系結構.近年來,隨著深度學習技術的興起,產生了基于各種深度神經網絡(Deep neural network,DNN)的樹模型.文獻[69]提出一種具有增量學習特點的深度神經網絡樹模型,對于已經訓練好的DNN 模型,當新數據來臨后,模型能以一種樹狀結構繼續層次化生長,以學習新數據中的模式,同時保留先前所學習到的知識,以避免網絡產生災難性遺忘問題.文獻[70]提出一種層次化卷積神經網絡,用以提升分類問題結果準確率,其核心是確定一個合理的卷積神經網絡層次化結構,為此作者采用層次化聚類方法構建一個可視化的樹結構,并定義了一個層次化聚類有效性指數來指導樹結構的自動學習.更多關于神經網絡樹的最新研究可參考[71-73].

3.1.2 遺傳模糊樹

遺傳模糊樹(Genetic fuzzy tree,GFT)除了具有像神經網絡樹這樣的樹結構外,還代表了模糊推理這種典型知識驅動模型和遺傳算法這類數據驅動模型相結合的算法,其中模糊邏輯基于專家知識建立起推理框架,遺傳算法用以實現模糊推理中前后件規則參數的優化,而樹結構則進一步表征復雜問題中的層次化體系架構.推而廣之,這里的模糊系統可替換為專家系統等符號邏輯系統,遺傳算法可替換為其他啟發式優化算法或神經網絡等數據驅動模型,因此GFT 具有較強代表性.

GFT 的典型應用主要體現在空戰博弈對抗系統上.針對復雜的空戰博弈過程,文獻[74]詳細闡述了GFT 構建博弈智能體的優勢.進一步,文獻[75]針對多無人戰斗機在復雜環境中的戰術協同和行為決策問題,利用GFT 方法進行戰術決策,并在著名的ALPHA 智能空戰系統中,實現了在高保真模擬環境中的無人作戰飛行器空戰任務.針對多兵種異構作戰問題,文獻[76]設計了多個級聯模糊系統和遺傳算法進行戰術決策和優化.這項研究中提出的GFT,創建了對不確定性因素具有恢復能力和自適應特性的控制器.最終無人戰斗機小組實現了在面對來自空中攔截器、地空導彈站點和電子戰站點等不確定性威脅的情況下,利用敵武器空隙穿越作戰空間并成功摧毀目標的任務.

然而,上述方法在構建模糊規則時仍需大量專業知識,特別是當智能體數量增加時,輸入參數的增加將導致模糊規則數量指數增加.為此,文獻[77]提出一種基于單一輸入規則群(Single input rule modules,SIRMs)動態連接模糊推理模型和改進自適應遺傳算法的多無人戰斗機空戰博弈戰術決策方法.該方法改進了傳統的模糊推理方法,基于SIRM模型將所有輸入變量解耦,解耦后的各模糊推理模塊再通過動態權重將結果進行合并,得到推理決策動作,這種解耦方法解決了傳統模糊規則數量隨輸入變量數呈指數級增長的規則爆炸問題;同時遺傳算法的優化作用使得只需建立粗略的規則框架,而無需精確的交戰規則,大大降低了規則設計的難度.

3.1.3 分層強化學習

深度強化學習成為引領當前人工智能特別是決策智能技術發展的核心要素.然而,在大規模復雜問題中,特別是在具有大量智能體的群體合作/對抗類問題中,狀態空間和動作空間指數增長帶來的維數災難問題仍然是當前強化學習面臨的一大重要挑戰.分層強化學習(Hierarchical reinforcement learning,HRL)采用策略分層、分而治之的思想,為解決復雜大規模問題提供了有效手段,其本質是針對馬爾科夫決策過程(Markov decision process,MDP)中假設每個動作都只在單個時間步內完成的問題,采用不同的時間抽象方法將若干原子動作封裝為一個個擴展動作序列(Extended courses of action,ECA),每個ECA 可能包含多個時間步,從而把微觀的原子動作擴展為顆粒度更大的動作,這樣極大壓縮了動作空間[78],其理論依據則主要是半馬爾科夫決策過程(Semi-Markov decision process,SMDP)[79]的求解理論.MDP 與SMDP 的原理概念化對比如圖4 所示.

圖4 MDP 與SMDP 比較Fig.4 Comparison between MDP and SMDP

最早在強化學習中提出多層次任務劃分的代表性工作是Dayan等[80]提出的封建強化學習(Feudal reinforcement learning,FRL).正如其名所示,FRL 將復雜任務在時空上分層,當前層為Manager,其上層為Super-manager,下層為Sub-manager,當前層的學習目標是滿足上層的任務,并向下層下達指令,非相鄰層之間實行獎勵隱藏(Reward hiding)和信息隱藏(Information hiding),實現任務解耦.除此之外,經典的分層強化學習還包括Sutton等[81]提出的基于選項(Option)的強化學習、Parr等[82]提出的基于分層抽象機(Hierarchies of abstract machine,HAM)的強化學習、Dietterich[83]提出的基于值函數分解的MaxQ (MaxQ value function decomposition)強化學習方法等.Option 方法定義了一系列由原子動作封裝而成的 “選項”,相對于原子動作,選項也可看作是一種 “宏觀動作”、“抽象動作”、“子控制器”,例如對于在多個房間內游走的移動機器人,可以定義 “前”、“后”、“左”、“右”這樣的原子動作,也可定義 “移動到門口”這樣的選項,機器人將在原子動作和選項中進行動作選擇.HAM 方法將任務定義為一個隨機有限狀態機,采用MDP 對狀態機進行建模,實現智能體在某個狀態機內部的學習以及狀態機間的切換調用.MaxQ 方法將一個MDP 過程M分解為子任務集{M0,M1,···,Mn},對應的策略π也分解為策略集{π0,π1,···,πn},所有子任務形成以M0為根節點的分層結構,每個子任務的動作選擇既可以是原子動作,也可以是其他子任務,最終解決了M0,即解決了完整任務.

近年來,將分層強化學習思想應用于多智能體強化學習,所產生的多智能體分層強化學習已成為研究熱點.DeepMind 提出了一種多智能體強化學習方法,核心是采用基于種群的訓練、單個智能體內部獎勵優化以及分層強化學習架構,其在 “雷神之錘”游戲中不僅學會了如何奪旗,還學到了一些不同于人類玩家的團隊協作策略[84].文獻[85]介紹了一種具有技能發現能力的雙層多智能體強化學習方法:在底層,智能體基于獨立的Q-learning 學得特定技能;在上層,基于外部團隊協作獎勵信號并采用集中式訓練方式實現多智能體間的協作.文獻[86]則使用多智能體分層強化學習來處理稀疏和延遲獎勵問題,作者同時研究了多種同步/異步HRL 方法,并提出了一種新的經驗回放機制來處理多智能體學習中的非平穩性等問題.此外,HRL 在多智能體路徑規劃[87]、多衛星協同任務規劃[88]等應用問題中也展現了良好的求解能力.

顯然,分層強化學習引入了大量的先驗或領域知識,如Option 方法中如何將原子動作封裝為選項并確定選項的進入、退出條件,HAM 方法中如何設計隨機狀態機,MaxQ 方法中如何構建子任務層次結構等.盡管基于智能體自動任務抽象的端到端分層強化學習成為當前另一研究熱點,并出現了Option-Critic[89]、Manager-Worker[90]等端到端學習方法,但在大規模復雜問題中,特別是對系統可靠性、可解釋性有著苛刻要求的物理智能體領域,結合先驗和領域知識的分層強化學習方法仍是一個有效的選擇.

3.2 組件化協同算法

根據知識驅動、數據驅動方法各自所處的主次地位,我們可大致將組件化協同算法分為知識增強的數據驅動方法、數據調優的知識驅動方法、知識和數據互補結合三類方法.其中,知識增強的數據驅動方法以數據驅動方法構成算法的主體框架,算法的部分組件或某個操作步驟采用現有知識加以輔助或增強設計,目的是相較純數據驅動方法獲得性能提升;數據調優的知識驅動方法則以知識驅動方法構成算法主體框架,同樣算法的部分組件或某些操作步驟采用數據驅動方法、特別是數據驅動強大的尋優能力來實現相對于純知識驅動方法的性能改善;在知識和數據互補結合方法中,知識驅動、數據驅動兩類方法的主次關系相對不明顯,二者將以互補方式構成集成算法.

3.2.1 知識增強的數據驅動

如圖5 所示,在此主要介紹強化學習中的模仿學習、啟發式回報函數設計以及深度學習中的網絡化知識表示三種知識增強的數據驅動方法,每種方法的不同組件將基于先驗知識進行輔助增強設計,如直接模仿學習中的行為策略、逆強化學習及啟發式回報函數設計方法中的回報函數,以及網絡化知識表示中的網絡結構、參數和學習策略等.

圖5 知識增強的數據驅動方法Fig.5 Knowledge enhanced data-driven methods

1)模仿學習

多智能體強化學習中搜索狀態空間和策略空間巨大,且由于稀疏獎勵、延遲回報等問題,基于累積獎賞來學習多步之前的決策非常困難,而在現實任務中,我們往往能夠獲得一批專家的決策過程示例,由此可使強化學習模型直接模仿專家的示例軌跡來緩解前述困難,這一方法即為模仿學習.根據在強化學習框架下所 “模仿”的對象,可進一步將模仿學習劃分為直接模仿學習、逆強化學習兩類[20,91-93].

直接模仿學習中,首先獲取到專家的 “狀態–動作對”示例數據,然后采用監督學習方式來學得符合專家決策軌跡的策略模型.DeepMind 團隊的AlphaStar[49]首先針對人類玩家中排名前22%的玩家獲取到百萬規模的對戰數據集,采用監督學習方式對策略網絡進行預訓練,此后再采用強化學習和聯盟學習方式進行策略提升和進化.文獻[94]采用層次化學習架構來研究5V5 的多玩家在線對戰競技(Multiplayer online battle arena,MOBA)游戲,定義了 “對戰階段”、“注意力”兩層宏觀策略和 “行為執行”一層微觀操作,并采用監督學習方式分別學習宏觀策略和微觀操作.前述針對電競游戲的研究能較便捷地獲取到大規模先驗數據集,與此不同,實際物理環境下的無人集群應用場景往往缺乏人類經驗或先驗數據,但可能存在許多基于先驗模型或解析算法的知識類模型.為此,文獻[95]針對多智能體編隊和避碰問題,分別采用一致性編隊協議和最優互補避碰(Optimal reciprocal collision avoidance,ORCA)算法設計知識驅動型編隊和避碰算法,并利用該算法產生示例數據,進一步基于該示例數據采用模仿學習方式訓練初始值網絡,為后續強化學習提供初始網絡參數,這種由 “模仿人類”改為 “模仿算法”的思想很有借鑒意義.

與直接模仿學習從示例數據中直接學習行為策略不同,逆強化學習[96]的思想是從專家示例中學習回報函數,這在專家示例數據較少時表現出更好的問題抽象能力和泛化性能.文獻[97-98]對逆強化學習進行了綜述,根據是否人為指定回報函數的形式,將逆強化學習分為兩類:一類是人為指定回報函數形式的傳統方法,主要包括學徒學習方法、最大邊際規劃算法、結構化分類方法以及基于最大熵、交叉熵等概率模型形式化表達方法;另一類方法為深度逆強化學習方法,即為了克服大規模問題中人為指定特征函數表現能力不足、只能覆蓋部分回報函數解空間等問題,采用深度神經網絡來設計回報函數學習模型[99-100].與前述完全從專家正向示例樣本中學習不同,文獻[101]介紹了一種能同時學習正向樣本和負向樣本數據的機器人自主導航學習框架,正向樣本告訴機器人應該怎么做,而負向樣本教會機器人不應該怎么做,與單純采用正向樣本的方法相比,在機器人避碰成功率等方面得到了提升.在多智能體場景中,平衡解的非唯一性意味著同一個平衡策略可能對應多個逆模型,這為多智能體逆強化學習的研究帶來了挑戰.文獻[102]將單智能體逆強化學習[96]拓展到多智能體領域,并將環境建模為一個一般和隨機博弈過程,以分布式方式來求取智能體各自的策略;文獻[103]則針對雙人零和博弈問題,采用貝葉斯方法來建模回報函數,即首先為回報函數分配一個先驗分布,再基于觀察到的策略從后驗分布中生成回報函數的點估計.

2)啟發式回報函數設計

在強化學習中,許多問題存在獎勵稀疏或延遲等問題,恰當的回報函數設計是算法優異表現的關鍵.鑒于回報函數設計復雜,利用各種先驗知識來優化獎勵信號的啟發式回報函數設計方法[104-105]成為一大類重要的知識與數據協同驅動方法.事實上,前述逆強化學習正是一種啟發式回報函數設計的特殊形式,其特別之處在于是從專家示例數據中去學得回報函數,因此,本部分介紹除逆強化學習之外的啟發式回報函數設計方法.

啟發式回報函數設計的第1 種通用方法是直接利用經驗或先驗知識來設計回報函數.例如,文獻[106]針對多智能體協同區域覆蓋與網絡連通保持這一復合任務,在回報函數設計中充分運用了先驗知識:在區域覆蓋子任務中計算覆蓋率作為獎懲因素,在網絡連通保持子任務中計算代數連通度來作為連通性獎懲因素,最終實現了復雜任務的知識引導學習.文獻[107]針對無人車車道變換問題設計了基于深度Q 網絡(Deep Q-network,DQN)的自主決策模型,在回報函數中綜合考慮了車道變換的安全性和駕駛速度等因素.文獻[108]則基于控制論思想,采用被控量誤差絕對值的累加和作為回報函數來調節基于DRL 的控制器.

啟發式回報函數設計的第2 種方法是引入附加回報函數.為表述清晰,在此對一個MDP 問題M進行五元組定義表示,即〈S,A,R,T,γ〉,五個變量分別表示環境狀態集合、動作集合、獎賞函數、狀態轉移函數和折扣因子.在附加回報函數設計中,為了對決策過程進行引導,在原MDP 問題M的回報函數R上疊加一個附加回報函數F,構成新的MDP問題M′,其回報函數為R′=R+F.特別地,Ng等[109]證明可將附加回報函數設計為某個勢函數關于相鄰兩個狀態的差分形式而不是僅與當前狀態相關,即

其中,s,s′∈S表示當前及下一時刻狀態,?(·)為需要設計的勢函數,從而有利于維持從M到M′的策略不變性.文獻[110]進一步從理論上證明了這一策略不變性結論.基于上述勢函數,可將附加回報函數F的設計轉化為勢函數?(s)的設計,而勢函數則可基于先驗知識進行設計,例如選為狀態s與目標或者子目標之間廣義距離的相反數,進而產生一個 “勢場”的吸引作用[111].進一步,文獻[112]將附加回報函數從單純依賴狀態空間拓展到依賴狀態-動作聯合空間,即

其中,a,a′∈A表示當前時刻及下一時刻選取的動作,這樣構成基于勢函數的建議,即鼓勵智能體在某一狀態下采取某一特定動作;文獻[113]則將文獻[109]中的原始勢函數推廣為動態勢函數,即在勢函數中顯式增加了時間變量,并證明仍然能保持策略的不變性.

結合上述基于勢函數的建議和動態勢函數,文獻[114]證明可將任意獎勵函數轉化為基于勢函數的動態建議.

大部分強化學習的獎勵信號都是通過環境給定的外在獎勵,事實上學習的收益還有可能來源于內在獎勵 (Intrinsic reward),例如智能體的好奇心以及對于內部信息的反應[115].文獻[116]即給出了一個形象的例子說明,單純依賴外部獎勵可能會遺漏智能體內部的重要信息,而增加內部獎勵則可能提升智能體的性能表現;在大量稀疏獎勵問題中,如何使智能體經過有效探索以最快速度獲得外部獎勵,是強化學習研究的熱點問題,為此,文獻[117]提出了一種新的基于內在獎勵的強化學習探索準則:BeBold,能夠使智能體在不知道具體環境語義的情況下以一種普適準則快速地適應各種環境,訓練出有效策略;更進一步,文獻[118]研究如何在完全沒有外部獎勵的環境下通過內在獎勵實現智能體的訓練,并在54 個基準環境下進行測試,驗證了這一方法的有效性.在知識與數據協同驅動的框架內,上述內在獎勵可以通過知識引導的方式設計,也可以通過數據驅動的方式來自動尋優[116,119].

3)知識的網絡化表示

知識和數據協同驅動的另一種方法是將知識展開成數據化表示,特別是采用神經網絡來進行表示,從而形成一種特殊形式的知識嵌套網絡,該網絡的結構、參數等將體現領域或專家知識的特點,進一步可將該網絡嵌入到更大的神經網絡中進行統一訓練學習,概念模型如圖6 所示.例如,Xu等[19]提出一種將知識驅動和數據驅動相結合的框架,該框架首先根據問題物理機理、先驗知識等建立一個具有若干未知參數的模型族,然后基于數據驅動算法設計算法族,對模型族中的未知參數尋優,最后將整個模型展開為深度網絡以實施深度學習,該架構對知識與數據的深度集成具有很好的啟發意義.事實上,這種將某一模型算法展開成神經網絡進行統一訓練的思想很早便得到關注.例如,模糊神經網絡[120-121]便是將模糊推理的隸屬度函數計算、模糊規則推理等過程展開成神經網絡表示,隨后采用訓練的方式實現模糊推理前后件參數規則的尋優;又如,PID神經網絡[122]將控制中應用最廣泛的PID 控制器展開成神經網絡表示,隨后采用網絡訓練方式來尋優控制參數.除了將具體的模型或算法展開為神經網絡表示外,還可以將某些數學方程展開為網絡表達,例如利用神經網絡來表示非線性偏微分方程約束[123]或直接求解偏微分方程[124].

圖6 知識的網絡化展開概念模型Fig.6 Conceptual networking expansion of knowledge

除了將解析模型/算法或數學關系進行神經網絡展開外,針對某些實際物理系統,還可將物理約束進行網絡化展開.例如,針對真實機器人所受的動力學等物理約束,文獻[123]提出一種新穎的深度拉格朗日網絡(Deep Lagrangian networks,DeLaN),即將物理對象的拉格朗日動力學模型表示成神經網絡形式,進一步采用深度網絡的訓練方式實現學習,從而在利用深度學習高效計算的同時保證物理約束.文獻[125]也提出采用神經網絡來表示機器人機理模型,并驗證了該模型在表示7 自由度機械臂逆向動力學模型時,具有比傳統前饋神經網絡和循環神經網絡更好的表示精度和泛化性能.文獻[126]提出將復雜、動態系統采用圖神經網絡來表示,例如機器人的身體和關節可分別用圖模型中的節點和邊來表示,從而采用一種統一的網絡方式實現模型的表征.而圖神經網絡[127]在表征多智能體系統時具有更加直觀的意義,結合注意力機制,圖注意力網絡[128]可有效地提取智能體之間的隱藏時空特征關系,從而為多智能體協同決策提供特征輸入.

除了上述三種方法外,知識增強的數據驅動還有許多路徑選擇.例如,基于模型的強化學習便是一大類方法,其本質是對MDP 模型M中狀態轉移函數T的處理和運用,通常是采用神經網絡等模型對環境(即狀態轉移概率)進行建模,然后基于該模型來生成用于后期策略訓練的數據,或是直接產生基于優化的預測控制器.文獻[129]便采用這樣的思路,基于元學習來使得智能體能夠在線自適應地學到動態變化的環境模型,從而提升策略的魯棒性,在實際物理環境下的驗證表明,算法能使多足機器人在變化的地形條件、姿態估計存在偏差、負載變化、甚至是缺失一條腿的復雜情況下表現出良好的適應性.此外,若T已知,另一類通用方法是動態規劃[130-131],由于其內涵過于廣泛,本文不做更進一步展開介紹.

3.2.2 數據調優的知識驅動

數據調優的知識驅動方法總體思想是利用數據驅動方法強大的尋優能力來實現知識驅動方法中結構或參數的優化,這類方法在感知、決策、控制等領域已幾乎無處不在.例如,前述的遺傳模糊方法,即是采用進化計算這類數據驅動方法來優化模糊推理這類知識驅動方法中的規則前后件;控制領域中的自適應控制、優化控制等方法群也大量采用數據驅動方法來實現參數調優.又如,文獻[132]設計了模糊Q 學習控制器,采用強化學習方法對模糊控制器參數進行優化.在集群編隊方面,文獻[133-134]以基于模型的一致性控制器為主控制器,采用徑向基神經網絡方法估計集群編隊中的不確定性,設計了最小參數學習自適應控制算法.類似地,文獻[135]在考慮全狀態約束和指定性能的基礎上提出了一種事件觸發自適應控制算法,采用反步法構建控制框架,采用徑向基神經網絡處理多智能體模型中的非線性函數.這類方法在基于模型的規劃、控制、決策等研究中已經得到廣泛關注,故在此不做展開介紹.

3.2.3 知識與數據的互補結合

在這類方法中,知識驅動和數據驅動方法沒有明顯的主次關系,二者通過不同形式緊密集成.文獻[21]系統總結了基于模型的知識驅動方法和基于神經網絡的數據驅動方法的不同結合形式,從架構上主要分為二者并聯結合、串聯結合兩類:在并聯結合中,知識驅動和數據驅動模型采用相同的輸入,在輸出端將二者輸出結果進行并聯;在串聯結合中,可將知識驅動模型的輸出作為數據驅動模型的輸入,或反過來將數據驅動模型的輸出作為知識驅動模型的輸入,文章還框架性地給出了這些結合形式在系統建模、預測、控制等不同問題中的應用.以控制系統設計為例,兩種結合方式衍生出3 種常見的系統框架,如圖7 所示[21].

圖7 知識驅動與神經網絡互補結合控制框架Fig.7 Control diagrams of complementary knowledgedriven and neural network methods

在框架A 中,控制律u為

其中,K表示知識驅動控制器,輸出為uk,N表示神經網絡,輸出為un,y=[ym,ysp],其中ysp為被控量設定值,ym為其測量值,D,M分別表示先驗知識中的狀態模型和輸出模型,p為先驗模型參數,w為神經網絡權重,其根據性能指標函數P調整;同時,知識驅動控制器中的參數p也可根據P調整.

類似地,框架B 中的控制律可表示為

框架C 中的控制律可表示為

其中,I為神經網絡模型的相關輸入.這些不同的結合形式體現出不同的實際意義,例如,在框架A 中,往往采用數據驅動模型構建不確定性補償模型,從而實現算法的優化和魯棒增強[136];在框架B 中,可采用神經網絡估計系統逆向動力學模型,然后采用知識驅動模型加以控制[137];在框架C 中,神經網絡的作用則是估計知識驅動控制器中的參數p[134].

除了神經網絡外,強化學習也被用于與知識驅動方法形成互補結合.例如,文獻[138]采用Q-learning構成補償控制器,與基于模型的基準控制器一起工作,實現了四旋翼無人機的穩定控制;類似地,文獻[108]采用二型模糊方法構成基準控制器,采用基于深度確定性策略梯度(Deep deterministic policy gradient,DDPG)的強化學習方法構成互補控制器,實現了電網調節頻率的控制.在串聯結合方式中,文獻[139]在策略學習框架中增加了一個盾牌(Shield),用來監督所學習的動作是否安全合理,具體結合方式有兩種,一是智能體做決策時,直接從盾牌中獲取一個安全行為,二是監督智能體的學習,一旦出現非安全行為時盾牌將加以動作修正;文獻[140]在MOBA 類游戲中也采取了類似的思想,采用一個動作掩碼(Mask)來對強化學習的探索過程進行剪枝,而掩碼的設計則繼承了有經驗的人類玩家的先驗知識.當然,無論是盾牌法還是動作掩碼法,其知識驅動部分僅作為數據驅動部分的一個組件,仍體現出一定主次性,應歸為前述知識增強的數據驅動方法一類,在此介紹主要是體現其串聯結合的特性.

4 幾個重要的研究方向

無論從群體智能系統這一應用主體還是深度學習、強化學習這類方法主體來看,當前都已逐步走向應用問題具象化、多領域概念深度融合的發展階段,從理論進一步深化、應用進一步落地等角度來看,以下幾個方面將是未來重要的發展方向.

1)多學科融合視角下的群體智能機理研究.如前所述,當前,“群體智能”這一概念尚未形成統一認識,不同學者從不同的學科視角出發展開了豐富的研究.未來的重點方向之一勢必是打破這樣的學科壁壘,建立多學科融合的群體智能統一話語體系,汲取不同學科所包含的理論工具、研究路徑等知識內核,形成更高層次和水平、具有更豐富路徑選擇的知識與數據協同體系.這方面已逐步引起關注,如[141-142]從博弈論和人工智能等不同角度探討了多智能體學習的問題,但仍未形成完善的理論方法體系.

2)知識與數據協同框架的理論分析.傳統基于數學/物理模型的知識驅動方法往往具有理論支撐較完備的特點,但當融合數據驅動模式后,如何開展整個協同框架的理論分析,是實現安全、可信任人工智能的關鍵.例如,在融入實際物理模型穩定性、正定性等特性以及等式、不等式、動力學等約束后,如何設計能表征上述特性和約束的神經網絡模型(網絡結構、激活函數形式等)以及如何開展受限網絡的學習律設計和理論分析,是值得研究的重要理論方向.

3)群體系統智能決策的可解釋性研究.對于無人集群系統這樣的實際物理系統,可解釋性顯得尤為重要.在機器學習領域,可解釋性描述一個算法模型輸出結果能為人們所理解的程度[143].傳統機器學習的可解釋性研究主要包括兩條路徑:一是建立本身易于解釋的模型;二是對建立好的數據驅動模型采用可解釋性方法進行解釋,即模型無關的可解釋性.但針對群體系統,這里的可解釋性多了另一層含義,即群體由于自組織特性所產生的涌現行為可解釋性.因此,如何統籌考慮數據驅動模型的黑箱可解釋性和群智行為的涌現可解釋性,是群體智能系統走向實用化的關鍵.

4)知識與數據的迭代進化.以知識來引導產生數據模型,從數據模型中歸納生成新的知識,形成知識與數據的交替迭代,是實現智能系統自主進化的重要路徑,也是實現能被人所理解卻又超越人類知識體系的人工智能系統的重要范式.從知識到數據的方法包括模仿學習以及各種啟發式的數據驅動方法,從數據到知識則包括各種規則學習、對手建模[144]等方法,但在決策智能這一當前最具挑戰性的問題下,尤其是針對群體智能系統的智能決策行為,如何結合實際應用背景形成知識與數據的迭代進化范式,是極具吸引力的研究方向.

5 結束語

群體智能理論和應用發展方興未艾,是新一代人工智能的一個熱點研究領域,但當前存在群智激發匯聚機理不清、對群體智能系統認知有限、高質量訓練數據缺乏等問題,無論對知識驅動還是數據驅動方法都提出了嚴峻挑戰,因此知識與數據協同驅動將是推進群體智能特別是群智決策研究的重要方法,也將為實現可引導、可信任、可學習、可進化的群體智能系統提供方法支撐.本文系統梳理了知識與數據協同驅動的多種方法路徑,并從架構級協同、算法級協同等不同層面進行了方法歸類,最后從理論和應用等發展需求角度提出了幾個未來重點發展方向,以期為相關領域的研究提供必要借鑒.