999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向空天防御體系的多任務可控涌現機制研究*

2023-07-05 08:44:58白宗磊劉秀華白天翔孫科武
現代防御技術 2023年3期
關鍵詞:規則動作智能

白宗磊,劉秀華,白天翔,孫科武

?空天防御體系與武器?

面向空天防御體系的多任務可控涌現機制研究*

白宗磊1,2,劉秀華1,2,白天翔1,2,孫科武1,2

(1.航天科工集團智能科技研究院有限公司,北京 100043; 2.航天防務智能系統與技術科研重點實驗室,北京 100043)

群體智能涌現研究對于人們理解自然界規律,優化社會管理,推進知識創新有重要作用,空天防御體系為群體智能涌現提供了研究和應用的新場景。然而,空天防御體系是典型的非線性系統,系統的可控涌現面臨狀態空間指數爆炸、動態過程建模復雜、性能分析困難等問題。面向戰場防御場景,針對空天防御體系面臨的大規模目標應對、復雜任務場景適配、多任務協調配合、復雜系統設計等問題,開展了面向空天防御體系的可控涌現機制研究,探究空天防御體系的涌現機制,為提升空天防御體系的多目標應對能力、場景快速適配能力和空天防御體系要素之間的有效協調配合能力提供新視角。

群體智能涌現;空天防御體系;可控涌現;復雜系統;多智能體強化學習

0 引言

涌現(emergence)是一種自然現象,當一組簡單個體的局部規則或相互作用在更高層次上產生復雜的全局行為時,就會發生涌現[1]。在涌現中,每個單體都只關注自己周圍的局部信息,并根據一定的規則進行決策和行動,最終形成了整體的行為[2]。這種整體行為可以帶來許多優勢,如提高效率、減少誤差、增強魯棒性等[3]。

多智能體系統[4]的涌現包括基于簡單規則[5]的涌現和基于群體智能[6]的涌現[7]?;诤唵我巹t的涌現指的是每個個體均遵從簡單的動作規則和交互規則,整個系統形成一個復雜網絡[8],這一涌現機制廣泛存在于簡單的物理系統和機械結構中,以及低等生物群體中[1,8];基于群體智能的涌現是指當一群具有自適應能力和學習能力的智能體交互協作時,所表現出來的整體行為,超出了單體能力的簡單加和,并且難以通過單體行為而被預測或解釋[9-10]。這種涌現現象在自然界和人工系統中都非常常見,例如蟻群、神經元網絡系統、人體免疫系統[1]、互聯網和全球經濟系統[9]等多智能體系統。

隨著人工智能技術的發展,現代化設備均具有一定的通信能力和數據處理能力,支持構造多智能體系統,并基于多智能體的涌現機制來應對強動態、高復雜任務場景[11-13],如空天防御場景。然而多智能體系統是典型的非線性系統,面臨狀態空間指數爆炸、動態過程建模復雜、性能分析困難等問題[14-16]。

針對空天防御場景下多智能體系統面臨的復雜性問題,本文研究多智能體系統模型表征方法,探究群體智能的涌現機制,設計更好的涌現算法和系統來實現多智能體系統的可控涌現,為提升空天防御系統大規模目標應對、復雜任務場景適配和多任務協調配合能力奠定基礎。

1 多智能體系統模型表征

本文使用圖網絡模型來構建多智能體系統的協同關系,使用節點來描述單個智能體,每個點附帶屬性描述,抽象描述智能體的狀態參數。在人類社會和經濟組織中,傳統的多智能體協同關系可以抽象為樹狀結構,各個子系統之間的交流必須通過父節點的中轉。樹狀體系各個子組件具有內部要素緊耦合、外部要素松耦合的特性,各個子系統之間的聯系必須依賴于中心節點,存在決策鏈路長,決策效率低的問題,難以應對強動態、高復雜的任務場景,一種自然的方案是在子系統之間建立連接,形成網絡協同機制,基于多智能體系統的涌現機制來應對復雜任務。因此,本文使用圖結構來建模多智能體系統的耦合關系,基于網絡科學理論來分析多智能體系統的涌現現象。

研究涌現現象首先需要對研究對象進行合理建模,為了清晰地刻畫多智能體的交互作用所誘導出的涌現現象,對于單個智能體要盡可能使用簡單的屬性來表征出個體本質的動作規律。針對典型多智能體系統,抽象3種類型的智能體作為節點,構建協同網絡來建模多智能體系統。根據要素功能分為3類節點,分別為感知節點、控制節點、執行節點,將3種節點的動作規則定義如下:

(1) 感知節點(VS):該類節點具備空間感知能力,感知空間目標信息并發送給控制節點。

(2) 控制節點(VD):該類節點具備控制、判斷能力,接收各類感知節點或控制節點傳來的目標信息,并及時進行分析,做出決策,并以控制信息的形式傳輸到控制節點或執行節點。

(3) 執行節點(VJ):該類節點的功能是接收控制節點的信息,執行相應的任務。

接下來給出典型的多智能體場景示例,以此為基礎進行系統建模。本場景中各型體系要素的位置為隨機生成,包括感知單元、執行單元、控制單元。場景中體系要素節點的位置分布如圖1所示,其中黃色點為執行單元位置、藍色點為控制單元位置、紅色點為感知單元位置。

圖1  多智能體要素分布圖

對于探測、通信、執行節點,按照現實條件的約束,均存在一定的有效作用范圍。圖2展示了部分節點的有效作用范圍,以節點為圓心的圓盤內表征了智能體的有效作用范圍。

圖2  多智能體分布與響應范圍

接下來定義系統中節點之間的協同規則:在由感知節點、控制節點、執行節點組成的多智能體網絡中,各節點之間的主要關系有以下幾類:

(1) 通信關系,如感知節點和控制節點之間的通信等,對應的邊傳輸信息流;

(2) 控制關系,包括控制節點和執行節點之間的關系、控制節點之間的關系等,該關系對應的邊傳輸控制決策信息流;

(3) 協同關系,包括信息協同、資源協同,對應的邊傳輸控制信息流。

基于上述的連通規則,使用貪婪策略即可生成滿足約束的多智能體協同網絡,每個節點優先與距離最近的節點連接,生成的網絡架構如圖3所示。

圖3  基于貪婪規則的多智能體系統架構

令表示所有節點集合,表示信息連邊集合,節點和邊構成的圖=(,)表示多智能體系統。

如上所述,單個智能體實現的功能可以表示為節點的狀態集合,包括感知、通信、控制、執行等動作,智能體間的協同關系表示為圖網絡模型。在系統動態運行過程中,每個節點根據外部環境和相鄰節點的作用關系,可以從給定的動作集合中選取動作來執行。

多智能體系統整體涌現出的性質即為上述圖網絡模型所展現的性質,在動態環境中,每個節點根據動作規則和協同規則執行動作,改變自己的狀態,整個體系的狀態隨之變化。通過協同作用,多智能體系統能夠涌現出超越單個智能體性能加和的性質。而系統的涌現可以表征為系統的整體狀態,如果存在某個狀態能夠滿足所需要的性質,那么通過設定單個智能體的規則使得系統處于這一狀態,便可實現系統的可控涌現。但是,整個系統的狀態空間大小隨著節點個數的增加而指數增加,多智能體系統具有典型的非線性性質,無法通過單個節點性質的簡單疊加而推導出整個系統的性質,這使得可控涌現的研究十分困難,需要對狀態空間進行詳細地數學表征和研究。

2 多智能體系統涌現機制

2.1 基于簡單規則的多智能體涌現機制

本節討論多智能體系統的涌現過程,首先考慮智能體只遵從簡單規則來執行動作和交互的情況。在應對環境變化過程中,智能體執行動作并進行交互,在網絡模型中形成感知-決策-執行環的系統運作方式,由此刻畫系統的涌現性質。

2.1.1動作規則

總體來說感知節點的動作包括感知、連接、信息傳輸;執行節點的動作包括接收控制信息,定位目標,執行動作;控制節點的動作包括接收感知信息、接收執行節點狀態、發出控制命令等。

在整個運行過程中,3類節點遵循如下的規則建立連接,主要連接類型分為感知節點、執行節點與控制節點的連接以及控制節點之間的連接:

(1) 感知節點、執行節點動態地同控制節點建立連接關系,如果節點的連接數少于4,則會定期搜索周邊的控制節點,并發送請求進行連接。在某個節點出現問題后,鄰接的感知和執行節點可以迅速接入相鄰的控制節點,即所有節點均會盡可能地保證接入網絡。

(2) 控制節點主動與周邊的控制節點建立連接,保障網絡的連通性,如果相鄰的控制節點出現故障,則繼續搜尋新的控制節點建立連接。

如上所述,感知節點、執行節點主要從屬于相鄰的控制節點,而控制節點一方面可以控制相鄰的感知節點、執行節點執行動作,另一方面可以與相鄰的控制節點進行通信,由此構成了控制網絡。

對于系統的運行邏輯,構造了可視化的3層邏輯網絡展示:感知網絡、控制網絡、執行網絡。

最上層為感知層,與相鄰的控制節點相連接,并將感知信息傳遞給控制節點;中間層為控制節點,控制節點與相鄰的控制節點間存在連接,可以相互傳遞信息,所有控制節點構成了整個多智能體網絡;控制節點連接最下層的執行節點,控制動作執行。

首先介紹基于規則的空天防御體系框圖,根據2.1節所述的構造規則,在3類節點之間可以自動生成網絡架構,如圖4所示,為3類節點的通信網絡架構。

圖4  感知、控制、執行三層網絡模型

從局部來看,是相鄰的控制節點控制對應范圍內的感知節點、執行節點執行動作,而從全局來看,則是小范圍的控制-感知-執行網絡組合成一個個局部網絡,然后通過控制節點構成的控制網絡,實現各個局部網絡之間的協作連接。

2.1.2感知-決策-執行過程

首先考慮單條感知-決策-執行鏈路,即針對單個目標的應對過程,然后考慮多目標的感知-決策-執行鏈路。感知-決策-執行鏈路的設計主要考慮對目標的應對策略,以及執行過程需要調動的要素。

在感知-決策-執行鏈路的構建過程中,最復雜的部分是如何選擇合適的執行節點和信息傳播路徑。需要解決以下問題:

(1) 如何快速找到合適的執行節點來適配任務;

(2) 如何避免多個節點的重復工作,造成浪費。

首先設計算法來分配任務,對于任意目標,會有相應的感知設備跟蹤到,并將感知信息傳輸給相鄰的控制節點,在正常情況下,會有數個控制節點收到對應的信息,即如前所述的局部網絡中,對應的控制節點具有了目標的詳細信息。此時控制節點根據目標信息,確定需要轉發的下一個控制節點。

如上所述為信息包的發起過程,接下來討論傳輸策略,當控制節點收到信息包時,需要對信息進行分析,并按照貪心策略轉發信息包,進行信息傳遞,直到某一臺控制節點可以調動執行節點,完成對應任務,并向相鄰的控制節點廣播自己的執行信號,避免重復執行。

上述過程使用了貪心的協同策略,在找到第一個可行的執行節點時便下達執行命令。一方面能夠有效快速應對目標;另一方面,通過全域廣播執行信息,可以有效應對重復執行問題。

上述操作為單任務的應對過程,多任務使用同樣的應對策略,即為每一個任務建立一個傳遞過程,形成一個感知-決策-執行環,在圖模型中形成一條鏈路,每一個目標構建一條通信鏈路來進行處理。在對目標感知過程中,對目標進行區分編號,并通過通信算法,來按照上述方法構建通信鏈路,應對多任務場景。

2.1.3多智能體系統網絡構建

感知節點負責感知目標信息,對于感知節點,令CNR表示與節點相連接的控制節點構成的集合,按如下步驟完成對目標的一次任務執行過程:

步驟1:如果CNR中元素個數大于0,轉到步驟2,否則本次任務失敗;

如上所述,在感知到目標時,通過遞歸地選取合適的資源,對任務進行劃分,通過遞歸地進行任務分配來形成完整的感知-決策-執行鏈。

對于多目標的情況,使用向量(、)對目標=(1,2,…,T)進行標記,其中=(1,2,…,R)表示感知到的節點,向量=(1,2,…,o)表示目標的屬性。根據上述目標的屬性信息,可以標記唯一且確定的目標。按照上述方法,為每個目標T設計一條完整的感知-決策-執行鏈L,所有的鏈共同構成一個完整的任務網絡。

2.1.4多智能體系統數學建模

本節將多智能體系統的狀態空間符號化,在此基礎上建模涌現過程。對于單個智能體,用有限集合{1,2,3,…}來表示智能體狀態集合,其中每個元素代表智能體的一種狀態。對于一個智能體,定義轉換函數來描述動作規則,將當前輸入值和當前的狀態作為轉換函數的參數,即可生成智能體的下一個狀態。如果這個智能體有個輸入,用個集合{1,2,…,I}表示可能的輸入值。定義為1,…,I的笛卡爾積表示所有可能的輸入構成的集合,即

=1×2×…×I.

例如,如果有集合1={a,b,c}和2={,},則

=1×2={(,),(,),(,),(,),(,),(,)}。

因此,智能體的轉換函數定義為

:×→.

為了描述智能體的行為序列,指定()為時刻的狀態,I()為時刻輸入的值,那么智能體的動作可由函數確定:

(+1)=(1(),2(),…,I(),()).

同樣地,給出+1時刻的輸入{1(+1),2(+1),…,I(+1)},便可用函數推導出機制在+2時刻的狀態(+2),以此類推,可以遞歸地得出機制在+3、+4等時刻的狀態,從而生成連續的狀態序列。這種迭代過程有效地建模了系統演化過程。

接下來考慮智能體的相互作用與連接關系,在模型的構建過程中,目標是建立一個框架,以便刻畫多智能體系統的自主演化,在其中研究涌現現象和涌現的復雜性。多智能體系統的涌現現象是由受規則約束的實體相互作用產生的。使用轉換函數來給出這些約束規則的形式化表示,當多個智能體相互作用時,對應的狀態空間的復雜性就會和涌現緊密聯系在一起。

首先定義一個智能體的集合來建模所有可能的智能體類型,稱為基本因子,基本因子根據協同規則連接起來構成多智能體系統。當一個智能體的狀態序列決定了另一個智能體中某一輸入變量的序列值時,就說這兩個智能體相互連接。通過選取集合中的智能體進行連接,構成一個相互作用的多智能體網絡。

假設是由個智能體組成的集合,這些智能體的動作由轉換函數1,2,…,f定義。中的智能體可能有不同的狀態集、不同的輸入個數。在符號中添加下標來表征智能體的可能輸入

I=II2×…×I(),

其中,()表示智能體的輸入個數。經過擴展,智能體的轉換函數f表示為

fI×SS.

接下來建模集合中智能體的相互作用。為了使兩個智能體能夠相互作用,其中一個智能體的狀態應當在一定程度上決定另外一個智能體的某個輸入值。這些智能體才能被耦合或者連接起來。對F中智能體的不同狀態集取并集:

=1∪2∪ … ∪S

定義接口函數g來表示智能體中的輸入,對于一個和智能體連接的智能體,函數g將該智能體的狀態作為初始值,就可為智能體生成輸入的合法值。因此,g使用如下表達形式:

g:→I.

即在任意時刻,智能體與智能體的輸入相連接:

I(t)=g(()).

通過接口函數,根據智能體在時刻的狀態(),可以確定輸入在時刻的輸入值序列。

使用上述方法連接中的智能體,通過受限生成過程可以創建出更復雜的復雜網絡,從單個智能體開始,然后再逐步達到目標。

(1) 模型生成過程可以僅包含單個智能體∈。

(2) 假設是已經建立的網絡,且中的智能體有一個自由輸入,將輸入與中的某個其他智能體連接,即在中建立從到的新連接,就能得到新的網絡'。

(3) 假設1和2是已經建立的網絡,且1中的智能體有一個自由輸入,那么將輸入與2中的某一其他智能體連接后,輸入就不再是自由的,這樣一來,就會得到一個新的網絡"。

(4) 通過以上3步,即可建立所有以為基礎的網絡。

用() 來表示網絡中的智能體總數(每個智能體其實都是中的一個)。根據集合{1,2,…,()},可以給網絡中的每個智能體分配一個唯一的索引(地址)。用下面的方法創建這種索引。

(1) 若網絡只包含單個智能體∈,則的索引就是=1。

(2) 若網絡'是通過將中的一個自由輸入和中的某個智能體連接在一起形成的,則索引不變。

(3) 若網絡是通過將1中的一個自由輸入與2中的一個智能體連接在一起形成的,則1中的索引不變,2中的每個索引都增加(1)以生成一個新的索引'=+(1),即(')(1)+(2)。

在多智能體網絡中,如果每個智能體都有唯一索引,那么就可以用矩陣來描述網絡中節點的連接和鄰接情況。對于由個智能體構成的網絡,令表示單個智能體的狀態數量,則多智能體系統的狀態空間大小為q(此處假設所有智能體狀態數相同,不同的情況更加復雜,但數量級相同)。在智能體演化過程中,多智能體系統將停留在哪種狀態,或者以什么樣的概率分布在整個狀態空間上,決定了整個系統涌現出的性質。

圖5  基于規則的涌現過程示意圖

網絡的涌現取決于智能體的狀態數,連接方法,連接數量,以及智能體之間的相互作用關系。如圖5所示,給定智能體的動作規則和協同規則,即可確定系統狀態空間,針對特定的任務,系統涌現出特定的動作序列,基于系統的指標評估,可以搜索最優的狀態配置。在此基礎上,還可以反饋到動作規則和協同規則的設計。系統的可控涌現關鍵在于刻畫單個智能體性質與多智能體涌現之間的對應關系,從而實現可控涌現。

2.2 基于強化學習的多智能體涌現機制

接下來考慮基于強化學習的多智能體系統可控涌現。此時每個裝備建模為一個智能體,可以根據環境狀態而自適應地執行相應的動作。多智能體系統的可控涌現表現為對智能體策略的構建。本文將智能體的策略模型建模為強化學習過程,每個智能體可以根據環境變化、其他智能體的狀態變化,通過強化學習策略來選擇自己的動作。同樣地,為系統設置整體的性能指標,并以此為基礎構建強化學習的目標函數?;谀繕撕瘮禈嫿ㄖ悄荏w的強化學習策略,通過強化學習來得出智能體的動作序列,實現多智能體系統的可控涌現。

對于由個智能體構成的網絡,如圖6所示,在多智能體網絡運行過程中,任意智能體可以觀測相鄰智能體的狀態和環境狀態,以及通過通信得到的部分其他智能體的狀態,獲得觀測o,并遵從一定的執行策略,執行動作a,并獲得對應的獎勵r。在智能體演化過程中,智能復雜網絡將停留在哪種狀態,或者以什么樣的概率分布在整個狀態空間上,決定了整個復雜網絡呈現出的性質。而網絡的穩定態則取決于智能體的策略,交互方法,連接數量等。基于強化學習來構建智能體的執行策略,實現網絡的涌現性質。

此外,智能復雜系統由于單個個體存在智能策略,可能需要長時間的博弈過程才能形成穩態,在構建過程中需要考慮智能策略的反應時間(即能在多長時間能產生決策),整體系統博弈的平衡狀態,博弈平衡需要的時間(多長時間能夠演化到平衡態),整體性能指標(同簡單規則的情況相同,使用圖模型的量化指標來表征)。

圖6  多智能體與同一環境交互示意圖

馬爾可夫決策模型(Markov decision process)為解決多智能協同涌現問題提供了技術基礎,如多智能體馬爾可夫決策模型(M-MDPs),去中心化的馬爾可夫決策模型(DEC-MDPs)。由于實際環境通常是部分可觀測的,所以在多智能體決策過程中一般使用去中心化的部分可觀測馬爾可夫決策模型(DEC-POMDPs),其目標是使獨立智能體在協作完成一項共同任務時最大化整個系統的報酬。本文使用基于馬爾可夫決策模型的多智能體深度強化學習方法,構建空天防御體系的分布式決策模型,其可以直接輸入高維狀態信息,獲取分布式實時決策,在應對大規模來襲目標,實時動態防御決策過程中有出色的表現,是解決復雜系統可控涌現的有效方法。

無中心式的多智能體系統作為典型的分布式協同系統,其中每個智能體都要在有限時間內,在信息部分可觀測約束條件下進行最優決策行為選擇。根據是否完全可觀測,可以分2種情況設計模型:

(1) 完全可觀測的多智能體馬爾可夫決策模型

對于MMDPs模型中每一個智能體而言,其行為決策是相對獨立的,因此求解一個MMDPs問題等價于個MDP的聯合求解。在經典的單智能體MDP中,求解MDP就是選擇一條合適的策略最大化智能體的決策回報。然而,求解一個MMDPs問題需要尋找一個最大效用值的聯合策略,多智能體系統面臨狀態空間復雜的問題,具有典型非線性性質,使用簡單策略難以實現對系統的可控涌現。

(2) 部分可觀測的多智能體馬爾可夫決策模型

在現實世界,單個智能體往往只能觀測到部分環境和鄰接智能體的狀態,因此,一般使用部分可觀測馬爾可夫決策過程(partial observable MDP,POMDP)進行建模,相比于完全可觀測的情況,部分觀測難以估測環境的實際狀態,策略執行受限,系統的可控涌現更加困難。在多智能體問題中,如果每個智能體觀測到環境的局部信息,并且根據局部信息進行決策,這類問題稱為去中心化POMDP問題(decentralized POMDP,Dec-POMDP)。圖7展示了Dec-POMDP隨時間演進的過程。

圖7  去中心化的部分可觀測馬爾可夫過程

在多智能體系統中有多個智能體進行決策,且智能體之間相互影響,共同改變環境的狀態,系統的可控涌現需要更高的時間復雜度,主要表現為:

(1) 智能體之間有競爭關系、合作關系等,要考慮環境、己方、敵方、中立方的行動、意圖及狀態;

(2) 在強化學習中,需要存儲狀態值函數或動作-狀態值函數,以及智能體間的神經元網絡聯結模式,因此狀態空間變大,聯結動作空間隨智能體數量指數增長,系統維度高,計算復雜。

(3) 多智能體系統中每個智能體的任務不同,但彼此之間又相互耦合影響,因此目標獎勵的確定困難。

針對上述問題,可以將多智能體系統的可控涌現問題建模為一個多約束、多目標的優化問題,并采用群智優化方法求解該優化問題。每個智能體獨立做出動作選擇,并行地在多智能體系統的狀態空間中進行大樣本探索,通過構建搜索策略和評估指標,不斷探索在適應度函數(優化目標)上優勢的動作策略。每個智能體的動作序列可以建模為馬爾可夫決策過程。

與傳統優化算法相比,基于仿生學的群體智能優化算法本質上是一種概率并行搜索算法。其尋優速度更快,能更有效地搜索復雜優化問題的全局最優解。全局收斂性好,在包括尋找函數最優值、求解旅行商問題、目標分配問題、多處理機調度問題、有依賴的優化問題和作業調度問題等領域得到廣泛的應用。

群智優化過程可以使用遺傳算法。該方法是一種基于自然選擇過程機制的搜索優化算法,通過模仿“適者生存”的概念,模擬了一個自然系統中觀察到的運行過程,強者傾向于適應和生存,而弱者傾向于死亡。其中群體中的成員根據其解決方案的適合度進行排名。在遺傳算法中,通過交叉、繁殖和突變等特定的遺傳算子形成新的種群。在每一代中,一個新的智能體是利用來自前一個群體的最適策略的信息產生的。遺傳算法生成可行解的初始種群,并以各種方式進行重新組合,搜索到狀態空間中更優的區域。每一個可行的解決方案都被編碼為染色體,也被稱為基因型,每一條染色體都將通過適應度函數(評估或目標函數)求得一個適應度度量。該算法由3個主要過程組成,即繁殖、交叉和突變。繁殖選擇種群中最適的候選者,而交叉則是將最適的染色體結合并傳遞優良基因給下一代的過程,突變則改變染色體中的一些基因。結合適應度評估即可對復雜優化問題求解。

3 結束語

在單智能體系統中,智能體只需要考慮環境的變化,而在多智能體強化學習中,還需要考慮多個智能體的交互和相互影響,動態過程更加復雜,智能體的最優策略可能隨著其他智能體策略的變化而變化,這給算法的收斂性帶來極大地影響,學習速度減慢。

多智能體系統的可控涌現目前還存在諸多難點,對于協同關系的設定,競爭規則的改變將導致宏觀上的涌現性質,而指數大小的狀態空間導致了可控涌現在實現上的困難。在對狀態空間的搜索尋優過程中,多智能體系統面臨非平穩環境、維度爆炸、多智能體信用分配、系統全局探索等問題的挑戰。

針對多智能體系統的涌現性質,本文給出了基于復雜網絡的多智能體系統建模;在此基礎上,基于復雜系統理論來分析系統的涌現性能;應用強化學習方法來搜索尋找最優的動作規則和協同規則,構建匹配相應任務的多智能體系統。

多智能體系統涌現性質研究的難點在于系統的復雜性,系統的狀態空間隨著裝備數量增加而指數增大,對系統的模擬計算與性質分析均十分復雜。此外,在環境發生變化或者系統的網絡拓撲結構發生改變后,多智能體系統的演化過程可能需要很長時間,難以快速達到平衡穩態,涌現出期望的性質。因此,需要對系統的收斂速率進行分析,而這個分析同樣受制于系統的復雜性,十分困難。

針對上述問題,一種解決方案是通過指數圖模型來建模狀態空間,通過分析狀態空間的連通性來度量收斂速度,在此基礎上,設計動作規則和協同規則來獲取高連通的體系架構,提升體系的快速收斂能力,保障體系的快速涌現。此外,本文給出了基于規則的協同方法、基于群智優化的協同方法的設計與驗證。在下一步研究中,通過進一步優化動作規則、協同規則,以及智能體的執行策略,可以增強系統的涌現效率,實現更好的涌現效果。

[1] LEIT?O P, KARNOUSKOS S. Industrial Agents: Emerging Applications of Software Agents in Industry[M]. Amsterdam, Netherlands: Elsevier, 2015.

[2] KUBERA Y, MATHIEU P, PICAULT S. Everything Can Be Agent?。跜]∥Proceedings of the 9th International Conference on Autonomous Agents and Multiagent Systems. Richland, SC: International Foundation for Autonomous Agents and Multiagent Systems, 2010: 1547-1548.

[3] CUCKER F, SMALE S. On the Mathematics of Emergence[J]. Japanese Journal of Mathematics, 2007, 2(1): 197-227.

[4] 王涵, 俞揚, 姜遠. 基于通信的多智能體強化學習進展綜述[J]. 中國科學(信息科學), 2022, 52(5): 742-764.

WANG Han, YU Yang, JIANG Yuan. Review of the Progress of Communication-Based Multi-agent Reinforcement Learning[J]. Scientia Sinica(Informationis), 2022, 52(5): 742-764.

[5] NIAZI M, HUSSAIN A. Agent-Based Computing from Multi-agent Systems to Agent-Based Models: A Visual Survey[J]. Scientometrics, 2011, 89(2): 479-499.

[6] PANAIT L, LUKE S. Cooperative Multi-agent Learning: The State of the Art[J]. Autonomous Agents and Multi-agent Systems, 2005, 11(3): 387-434.

[7] ANDERSON P W. More is Different[J]. Science, 1972, 177(4047): 393-396.

[8] BOGU?á M, BONAMASSA I, DE DOMENICO M, et al. Network Geometry[J]. Nature Reviews Physics, 2021, 3(2): 114-135.

[9] WOOLDRIDGE M. An Introduction to Multi Agent Systems[M].John Wiley & Sons, 2002: 366.

[10] ROGERS A, DAVID E, JENNINGS N R, et al. The Effects of Proxy Bidding and Minimum Bid Increments Within eBay Auctions[J]. ACM Transactions on the Web, 2007, 1(2): 9-es.

[11] 鄭健, 陳建, 朱琨. 基于多智能體強化學習的無人集群協同設計[J]. 指揮信息系統與技術, 2020, 11(6): 26-31.

ZHENG Jian, CHEN Jian, ZHU Kun. Unmanned Swarm Cooperative Design Based on Multi-agent Reinforcement Learning[J]. Command Information System and Technology, 2020, 11(6): 26-31.

[12] 柏曉祉. 強化學習在多智能體協同中的研究與應用[D]. 成都: 電子科技大學, 2020.

BAI Xiaozhi. Research and Application of Reinforcement Learning in Multi-agent Collaboration[D]. Chengdu: University of Electronic Science and Technology of China, 2020.

[13] 孫清. 基于強化學習的多智能體協同機制研究[D]. 杭州: 浙江工業大學, 2015.

SUN Qing. Research of Multi-agent Cooperation Mechanism Based on Reinforcement Learning[D]. Hangzhou: Zhejiang University of Technology, 2015.

[14] 陳亮, 梁宸, 張景異, 等. Actor-Critic框架下一種基于改進DDPG的多智能體強化學習算法[J]. 控制與決策, 2021, 36(1): 75-82.

CHEN Liang, LIANG Chen, ZHANG Jingyi, et al. A Multi-agent Reinforcement Learning Algorithm Based on Improved DDPG in Actor-Critic Framework[J]. Control and Decision, 2021, 36(1): 75-82.

[15] 曹雷. 基于深度強化學習的智能博弈對抗關鍵技術[J]. 指揮信息系統與技術, 2019, 10(5): 1-7.

CAO Lei. Key Technologies of Intelligent Game Confrontation Based on Deep Reinforcement Learning[J]. Command Information System and Technology, 2019, 10(5): 1-7.

[16] 葛志欣. 基于深度強化學習的多智能體協同決策研究[D]. 大連: 大連理工大學, 2021.

GE Zhixin. Research on Collaborative Decision of Multi-agent Based on Deep Reinforcement Learning[D]. Dalian: Dalian University of Technology, 2021.

Research on Multi-task Controllable Emergence Mechanism for Air and Space Defense System

BAIZonglei1,2,LIUXiuhua1,2,BAITianxiang1,2,SUNKewu1,2

(1.Intelligent Science & Technology Academy of CASIC,Beijing 100043,China;2.Key Lab of Aerospace Defense Intelligent System and Technology, Beijing 100043, China)

The research on the emergence of swarm intelligence plays an important role in people's understanding of the laws of nature, optimizing social management, and promoting knowledge innovation. The air and space defense system provides a new scene for the research and application of swarm intelligence. However, the aerospace defense system is a typical nonlinear system, and the controllable emergence of the system faces problems such as exponential explosion of state space, complex dynamic process model, and difficult performance analysis. Aiming at the battlefield defense scenario, this paper carries out the research on the controllable emergence mechanism of intelligent defense system for large-scale target response, complex task scenario adaptation, multi-task coordination and cooperation, and complex system design faced by the air and space defense system, explores the emergence mechanism of the air and space defense system, and provides a new perspective for improving the multi-target response capability, rapid scenario adaptation ability and effective coordination and cooperation among the elements of the air and space defense system.

emergence of swarm intelligence;air and space defense system;controllable emergence;complex system;multi-agent reinforcement learning

2023 -02 -24 ;

2023 -04 -18

國家自然科學基金(62103386);青年人才托舉工程(2022QNRC001)

白宗磊(1993-),男,山東淄博人。工程師,博士,研究方向為復雜系統,多智能體系統。

通信地址:100043 北京市石景山區群明湖大街6號院 E-mail:zongleibai@163.com

10.3969/j.issn.1009-086x.2023.03.005

V19;TJ76

A

1009-086X(2023)-03-0039-10

白宗磊, 劉秀華, 白天翔, 等.面向空天防御體系的多任務可控涌現機制研究[J].現代防御技術,2023,51(3):39-48.

Reference format:BAI Zonglei,LIU Xiuhua,BAI Tianxiang,et al.Research on Multi-task Controllable Emergence Mechanism for Air and Space Defense System[J].Modern Defence Technology,2023,51(3):39-48.

猜你喜歡
規則動作智能
撐竿跳規則的制定
數獨的規則和演變
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
動作描寫要具體
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
畫動作
動作描寫不可少
主站蜘蛛池模板: 欧美在线国产| 国产精品大尺度尺度视频| 国产亚洲欧美另类一区二区| 日韩精品一区二区三区中文无码| 人与鲁专区| 国产精品成人观看视频国产 | 国产99精品视频| 91精品啪在线观看国产| 最新日本中文字幕| 午夜日本永久乱码免费播放片| 最新亚洲人成无码网站欣赏网| 99久久国产综合精品2023| 婷婷成人综合| 国产在线第二页| 国产爽爽视频| 狠狠做深爱婷婷久久一区| 国产18页| 青青青伊人色综合久久| 2048国产精品原创综合在线| a毛片在线播放| 欧美翘臀一区二区三区| 亚洲成人免费看| 中文字幕欧美日韩高清| 午夜不卡视频| 蜜桃臀无码内射一区二区三区| 亚洲精品欧美日本中文字幕| 中文字幕在线视频免费| 91年精品国产福利线观看久久 | 国产成人喷潮在线观看| 亚洲综合香蕉| 欧美日韩免费观看| 2021亚洲精品不卡a| 久久黄色免费电影| 色综合成人| 日韩毛片免费| 亚洲人成网站色7777| 免费观看欧美性一级| 69av免费视频| 国产在线日本| 四虎永久在线精品国产免费| 波多野结衣无码AV在线| 在线免费无码视频| 国产综合另类小说色区色噜噜 | 国产白浆一区二区三区视频在线| 91精品啪在线观看国产91九色| 男人天堂亚洲天堂| 欧美日韩一区二区三区在线视频| 黄色成年视频| 成人精品亚洲| 丝袜无码一区二区三区| 精品国产免费第一区二区三区日韩| 久久这里只精品国产99热8| 亚洲天堂精品视频| 久久久噜噜噜| 在线欧美日韩| 再看日本中文字幕在线观看| 久久久91人妻无码精品蜜桃HD | 国产午夜在线观看视频| 久久这里只有精品23| 欧美高清国产| 动漫精品啪啪一区二区三区| 国产亚洲精品va在线| 91精品专区| 中文字幕无码电影| 亚洲欧美日韩天堂| 欧美一区二区啪啪| 亚洲欧美日韩综合二区三区| 日韩在线1| 色婷婷亚洲十月十月色天| 色偷偷av男人的天堂不卡| 国产视频你懂得| 亚洲精品无码在线播放网站| 午夜激情婷婷| 亚洲视频四区| 亚洲男人的天堂久久香蕉| 国产精品亚洲日韩AⅤ在线观看| 99久久国产自偷自偷免费一区| 欧美亚洲欧美区| 91九色国产porny| 国产自在线拍| 国产亚洲欧美日本一二三本道| 五月天天天色|