999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于演化博弈的結構化無人集群協作控制方法*

2021-12-29 07:20:04禹明剛張東戈
火力與指揮控制 2021年10期
關鍵詞:理論策略

禹明剛,何 明,張東戈,羅 玲,康 凱

(1.陸軍工程大學指揮控制工程學院,南京 210007;2.陸軍工程大學通信工程學院,南京 210007)

0 引言

隨著第三次人工智能浪潮的持續推進,由“單體自主智能”發展而來的“群體演化智能”,成為新一代人工智能的重要特征之一。尤其在軍事領域,無人集群(陸戰場無人車集群[1-3]、水面無人艇集群[4-6]、空域蜂群[7-10])作戰得到了前所未有的關注,美軍已將無人集群作戰列為一種能夠改變作戰規則的“顛覆性技術”。

目前,無人集群控制方式主要有集中控制和自主協同兩類。在戰場復雜電磁環境下,尤其當集群進入敵縱深之后,通信不暢甚至通信失效是常見的現實風險[11],此時,集中控制方式失效,無人集群必須根據外部態勢,臨機作出有效響應,做到自我管理、自主協同,以繼續完成既定軍事行動。

無人集群的自主協同,需要具有不同功能類型的無人單元分工合作。如圖1 所示,在火力打擊任務中,情報單元S1將敵機目標信息傳遞給指控單元S2,S2指揮火力單元S3實施火力打擊,三類功能單元的分工合作與密切協同是實現既定軍事任務的重要前提。事實上,分工與合作現象早已普遍存在于生物界,例如,獅子在合作捕獵時,會自發地采取不同行動,一般其中兩頭獅子會從兩翼沖擊一群獵物,使得它們因驚慌而向前奔跑,同時另外一兩頭獅子會沖到中間迎擊獵物,這種捕獵方式十分有效。上述例子所呈現的特點是,對于一項共同任務,必須通過不同角色的個體分工合作才能完成,任一種角色的個體都無法獨立完成該任務。在處理這樣的協調控制問題時,一個重要的任務在于在復雜的連接網絡上如何劃分集群實施有效的策略分布,使不同策略個體盡可能均勻分布在其策略互補的個體周圍。例如,火力打擊任務中,有必要使得功能互補的個體分布在盡可能近的位置上,使得鄰居個體可以相互補充、高效完成任務。

圖1 無人集群自主協同示意

演化博弈理論(Evolutionary game)[12-14]為研究多個體間的交互行為提供了一種有效的數學工具和研究框架。演化博弈將經濟學的“均衡觀”與生物學的“適應性”理念進行了很好的結合。它刻畫了在理性不完全、信息不對稱、對環境及預期存在偏差條件下,群體通過學習、模仿、試錯而不斷適應外部環境,最終達到演化穩定狀態(Evolutionary Stable State,ESS)[15]的過程。近年來,眾多學者利用演化博弈理論研究合作促進機制,以哈佛大學Nowak 教授為代表,對“綜合進化論”進行擴展,總結了促進合作涌現的五大機制[16]。演化博弈論為研究協作控制提供了重要數學框架。

在無人集群分工問題中,控制目標是盡可能使得相鄰位置的無人平臺處于不同的策略狀態,以便更高效地完成合作任務。因此,在無人平臺與其鄰居博弈時,當分別持不同策略時所獲收益應高于持相同策略。因此,在控制集群演化時,需要選取的博弈類型是,其納什均衡為每個平臺采取與鄰居相反的策略,此時整個集群方能獲取更高的收益。雪堆博弈(或鷹鴿博弈、懦夫博弈)[17]恰吻合了上述需求。當集群中的無人平臺間展開上述博弈時,演化穩定策略為采取與對方相反的策略,因此,該類模型為分析無人集群分工合作問題提供了很好的理論框架。

目前,用演化博弈理論解決分工合作問題,主要有兩大研究方向:一是基于馬爾科夫隨機過程研究混合均勻種群的演化穩定狀態及合作策略占優條件[18-19];二是基于圖論研究復雜網絡等空間結構種群的演化動力學過程及合作機理[20-21]。

對于前者,代表性研究有:北京大學杜金銘教授團隊通過理論推導和模擬仿真,獲取了愿景驅動動態下兩方博弈策略占優條件[22],以及門限值對多方雪堆博弈合作形成的影響[23];進一步地,團隊將理論成果拓展到雙重門限值,推導了雙重門限值下的雪堆博弈收益支付比(b/c)及演化穩定解[24-25]。此外,還有研究者研究了懲罰機制對雪堆博弈中合作演化的促進機理[26]。“混合均勻”假設了集群的全連接特性,未考慮結構對合作的影響,而在現實戰場環境中,無人平臺通過物理/信息鏈接形成特定的網絡結構。因此,如何基于特定網絡結構分析集群的合作演化機理,是實現集群協作控制的必然途徑。

對于后者,哈佛大學Nowak 教授團隊,對環形圖、隨機圖、無標度網絡等空間結構上的集群演化進行理論推導,開創性地提出博弈效費比與(b/c)與網絡平均度k 之間的關系,指出越小的網絡連通度越利于自然選擇中合作的產生[27];之后,他們利用偶對近似理論,對規則格子上的合作現象進行理論推導,獲得了合作產生并擴張的邊界條件[20,28];在上述工作的基礎上,進一步對比分析了同質與異質網絡在促進合作行為產生中的差異,仿真發現弱連接更能促進異質網絡上合作行為的產生[29];同期,有其他研究者研究圖上的多方博弈動態過程,仿真發現,對于合作博弈,相比于無結構種群,空間結構種群更能促進合作的發生[21];近兩年,團隊將空間結構上的合作演化動態應用到社會網絡,分析人類社會產生合作行為的臨界條件[30],針對演化收斂概率大小與演化收斂時間長短之間的矛盾,初步探索了空間結構在兩者之間的權衡[31],并將結構種群上的合作演化進一步擴展到加權圖[32]。文獻[33-34]針對多人雪堆博弈這一特定模型,分別在混合均勻種群、結構種群上研究了效費比(b/c)與合作水平間的關系曲線,并對比分析了同質/異質網絡在合作促進中與無結構種群的顯著區別。

上述對合作問題的研究有很高的理論和工程價值。然而,在解決無人集群協作控制問題時,上述成果仍存在兩點不足:一是現有成果多聚焦于合作行為產生的臨界條件,對以追求集群總體效用最大化為目的的分工合作問題考慮不足,雖然合作行為的產生與集群總體效用最大化在機理上有相似之處[35],但在實現途徑上存在本質區別;二是尚未見軍事應用研究成果,目前可見雪堆博弈(或鷹鴿博弈、懦夫博弈)在環境污染[36]、輿情傳播[37]、文化演進[38]等方面的應用,由于軍事領域的特殊性及無人集群作戰的新質性,鮮有成果可循。

前期,針對無人集群合作問題,基于演化博弈理論,推導出混合均勻集群上策略的平均豐度函數及占優條件[39]。本研究在此基礎上將混合均勻假設擴展到空間結構集群,首先基于演化博弈框架對無人集群分工合作建模;然后,給出結構集群上的演化動力學微分方程,并理論推導出博弈均衡解及擾動近似解;接下來,以火力打擊任務想定為例,分別對規則圖上、一般拓撲上的集群合作進行算例仿真,仿真結果與理論推導相互印證,證明所提方法可實現集群協作控制的目的;最后,依據理論推導及仿真結果,給出無人集群作戰中,促進集群分工合作的合理化建議。

1 模型假設

無人集群分工合作,是一個多方參與、多輪迭代的策略博弈和演化過程,因此,用演化博弈對該問題進行建模。首先,給出無人集群分工合作與演化博弈相關概念的映射關系,如表1 所示。

表1 概念映射關系

1.1 演化博弈集群模型

在演化博弈集群模型中,單個無人平臺充當博弈參與者(Individual)角色;由多個無人平臺構成的集群,在集群層面擁有共同目標,需要完成同一任務;單個無人平臺具有可選的不同行為方式,作為博弈策略(Strategy);平臺在每一時刻,與其“鄰居”(存在基于地理位置的物理連接和基于信息通信的邏輯連接的其他無人平臺)發生交互;依據其自身及對手策略,獲得一定的收益(Payoff);具備獨立決策能力的理性無人平臺,通過評估其收益,按照一定的動力學規律進行策略更新;經多輪策略更新過程,集群不斷演化(Evolutionary),使得集群控制最終達到目標狀態(如一致、同步、分工等)。上述過程,博弈類型的選擇、收益計算方式的設計、策略更新規則的確定至關重要,上述幾類因素是決定集群演化方向和控制目標實現的關鍵。

設演化博弈發生在一個數量為N 的結構集群中,每個無人平臺i∈N 定義為一個四元組:Individuali={Statei,Transitioni,Interactioni,Fitnessi}

1)狀態(State),無人平臺當前時刻的策略及與鄰居所構成的網絡連接關系。集群狀態則定義為,某時刻集群中持不同策略的平臺的占比及整體網絡結構形態。

2)轉換(Transition),無人平臺基于收益的策略調整及網絡拓撲的動態重構。集群的轉換則定義為集群狀態的調整過程。

3)交互(Interaction),無人平臺間基于網絡拓撲,實施信息傳遞和策略博弈的過程。

4)適應度(Fitness),每一輪博弈中,無人平臺與鄰居交互所獲取的收益,反映了無人平臺對環境的適應能力。

無人平臺間的交互拓撲關系可借助圖論進行刻畫:G=(N,L),其中,i∈N 為由無人平臺構成的節點集,L=N×N 為邊集。用有序對(i,j)刻畫有向邊,若平臺i 能夠接收平臺j 的狀態信息,則稱j 為i 的一個鄰居,i 的鄰居集合為ki={j∈N,(i,j)∈L},若為無向圖,若(i,j)∈L 則(j,i)∈L。

每一輪博弈亦稱為演化的一個時間步長

1.2 集群協作數學描述

在無人集群的分工及協作控制問題中,控制目標是盡可能使相鄰位置的平臺采取不同策略,映射到博弈過程即為博弈雙方持相同策略所獲收益應低于分別持不同策略,雪堆博弈(或鷹鴿博弈、懦夫博弈)即屬于此類博弈。以雪堆博弈為例,雪堆博弈[33]所描述的情景為:天降大雪,路被雪堆封堵,兩個相向而行的司機同時被困在雪堆的兩端。有兩種策略可選:合作或背叛。合作意味著下車鏟雪,背叛則意味著呆在車里無所作為,寄希望于另一人去鏟雪。若兩人均選擇合作,則對于每人而言,工作量減半;若兩人均背叛,則兩人只能等到雪化才能通過。設順利通過的收益為b,鏟雪的代價為c,則收益矩陣如下:

根據經典博弈理論,在b>c 時,該博弈的納什均衡為選擇與對方相反的策略:若對方選擇合作則己方選擇背叛,若對方選擇背叛則己方選擇合作。事實上,無論是雪堆博弈還是鷹鴿博弈、懦夫博弈,取得上述均衡的前提體現在收益矩陣上,具有以下共同特點:R<T 且S>P,其中,R、T、S、P 為一般收益矩陣表示形式(如式2)中的具體收益。

無人平臺采用模仿動態(Fermi 過程)進行策略更新,即將其自身適應度與鄰居平均適應度(Fˉj)進行比對,以一定的概率進行策略調整。在該規則驅動下,無人平臺在策略空間{A,B}中切換其策略的概率為:

2 理論分析

本部分將通過嚴格的理論推導,分析所提演化博弈模型對于無人集群分工合作的控制效果。

2.1 集群演化動力學過程

在一個規模為N 的無人集群中,每個無人平臺占據通信拓撲的一個頂點,初始狀態下,每個平臺在策略空間{A,B}中隨機選擇一個作為初始策略。在每個時間步內,平臺依據式(2)與其所有鄰居進行博弈,依據式(3)確定其該輪博弈的平均收益。通過分析集群演化過程中持A、B 策略的平臺在整個集群的占比變化,求其演化穩定解,進而獲取集群分工合作形成的條件。

不難得知,整個集群的狀態(策略組成及結構分布)由PA、PAA兩個變量即可刻畫。

作為焦點個體的無人平臺與其所有鄰居展開博弈,設在每個時間步內,其鄰居中持A、B 策略的平臺個數分別是kA和kB,滿足kA+kB=k。則持策略A和策略B 的焦點個體收益分別為:

依據上述策略轉換概率及策略對變動概率,隨著演化進程推進,集群中持策略A、B 的平臺占比此消彼長,策略對AA、AB、BA、BB 數量動態調整。當演化至某一時刻,策略占比及策略對數量不再變化,此時集群整體演化趨于穩定。通過分析集群穩定時的演化參數,設計合理的控制機制,可達到對集群分工合作管控之目的。

2.2 分工協作形成條件

即演化結果為集群中持策略A、B 的平臺個數均等,且給定一個持X(X∈{A,B})策略的平臺,在其鄰居中找到一個持Y(Y∈{A,B})策略平臺的條件概率相同。因此,持不同策略的平臺在空間結構上呈均勻交叉分布。

另外需要注意的是,在分工合作問題中,只要求博弈的納什均衡為選擇與對方相反的策略:若對方選擇A 則己方選擇B,若對方選擇B 則己方選擇A,對策略A 和B 并無需進行差異性要求。為了體現策略本身的無差異性,即收益矩陣的對稱性,規定R=P 且S=T。

因此,在博弈機制設計時只要滿足R<T 且S>P,R+S=T+P,R=P 且S=T 的前提條件,即可使得網絡拓撲上相鄰位置的無人平臺持不同策略,實現集群的分工合作,從而高效完成任務。

3 算例仿真

以集群火力打擊任務想定為背景,依據集群演化動力學過程,對規則圖和一般拓撲上的無人集群分工合作問題進行算例仿真,以驗證模型合理性與理論分析的正確性,為實現無人集群的分工合作提供決策支持。無人集群火力打擊任務想定如圖2 所示。

圖2 無人集群火力打擊任務想定

在無人集群火力打擊任務中,每個無人作戰平臺具備兩種功能:彈藥保障與火力打擊,且無人平臺可根據任務需要在兩種功能間進行切換。從個體協同和任務完成角度,有必要使得功能互補的平臺交叉分布,即分布在盡可能近的鄰居位置上,以密切配合共同完成對敵火力打擊任務。

初始時刻,不同功能的無人平臺在空間拓撲上隨機分布。當集中控制方式失效后,集群依據演化動力學過程進行多輪迭代博弈,最終達到演化穩定狀態;此時,集群達到空間結構的最優化分布,持彈藥保障和火力打擊策略的平臺交叉分布,彼此通過保障連與火力鏈相互鉸鏈,實現功能互補與分工合作,高效完成對敵火力打擊任務。

3.1 規則圖上的協作演化

初始策略分布為隨機過程,各平臺隨機采取策略A 或B,其中,持策略A 和B 的平臺各占總數的近50%。集群初始策略分布如圖3 所示,其中,每個柵格代表一個平臺,白色柵格表示策略A,灰色柵格表示策略B。

圖3 規則圖上的初始策略分布

根據第2 部分理論分析結果,在滿足R<T 且S>P,R+S=T+P,R=P 且S=T 的前提下,給出收益矩陣如下:

上述取值充分體現了平臺在選擇與鄰居相反策略時所帶來的高收益。同時,從收益層面確保兩個策略的無差異性。

演化過程斑圖如圖4 所示,其中,圖4(a)表示第1 輪博弈后的策略分布,由于還遠未達到演化穩定,策略分布仍較為隨機,但相比于圖3 的初始狀態,已有部分平臺實現了策略轉換;圖4(b)顯示經過多輪的博弈迭代,集群達到演化穩定狀態后,策略在圖上交叉分布的最終演化結果。

圖4 規則圖上的策略演化斑圖

由圖4(b)可知,集群的狀態最終進化到一個最優化的分布,即持彈藥保障和火力打擊策略的平臺交叉分布,從而形成功能互補與分工合作,高效完成對敵火力打擊任務。

3.2 一般拓撲上的協作演化

本節將規則圖上的協作演化擴展到一般的網絡拓撲上,此種情況下,平臺間的連接不再是完全規則的。仍然考慮N=25 的集群規模,選擇強度ω=0.01。初始策略分布如圖5 所示,每個柵格代表一個平臺,白色柵格表示策略A,灰色柵格表示策略B,初始時刻各平臺隨機采取策略A 或B,持兩類策略的平臺各占總數的近50%。

圖5 一般拓撲上的初始策略分布

演化結果如圖6 所示。

圖6 一般拓撲上的策略演化斑圖

其中,圖6(a)表示第1 輪博弈后的策略分布,盡管還未達到演化穩定,但相比于圖5 的初始狀態,已有部分平臺實現了策略轉換;圖6(b)顯示經過多輪的博弈迭代后,演化穩定時,策略在一般拓撲上交叉分布。因此,本文所提模型在一般拓撲上亦可實現分工合作之目標。

上述模型及方法具有問題通用性和領域普適性,不僅適用于集群火力打擊任務,還可推廣到一般軍事、生物、社會領域的分工合作問題中。通過設計合理的博弈機制,滿足收益約束,即可實現集群的自主演化與分工合作。

4 結論

本文針對無人集群分工合作問題,基于演化博弈理論框架建立了結構化集群分工合作模型,并以“雪堆博弈”為切入點,理論推導模型的演化動力學過程及分工合作形成的條件;最后以集群火力打擊任務為想定,仿真了規則圖及一般拓撲上的集群策略演化過程,仿真結果驗證了理論推導的正確性及模型方法的合理性。在實際的無人集群協作控制中,通過設計合理演化博弈機制及收益參數,可達到對集群分工合作管控目的。本文結論為相關理論向實際應用轉化提供了初步和有意義的探索。

本文假定集群結構為預設的靜態拓撲,且博弈類型為經典的2×2 博弈。然而,現實問題往往面臨網絡拓撲的動態變化及多策略的多維切換,如何將理論方法推廣到動態網絡上的多策略博弈等更復雜的情況,實現對集群協作的更加精確有效控制,是下一步的研究方向。

猜你喜歡
理論策略
堅持理論創新
當代陜西(2022年5期)2022-04-19 12:10:18
神秘的混沌理論
理論創新 引領百年
基于“選—練—評”一體化的二輪復習策略
相關于撓理論的Baer模
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
理論宣講如何答疑解惑
學習月刊(2015年21期)2015-07-11 01:51:44
主站蜘蛛池模板: AV在线天堂进入| 国产成人夜色91| 国产精品区视频中文字幕| 18禁黄无遮挡网站| 亚洲V日韩V无码一区二区| 午夜精品区| 污视频日本| 婷婷丁香在线观看| 日韩毛片免费观看| 成年看免费观看视频拍拍| 9丨情侣偷在线精品国产| 国产精品美人久久久久久AV| 88av在线播放| 国产污视频在线观看| 亚洲成人高清无码| 日日碰狠狠添天天爽| 中日无码在线观看| 精品精品国产高清A毛片| 国产精品综合色区在线观看| 亚洲综合一区国产精品| 另类综合视频| 人妻精品久久久无码区色视| 热思思久久免费视频| 高清欧美性猛交XXXX黑人猛交 | 永久免费av网站可以直接看的| 国产一区二区影院| 亚洲综合专区| 丰满少妇αⅴ无码区| 久草视频一区| 中文字幕在线播放不卡| 99久久国产自偷自偷免费一区| 国产精品久久精品| 日本成人一区| 国产网站免费| 2020精品极品国产色在线观看| 黄色网址免费在线| 成年看免费观看视频拍拍| 日韩av无码精品专区| 国产白浆在线观看| 激情综合网激情综合| 欧美亚洲一二三区| 久久公开视频| 亚洲中文久久精品无玛| 欧美啪啪一区| 好吊色妇女免费视频免费| 色偷偷综合网| 国产精品欧美激情| 毛片手机在线看| 国产精品一区二区无码免费看片| 国产福利小视频高清在线观看| 亚洲男人天堂2020| 亚洲中文字幕国产av| 国产真实乱了在线播放| 亚洲综合色区在线播放2019 | 天天躁夜夜躁狠狠躁图片| 国产97区一区二区三区无码| 91毛片网| 国产91丝袜在线播放动漫| 18禁色诱爆乳网站| 色天天综合| www中文字幕在线观看| 欧美97欧美综合色伦图| YW尤物AV无码国产在线观看| 午夜限制老子影院888| 国产尤物jk自慰制服喷水| 高潮毛片免费观看| 中文字幕亚洲乱码熟女1区2区| 欧美日韩中文国产| 亚洲天堂福利视频| 成人精品午夜福利在线播放| 91精品国产麻豆国产自产在线| 91国内视频在线观看| 999福利激情视频| 欧美成人精品一区二区| 色噜噜综合网| 欧美成a人片在线观看| 中文字幕调教一区二区视频| 欧美日韩理论| 欧美区日韩区| 亚洲人成网7777777国产| 特级精品毛片免费观看| 亚洲无线视频|