999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于閾值公共品博弈的無人機集群干擾決策技術

2022-12-30 02:20:44吳克釗
無線電通信技術 2022年6期
關鍵詞:懲罰策略

高 陽,田 達,吳克釗,陳 卓

(1.中國航天科工集團8511研究所,江蘇 南京 210007;2.中國航天科工集團第二研究院,北京 100854)

0 引言

現代戰爭中,為了彌補單架無人機載荷能力有限、任務容錯性不足等局限性,無人機的作戰已經逐步從單平臺作戰向多平臺“集群”方向發展[1]。以機載電子攻擊作戰應用為例,傳統的防區外大功率干擾雖然可以用于遠距離支援作戰,但系統成本高、輻射特征明顯、易受攻擊,且干擾方向單一,面對敵方陣列系統強大的空域處理抗干擾能力,很難達到滿意的干擾效果。不同于傳統干擾方式,利用無人機集群攜帶小型干擾機可以抵近敵方實施近距離支援干擾(Stand-in Jamming,SIJ),降低單機干擾功率需求的同時,增加了敵方陣列系統空域抗干擾的難度,且無人機成本低廉,避免了作戰人員消耗,具有極高的作戰交換比。然而在實際情況中,由于戰場環境存在高度不確定性且實時動態變化這一特點,對大規模的無人機作戰集群進行預先設置任務或人為操控均存在一定困難。因此需要為無人機賦予一定自主能力,使其可以在復雜的場景下根據預設準則調節自身策略,同時實現集群內部自組織,進而整體涌現出群體作戰效能[2]。文獻[3]指出完全具備自主決策行為的智能體目前還處于早期的研究階段,為完全實現群體行為上的智能,眾多學者提出了多種行為決策的理論方法,如微分對策(Differential Game)理論、進化算法(Evolutionary Algorithms)、影響圖法(Influence Diagram Method)等。

博弈論可以很好地闡述人類社會中的合作與競爭行為,其中閾值公共品博弈(Threshold Public Goods Game)模型[4]描述了有限理性的個體在多輪的迭代過程中,不斷調整自身策略來適應環境變化的過程,該模型在經濟貿易、社會合作、環境治理中有較為廣泛的應用,此博弈模型為研究如何解決集群多智能體之間的內部協作提供了一種可行的思路。

鑒于此,本文以閾值公共品博弈為基礎,對無人機集群協同干擾問題進行建模,引入人類社會中協作治理機制中的內生性懲罰措施,結合實際應用,對集群自主決策進行研究。

1 問題描述

以無人機集群深入敵方防區執行對敵防空壓制任務為例,假定各架無人機截獲敵方電子威脅信號后,協同飛行至敵防空陣地附近空域,采用相同的發射功率在大致相同的距離上,對敵方電子威脅進行瞄頻噪聲壓制干擾,掩護我方突防飛機沿特定航線實施作戰行動,場景示意如圖1所示。

圖1 無人機掩護突防飛機示意圖Fig.1 Schematic diagram of UAV cover penetration aircraft

假定單機干擾功率為Pj,多機之間噪聲干擾相互獨立,則在雷達接收機處,每部干擾機產生的噪聲功率近似線性疊加,功率效果上相當于一部干擾功率為PJ=∑Pj的大型干擾機,此時雷達系統的燒穿(Burn-Through)距離RBT為:

(1)

式中,σ為待掩護目標的雷達散射截面積(Radar Cross Section,RCS),Kj為壓制系數,GJ為干擾機天線增益,RJ為干擾機與雷達距離。Pt為雷達發射機功率峰值,Gt為天線主瓣增益,G′為天線旁瓣增益,L為系統損耗。

對于無人干擾機集群而言,應依據敵方雷達位置和我方突防飛機位置,合理動態配置干擾功率資源,使得被掩護目標始終處于雷達燒穿距離之外。總的干擾功率過低,顯然無法對目標進行有效掩護。若總的干擾功率太高,則可能造成不必要的資源浪費,導致持續干擾的時間縮短,無法進行長時間掩護。同時,高度智能化的節點由于其“自私性”的存在,在極端情況下,集群中的每一個節點從自身利益出發將均不去執行干擾,因此,研究如何設置合理的機制使得干擾節點在滿足干擾功率閾值的前提下,最大化系統工作時長具有一定的現實意義。

2 博弈模型構建

在實際行動中,可將上述問題抽象為集體行動問題,即群體內部如何協調,從而形成一種能夠穩定各方行為預期的行為模式[5]。從完全理性的角度出發,“自私”的個體不會自愿為集體利益貢獻力量,即傳統的博弈理論認為個體的理性將導致集體的非理性,但從現實情況出發,合作的行為卻無處不在。

最早的非零和博弈理論模型之一,囚徒困境博弈(Prisoner’s Dilemma Game)描述了兩個理性個體追求自身利益最大化從而導致納什均衡僅落在非合作點上。隨后,將該模型擴展為多人博弈,提出公共物品博弈模型(Public Goods Game),此時唯一的納什均衡為所有個體均選擇背叛行為。但值得指出的是,在公共物品博弈模型中,很多的收益具有臨界性。例如,巴黎協定中提出“其目標為國際社會,應在本世紀內把全球平均氣溫較工業化前水平升高幅度控制在2℃之內,同時努力將升溫幅度控制在 1.5℃之內”。這類具有最低提供成本的公共品被稱為閾值公共品(Threshold Public Goods)。

2.1 閾值公共品博弈模型

對于一個多節點同時行動的閾值公共品博弈Γ={N,A,u,T},其中N={1,2,…,N}為參與節點集合,A={a1,a2}為可能的行動集合,且滿足a1

(2)

引入的倍增系數r(r≥1)表示集群整體對外作用時所帶來效能的變化,當無人機集群進行協同干擾時,相較于單機壓制干擾,多干擾機協同干擾會對雷達探測區域帶來更大角度范圍的壓制。同時要使博弈滿足公共物品博弈模型框架,以上各參數需滿足Na1T,即存在公共品被提供的可能性;rT/N>a2,即提供公共物品對個體而言有利可圖。

在每一次博弈過程中,N個節點同時從自身行動集合A中選擇一個行動,構成行動組合c=AN,C={n1,n2}用以表示節點中選擇各個行動的節點數目。所有能夠成功提供公共物品的組合行動可以記為:

(3)

事實上,對于合作與非合作策略下的無退款保證(Money-back Guarantee)機制下閾值公共品博弈模型,文獻[6]已經證明,在基于模仿的演化動態下,背叛均衡是局部穩定的,即在一定的參數情況下,合作者與背叛者可以在網絡中共存。

2.2 策略更新準則

在網絡演化博弈的過程中主要存在兩類網絡:相互作用網絡(Interaction Graph)和策略學習網絡(Learning Graph),前者主要描述個體之間的博弈關系,后者用來描述個體的收益和策略信息。

從時序的角度出發,對網絡中的節點而言,主要有同步更新(Synchronous Updating)和異步更新(Asynchronous Updating)。同步更新是指所有的個體在每個離散時間步內將同步更新自身策略。異步更新是指在每一輪博弈中,隨機選擇某些個體以一定概率進行策略更新。

從無人機個體角度出發,自身希望通過學習成功的行為來強化自身收益。因此,在博弈過程中,個體會根據某種規則來調節自身行為,從關注鄰居節點的角度來看,策略演化規則有學習最優者、模仿優勝者以及配對比較等。此外,借鑒“贏存輸變”(Win-Stay,Lost-Shift,WSLS)規則,個體也可以根據自身的收益滿意程度進行策略更新。其中,愿景驅動規則[7]側重于將博弈收益與愿景水平(Aspiration Level)比較而進行新的決策,此時個體主觀認識起主導作用,對焦點個體X而言,其從A策略切換到B策略的概率表達式為:

(4)

式中,α為愿景水平用以表示個體在博弈過程中期望獲得的收益,ω∈[0,1]為選擇強度,πA(i)為A策略下個體的收益。對于集群中的智能體,借鑒強化學習中的思想,與外部環境進行交互,從而進行決策來最大化自身回報[8]。其基本思想為:如果某個行動回報值較高,則在以后增加使用此行動的可能性,反之則減少,常用的算法有Q-learning、SARSA、Roth-Ever等。

Roth-Ever模型因簡單易用得到了廣泛應用,在Roth-Ever算法中,實施行動共分為兩步:行動傾向的更新以及行動傾向到概率的轉換,行動傾向的具體更新方法為:

qj=(t+1)=[1-φ]qj(t)+Ej(ξ,k,t),

(5)

在各個時刻t、qj表示行動策略為j的傾向,k為上次行動所選擇的策略,rk為上次行動所獲得的回報,N為所有策略中可能行動的個數。ξ為經驗系數,可用以歸納某些“類似”策略,φ為更新系數,用以減弱過去行為的影響。該式表明,新的行動趨勢為之前的選擇行動與上輪回報的組合。上輪回報值越大,新的行動更傾向于之前的行動。隨著時間的推進,回報值較大的行動傾向性會更大。

行動傾向轉換為行動概率的表達式為:

(6)

式中,qm(t),m∈[1,j],為行動策略集合中各個行動的傾向性。

2.3 懲罰措施

在人類社會中,帶有成本的懲罰措施可以有效維持社會合作,也是保證群體合作可持續的必要條件[9]。從懲罰的實施角度出發,主要包括外生懲罰和內生懲罰,外生懲罰是指群體外部所施加的懲罰措施,內生懲罰是群體內部自我組織、協商所達成的懲罰措施。已有大量的實證和理論研究認為,內生懲罰機制會促進群體之間的合作行為的產生,即群體內部協商選擇會帶來“內生溢價”。

以上述思路為基礎,引入內生性懲罰措施,促進集群之間的內部治理,當集群所投入干擾功率小于閾值時,集群各個節點共享預設的懲罰值,從而促進集體行動的維持以滿足干擾功率需求。

3 仿真分析

以某型防空雷達為例,其具體能力參數為:雷達發射機峰值Pt=6×106W,天線主瓣增益Gt=42 dB,旁瓣增益G′=0 dB,工作帶寬B=10 MHz,系統損耗L=1 dB。

假定無人機集群(規模不小于20架)與敵方雷達距離Rj=5 km,干擾機天線增益GJ=8 dB,單機干擾功率Pj=10 W,我方突防飛機(待掩護目標)RCS為1 m2,要求雷達燒穿距離不大于80 km,壓制系數Kj=13.3 dB。由式(1)計算可得,此時所需干擾機峰值功率為:PJ=22.0 dBW,即所需功率閾值為PJ=158.5 W。

3.1 無懲罰機制

由前所述,當無人機集群發起協同干擾工作時,假定無人機集群中節點數量規模為20,其中倍增系數r=1,ξ=0.05,φ=0.05。

若不引入懲罰措施,即完全考慮個體的自愿行為時,在初始階段,集群內部個體之間無明顯策略傾向,隨著博弈的進行,個體內部的行為策略會發生明顯的傾向,當博弈穩定以后得到各節點策略的統計平均值變化情況,如圖 2所示。

圖2 節點行為概率變化示意圖Fig.2 Schematic diagram of node behavior probability changes

從上述仿真結果可以看出,在無懲罰措施的機制下,個體從最大化自身利益的角度出發,選擇不干擾概率將遠大于選擇干擾的概率,此時干擾行動將無法成功維持。

3.2 有懲罰機制

當引入內生性懲罰措施時,即當集群各節點所投入功率未滿足干擾功率閾值時,集群內部將共享預設的懲罰值。節點數量為20,倍增系數r=1,ξ=0.05,φ=0.05,為保證實驗數據排除偶然誤差影響,統計數據為博弈穩定以后500步內均值,重復5次實驗取統計平均值,此時得出在不同預設懲罰值下個體行為概率的變化情況如圖 3所示。

圖3 不同懲罰值下節點行為概率變化示意圖Fig.3 Schematic diagram of node behavior probability changes under different penalty values

從仿真結果可以看出,引入內生性懲罰措施可以極大改善個體“搭便車”的行為,個體將更傾向于選擇干擾策略,同時由圖3可以看出,隨著預設懲罰值的變大,個體傾向于干擾的概率將持續性變高。

在不同的預設懲罰值下,節點投入的總干擾功率與所設定閾值對比示意如圖 4所示。

圖4 不同懲罰值下集群投入干擾功率統計均值與閾值對比示意圖Fig.4 Schematic diagram of the comparison between the statistical mean and threshold of cluster input interference power under different penalty values

從圖4可以得出,當預設懲罰值為8時,即懲罰值固定為個體能力的0.8,此時集體投入的總干擾功率可以滿足所需的干擾功率的閾值,且此時投入的總資源最低,實現了干擾資源的最優配置,同時可持續維持干擾。

在實際行動過程中,干擾閾值功率將根據實際情況進行調整,保持博弈模型中的懲罰值不變,考慮突防飛機與敵方雷達之間距離的變化情況會帶來所需閾值干擾功率的變化,如飛機從距離雷達150 km突防至距離80 km,以10 km為間隔,由式(1)計算可得所需干擾功率閾值變化范圍為12.8~158.5 W。

采用本文方法得到的集群投入干擾功率統計對比仿真結果如圖 5所示。

圖5 不同干擾閾值下集群投入功率變化圖Fig.5 Variation diagram of cluster input power under different interference thresholds

由圖 5可以看出,集群所投入總功率可以很好滿足干擾閾值動態變化的情形。這意味著在作戰過程中,集群中的干擾資源投入可根據需要自行動態調整。這種決策機制下可以使集群整體投入功率資源最小,從而最大化干擾時長,確保了集群整體的干擾作戰任務持續時間。

4 結束語

本文以無人機集群自主協同干擾為著眼點,結合實際場景,為實現集群干擾效能最大化,以閾值公共品博弈模型為基礎,引入內生性懲罰措施。在這種輔助決策機制下,設定固定懲罰值為0.8時,干擾無人機集群內部可以在無需關注鄰居節點的模式下實現協同干擾,同時在實現干擾任務的同時最小化集群整體能量消耗,為無人機集群作戰的決策機制提供輔助手段。

在實際情況下,無人機集群多采用混編結構,例如在集群內部有偵察無人機、電子對抗無人機、攻擊無人機等,探究此種情況下的內部協作機制是今后值得研究的方向。

猜你喜歡
懲罰策略
基于“選—練—評”一體化的二輪復習策略
求初相φ的常見策略
例談未知角三角函數值的求解策略
神的懲罰
小讀者(2020年2期)2020-03-12 10:34:06
我說你做講策略
懲罰
趣味(語文)(2018年1期)2018-05-25 03:09:58
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
真正的懲罰等
Passage Four
如此懲罰
英語學習(2007年8期)2007-12-31 00:00:00
主站蜘蛛池模板: 一区二区偷拍美女撒尿视频| 亚洲黄色高清| 色视频久久| 日韩在线视频网| 人人澡人人爽欧美一区| 青草视频免费在线观看| 婷婷亚洲视频| 亚洲精品无码久久毛片波多野吉| 亚洲国产一区在线观看| 国产精品久久久久无码网站| 国产va免费精品观看| 成人一级黄色毛片| 91免费在线看| 日韩少妇激情一区二区| 97在线碰| 久草网视频在线| 婷婷亚洲最大| 亚洲开心婷婷中文字幕| 凹凸国产熟女精品视频| 2021亚洲精品不卡a| 中文字幕自拍偷拍| 亚洲国产综合精品一区| 91探花国产综合在线精品| 精品乱码久久久久久久| 红杏AV在线无码| 国产亚洲精品自在久久不卡 | 色婷婷久久| 国产一区二区三区在线观看免费| 999国产精品| 国产日韩欧美精品区性色| 中文字幕久久亚洲一区| 久久久久无码精品| 久久国产精品嫖妓| 中文无码毛片又爽又刺激| 午夜色综合| 久久青草视频| 日韩大片免费观看视频播放| 91亚洲视频下载| 欧美精品在线免费| 亚洲一区精品视频在线| 小13箩利洗澡无码视频免费网站| 999在线免费视频| 国产乱码精品一区二区三区中文| 男人天堂伊人网| 亚洲成aⅴ人片在线影院八| 美女无遮挡拍拍拍免费视频| 91综合色区亚洲熟妇p| 久久99热66这里只有精品一| 日韩A∨精品日韩精品无码| 99久久国产综合精品2020| 国产91在线|日本| 毛片免费网址| 久久精品中文字幕免费| 亚洲国产精品无码久久一线| 国产xx在线观看| 天堂成人在线| 国产视频一区二区在线观看| 日韩午夜片| 91探花国产综合在线精品| 欧美午夜性视频| 无码区日韩专区免费系列 | 日本三区视频| 99热这里只有精品在线播放| 国产精品2| 九九视频免费在线观看| 性视频久久| 亚洲国产成熟视频在线多多 | 国产91久久久久久| yjizz视频最新网站在线| 女人18毛片久久| 青青草一区| 欧美日韩综合网| 国产午夜无码片在线观看网站| 日韩在线视频网| 亚洲无码精品在线播放| 波多野结衣无码中文字幕在线观看一区二区 | 久久久精品无码一二三区| 亚洲第一视频区| 久久激情影院| 亚洲一级毛片在线观| 黄色网址手机国内免费在线观看| 波多野结衣久久精品|