999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于先驗知識的多功能雷達智能干擾決策方法

2022-11-19 06:53:30朱霸坤朱衛綱高天昊
系統工程與電子技術 2022年12期
關鍵詞:智能策略

朱霸坤, 朱衛綱, 李 偉, 楊 瑩, 高天昊

(1. 航天工程大學電子光學工程系, 北京 101416; 2. 電子信息系統復雜電磁環境效應國家重點實驗室, 河南 洛陽 471032; 3. 航天工程大學研究生院, 北京 101416)

0 引 言

多功能雷達是指基于相控陣體制,通過靈活的波形變換和快速的波束掃描來實現多種功能的雷達系統[1]。多功能雷達作為一種重要的用頻設備,被廣泛裝載于軍艦、航母、戰機等重要軍事武器,在情報偵察、目標跟蹤、導彈防御等任務中發揮著重要的作用。有效地干擾敵方的用頻設備、削弱其作戰效能是電磁對抗中不懈追求的目標,干擾策略優化是實現這一目標的關鍵環節。干擾策略優化分為干擾決策和干擾波形優化兩個部分,干擾決策主要解決干擾樣式的選取問題,而干擾波形優化則是在干擾樣式選取的基礎上進一步選擇干擾波形參數[2]。本文主要研究多功能雷達干擾決策的相關問題,具有重要的理論和軍事意義。

多功能雷達信號復雜多變,這給多功能雷達的干擾決策帶來了困難。針對多功能雷達的干擾決策問題,學者們給出了多種解決方案。文獻[3]中,單步雷達和干擾機被作為博弈對抗的雙方,雷達的策略為雷達波形,干擾機的策略為干擾功率譜密度,采用互信息準則建立效用函數,研究了博弈中納什均衡的存在條件,并在不滿足存在條件的情況下,得出斯塔克爾伯格均衡策略是可以接受的安全策略的結論。文獻[4-5]中,構建了一個多輸入多輸出(multiple input multiple output, MIMO)雷達和智能干擾機之間的博弈論模型,同樣采用互信息作為效用函數,研究博弈過程中多種情況下的最優策略。文獻[6]對博弈論在認知雷達對抗中的應用進行了綜述,總結了博弈論在干擾決策、編碼優化、波形優化等方面的應用前景。雷達與干擾機之間的對抗關系很容易讓人聯想到博弈論模型,但是博弈論中策略的求解直接依賴于效用函數,而效用函數與干擾效果評估直接相關,當前的干擾效果評估大都基于雷達方[7-8],評價指標多為互信息、峰均功率比[9]等,在實際的雷達對抗中獲取此類信息是困難的,所以基于博弈論的干擾決策研究更多的是理論指導意義。除了博弈論之外,支持向量機(support vector machine, SVM)也被用于干擾決策,在文獻[10]中多功能雷達干擾決策問題被構建為一個分類問題,通過SVM直接學習雷達波形參數到干擾樣式的映射,這樣的干擾決策方法依賴于大量的雷達信號樣本和干擾樣式標簽,訓練樣本的可得性有待商榷。此外,文獻[11]中將雷達對抗的過程描述為一個隨時間變化的動態貝葉斯網絡,通過從大量的統計樣本中學習網絡模型的參數來預測雷達狀態,進而根據轉移概率來完成決策,但動態貝葉斯網絡的模型是在已知雷達狀態種類的情況下構建的,而且模型參數的學習需要大量的統計樣本。

上文提到的3種多功能雷達干擾決策方法,基于博弈論的方法、基于SVM的方法和基于動態貝葉斯網絡的實現都依賴于一些在實際對抗過程中難以獲得的數據,如干擾效果評估、雷達信號樣本和干擾樣式對、雷達狀態轉移的歷史數據,因此有必要去探索一種新的不過分依賴數據的干擾決策方法。鑒于此,一些學者提出將強化學習用于多功能雷達干擾決策。強化學習作為一種不依賴模型的規劃和決策手段,目前在游戲[12]、機械控制[13]、任務規劃[14-15]、資源管理[16-17]、金融投資[18]等領域取得了不俗的表現。強化學習不依賴于先驗的數據,強調智能體在與多功能雷達的對抗中通過學習優化干擾策略。不僅如此,強化學習使用收益作為反饋,成功地避免了干擾評估的難題。文獻[19-21]中,將多功能雷達與干擾機之間的對抗過程構建為馬爾可夫決策過程(Markov decision process, MDP)模型,采用Q-Learning算法進行求解,在不依賴于先驗數據的情況下得到了最佳的干擾策略。文獻[22]中,則是采用深度Q網絡(deep Q network, DQN)來求解多功雷達干擾的MDP問題,討論了干擾過程中的時效性問題。基于強化學習的多功能雷達干擾決策方法目前還處于發展階段,還存在一些需要完善的問題,而算法收斂速度慢的問題就是其中之一。收斂速度慢意味著學習能力差,學習能力差的智能體將難以適應瞬息萬變的戰場環境。

收斂速度慢并不是多功能雷達干擾決策中獨有的問題,是一個在強化學習應用中普遍存在的問題,需要結合問題中的具體情況采取解決措施。文獻[23]在使用強化學習解決焊接機械臂的控制問題中引入了運動學模塊提供先驗知識,提高了算法的收斂性能。文獻[24]在仿真機器人的控制中,利用一個識別模型進行在線訓練為智能體提供先驗知識,彌補了物理訓練樣本少、效率低的問題。文獻[25]研究了隨機多臂老虎機問題中,針對一個智能體已知近似最平均報酬先驗知識情況,設計了求解最優策略的算法,提高了問題的求解速度。文獻[26]在多機器人編隊隊形保持與協同避碰問題中,提出了一種基于模型知識和數據訓練融合的算法,通過較少的訓練數據就能使智能體達到極高的工作性能。結合先驗知識來提升強化學習算法的收斂速度是一種十分重要的手段,受到這種想法的啟發,可以利用先驗知識來提升基于強化學習的干擾決策算法。

在本文中,首先將多功能雷達干擾決策問題定式化為MDP問題,結合問題的實際定義了先驗知識,然后利用基于勢能函數的收益塑造理論將先驗知識加入到收益函數中,針對智能體存在膽怯行為的現象,在收益函數中加入一個修正函數項,有效改善了膽怯行為,最終得到了基于先驗知識的多功能雷達智能干擾決策算法。仿真實驗表明,本文所提算法能極大地提升了算法的收斂速度,對于實現對多功能雷達快速實時的智能干擾具有重要的意義。

本文的其他部分組織如下:第1節介紹了強化學習原理和Q-Learning算法。第2節將多功能功能雷達干擾決策問題定式化為一個MDP問題。第3節闡述了基于勢能函數的收益塑造理論并構建基于先驗知識的智能干擾決策算法。第4節設計仿真實驗,分析了所提算法的參數敏感性和算法通用性。第5節對本文工作進行了梳理總結。

1 強化學習理論

1.1 強化學習

強化學習是目前機器學習的熱門領域之一,其特點是允許智能體在環境中通過試錯的方式學習如何動作。在學習的過程中,數值化的收益信號是唯一的反饋,智能體的目標是學習如何動作才能獲得最大的收益。智能體的設計者并不會指示智能體每一步的最佳動作,所以智能體需要通過反復試錯去尋找最佳動作。在大多數情況下,智能體的動作并不會產生及時的效果,需要等到未來的收益,才能了解動作對環境造成的影響。這就是強化學習的兩大特性:反復試錯和延遲收益[27]。

任何強化學習問題都有兩個主要組成部分:智能體和環境。智能體是采取行動的實體,有著明確的目標,能夠獲取環境的狀態并做出決策;環境是智能體運行的地方,與要解決的問題息息相關。除了智能體和環境之外,一個強化學習系統還具有4個關鍵組成部分:收益、策略、動作價值函數和環境模型。

收益由強化學習任務的目標定義。智能體的每次動作,環境都會返回收益,智能體通過收益更新策略以尋求在與環境的交互中獲得最大的總收益。收益對策略的更新至關重要,如果當前的動作獲得低收益,智能體會抑制該動作;如果當前動作獲得高收益,智能體則會增加選擇該動作的幾率。

收益是來自環境的即時反饋,而價值函數則讓智能體有更長遠的目光,與智能體的行動策略直接相關。策略是一個從環境狀態到動作的映射,直接決定了智能體如何行動。狀態的價值是可以從該狀態獲得的總收益,指示一個狀態未來收益的期望。沒有收益就沒有價值函數,因為價值的目的就是如何獲得最大的期望收益。強化學習的問題是一個序列決策的過程,從長遠的角度來看,智能體應該選擇具有最高價值的動作而不是具有最高收益的動作,因為收益只是暫時的。價值函數的存在是智能體具有“智能”的重要原因。

環境模型是對環境特性的描述,根據環境特性,可以在當前的狀態和動作下預測下一步的狀態。如果環境模型已知,能使智能體學習更加快速和穩健。而現實中的絕大多數問題,環境模型都是未知的,這就需要智能體進行反復的試錯。

常用一個如圖1所示的MDP模型來描述強化學習過程,一個MDP模型包括5個組成部分,{S,A,P,γ,R}。其中,S是狀態的集合,A是智能體動作的集合,P是環境轉移概率的集合,R是收益的集合。此外,γ是折扣率,表示未來收益的現值,γ越大,表示未來的收益在當前的決策中所占的比重越大。下標t用于區分當前和未來的MDP元組。智能體對環境施加一個動作,環境狀態轉移至下一步的環境狀態,并將收益返回智能體。

圖1 強化學習的MDP模型

1.2 Q-Learning

Q-Learning是一種異步策略的強化學習算法[28],是本文進行算法研究的基礎,其動作策略與學習策略不是同一個策略。在Q-Learning中,智能體的策略與狀態動作價值函數密切相關,狀態動作價值函數,即Q值函數,定義為在特定狀態下進行某一動作所獲得的收益期望。s和a分別表示狀態和動作,π表示策略。

Q-Learning的動作策略,一般采用ε策略,這是一種貪婪策略和隨機策略的混合策略。以1-ε的概率選擇使得當前的Q值達到最大的動作,以ε的概率隨機選擇動作,ε被稱為探索因子,用以平衡Q-Learning算法中的學習與探索。

Q-Learning的學習策略是在每一步的行動后對Q值進行更新,Q值采用下式進行更新迭代:

Q(s,a)←Q(s,a)+α[r(s,a)+γmaxQ(s′,a′)-Q(s,a)]

(1)

式中:s′,a′表示下一時刻的狀態和動作;r是收益函數,是關于狀態s和動作a的函數。

最佳策略π*滿足貝爾曼最優方程:

Qπ*(s,a)=

∑p(s′,r|s,a)[r(s,a)+γ·maxa′Qπ*(s′,a′)]

(2)

理論上[27],通過不斷地更新迭代,智能體的策略最終會收斂于最優策略π*。

2 問題的界定

為了更好地解決多功能雷達的干擾決策問題,將干擾決策的過程表述為一個MDP。多功能雷達擁有有限個雷達狀態,可表示為一個有限狀態集S(s∈S);干擾決策智能體或者干擾決策系統所能產生的干擾樣式也是一個有限狀態集,表示為J(j∈J);R是收益的集合,由環境狀態的轉移所決定,收益函數用r(s,s′)表示;環境模型用環境轉移概率P表示,具體可表示為p(St+1|St)。干擾決策系統對多功能雷達實施干擾,雷達狀態發生轉移,干擾決策智能體從中獲得收益,智能體會不斷嘗試直至實現干擾的目標。

當然,在實際的雷達對抗中環境模型是未知的,但這并不影響智能體最終找到最優的干擾策略,這也正是強化學習的魅力所在。下面,將對多功能雷達干擾決策問題中的狀態集、動作集、環境轉移概率和收益函數進行更詳細的定義和說明。

2.1 狀態集

雷達狀態是以干擾方所接收的信號參數為基本依據而界定的目標雷達所處的情況。雷達狀態的定義對于強化學習問題至關重要,與時間相關,在一段時間內具有一定的穩定性,與每一個雷達狀態相對應,在每一次干擾決策的閉環中,智能體都會進行一次決策,完成一次動作,而且智能體的收益也是通過雷達狀態的改變獲得。這就要求雷達狀態在時間維度離散,易于識別區分,與干擾樣式間存在映射關系,并且能夠為決策提供豐富的信息。在電子偵察的相關研究中,常將多功能雷達的信號模型建模為一個層級模型[29-30],對偵察到的雷達信號序列進行波形單元提取轉換為雷達字序列,采用生成結構語法中的理論對雷達字序列進行進一步的處理,由雷達字構成雷達短語,進一步構成雷達句子。

其中,雷達短語是層級模型的中間層,相比于雷達句子,雷達短語具有更加豐富的信號信息,可為干擾決策提供信息支撐;相比于雷達字,雷達短語與多功能雷達工作方式的控制參數直接相關[31],其與干擾樣式之間可以建立一定的映射關系,因此可以將電子偵察中獲取的雷達短語作為雷達狀態,本文MDP模型中的狀態集即多功能雷達的雷達短語集。文獻[32-33]中利用遞歸神經網絡(recurrent neural network, RNN)識別進行雷達狀態的識別,識別結果及時準確,很好地支持了本文的想法。

2.2 動作集

動作集包含干擾決策系統可以產生的所有干擾樣式,這由干擾波形發生設備的硬件條件所決定。常見的多功能雷達干擾樣式包括噪聲調幅干擾、脈沖卷積干擾、波門拖引干擾和靈巧噪聲干擾等。干擾決策的核心工作就是在每一個雷達狀態時選擇合適的干擾樣式,最終完成既定的干擾目標。

2.3 環境轉移概率

環境的轉移概率定義了雷達狀態和樣式間的相互作用關系,由多功能雷達的信號產生機制所決定。在多功能雷達信號的產生過程中,存在著嚴密的雷達任務調度機制和環境目標自適應機制[34-37],這使得多功能雷達狀態間存在馬爾可夫性,這種馬爾可夫性可以表示為p(St+1|St,Jt),這是一種簡化的表示方式,揭示了多功能雷達狀態發生轉移的規律,是將強化學習應用于多功能雷達干擾決策的基礎。

2.4 收益函數

收益函數r定義了從一種雷達狀態轉移到另一種雷達狀態時,智能體獲得的收益的數值。為了定義收益函數,需要考慮智能體的實際工作所要完成的現實目標。對于多功能雷達干擾決策問題而言,干擾決策的目標就是使雷達狀態盡快從當前的雷達狀態轉移到低威脅等級雷達狀態或者由于戰術目的需要希望多功能雷達所處的雷達狀態。這樣的現實目標存在著兩方面的要求:一是需要雷達狀態最終轉移到目標雷達狀態;二是決策者希望狀態的轉移過程所花費的時間是最短的。根據上述的兩個要求,該問題的收益函數可以設置為

(3)

若雷達狀態轉移至目標雷達狀態Saim,獲得收益為100;若雷達狀態未轉移到目標雷達狀態,則獲得收益為-1,這就保證了以最少的步數轉移到目標雷達狀態時,智能體所獲的總收益是最大的。步數與耗費時間呈正相關,最小的步數意味著最短的時間,因此智能體此時的干擾策略也是最優的。

3 算法構建

在當前對多功能雷達的干擾決策算法研究中,主要有Q-Learning和DQN,與融合了神經網絡和強化學習的DQN相比,Q-Learning采用表格記錄Q值,用查表的方式進行決策。當狀態動作空間過大時,存在占用存貯空間大、查表搜索時間長的問題[22],但在多功能雷達的干擾決策問題中,雷達狀態的數量和干擾樣式的數量都是有限的,狀態動作空間不會太大,因此不存在相應的問題。此外,Q-Learning相比于DQN有兩方面的優勢,第一方面,Q-Learning相對于DQN由于不使用神經網絡,調參和訓練將更為簡單和容易;第二方面,Q-Learning的擴展性更好,當多功能雷達的數量增加或者出現新的未知雷達狀態時,Q-Learning只需要增加表格的列數即可,而DQN則需要增加神經網絡輸入輸出的節點,甚至要重新設計神經網絡的結構,這無論是對于工程師還是神經網絡的訓練都是不利的。因此,Q-Learning是一種適合于多功能雷達干擾決策的算法,本節將在Q-Learning算法的基礎上結合基于勢能函數的收益塑造理論利用先驗知識改進算法,提升算法的收斂速度。

3.1 基于勢能函數的收益塑造理論

強化學習往往很耗時,因為強化學習算法必須使用延遲反饋或收益來確定其行為的長期后果。收益塑造是一種將領域知識結合到強化學習中的方法,以便更快地將算法引導至更有前景的解決方案。

收益函數反應了強化學習任務的目標,與狀態的劃分聯系緊密,因此收益函數的設置要結合實際問題的需求與形式,具體問題具體分析。這也導致了收益函數的設置領域并沒有成熟、系統的方法理論,收益函數的設置更多的是依靠工程師的經驗和技巧的總結。而基于勢能的收益函數的塑造理論討論了如何在原有的收益函數上加上一個具有塑造功能的函數項,使得在此基礎上智能體學到的最優策略不發生改變[38]。該理論對于收益函數設置具有重要的指導意義,該理論的主要內容如下。

一個馬爾可夫決策過程,可用一個元組來描述,M={S,A,P,γ,R},相關概念已經在第1節和第2節中進行了說明,故在此不做過多的交待。

對于任意的S,A,γ和任意的收益塑造函數F:S×S→R,若F滿足:

F(s,s′)=Φ(s′)-Φ(s)

(4)

式中:Φ:S→R為一實值函數,則M={S,A,P,γ,R}與M′={S,A,P,γ,R′}具有相同的最優策略;Φ被稱為S的勢能函數;F即為基于勢能的收益塑造函數。該定理被稱為基于勢能函數的收益塑造理論,由Andrew[38]首先提出并證明。

根據該定理,工程師就可以通過調整收益函數,將一個MDP轉換為另一個MDP,在保證最優策略的情況下,加快強化學習算法的收斂。如果事先知道一些關于干擾決策的先驗知識,可以將先驗知識以收益塑造函數F的形式加入到強化學習算法之中,以此提升算法學習效率。

3.2 基于先驗知識的智能干擾決策算法

在一些具體的多功能雷達干擾決策場景中,對于干擾決策問題并不是完全空白的,而是會有一些先驗的知識。假設在某一次干擾任務中,干擾任務的目標是使雷達狀態從當前雷達狀態S0轉換到目標雷達狀態Saim。在實行干擾任務之前,通過專家經驗或者對歷史數據的信息挖掘[39],已知在最優的干擾策略下,從當前雷達狀態S0轉移到雷達狀態Saim,需要經歷的一些雷達狀態,用集合Se表示,稱之為先驗雷達狀態。Se在最理想的情況下可能會包括最優策略下的所有雷達狀態,當然在更多的時候,Se可以提供的信息是有限的,決策者也不知道先驗雷達狀態在最優策略狀態序列中的順序,僅僅是知道在最優的雷達狀態序列中有這樣一些雷達狀態。先驗雷達狀態Se是不完整、不充分的,也正因如此,先驗雷達狀態形式的先驗知識會更加容易獲得。先驗雷達狀態對于人來說是容易理解的,而對于智能體而言,理解和運用這樣的先驗知識是存在一定困難的。收益塑造函數正是化解這一困難的有力武器。

強化學習的價值函數機制決定了當策略收斂至最優策略時,最優策略下的雷達狀態價值必然會高于其他雷達狀態的價值,所以一個直觀的想法是為最優雷達狀態的價值提供一個比較高的初始值。但在Q-Learning中,動作的選取依賴于動作價值函數,由于不清楚環境模型,無法得知最優雷達狀態依賴的最優動作,因此無法為動作價值函數提供有益的初始值。而收益只與雷達狀態有關,可以通過對收益函數的塑形來實現對先驗雷達狀態的狀態動作價值函數的提升。

運用基于勢能函數的收益塑造理論來改造收益函數,對于先驗雷達狀態Se,先增加先驗雷達狀態的勢能,令勢能函數為

(5)

則收益塑造函數可以寫為

(6)

更進一步,可以寫出進行收益塑造后的收益函數:

(7)

式中:ωp為收益強化系數,用于控制增加收益的數值大小。

基于勢能函數的收益塑造理論保證了在修改收益函數后,MDP問題的最優策略不會發生改變,但同時帶來了另一個問題。這種方法的最終結果,相當于雷達狀態轉移到先驗雷達狀態時,增加收益ωp,雷達狀態從先驗雷達狀態轉移到其他雷達狀態,減少收益ωp/γ,這會使智能體易于出現膽怯的行為,即由于害怕離開先驗雷達狀態時帶來的損失,選擇停留在先驗雷達狀態,不敢積極地去探索。為了抑制智能體的膽怯行為,給收益函數添加一個修正函數T(s,s′),其表達式為

T(s,s′)=(C(s′)-1)·ωs·(-1)

(8)

式中:C(s′)表示狀態s′連續出現的次數;ωs為收益抑制系數,用于控制抑制認知干擾決策智能體收益獲取的程度。T(s,s′)相當于一個臨時抑制項,幾乎不會影響MDP問題的最優策略。

通過上述的分析,決定采用基于勢能的收益函數塑造方法添加先驗知識,并且在收益函數中加入抑制膽怯行為的修正函數。在Q-Learning算法的基礎上進行改進,結合多功能雷達干擾決策問題場景,可以得到基于先驗知識的多功能雷達智能干擾決策算法如算法1所示。

算法 1 基于先驗知識的多功能雷達智能干擾決策算法

4 實驗仿真和結果分析

4.1 仿真環境和參數設置

進行仿真實驗,以驗證所提算法的性能。假設現有一多功能雷達,共有50種雷達狀態{s1,s2,…,s50},雷達狀態間的轉移情況如圖2所示。

圖2 雷達狀態轉移情況示意圖

干擾機的干擾任務是使多功能雷達的雷達狀態從當前的雷達狀態s1轉移到雷達狀態s25。最優干擾策略下的雷達狀態轉移情況為S1→S3→S5→S7→S9→S22→S23→S25,從初始狀態轉移到目標狀態至少需要7步,已經在圖2中標為

紅色。另有一智能干擾機,可以產生9種干擾樣式,干擾樣式與雷達狀態的相互關系為一維度為9×50×50的轉換矩陣,為使仿真結果不失一般性,矩陣中的轉移概率隨機產生。轉移矩陣可表示如下:

(9)

智能干擾機采用本文所提的基于先驗知識的干擾決策算法,算法的基本參數設置如表1。

表1 算法的基本參數設置

本次仿真中采用控制變量的方法共設置3組實驗,設置實驗1主要為了分析參數ωp和ωs的敏感性;設置實驗2和實驗3是為分析算法的通用性。其中,實驗2研究了先驗知識數量對算法性能的影響,實驗3研究了錯誤先驗知識對算法性能的影響。

關于強化學習算法的研究中,常用Q值是否收斂來判斷算法的收斂性,這是一種比較嚴謹的、直觀的數值指標方法。而在本文的實際問題,智能體不必等到Q值完全收斂就可以做出最佳的決策,所以可以用步數的收斂情況來判斷算法是否收斂。考慮到智能體在進行決策時會以一定的概率進行探索,會使步數存在一定的波動,如果步數連續3個回合保持不變,并且對于同一步數這樣的情況出現6次,認為算法收斂。若該步數為7,則認為算法達到了最優收斂。進一步可以定義在多次重復實驗中,干擾策略收斂到最優策略的比例為最優收斂率;智能體從開始進行訓練到最后收斂所需要的步數稱為收斂總步數。這些指標反應了智能體學習的速度與質量,與干擾的實時性和有效性密切相關。

4.2 參數敏感性分析

保持多功能雷達信號模型和算法基本參數不變,先驗知識為Se={s2,s7,s22},智能體每次訓練的最大回合數為400,每次改變ωs或ωp的值進行100次蒙特卡羅實驗。

從實驗的結果來看,雖然每次實驗ωs或ωp的值不完全相同,但在400個回合內算法的收斂率都是100%,意味著算法始終會收斂。由于不同的ωs或ωp結果都是相同的,所以在此處就不以表格和數據的形式展現了。不同的ωp和ωs參數下的最優收斂率如表2所示。

表2 不同ωs和ωp下的最優收斂率

從表2的統計結果來看,不同參數下最優收斂率幾乎相差無幾,都是接近1或者等于1。而在理論上,基于勢能函數設計的收益塑造函數是不會改變最優策略的,最優收斂率應該都為1。

為進一步研究實驗結果中出現最優收斂率不為1的原因,將每次實驗中算法收斂以后,步數取值的均值定義為平均收斂步數,記為mean-step,平均收斂步數可以更準確地反映算法的收斂情況。

在上述的參敏感性實驗中,一共進行了5 600次實驗(8×7×100=5 600,8和7分別為ωs和ωp的取值個數,100為進行蒙特卡羅實驗的次數),其中出現異常的實驗次數為44次,達到最優收斂的實驗次數為5 556次。將這5 556次實驗的平均收斂步數作為一個樣本集,計算可得該樣本集的均值為7.58,標準差為0.13,記為μ=7.58,σ=0.13。44次異常情況的平均收斂步數情況如表3所示,(ωs,ωp)為出現異常情況時的參數取值。

表3 異常情況的平均收斂步數情況

圖3為不同ωs或ωp情況下的回合數與步數圖,在每一張子圖中,保持ωs的值不變,ωp取不同的值,“無先驗知識”即為改進前的Q-Learning算法。在此基礎上,逐漸增大ωs的值一共得到8張子圖。

圖3 不同ωs和ωp下的回合數-步數圖

在圖3(a)中,ωs此時為0,相當于沒有對智能體的膽怯行為進行抑制。采用本文所提算法,當ωp比較小時,如ωp分別取1、2、4,算法的收斂性能明顯好于Q-Learning算法,當ωp比較大時,智能體會出現明顯的膽怯行為。逐漸增加ωp的值,膽怯的行為能得到明顯的改善。在圖3(h)中,當ωs取值為64時,不同ωp的曲線基本重合,具有相似的收斂性能。在工程實踐中,ωp可以取一個比較小的值,這樣可以既無明顯的膽怯行為,也能達到較好的收斂性能,但是小的尺度不容易把握。根據實驗的結果,ωp可以取一個較為靈活的值,在此基礎上ωs取一個較大的值,這樣也能達到相似的甚至更好的性能,同時參數的設置方法也將更為靈活和可靠。

4.3 算法通用性分析

為了研究先驗知識數量對算法性的影響,保持多功能雷達信號模型和算法基本參數不變,ωp取值為16,ωs取值為64,智能體訓練的最大回合數為600。隨機抽取1到6個先驗雷達狀態作為先驗知識,每種先驗雷達狀態數量下進行100次實驗,實驗的統計結果如表4所示。

表4 不同先驗雷達狀態數下的算法收斂性能參數

在不同的先驗雷達狀態數量下,算法的收斂率始終為1,最優收斂率也都為1或者接近1,這樣的結果與實驗1中得到的結果是一致的。而隨著先驗雷達狀態數的增多,平均收斂總步數是在不斷減少的。將基于Q-Learning算法的實驗結果作為一個基準,用基于Q-Learning算法的平均收斂總步數減去基于先驗知識算法的平均收斂總步數,稱為縮減步數,用縮減步數衡量基于先驗知識算法收斂性能提升的程度。折線圖如圖4所示,隨著先驗雷達狀態數的增加,縮減步數逐漸增加并且增加的趨勢逐漸放緩。這表明,先驗雷達狀態數量越多,本文所提方法對算法的收斂性能的提升越大,但通過繼續增加先驗雷達狀態來提升算法性能的效果就越不明顯。

圖4 縮減步數隨先驗雷達狀態數變化圖

為了研究先驗知識數量對算法性的影響,保持多功能雷達信號模型和算法基本參數不變,ωp取值為16,ωs取值為64,智能體訓練的最大回合數為1 000。初始的先驗知識為{s3,s7,s22},在此基礎上,采用隨機選擇其他雷達狀態并隨機替換初始先驗知識中雷達狀態的方式,產生先驗知識錯誤率為0%,33%,66%,100%的先驗知識。每種先驗知識錯誤率下,產生100次錯誤先驗知識進行實驗。

實驗的統計結果如表5所示,算法的收斂率還是都為1,這表明錯誤的先驗知識并不會影響算法的收斂。但隨著先驗知識錯誤率的增加,最優收斂率卻出現了明顯的下降,當先驗知識100%錯誤時,最優收斂率只有0.59,而且平均收斂總步數也在上升。這樣的結果表明,錯誤的先驗知識會導致智能體需要花費更多步數的訓練才能找到最優的策略,畢竟此時的智能體不僅需要去尋找最優策略,同時也需克服錯誤知識帶來的影響。在本次實驗中,最大訓練回合數只有1 000個回合,很多的結果雖然已經達到了本文所提的收斂標準,但實際上并沒有真正的收斂。因為在理論上,只要訓練的回合數足夠多,智能體就一定能找到最優的策略。

表5 不同先驗知識錯誤率下的算法收斂性能參數

圖7顯示了不同先驗知識錯誤率下的縮減步數,從圖中可以明顯的看出錯誤的先驗知識會嚴重影響算法的性能,當先驗知識錯誤率為0%時,縮減步數為6 998步,而當先驗知識錯誤率為33%時,縮減步數就只有3 085步了,當先驗知識錯誤率為100%時,縮減步數為-200,僅比原始的Q-Learning算法的表現略差一點。因此,為了實現最大的算法性能提升,在采用基于先驗知識的多功能雷達智能干擾決策算法時,應盡量保證先驗知識的正確性。

相比于基于Q-Learning的智能干擾決策算法,本文所提的基于先驗知識的多功能雷達智能干擾決策算法充分地利用了有限的先驗知識,在大多數的情形下都能達到更好的收斂性能,能夠大幅縮短干擾決策智能體的訓練時間。

5 結束語

將強化學習方法應用于多功能雷達的干擾決策有望實現對多功能雷達干擾策略的實時調整,實現更為精準有效的干擾。然而,強化學習算法普遍存在著訓練周期長、收斂困難的問題。針對此,考慮到在實際的雷達對抗過程中先驗知識存在的客觀性,使用基于勢能函數的收益塑造原理將先驗知識以收益的形式加入到強化學習問題,并提出抑制智能體膽怯行為的方法,最終形成了基于先驗知識的多功能雷達干擾決策算法。通過實驗仿真,討論了算法中兩個參數ωp和ωs對算法性能的影響,總結了在實際工程應用中參數設置的一般方法。此外,還研究了所提算法在不同的先驗雷達狀態數量下和在先驗知識錯誤情況下的收斂性能,先驗雷達狀態數量越大,算法收斂性能相對于傳統Q-Learning算法的提升就越大,并且先驗雷達狀態數量越少,增加先驗雷達狀態對算法性能的提升越大;錯誤的先驗知識會造成算法的收斂性能下降,智能體尋找到最優策略將會更加的困難,所以使用本文所提的方法應該盡量保證先驗知識的正確性。總之,在絕大多數的情況下,本文所提算法收斂性能都是優于Q-Learning算法的,具有較好的通用性,而本文所提的利用先驗知識的方法,不僅可以應用于多功能雷達干擾決策領域,也可通過簡單的遷移在強化學習的其他領域使用,具有廣泛的應用前景。

當然本文所研究的工作是有限的,只是研究了在多功能雷達干擾中的干擾樣式選擇問題,距離真正的形成實時化、智能化的干擾能力還有很長的路要走。此外,本文對于加入抑制膽怯行為的函數項是否會改變強化學習的最優策略并未給出嚴格的數學證明,所提的判斷收斂的方法足夠簡單,但不夠嚴謹,這都是在未來值得研究的問題。

猜你喜歡
智能策略
基于“選—練—評”一體化的二輪復習策略
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
智能制造 反思與期望
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
智能制造·AI未來
商周刊(2018年18期)2018-09-21 09:14:46
主站蜘蛛池模板: 香蕉视频在线精品| 国产黄色片在线看| 久久国产拍爱| 亚洲欧美国产视频| 国产jizz| a毛片在线免费观看| 日韩欧美成人高清在线观看| 日韩欧美中文| 国产免费高清无需播放器| 国产成人免费| 欧美综合在线观看| 一区二区三区在线不卡免费| 亚洲人妖在线| 欧美在线一级片| 国产综合网站| 国产在线精品美女观看| 国产美女久久久久不卡| 国产精品欧美日本韩免费一区二区三区不卡 | 久久免费看片| 亚洲精品免费网站| 在线色综合| 日韩免费毛片| 一本色道久久88亚洲综合| 国产三级毛片| 91网在线| 国产高清在线精品一区二区三区| 免费国产黄线在线观看| 国产嫖妓91东北老熟女久久一| 亚洲欧州色色免费AV| 国产成人三级| 无码啪啪精品天堂浪潮av| 国产在线自乱拍播放| 亚洲欧美日韩精品专区| 国产在线一二三区| 女人18一级毛片免费观看| 国产成人综合久久精品下载| 2020精品极品国产色在线观看 | 国产精品福利在线观看无码卡| 亚洲成年人网| 国产一区二区福利| 国产色伊人| 国产成人精品在线1区| 国产91精品调教在线播放| 亚洲国产清纯| 日韩欧美国产区| 在线视频97| 69视频国产| 中文字幕av无码不卡免费| 国产91透明丝袜美腿在线| 日韩在线视频网| 久久香蕉国产线| 亚洲欧美极品| 2021精品国产自在现线看| 国产成人91精品| 国产一区二区人大臿蕉香蕉| 国产欧美一区二区三区视频在线观看| 亚洲性影院| 全部免费特黄特色大片视频| 美女无遮挡拍拍拍免费视频| 高清无码不卡视频| 91精品国产一区自在线拍| 欧美黑人欧美精品刺激| 亚洲欧州色色免费AV| 成人在线第一页| 中国一级毛片免费观看| 伊人婷婷色香五月综合缴缴情| 日韩无码视频专区| 欧美a在线视频| 69国产精品视频免费| 欧美va亚洲va香蕉在线| 国产精品亚洲欧美日韩久久| 精品少妇人妻av无码久久| 青青草国产一区二区三区| 伊人无码视屏| 久久性视频| 国产免费网址| 久久黄色毛片| 2022国产91精品久久久久久| 青草娱乐极品免费视频| 亚洲成人动漫在线| 精品福利视频导航| 国产在线第二页|