基于學習自動機的雷達干擾資源分配研究

2020-06-23 01:56:52顧榮軍盧俊道

航天電子對抗 2020年2期

韓鵬，顧榮軍，盧俊道，張鵬

（中國洛陽電子裝備試驗中心，河南孟州454750）

0 引言

電子對抗過程中雙方都會被多部雷達同時威脅，對抗雙方會設法利用先進的電子對抗技術削弱對方雷達系統的作戰性能。然而雷達干擾資源是有限的，如何將有限的雷達干擾資源進行合理分配，最終獲得最大整體干擾效益就成了現代電子對抗中一個決定勝敗的重要問題。

正是由于雷達干擾資源分配的重要性，相關專家學者們進行了大量研究，建立了諸多資源分配的方法模型，如基于貼近度的雷達干擾分配算法[1]、遺傳模擬退火算法[2]、基于多Agent分布協同拍賣的雷達干擾資源分配算法[3]、蟻群算法[4]等。近年來，博弈論[5]作為研究分布式最優化問題的一種有效理論工具被廣泛用于無線通信等領域，取得了很多研究成果，但是在雷達有源干擾資源分配方面研究的不多。本文基于博弈論探討干擾資源分配問題，并利用學習自動機設計分布式干擾資源分配算法，可以在收斂速度和干擾效果兩方面取得較好的平衡，使得對雷達干擾資源分配方案的制定更加穩定和高效。

1 干擾效果評估

雷達干擾資源分配首先需要對干擾機的干擾效果進行定量評估，進而通過運籌學的方法尋找某種最優的干擾目標分配方案。

1.1 評估指標[6-8]

1）干擾頻率。用干擾頻率效益因子Efij表示干擾機i對目標雷達j的頻率瞄準程度對干擾效果產生的影響。設雷達j的工作頻率范圍為fj1-fj2，干擾機的頻率覆蓋范圍為fi1-fi2，則：

2）干擾功率。用干擾功率壓制效益因子E pij表示干擾機i對雷達j的功率壓制的程度對干擾效果產生的影響。

式中，Pji表示雷達接收到的干擾功率，Pjs表示雷達接收到的目標回波信號功率，γj表示雷達j正常工作所必需的最小干信比。

3）干擾時機。用干擾時機效益因子E tij表示干擾機干擾實施時間對干擾效果的影響程度[6]。設雷達的威脅時間為t1-t2，開始干擾的時間為ti。

4）干擾樣式。用干擾樣式效益因子E mij表示干擾機i干擾樣式多少對干擾效果的影響程度。

樣式越多，匹配程度越高，干擾效果越好。

1.2 干擾資源分配模型

假定己方有N部干擾機，敵方有M個目標雷達。干擾機i最多可同時干擾K i部雷達，各雷達的威脅系數為λj。

影響干擾效果的4個因素是相互獨立的，只要其中一個因素無效，干擾就無效。所以在干擾效果綜合評價時，采用扎德算子“∧”進行取小運算。

根據電子戰的實際戰情分析配置權重，用Ω=[ω1,ω2,ω3,ω4]表示，ω1+ω2+ω3+ω4=1。則單對單雷達干擾效果為：

雷達j受到干擾機的干擾效益為：

則雷達總體干擾效益矩陣E為：

定義雷達干擾資源分配的目標函數：

2 干擾資源分配博弈模型

假設N個干擾機的集合為N={1,2,…,N}，M個雷達的集合為M={1,2,…,M}。干擾機i的干擾策略為Ri，Ri為干擾機i的干擾策略集，R i∈ Ri。因為干擾機i最多同時對K i個雷達進行干擾，所以Ri=，其中a、b∈ M，因此干擾機i共表示干擾機i對雷達j進行干擾，)表示干擾機i對雷達a、雷達b等K i個雷達進行干擾。干擾機選擇不同的干擾策略，就會生成不同的決策矩陣X N×M。假設每一個干擾機都是理性的，只會選擇使自身收益最大的干擾策略。定義所有干擾機收益相同，為：

本文以最大化所有干擾機收益為目標，因此干擾策略選擇的競爭最優問題可以表示為：

式中，R-i表示除了干擾機i之外所有干擾機的干擾策略，Co1表示干擾機i同時最多干擾K i部雷達。

不滿足Co1限制的干擾策略不會被選擇，然而干擾機很難提前知道哪些干擾策略是不可行的，所以不能直接采用U作為干擾機的收益函數。為了確定干擾策略選擇的可行性，定義每個干擾機的收益函數為：

從博弈論的觀點來看，N個干擾機構成博弈參與者，干擾策略集構成純策略空間，干擾機的收益函數構成博弈參與者的收益函數，則干擾機干擾策略選擇行為可以被看作是一個博弈GE。

式中，N為干擾機的集合，Ri為干擾機的純策略空間，ui為干擾機i的收益。

3 基于學習自動機的干擾資源分配算法

學習自動機(LA）是一個能夠在隨機環境中通過重復地互動從行動集合中找出最佳行動的自適應決策者[9]，學習自動機已經被應用于無線通信等領域。本文根據學習自動機的概念，設計一種分布式隨機學習算法，來自適應地更新干擾機的干擾策略。

為了更好地描述這個學習算法，本文把博弈GE擴展到混合策略形式。用p i={p i1,…,p iTi}表示干擾機i的混合策略，其中p ik表示干擾機i選擇純策略k的行動

如果混合策略的博弈是相繼輪流進行的，則可以將每個干擾機視為一個學習自動機，將博弈參與者的純策略視為學習自動機的行動，那么，這個混合策略博弈可以被視作一個由學習自動機構建成的隨機博弈。混合策略p i(t)={p i1(t),…,p iT i(t)}可以被當作在時刻t學習自動機i的行動的概率分布，而p ik(t)表示在t時刻，第i個學習機選擇第k個純策略的概率。干擾機i歸一化的收益則被視為第i個自動機的反應函數，即r i(t)=αui(t)，其中0＜α＜1，能夠保證r i(t)的值落在[0,1)區間。因此可以得到，r1(t)=…=r N(t)=r(t)=αui(t)。

在學習自動機算法中，干擾機通過有限反饋信息，學習到關于干擾策略的概率分布，以便能夠最大化各自的收益。如果其中一個自動機即干擾機根據它當前的行動概率分布獨立地選擇一個行動時，就說這個博弈進行了一次。為了能夠獲取這個博弈的納什均衡，干擾機需要重復地進行這個博弈。該算法具體描述如下：

2）迭代重復以下過程：

①在每個時刻t（t＞0），每個干擾機根據它當前的概率分布p i(t)選擇一個干擾策略R i，并上傳給指揮中心；

②指揮中心根據每個干擾機的干擾策略，更新決策矩陣，計算干擾機i的反應函數r i(t)=。需要說明的是，本文中所有干擾機都具有相同的反應函數，因此這個反應可以很方便的通過指揮中心廣播給每個干擾機；

③每個干擾機通過指揮中心的反饋，利用（13）式更新其行動概率分布，其中0＜δ＜1是一個步長參數，i=1,…,N；k=1,…T i。

式中Rik為干擾機i的第k個純策略。

直到p i(t)中存在一個元素近似等于1，比如0.99，算法停止。

分布式干擾資源分配算法，通過重復博弈，最終確定了每個干擾機的混合策略。在任一個時刻，每個干擾機所需要的信息，僅僅是進行了一次博弈后的歸一化收益，而不需要知道其它任何信息。所有干擾機只需要計算它們的行動概率，避免了復雜的運算。因此該算法能夠極大地降低運算復雜度。

由于GE是一個具有共同收益函數的博弈。由文獻[10]中的定理4.1可得，當步長δ足夠小時，分布式干擾資源分配算法會收斂到博弈的一個純策略納什均衡。當多個純策略納什均衡存在時，可以重復運行該算法，然后從中選出獲得最高收益的那個純策略納什均衡，這樣就能直接找到問題p.1的最優解或找到接近最優性能的策略組合。

在傳統的學習自動機當中，步長的大小對算法的收斂速度影響很大且是一個預先確定的常數。通常，δ越大，算法的收斂速度就越快。為了能夠在保證獲得接近問題p.1最優解的情況下，加快收斂速度，本文設計了一個能夠自適應調整步長的機制。具體設計如下：

定義一個時變的δ：

式中，t1＜t2＜…＜tn-1是有序正整數，tn被定義為正無限，δ1＜δ2＜…＜δn＜1表示有序步長，n是一個有限正整數。

本文設計的自適應步長調整機制不會影響理論結果。但是，為了能夠適應實際需求，必須合理設計這些參數的值。由于自適應步長機制能夠把分布式算法的迭代次數自適應地限制在一個需要的數值上，所以這個機制非常適用于實際系統。

4 仿真分析

用仿真實驗驗證所提算法和模型以及實現方法的正確性。為了對所提算法進行簡單高效且全面的分析，首先假設戰場環境內有6部干擾機和7部目標雷達，雷達的威脅系數分別為 0.89、0.27、0.64、0.10、0.72、0.43、0.54，每個干擾機最多能同時干擾2部雷達，則每個干擾機的策略數T i=C17+C27=28。通過干擾決策分析，計算雷達干擾效益矩陣Q，計算結果如表1所示。

表1 算例干擾效益值

圖1表示干擾機1所選行動的概率值（也就是混合策略）的進化曲線。采用自適應步長機制時，n=2，t1=200，δ1=0.1，δ2=0.3。圖 1證明本文所設計的算法具有很好的收斂性。

當δ=0.1時，在459次迭代后，干擾機1收斂到策略 5，也就是p15=1，對應的決策矩陣X1=[x11,x12,…,x17]=[1 0 0 0 1 0 0]，即干擾機 1選擇第 1個雷達和第5個雷達進行干擾；

當δ=0.3時，在65次迭代后，干擾機1收斂到策略 26，也就是p126=1，對應的決策矩陣X1=[0 0 0 0 0 1 0]，即干擾機1選擇第6個雷達進行干擾；

當選擇自適應步長機制時，在220次迭代后，干擾機1收斂到策略5，也就是p15=1，對應的決策矩陣X1=[1 0 0 0 1 0 0]，即干擾機1選擇第1個雷達和第5個雷達進行干擾。

當δ很大且策略數很小時，算法的收斂速度就會很快。此外，在相同狀態下，對于不同數值的δ，分布式干擾資源分配算法可能會收斂到不同的納什均衡。

圖1 干擾機1的所選行動概率（混合策略）進化曲線

圖2 給出了不同算法在不同干擾機數量情況下所獲得的干擾效益。圖2表明，不論干擾機數量是多少，分布式干擾資源分配算法都能夠獲得比隨機選擇算法大得多的干擾效益。如果在仿真中，運行分布式干擾資源分配算法2次并且從中選擇一個收益較大的納什均衡，分布式干擾資源分配算法獲得的干擾效益就會得到提升。如果分布式干擾資源分配算法被運行6次，則干擾效益性能會進一步增加。

從圖2還可以獲知，δ越小，分布式干擾資源分配算法的性能越好。這是由于通常有多個納什均衡存在，而當δ增大時，分布式干擾資源分配算法更有可能錯失最優的或者接近最優的納什均衡。

圖2 性能對比

圖1 和圖2表明自適應步長機制能夠在干擾效益性能和收斂速度之間獲得一個很好的平衡。這些仿真結果證明自適應步長機制是有效的。在實際系統中，可以根據系統需求，來調整步長δ的數值或者采用自適應步長機制來平衡性能與算法復雜度之間的關系。總的來說，分布式干擾資源分配算法靈活有效。

5 結束語

本文利用博弈論研究了雷達有源干擾資源分配問題，基于學習自動機原理提出了分布式干擾資源分配算法，為求解雷達干擾資源分配數學模型提供了新的思路。重復這個算法，可以提高干擾機干擾效益。設計了一個自適應步長機制，它能夠平衡算法性能和收斂速度之間的關系。與窮舉搜索算法相比，本文提出的算法能夠以很低的復雜度來獲取一個與之相當的干擾性能。