999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于核函數強化學習的抗干擾頻點分配

2021-05-31 13:49:24江志煒吳啟暉
系統工程與電子技術 2021年6期
關鍵詞:動作設備

江志煒, 黃 洋,2, 吳啟暉,*

(1. 南京航空航天大學電磁頻譜空間認知動態系統工信部重點實驗室, 江蘇 南京 211106;2. 東南大學移動通信國家重點實驗室, 江蘇 南京 211189)

0 引 言

近年來,隨著無線通信技術迅猛發展,無線通信系統中的用戶數與業務種類大幅增加[1]。同時,在現代戰爭中,伴隨著作戰雙方對安全、穩定的信息傳輸及處理能力需求,戰場用頻裝備與日俱增,致使戰場電磁頻譜環境愈發復雜多變[2-3],因此對電磁頻譜空間的控制已成為決定戰場發展方向的關鍵性因素。戰場電磁頻譜態勢是現代戰爭中信息獲取和傳遞最主要媒介,是雙方控制與反控制的焦點。由于無線通信系統區別于有線通信網絡,有線通信網絡中通信設備通過電纜等物理設備相連接,而無線通信網絡口中接口是開放的。正是由于無線通信系統特有的開放性,無線傳輸自然更容易受到來自對方的惡意干擾攻擊[4],因此抗干擾技術的研究在構建更加穩健、高效的無線通信系統中的重要性日益凸顯。更加穩健的無線通信系統是現代戰爭中能否取得勝利的關鍵要素,因此抗干擾技術是軍事無線通信系統中的重要要求[5]。主流的傳統抗干擾技術包括跳頻擴頻(frequency hopping spread spectrum,FHSS)和直接序列擴頻(direct-sequence spread spectrum,DSSS)[6],而傳統的抗干擾技術需要有大量的可用頻譜資源作為抗干擾技術的支持,在無法提供大量頻譜資源時抗干擾效果會下降,并且傳統的抗干擾技術無法應對網絡頻譜動態變化的場景[7-8]。

智能抗干擾決策技術由于相對于傳統的跳頻等抗干擾技術具有更強的靈活性與更高的抗干擾容限而逐漸受到關注[7]。近年來出現了很多針對智能抗干擾決策技術的研究,博弈論等數學工具被越來越多地用于智能抗干擾決策的研究[9-10],用以建立更加契合實際的模型并獲取更好的決策效果。文獻[9]將抗干擾問題建模為斯坦伯格博弈,并進行抗干擾功率決策研究。文獻[10]將用戶與干擾用戶建模為抗干擾的貝葉斯斯坦伯格博弈模型。但這些方法需要了解干擾策略,這意味著需要合法用戶能從觀察到的環境中估計干擾模式和參數。但是,隨著人工智能和通用軟件無線電外圍(universal software radio peripheral, USRP)設備[11]的快速發展,無線通信動態環境愈發復雜,干擾源攻擊用戶時可以輕松地產生動態干擾。因此,需要針對動態和未知環境中異構用戶的抗干擾通信方法進行研究。

近年來,強化學習不僅在機器學習中,而且在運籌學、控制工程以及其他相關學科中,都吸引了許多研究者的興趣[12]。在強化學習中,代理與未知環境進行交互,在獲得回報的同時更新其策略以最大化累積收益。因此,強化學習提供了一種通用的方法來解決復雜的不確定性決策問題,這些問題在無線通信系統的抗干擾問題中是非常具有挑戰性的,是解決動態和未知環境中異構用戶決策問題的有效方法[13]。Q學習算法是一種無模型的強化學習算法,并且廣泛應用于無線通信系統的抗干擾問題中[14-16]。文獻[14]研究提出了一種基于Q學習的特定的強化學習算法,并且在數百兆赫茲的可用頻段上實時地做出抗干擾策略。文獻[15]研究中次級用戶使用SARSA(state-action-reward-state-action)算法來學習頻點的時變特性以及外部干擾的干擾策略。文獻[16]研究提出了一種基于強化學習的抗干擾方法,用于在多智能體的寬帶自主認知無線電(wide-band autonomous cognitive radios, WACR)環境中進行抗干擾通信。但是,通常在復雜電磁環境下的抗干擾頻點分配問題的動作空間及狀態空間都非常巨大,因此基于傳統強化學習技術對抗干擾頻點分配問題進行求解時會面臨維度詛咒等問題[17]。為了解決傳統強化學習技術在求解復雜不確定性決策問題時復雜度過高的問題,基于神經網絡或隱馬爾可夫模型等的預測模型在研究中被提出,但上述模型往往需要大量的計算資源來訓練,并且需要經常定期重新訓練,同時需要大量參數來獲取相關的通信環境[18-19]。此外,基于深度學習的模型往往對噪聲[20]和對抗[21]敏感,因此在具有業務延遲要求等的實際無線通信網絡中,需要開發可以實時分析相關數據,以便為決策的制定提供參考。

本文針對雷達通信一體化系統的抗干擾問題,提出了基于核函數強化學習的抗干擾雷達-通信頻譜協同算法,旨在最大化用頻設備接入未被干擾頻點的期望。用頻設備根據可用頻段的頻譜態勢構建出本地的頻譜池,進而用頻設備可以不需要預知外部干擾的干擾模式和相關參數,基于所提算法低復雜度地做出抗干擾頻譜決策。因此,所提算法是無模型的,可以廣泛用于各種抗干擾方案。所提算法通過基于核函數的方法,避免了隨可用頻點數目增加而出現的維度詛咒問題,同時基于近似線性相關性分析的在線內核稀疏化方法,進一步的減少了算法的收斂時間。仿真證明,所提算法可以在短時間內收斂,實現了快速規避外部未知干擾源的干擾,減少了接入被干擾頻點的次數,并在外部干擾源干擾圖樣發生變化時,重新對外部干擾源進行學習,相較于傳統的基于Q學習的抗干擾頻點分配算法擁有好的性能。所提算法無需大量訓練,可以通過不斷與未知環境進行交互,學習干擾源干擾模式,在線實時做出相應頻點分配決策。論文其余部分安排如下:第1節介紹了雷達通信一體化的系統模型并構建了目標問題,第2節介紹了基于傳統強化學習的抗干擾頻點分配算法和基于核函數強化學習的抗干擾頻譜協同算法,第3節和第4節分別給出了仿真分析以及全文總結。

1 問題提出和系統模型建立

本節將對系統模型進行介紹。如圖1所示,考慮一個包含通信用頻設備和雷達用頻設備的雷達通信一體化系統。其中,通信用頻設備和雷達用頻設備的總設備對數為K,在上述系統中的雷達用頻設備為捷變頻雷達,用頻設備可以對可用頻點進行感知,來獲得用頻設備可用頻段的頻譜態勢[22-23]。

圖1 存在外部干擾的雷達通信一體化系統Fig.1 Integrated radar communication system with external interference

在上述系統模型中,時間劃分為等長的時隙,每個時隙的長度用T來表示。在上述雷達通信一體化系統中,共有I個可用頻點,用頻設備k的可用頻段中總共有Ik={I1,I2,…,Ik}個可用頻點。而不同的用頻設備擁有不同的可用頻段,但不同用頻設備的可用頻段之間可能有重疊的頻點,并且各個用頻設備k的可用頻段內單個頻點的帶寬Bk={B1,B2,…,Bk}也是不相同的,即不同用頻設備的頻譜是異構的。同時雷達通信一體化系統中存在U個外部干擾源,干擾源對所有用頻設備所在的可用頻段進行干擾,干擾圖樣與相關參數并不會被系統中的用頻設備感知到,同一網絡中的不同用頻設備之間不存在頻點間干擾。

雷達用頻設備通過頻率捷變來避開外部的未知干擾源,捷變頻雷達的頻率捷變技術主要通過干擾分析與頻率選擇系統來實現的[24]。雷達信號通常是窄帶的、帶通的、相位或頻率調制的函數,這意味著單個散射體的回波波形y(t)[25]具有如下的形式:

y(t)=A(t)sin[Ωt+θ(t)]

(1)

式中,幅度調制A(t)表示脈沖的包絡;Ω為頻率;θ(t)為相位調制。接收到的信號被分離到兩個通道,其中一個通道稱為同相通道(I通道),另一個通道稱為正交通道(Q通道)。在經過混頻和低通濾波后,式(1)中的回波信號為

y(t)=I(t)+jQ(t)

(2)

捷變頻雷達對可用頻段內的可用頻點進行頻譜的實時分析,來獲得可用頻段的干擾狀態,捷變頻雷達的干擾分析模塊在每個時隙對雷達設備可用頻點的幅度進行實時監測,單個可用頻點處的信號幅度為

(3)

式中,gk, j,t為t時隙雷達設備k的第j個可用頻點的幅度值。通信設備根據信干噪比來判斷可用頻段的頻譜態勢,其中信干噪比為

(4)

式中,p表示發射功率;σ2表示噪聲,包括高斯白噪聲和外部干擾源的干擾:

(5)

用頻設備為了增加對本用戶可用頻段附近頻點的感知,在用頻設備可用頻段的兩側均有一個鄰頻點,如圖2所示。鄰頻點用于感知可用頻段兩側相鄰頻點的頻譜態勢,其中頻點X為鄰頻點,鄰頻點不能被使用該頻段的用頻設備作為工作頻點,頻點O為用頻設備的可用頻點。若不同用頻設備的可用頻點(O)有重疊,則這些用戶被劃分為同一個簇,由簇頭分配重疊頻點的優先使用權,如圖3所示。

圖2 用頻設備的可用頻段和鄰頻點Fig.2 Available frequency band and adjacent frequency point of frequency equipment

圖3 用頻設備在可用頻段重疊的情況下的分簇情況Fig.3 Clustering of frequency equipment with overlapping available frequency bands

在該系統內,用頻設備的頻譜池由前y個時隙如圖2所示的可用頻點和鄰頻點的頻譜態勢組成。在t-1時隙用頻設備k做出選頻決策之后,用頻設備對當前時隙的可用頻點和鄰頻點進行感知,獲得對應頻點的頻譜態勢集合vk,t-1=(vk,1,t-1,vk,2,t-1,…,vk, j,t-1),其中j為可用頻點和鄰頻點的數目總和。隨著用頻設備在每個時隙對可用頻點和鄰頻點進行感知,獲得t-y時隙到t-1時隙內對應頻點的頻譜態勢,進而構成了用頻設備k的頻譜池,如圖4所示。隨著時隙的增加,用頻設備不斷更新頻譜池中的頻譜態勢,因此在t時隙時,用頻設備k可以將本地的頻譜池中頻譜態勢Vk,t=(vk,t-1,vk,t-2,…,vk,t-y)作為算法的輸入,對當前時隙下的頻點分配進行決策。

圖4 頻譜池的構建Fig.4 Construction of spectrum pool

由于雷達通信一體化系統中存在未知外部干擾源,因此用頻設備所在的無線網絡環境是未知的和動態的。這導致用頻設備無法從外部環境和頻譜態勢中直接獲得可接入的頻點。強化學習提供了一種方法來解決未知動態環境中復雜的決策問題,因此強化學習在抗干擾領域展現出強大的學習能力,這是由于用頻設備可以根據過去的經驗,對干擾源的干擾規律進行學習,不斷更新用頻設備的選頻策略以最大化長期累計收益,使簇內用頻設備可以在每時隙接入頻點前,根據當前的頻譜池中的頻譜態勢進行頻點選擇,從而實現用頻設備抗干擾的頻點選擇策略。由于用頻設備可以從過去的頻譜態勢中獲得外部干擾源的干擾策略,因此可以將用頻設備的頻點選擇問題建模為馬爾可夫決策過程(Markov decision process, MDP)。

一個馬爾可夫決策問題可以由集合{S,A,R,P}來表示,其中S代表狀態空間,A代表動作空間,R代表瞬時回報,P代表狀態轉移概率。接下來介紹有關用頻設備k的狀態空間,動作空間,瞬時回報以及狀態轉移概率。

(1) 狀態空間:由于干擾源復雜的干擾動作可能與過去y個時隙長度的頻譜態勢有關,因此用頻設備k的狀態為sk,t=(vk,1,t-1,vk,2,t-1,…,vk, j,t-1,vk,1,t-2,vk,2,t-2,…,vk, j,t-2,vk,1,t-y,vk,2,t-y,…,vk, j,t-y),其中sk,t為t-1時隙到t-y時隙用頻設備k所在頻段的歷史頻譜態勢,因此sk,t為一個包含時域和頻域頻譜態勢信息的j×y的二維矩陣。狀態sk,t包括用頻設備k的可用頻點的頻譜態勢和兩側鄰頻點的頻譜態勢;t時隙用頻設備k的第j個頻點的頻譜態勢定義為vk, j,t,若感知到該頻點受到干擾,則vk, j,t=1,若感知到該頻點未受到干擾,則vk, j,t=0。

(2) 動作空間:用頻設備k在t時隙的動作為ak,t=(ak,2,t,ak,3,t,…,ak, j-1,t),其中第j-1個元素ak, j-1,t定義為一布爾型變量以表示用頻設備k是否接入第j-1個頻點,如果用頻設備k接入第j-1個頻點,則ak, j-1,t=1,否則ak, j-1,t=0。由于用頻設備k的可用頻點兩側各存在一個鄰頻點,因此用頻設備k的可選頻點范圍為[2,j-1]。

(3) 瞬時回報:用頻設備k的瞬時回報rk,t可以定義為t時隙用頻設備k是否接入未被干擾的頻點;在t時隙開始時,用頻設備k接入頻點,之后用頻設備感知該時隙可用頻點和鄰頻點的頻譜態勢,判斷用頻設備k是否成功接入未被干擾的頻點。雷達設備根據幅度值來獲得該頻點的頻譜態勢,若gk, j,t≤gt h,則該頻點未被干擾,反之gk, j,t≥gt h,則該頻點被干擾,其中gt h為被干擾門限[24]。通信用頻設備根據接收設備處是否能成功譯碼來判定用頻設備是否接入未被干擾的頻點。若用頻設備k接入頻譜態勢為vk, j,t=0的頻點,則rk,t=r1,用頻設備k接入頻譜態勢為vk, j,t=1的頻點,則rk,t=r2,其中r1和r2分別為用頻設備k成功接入未被干擾的頻點和未成功接入未被干擾的頻點的回報參數。

(4) 狀態轉移概率:當用頻設備k在t時隙的狀態sk,t下選取動作ak,t后獲得瞬時回報rk,t,狀態也由t時隙的sk,t轉移為t+1時隙的狀態sk,t+1,這個狀態轉移過程可以被條件概率P(sk,t+1,rk,t|sk,t,ak,t)所表示。用頻設備k所在的環境是動態未知的,因此用頻設備k不具有狀態轉移概率P(sk,t+1,rk,t|sk,t,ak,t)的先驗信息,而狀態轉移概率僅與外部環境有關。

在存在外部干擾的復雜電磁環境下,雷達通信一體化通信系統中用頻設備k旨在最大化累積折扣回報的期望,即最大化累積折扣用頻設備k接入未被干擾的頻點次數的期望:

(6)

式中,R為累積折扣回報的期望;λ為折扣系數。t時隙時,用頻設備k基于策略π來進行動作ak,t的選擇,其中策略π是一個從狀態空間S到動作空間A的映射,可以表示為π:sk,t∈S→ak,t∈A。因此,用頻設備k的目標為尋找滿足下述方程的最優策略π*:

(7)

式中,Eπ(·)為對策略π的期望;Rπ為策略π下的累積折扣回報的期望。

2 基于強化學習的抗干擾頻點分配算法

2.1 基于Q學習的抗干擾頻點分配算法

在本節中,首先介紹基于Q學習的抗干擾頻點分配算法,使用Q學習在未知動態的系統中獲得最佳的頻點分配策略,以最大化累積折扣瞬時回報的期望。

當用頻設備在給定的狀態-動作對的情況下根據策略選取相應的動作,狀態-動作值(Q值)被定義為累積折扣瞬時回報的期望。因此,在Q學習中的Q值為

(8)

將目標問題建模為馬爾可夫決策過程,而馬爾可夫決策過程的Q值滿足以下的bellman方程:

Qπ(sk,t,ak,t)=Eπ[r(sk,t,ak,t)+

(9)

式中,Eπ(·)是關于狀態轉移概率P(sk,t+1,rk,t|sk,t,ak,t)的期望。最優的Q值為

(10)

當得到了最優的Q值后,最優的策略為

(11)

也就是在最優策略下選取的動作是為了最大化長期累積的回報。

為了避免陷入局部最優,用頻設備使用貪婪算法來選擇t時隙的動作ak,t,由于基于貪婪算法的動作選擇策略會出現重復選擇被干擾頻點的問題,因此對貪婪算法進行了如下的改進。若狀態動作對(s,a)在之前的時隙被訪問,則將狀態動作(s,a)添加到集合M中,即(s,a)∈M。在t時隙時,用頻設備以概率1-ε隨機選取一個動作ak,t,若(sk,t,ak,t)?M,則用頻設備選擇隨機動作作為本時隙接入的頻點,若(sk,t,ak,t)∈M,則根據Q表選取當前狀態sk,t下,選擇Q值最大的動作作為本時隙接入的頻點。或者用頻設備以概率ε根據Q表選取當前狀態sk,t下,Q值最大的動作作為本時隙接入的頻點。動作ak,t的選取如下:

(12)

同時,若用頻設備k所在簇內存在兩個及以上的用頻設備時(即不同用頻設備的可用頻點有重合),簇內的簇頭將優先為雷達用頻設備分配頻點。

用頻設備k在t時隙接入動作ak,t選擇的頻點后,根據當前時隙的可用頻點的頻譜態勢(vk,1,t,…,vk, j,t),判斷當前時隙用頻設備k是否成功接入未被干擾的頻點,即用頻設備k的瞬時回報rk,t。之后用頻設備k在t+1時隙對本地的Q表進行更新,更新公式為

Qk,t+1(sk,t,ak,t)=(1-α)Qk,t(sk,t,ak,t)+

(13)

式中,t+1時隙用頻設備k的狀態sk,t+1=(vk,1,t,vk,2,t,…,vk, j,t,vk,1,t-1,vk,2,t-1,…,vk, j,t-1,vk,1,t+1-y,vk,2,t+1-y,…,vk, j,t+1-y);α為學習速率;λ為折扣系數。用頻設備通過不斷的訓練來得到最優的策略,基于Q學習的抗干擾頻點分配算法流程如下所示。

算法1基于Q學習的抗干擾頻點分配算法輸入:表Qk,t(s,a),用頻設備數目K和時隙t;對任意用戶k=1,2,…,K執行:步驟 1 用頻設備根據改進的貪婪算法選擇本時隙的動作ak,t;步驟 2 用頻設備k在接入選擇的頻點后,感知可用頻段并獲得當前時隙的頻譜態勢,之后獲得回報rk,t;步驟 3 t+1時隙用頻設備k根據式(13)對本地Q表進行更新輸出:動作ak,t和Q表Qk,t+1(s,a)。

2.2 基于核函數強化學習的抗干擾雷達-通信頻譜協同算法

在第2.1節中介紹了基于Q學習的抗干擾頻點分配算法,該算法通過找到最優策略來最大化長期折扣回報。大多數情況下,用頻設備的狀態空間和動作空間的維度隨可用頻點數呈指數型增長,基于Q學習的抗干擾頻點分配算法在面對上述問題時會陷入維度詛咒從而導致收斂時間過長等問題。

因此,當用頻設備的可用頻點數較大時,用頻設備的狀態空間和動作空間的維度過大,導致算法難以收斂。為了避免上述問題,在本節中使用基于核函數的方法來解決。使用非參數線性近似對狀態-動作值函數進行建模:

Qk,t(sk,t,ak,t)=

(14)

(15)

同樣的,為了避免陷入局部最優,用頻設備使用第2.1節所述的貪婪算法來選擇t時隙的動作ak,t。在t時隙時,用頻設備以概率1-ε隨機選取一個動作ak,t,若(sk,t,ak,t)?M,則用頻設備選擇隨機動作作為本時隙接入的頻點,若(sk,t,ak,t)∈M,則根據字典Dk,t選取當前狀態sk,t下,Q值最大的動作作為本時隙接入的頻點。或者用頻設備以概率ε根據字典Dk,t選取當前狀態sk,t下,Q值最大的動作作為本時隙接入的頻點。動作ak,t的選取如下:

(16)

(17)

若用頻設備k所在簇內存在兩個及以上的用頻設備時(即不同用頻設備的可用頻點有重合),簇內的簇頭將優先為雷達用頻設備分配頻點。

同樣的,用頻設備k在t時隙接入動作ak,t選擇的頻點后,感知當前時隙的可用頻點的頻譜態勢(vk,1,t,vk,2,t,…,vk, j,t),判斷當前時隙用頻設備k是否成功接入未被干擾的頻點,即用頻設備k的瞬時回報rk,t,之后用頻設備k更新本地字典Dk,t。字典Dk,t的更新分為兩部分,即更新字典中存儲的特征對應的權重系數和判斷當前特征是否需要加入字典。

在用頻設備k獲得的當前時隙的可用頻點的頻譜態勢(vk,1,t,vk,2,t,…,vk, j,t)和瞬時回報rk,t后,用頻設備對字典中對應特征的權重系數進行更新如下:

(18)

式中,αk,t=[αk,t,l];αk,t+1=[αk,t+1,l];λ為折扣系數;γ為學習速率。

由于使用非參數線性近似對狀態-動作值函數進行建模,如式(14)所示,字典Dk,t中的特征數目隨著時間的增加而增加,增加了算法計算的復雜度。因此,在不丟失重要信息的情況下控制字典Dk,t中的特征數目是至關重要的。在本節中使用了基于近似線性相關性(approximate linear dependence,ALD)分析的在線內核稀疏化方法[26],用于用頻設備k判斷t時隙的數據樣本的特征(sk,t,ak,t)是否需要加入字典Dk,t。

(19)

式中,α=[αk,t,l];μ為確定近似精度的參數。因此,合適的μ值可以在合理的近似精度范圍內,確保基于核函數抗干擾頻點分配算法的稀疏性。在內核矩陣

被定義之后,式(19)中的δt[27]為

δt=k((sk,t,i,ak,t,i),(sk,t,i,ak,t,i))-

(20)

因此,可以將δt與預設的精度閾值μ進行比較來更新字典,若δt≤μ,則字典不變,否則,將數據樣本特征添加到字典中。基于ALD的在線稀疏化方法的流程如下所示。

算法 2 基于ALD的在線稀疏化方法輸入;數據樣本特征(sk,t,ak,t),字典Dk,t和近似精度閾值μ; 計算δt: δt=k((sk,t,i,ak,t,i),(sk,t,i,ak,t,i))- kTk,t(sk,t,i,ak,t,i)Kk,tkk,t(sk,t,i,ak,t,i) if δt≤μ: Dk,t+1=Dk,t; else Dk,t+1=Dk,t ∪ (sk,t,ak,t);輸出:字典Dk,t+1。

通過上述的基于ALD的在線內核稀疏化方法,可以大幅降低基于核函數算法的計算復雜度和字典存儲成本,提高算法性能。

用頻設備在每個時隙t開始時分配一個頻點,不同用頻設備使用不同頻點。同時,用頻設備開始學習外部干擾源的干擾規律,至用頻設備處的頻點分配算法收斂;若在算法收斂之后,當前頻段干擾發生變化用頻設備繼續按照之前的頻點分配策略選擇頻點,進而用頻設備得到接入被干擾的頻點時的瞬時回報,這時啟動頻點分配算法重新進行學習,至用頻設備處的頻點分配算法重新收斂。基于核函數強化學習的抗干擾雷達-通信頻譜協同算法的流程如下所示。

算法 3 基于核函數強化學習的抗干擾雷達通信頻譜協同算法輸入:字典Dk,t,權重系數αk,t,時隙t和用頻設備數目K;步驟 1 對任意用戶k=1,2,…,K執行:步驟 1.1 用頻設備根據改進的貪婪算法選擇本時隙的動作ak,t;步驟 1.2 用頻設備k在接入選擇的頻點后,感知可用頻段并獲得當前時隙的頻譜態勢,之后獲得回報rk,t;步驟 1.3 根據下式對字典Dk,t中存儲特征的權重系數進行更新: αk,t+1=αk,t+γ(λmaxa{αTk,tk(sk,t+1,a)} -αTk,tk(sk,t,ak,t)+rk,t)k(sk,t,ak,t)步驟 2 用頻設備k基于ALD的在線稀疏化方法對字典進行更新;輸出:動作ak,t,字典Dk,t+1和權重系數αk,t+1。

3 仿真結果與分析

在本節中,通過仿真測試的方式,將提出的基于核函數強化學習的抗干擾雷達-通信頻譜協同算法與傳統的基于Q學習的抗干擾頻點分配算法進行對比評估。

基于第2節建立的系統模型,設定存在外部干擾的雷達通信一體化系統中共有K=5個用頻設備,用頻設備包括4個通信用頻設備和1個雷達用頻設備,第k=3個用頻設備為雷達用頻設備;雷達通信一體化系統中共有I=35個可用頻點,每個可用頻點帶寬為1 MHz,各個用頻設備可用頻段中可用頻點的數量為I5={4,6,6,4,4},其中雷達用頻設備(k=3)和通信用頻設備(k=2)之間的可用頻段存在重疊的部分,而其他用頻設備的可用頻段之間不存在重疊的部分;各個用頻設備可用頻段內單個頻點的帶寬Bk={1 MHz, 1 MHz, 2 MHz, 1 MHz, 1 MHz},即用頻設備3的可用帶寬為12 MHz,其中包括6個帶寬為2 MHz的可用頻點。對于上述系統模型,可以得到各個用頻設備的可用頻段以及鄰頻點起始的頻點號為{1, 7, 11, 25, 30}。同時,用頻設備2的3個可用頻點和1個鄰頻點與用頻設備3的1個可用頻點和1個鄰頻點重疊,如圖5所示。噪聲功率譜密度為-103 dBm,通信用頻設備接收端噪聲功率與信號功率的比值為1.5,單個時隙長度為T=0.1 s。

圖5 可用頻段示意圖Fig.5 Diagram of available frequency band

雷達通信一體化系統中存在U=1個對用頻設備未知的外部干擾源,外部干擾源對所有可用頻點進行掃頻干擾,干擾圖樣1和干擾圖樣2如圖6和圖7所示。基于核函數強化學習算法的相關參數如表1所示。

圖6 干擾圖樣1Fig.6 Interference pattern 1

圖7 干擾圖樣2Fig.7 Interference pattern 2

表1 參數列表

首先,將所提出的基于核函數強化學習的抗干擾雷達-通信頻譜協同算法與傳統的基于Q學習的抗干擾頻點分配算法進行性能對比。圖8為基于不同算法的用頻設備每個時隙接入被干擾的頻點的次數。從圖8(a)可以看出,在第25個時隙附近用頻設備可以完全避開外部干擾。從圖8(b)可以看出,在第180個時隙附近用頻設備可以完全避開外部干擾。因此,在上述所述的仿真場景中,所提算法通過學習可以更快地避開外部干擾,接入未被干擾的頻點。

圖8 用頻設備接入被干擾的頻點的次數Fig.8 Number of times the frequency equipment is connected to the interfered frequency point

之后對所提出算法和基于Q學習算法收斂情況進行了分析對比,如圖9~圖13所示,分別為基于兩種算法的用頻設備1~用頻設備5的收斂情況。可以看出,所提出算法可以在20個時隙左右收斂,基于Q學習算法在400個時隙左右收斂,因此所提算法較基于Q學習算法可以在更短的時間內收斂至穩定。

圖9 用頻設備1基于兩種算法的收斂情況Fig.9 Convergence of the two algorithms for frequency equipment 1

圖10 用頻設備2基于兩種算法的收斂情況Fig.10 Convergence of frequency equipment 2 based on two algorithms

圖11 用頻設備3基于兩種算法的收斂情況Fig.11 Convergence of frequency equipment 3 based on two algorithms

圖12 用頻設備4基于兩種算法的收斂情況Fig.12 Convergence of frequency equipment 4 based on two algorithms

圖13 用頻設備5基于兩種算法的收斂情況Fig.13 Convergence of frequency equipment 5 based on two algorithms

圖14和圖15對基于核函數強化學習的抗干擾雷達-通信頻譜協同算法每時隙頻點接入情況進行了分析。從圖14中可以看出,在最初的是10時隙中,用頻設備存在接入被干擾的頻點的情況;而從圖15中可以看出,當所提出的算法收斂后,可以在每個時隙避開外部的惡意干擾,并接入未被干擾的頻點。最后,對所提算法在存在不同干擾圖樣的情況下進行仿真分析。在前600個時隙內,外部干擾源選擇如圖6所示的干擾圖樣1對可用頻段進行干擾,在第600個時隙時外部干擾源更換干擾圖樣,根據如圖7所示的干擾圖樣2對可用頻段進行干擾。

圖14 所提算法收斂前每時隙頻點接入情況Fig.14 Frequency access per slot before convergence of the proposed algorithm

圖15 所提算法收斂后每時隙頻點接入情況Fig.15 Frequency access per slot after convergence of the proposed algorithm

圖16和圖17對基于核函數強化學習的抗干擾雷達-通信頻譜協同算法在干擾圖樣變化前后每時隙頻點接入情況進行了分析。從圖16和圖17中可以看出,在外部干擾發生變化的前后,用頻設備均可以接入未被干擾的頻點。圖18為基于所提出算法的用頻設備每個時隙接入被干擾的頻點的次數。由圖16和圖17可知,外部干擾源在第600個時隙的干擾模式由干擾圖樣1變更為干擾圖樣2,因此從圖18中可以看出,在干擾模式變換后用頻設備重新對干擾圖樣進行學習,并且所提出的算法可以快速收斂,因此用頻設備可以快速避開外部干擾,接入未被干擾的頻點。

圖16 所提算法在干擾變化前每時隙頻點接入情況Fig.16 Frequency point access of each time slot before interference changes in the proposed algorithm

圖17 所提算法在干擾變化后每時隙頻點接入情況Fig.17 Frequency point access of each time slot after interference changes in the proposed algorithm

圖18 用頻設備接入被干擾頻點的次數Fig.18 Number of times for the user accesses the interfered frequency point

4 結 論

針對存在未知干擾源的系統,對雷達通信一體化系統的抗干擾頻譜協作問題進行探索與研究,旨在最大化用頻設備接入未被干擾頻點的期望。通過與基于Q學習的抗干擾頻點分配算法的仿真結果進行對比,所提算法通過基于核函數的方法和基于近似線性相關性分析的在線內核稀疏化方法,共同降低了所提算法的收斂時間,同時避免出現維度詛咒等問題。所提算法可以在較短時間內收斂,同時快速規避外部未知干擾源的干擾,并在外部干擾源干擾圖樣發生變化時,重新對外部干擾源進行學習。所提算法實現了在干擾源未知的情況下,用頻設備對外部干擾的規避和干擾規律的學習。

猜你喜歡
動作設備
諧響應分析在設備減振中的應用
下一個動作
基于VB6.0+Access2010開發的設備管理信息系統
基于MPU6050簡單控制設備
電子制作(2018年11期)2018-08-04 03:26:08
動作描寫要具體
畫動作
讓動作“活”起來
動作描寫不可少
500kV輸變電設備運行維護探討
工業設計(2016年12期)2016-04-16 02:52:00
非同一般的吃飯動作
主站蜘蛛池模板: 亚洲无线一二三四区男男| 永久免费无码日韩视频| jizz在线观看| 久久五月视频| 日韩精品亚洲精品第一页| 一本久道热中字伊人| 国产99热| 色亚洲激情综合精品无码视频 | 91精品国产情侣高潮露脸| 无码久看视频| 一级香蕉视频在线观看| 国产精欧美一区二区三区| 欧美区国产区| 久久久久久久蜜桃| 免费国产小视频在线观看| 在线观看av永久| 99久久婷婷国产综合精| 好久久免费视频高清| 婷婷六月综合网| 国产黄网永久免费| 久久国产高清视频| 国产成人亚洲精品色欲AV| 国产精品19p| 亚洲国产精品一区二区高清无码久久| 色偷偷一区二区三区| 亚洲欧美一区在线| 最新国产成人剧情在线播放 | 中文字幕人妻av一区二区| 免费无码网站| 青青草原国产| 国产成人精品在线| 67194在线午夜亚洲| 中文字幕亚洲综久久2021| 国产在线小视频| 香蕉网久久| 美女啪啪无遮挡| 91 九色视频丝袜| 四虎AV麻豆| 美女扒开下面流白浆在线试听| 99re经典视频在线| 香蕉伊思人视频| 欧美在线精品一区二区三区| 亚洲欧美一区二区三区图片| 欧美成人影院亚洲综合图| 亚洲精品国产综合99| 精品一区二区三区中文字幕| 天堂成人av| 精品国产电影久久九九| 国内精品免费| 五月天丁香婷婷综合久久| 国产91在线|中文| 欧美午夜久久| 国产哺乳奶水91在线播放| 老色鬼久久亚洲AV综合| 久久国产精品影院| 久久成人国产精品免费软件 | 蜜臀AV在线播放| 亚洲av日韩综合一区尤物| 伊人色天堂| 成人精品区| 日韩欧美在线观看| 日本高清免费一本在线观看 | 国产成人精品一区二区| 亚洲人成电影在线播放| 青草视频在线观看国产| 污网站免费在线观看| 欧美亚洲一区二区三区在线| 国产高潮流白浆视频| 精品国产免费观看一区| 91年精品国产福利线观看久久 | 一级看片免费视频| 国产精品亚洲五月天高清| 99久久人妻精品免费二区| 综合天天色| 伊人中文网| 成人午夜福利视频| 综1合AV在线播放| 99ri精品视频在线观看播放| 午夜老司机永久免费看片| 青青操国产| 在线观看国产精品日本不卡网| 国产毛片不卡|