999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的跳頻抗干擾系統設計

2023-08-16 05:01:00鄒雯雯
無線互聯科技 2023年11期
關鍵詞:策略

鄒雯雯

(河南農業大學 機電工程學院,河南 鄭州 450003)

0 引言

在移動互聯網時代,無線通信成為日常工作和學習的重要工具。 但信號在傳輸過程中有可能被竊聽、截獲,甚至受到人為攻擊。 干擾機可向信號接收方發送干擾信號,進而引起較高的誤碼率,降低通信質量和用戶體驗。 傳統的跳頻抗干擾系統面臨較為嚴峻的技術挑戰,其主要問題在于缺乏主動規避干擾信號的能力,因此優化跳頻抗干擾系統的算法成為解決問題的關鍵。

1 跳頻抗干擾系統的應用場景、通信模式及缺點

1.1 跳頻抗干擾系統的應用場景

跳頻抗干擾通信系統的應用場景可簡化為如圖1 所示,正常情況下由發射機向接收機發送無線通信信號,但干擾機也能接收同類信號,同時向接收方發送干擾信號,接收機獲取信號后需進行解碼處理,干擾信號會導致其誤碼率上升。 此處的干擾機用于代表各類人工干擾方式,如主動攻擊、竊聽等。

圖1 跳頻抗干擾系統的通信應用場景

1.2 跳頻抗干擾系統的通信模式及缺點

1.2.1 通信模式

跳頻通信是指發射方和接收方按照相同的頻點序列發送和接收信息,頻點之間呈正交關系。 進入通信模式后,雙方必須同時選擇同一個頻點,經過時間τ 后,跳轉至另一個頻點(也可以繼續在原頻點通信)。 跳頻技術的應用顯著地提高了通信抗干擾能力,但這種通信技術不能完全避免外部干擾,仍然有部分干擾方式能夠對其發揮作用。

1.2.2 缺點分析

假設發射機和接收機在K 個頻點上進行跳頻通信,將頻點編號為0,1,2…(K-1)。 線性掃頻干擾方式能夠在0~(K-1)隨機選擇一個頻點實施干擾,每經過時長τ 后,增加一個新的干擾頻點,擴大干擾范圍,這一過程稱為線性掃頻。 隨機周期干擾也能影響跳頻通信技術的性能,這種干擾方式在K 個頻點范圍內隨機選擇G 個頻點(G

2 基于強化學習的跳頻抗干擾系統優化設計方法

2.1 強化學習的理論基礎

2.1.1 基于馬爾可夫性的強化學習模型基礎

馬爾可夫性在概率論中具有重要的應用,其含義為一個隨機過程在未來狀態的概率分布情況僅取決于當前狀態,隨機過程中已經產生的歷史狀態不影響未來的概率分布。 基于強化學習的跳頻抗干擾系統符合這一特點,將跳頻抗干擾模型的通信狀態表示為si,j,其中i 表示發射機和接收機的通信時隙,j 表示通信時的頻點,此時馬爾可夫性可表示為:

式中,St=si,j。 從表達式可知,概率分布P 與通信狀態St和St+1有關。

研究中提出的跳頻抗干擾模型基于馬爾可夫性原理進行通信決策,其中包括5 個參量,可記為M=R,A,P,S,γ,參量的含義按照M 中的順序分別為收益函數、選擇下一個通信頻點的決策行為、通信頻點發生遷移的概率、當前的通信狀態信息、衰減系數[2]。

2.1.2 強化學習的實現機制

強化學習的根本目標是解決傳統跳頻抗干擾通信模式缺乏干擾識別能力和應變能力的問題,因此其實現機制的核心工作是形成具有識別能力的跳頻通信決策(記為π),以當前的通信狀態s 為根據,在決策π 的作用下,產生通信決策行為a,這一過程可表示如下:

式中,s 和a 分別表示S 和A 在時刻t 的取值。顯然,a 和s 能夠顯著地影響決策π,可通過狀態值函數Vπ(S)和行為值函數Qπ(s,a)迭代計算π,s,a 之間的關系。

2.2 蒙特卡洛法優化跳頻抗干擾系統

蒙特卡洛法利用統計學原理模擬復雜問題,其特點為通過反復抽樣,逐漸逼近實際情況,反映客觀規律。 該方法能夠提高跳頻抗干擾系統通信模型的精確度,在具體實施過程中對歷史通信數據進行采樣,再實施統計學模擬,最終形成通信軌跡,該軌跡反映了信息發射方、接收方在各個通信時隙的決策動作。蒙特卡洛法的實施不依賴通信模型,而是利用貝爾曼期望方程進行模擬和近似,進而實現通信決策的收益最大化。

2.2.1 蒙特卡洛法優化跳頻抗干擾系統的基本原理

當跳頻抗干擾系統采取決策π 時,當前時刻t 的狀態為s,將對應的期望回報記為Gt,狀態值函數Vπ(S)可描述這一過程。 同樣的,在決策π 背景下,行為值函數Qπ(s,a)表示狀態s 對應決策行為a 的期望回報。

式中,Gt表示期望回報。 蒙特卡洛法的主要作用是代替以上兩個函數中的期望計算過程,以大量的統計學模擬獲得各個通信狀態的平均值,形成多種通信軌跡。 在蒙特卡洛法的支持下,每個狀態對應的行為值函數均可計算出具體的結果,通過對比即可確定最優的通信策略。 為了達到全局層面的最優決策,就要使用強化學習,探索各種通信狀態。 此時,經過蒙特卡洛法優化的跳頻抗干擾決策可表示為:

式中,M 表示決策動作的數量,ε 代表選擇某個決策動作的概率。

2.2.2 基于蒙特卡洛法的兩種強化學習模型

基于蒙特卡洛法的強化學習對數據提出了較高的要求,根據數據的來源,可將強化學習分為在線和離線兩種模式。

(1)在線蒙特卡洛強化學習。

在線強化學習中,將干擾信號表示為時頻矩陣,記為J,以便開展數學運算;將通信狀態表示為集合S,決策動作形成的空間記為A。 對行為值函數和策略π 進行初始化,利用蒙特卡洛法實施迭代運算,策略π 每做出一次跳頻選擇,即可得到一個確定的決策動作,記為ai,所有動作形成決策軌跡T,則有T={a1,a2…aT}。在過程中對每個時隙τt對應的收益Gt、行為值函數Q(s,a)以及決策π進行同步更新,最終得到最優決策π?[3]。 在這種學習模式下,決策π負責在線數據采集,因而數據采集策略也同步得到更新。

(2)離線蒙特卡洛強化學習。

離線蒙特卡洛法的實施過程與在線法基本一致,主要區別為數據采集策略與算法中優化的決策π 不同。 這種學習模型為數據采集設計了專門的行為策略,而蒙特卡洛法持續優化的策略稱為原始策略,兩種策略可分別記為π 和π′。 相比于在線蒙特卡洛法,離線方式存在一定的性能優勢,降低了策略選擇的隨機性,其每次優化的決策π′都是對應狀態的最優策略。

2.3 時序差分法優化跳頻抗干擾系統

2.3.1 不同強化學習方式的對比

為了獲得最佳的強化學習方法,研究中需對比不同學習路徑的優劣性。 除了利用蒙特卡洛法開展強化學習外,還可使用動態規劃法和時序差分法。 表1總結了3 種學習方法的特點,既有共性,也有差異,其根本原因在于3 種方法的值函數計算方式不同。 蒙特卡洛法在值函數原始定義的基礎上,通過大量的采樣和模擬進行更新,且只有采樣獲得完整的軌跡后才能更新。 動態規劃法和時序差分法在更新方式上類似,都采用了自舉。 另外,3 種學習算法對馬爾可夫性的適用性有所差異,蒙特卡洛法可用于處理無馬爾科夫特性的問題,另外兩種算法則適用于存在馬爾科夫特性的問題[4]。

表1 3 種強化學習算法的特點

2.3.2 基于在線時序差分法的強化學習

假設跳頻抗干擾系統當前的狀態為S,按照策略π 做出選擇,產生行為A,同時得到了狀態行為值Q(S,A)和收益R。 完成第一次選擇后狀態發生了變化,將新的狀態記為S′,繼續進行決策,于是產生了與S′對應的A′,R′及Q(S′,A′)。 基于在線時序差分法的強化學習能夠以較高的頻率更新策略,達到收斂的耗時比蒙特卡洛法更短。 該方法的優化路徑如下[5],在算法中輸入干擾時頻矩陣J、動作空間A 以及狀態集合S,對行為值函數Q(S,A)和原始策略π 進行初始化,利用在線時序差分法開展迭代計算,在策略π的作用下產生第一個動作a,形成行為狀態對(s,a),持續按照這一模式進行更新迭代,產生最優策略π?。

2.3.3 基于離線時序差分化的強化學習

離線時序差分法的實施步驟與在線時序差分法基本相同,區別在于狀態行為值函數的更新公式,Qlearning 算法可用于離線時序差分中的Q(st,at) 更新,該算法的公式如下:

式中,a′表示時刻t+1 時選擇的行為,其對應的策略為π′。

2.4 仿真模擬

利用MATLAB 軟件模擬上文設計的強化學習算法模型,對跳頻抗干擾系統分別實施隨機干擾和線性掃頻干擾,如表2 所示為仿真模擬的數據。 在隨機干擾模式下,基于離線蒙特卡洛法的強化學習算法未能完成收斂,另外3 種學習算法均能完成收斂,在線蒙特卡洛法的收益最高,但3 種可收斂算法的收益較為接近,離線時序差分法達到收斂所需的迭代次數最少,明顯優于在線時序差分法和在線蒙特卡洛法,說明其在實際應用中具有更高的運行效率,有利于提高通信速度。 在線性掃頻干擾模式下,4 種算法都能實現收斂,從最佳收益來看,在線時序差分法效果最佳,但達到收斂所需的迭代次數也最高,剩余3 種算法的迭代次數較為接近,都在180 次左右。

表2 算法仿真結果

為了提高算法模擬的可靠性,多次開展試驗,將總迭代次數提升至8 萬次。 在隨機干擾模式下,離線時序差分法的平均收斂迭代次數為98 次,離線蒙特卡洛法為209 次,在線蒙特卡洛法為402 次,反映出離線時序差分法的效率優勢。 在線性掃描模式下,同樣開展多次仿真試驗,總迭代次數達到8 萬次,計算每種強化學習算法達到收斂的平均迭代次數,收斂最快的為離線蒙特卡洛法,迭代次數為204 次,剩余3 種算法的收斂迭代次數在400 次左右。 總體而言,利用蒙特卡洛法和時序拆分法能夠提升跳頻抗干擾系統的性能,使其能夠主動規避隨機干擾和線性掃描干擾。

3 結語

在跳頻抗干擾系統中引入強化學習算法的目的是提高其對部分干擾信號的識別和規避能力,防范重點為隨機干擾、線性掃描干擾。 研究過程以蒙特卡洛法和時序差分法為基礎,分別構建在線蒙特卡洛強化學習算法、離線蒙特卡洛強化算法、在線時序差分強化學習算法以及離線時序差分強化學習算法。 對比分析4 種算法的特點,通過MATLAB 仿真試驗對其抗干擾性能進行檢驗。 結果顯示,在線性掃頻干擾模式下,算法均能完成收斂,在線時序差分法性能表現最佳。 在隨機干擾模式下,只有離線蒙特卡洛法未完成收斂,其余算法在性能上基本一致。 下一步需提高仿真檢驗的規模,取多次試驗的平均值,觀察算法性能表現上的差異性。

猜你喜歡
策略
基于“選—練—評”一體化的二輪復習策略
幾何創新題的處理策略
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
“我說你做”講策略
數據分析中的避錯策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
“唱反調”的策略
幸福(2017年18期)2018-01-03 06:34:53
價格調整 講策略求互動
中國衛生(2016年8期)2016-11-12 13:26:50
主站蜘蛛池模板: 国产乱人伦AV在线A| 福利在线免费视频| 欧美成人免费一区在线播放| 成人av手机在线观看| 日韩不卡高清视频| 国产精品刺激对白在线| 国产综合亚洲欧洲区精品无码| 美女视频黄频a免费高清不卡| 九九热视频在线免费观看| a毛片免费观看| 国产成人AV综合久久| 精品国产黑色丝袜高跟鞋| AⅤ色综合久久天堂AV色综合| 欧美成人精品一区二区| 欧美特黄一免在线观看| 国产成人永久免费视频| 欧美成人怡春院在线激情| 久久这里只有精品8| 久久精品视频一| 精品福利国产| 亚洲国产一区在线观看| 欧美日韩国产高清一区二区三区| 无套av在线| jizz亚洲高清在线观看| 亚洲色图欧美在线| 性欧美在线| 她的性爱视频| 日本高清在线看免费观看| 久久精品嫩草研究院| 性欧美在线| 亚洲欧美成人综合| 伊人中文网| 亚洲精品无码高潮喷水A| 国产尤物视频在线| 国产极品美女在线| 久久久国产精品无码专区| 欧美日韩一区二区在线免费观看 | 国产成人高清亚洲一区久久| 99re热精品视频中文字幕不卡| 国产啪在线91| 国产免费a级片| 一级成人a毛片免费播放| 亚洲成人黄色在线观看| 中文字幕有乳无码| 日本中文字幕久久网站| 色哟哟国产成人精品| 午夜国产理论| 成人国产精品一级毛片天堂 | 91人妻日韩人妻无码专区精品| 国产精品偷伦在线观看| a级毛片在线免费| 最新国产精品鲁鲁免费视频| 久久精品视频一| 亚洲系列无码专区偷窥无码| 国产自在线拍| 她的性爱视频| 久久www视频| 久久黄色免费电影| 波多野结衣久久精品| 伊人中文网| 午夜福利无码一区二区| 国产区免费| 国产97公开成人免费视频| 国产视频a| 久久久成年黄色视频| 欧美一级在线播放| 狠狠亚洲婷婷综合色香| 5388国产亚洲欧美在线观看| 一级香蕉视频在线观看| 刘亦菲一区二区在线观看| 欧美色香蕉| 色噜噜中文网| 九色综合视频网| 综合亚洲色图| 幺女国产一级毛片| a级高清毛片| 无码精油按摩潮喷在线播放| 欧美精品亚洲日韩a| 欧美在线三级| 色婷婷亚洲十月十月色天| 国产精品私拍在线爆乳| 亚洲综合色婷婷中文字幕|