999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于快速強化學習的無線通信干擾規避策略

2022-11-29 10:59:40趙肖迪趙海濤魏急波
電子與信息學報 2022年11期
關鍵詞:動作策略

李 芳 熊 俊* 趙肖迪 趙海濤 魏急波 蘇 曼

①(國防科技大學電子科學學院 長沙 410073)

②(湖南大學電氣與信息工程學院 長沙 410082)

③(北京跟蹤與通信技術研究所 北京 100094)

1 引言

無線通信信道的開放性使其更容易受到未知干擾攻擊,對正常通信構成威脅,因此抗干擾技術得到了廣泛的研究[1,2]。抗干擾技術主要是通過頻譜感知方式[3]檢測干擾信息,并根據自身通信狀態進行干擾規避和對抗的過程,從而改善通信效率。干擾規避常用技術主要包括跳頻 (Frequency Hopping,FH)、傳輸速率自適應 (Rate Adaptive, RA)、功率控制等。如果干擾規律已知且恒定,可以使用監督學習進行訓練,得到特定的策略進行規避。但是一般無線環境中干擾規律未知且動態變化,預先制定好的規避策略難以適應環境變化。當干擾變化時原策略可能失效,無法采用監督學習制定策略來優化通信性能,需要探索更加有效的干擾規避算法。

在時域和頻域都動態變化的通信環境中,業界通常利用強化學習 (Reinforcement Learning, RL)與環境進行交互獲得學習經驗來優化干擾規避策略[4],從而達到規避干擾的目的。近年來,許多學者將動態頻譜接入 (Dynamic Spectrum Access,DSA) 和Q學習進行結合,提出了多種有效的智能抗干擾方法。文獻[5,6]將信道選擇問題建模為馬爾可夫決策過程 (Markov Decision Process, MDP),提出了一種智能選擇最優信道的實時強化學習算法(即Q學習),從而選擇條件較好的信道進行數據傳輸來主動避免信道擁塞。在文獻[7]中,應用極小極大-Q原理來確定用于傳輸數據信道的數目,并確定了如何在不同信道之間進行信道切換的方案以規避干擾。文獻[8]在多信道動態抗干擾博弈中,基于強化Q學習技術提出了一種最優的信道接入策略。此外,在認知無線網絡(Cognitive wireless Network,CRN)場景中,文獻[9]提出的基于策略同步Q學習的信道分配策略主動避免了網絡中的信道擁塞問題。然而,以上算法均只采用信道切換進行躲避干擾,顯然頻繁的信道切換會增大系統開銷,并不能帶來整體性能的提升,因此需要考慮其他方式來進行躲避干擾,完成正常通信。

隨著通信設備的更新換代,越來越多的通信設備開始具有切換通信頻率和調節發射功率的能力[10]。文獻[11]首次研究了多用戶場景下同時進行信道選擇和功率分配決策的協作抗干擾問題,并將該問題建模為一個多主一從的Stackelberg博弈過程。文獻[12,13]提出的零和博弈研究了跳頻和傳輸速率控制,通過聯合優化跳頻和傳輸速率自適應技術來避免干擾。無線通信系統中的發送機通過改變其信道、調整其速率或同時改變這兩種方式來避開干擾,以提高系統的平均吞吐量,但該文獻僅對反應式掃頻干擾這一種干擾模式做出了分析,并不適用于多種干擾環境。而文獻[14]則將上述決策問題描述為一個馬爾可夫決策過程,提出了一種基于深度強化學習(Deep Reinforcement Learning, DRL)的抗干擾算法,該算法可以同時對通信頻率和功率進行決策,但是該算法并沒有考慮信道切換的代價,不能從多方面說明算法的優勢。基于Q學習的2維抗干擾移動通信方案[15]為每個狀態策略保留Q函數,用于選擇發射功率和接入信道,但是狀態空間維度過大會造成Q學習的學習速度降低,難以適應動態變化的無線通信環境。

針對動態變化的干擾環境,干擾規避策略不僅需要考慮通信信道的接入和發射功率控制,還應該考慮算法收斂速度以快速適應環境變化。考慮這一聯合優化目標,本文將動態變化環境中的干擾規避問題建模為一個馬爾可夫決策過程,提出了一種贏或學習快速策略爬山 (Win or Learn Fast Policy Hill-Climbing, WoLF-PHC)的干擾規避方法,本方法使用“贏或快學習”準則以及可變的學習率,從而更快地實現最優的干擾規避策略。本文主要的研究工作如下:

(1) 首先基于實際無線通信環境,建立2維時頻域的經典干擾模型,比如掃頻干擾、隨機干擾、跟隨式干擾、貪婪隨機策略干擾,用于后續仿真驗證。

(2) 然后將干擾環境下的接入信道和發射功率控制問題建模為一個馬爾可夫決策過程,分別給出狀態、動作、轉移概率和獎勵4個元素,并將其定義為一個4元組(S,A,p,R)。

(3) 介紹傳統Q學習算法,接著提出一種基于WoLF-PHC學習的快速干擾規避算法。

(4) 將所提的WoLF-PHC算法與傳統Q學習和隨機策略進行仿真對比,驗證了所提WoLF-PHC算法性能最佳。

2 系統模型及問題描述

2.1 干擾模型

為了模擬無線通信環境中的未知干擾,干擾機在每個時隙隨機選擇干擾信道并發送特定干擾功率的干擾信號,以惡化或中斷正在進行的通信鏈路。本文考慮4種干擾模型[15]場景,分別為掃頻干擾、貪婪隨機策略干擾、跟隨式干擾、隨機干擾。具體定義如下:

(1) 掃頻干擾:每個時隙干擾m個信道,總信道數M為m的整數倍,掃頻周期即為T=M/m。例如,在第1個掃描周期先產生一個隨機序列[3,5,1,4,2,6], 即第1個時隙干擾信道[f3,f5],第2個時隙干擾信道[f1,f4], 第3個時隙干擾信道[f2,f6]。當一個掃頻周期結束之后,繼續重復上一個周期的干擾策略。

(2) 貪婪隨機策略干擾:每個時隙隨機選擇干擾信道,使用P0=1?ε的概率干擾相同信道,P1=ε的概率隨機干擾新信道。假設每個時隙生成一個( 0,1) 的 隨機數,如果這個隨機數小于ε,則隨機干擾一個新信道,如果這個隨機數大于ε,那么繼續干擾原信道。

(3) 跟隨式干擾:根據正在進行通信的信道來選擇干擾策略。即干擾上一時隙通信所采用的信道,上一時隙通信采用哪個信道,當前時隙就干擾哪個信道。

(4) 隨機干擾:每個時隙隨機選擇信道和干擾功率進行干擾。

2.2 問題分析與建模

如圖1所示,考慮無線通信環境中,存在發送機、干擾機、接收機。設信道增益為1,發送信號為x(t),噪聲為n(t),干擾信號為z(t),那么接收信號y(t)為

圖1 系統模型

假設該系統中發送機的發射功率集合為PU={pu1,pu2,...,pui,...,puL},pui表示可供選擇的發射功率大小,共有L種發射功率。第k個時隙所使用的發射功率記為,∈PU。干擾功率集合設為PJ={pj1,pj2,...,pji,...,pjW},pji表示可供選擇的干擾功率大小,共有W種發射功率。第k個時隙干擾功率記為,∈PJ, 噪聲功率為σ2。利用頻譜感知算法[3],我們可以獲得未知環境下的干擾信息(即干擾所占信道和干擾功率)。基于這一干擾信息,發送機需要選擇合適的信道和發射功率使接收信號達到一定的信干噪比,完成正常解調達到正常通信的目的。發送機應盡量減少信道的切換和發射功率,以達到較少開銷的目的。這里引入信道切換代價和功率來衡量系統開銷。所謂信道切換代價,即為后一時隙與前一時隙選擇的通信信道不同時,進行信道切換所帶來的代價;而功率代價,即為所使用的發射功率越大,成本越大。因此,在未知且動態變化的干擾環境中,發送機應需要盡量減少信道切換和發射功率的代價,同時還要規避干擾,從而完成正常通信。

本文將未知環境下發送機選擇信道和功率控制過程建模為一個馬爾可夫決策過程 (Markov Decision Process, MDP)[6]。MDP為尋找最優策略提供了數學模型,在描述MDP時,通常采用狀態、動作、轉移概率和獎勵這4個元素,并將其定義為一個4元組(S,A,p,R)。 其中,狀態空間S和動作空間A是離散的,由于本文的下一狀態由當前動作確定,所以狀態轉移概率為確定值,記為p:S×S×A →[0,1],表示給定當前狀態sk ∈S下選擇動作ak ∈A轉移到下一狀態sk+1∈S的概率。本文的MDP模型具體如下:

(1) 狀態:定義第k個時隙的狀態為sk=(),其中∈{1,2,...,M},前者表示當前時隙選擇的通信信道,后者表示當前時隙干擾所占用的信道,設狀態空間為S。

(2) 動作:定義在第k個時隙用戶采取的動作為ak=(), 其中∈{1,2,...,M},∈PU。為第k+1個時隙用戶選擇的通信信道,為第k+1個時隙用戶采用的發射功率,動作空間大小為M×L, 記為A。

(3) 獎勵函數:當用戶在sk狀態執行動作ak時,會獲得相應的獎勵值Rk。這里定義第k個時隙的信干噪比 (Signal to Interference plus Noise Ratio, SINR)為

在學習過程中,用戶不斷與環境交互,探索干擾的變化規律,從而獲得最優的傳輸策略。本文的系統目標是優化用戶的傳輸策略π,使系統的長期累積收益最大化,因此系統優化問題可以建模為其中,γ (0<γ≤1)為折扣因子,表示未來收益對當前收益的重要程度。

由于問題式(4)被建模為馬爾可夫決策問題,可以采用Q學習方法與環境進行實時交互,根據選取動作得到下一時隙的反饋獎勵值,并不斷更新2維Q矩陣來實現抗干擾策略的優化。下面將介紹傳統Q學習算法,并對該算法的現有缺陷進行分析,進而提出一種基于WoLF-PHC的快速強化學習算法。所提算法在未知干擾模型且干擾動態變化的情況下,不僅能保持Q學習的性能,而且能快速學習干擾變化規律并獲得最優規避策略,在隨機干擾的情況下也能保證收斂。

3 基于快速強化學習的干擾規避算法

3.1 傳統Q學習算法

采用Q學習的方法來解決MDP問題的主要思想是將狀態和動作構建成一張2維Q表來存儲Q值,然后根據Q值來選取能夠獲得最大收益的動作。Q表中的元素即Q(s,a),表示在某一時隙的s狀態下(s∈S),采取動作a(a∈A)后預計能夠得到的累計獎勵值。在第k個時隙的狀態s下采取動作a,更新的Q函數為[6,12]

其中,sk,ak分別表示當前的動作和狀態,α ∈(0,1]表示學習率,γ ∈(0,1]表 示折扣因子,Rk代表在sk狀態執行動作ak時(獲得的)獎勵值。Qk(sk,ak)為當前的Q值,Qk+1sk,ak則表示更新后的Q值。maxaQk(sk+1,a) 表示下一個狀態所有Q值中的最大值。

在基于Q學習的選擇策略中,如果用戶總是選擇Q值對應最大的動作,算法容易陷入局部最優,因此可以采用貪婪策略選擇動作。在貪婪選擇動作的過程中,產生一個[ 0,1]的隨機數,如果該數小于ε,則隨機采取一個動作,否則選擇Q值最大對應的動作。貪婪策略[16]定義為

基于Q學習的功率和信道選擇策略具體步驟如表1所示。

表1 基于Q學習的功率和信道選擇策略

Q學習采用恒定的學習率,收斂速度較慢。根據后面仿真結果圖2(d)可知,針對隨機策略的干擾該算法不一定達到收斂。在實際無線通信場景中,很難預知干擾的動態變化情況。可見,傳統Q學習算法并不適用于所有環境。為此,本文提出了一種新的WoLF-PHC算法,其采用可變的學習率使用戶加快學習,并且根據贏或快學習(Win or Learn Fast, WoLF)準則保證了算法的收斂性。

圖2 不同干擾環境下的算法性能

3.2 WoLF-PHC算法

贏或學習快速策略爬山(WoLF-PHC)[17]是將“贏或快學習” (WoLF)規則與“策略爬山法”(Policy Hill-Climbing, PHC)相結合的一種學習算法。其中PHC算法是Q學習的簡單擴展,通過學習率δ ∈(0,1)逐步增大選擇最大行為值(即Q值)的概率來改進策略。當δ= 1時,該算法等效于Q學習算法。該算法中,Q函數的更新規則與Q學習算法中的更新規則相同,即式(5)所示。然而,面對隨機策略干擾,PHC算法依然無法收斂。因此,文獻[16]進一步引入了WoLF算法以確保算法收斂。當用戶當前“贏”時,緩慢調整學習速率,當用戶“輸”時,加快學習速率,這樣使得PHC算法能夠收斂到納什 均 衡。當 前 策 略π(s,a) 和 平 均 策 略πˉ (s,a)之 間 的差異可以作為判斷算法輸或贏的標準。為了計算平均策略,引入C(s) 表 示當前狀態s出現的次數,平均策略的規則為

當前策略π(s,a)的 初始值為1 /|A|,|A|為動作空間的長度。如果選擇最大Q值的動作,則當前策略增加一個值;而選擇其他動作則減去一個值。當前策略的更新規則可表示為

其中

基于WoLF-PHC學習的功率和信道策略具體步驟如表2所示。

表2 基于WoLF-PHC學習的功率和信道選擇策略

4 仿真分析

本節主要基于所提WoLF-PHC算法、Q學習算法以及隨機策略進行信道和發射功率的選擇,并對這3種算法進行仿真分析對比。其中,隨機策略是根據上一時隙的感知結果,下一時隙隨機選擇上一時隙未受干擾的信道和干擾功率。在仿真過程中,首先在頻譜感知信息完全正確的情況下,研究了算法的收斂性并對其進行性能評估。其次,在頻譜感知結果存在誤差的情況下,對算法的魯棒性能進行分析討論。仿真參數如表3所示。

表3 仿真參數

如圖2所示,本文針對掃頻干擾、貪婪隨機策略干擾、跟隨式干擾、隨機干擾4種典型干擾場景進行性能分析。假設一共有M=6個頻率不重疊的通信信道,縱坐標表示信道,橫坐標代表時隙。實心色塊代表當前時隙存在干擾的信道,顏色深淺代表干擾功率的大小,顏色越深代表功率越大,白色代表當前時隙無干擾且不被占用的通信信道,網格塊代表當前時隙正在通信的信道。其中,圖2(a)表示掃頻周期為T=3 ,每個時隙存在m=2個信道的掃頻干擾;圖2(b)為貪婪概率為ε= 0.2的貪婪隨機策略干擾;圖2(c)為跟隨式干擾,當第1個時隙選取f5信道進行通信時,在第2個時隙就干擾f5信道;圖2(d)為隨機干擾。

4.1 頻譜感知結果完全正確的性能分析

為了對系統一段時間的性能進行統計,仿真過程中在每50個時隙內累積并統計一次獎勵值。假設歷史干擾檢測所占用的信道和干擾功率完全正確,由圖3(a)—圖3(c)可知,當經歷一段時間后,每種干擾模型下所得到的累積獎勵值能夠趨于穩定,可見算法具有收斂性。此外,還可以觀察到WoLFPHC比Q學習能更快地達到收斂,這說明該算法能夠快速地學習干擾規律并迅速適應環境,采取最優策略使用戶完成通信。在算法收斂后,WoLFPHC和Q學習的性能相近,而隨機策略性能相比這兩者差很多。而由圖3(d)所示,針對隨機干擾,Q學習最終不能達到收斂,WoLF-PHC依然可以快速收斂。所以由仿真結果可知,在歷史頻譜感知結果完全正確的情況下,WoLF-PHC比Q學習可以獲得更快的收斂速度,且性能也略優于Q學習,遠好于隨機策略。

圖3 4種典型干擾模型

4.2 頻譜感知結果存在誤差的性能分析

圖4表示在掃頻干擾的環境下,WoLF-PHC算法基于不同誤檢概率下的干擾規避性能,其中p表示感知干擾所占信道錯誤的概率。由圖4可以看出,當頻譜感知結果存在誤差時會對所提的干擾規避算法產生一定的影響。當頻譜感知完全正確的情況下,干擾規避的性能優于頻譜感知存在錯誤的情況,而且誤檢概率越大,干擾規避性能會越差,但隨著時間的推移,不同誤檢概率的干擾規避性能幾乎相近。而且,所提WoLF-PHC算法仍然能夠實現收斂,對頻譜感知誤差具有一定的魯棒性。

圖4 頻譜感知誤差對所提干擾規避算法的影響

5 結論

本文主要在未知干擾環境下,研究了一種聯合發射功率控制和動態信道接入的WoLF-PHC干擾規避方法。在4種典型的干擾環境下,通過對比基于Q學習的干擾規避方法、基于WoLF-PHC的干擾規避方法和隨機干擾選擇方法,可以看出前兩種算法都比隨機選擇方法性能更優。所提的基于WoLF-PHC干擾規避方法的性能和收斂速度均比Q學習更好。進一步,在頻譜感知結果存在誤差的情況下對干擾規避性能的影響進行分析可知,頻譜感知的誤檢概率越大,干擾規避性能會略差。在不同頻譜感知誤差情況下,所提WoLF-PHC算法仍然能夠實現收斂,具有一定的魯棒性。

猜你喜歡
動作策略
基于“選—練—評”一體化的二輪復習策略
下一個動作
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
動作描寫要具體
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
畫動作
讓動作“活”起來
動作描寫不可少
主站蜘蛛池模板: 免费无码网站| 国产成人精品视频一区二区电影| 亚洲,国产,日韩,综合一区| 呦视频在线一区二区三区| 国产精品 欧美激情 在线播放| 日本久久网站| 女人18毛片一级毛片在线| 午夜国产不卡在线观看视频| 国产一级小视频| 婷婷六月天激情| 亚洲视频免费在线| 高清欧美性猛交XXXX黑人猛交| 2021国产精品自产拍在线观看| 亚洲视频在线观看免费视频| 午夜不卡福利| 国产成人高清在线精品| 亚洲AV成人一区二区三区AV| 国产精品对白刺激| 成人福利视频网| 性色一区| 久久一色本道亚洲| 中国黄色一级视频| 亚洲热线99精品视频| 国产欧美日韩精品第二区| 国产99视频精品免费观看9e| 久无码久无码av无码| 免费Aⅴ片在线观看蜜芽Tⅴ | 欧美一区二区三区欧美日韩亚洲| 中字无码av在线电影| 午夜激情福利视频| 日日摸夜夜爽无码| 色135综合网| 国产一区二区三区夜色| 国产视频入口| 欧亚日韩Av| 精品乱码久久久久久久| 十八禁美女裸体网站| 潮喷在线无码白浆| 无码有码中文字幕| 91口爆吞精国产对白第三集| 国产精品久线在线观看| 2022精品国偷自产免费观看| 国产理论一区| 婷婷六月天激情| 亚洲日韩欧美在线观看| 高清乱码精品福利在线视频| 国产区网址| 91成人在线观看| 青青久在线视频免费观看| 国产精品第一区在线观看| 免费高清自慰一区二区三区| 精品亚洲麻豆1区2区3区| 欧美专区日韩专区| 午夜视频免费一区二区在线看| 国产日本欧美在线观看| 久久精品人人做人人爽| 国产精品高清国产三级囯产AV| 欧美日韩成人在线观看| 国产精彩视频在线观看| 国产真实二区一区在线亚洲| 成人中文字幕在线| 日本高清成本人视频一区| 久久亚洲精少妇毛片午夜无码| 国产嫩草在线观看| 亚洲制服丝袜第一页| 亚洲美女AV免费一区| 日韩AV手机在线观看蜜芽| 老司机久久99久久精品播放| 99精品影院| 噜噜噜久久| 欧美亚洲国产日韩电影在线| 在线看AV天堂| 亚洲精品无码抽插日韩| 激情无码视频在线看| 999国内精品视频免费| 波多野结衣二区| 欧美一级在线看| 亚洲AⅤ无码日韩AV无码网站| 国产超薄肉色丝袜网站| 一边摸一边做爽的视频17国产 | 青青国产视频| 91色老久久精品偷偷蜜臀|