

















摘 要:針對隨著節點數量的增多,多節點協作頻譜感知(Cooperative Spectrum Sensing,CSS) 會產生大量本地數據,導致能耗變高和全局決策延遲的問題,提出節點評估與選擇(Node Evaluation Selection,NES) 和網格搜索(Grid Search,GS) 的強化學習(Reinforcement Learning,RL) 算法。通過NES 算法在融合中心(Fusion Center,FC) 實時更新協作用戶的信任值,對信任值大小進行排序,根據設定的閾值,阻止惡意用戶(Malicious Users,MU) 參與CSS。通過基于GS 的RL 機制對處理后的數據進行標記,把信噪比(Signal to Noise Ratio,SNR) 和信任值作為輸入參數,搜索出所有可能的參數組合。在相同環境參數時,FC 可以直接調用該環境下的節點,不需要再重新進行感知操作,如果有新用戶加入時通過改變參數的范圍重新搜索,新用戶可以模仿其他用戶RL 的經驗,從而獲得更加快速的信道占用情況。仿真結果表明,該方法與其他算法相比,在提高檢測概率的同時,降低了能耗,減少重復計算的時間,解決了全局決策延遲的問題。
關鍵詞:協作頻譜感知;認知無線網絡;融合中心;網格搜索;強化學習
中圖分類號:TN925 文獻標志碼:A 開放科學(資源服務)標識碼(OSID):
文章編號:1003-3106(2024)06-1346-09
0 引言
隨著5G 進入商業階段,云計算、網絡功能虛擬化和軟件定義網絡概念的快速革命[1],人們已經開始6G[2]移動通信的研究,在6G 網絡中不再局限于傳統的地面蜂窩架構,正在向地面-水下-空中-空間混合網絡發展。6G 的頻譜研究將集中在擴展頻譜資源、頻譜共享與動態分配、智能頻譜管理等方面,以滿足未來移動通信的需求,并提供更快速、可靠和高效的連接體驗。認知無線電(CognitiveRadio,CR)系統是針對射頻環境中頻譜稀缺[3]問題提出的一種解決方案,主要提高頻譜的整體利用率。頻譜感知是通信期間,次用戶(Secondary User,SU)利用未使用的主用戶(Primary User,PU)頻譜[4],實現頻譜共享、頻譜動態分配和干擾檢測等功能。由于地理位置對頻譜感知的影響,單節點的感知精度低,而多節點協作頻譜感知(Cooperative SpectrumSensing,CSS)可以克服由于多徑衰落和陰影導致的頻譜感知性能下降的問題。因此,在認知無線電網絡(Cognitive Radio Network,CRN)中,CSS 是一種被廣泛使用的感知技術,可以成功地提高感知精度[5]。但隨著感知節點數量的增加,CRN 中全局決策實時性降低且能量消耗也隨之增加。
在CSS 中,一些惡意節點可能會參與到頻譜感知中,從而混淆檢測系統,也可能因為傳感設備錯誤或信道噪聲,一些節點會向融合中心(FusionCenter,FC)發送不正確的結果,這些節點會干擾CSS。為了實現高效的頻譜感知,檢測惡意用戶(Malicious Users,MU)是一個具有挑戰性的問題,許多研究人員一直在研究這個問題[6]。文獻[7]設計了一種以信譽值為基礎的拍賣算法,用于分配感知收益。該算法不僅確保感知收益公平分配,降低了算法復雜度,還可以促進更多群智感知(Crowd Sensors)參與感知任務。利用區塊鏈的去中心化和去信任化特性,提高了頻譜感知的穩定性和可靠性。然而,該算法在考慮報價策略時沒有考慮到環境的變化以及Crowd Sensors 在能量消耗方面的影響。文獻[8]提出了一種雙自適應閾值技術,以增強其信譽計算算法的魯棒性。該技術計算每個用戶的信譽分數,并計算一組可疑用戶,利用自適應閾值對這組可疑用戶執行第二信譽計算。未通過此雙重檢查的可疑用戶將被歸類為最終MU,同時在感知用戶數增多時整個感知過程計算量也在變大。文獻[9]提出了一種稱為頻譜感知策略選擇的新算法,以協作或獨立的方式選擇更好的感知策略。為了推導節點頻譜狀態的最大后驗估計,通過基于圖割的CSS方法構建了拓撲信息成本函數和感知結果成本函數。把信譽值應用于評估CSS 和獨立感知的性能,以最大限度地降低選擇性能較差的感知方式的概率。文獻[10]提出了一種基于強化學習(Rein-forcement Learning,RL)的協同頻譜感知方案,用于SU 確定信道掃描順序和選擇合作伙伴進行協同頻譜感知。通過Q-learning 方法,每個SU 學習主要通道的占用模式,以生成動態的掃描優先列表,從而降低掃描成本并減少訪問延遲。然而沒有考慮阻止置信度低的用戶參與協作感知,使其能耗偏高。文獻[11]提出的混合方案將差分進化(Differential E-volution,DE)優化方案與基于機器學習的增強樹算法相結合以減輕MU 在CSS 系統中的影響,根據使用DE 的SU 確定優化閾值和系數向量用于訓練增強樹算法,從而獲得可靠的感知結果。雖然檢測概率得到了提高,但感知時間和能量消耗的成本也在變大。在文獻[12]中,FC 根據從所有SU 接收到的硬二進制決策進行全局決策。遺傳算法(Genetic Algorithm ,GA)采用一對多鄰居距離和z-score 作為適應度函數,在有MU 的情況下通過選擇和交叉來識別最佳感知結果,該方案能夠在不識別MU 的情況下避免MU 在CSS 中的影響,但整個網絡的能量消耗也在增高。
針對以上問題,提出了節點評估與選擇(NodeEvaluation Selection,NES)算法剔除信任值低的節點(MU),選擇信任值高的節點(可靠節點)參與CSS,從而在保證檢測性能的情況下減少了能量的消耗。提出基于網格搜索(Grid Search,GS)的RL,在出現相同環境參數時,FC 可以直接調用當前節點,而無需再次進行感知操作,從而減少數據的處理,提高全局決策的實時性。
1 系統模型
1. 1 CSS 模型
建立了由一個PU 和若干個SU 組成的模擬CR模型,各節點通過FC 通信,FC 通過各節點信息判斷PU 通道是否空閑。CRN 模型如圖1 所示。
1. 2 能量檢測模型
在頻譜感知中,每個SU 獨立執行一個能量檢測[13]過程。這是因為能量檢測操作簡單,且不需要PU 的先驗信息。第j 個SU 接收到的信號確定如下:
式中:qnj是前一感知周期中第j 個節點的信任值,qn+1j 是第j 個結點的當前信任值,v 是前一周期的綜合返回值,τnj是前一個周期的綜合校正系數,Φ 是加權因子,值?。?或0。Φ 的值?。?的次數越多時,能量利用效率越高。反之,表明需要調整感知節點以提高感知性能和能耗指數。
調整感知節點的數量,再調用信任值大于閾值的節點參與CSS,這里的閾值設置為信任值的平均值,當信任值大于等于平均值時節點是可靠的,當信任值小于平均值時節點是不可靠的,公式為:
qave = qmax + qmin/2 。(20)
NES 算法流程如算法1 所示。
3 基于GS 的RL
3. 1 GS
GS[15]是指事先在給定的超參數空間中定義一組候選超參數,然后進行排列組合,形成一個超參數的“網格”,按照“網格”依次搜索超參數空間中的各個組合。GS 的好處是能夠對所有可能的參數組合進行搜索??梢允褂盟阉鱽慝@得信任值可靠的節點qj,為了提高搜索效率,進行了GS。訓練搜索后的參數包括SNR 和信任值,其中設置SNR ∈(-20,-10)dB,qj ∈(0. 5,1)。通過搜索把這些信息作為先驗知識保存到知識庫中。GS 的過程如下:
① 當ηi 出現時,FC 將進行實時搜索,從而獲得qj,并得到對應的Pd。其中ηi 是第i(正整數)個出現的SNR,如果SNR 是新出現的,就設置新的參數重新搜索。最后搜索的結果將在Pd 和qj 返回時輸出。此外,qj 和ηi 將成為FC 搜索的先驗知識,搜索得到的數據存儲庫Ω 為:
Ω = f(qj,ηi), (21)
式中:f 是一個搜索函數。
② 當ηi 不是新出現時,FC 將利用學習的知識直接選擇qj:
qi = f -1(ηi,Ω)。(22)
③ 在ηi 下,形成i×j 的網格,i 是所設的SNR 的步長,j 是節點數,步長都為1。
④ Pd,j 是第j 個網格的節點檢測概率,一直增加到所參與的協作的節點數,或當Pd,j = 1 時停止搜索時;否則將繼續搜索。
⑤ 當實時搜索完成時,會得到概率Pd 的集合和相應的qj:
3. 2 RL 的過程
RL[16]是一種機器學習方法,主要包括環境和智能體(agent)兩部分。而Q-learning 在RL 方法中經常被使用,其中處于狀態s 的智能體通過采取動作a 來與環境交互,目的是從行動的結果中學習環境。根據結果,智能體獲得獎勵值r(s,a),并更新Q值。在每個時間點t,智能體可能處于特定的狀態s,并且可以根據其在之前迭代中的學習選擇一個動作。Q-learning 的歷史可以用狀態-動作獎勵序列表示:<s0,a0,r1,s1,a1,r2,s2,a2,r3,s3,a3,r4,s4,s4,… >,智能體在狀態s0 時采取行動a0 ,并獲得獎勵值r1 。之后,進入狀態s1 ,以此類推。智能體從狀態-行動-獎勵歷史中學習。一種狀態-行動-獎勵的經驗(<s,a,r,s′>)獲得回報值Q(s,a),同時按照貝爾曼最優化準則進行Q 值的更新來選擇下一步動作,表達式為:
Qt+1(s,a) = (1 - α)Qt(s,a)+α{rt(s,a)+ ξmax[Qt+1(s′,a′)]},(24)
式中:學習因子α 和折損因子ξ 取值都為(0,1),當α 接近于0 時,智能體從狀態-行動-獎勵過程中學到的很少,歷史占主導地位。如果環境是確定的,則α 的最優值為1。
在GS 后將RL 的理論運用SU 的狀態和環境的學習。將SU 比作RL 中的智能體[17]學習信道占用的模式,st 表示信道的狀態,在t 時刻信道是否被PU 占用。當SUj 出現時,通過掃描信道(ci )來采取行動。使用Q 學習方法,獲得獎勵值rjt(st,ci )在時間t 下信道的狀態:
式中:sj(ci)= 1 表示信道空閑,sj(ci)= 0 表示信道繁忙,ωjt(ci)與式(7)一致表示權重。于是節點j 在信道狀態ci 時Q 值的更新為:
Qj(st+1 ,ci)← (1 - α)·Qj(st,ci)+α·{rj(si,ci)- ξ(e-τm )}, (26)
式中:τ 表示(0,1)的常數,m 表示SU 第m 次掃描信道。信息融合與前面的Ez 一致,信道的判決結果如下所示:
在融合階段結束時,得出m 個協作用戶的測量值,將測量值存放于矩陣Z 中。當CR 環境與存儲矩陣Z 的數據一致時,RL 采用直接從動作空間A 中選擇適當的動作來更新函數值,通過持續的迭代更新獲得最優動作a* ,從而選出參與協作感知的用戶。如果有新用戶加入到CR 環境中,就需要重新設置網GS 的參數,在原來的矩陣擴充第m+1 維數,協作結束時,將協作結果廣播到所有協作用戶。在矩陣Z 中的第一列表示信任值可靠的節點Qj,第二列表示SNR 的值。每行表示通過在特定無線電環境中執行GS 的RL 算法找到參與協作的節點。
在FC 完成GS 的RL 后,獲得的矩陣Z 表示如下:
算法結構框圖如圖2 所示。
4 算法仿真及分析
通過蒙特卡洛模擬進行實驗,在CRN 中所有節點的仿真結果都超過了2 000 次迭代,建模的CRN中有8 個輔助節點[18]和30 個感知節點。在加性高斯白噪聲(Additive White Gaussian Noise,AWGN)的信道下,感知場景范圍為200 m,節點隨機分布,PU在場景的邊緣,所需的節點總數為30(每10 個節點為SNR = -12、-10、-8 dB),8 個輔助節點(SNR =-8 dB),BPSK 信號功率為100 mW,帶寬為100 kHz。在此仿真環境中,MU 在2 種不同情況下進行設置:第一種情況,如果有5 個MU,其中在SNR = -12 dB 下有2 個;第二種情況,如果有9 個MU,在SNR = -10 dB 下有4 個MU。為了驗證本文算法的性能,將其與DE 和GA 進行比較。在考慮NES 時,設置9 個惡意節點,在其他2 種算法中,設置5 個惡意節點,其他參數都相同。仿真場景如圖3 所示。NES 與其他2 種算法感知性能比較如圖4 所示。檢測概率隨協作用戶數變化曲線如圖5所示。
從圖4 可以看出,在SNR 低于-12 dB 時,NES算法的檢測概率高于DE 和GA 算法,這是因為NES算法考慮了CRN 中MU 的存在,并阻止了MU 參與CSS,所以使整個網絡具有更強的可靠性。當SNR為- 15 dB 時,NES 算法比GA 算法檢測概率高0. 46。通過圖5 可以發現,隨著協作用戶數的增加,3 種算法的檢測概率都呈現增加的趨勢,在M <70時,NES 算法檢測概率比GA 和DE 算法檢測概率高,這是因為NES 算法剔除了MU,參與協作感知的都是可靠用戶。
NES 算法與GA 和DE 算法在相同條件下的能耗對比,其他仿真實驗參數與上實驗相同,感知周期與能耗的變化曲線如圖6 所示。從圖6 結果可以看出,m<60 時隨著感知周期數的增加三者能耗都在增加,但NES 算法效果比GA 和DE 算法優益,但當感知周期數m>60 時,三者能耗基本趨于穩定,此時NES 算法與GA 算法能耗接近,但整個周期中NES算法比GA 算法節能效果好。
在NES 后,加入GS 算法與隨機搜索算法[19]和固定-雙閾值算法[20]作比較,如圖7 所示。由圖可以看出,相同的SNR 下,GS 算法的檢測概率比隨機搜索和固定-雙閾值算法都要高,在-17 dB 時GS 算法比隨機搜索檢測概率高了0. 1,比固定—雙閾值算法檢測概率高了0. 16。這是因為GS 算法可以在遍歷指定的參數組合時,保證在任何環境下可以找到最優的參數,而隨機搜索和固定-雙閾值會出現無效或者冗余取值的情況。
獎勵值隨協作用戶的數量變化曲線如圖8 所示??梢钥闯?,隨著協作用戶的增加獎勵值也在增加,在達到一定用戶數時收斂于1,這也符合協作感知的規律;協作用戶M<60 時,GS 算法后的RL 獎勵值高于單獨RL 下的值,這是因為GS 算法得到了最優的協作用戶。圖9 顯示了PU 在頻帶使用率不同時,Q 值隨著時間的變化,PU 占用的頻帶越低Q 值通常較高。此外,在感知期間隨著時間的推移Q 值在減小,并在某個時間趨于穩定。不同SNR 下感知時間比較如圖10 所示??梢钥闯?,在相同SNR 情況下,基于GS 算法的RL 比沒有RL 加入時感知時間更短,因此,提高了全局決策的實時性。如果沒有使用RL,那么每個頻譜感知過程都需要使用GS 算法來查找可靠的節點,這將導致感知時間增加。當SNR 增加時,感知時間減少,這是因為隨著SNR 的提高,存儲的信息更少,更容易做出判斷。
5 結束語
提出了一種基于RL 的CSS 算法。利用NES 算法解決了CRN 中可能存在MU 參與CSS 導致能量消耗高和感知精度低的問題;通過GS 的RL 算法解決了在相同CR 環境下重復計算的時間,減少了計算量,縮短了感知時間,提高了頻譜感知速度,為全局決策的實時性提供了保障,使頻譜動態分配成為可能。后續在此基礎上評估網絡的平均生存周期,根據仿真結果,對網絡模型和頻譜感知算法進行優化改進。
參考文獻
[1] JAGADEESAN N A,NACHIKETHAS B . SoftwaredefinedNetworking Paradigms in Wireless Networks:A Survey[J]. ACM Computing Surveys,2014,47(2):1-11.
[2] JIANG W,HAN B,HABIBI M A,et al. The Road Towards6G:A Comprehensive Survey[J]. IEEE Open Journal ofthe Communications Society,2021,2:334-366.
[3] SAAVEDRA E,MASCARAQUE L,CALDERON G,et al.A Universal Testbed for IoT Wireless Technologies:Abstracting Latency,Error Rate and Stability from the IoTProtocol and Hardware Platform [J]. Sensors,2022,22(11):4159.
[4] PERARASI T,NAGARAJAIN G,GAYATHRI R,et al.Evaluation of Cooperative Spectrum Sensing with FilteredBank Multi Carrier Utilized for Detecting in CognitiveRadio Network [J]. Transactions on Emerging Telecommunications Technologies,2022,33(7):e4478.
[5] 李葉. 基于單節點及多節點頻譜感知的認知無線電網絡資源分配研究[D]. 成都:西南交通大學,2021.
[6] HWANG J,KIM J,SUNG I,et al. Fast and AccurateDetection of Malicious Users in Cooperative SpectrumSensing Network[J]. Wireless Personal Communications,2021,118(2):1709-1731.
[7] 呂培,趙杭生,張建照. 一種基于信譽值拍賣的區塊鏈下的感知收益分配機制[J]. 電訊技術,2021,61(1):1-7.
[8] JIBRAN M,KIM J,KOO J,et al. A Double AdaptiveApproach to Tackle Malicious Users in Cognitive RadioNetworks[J]. Wireless Communications and Mobile Computing,2019,2019:2214-2223.
[9] SUN Z G,XU Z Y,CHEN Z M,et al. ReputationbasedSpectrum Sensing Strategy Selection in Cognitive RadioAd Hoc Networks[J]. Sensors,2018,18(12):4377.
[10] NING W L,HUANG X Y,YANG K,et al. ReinforcementLearning Enabled Cooperative Spectrum Sensing in Cognitive Radio Networks[J]. Journal of Communications andNetworks,2020,22(1):12-22.
[11] GUL N,KIM S M,AHMED S,et al. Differential EvolutionBased Machine Learning Scheme for Secure CooperativeSpectru Sensing System [J ]. Electronics,2021,10(14):1687.
[12] GUL N,QURESHI I M,ELAHI A,et al. Defense AgainstMalicious Users in Cooperative Spectrum Sensing UsingGenetic Algorithm [J]. International Journal of Antennasand Propagation,2018,2018:1-11.
[13] 王聰,劉雄厚,孫超,等. 基于頻率著色的被動聲吶寬帶能量檢測方法[J]. 哈爾濱工程大學學報,2021,42(4):456-462.
[14] PAGE E L,PEIGN? M,PHAM D C. Central LimitTheorem for a Critical Multitype Branching Process inRandom Environments[J]. Tunisian Journal of Mathematics,2021,3(4):801-842.
[15] FAYED H A,ATIYA A F. Speed up Gridsearch forParameter Selection of Support Vector Machines [J ].Applied Soft Computing,2019,80:202-210.
[16] HAN K,YE C Y. Power Control Research for DevicetoDevice Wireless Network Underlying ReinforcementLearning[C]∥ Global Conference on Robotics,ArtificialIntelligence and Information Technology. Chicago:IEEE,2022:351-354.
[17] 李冠雄,李桂林. 基于強化學習的合作頻譜分配算法[J]. 電波科學學報,2022,37(1):8-14.
[18] 曹龍,趙杭生,鮑麗娜,等. 基于輔助節點的安全協作頻譜感知[J]. 計算機工程,2014,40(2):123-127.
[19] KOSTEN V A,SELEZENEV L E. Random Search Algorithmwith Selflearning for Neural Network Training[J]. OpticalMemory and Neural Networks,2021,30(2):180-186.
[20] HUANG T,YIN X D,CAO Q J. A New Algorithm forConsidering Green Communication and Excellent SensingPerformance in Cognitive Radio Networks [J ].International Journal of Distributed Sensor Networks,2020,16(6):645-649.
作者簡介
劉春玲 女,(1971—),博士,教授,碩士生導師,CCF 會員。主要研究方向:信號檢測與信號處理。
許 軍 男,(1996—),碩士研究生。主要研究方向:認知無線電與壓縮感知。
郭楷文 男,(1997—),碩士研究生。主要研究方向:機器人路徑規劃。
基金項目:遼寧省教育廳面上基金項目(LJKZ1184)