999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于UCB的短波認知信道選擇算法

2016-05-08 06:22:30王董禮黃國策孫啟祿王葉群
鐵道學報 2016年12期
關鍵詞:用戶

王董禮,黃國策,曹 鵬,孫啟祿,王葉群

(空軍工程大學 信息與導航學院,陜西 西安 710077)

短波具有超視距通信能力,開通架設方便,一直是重要的遠程和機動通信手段,用途十分廣泛。目前短波電臺各自非合作的頻率競爭和功率競爭不僅導致自身干擾沖突,而且污染了短波電磁環境,致使其他短波用戶的可用頻率減少和頻譜質量下降[1],使得用戶間沖突碰撞嚴重,頻譜資源使用比較緊張。短波工業協會HFIA(High Frequency Industry Association)的研究表明,看似擁擠的短波頻段存在數量可觀的頻譜空洞[2,3],因此,如何高效利用這些空閑的頻譜資源具有重要意義。

認知無線電允許認知用戶接入頻譜空洞,減少沖突碰撞的同時實現頻譜的高效利用。現有對認知無線電的研究主要集中在短波以上頻段,文獻[4]從動態頻譜接入DSA(Dynamic Spectrum Access)的角度,提出將認知無線電應用到短波通信中。文獻[5]分析驗證了短波頻段頻譜空洞的可用性和穩定性,指出頻譜空洞持續時間在數秒到數分鐘間具有規律性,為DSA奠定了基礎。文獻[6]通過感知短波電磁環境,運用DSA策略實現抗干擾設計,避開干擾噪聲較強的頻率進行實時信道選擇。因此,將認知無線電技術應用到短波通信中,可以使短波認知用戶根據周圍環境動態選擇最佳工作頻率,調整自身參數,優化通信效果。

動態頻譜接入允許短波認知用戶[7]在特定時間、地點使用空閑信道,根據強化學習(Reinforcement Learning)理論[8],通過對信道的探索和利用,動態接入空閑信道,能夠在最大化自身傳輸機會的同時減少與其他用戶的相互干擾。文獻[9]使用強化學習中的UCB(Upper Confidence Bound)算法,驗證其在短波環境下具有優良的性能。由于UCB算法學習時間較長,收斂到最優信道的速度較慢,影響其在短波環境下性能的提升。本文在文獻[9]的基礎上,建立適合認知背景的評價準則,提出一種改進的UCB算法,該算法借鑒權重驅動(Weight-Driven)算法思想[10],引入信道質量差異因子,根據探索學習結果動態調整探索信道數量和探索系數,能夠快速收斂于最優信道,較原始UCB算法和隨機信道選擇算法具有較高的成功傳輸率和較低的累積接入損失。

1 系統模型

圖1 系統的信道模型

2 UCB算法

2.1 UCB1算法

UCB算法是強化學習算法之一,是1995年由AGRAWAL R[13]提出的基于索引的算法,能夠解決MAB中探索新臂以獲得更多收益信息和選擇已有收益最高的臂來獲取最大利益之間的權衡問題。在認知無線電應用場景下,該算法不需任何信道先驗信息,通過對歷史決策行為和獲得收益的學習進行決策,能夠最大化認知用戶的累積接入次數和時間[14]。根據強化學習理論[8],UCB算法分為探索(Exploration)和利用(Exploitation)兩個階段,該算法能夠在探索學習的同時預測下一時隙最可用的信道,并根據利用階段的接入結果更新相應信息,因此能夠為短波認知用戶選擇最優信道提供依據。

UCB算法在每個時隙更新索引值Bt,k,Tk(t),并返回使該索引值最大的信道索引號k。索引值Bt,k,Tk(t)的計算方法為

(1)

(2)

式中:am∈{1,2,…,K}為短波認知用戶在第m時隙使用UCB算法選取感知的信道索引號;l{am=k}為邏輯表達式,當am=k時,其值為1,反之為0;Tk(t)為在前t個時隙內信道k被該算法選擇的次數。

At,k,Tk(t)為索引值Bt,k,Tk(t)的置信因子,即

(3)

該UCB算法被稱為UCB1算法,其中,α為探索系數,具體算法如下。

輸入:K,a,{a0,r0,a1,r1,…,at-1,rt-1}

輸出:at

ift

at=t+1

else

at=arg maxk(Bt,k,Tk(t))

end if

returnat

2.2 改進UCB1算法

定義信道質量差異因子βt為

(4)

(5)

(6)

(7)

(8)

為避免由于學習不充分造成的信道誤判,導致無法收斂于最優信道,陷入局部最優值,應當在進行可觀的N0次接入后再進行信道數量縮減操作。改進UCB1算法的具體流程如圖2所示,當有新的業務傳輸請求時,若t

圖2 改進UCB1算法流程圖

3 評價準則

(9)

3.1 機器學習下的評價準則

在機器學習領域,短波認知用戶如果選擇最優信道(即空閑概率最高的信道)進行數據傳輸,此時對其他短波用戶產生干擾的可能性較小,因而可以使用最優信道選擇比率Poptimal作為準則評估學習算法的性能。

(10)

同樣,從機器學習的角度,如果短波認知用戶每個時隙選擇最優信道,則認為能夠取得最佳性能。因此與最優信道選擇策略相比,使用改進UCB1算法進行信道選擇,短波認知用戶的累積接入損失為Rt=tμmax-Wt,其中,μmax=max{μ1,μ2,…,μK}。因此,在t足夠大時,短波認知用戶的平均累積接入損失為

(11)

式中:θmax=max{θ1,θ2,…,θK}。

3.2 認知無線電下的評價準則

在短波中應用認知無線電,此時評估改進UCB1算法的準則與機器學習領域不同[9,16]。短波認知用戶不關心選擇的信道是否為最優信道,而是選擇的信道在當前時刻是否空閑,因此最優信道選擇比率Poptimal無法用來衡量認知背景下該算法的性能,此時用成功傳輸率Psuccess進行表征。

(12)

式中:Wt為短波認知用戶進行信道選擇后接入的累積收益。

在機器學習準則下,短波認知用戶趨向接入最優信道,由于最優信道并非任意時刻空閑,非最優信道在未被占用時也能接入進行傳輸,因此累積接入損失Rt并未真實反映短波認知用戶損失的傳輸機會。考慮機會式頻譜接入OSA(Opportunistic Spectrum Access)策略,此時認知用戶能夠獲得信道先驗信息,只要信道組中所有信道并非完全被占用,短波認知用戶就能接入未被占用的信道進行數據傳輸,最大化信道利用率。引入邏輯符號St表示信道組中信道狀態的整體情況。

(13)

(14)

4 仿真分析

4.1 機器學習下的性能分析

圖3為三種算法的最優信道選擇比率Poptimal,由于隨機信道選擇算法為非學習算法,無法利用歷史信息進行學習決策,所以其Poptimal最低,約為12.5%(即1/K);原始UCB1算法的Poptimal隨時隙t增長并趨于穩定,在t=5 000時略高于90%,收斂速度較慢,在仿真時間內最高可達94.18%;而改進UCB1算法的Poptimal最高,由于該改進算法能夠根據學習的信道情況主動縮減探索信道范圍,調整探索系數,在t=620時Poptimal達到90%,收斂于最優信道的速度最快,并且隨著時間的增長Poptimal趨于100%。

圖3 最優信道選擇比率Poptimal

因為隨機信道選擇算法的累積接入損失Rt較大,只給出改進UCB1算法和原始UCB1算法Rt的對比,如圖4所示。由于所選信道并非任意時刻空閑,Rt反映了短波認知用戶與其他短波用戶產生沖突的可能,Rt越高意味著較最優信道選擇產生的錯誤越多,產生沖突的可能越大,浪費的傳輸機會越多。從圖4可知,改進UCB1算法具有更低的Rt,在t=104時僅為80.5,較原始UCB1算法減少47.56%,可見改進算法能夠更好地找到最優信道,減少累積接入損失。UCB算法通過選擇最優信道和周期性的探索其他信道,從而對信道情況進行更好的學習,因此在圖4的累積接入損失Rt中會出現輕微的跳躍。

圖4 累積接入損失Rt

4.2 認知背景下的性能分析

圖5為三種算法的成功傳輸率Psuccess,同樣隨機信道選擇算法的Psuccess最低,約為54%;原始UCB1算法的Psuccess隨時隙t增長并趨于穩定,在仿真時間內最高可達88.34%;而改進UCB1算法能夠動態調整探索信道數量和探索系數,保留空閑概率較高的信道,因此其Psuccess最高,最高可達91.31%,并隨時間增長逐漸趨于90%(仿真條件中信道最高空閑概率為90%)。由于該算法選擇的最優信道中,并非每一時刻都是空閑,對比圖3中的Poptimal可知,改進UCB1算法的Psuccess低于Poptimal,并且空閑概率較小的信道對成功傳輸率影響不大,通過剔除空閑概率較小的信道,在時隙t較小時,就能達到較高的成功傳輸率。

圖5 成功傳輸率Psuccess

圖6 對比OSA的累積接入損失

5 結束語

在短波中應用認知無線電,能夠提高短波頻段頻譜利用率,減少沖突碰撞的幾率。結合強化學習理論,本文提出基于UCB的短波認知信道選擇算法,采用多種指標分別在機器學習和認知背景下驗證算法性能。仿真結果表明,該算法能夠有效提高信道接入成功傳輸率并降低累積接入損失,具有良好的通信效果。但是隨著短波寬帶技術的發展,在每個時隙只選擇一個信道無法滿足寬帶傳輸的需求,因此如何利用UCB算法在每個時隙選擇多個可用信道進行寬帶傳輸是下一步研究的重點。

參考文獻:

[1]姚富強, 劉忠英, 趙杭生.短波電磁環境問題研究——對認知無線電等通信技術再認識[J].中國電子科學研究院學報, 2015, 10(4):156-161.

YAO Fuqiang, LIU Zhongying, ZHAO Hangsheng. Study on the Issues of HF Electromagnetic Environment[J]. Journal of CAEIT, 2015, 10(2):156-161.

[2]WILLIAM F. Summary: Wideband HF Channel Availability Working Group[R/OL]. http://www.hfindustry.com/meetings_presentations/presentation_materials/2015_feb_hfia/presentations/4-HFIAWidebandHF.pdf.

[3]BRAM W. Wide Band HF UK Spectrum Utilisation [R/OL]. http://www.hfindustry.com/ca_meetings/presentation_materials/2015_feb_wb/2-WideBandHFSpectrumAvailability.pdf.

[4]KOSKI E, FURMAN W N. Applying Cognitive Radio Concepts to HF Communications[C]// IET 11th International Conference on Ionospheric Radio Systems and Techniques. New York:IEEE Press, 2009:1-6.

[5]閆建峰,郭銳,田驊. 基于認知的短波動態頻譜孔洞率與時效性研究[J]. 艦船科學技術, 2011, 33(6):56-60.

YAN Jianfeng,GUO Rui,TIAN Hua. Research on Spectrum Hole Probability and Effectiveness for a Given Period of Time of Dynamic Spectrum of HF Channel Based on Cognition[J]. Ship Science and Technology, 2011, 33(6):56-60.

[6] ZHU Y C, WANG P, LU J X. A New HF Radio Prototype Based on Dynamic Spectrum Anti-Jamming Concept[C]// 6th International ICST Conference on Communications and Networking in China. New York: IEEE Press, 2011:955-958.

[7]彭開志,劉進,王書誠.基于頻譜檢測的短波認知用戶性能優化[J].鐵道學報, 2012, 34(4): 57-63.

PENG Kaizhi, LIU Jin, WANG Shucheng. Optimization of HF Secondary User Performance through Spectrum Sensing[J]. Journal of the China Railway Society, 2012, 34(4): 57-63.

[8] SUTTON R S, BARTO A G. Reinforcement Learning[M].Cambridge:The MIT Press, 1998.

[10] JIANG T, GRACE D, MITCHELL P D. Efficient Exploration in Reinforcement Learning-based Cognitive Radio Spectrum Sharing[J].IET Communications, 2011, 10(5):1 309-1 317.

[11] ROBBINS H. Some Aspects of the Sequential Design of Experiments[J]. Bulletin of the American Mathematical Society, 1952,58(5): 527-535.

[12]趙林靖, 茍俊杰. 基于MAB模型的多信道選擇與接入算法研究[D]. 西安: 西安電子科技大學, 2014.

[13] AGRAWAL R. Sample Mean Based Index Policies with O(log n) Regret for the Multi-armed Bandit Problem[J]. Advances in Applied Probability,1995,27(4):1 054-1 078.

[14] JOUINI W, ERNST D, MOY C, et al. Multi-armed Bandit Based Policies for Cognitive Radio’s Decision Making Issues[C]// 3rd International Conference on Signals, Circuits and Systems (SCS). New York: IEEE Press, 2009:1-6.

[15] AUER P, Cesa-Bianchi N, FISCHER P. Finite Time Analysis of the Multi-armed Bandit Problem[J]. Machine Learning, 2002,47(2-3):235-256.

[16] ROBERT C, MOY C, WANG C X. Reinforcement Learning Approaches and Evaluation Criteria for Opportunistic Spectrum Access[C]// IEEE International Conference on Communications. New York: IEEE Press,2014:1 508-1 513.

猜你喜歡
用戶
雅閣國內用戶交付突破300萬輛
車主之友(2022年4期)2022-08-27 00:58:26
您撥打的用戶已戀愛,請稍后再哭
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年5期)2016-11-28 09:55:15
兩新黨建新媒體用戶與全網新媒體用戶之間有何差別
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
挖掘用戶需求尖端科技應用
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 亚洲女同一区二区| 亚洲男人的天堂在线观看| 97视频精品全国免费观看| 免费高清自慰一区二区三区| 天堂久久久久久中文字幕| 亚洲最新网址| 四虎亚洲国产成人久久精品| 免费一极毛片| 日韩高清中文字幕| 国产高清免费午夜在线视频| a在线亚洲男人的天堂试看| 日本午夜三级| 丰满少妇αⅴ无码区| 波多野结衣一二三| 538精品在线观看| 亚洲天堂精品视频| 国产人成网线在线播放va| 99热6这里只有精品| 欧美高清日韩| 国模视频一区二区| 无码视频国产精品一区二区 | 最新日本中文字幕| 日韩高清在线观看不卡一区二区| 国产十八禁在线观看免费| a级毛片网| 亚洲中文字幕av无码区| 美女国产在线| 丁香综合在线| 国产精品自拍露脸视频 | 免费在线播放毛片| 高清不卡毛片| 久久99国产精品成人欧美| 国产午夜无码专区喷水| 国产精品免费p区| a毛片在线播放| 毛片一级在线| 2021精品国产自在现线看| 久久久亚洲色| 97se亚洲综合| 亚洲视频黄| 91精品国产无线乱码在线| 91久久国产综合精品女同我| 日本福利视频网站| 色网站在线视频| 国产尹人香蕉综合在线电影| 成人国产一区二区三区| 日本久久网站| 视频二区国产精品职场同事| 国产视频大全| 9啪在线视频| 欧美不卡视频在线| 免费在线成人网| 免费又爽又刺激高潮网址| 99视频免费观看| 中文字幕亚洲乱码熟女1区2区| 亚洲人成在线免费观看| 国产综合另类小说色区色噜噜| 69av免费视频| 亚洲第一区欧美国产综合| 熟妇丰满人妻| 9久久伊人精品综合| 亚洲天堂777| 国产麻豆aⅴ精品无码| 好吊色妇女免费视频免费| 国产欧美视频综合二区| 丁香六月综合网| 欧美19综合中文字幕| 日韩 欧美 小说 综合网 另类| 精品国产成人三级在线观看| 国产精品女同一区三区五区 | 欧美日韩免费在线视频| 亚洲视频黄| a毛片基地免费大全| 免费中文字幕在在线不卡| 尤物视频一区| 熟妇丰满人妻av无码区| 日本一区二区不卡视频| 美女毛片在线| 国产高清在线丝袜精品一区| 国产精品尤物在线| 国产精品播放| 久久人人爽人人爽人人片aV东京热 |