999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于POMDP的次用戶多時隙信道選擇算法

2014-09-18 07:12:38張紅霞孟東霞姜志旺
電視技術 2014年13期
關鍵詞:優化用戶策略

張紅霞,孟東霞,姜志旺

(河北金融學院信息管理與工程系,河北保定 071051)

目前,認知無線電(Cognitive Radio,CR)被廣泛用于解決頻譜管理方式中,動態的頻譜環境和靜態的頻譜分配策略之間的矛盾,頻譜資源的不可再生性和授權頻段利用率不高之間的矛盾,可分配的頻譜資源很少與頻譜需求量很大之間的矛盾[1-6]。

POMDP數學工具可以刻畫動態頻譜環境中時變特性,在POMDP算法模型中,次用戶可以通過逐步的學習和調整,以獲得最佳的系統性能[7-10]。在本文的系統模型中,為了提升整個系統性能,次用戶將以混合接入策略[11]接入信道,以寬帶頻譜感知模式選擇感知多條主用戶信道,借助POMDP理論刻畫信道選擇過程,以實現最大化次用戶系統的吞吐量,同時減小計算量的目標,在每一個時隙開始時,次用戶選擇部分信道進行感知,之后根據感知結果選擇不同的傳輸功率接入信道,對于沒有被選定感知的信道,次用戶可以直接接入。并求得最優策略和次優策略來求解POMDP問題。

1 系統模型

圖1 次用戶系統結構圖

假定一個1×N向量S(m)表示時隙m內所有的主用戶子信道的狀態,S(m)=[s1(m),s2(m),s3(m),…,sm(m)],m表示時隙編號,m∈{1,2,…,m}。sn(m)=1表示信道n在時隙m被主用戶占據,與之相對應,sn(m)=0表示信道n在時隙m空閑。S(m)的狀態空間表示為

假定Pwn,wn'表示信道n從狀態wn跳轉到wn'的跳轉概率,則

式中:wn'={0,1}。對于信道n,其狀態跳轉概率分別為P01=βn,P00=1-P01,P10=αn和P11=1-P10。

在每一個時隙開始之前,次用戶需要選擇一些信道進行檢測,假定τn(m)表示信道n在時隙m的感知時間。對于那些沒有被選擇進行感知的信道,次用戶等待相同的時間,與被感知的信道一起接入,以保證信道之間的同步性。鑒于硬件限制,次用戶不能在某一子信道上進行信道感知的同時,在另外子信道上進行傳輸。在感知之后,次用戶以混合接入策略接入信道。若是信道n被感知,且感知結果為空閑,則次用戶在該信道的傳輸功率為P1n,若是感知結果為占據,則傳輸功率為P2n。若是信道n沒有被感知,則次用戶直接以功率P2n接入,P1n>P2n。次用戶在一個時隙內的模型如圖2所示。

圖2 單個時隙次用戶結構圖

次用戶首先對信道進行感知,在感知之后,次用戶根據感知結果進行數據傳輸。在傳輸完成之后,若是傳輸成功,次用戶的接收端會發送一個Acknowledgement(ACK信號)給次用戶的發射端,若是傳輸不成功,次用戶的接收端則會發送一個Non-Acknowledgement(NAK信號)給次用戶。

本文所提出的信道選擇算法的目標是在對主用戶的干擾處于系統可接受范圍內的前提下,最大化次用戶系統的吞吐量。假定Ω為感知信道的集合。若是信道n在時隙m被選擇進行感知,n∈Ω,則信道可獲得的傳輸速率為

在本文所設計的算法中,由ACK-NCK信道接入模式的使用,當信道為占據,而次用戶感知出現錯誤,感知出的結果卻為空閑時,若以較大的功率P1n傳輸時,則會因為主用戶通信對次用戶的傳輸產生干擾,次用戶接收端不能接收到數據

若是信道沒有被感知,次用戶直接接入,則信道的傳輸速率

則系統模型優化問題就可以表示成

式中,限制條件不但對主用戶進行了保護,還能保證次用戶選擇寬帶頻譜感知模式來感知信道,各條子信道感知時間一樣。Ω是選擇感知信道的集合,因為τn(m)是一個連續變量,這樣就無法直接對優化問題進行求解。所以,接下來,本文將采用 POMDP[12-13]理論對其進行處理,得出模型的最優解和次優解。

2 基于POMDP信道選擇算法設計

在POMDP的架構下,次用戶在每個時隙開始之前,根據信任變量和上一個時隙的實際收益值來做出合理的行為,在每一個時隙結束的時候,根據該時隙的行為和所得到的相對應的觀測值更新信任變量,為下一個時隙的行為選擇提供依據。POMDP算法架構的流程圖如圖3所示。

2.1 行為(Actions)

在時隙m開始時,次用戶的行為包括:判定選擇哪些信道進行感知,感知時間長度以及信道的接入功率。假定A(m)為次用戶在時隙m的行為向量

圖3 POMDP算法架構流程圖

式中:A1(m)表示被選擇進行感知的信道,A1(m)=[a11(m),a12(m),…,a1N(m)],a1n∈ {0,1}。在時隙m,若是信道n被感知,則a1n(m)=1;反之,a1n(m)=0。τ(m)表示次用戶在時隙m各條信道上的感知時間,τ(m)=[τ1(m),τ2(m),…,τN(m)],且各條信道的感知時間相等,τ1(m)=τ2(m)=…=τN(m)。若是次用戶直接接入所有的信道,則其感知時間為0。A2(m)表示以功率P1n,P2n接入的信道,A2(m)=[a21(m),a22(m),…,a2N(m)],a2n(m)∈ {0,1}。當信道以功率P1n接入時,a2n(m)=1;信道以功率P2n接入,a2n=0。若是信道沒有被感知,次用戶直接以功率P2n接入,同樣a2n(m)=0。

2.2 觀察向量(Observations)

假定O(m)表示次用戶在時隙m的觀測向量,O(m)=[o1(m),o2(m),…,oN(m)]。在本文給出的模型中,次用戶的觀測值在信道n中有4種可能,on(m)∈{0,1,2,3}。

1)若是信道n被感知,且感知結果為空閑,次用戶以功率P1n接入。在數據傳輸完之后,次用戶發射端收到數據接收的確認信號ACK1,這表明感知結果是正確的。此時,觀測值為on(m)=0。

2)在數據傳完之后,若是次用戶發射端接收到的是信號NCK,這表明感知結果是錯誤的,次用戶的傳輸被主用戶干擾。此時,觀測值為on(m)=1。

3)若是信號的感知結果是占據,次用戶以功率P2n接入。在數據傳輸完之后,次用戶的發射端接收到確認信號ACK2。此時,觀測值為on(m)=2。

4)若是信道n沒有被感知,次用戶以功率P2n直接接入,其發射端在傳輸完之后,收到確認信號ACK2。此時,觀測值為on(m)=3。

觀測值2與3的差別是當on(m)=3,次用戶沒有對信道進行感知。盡管確認信號是一樣的,但是次用戶的發射端依舊可以分辨出不同的觀測值。

2.3 信任向量(Belief Vector)

在POMDP問題的求解過程中,信任向量可用來在每一個時隙開始時對信道的狀態進行推斷,其具體表示的是一個基于過去的判決策略和觀測值的條件概率。在每一個時隙結束時,信任變量都會根據不同的判決和觀測值進行更新,以獲取動態環境的準確信息,假定bn(m)為信道n在時隙m的信任向量,bn(m)=[bn,0(m),bn,1(m)],bn,0(m)表示的是空閑概率的條件概率,bn,0(m)+bn,1(m)=1 。

當on(m)=3時,次用戶沒有對信道進行感知,并不知道信道的確切狀態,下一個時隙的信任變量的更新公式表示為

2.4 收益函數(Reward Function)

而在得到其他觀測值時,次用戶的期望收益值可以表示為

式中:z∈{0,1,2}表示觀測值的值空間。

值的條件概率為

它與上一個時隙的信任變量、次用戶的行為和信道實際的狀態有關系。

3 POMDP問題求解

基于POMDP的信道選擇算法的目的是求解得到一種最優的信道選擇與接入策略,以最大化次用戶系統在M個時隙的總的吞吐量。基于POMDP的優化問題可以表示為

優化問題P2是一個帶約束的POMDP優化問題,這使得其求解需要Intractable Randomized Policy對其進行求解,會帶來大量的計算量,計算復雜度很高。然而,可以通過式(15)中的限制條件(若是次用戶相信其當前的感知結果,即Pd,n(τ(m))=Pd,th)將P2 轉化成無約束的POMDP優化問題。信道n的感知時間可以從式Pd,n(τ(m))=Pd,th獲得。此時,問題簡化成在每一個時隙開始之前,選擇哪些信道進行感知和判斷信道的傳輸功率。子信道之間是相互獨立的,為此,可以將次用戶系統在多條子信道上的策略簡化為多個子信道上策略的集合,即先求出各條子信道上的優化感知與接入策略,然后得出整個系統的優化策略。各條子信道上的優化策略可以各自單獨計算得出。

1)最優策略

為了有效地求解信道n的最優策略,這里給出值函數(ValueFunction)Jm(bn(m-1)),表示當信任變量為bn(m-1)時,次用戶從時隙m到最后一個時隙M總的最大期望收益值。利用Bellman公式,可得

式中:Γ(bn(m-1),An(m),on(m)=z)=bn(m),表示在時隙m結束時信任變量的更新。可由式(14)求得。值函數(16)包含兩部分:時隙m的瞬時收益值和時隙m之后的最大期望收益值。最優策略可以通過基于點迭代的算法求解[14]。

2)次優策略

最優策略的求解會帶來大量的計算量,特別是當子信道數N很大時。為了減小計算量,降低計算復雜度,提出了一種次優策略。在次優策略中,次用戶只是最大化單個時隙內的瞬時收益即可。優化問題的目標函數表示為

次優策略可以有效地在算法計算復雜度和最優解之間取得平衡。此時,優化目標函數會變得簡單,可以使用動態規劃求得最終解[15-17]。

3)子信道之間的同步性

在上述給出的算法中,與對所有的信道同時進行聯合優化不同的是,需要對一個信道進行單獨求解最優策略和次優策略。為了將限制性的POMDP問題轉化成不帶限制條件的問題,令次用戶的接入點為Pd,n(τn(m))=Pd,th,這樣各條信道的感知時間不一樣。然而,在本文所提的算法中,次用戶使用寬帶頻譜感知模式對多條信道進行檢測,信道間的感知時間是一樣的。為此,存在一個問題:如何來保證子信道之間感知和接入的同步性,即如何在保證信道的感知時間一樣的前提下,最大化次用戶系統的性能。

為此,本文設定每條信道的判決概率門限值不一樣。假定為信道n的判決概率門限值,≥Pd,th。由于感知時間是由公式Pd,n(τn(m))=Pd,th獲得,所以,可以將表示成感知時間的函數,即(τ(m))。為了最大化次用戶系統的瞬時收益值,同時保證次用戶信道間的同步性,可以根據信道間的差異性,調整信道的判決概率門限值。優化問題可以表示為

問題P3中的限制條件不僅保護了主用戶,還保證了次用戶之間的同步性,且各條信道的感知時間是一樣的。依據函數(τ(m))凸函數的特性,限制條件(19)可以轉化成感知時間的閉區間。在對閉區間進行離散化之后,次用戶可以采用窮舉法得到最優的感知時間。感知時間的優化選取可以有效地平衡信道總的瞬時收益最大化與信道同步性的矛盾。

4 仿真實驗

在不同的仿真環境下,最優策略和次優策略以及任意策略3種進行數值分析比較,以驗證算法的性能。在任意策略中,次用戶任意選擇信道進行感知,并且信道的接入功率也是任意選擇的。3種策略的感知時間是一樣的,都是從優化問題P3得到的。主用戶的時隙周期是一定的,與次用戶的感知周期保持一致,T=10 ms。信道增益是固定的,為了簡單起見,假設次用戶發射端沒有使用自適應調制[18-19]。當傳輸功率為P1n時,信道的傳輸速率固定為R00n(m)=0.06 Mbit/s;當傳輸功率為P2n時,信傳輸速率R01n(m)=R11n(m)=0.02 Mbit/s。各個子信道的帶寬相同,為B=1 MHz,采樣頻率為fs=2 MHz,判決門限值是εn=1.5;虛警概率門限為Pd,th=0.9,總的時隙數為M=30。

圖4表示在不同的信道總數下3種策略中次用戶系統的吞吐量比較。這里主要考慮兩種情況:N=6和N=2。信道的空閑概率Pn(H0)和信噪比γn,如表1所示。由仿真結果可以看出,次用戶在最優策略中的系統性能要比其他兩者策略好,并且,當N=6時,最優策略中的系統性能優勢變大。這是因為信道的信噪比會影響到信道的感知時間。當信道數較大時,擁有較小SNR的信道會影響到整個系統的感知時間,從而影響系統的吞吐量。在優化策略中,次用戶選擇一部分信道進行感知,并不是所有的信道都被感知。與次優策略相比,次用戶在優化策略中選擇更加準確。而在任意策略中,次用戶很有可能會選擇低信噪比的信道,從而影響到整個系統的性能。當信道數很大時,最優策略中的次用戶選擇準確性的優勢就越明顯,次用戶能獲得的吞吐量就越大。

圖4 不同總信道數的次用戶吞吐量比較

表1 仿真系數

圖5表示在不同的空閑概率差值λ下,次用戶系統的吞吐量比較。信道數設為4,λ表示的是兩個相鄰信道之間空閑概率的差值,Pn(H0)=0.3+(n-1)(0.1+0.05(λ-1))。例如,當λ=1時,信道的空閑概率分別為0.3,0.4,0.5,0.6。由圖5可以發現,在不同的信道空閑概率,次用戶在最優策略下能獲得最優的系統性能。這是因為空閑概率會直接影響到信任變量的更新,在最優策略中,次用戶能獲得最佳的感知信道和合適的接入功率。

圖5 不同相鄰信道空閑概率差異值的次用戶吞吐量比較

圖6是驗證次用戶系統的吞吐量在次優策略下,最優感知時間和固定感知時間兩者的比較。在固定的感知時間算法中,把每一個時隙每一條信道的感知時間固定為τn(m)=2 ms,n∈ {1,2,3,4},m∈ {1,2,…,30}。最優感知時間算法的性能更優越。這是因為在最優感知時間算法中,每一個時隙的感知時間因為被優化,達到了平衡感知的效率與系統吞吐量最大化之間矛盾的目的。

圖7表示的是3種接入策略下次用戶系統吞吐量的比較。在該仿真實驗中,主用戶的信道數為4,信道n的空閑概率為Pn(H0)=0.3+0.2(n-1),信噪比為γn=2.1+0.2(n-1),n∈{1,2,3,4}。由圖7 可以發現,次用戶在混合接入策略下可以獲得更多的吞吐量,這是因為在混合接入下,無論感知結果是空閑還是占據,次用戶都能以不同的發射功率接入信道,次用戶的吞吐量得到有效的提高。

圖6 不同感知時間時的次用戶吞吐量比較

圖7 不同接入策略時的次用戶吞吐量比較

5 小結

在動態的頻譜環境下,本文提出了一種基于POMDP的信道選擇算法。為了最大化次用戶系統的吞吐量,同時減小計算量,在每一個時隙開始時,次用戶選擇部分信道進行感知,之后根據感知結果選擇不同的傳輸功率接入信道,對于沒有被感知的信道,次用戶直接接入。通過POMDP理論來刻畫信道選擇過程,并求得最優策略和次優策略來求解POMDP問題。仿真結果驗證了算法的有效性。

:

[1]MITOLA J,MAGUIRE G Q.Cognitive radio:making software radios more personal[J].IEEE Personal Communications,1999,6(4):13-18.

[2]MITOLA J.Cognitive radio:an integrated agent architecture for software defined radio[D].Stockholm:Technology,Royal Inst.Technol. ,2000.

[3]HAYKIN S.Cognitive radio:brain-empowered wireless communications[J],IEEE J.Sel.Areas Commu.,2005,23(2):201-220.

[4]王欽輝,葉保留,田宇.認知無線電網絡中的頻譜分配算法[J].電子學報,2012,40(1):147-154.

[5]郭彩麗,張天魁,曾志民,等.認知無線電關鍵技術及應用的研究現狀[J].電信科學,2006(8):50-55.

[6]王軍,李少謙.認知無線電:原理、技術與發展趨勢[J].中興通訊技術,2007,13(3):1-4.

[7]ZHAO Q,TONG L,SWAMI A,et al.Decentralized cognitive MAC for opportunistic spectrum access in Ad Hoc networks:a POMDP framework[J].IEEE J.Sel.Areas Commun.,2009,25(3):589-600.

[8]CHEN Y,ZHAO Q,SWAMI A.Joint design and separation principle for opportunistic spectrum access in the presence of sensing errors[J].IEEE Trans.Information Theory,2008,54(5):2053-2071.

[9]HOANG A,LIANG Y C,WONG D,et al.Opportunistic spectrum access for energy-constrained cognitive radio[J].IEEE Trans.Wireless Communications,2009,8(3):1206-1211.

[10]GONG S,WANG P,LIU W.et al.Maximize secondary user throughput via optimal sensing in multi-channel cognitive radio networks[C]//Proc.IEEE Global Telecommunications Conference. [S.l.]:IEEE Press,2010:1-5.

[11]STOTAS S,NALLANATHAN A.Optimal sensing time and power allocation in multiband cognitive radio networks[J].IEEE Trans.Communications,2011,59(1):226-235.

[12]CHOI K.Adaptive sensing technique to maximize spectrum utilization in cognitive radio[J].IEEE Trans.Vehicular Technology,2010,59(2):992-998.

[13]張國斌.認知無線電系統資源管理與分配關鍵技術研究[D].廣州:華南理工大學,2011.

[14]SMITH T,SIMMONS R.Point-based POMDP algorithms:improves analysis and implementation,available line[EB/OL].[2013-07-07].http://uia.sis.pitt.edu/papers/05/p542-smit.pdf.

[15]ZHAO Q,KRISHNAMACHARI B,LIU K.On myopic sensing for multi-channel opportunistic access structure,optimality and performance[J].IEEE Trans.Wireless Communications,2008,7(12):5431-5441.

[16]ZHANG T,TSANG D.Optimal cooperative sensing scheduling for energy-efficient cognitive radio networks[C]//Proc.IEEE Infocom 2011.[S.l.]:IEEE Press,2011:2723-2731.

[17]張曉,王金龍,吳啟暉.認知無線電中基于狀態轉移概率的感知時隙優化算法[J].通信學報,2011,32(8):72-80.

[18]JIANG H,LAI L F,FAN R F,et al.Optimal selection of channel sensing order in cognitive radio[J].IEEE Trans.Wireless Communications,2009,8(1):297-307.

[19]FAN R F,JIANG H.Channel sensing-order setting in cognitive radio networks:a two-user case[J].IEEE Trans.Vehicular Technology,2009,58(9):4997-5008.

猜你喜歡
優化用戶策略
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
例談未知角三角函數值的求解策略
我說你做講策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 欧美一区二区三区国产精品| 青草娱乐极品免费视频| 国产福利免费视频| 国产无人区一区二区三区| 国产精品福利导航| 亚洲国产日韩在线观看| 超碰精品无码一区二区| 国产精品不卡片视频免费观看| 91一级片| 四虎成人精品在永久免费| 亚洲全网成人资源在线观看| 亚洲高清无在码在线无弹窗| 色首页AV在线| 欧美午夜小视频| 在线一级毛片| 波多野吉衣一区二区三区av| 色九九视频| 在线a网站| 国产精品xxx| 在线a网站| 国产精品天干天干在线观看| 青青草91视频| 亚洲欧洲国产成人综合不卡| 99久久国产综合精品2023| 青青青国产在线播放| 波多野结衣二区| 好久久免费视频高清| 人妻丰满熟妇αv无码| 国产在线自揄拍揄视频网站| 欧洲一区二区三区无码| 国产导航在线| 精品国产www| 99无码熟妇丰满人妻啪啪| 成人久久18免费网站| 婷婷激情五月网| 国产成年无码AⅤ片在线| 国产精品美女免费视频大全| 日韩精品高清自在线| 亚洲色偷偷偷鲁综合| 亚洲成人一区二区三区| 狠狠色综合网| 亚洲国产成人久久精品软件| 国产在线小视频| 亚洲国产成人麻豆精品| 亚洲自偷自拍另类小说| 高清视频一区| 波多野结衣在线一区二区| 国产99精品视频| 欧美激情成人网| 日韩无码黄色| 99ri精品视频在线观看播放| 色综合激情网| 国产综合网站| 午夜老司机永久免费看片 | 国产成人a毛片在线| 免费99精品国产自在现线| 在线国产91| 中日韩一区二区三区中文免费视频 | 久久伊人久久亚洲综合| 中文字幕在线播放不卡| 日韩麻豆小视频| 四虎永久在线| 久久6免费视频| 欧美成人国产| 最新痴汉在线无码AV| 色老头综合网| 国产白浆在线| 国产精品免费福利久久播放 | 日本人又色又爽的视频| 免费观看三级毛片| jijzzizz老师出水喷水喷出| 四虎成人在线视频| 九九热精品免费视频| 99久久人妻精品免费二区| 色综合成人| 98精品全国免费观看视频| 国产精品美女在线| 久操中文在线| 亚洲天堂2014| 国产精品天干天干在线观看| 国产人碰人摸人爱免费视频| 国产精品九九视频|