基于跨層優(yōu)化的HE-PDS最優(yōu)傳輸算法設(shè)計(jì)

2014-07-02 00:30:10趙治羽

電視技術(shù) 2014年23期

關(guān)鍵詞：動(dòng)作

趙治羽，張娟

(西南科技大學(xué)信息工程學(xué)院，四川綿陽(yáng)621010)

基于跨層優(yōu)化的HE-PDS最優(yōu)傳輸算法設(shè)計(jì)

趙治羽，張娟

(西南科技大學(xué)信息工程學(xué)院，四川綿陽(yáng)621010)

針對(duì)信道狀態(tài)時(shí)變性以及無(wú)線設(shè)備電量有限性的影響，從跨層設(shè)計(jì)的角度出發(fā)，聯(lián)合物理層發(fā)送功率和信道狀態(tài)條件以及鏈路層的緩沖隊(duì)列擁塞控制來(lái)尋找最優(yōu)傳輸策略，并提出一種啟發(fā)式評(píng)估后決策算法(HE-PDS)進(jìn)行求解。仿真分析表明該算法在動(dòng)態(tài)無(wú)線環(huán)境下能以較快的速度收斂于最優(yōu)傳輸策略，對(duì)于不同的延時(shí)和吞吐量限制，該算法的性能要明顯優(yōu)于傳統(tǒng)的Q學(xué)習(xí)算法和后決策狀態(tài)學(xué)習(xí)算法。

跨層優(yōu)化;啟發(fā)式評(píng)估后決策算法;最優(yōu)傳輸

對(duì)于靠電池提供有限電能的無(wú)線通信，最小化能量開(kāi)銷(xiāo)已成為一項(xiàng)巨大的挑戰(zhàn)［1］。然而，受信道狀態(tài)、包到達(dá)速率和緩沖隊(duì)列的時(shí)變性以及業(yè)務(wù)特征的動(dòng)態(tài)性等因素的影響，這一問(wèn)題變得非常復(fù)雜［2］。目前關(guān)于無(wú)線傳輸節(jié)能問(wèn)題的相關(guān)研究現(xiàn)狀如下。

文獻(xiàn)［3］分析了延時(shí)和能量開(kāi)銷(xiāo)間的平衡，文獻(xiàn)［4-5］分析了吞吐量和能量開(kāi)銷(xiāo)間的平衡。這些研究獲得了較好的節(jié)能效果，但沒(méi)有綜合考慮延時(shí)、吞吐量和能量開(kāi)銷(xiāo)三者間的平衡。針對(duì)MDP模型特點(diǎn)，文獻(xiàn)［4-6］將最優(yōu)包傳輸策略建模成一個(gè)控制策略，借助強(qiáng)化學(xué)習(xí)(Reinforcement Learning，RL)理論進(jìn)行求解。然而，上述傳輸策略是通過(guò)離線計(jì)算來(lái)完成的，這使得其應(yīng)用受到較大限制。文獻(xiàn)［3］經(jīng)引入后決策狀態(tài)(Post Decision State，PDS)和PDS值函數(shù)來(lái)構(gòu)建PDS算法，但其未考慮系統(tǒng)級(jí)的電源狀態(tài)對(duì)傳輸模型的影響。文獻(xiàn)［6］雖基于PDS算法考慮了電源狀態(tài)變化，并獲得了較好的節(jié)能策略，但卻未對(duì)學(xué)習(xí)中動(dòng)作探索和利用進(jìn)行動(dòng)態(tài)平衡，因此算法的收斂性能有待提高。

為解決以上問(wèn)題，本文綜合考慮系統(tǒng)的吞吐量和傳輸延時(shí)，提出一種基于啟發(fā)式評(píng)估后決策狀態(tài)(Heuristic Evaluation Post Decision State，HE-PDS)算法的包傳輸策略。該算法計(jì)算復(fù)雜度低、收斂速度快，使得其在延時(shí)和吞吐量的限制下能獲得較好的節(jié)能性能。

1 通信模型描述

如圖1所示，傳輸模型是收發(fā)雙方在時(shí)變信道條件下，通過(guò)有限緩沖隊(duì)列傳輸數(shù)據(jù)。本文把傳輸時(shí)間劃為等長(zhǎng)的時(shí)隙，時(shí)隙周期為Δt，時(shí)隙n代表離散時(shí)間段［nΔt，(n+1)Δt］。設(shè)傳輸決策和電源管理決策在每個(gè)時(shí)隙前是確定的，系統(tǒng)狀態(tài)信息在每個(gè)時(shí)隙中不變。根據(jù)接收端反饋的延時(shí)、吞吐量和信道狀態(tài)信息，發(fā)送端對(duì)傳輸速率和傳輸功率分別進(jìn)行自適應(yīng)調(diào)整。

1.1 PHY信道模型

考慮一個(gè)帶有加性高斯白噪聲的離散塊狀衰落瑞利信道模型［7-8］，其功率譜密度為N0/2，無(wú)線信道帶寬為W。信道狀態(tài)轉(zhuǎn)移只發(fā)生在相鄰信道狀態(tài)之間，在一個(gè)時(shí)隙內(nèi)，信道增益固定不變。如圖2所示，本文采用具有k個(gè)信道狀態(tài)的有限狀態(tài)馬爾科夫信道模型(Finite State Markov channel，F(xiàn)SMC)來(lái)描述無(wú)線信道。

圖1 無(wú)線通信模型

圖2 FSMC模型

式中:πk為信道平穩(wěn)狀態(tài)概率，即

1.2 MAC緩沖隊(duì)列模型

如圖3所示，設(shè)緩沖隊(duì)列具有先進(jìn)先出特性。緩沖隊(duì)列容量為B個(gè)數(shù)據(jù)包。緩沖隊(duì)列滿(mǎn)時(shí)，新到數(shù)據(jù)包被丟棄。每個(gè)時(shí)隙到達(dá)的數(shù)據(jù)包為獨(dú)立隨機(jī)分布，在第n時(shí)隙，發(fā)送端將上層到達(dá)的l個(gè)數(shù)據(jù)包存儲(chǔ)在緩沖隊(duì)列，并將緩沖隊(duì)列中一些數(shù)據(jù)包發(fā)送出去。

圖3 緩沖隊(duì)列時(shí)序圖

設(shè)發(fā)送端在第n時(shí)隙可傳輸zn包數(shù)據(jù)，其中，zn∈{0，1，…，B}，受系統(tǒng)誤比特率(Bit Error Ratio，BER)的影響，接收端所接收的數(shù)據(jù)包數(shù)fn(BERn，zn)≤zn，設(shè)傳輸?shù)臄?shù)據(jù)包間相互獨(dú)立，因此fn服從二項(xiàng)式分布

式中:PER是包丟失率(Packet Error Ratio)，且PERn= 1-(1-BERn)ln。

設(shè)緩沖隊(duì)列初始時(shí)有bint包數(shù)據(jù)，n時(shí)隙緩沖隊(duì)列有bn包數(shù)據(jù)，因此發(fā)送端緩沖隊(duì)列中的數(shù)據(jù)包數(shù)為

2 啟發(fā)式評(píng)估PDS算法——HE-PDS算法

傳統(tǒng)的Q學(xué)習(xí)算法在狀態(tài)—?jiǎng)幼鲗?duì)的學(xué)習(xí)過(guò)程中，往往假設(shè)環(huán)境狀態(tài)信息是完全不確定的，然而，在許多通信模型中，可分類(lèi)出確定的環(huán)境信息。這樣在學(xué)習(xí)中就能充分利用系統(tǒng)確定的狀態(tài)信息，縮短收斂到最優(yōu)策略的時(shí)間。PDS算法是改進(jìn)后的Q算法［6］，不同的是，它通過(guò)引入PDS來(lái)組織和構(gòu)建對(duì)最優(yōu)策略的搜索［9］。

2.1 HE-PDS算法描述

在RL中，PDS算法可利用已確定信息來(lái)減少動(dòng)作的探索［6］，但卻不能對(duì)動(dòng)作的探索與利用進(jìn)行平衡。本文設(shè)計(jì)的HE-PDS算法解決了該問(wèn)題，在HE-PDS算法中，使用啟發(fā)函數(shù)和評(píng)估函數(shù)來(lái)改進(jìn)貪婪算法。啟發(fā)函數(shù)和評(píng)估函數(shù)分別為狀態(tài)sn時(shí)執(zhí)行動(dòng)作an的重要性和可行性。

式中:ε和ω用于權(quán)衡啟發(fā)函數(shù)和評(píng)估函數(shù)的影響;q是均勻分布在0～1間的隨機(jī)值;p(0≤p≤1)為探索與利用的比重，p越大，隨機(jī)選擇的概率越小。啟發(fā)函數(shù)Hn(sn，an)影響動(dòng)作選擇，但因大部分動(dòng)作不滿(mǎn)足最優(yōu)策略要求，需經(jīng)評(píng)估函數(shù)En(sn，an)來(lái)減少待選動(dòng)作數(shù)量。為了最小化啟發(fā)函數(shù)和評(píng)估函數(shù)的誤差，其值要盡可能低，相應(yīng)函數(shù)值分別定義為

式中:σ是一個(gè)較小的實(shí)數(shù);πH(sn)是啟發(fā)式建議動(dòng)作。另外，式(5)中arandom是sn下從所有可能動(dòng)作中隨機(jī)選擇的動(dòng)作，即故意執(zhí)行一種非最優(yōu)動(dòng)作來(lái)獲得未知狀態(tài)的知識(shí)。為保證探索過(guò)程中所有狀態(tài)-動(dòng)作對(duì)遍歷的有效性，本文采用文獻(xiàn)［10］中的模擬退火算法進(jìn)行動(dòng)作選擇。在當(dāng)前狀態(tài)下執(zhí)行動(dòng)作a的概率為

式中:τ為溫度系數(shù)，其控制動(dòng)作選擇的隨機(jī)程度。

無(wú)線傳輸節(jié)能模型的求解過(guò)程為:利用HE-PDS算法與環(huán)境交互，對(duì)第n次學(xué)習(xí)中系統(tǒng)觀察當(dāng)前狀態(tài)為sn，選擇和執(zhí)行動(dòng)作an，接受立即回報(bào)r(s，a)和r)，再觀察后續(xù)狀態(tài) sn+1，根據(jù)式(9)來(lái)調(diào)整的值。

2.2 算法步驟

根據(jù)上述分析，HE-PDS算法的算法步驟:

第二步:對(duì)于當(dāng)前狀態(tài)sn，執(zhí)行由式(8)所得到的動(dòng)作an，觀察立即回報(bào)r()和下一個(gè)狀態(tài)an+1;

第四步:更新時(shí)間索引n←n+1;

第五步:如果n小于仿真次數(shù)N，轉(zhuǎn)向第二步，否則仿真結(jié)束。

3 仿真結(jié)果及討論

針對(duì)本文所提出的HE-PDS節(jié)能算法分別在固定延時(shí)和吞吐量限制、不同延時(shí)和不同吞吐量限制下，與傳統(tǒng)Q算法和PDS算法的節(jié)能算法進(jìn)行了對(duì)比，并對(duì)三者的收斂性進(jìn)行了仿真分析。

3.1 仿真環(huán)境及參數(shù)配置

為驗(yàn)證HE-PDS算法對(duì)無(wú)線通信節(jié)能策略的有效性，假設(shè)物理層設(shè)計(jì)為處理QAM矩陣星座，并使用格雷碼將信息比特映射成QAM符號(hào);緩沖隊(duì)列B=25，包大小為5 000 bit，包到達(dá)概率分布和信道轉(zhuǎn)移概率是先驗(yàn)不確定的，其信道狀態(tài)及轉(zhuǎn)移概率見(jiàn)表1。

表1 信道狀態(tài)及其轉(zhuǎn)移概率

噪聲功率譜密度N0/2=10-11W/Hz，帶寬W與符號(hào)率相等(W=1/Ts)，1/Ts=500×103symbol/s。在典型IEEE802.11a/b/g無(wú)線網(wǎng)卡應(yīng)用中，設(shè)定Pidle為0.05 W，Pon和Ptr為0.31W，時(shí)隙周期為1 ms，BER為{2，4，8，16，32}×10-6%，傳輸動(dòng)作z為{0，1，2，…，10}packet/slot。因此仿真實(shí)驗(yàn)共有7×26×2×5×11×2個(gè)狀態(tài)—?jiǎng)幼鲗?duì)。設(shè)折現(xiàn)系數(shù)γ=0.98，啟發(fā)評(píng)估函數(shù)的參數(shù)設(shè)置為: ε=ω=1，p=0.78，σ=0.005，τ=5 000。

3.2 固定延時(shí)和吞吐量限制

圖4是三種算法在最大延時(shí)限制值和最大吞吐量限制值分別為4/B包和0.1/B包時(shí)進(jìn)行80 000次仿真的結(jié)果對(duì)比圖。

從圖4a中可看出PDS算法和HE-PDS算法的平均累積總開(kāi)銷(xiāo)較傳統(tǒng)的Q算法下降了10倍左右。同時(shí)，從圖4a，4b，4c知，相對(duì)于PDS算法，HE-PDS算法的平均累積總開(kāi)銷(xiāo)、平均累積延時(shí)開(kāi)銷(xiāo)、平均累積吞吐量開(kāi)銷(xiāo)降低較為明顯，分別降低了8%，10%，9%左右。另外，從圖4d可知，Q算法在仿真初期能量開(kāi)銷(xiāo)較小。但隨著仿真時(shí)間的增加，其能量開(kāi)銷(xiāo)也隨之增加，并在第40 000時(shí)隙左右達(dá)到穩(wěn)定。而PDS算法和HE-PDS算法在仿真初期由于沒(méi)有無(wú)線環(huán)境的全部先驗(yàn)知識(shí)，其能量開(kāi)銷(xiāo)較大，但隨著學(xué)習(xí)次數(shù)增加，其能量開(kāi)銷(xiāo)也隨之減小。HE-PDS算法在滿(mǎn)足固定延時(shí)和吞吐量限制下，能較快降低系統(tǒng)的能量開(kāi)銷(xiāo)，并具有快速的收斂速度。

3.3 不同延時(shí)和吞吐量限制

1)不同延時(shí)限制下的性能分析

為驗(yàn)證不同延時(shí)限制下的算法性能，對(duì)延時(shí)限制值為［3，4，5，6，7，8，9，10，11］/B packet/slot分別進(jìn)行仿真。圖5為三種學(xué)習(xí)算法的仿真結(jié)果。

圖4 固定延時(shí)和吞吐量限制下的仿真結(jié)果

圖5 不同延時(shí)限制下的能量開(kāi)銷(xiāo)

從圖5可以看出，對(duì)不同延時(shí)限制值，HE-PDS算法的能量開(kāi)銷(xiāo)較Q算法和PDS算法的能量開(kāi)銷(xiāo)分別減小50%和28%左右。隨著延時(shí)限制值逐漸變大，三種算法的能量開(kāi)銷(xiāo)也隨之變小，且Q算法和PDS算法分別在9/B packet/slot和8/B packet/slot達(dá)到穩(wěn)定，而HE-PDS算法在5/B packet/slot達(dá)到穩(wěn)定。因此，在不同延時(shí)限制下，HE-PDS算法在減少能量開(kāi)銷(xiāo)方面有明顯優(yōu)勢(shì)。

2)不同吞吐量限制下的性能分析

為驗(yàn)證不同吞吐量限制的算法性能，對(duì)［0.1，0.2，0.3，0.4，0.5，0.6，0.7，0.8，0.9］/B packet/slot的吞吐量限制進(jìn)行算法仿真，如圖6所示的仿真結(jié)果。

圖6 不同吞吐量限制下的能量開(kāi)銷(xiāo)

從圖6可以看出，在不同吞吐量限制下，Q算法和PDS算法的能量開(kāi)銷(xiāo)較HE-PDS算法要大100%和56%左右。Q算法和PDS算法在吞吐量為0.7/B packet/slot后趨于穩(wěn)定，HE-PDS算法能較快尋找到最優(yōu)策略，在吞吐量限制為0.5/B packet/slot后即趨于穩(wěn)定。顯然，HE-PDS算法具有更好的學(xué)習(xí)性能。

4 結(jié)論

在滿(mǎn)足延時(shí)和吞吐量限制的動(dòng)態(tài)業(yè)務(wù)特征下，降低能量開(kāi)銷(xiāo)給無(wú)線通信帶來(lái)了巨大的挑戰(zhàn)。由于點(diǎn)對(duì)點(diǎn)無(wú)線業(yè)務(wù)傳輸過(guò)程中，受動(dòng)態(tài)的緩沖隊(duì)列、時(shí)變的信道條件以及系統(tǒng)級(jí)的動(dòng)態(tài)電源能量消耗對(duì)無(wú)線傳輸?shù)挠绊懀疚奶岢鲆环NHE-PDS算法，通過(guò)配置跨層參數(shù)實(shí)現(xiàn)用戶(hù)在動(dòng)態(tài)未知環(huán)境中的節(jié)能策略。仿真結(jié)果表明在固定的延時(shí)和吞吐量限制以及不同的延時(shí)、不同的吞吐量限制下該算法與傳統(tǒng)的Q算法、PDS算法相比具有更好的學(xué)習(xí)性能。

［1］MADAN R，CUIS，LALLS，etal.Cross-layer design for lifetimemaximization in interference-limited sensor networks［J］.IEEE Trans.Wireless Communications，2006(11)，3142-3152.

［2］YANG J，ULUKUSS.Optimal packetscheduling in an energy harvesting communication system［J］.IEEE Trans.Communications，2012，60(1): 220-230.

［3］SALODKAR N，BHORKAR A，KARANDIKAR A，et al.An on-line learning algorithm for energy efficient delay constrained scheduling over a fading channel［J］.IEEE Journal on Selected Areas in Communications，2008，26(4):732-742.

［4］ ZHONG X，XU C.Energy-efficient wireless packet schedulingwith qualityof service control［J］.IEEE Trans.Mobile Computing，2007，6 (10):1158-1170.

［5］HOANG A T，MOTANIM.Cross-layer adaptive transmission:optimal strategies in fading channels［J］.IEEE Trans.Communications，2008，56(5):799-807.

［6］MASTRONARDE N，SCHAAR M V D.Fast reinforcement learning for energy-efficient wireless communication［J］.IEEE Trans.Signal Processing，2011，59(12):6262-6266.

［7］白鷺，郭靜波.多徑衰落信道下混沌直擴(kuò)通信的可破解性［J］.物理學(xué)報(bào)，2011，60(7):82-89.

［8］HUSSAIN S I，HASNA M O.Performance analysis of selective cooperation with fixed gain relays in Nakagami-m channels［J］.MS Physical Communication，2012，5(3):272-279.

［9］PANDANA C，LIU K JR.Throughputmaximization for energy efficient multi-node communicaitons using actorcritic approach［C］// Proc.Global Telecommunicaitons Conference.Dallas:IEEE Press，2004:3578-3582.

［10］BANDYOPADHYAY S，SAHA S，MAULIK U，etal.A simulated annealing-based multiobjective optimization algorithm:AMOSA［J］.IEEE Trans.Evolutionary Computation，2008，12(3):269-283.

Design of HE-PDSOptimal Transm ission Based on Cross-layer Optim ization

ZHAO Zhiyu，ZHANG Juan
(School of Information Engineering，Southwest University of Science and Technology，Sichuan Mianyang 621010，China)

Due to time-varying channel state and limited energy supply，in thispaper，a Heuristic Evaluation Post-decision State learning algorithm is proposed with the aspect in cross-layer design by analyzing the system cross-layer parameter adjustment，the transmitting power and channel state condition at the physical layer and the buffer congestion control at themedia access control layer are jointly considered to achieve a scheduling policingmechanism.The simulation results demonstrate that the proposed algorithm has better performance than the traditional Q learning algorithms and PDS learning algorithm.

cross-layer optimization;heuristic evaluation post decision;optimal transmission

TN92

?? 京

2014-03-14

【本文獻(xiàn)信息】趙治羽，張娟.基于跨層優(yōu)化的HE-PDS最優(yōu)傳輸算法設(shè)計(jì)［J］.電視技術(shù)，2014，38(23).

國(guó)家自然科學(xué)基金項(xiàng)目(61379005);西南科技大學(xué)博士基金項(xiàng)目(122x7127)