999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

反向散射輔助的無線供能通信中的信息年齡最小化

2022-12-31 00:00:00宋兆希唐冬黃高飛趙賽劉貴云
計算機應用研究 2022年8期

摘要:信息年齡(AoI)是一種從目的端的角度衡量所捕獲數據新鮮度的性能指標。在能量受限的實時感知物聯網場景中,為了提高系統的AoI性能,提出了聯合采樣和混合反向散射通信更新的策略。該策略通過允許源端選擇狀態采樣動作以及更新過程的傳輸模式來最小化系統的長期平均AoI。具體來說,首先將該優化問題建模為一個平均成本馬爾可夫決策過程(MDP);然后在已知環境動態信息的情況下,通過相關值迭代算法獲取最優策略;在缺乏環境動態信息的情況下,采用Q學習算法和探索利用方法,通過與環境的試錯交互來學習最優策略。仿真結果表明,與兩種參考策略相比,所提出的策略明顯提高了系統AoI性能,同時發現系統的AoI性能隨更新包尺寸的減小或者電池容量的增大而提升。

關鍵詞:信息年齡; 無線供能通信; 反向散射通信; 馬爾可夫決策過程; 強化學習; Q學習

中圖分類號:TP393文獻標志碼:A

文章編號:1001-3695(2022)08-034-2443-05

doi:10.19734/j.issn.1001-3695.2021.12.0691

Age of information minimization for backscatter assisted wireless powered communications

Song Zhaoxi, Tang Dong, Huang Gaofei, Zhao Sai, Liu Guiyun

(School of Electronics amp; Communication Engineering, Guangzhou University, Guangzhou 510006, China)

Abstract:Age of information (AoI) is a performance metric that captures the freshness of data from the destination’s perspective. In the energy constrained real-time sensing Internet of Things scenario, this paper proposed a joint sampling and hybrid backscatter communication updating policy to improve the AoI performance of the system. The policy minimized the long-term average AoI of the system by allowing the source to select state sampling actions and transmission modes of updating processes. Specifically, this paper modeled the problem as an average cost Markov decision process (MDP). Then, when the system realized the dynamic environment information, the paper adopted optimal strategy by relative value iterative algorithm. When the system lacked the dynamic environment information, the paper applied Q-learning algorithm and exploration exploitation technique to learn the optimal strategy through trial-and-error interactions with the environment. Simulation results show that compared with the two reference policies, the proposed policy significantly improves the AoI performance of the system, and the AoI performance of the system increases with the decrease of the update package size or the increase of battery capacity.

Key words:age of information; wireless powered communication; backscatter communication; Markov decision process; reinforcement learning; Q-learning

0引言

隨著物聯網技術的發展,近年來越來越多的無線傳感器節點被部署到各種實時狀態監控系統中,例如環境監測、智能交通和智能農業系統等。這些物聯網應用基于對物理過程的實時狀態更新來輸出決策,決策的準確性取決于接收信息的新鮮程度[1]。為了衡量和量化接收信息的新鮮程度,文獻[2]提出了信息年齡(age of information,AoI),它從目的端的角度對接收信息的新鮮程度進行量化,定義為自源端生成的最新狀態更新成功到達目的端所經過的時間,時間越短(AoI值越小)新鮮度越好(AoI性能越好)。然而,物聯網設備的能量受限特性導致設備無法及時地發送更新,從而增加了物聯網應用收到過時狀態更新的可能性。能量收集(energy harvesting,EH)技術被認為是最有希望解決這一問題的方案之一,它的發展大大緩解了物聯網設備能量受限的問題。它可以通過捕獲周圍的動能、熱能、太陽能或者射頻能量(radio frequency,RF)并轉換為電能來保持設備的持久運行[3, 4]。特別是由于無線電波的無處不在,基于射頻的無線能量傳輸(wireless power transfer,WPT)被認為是有潛力的一種能量收集技術。另一方面,由于反向散射通信(backscatter communication,BC)技術具有超低功耗的特點,可廣泛應用于能量受限的物聯網和無線傳感器網絡場景中,以降低設備的通信能耗和運行成本。因此,在時間敏感的物聯網網絡中考慮結合WPT和BC技術可以減小系統的整體能耗,實現在維持網絡設備監測服務持續運行的同時保持物聯網應用接收信息的新鮮度。

AoI的早期工作主要集中在從排隊論的角度最小化AoI,即通過將更新系統建模為由源、服務設施、監視器組成的隊列系統,并利用最優化理論工具來最小化AoI[2,5]。最近,文獻[6~8]研究了在能量收集通信系統中AoI的分析和優化,其中源端使用從自然界中獲取的能量進行更新傳輸,并且由于能量產生的不可預測性,能量收集過程通常被建模為獨立的隨機過程。然而,當源端從周圍的射頻信號中進行能量收集時[9~11],收集的能量大小將依賴于射頻源的發射功率和當前時隙的信道狀態信息(channel state information,CSI)。文獻[12]進一步考慮了更新的生成時間并提出了一種聯合采樣和更新策略,在該策略中,源端需要決定更新包的生成和發送時間,然后在需要發送時通過無線供能通信(wireless powered communication, WPC)實現狀態更新包的傳輸。然而,由于WPC需要消耗大量的能量進行主動信息傳輸,這導致了高功耗問題,進一步加劇了源端的電池能量限制。

不同于WPC,BC是一種新興的綠色低功耗通信技術[13],它是實現可持續通信的一種有希望的選擇。具體地,BC可以通過反射來自外部射頻源的入射信號來進行信息傳輸,無須產生主動射頻信號,所以消耗的功率要比WPC低幾個數量級。然而,BC的傳輸范圍有限且數據速率相對較低。為了克服BC的局限,文獻[14~17]研究了一種結合BC和WPC的混合反向散射通信(hybrid backscatter communication,HBC)方案以最大化系統吞吐量性能,其中發射器可以自適應地選擇BC或WPC進行數據傳輸。特別是文獻[17]提出了一種新的混合通信協議,在該協議中混合發射器被允許以細粒度的方式在一個時間塊內自適應地切換EH、BC或IT模式來進一步提高系統的吞吐量性能。然而,文獻[14~17]并沒有考慮到如何在反向散射輔助的無線供能通信中最小化系統的AoI值。

盡管在反向散射通信的研究中以AoI為性能指標的文獻較少,但它依然是一個關鍵因素。因此,在時間敏感的物聯網應用中,開發一種以最小化系統平均AoI為目標的采樣和更新策略是本文的研究重點。 雖然文獻[12]所提出的聯合采樣和WPC更新策略在一定程度上提高了系統的AoI性能,但是WPC的高功耗特性間接地限制了系統AoI性能的提高。在這種情況下,本文考慮結合WPT和BC技術實現狀態更新的傳輸,通過運用基于模型的相關值迭代算法和無模型的Q學習算法[18]求解優化問題,提出了一種最小化系統長期平均AoI的聯合采樣和HBC更新策略。該策略通過允許源端根據當前信道狀態、電池能量狀態以及源端和目的端AoI信息自適應地選擇狀態采樣動作和更新傳輸模式來進一步提高系統的AoI性能。

1系統模型

系統模型如圖1所示。該模型為由一個能量發射器ET、源端S和目的端D組成的無線反向散射傳感器網絡。其中,能量發射器ET連接到電網,用于向源端提供射頻能量。源端包括一個能對物理過程進行實時狀態采樣的傳感器和一個能向目的地發送狀態更新信息的混合發射器。混合發射器配備射頻能量收集電路、反向散射電路和主動射頻電路,以便通過混合反向散射和無線供能通信實現射頻能量的收集和狀態信息的傳輸。

假設系統時間被劃分為具有索引n=0,1,2,…,N的單位時隙。不失一般性,假設每個時隙的持續時間為1 s。源端S將在每個時隙的開始時刻決定采樣動作和更新模式,并且狀態采樣和更新傳輸可以在一個時隙內完成。此外,本文考慮源端可以執行復雜的任務,因此狀態采樣的時間成本和能量成本不可忽略[19]。令h(n)和g(n)分別表示n時隙ET到S、S到D的信道鏈路增益,假設它們都受到準靜態信道衰落的影響,這意味著信道狀態將在一個時隙內保持不變,在不同時隙之間獨立變化。

1.1監測模型

考慮一種聯合采樣和混合反向散射通信更新策略,即在n時隙的開始時刻,源端不僅需要決定傳感器的狀態采樣動作,還需要決定混合發射器的狀態更新模式。狀態更新模式示意圖如圖2所示。在時隙n內,源端可以通過控制其內的混合發射器執行EH模式進行能量收集,或者執行BC、IT等單一模式或者執行EH-BC、EH-IT、BC-IT、EH-BC-IT等組合模式進行狀態更新的傳輸。特別地,為了易于處理,可以將EH模式表示為a模式,用于狀態更新傳輸的單一模式BC,IT表示為b和c模式,并且組合模式EH-BC、EH-IT、BC-IT、EH-BC-IT分別對應表示為d、e、f以及g模式。

令a(n)=(w(n),zm(n))表示n時隙源端的狀態采樣和更新模式向量,其中w(n)∈{0,1}為源端的狀態采樣動作,zm(n)∈{0,1},m∈Euclid Math OneMAp{a,b,c,d,e,f,g}表示源端的狀態更新模式。若源端在n時隙進行狀態采樣則w(n)=1,否則w(n)=0。za(n)=1表示源端在n時隙進行能量收集,否則zk(n)=1,k∈Euclid Math OneMAp′{b,c,d,e,f,g}表示源端在n時隙通過k模式傳輸狀態更新。

1.2能量收集模型

假設能量發射器ET以恒定功率P向源端S持續地發送射頻能量。同時,源端將收集到的能量存儲在容量為Bmax的電池中,用于在未來進行狀態信息的采樣和更新包的傳輸。令t(n)∈{tEH(n),tBC(n),tIT(n)}表示模式運行時間向量,其中tEH(n)、tBC(n)、tIT(n)分別表示n時隙中EH、BC、IT模式的運行時間。因此,對源端的不同模式,時間分配應滿足如下約束:對于模式a,tEH(n)=1,tBC(n)=tIT(n)=0;對于模式b,tBC(n)=1,tEH(n)=tIT(n)=0;對于模式c,tIT(n)=1,tEH(n)=tBC(n)=0;類似地,模式d有tIT(n)=0,tEH(n)+tBC(n)=1;模式e有tBC(n)=0,tEH(n)+tIT(n)=1;模式f有tEH(n)=0,tBC(n)+tIT(n)=1;最后,對于模式g,tEH(n)+tBC(n)+tIT(n)=1。為了易于處理,上述等式可以表示為

za(n)tEH(n)+zb(n)tBC(n)+zc(n)tIT(n)+zd(n)(tEH(n)+tBC(n))+ze(n)(tEH(n)+tIT(n))+zf(n)(tBC(n)+tIT(n))+zg(n)(tEH(n)+tBC(n)+tIT(n))=1(1)

令EH,m(n)、ET,m(n)分別表示在n時隙源端的混合發射器以m模式運行時收集的能量和消耗的能量,消耗的能量包括BC模式下電路消耗的能量Pc,BCtBC(n)、IT模式下電路消耗的能量Pc,ITtIT(n)、發送狀態更新包消耗的能量。因此,對于源端收集的能量EH,m(n)和消耗的能量ET,m(n)可以分別表示為

EH,m(n)=ηPh(n)tEH(n)if m∈{a,e}

(1-α(n))ηPh(n)tBC(n)if m∈{b,f}

0if m=c

ηPh(n)(tEH(n)+(1-α(n))tBC(n)if m∈{d,g}(2)

其中:η∈(0,1)為RF到DC的能量轉換效率;α(n)∈[0,1]表示n時隙源端的反向散射系數。

ET,m(n)=0if m=a

Pc,BCtBC(n)if m∈{b,d}

Pc,ITtIT(n)+p(n)tIT(n)if m∈{c,e}

Pc,BCtBC(n)+Pc,ITtIT(n)+p(n)tIT(n)if m∈{f,g}(3)

其中:p(n)表示n時隙源端主動信息傳輸的發射功率。根據香農公式,則n時隙內BC模式下傳輸的數據包大小為

RBC=tBC(n)log2(1+α(n)Ph(n)g(n)δ2)(4)

n時隙內IT模式下傳輸的數據包大小為

RIT=tIT(n)log2(1+p(n)g(n)δ2)(5)

若源端在n時隙決定傳輸M bit的狀態更新包,則反向散射系數α(n)和主動信息發射功率p(n)需滿足如下約束:

RBC+RIT≥M(6)

令電池能量的最大量化級別表示為bmax,用B(n)∈{0,eq,2eq,…,Bmax}表示n時隙源端的電池能量狀態,其中eq=Bmax/bmax表示能量量子。B(n)滿足如下能量因果關系:

B(n)-w(n)Es+EH,m(n)-ET,m(n)≥0(7)

因此,源端的電池能量B(n)的變化可以表示為

B(n+1)=min{max{B(n)-w(n)Es+EH,m(n)-ET,m(n),0},Bmax}(8)

1.3信息年齡模型

AoI定義為自源端生成的最新更新到達目的地所經歷的時間。令C(n)∈{1,2,…,Cmax}和A(n)∈{1,2,…,Amax}分別表示n時隙源端的AoI和目的端的AoI,Cmax和Amax分別表示源端和目的端的AoI上界。假設源端執行狀態采樣需要花費1個時隙的時間成本以及Es大小的能量成本。若源端決定進行狀態采樣,則由于1個時隙的采樣時間成本,C(n)保持不變,C(n+1)重置為1,否則C(n+1)線性增加1。因此,源端AoI的動態變化可以表示為

C(n+1)=1 ifa(n)=(1,zm(n))

min{Cmax,C(n)+1}ifa(n)=(0,zm(n)) (9)

其中:m∈Euclid Math OneMAp。為了簡化表示,上述等式可以重寫為

C(n+1)=(1-w(n))min{Cmax,C(n)+1}+w(n)(10)

同時,假設源端傳輸狀態更新需要1個時隙的傳輸時間。若源端決定進行狀態更新,則A(n)重置為C(n)+1,否則A(n)線性增加1。因此,A(n)的動態變化可以表示為

A(n+1)=min{Amax,C(n)+1}ifa(n)=(w(n),zk(n))

min{Amax,A(n)+1}ifa(n)=(w(n),za(n)) (11)

其中:k∈Euclid Math OneMAp′。為了簡化表示,A(n+1)可以通過以下約束表示:

A(n+1)=zk(n)min{Amax,C(n)+1}+za(n)min{Amax,A(n)+1}(12)

1.4優化問題

令π={x(0),x(1),…,x(N)}∈Π表示源端采取的一個確定性決策,它決定了源端每個時隙的狀態采樣和更新模式決策。其中x(n)為n時隙源端采取的某個狀態采樣動作和更新模式,Π為所有可能的策略集合。若源端采取策略π,則目的端的長期平均AoI可以表示為

Aπlim supN→∞1N+1∑Nn=0Eπ[A(n)](13)

本文的目標是通過尋找年齡最優策略π*來最小化目的端的長期平均AoI。因此,尋找年齡最優策略對應于求解以下問題(P1):

(P1):minπ∈Π lim supN→∞1N+1∑Nn=0

Eπ[A(n)]

s.t.tEH(n)∈[0,1],tBC(n)∈[0,1],tIT(n)∈[0,1](14)

w(n)∈{0,1}(15)

zm(n)∈{0,1},∑m∈Euclid Math OneMApzm(n)=1(16)

式(1) (6) (8) (10) (12)

2最優決策策略

信道狀態隨時間的獨立性導致了源端的能量狀態及其能量狀態轉換的不確定性,因此最小化長期平均AoI問題是一個隨機優化問題。為了求解這個問題,本文首先將其轉換為MDP問題,然后針對環境動態信息已知的情況,在2.3節使用基于模型的相關值迭代算法對問題進行求解;針對環境動態信息未知的情況,在2.4節提出了一個無模型的Q學習算法求解問題。

2.1馬爾可夫決策過程

由于信道增益h(n)、g(n)隨時間變化的獨立性以及源端的電池能量B(n)、源端和目的端的信息年齡C(n)、A(n)動態變化過程的馬爾可夫性,所以可以將最小化長期平均AoI問題建模為無限時域的MDP問題。根據文獻[20],下面對MDP的主要組成成分進行詳細的介紹。

a)狀態空間。由于實際的信道增益是連續隨機變量,所以本文采用FSMC模型[21],將信道增益等概率劃分為K個離散信道增益。在這種情況下,可以定義n時隙的系統狀態為s(n){B(n),A(n),C(n),h(n),g(n)}∈S,其中,S是包含所有可能系統狀態的狀態空間,它是一個有限集合。

b)動作空間。在n時隙,源端需要決定傳感器的采樣動作w(n)和混合發射器的更新模式zm(n),同時確定更新模式的運行參數(包括反向散射系數α(n)、主動信息傳輸功率p(n)、模式時間分配向量t(n))。因此,在s(n)狀態下源端采取的動作可以表示為x(s(n)){w(n),zm(n),α(n),p(n),t(n)}∈χ(s)。其中,χ(s)表示系統狀態s(n)下的動作空間。

c)轉移概率。為了簡化表示,使用s={B,A,C,h,g}表示當前時隙的系統狀態,s′={B′,A′,C′,h′,g′}表示下一時隙的系統狀態。由于狀態變量之間相互獨立,所以在給定當前的系統狀態s和采取的動作x(s)下,從s轉移到s′的概率為

P(s′|s,x(s))P(B′,A′,C′,h′,g′|s,x(s))=

P(B′|B,h,g,x(s))P(A′|A,C,x(s))P(C′|C,x(s))P(h′)P(g′)(17)

d)獎勵函數。令G(s,x(s))表示在n時隙,系統狀態s下采取動作x(s)的即時成本,則G(s,x(s))可以定義為

G(s,x(s))=A′(18)

2.2問題轉換

根據2.1節對MDP組成成分的表述,優化問題(P1)的系統狀態空間和動作空間是有限的,它可以轉換為一個有限狀態有限動作的平均成本MDP問題。特別地,優化問題的每階段平均成本對應MDP問題的獎勵函數式(18)。因此,在給定初始狀態s0的情況下,可以重寫問題(P1)為

(P2):minπ∈Π lim supN→∞1N+1∑Nn=0Eπ[G(s,x(s))|s0]

s.t.式(1)(6)(8)(10)(12)(14)~(16)

2.3相關值迭代算法

若對于任意時隙n1、n2,當s(n1)=s(n2)時,如果有x(n1)=x(n2),則稱策略π∈Π是確定性平穩策略,其中Π為所有可能的確定性平穩策略集合。由于問題(P2)為有限狀態有限動作的MDP問題,所以存在一個最優的確定性平穩策略[20]。此外,由于策略是平穩的,所以在下文中時間索引可以被忽略。根據文獻[22],對于平均成本MDP問題,可以通過求解以下貝爾曼方程獲取最優策略π*:

A*+V(s)=minx∈χ(s) Q(s,x)s∈S(19)

其中:A*為最優長期平均AoI;V(s)是相關值函數,定義為

V(s)=minx∈χ(s)(Q(s,x)-Q(s0,x0))(20)

s0可以是任意給定的初始狀態,動作值函數Q(s,x)定義為

Q(s,x)=G(s,x)+∑s′∈SP(s′|s,x)V(s′)(21)

因此,可以通過求解下式獲得長期平均AoI最優策略π*:

π*=arg minx∈χ(s) Q(s,x)(22)

為了獲得A*和π*,在已知信道轉移概率的情況下,本文采用相關值迭代算法(relative value iteration algorithm,RVIA)[22]迭代地求解貝爾曼方程式(19)。特別地,對于任意初始狀態s0,在RVIA的第k+1次迭代中,有如下等式:

Q(s,x)(k+1)=G(s,x)+∑s′∈SP(s′|s,x)V(s′)(k)(23)

A(k+1)=minx∈χ(s)Q(s,x)(k+1)(24)

V(s)(k+1)=minx∈χ(s)(Q(s,x)(k+1)-Q(s0,x0)(k+1))(25)

令ck+1max-ck+1min表示第k+1次迭代的貝爾曼誤差,其中ck+1max和ck+1min分別定義為

ck+1max=maxs∈SV(s)(k+1)-V(s)(k)(26)

ck+1min=mins∈SV(s)(k+1)-V(s)(k)(27)

當第k次迭代的貝爾曼誤差滿足|Ckmax-Ckmin|≤時,A(k)將收斂到每階段最優平均成本A*,此時通過式(22)即可獲得對應的最優策略π*。

算法1相關值迭代算法

輸入:初始系統狀態s0,以及貝爾曼誤差閾值。

輸出:A*,以及最優策略π*。

a)初始化k=0,V(s)(0)=0以及|c0max-c0min|gt;。

b)當|ckmax-ckmin|gt;時,重復執行以下步驟。

c)計算每個狀態s∈S的Q(s,x)(k+1)以及A(k+1)。

d)令V(s)(k)=V(s)(k+1),計算V(s)(k+1)=minx∈χ(s)(Q(s,x)(k+1)-Q(s0,x0)(k+1)),以及ck+1max和ck+1min,更新迭代步數k=k+1后轉步驟b)。

e)通過計算式(22)可以得到最優策略π*。

2.4Q學習算法

在實際環境中,信道狀態的轉移概率通常是難以獲得的,因此本文采用一種無模型的Q學習在線算法[18]求解問題(P2),迭代地尋找最優策略。具體來說,在Q學習的算法過程中,源端通過不斷地與環境進行試錯交互,估計和學習最優的動作值函數;然后源端將根據學習到的Q值選擇當前狀態下的動作。為了保證估計的動作值函數最終能夠收斂到最優動作值函數,本文使用ε貪婪策略來權衡探索和利用,它能保證探索到足夠豐富的環境狀態,同時能利用探索到的狀態信息來最小化系統的長期平均AoI。因此,在每個時隙中,源端將以ε的概率選擇隨機動作,以1-ε的概率選擇最優動作。在數學上,遵循ε貪婪策略的動作選擇可以表示為

x(n)=arg minx∈χ(s)Q(s(n),x(n))ifεlt;pr≤1

xrd∈χ(s)ifpr≤ε(28)

其中:pr~u(0,1)為當前時隙下隨機生成的概率;xrd表示隨機選擇的動作。特別地,在給定狀態動作對(s,x)下,n時隙處Q學習的迭代更新公式可以表示為

Q(s(n),x(n))=(1-γ(n))Q(s(n),x(n))+γ(n)(G(s(n),x(n))+

minx∈χ(s)Q(s(n+1),x(n))-minx0∈χ(s0)Q(s0,x0))(29)

其中:γ(n)表示n時隙處的學習率。為了加快Q學習算法的學習速度并且保證源端探索到足夠的狀態信息,通常需要在迭代的初始時期設置較大的學習率γ(n)和貪婪率ε。另一方面,隨著迭代次數的增加,需要逐漸減少學習率和貪婪率,以便估計的動作值函數可以快速平穩地收斂到最優動作值函數。

算法2Q學習算法

輸入:初始系統狀態s0,學習率γ(n)和貪婪率ε。

輸出:學習到的策略π*。

a)初始化n=0,Q(s,x)=0,s∈S,x∈χ(s)以及學習率γ(n)和貪婪率ε,隨機選擇一個初始狀態s0。

b)當n時隙小于預設值時,重復執行以下步驟。

c)在當前狀態s(n)下根據ε貪婪策略選擇動作x(n);以ε概率選擇隨機動作,以1-ε概率選擇最優動作。

d)采取動作x(n),與環境交互獲得環境回報G(s(n),x(n))和下一個系統狀態s(n+1)。

e)通過計算式(29)更新動作值Q(s(n),x(n)),在更新時隙數n=n+1后轉步驟b)。

f)最后計算π*=arg minx∈χ(s) Q(s,x)得到學習到的策略π*。

3仿真結果及性能分析

本文對所提的聯合采樣和混合反向散射通信更新策略的性能進行了分析。為了評估所提策略的性能,本文與聯合采樣和WPC更新策略(表示為A策略)[12]、聯合采樣和BC更新策略(表示為B策略)進行了對比。仿真結果展示了在信道動態信息已知的情況下算法1的性能,以及在缺乏信道動態信息的情況下算法2提出的Q學習算法的性能。

3.1仿真參數設置

在仿真中,設置源端的能量收集效率η=0.7,目的端的噪聲功率δ2=-95 dBm[12]。能量發射器ET到源端S的距離dES以及源端S到目的端D的距離dSD為10 m。路徑損失建模為L=20+20log10d[17,23],其中d是信道鏈路距離。設置每個時隙的持續時間為1 s,能量發射器的發射功率P為25 dBm,源端電池容量為Bmax=10ηP[17],其中為源端上行鏈路的平均信道增益。狀態采樣的能量成本Es=3eq,反向散射通信和主動信息傳輸的電路能耗分別設置為Pc,BC=8.9 μW,Pc,IT=113 μW[17,24]。源端的反向散射系數被離散化為5級,其余狀態和動作變量被離散化為10級。特別地,由于采用等概率的方法劃分信道增益,信道狀態轉移概率為P(h′)=P(g′)=1/K=0.1。

3.2性能分析

仿真結果圖3~5展示了在信道動態信息已知情況下相關值迭代算法的性能。其中,圖3顯示了ET的發射功率變化時不同策略的可實現最優長期平均AoI,更新包的大小設定為M=18 MB。可以看到,無論ET的發射功率如何變化,本文提出的策略明顯優于聯合采樣和WPC更新策略以及聯合采樣和BC更新策略。這是由于所提策略結合了BC模式低功耗的特點和主動IT模式高速率的特點,可以在不同信道狀態下選擇最優的更新包傳輸模式。具體地,在所提策略下,ET的發射功率較小時,源端電池中存儲的能量較少,它可以選擇BC模式或者BC-IT等組合模式進行更新包的緊急傳輸;ET的發射功率較大時,源端可以存儲較多的能量在電池中,因此它將有更多的機會在信道條件差的情況下將更新包發送到目的地。

此外還可以觀察到,在ET的發射功率較低時,B策略的可實現AoI低于A策略,而在ET的發射功率較高時,A策略的可實現平均AoI低于B策略。這是由于A策略所需要的更新能量成本較高,在ET的發射功率較低時,源端沒有足夠的能量及時地進行更新的傳輸,導致可實現的最優平均AoI要比采用B策略的高。但是,隨著ET發射功率的增加,源端收集的能量也逐漸增加,由于主動IT模式相比BC模式傳輸速率更高的特點,使得A策略的可實現最優平均AoI逐漸低于B策略。

在圖4中,比較了當更新包大小M變化時,不同策略的可實現最優長期平均AoI變化。本文所提策略的性能要優于A策略和B策略,并且隨著狀態更新包尺寸的增加,所有策略的最優平均AoI都單調增加。還可觀察到,在更新包較小時,B策略的平均AoI性能明顯優于A策略;然而,當更新包較大時,A策略的平均AoI性能要優于B策略,這是因為相比于BC模式,主動IT模式的傳輸速率更快,可以傳輸更大的更新包。

圖5繪制了對于不同的采樣成本Es和電池容量Bmax,最優長期平均AoI對比更新包尺寸的情況。特別地,由于在參數設置Bmax=0.6 mJ情況下的單位能量量子是參數設置Bmax=0.3 mJ情況下的兩倍,為了保證在對照組的電池容量變化時對應的采樣能量成本相等,需要分別設置當Bmax=0.6 mJ時的采樣成本為Es=1eq、Es=2eq和Es=3eq。從仿真結果中可以明顯看出,隨著Es的減小或者Bmax的增大,系統的最優長期平均AoI減小。這是因為Es越小,源端就能節省越多能量;Bmax越大,源端就能存儲越多的能量,這都增加了源端在未來持續運行的可能性。同時,由于增大電池容量將能傳輸更大的狀態更新包,在更新包較大時,增大電池容量相比減少采樣能量成本更能提升系統的AoI性能;并且隨著狀態更新包尺寸的增加,這一性能提升差異變得越來越明顯。

圖6展示了基于模型的相關值迭代算法和無模型Q學習算法在收斂后104時隙中得出的系統平均AoI性能。特別地,由于相關值迭代算法知道環境的精確統計模型(如信道狀態轉移概率等),所以將它作為Q學習算法的性能下界(最優性能)。可以觀察到,兩種算法的平均AoI都隨著ET發射功率的增加而下降,并且Q學習算法的性能非常接近相關值迭代算法的性能。具體而言,Q學習算法的性能在整體上接近相關值迭代算法性能的96.23%。因此,即使源端在缺乏信道動態信息的情況下,采用Q學習算法依然可以達到較高的系統AoI性能。

4結束語

本文研究了一種反向散射輔助無線供電通信系統的長期平均AoI最小化問題。為了提高系統的AoI性能,提出了聯合采樣和HBC更新策略,其中源端可以動態地選擇傳感器的采樣動作和發射器的更新模式。為了獲得最優策略,首先將問題建模為一個有限狀態和有限動作的無限時域平均成本MDP問題。然后在信道動態信息已知的場景下,通過相關值迭代算法對問題進行迭代求解;在信道動態信息未知的場景下,采用無模型的Q學習算法學習最優策略。最終,數值結果表明,本文提出的策略明顯優于聯合采樣和WPC更新策略、聯合采樣和BC更新策略;同時,發現采用Q學習算法可以在缺乏信道動態信息的情況下,通過試錯交互和學習也可以達到較高的AoI性能。在未來的工作中,將考慮一個反向散射輔助無線供能通信的多源雙跳中繼網絡的場景,通過深度強化學習算法尋找年齡最優策略,以優化系統的AoI性能。

參考文獻:

[1]Abd-Elmagid M A, Pappas N, Dhillon H S. On the role of age of information in the Internet of Things [J]. IEEE Communications Magazine, 2019, 57(12): 72-77.

[2]Kaul S, Yates R, Gruteser M. Real-time status: how often should one update? [C]// Proc of IEEE INFOCOM. Piscataway, NJ: IEEE Press, 2012: 2731-2735.

[3]Ma D, Lan G, Hassan M, et al. Sensing, computing, and communications for energy harvesting IoTs: a survey [J]. IEEE Communications Surveys amp; Tutorials, 2020, 22(2): 1222-1250.

[4]Perera T D, Jayakody D N K, Sharma S K, et al. Simultaneous wireless information and power transfer (SWIPT): recent advances and future challenges [J]. IEEE Communications Surveys amp; Tuto-rials, 2018, 20(1): 264-302.

[5]孫徑舟, 王樂涵, 孫宇璇, 等. 面向6G網絡的信息時效性度量及研究進展 [J]. 電信科學, 2021, 37(6): 3-13. (Sun Jingzhou, Wang Lehan, Sun Yuxuan, et al. Information timeliness metrics and research progress for 6G network [J]. Telecommunications Science, 2021, 37(6): 3-13.)

[6]Perera T D, Jayakody D N K, Pitas I, et al. Age of information in SWIPT-enabled wireless communication system for 5GB [J]. IEEE Wireless Communications, 2020, 27(5): 162-167.

[7]Arafa A, Yang Jing, Ulukus S, et al. Age-minimal transmission for energy harvesting sensors with finite batteries: online policies [J]. IEEE Trans on Information Theory, 2020, 66(1): 534-556.

[8]Leng Shiyang, Yener A. Age of information minimization for an energy harvesting cognitive radio [J]. IEEE Trans on Cognitive Communications and Networking, 2019, 5(2): 427-439.

[9]Krikidis I. Average age of information in wireless powered sensor networks [J]. IEEE Communications Letters, 2019, 8(2): 628-631.

[10]Abd-Elmagid M A, Dhillon H S, Pappas N. A reinforcement learning framework for optimizing age of information in RF-powered communication systems [J]. IEEE Trans on Communications, 2020, 68(8): 4747-4760.

[11]劉玲珊, 熊軻, 張煜, 等. 信息年齡受限下最小化無人機輔助無線供能網絡的能耗: 一種基于DQN的方法 [J]. 南京大學學報: 自然科學, 2021, 57(5): 847-856. (Liu Lingshan, Xiong Ke, Zhang Yu, et al. Energy minimization in UAV-assisted wireless po-wered sensor networks with AoI constraints: a DQN-based approach [J]. Journal of Nanjing University: Natural Science, 2021, 57(5): 847-856.)

[12]Abd-Elmagid M A, Dhillon H S, Pappas N. AoI-optimal joint sampling and updating for wireless powered communication systems [J]. IEEE Trans on Vehicular Technology, 2020, 69(11): 14110-14115.

[13]Liu V, Parks A, Talla V, et al. Ambient backscatter: wireless communication out of thin air [J]. ACM SIGCOMM Computer Communication Review, 2013, 43(4): 39-50.

[14]Lu Xiao, Niyato D, Jiang Hai, et al. Ambient backscatter assisted wireless powered communications [J]. IEEE Wireless Communications, 2018, 25(2): 170-177.

[15]Li Dong, Peng Wei, Liang Yingchang. Hybrid ambient backscatter communication systems with harvest-then-transmit protocols [J]. IEEE Access, 2018, 6: 45288-45298.

[16]葉迎暉, 施麗琴, 盧光躍. 反向散射輔助的無線供能通信網絡中用戶能效公平性研究 [J]. 通信學報, 2020, 41(7): 84-94. (Ye Yinghui, Shi Liqin, Lu Guangyue. User-centric energy efficiency fairness in backscatter-assisted wireless powered communication network [J]. Journal on Communications, 2020, 41(7): 84-94.)

[17]Long Yusi, Huang Gaofei, Tang Dong, et al. Achieving high throughput in wireless networks with hybrid backscatter and wireless-powered communications [J]. IEEE Internet of Things Journal, 2021, 8(13): 10896-10910.

[18]Sutton R S, Barto A G. Reinforcement learning: an introduction [M]. Cambridge, MA: MIT Press, 2018.

[19]Zhou Bo, Saad W. Joint status sampling and updating for minimizing age of information in the Internet of Things [J]. IEEE Trans on Communications, 2019, 67(11): 7468-7482.

[20]Puterman M L. Markov decision processes: discrete stochastic dyna-mic programming [M]. Wiley, 1994.

[21]Sadeghi P, Kennedy R A, Rapajic P B, et al. Finite-state Markov modeling of fading channels-a survey of principles and applications [J]. IEEE Signal Processing Magazine, 2008, 25(5): 57-80.

[22]Bertsekas D P. Dynamic programming and optimal control [M]. Belmont, MA: Athena Scientific, 2005.

[23]Zhou Xun, Zhang Rui, Ho C K. Wireless information and power transfer: architecture design and rate-energy tradeoff [J]. IEEE Trans on Communications, 2013, 61(11): 4754-4767.

[24]Lu Xiao, Jiang Hai, Niyato D, et al. Wireless powered device to device communications with ambient backscattering: performance modeling and analysis [J]. IEEE Trans on Wireless Communications, 2018, 17(3): 1528-1544.

收稿日期:2021-12-23;修回日期:2022-02-16基金項目:國家自然科學基金資助項目(61902084,61872098);國家重點研發計劃課題(2021YFB20124003);廣東省教育廳廣東高校特色創新項目(2018KTSCX174);廣州市重點創新創業平臺項目(2020PT104)

作者簡介:宋兆希(1997-),男,廣東梅州人,碩士研究生,主要研究方向為反向散射通信;唐冬(1967-),男(通信作者),教授,博士,主要研究方向為新一代移動與無線通信理論等(tangdong@gzhu.edu.cn);黃高飛(1978-),男,副教授,博士,主要研究方向為無線信息與能量同傳、移動邊緣計算、無人機通信等;趙賽(1981-),女,副教授,博士,主要研究方向為新一代無線通信關鍵技術、數據驅動無線通信等;劉貴云(1983-),男,副教授,博士,主要研究方向為無線網絡安全.

主站蜘蛛池模板: 黄色网站不卡无码| 国产免费福利网站| 91亚洲精品国产自在现线| 国产成人免费视频精品一区二区| 国产免费观看av大片的网站| 国产精品无码制服丝袜| 久久99精品久久久久纯品| 成年人午夜免费视频| 国产性爱网站| 久久国产精品影院| 国产91透明丝袜美腿在线| 蝌蚪国产精品视频第一页| 性色一区| 亚洲天堂网视频| 国产成人av大片在线播放| 亚洲欧美极品| 性做久久久久久久免费看| 欧美日韩动态图| 国产精品视频白浆免费视频| 中文字幕在线日韩91| 国产精品一区不卡| 3p叠罗汉国产精品久久| 一区二区三区四区精品视频| 欧美精品亚洲二区| 国产精品视频系列专区| 最新国产精品第1页| 波多野结衣一区二区三区88| 性色在线视频精品| 国产精品理论片| 五月激情婷婷综合| 亚洲 欧美 日韩综合一区| 亚洲第一成年网| 免费久久一级欧美特大黄| 男女男免费视频网站国产| h网址在线观看| 91青青在线视频| AV无码无在线观看免费| 亚洲乱伦视频| 中文天堂在线视频| 激情网址在线观看| 国产成人精品视频一区视频二区| 国语少妇高潮| 亚卅精品无码久久毛片乌克兰| 三上悠亚在线精品二区| 在线无码私拍| 亚洲中文字幕在线观看| a亚洲视频| 呦女精品网站| 欧美日韩国产在线观看一区二区三区| 99热国产在线精品99| 久久久久青草大香线综合精品| 丝袜国产一区| 又爽又大又黄a级毛片在线视频| 国产人成在线视频| 国产成人三级| 亚洲一级色| 欧美日韩国产精品综合| 中文字幕66页| 亚洲高清日韩heyzo| 丝袜久久剧情精品国产| 日韩福利视频导航| 欧美国产精品不卡在线观看| 欧美视频在线不卡| 久久久久亚洲精品成人网| 久久国产乱子| 久久久无码人妻精品无码| 九九热精品在线视频| 欧美亚洲国产精品久久蜜芽| 波多野吉衣一区二区三区av| 午夜国产小视频| 久久久久国产精品熟女影院| 一级看片免费视频| 久久精品无码一区二区国产区| 不卡国产视频第一页| 亚洲精品成人片在线观看| 国产精品网曝门免费视频| 亚洲高清在线天堂精品| 午夜福利在线观看成人| 国产不卡在线看| 欧美日韩高清在线| 欧美 亚洲 日韩 国产| 2020国产精品视频|