999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多智能體強化學習的大規模災后用戶分布式覆蓋優化

2022-09-03 10:29:48許文俊吳思雷王鳳玉林蘭李國軍張治
通信學報 2022年8期
關鍵詞:智能優化用戶

許文俊,吳思雷,王鳳玉,林蘭,李國軍,張治

(1.北京郵電大學人工智能學院,北京 100876;2.重慶郵電大學超視距可信信息傳輸研究所,重慶 400065;3.北京郵電大學信息與通信工程學院,北京 100876)

0 引言

在發生重大自然災害后,地面的基礎通信設施通常會遭到毀壞而產生通信中斷,重要的通信信息被阻絕,危及受災用戶的生命安全,加劇災后救援的難度。無人機因為具有快速部署、靈活調控等優點,能夠通過裝備應急基站提供有效的空地視線線路(LoS,line of sight)覆蓋受災區域,在應急通信領域具有廣泛的應用前景[1]。隨著移動互聯網和物聯網技術的高速發展,大量數字化機器設備被應用于搶險救災、智能醫療等應急服務,大量傳感器和輔助裝置被部署以對災區狀況進行持續監控[1]。因此,服務于6G 的應急通信網絡將面臨更大規模、更高密度、更快速度的覆蓋需求[2],并且需要應對大規模用戶接入帶來的高動態性和未知業務類型[3]。為了應對6G 背景帶來的挑戰,“節點極智、網絡極簡”的智簡應急通信網絡[4-5]應運而生。通過采取以通信計算融合[6]為代表的智能技術,網絡中的節點將成為具備智能的“智慧內生”新型節點,而網絡本身的協議結構將趨向于“原生簡約”,基于內生智慧驅動打造通信鏈路與網絡組織的隨需動態重塑能力。智簡應急通信網絡將具備針對用戶狀態動態改變、實時調整網絡部署,并根據用戶業務差異按需調配網絡資源的能力。

傳統非智能化的應急通信網絡常采用非凸優化方法提升覆蓋性能,其中覆蓋性能由無人機基站相對地面用戶的實時位置主導,需要解決關于無人機基站飛行軌跡的非凸優化問題。Kang等[7]對多無人機基站多用戶的通信場景進行建模,利用迭代吉布斯采樣和塊坐標下降方法對多無人機基站的飛行軌跡進行聯合優化,高效率地提升了網絡的最大?最小速率。Yin 等[8]在大規模地面用戶場景,利用連續凸逼近方法聯合優化了地面分簇和多無人機基站的懸停位置,提升了網絡的頻譜效率。Zhang 等[9]針對應急通信場景的通信特征與需求,對多無人機基站的功率分配和軌跡優化問題聯合建模,最大化應急通信網絡的容量。然而,上述傳統非智能化的覆蓋優化方法需要全部精準的網絡環境狀態輔助(如用戶位置、數據大小、信道狀態等)作為待優化非凸問題中的固定參數,在求解過程中保持不變。因此,上述方法只適用于完全靜態的網絡場景,已知未來時刻的全部網絡狀態信息和所有用戶的業務需求,難以應對大規模災后用戶的動態性與業務差異性。

智能化的深度強化學習方法被視為應對網絡動態性的關鍵技術,配置深度強化學習智能體的無人機基站能夠基于實時網絡狀態時序調控飛行軌跡,以最大化網絡長期的性能收益。為了得到最優的覆蓋優化策略,深度強化學習智能體需要迭代進行用于擬合動態網絡環境的“訓練階段”和用于實時調控無人機基站飛行軌跡的“執行階段”。不同“訓練階段”和“執行階段”的實現方式,衍生出了多種基于深度強化學習的覆蓋優化方法。文獻[10]采用深度強化學習近端策略優化(PPO,proximal policy optimization)算法,提升了單無人機基站的通信速率并減小了飛行能耗。Liu等[11]利用深度確定性策略梯度(DDPG,deep deterministic policy gradient)算法,在不考慮干擾的情況下對多無人機基站的部署進行了優化。然而,多無人機基站間存在干擾時,單智能體強化學習的學習環境非平穩導致算法難以收斂。為了解決上述問題,Challita 等[12]將博弈論融入回聲狀態網絡(ESN,echo state network),聯合優化了多無人機基站的飛行軌跡。不同于文獻[12]中基于值函數的強化學習方法,文獻[13-14]采用了多智能體深度確定性策略梯度(MADDPG,multi-agent deep deterministic policy gradient)算法,基于策略梯度對動作空間進行泛化,能夠連續輸出動作精準調控無人機飛行軌跡,避免了維度爆炸的問題[15]。然而,隨著應急通信網絡的規模增大,以“集中式訓練?分布式執行”為框架的MADDPG算法的輸入維度成倍增加,學習難度呈爆炸式增長,穩定性較差[16],并且嚴重受固定架構下集中式訓練中心處的災情影響,難以處理大規模災后用戶的覆蓋優化問題。

為了解決上述問題,本文提出了一種分布式智簡的大規模災后用戶覆蓋優化架構,網絡特征層從用戶需求本原出發擬合大規模災后用戶的業務差異性,按需重塑用戶分簇組網結構,軌跡調控層利用多智能體強化學習技術賦予每個應急無人機基站智能化、分布式決策自身飛行軌跡的能力,提升應急通信網絡的總體覆蓋性能。本文的主要研究工作如下。

1)基于多智能體強化學習技術,設計分布式智簡的大規模災后用戶覆蓋優化架構。具體地,特征提取層通過自身獲取的局部網絡環境信息對地面用戶執行分布式分簇組網,以特征化的簇中心用戶信息作為狀態輸入多智能體強化學習神經網絡,使軌跡調控層能夠以小規模維度的狀態調控無人機基站的實時軌跡。

2)提出考慮用戶業務差異性的分布式k-sums分簇算法,特征化大規模災后用戶狀態。首先利用貝葉斯推理在線學習用戶的業務差異性,獲取用戶的傳輸優先系數。進一步,無人機基站結合局部可獲取用戶的優先系數和負載信息執行分布式分簇,篩選獲取簇中心用戶。相比傳統分簇算法,分布式k-sums 分簇算法在平均負載效率和簇間均衡性方面均有性能提升。

3)提出多智能體最大熵強化學習(MASAC,multi-agent soft actor critic)算法,用于多無人機基站分布式調控自身飛行軌跡。MASAC 以“分布式訓練?分布式執行”的框架,融合最大熵理論和集成學習、課程學習技術,改進了現有多智能體深度強化學習方法不穩定、受災情影響嚴重的問題,顯著降低了應急通信網絡的通信中斷頻率,提升了網絡的頻譜利用效率。

1 系統模型與架構設計

如圖1 所示,受災區域內存在大規模具有動態性和業務差異性的地面用戶,應急通信網絡通過部署多架無人機基站接收地面用戶的通信信息。假設受災區域共有N個用戶,部署了M架無人機基站,用戶被分為M個用戶簇分別由各無人機基站恢復通信服務。其中,每個用戶簇有一個簇中心用戶與無人機基站直接相連,簇內其他用戶的信息則會通過簇中心用戶轉發。用戶集合與無人機基站集合分別用N 和M 表示。描述本文系統環境和覆蓋優化算法的參數如表1 所示。

圖1 應急通信網絡系統模型

表1 系統和算法參數

在大規模應急通信網絡中,用戶的信息匯聚傳輸采用簇中心用戶做信息轉發的優勢,在于處理能力、能量損耗和干擾強度3 個方面。其一,無人機基站的處理能力有限,通過用戶分簇能夠減少與無人機基站直接相連用戶的數目,并有效降低神經網絡的維度,避免網絡陷于癱瘓;其二,通過減少無人機基站直接接入的用戶數目,減少無人機基站的通信能耗和計算能耗,增加無人機基站的持續運行時間;其三,通過用戶分簇減少空地通信鏈路的數目,能夠降低空地通信簇間干擾,提升網絡整體的通信能力。

本節后續將分別對本文涉及的用戶模型、地面傳輸模型、空地傳輸模型和覆蓋優化架構設計進行詳細描述。

1.1 用戶模型

在真實復雜的應急通信網絡環境中,大規模災后用戶呈現出明顯的動態性與業務差異性。動態性體現在自身位置實時變化,激活狀態具有時間隨機性。如果用戶在給定時刻處于激活狀態,則有新傳輸任務。用戶i的激活狀態在t∈[0,T]時間內服從Beta 分布

其中,κ1和κ2是Beta 分布的參數。值得注意的是,用戶的激活狀態僅與是否有新的傳輸任務有關,處于非激活狀態的用戶仍可以傳輸上一時刻未被傳輸的剩余數據,并可能被選為簇中心用戶。用戶被選為簇中心用戶后需要負責轉發簇內所有用戶的信息和更高的發送功率,由于本文重點關注覆蓋優化以恢復大規模用戶通信,因此不對用戶的能量均衡進行探討。

用戶的業務差異性體現在不同的通信業務服務對速率、時延、安全性等需求各異,本文主要考慮由于業務類型、任務需求不同引起的信息差異性,用戶所需傳輸的數據大小存在明顯差異。假設用戶i在激活時刻t的新傳輸任務數據大小di(t)服從高斯分布[17]

其中,μi和σi是描述用戶i業務類型傳輸任務大小的均值和標準差常數,不同時刻的di(t)由于傳輸任務的語義變化而產生波動。

1.2 地面傳輸模型

地面大規模受災用戶被劃分為M個簇,簇數與無人機基站的數目相同,每個用戶首先將數據傳輸至簇中心用戶,通過簇中心用戶轉發將數據傳輸至無人機基站。用戶i與簇中心用戶ui間的通信采用sub-6 GHz 頻段的地對地通信鏈接,其中非視距(NLoS,non line of sight)在該無線鏈路中占主導地位,路徑損耗可以依據瑞利衰落信道模型表示為[18]

其中,P1代表用戶的發送功率,代表用戶i與簇中心用戶ui之間的信道增益,N0代表噪聲功率。信道增益受路徑損耗影響,滿足

用戶i在時刻t傳輸數據的頻譜效率可以表示為

用戶i在時刻t的總傳輸任務大小用符號Di(t)表示,包含時刻(t?1)的剩余傳輸任務大小和時刻t的新傳輸任務大小di(t)。規定在初始時刻無剩余傳輸任務,即Di(?1)=0,則有

其中,B表示地面資源塊的帶寬大小;ni(t)表示用戶的負載資源塊數目,由總傳輸任務大小和頻譜效率決定

其中,Nc是資源塊負載閾值,以防用戶由于低頻譜效率而占用過多的頻譜資源塊。定義評價指標平均負載效率為

平均負載效率η可以有效地評價不同用戶動態性和信息差異性情況下的地面分簇結果。

1.3 空地傳輸模型

應急無人機基站與簇中心用戶間的通信采用sub-6 GHz 頻段的空對地通信鏈接,其中LoS 在該無線鏈路中占主導地位。無人機基站j與簇中心用戶uj間的平均路徑損耗可以表示為

其中,P2代表簇中心用戶的發送功率,代表無人機基站j與簇中心用戶uj之間信道增益。信道增益受路徑損耗影響,滿足

無人機移動帶來的多普勒效應可以用現有技術完美補償,如鎖相環技術。無人機基站j的頻譜效率可以表示為

應急通信網絡的平均頻譜效率可以表示為

本文以式(15)的平均頻譜效率為優化目標,在考慮無人機基站的最大飛行速度限制、飛行安全性限制和通信中斷限制條件下,對優化問題建模

其中,Poutage(t)和分別表示時刻t網絡的通信中斷概率和最大通信中斷概率限制。優化問題中應急通信網絡的平均頻譜效率由各無人機基站和簇中心用戶之間的信噪比決定,因為空地通信主要為直射路徑,所以信噪比的大小由兩者之間的距離主導;另一方面,通信中斷限制條件C3也與地面用戶分簇和簇中心用戶的選擇密切相關。因此,大規模多無人機應急通信網絡中的軌跡調控問題依賴于地面用戶分簇的結果,隨著簇中心用戶選擇的動態變化而調整飛行軌跡。

1.4 覆蓋優化架構

以上述用戶模型和通信模型為基礎,應急通信網絡的平均頻譜效率R(t)與無人機基站的位置pj、簇中心用戶的位置pu、地面分簇結果密切相關。基于此,本文設計了一種分布式智簡的大規模災后用戶覆蓋優化架構,由網絡特征層和軌跡調控層兩層結構組成,如圖2 所示。相比于傳統的端到端的覆蓋優化結構,本文設計的分層級聯的覆蓋優化結構優勢在于:①通過降低無人機基站端的強化學習狀態輸入維度,降低深度神經網絡的規模,減小問題訓練的復雜度;②通過分層的設計,空中通信優化和地面通信優化兩部分各司其職,在實際工程應用時方便針對性地調整性能與參數,是深度強化學習算法在各產業中落地的常用手段。

圖2 面向大規模災后用戶的分布式智簡覆蓋優化架構

具體而言,每個無人機基站配置一個分布式計算終端服務于上述分層的優化架構。在網絡特征層中,無人機基站利用局部獲取的網絡狀態信息擬合大規模災后用戶的業務差異性,并依此獨立地對局部用戶進行分簇組網,篩選簇中心用戶特征作為多智能體強化學習的輸入狀態。在軌跡調控層中,以少量無人機基站間的通信開銷作為輔助,利用多智能體強化學習技術應對時序動態的狀態輸入,無人機基站能夠以“分布式訓練?分布式執行”的框架自主優化飛行軌跡,以減少通信中斷的頻率,并最大化網絡的頻譜效率。需要指出的是,每個時間幀內除了用戶信息經簇中心用戶中繼的信息匯聚傳輸過程,還需要簇中心用戶特征作為強化學習輸入,以輔助通信開銷的形式傳輸至無人機基站。

2 網絡特征層?地面用戶分簇

在網絡特征層中,地面用戶分簇和簇中心用戶選擇需要應對大規模用戶的業務差異性,本節提出一種基于貝葉斯推理的用戶差異性學習算法。由于無人機基站難以獲取全部大規模用戶的信息,因此本節進一步提出了考慮用戶差異性的分布式k-sums 分簇算法,得到平均負載效率更高、簇間數目更均衡的分簇結果。

2.1 用戶差異性學習

貝葉斯推理是一種統計機器學習方法,基于貝葉斯公式建立觀測量與估計量之間的聯系[19]。在用戶差異性學習過程中,無人機基站能夠獲取用戶的最近t0幀激活時刻的新任務大小作為觀測量,對用戶優先參數λi進行估計。本文以流量需求大小評價用戶業務類型的優先級,其中,優先參數λi表示用戶i由信息差異性引起的平均流量需求大小在[1,λmax]之間的數值表征,旨在為優先級更高的用戶分配更高質量的頻譜資源。λi服從高斯分布,均值和方差分別為。假設無人機基站j可觀測的局部用戶數目為Nj,用集合Nj表示,定義向量,其中,d*是觀測向量,是估計向量,是參數向量。

圖3 貝葉斯推理流程

其中,C(d*|λ)∈(?∞,0]。估計向量λ對觀測向量d*的似然函數可以通過對損失函數進行歸一化得到

基于貝葉斯推理的用戶差異性學習算法如算法1 所示。

通過算法1 可以得到每一個用戶的優先參數λ的分布,分簇時按需為存在差異性的用戶提供通信服務,通過優先提升λ更高用戶的頻譜效率,能夠有效減小網絡頻譜資源塊負載。

2.2 地面用戶分簇

相比于傳統的k-means 算法和譜聚類算法,k-sums 算法[20]具有更低的算法復雜度(O(NM)),在分簇與簇中心用戶快速變化時能夠高效地執行分簇。同時,k-sums 算法可以有效降低簇內距離并提升簇間用戶數目的均衡性。簇內距離和簇間均衡性是評價k-sums 算法性能的重要評價標準,其中簇內距離與應急通信網絡用戶間的平均頻譜效率性能密切相關,而簇間均衡性與不同無人機基站服務之間的通信負載均衡性能密切相關。綜上所述,k-sums 算法能夠高效地應對大規模災后用戶的動態性和差異性導致的分簇與簇中心用戶快速變化。聚類算法的通用矩陣表達式為

其中,矩陣Y表示分簇標識矩陣,維度為 RN×M,當用戶i處于無人機基站j的服務簇內時元素yi,j=1,反之yi,j=0;矩陣G表示分簇核矩陣,對于不同的分簇算法,矩陣G的定義不同,k-sums算法采用節點間的鄰近不相似性度量,用戶i1和用戶i2的相似性越小,元素越大,且僅保留Nj個最小的元素,其他元素用最大不相似性常數替代;運算符Tr(?)是矩陣的求跡操作。k-sums 算法為了保證分簇結果的均衡性,對問題式(22)增加限制條件YΤY=,其中,I是單位矩陣,是任意常數。問題式(22)可以轉化為

然而,面向大規模災后用戶,單個無人機基站難以獲取全局用戶的信息,因此無法計算全局用戶間的不相似性度量。若仍采用集中式的分簇方法,會產生大量用戶信息的通信開銷,因此本文提出分布式的k-sums 分簇算法,使無人機基站僅利用局部觀測信息對大規模災后用戶進行分布式分簇。

分布式的k-sums 算法的分簇核矩陣G采用可觀測用戶的鄰近不相似性度量表示,無人機基站j的分簇核矩陣維度為。而用戶之間的不相似度量則用當前時刻用戶i1傳輸至用戶i2所需負載資源塊數目與用戶優先參數的乘積表征,即

如此設計,旨在同時考慮用戶傳輸信息流量需求大小的瞬時特征和長期特征,為存在信息差異性的用戶按需分配負載資源塊,為業務需求更高的用戶提供更優質的資源塊,在負載有限的情況下有效降低高優先級用戶通信無法被覆蓋的概率。值得注意的是,本文分簇核矩陣的設計主要考慮了用戶流量需求差異表現的信息差異性;如果需要考慮其他通信需求差異引起的業務差異性,則需要針對性地改變分簇核矩陣元素的物理意義與之對應。

在此次實驗中,所有的數據均放置在SPSS20.0統計學軟件中進行分析,計量資料和計數資料分別采用t和X2檢驗,當p<0.05,則為統計學意義。

對于每個無人機基站,分布式的k-sums 分簇算法僅需得到自身服務的用戶簇,因此定義局部分簇標識矩陣,其中yi,0表示用戶i是否處于無人機基站服務的用戶簇Nj內。為保證分簇結果用戶的均衡性,滿足問題式(23)的條件,對于矩陣Yp的元素,有

使局部分簇標識矩陣能夠滿足全局分簇標識矩陣的限制條件YΤY=。此外,無人機基站的可觀測用戶數目Nj需要大于無人機基站服務用戶的平均值,即Nj>。類似于k-sums 算法的行迭代方法[20],依次優化每一個用戶的局部分簇標識行向量yi=[yi,0,yi,1],對于每一個行向量,問題式(23)可以轉化為

通過算法2 的計算結果Yp,篩選使yi,0=1的用戶作為無人機基站j服務的用戶,并選擇不相似性度量最小的用戶作為簇中心用戶,即

基于簇中心用戶的特征信息,無人機基站可以實時調整飛行軌跡以優化對地面用戶的覆蓋,本文將在第3 節進行深入探討。

2.3 復雜度分析

標準的k-means 算法需要迭代進行,分配用戶到距離最近的簇中心用戶、重新計算每個用戶簇的分簇中心用戶,因此需要計算每個用戶到所有分簇中心用戶的距離,復雜度為O(NM)。然而標準的k-means 算法適用范圍較窄,只能處理線性可分的數據,并且聚類結果受初始化影響較大。改進的k-means 算法為了處理非線性可分的數據類型,首先將輸入數據非線性地映射至高維空間,然后執行k-means 算法,計算復雜度為O(N2)。譜聚類分簇算法使用了用戶的近鄰圖來進行分析,可以處理非線性可分數據,有著更加出色的聚類性能,但是由于先構建鄰近圖再進行譜分解的操作,計算復雜度較高,達到了O(N2M)。k-sums算法的分簇核矩陣采用了鄰近不相似性度量,gi中大部分取值為相同常數,利用行迭代優化方法計算式(27)的復雜度約為O(M),算法總體的計算復雜度為O(NM)。相比于k-sums 算法,本文提出的分布式k-sums 算法采用了可觀測用戶的鄰近不相似性度量表征分簇核矩陣的元素,矩陣維度由 RN×N降為,局部分簇標識矩陣的維度也由RN×M降為,分布式k-sums 算法的計算復雜度為O(2Nj)。

另一方面,為了在線學習用戶的業務差異性,貝葉斯推理算法需要執行t0步計算損失函數C(d*(t)|λ(t))和似然函數P(d*(t)|λ(t))的操作,其中損失函數的計算復雜度與可觀測的局部用戶數目Nj有關,因此基于貝葉斯推理的用戶差異性學習算法總體的計算復雜度為O(t0Nj)。綜上所述,網絡特征層,即考慮用戶差異性的地面用戶分簇的整體復雜度為O(t0Nj)。

3 軌跡調控層?無人機基站調控

傳統的無人機基站軌跡優化方法無法處理大規模用戶的動態性和長時間維度,而基于單智能體強化學習的調控方法難以應對多架無人機基站導致的非平穩學習環境。基于多智能體強化學習的優化方法可以基于當前時刻的網絡環境狀態智能決策飛行軌跡,有效解決上述問題。本文提出了一種多智能體最大熵強化學習MASAC 算法,比現有的多智能體強化學習MADDPG 算法具有更好的收斂性和穩定性。

3.1 基于多智能體強化學習的無人機基站分布式調控設計

針對大規模災后用戶的覆蓋優化問題,1.4 節設計了分布式智簡的覆蓋優化架構,其中網絡特征層負責對大規模地面用戶進行分簇,篩選簇中心用戶的特征信息,作為多智能體強化學習狀態輸入軌跡調控層。軌跡調控層采用多智能體深度強化學習的方法,用馬爾可夫決策過程對軌跡調控問題進行重新建模,將全局優化問題轉化為在每一個時刻的強化學習優化目標,基于獎勵函數、價值函數的設計能夠時序差分漸進地調控無人機基站的飛行軌跡,實現網絡頻譜效率最大化。因此,基于多智能體強化學習的無人機基站分布式調控設計具體如下。

狀態。每個無人機基站提取部分可觀測信息作為輸入狀態,可以特征化為:1)無人機基站自身的坐標;2)與地面分簇中心用戶的二維相對位置;3)接收分簇中心用戶信息的信噪比大小;4)與Mj個鄰近無人機的三維相對位置。

動作。考慮無人機基站在三維空間內可以自由移動,無人機基站的輸出動作可以特征化為x軸、y軸、z軸3 個方向上的移動速度。

獎勵。獎勵函數由飛行安全懲罰值、通信中斷懲罰值、頻譜效率獎勵3 個部分構成,即

通信。多智能體強化學習MASAC 算法需要擬合鄰近動作?狀態價值函數,獎勵在計算過程中也需要鄰近無人機基站的通信信噪比與頻譜利用效率,因此需要與Mj個鄰近無人機基站交互部分信息,包括:1)無人機基站自身的坐標;2)無人機基站的輸出動作;3)與地面分簇中心用戶的二維相對位置;4)接收分簇中心用戶信息的信噪比大小;5)當前時刻無人機基站的頻譜效率。

本節后續將基于上述多智能體強化學習軌跡調控設計介紹本文提出的多智能體最大熵強化學習MASAC 算法,以及融合集成學習、課程學習技術提升算法的訓練穩定性和收斂速度。

3.2 多智能體最大熵強化學習MASAC 算法

面對動態未知的應急通信網絡環境,強化學習利用馬爾可夫決策過程進行建模,從環境中獲取觀測值作為狀態st,依據動作選擇策略π(at|st)輸出動作at調控無人機基站的飛行軌跡,執行動作獲取環境交互、通信網絡覆蓋性能等反饋計算獎勵函數rt,環境狀態經過狀態轉移分布pπ(st+1|st,at)轉換到下一時刻狀態st+1。強化學習智能體的動作選擇策略與狀態?動作價值函數Q(st,at)密切相關,表征在狀態st下無人機基站選取動作at收獲的長期折扣累積獎勵的期望值,即考慮了長期的應急通信網絡覆蓋性能。

其中,V(st)是狀態價值函數,用于表征無人機基站從處于狀態st開始能夠收益的長期應急通信網絡覆蓋性能獎勵的期望值;γ是折扣因子,當0≤γ<1時,能夠保證強化學習策略迭代的收斂性。狀態價值函數為

其中,αlogπ(at|st)是熵正則化項。熵正則化項以最大熵強化學習算法[16]為理論基礎,配合動作選擇策略的優化過程,算法策略輸出具有多模特性,可有效應對動態復雜的學習環境,提升算法收斂的穩定性。熵正則化項中的α為溫度因子,可以通過自調節調整熵正則化項的影響權重。

當網絡中存在多個智能體時,智能體i僅可以獲取局部觀測值,且環境狀態轉移受多個智能體的動作輸出同時影響,環境狀態轉移分布變化為,對于智能體i學習環境處于非平穩狀態,單智能體強化學習算法難以收斂。多智能體強化學習MADDPG 算法通過獲取其他智能體的觀測值和輸出動作,擬合全局的狀態?價值函數,使智能體i的學習環境平穩,其中 ?i表示智能體i以外的其他智能體。本文以最大熵強化學習SAC 算法[21]與多智能體強化學習MADDPG 算法[15]為基礎,為SAC 算法擬合鄰近的狀態價值函數,在保證算法收斂性的同時減小通信開銷,使算法可以分布式部署。

如圖4 所示,每個MASAC 智能體由6 個神經網絡與1 個經驗回放池構成。Actor 網絡表征動作選擇策略是神經網絡參數,輸入局部觀測狀態,輸出在觀測狀態下動作輸出分布的均值與標準差以表示動作選擇策略。Double Q 網絡由2 個神經網絡(Critic1網絡和Critic2 網絡)組成,分別擬合鄰近狀態?價值函數,神經網絡參數分別為。擬合2 個狀態?價值函數,可以解決單個Critic 網絡對狀態?價值函數的過高估計[22]。Target 網絡由3 個神經網絡(Target Actor 網絡、Target Critic1 網絡和Target Critic2 網絡)構成,神經網絡參數分別為。上述3 個Target 網絡分別是Actor 網絡、Critic1 網絡和Critic 網絡的副本網絡,但參數更新速率更緩慢,能夠提升訓練過程的穩定性,加快算法的收斂速度。經驗回放池用于記錄智能體的樣本 <>,其中,鄰近智能體的信息通過相互間的通信獲取。訓練時智能體從經驗回放池中采樣,隨機獲取樣本集D 用于計算優化目標的梯度。

圖4 多智能體強化學習MASAC 智能體結構

動作選擇策略以最大化狀態?動作價值函數為目標,因此Actor 網絡的優化目標可表示為

由于Actor 網絡的輸出是分布函數而非具體的動作值,在計算優化目標梯度的過程中需要對輸出動作數值化表示,因此采用了重參數技巧輸出估計動作

綜合上述優化目標,網絡參數更新為

其中,η為神經網絡更新步長。智能體通過迭代探索與訓練過程,從環境中獲取新樣本存儲于經驗回放池、從經驗回放池中隨機獲取批量樣本根據式(35)~式(37)訓練,使智能體學習到最優的動作輸出策略。

3.3 集成學習與課程學習

多智能體強化學習算法能夠有效地解決多智能體學習環境的非平穩問題,MASAC 算法能夠使算法適應復雜動態的環境。然而,多智能體和最大熵強化學習算法都加劇了神經網絡的復雜程度,因此,本文應用集成學習[23]和課程學習[24]技術提升算法收斂過程的速度和穩定性。

1)基于集成學習的穩定收斂技術

本文融入了集成學習技術,自舉訓練多組神經網絡,通過決策過程獲取反饋,擇劣剪枝、擇優繼承,避免了災難性遺忘的影響,增加了算法收斂過程的穩定性。

圖5 詳細描述了基于集成學習的穩定收斂技術的實現架構,每個無人機基站裝載的智能體會同時訓練W組神經網絡,形成集成學習神經網絡集W。在“分布式訓練”階段,分別從經驗回放池中取出W組獨立的樣本集 D1,D2,…,DW,并訓練W 中的所有神經網絡。在“分布式執行”階段,智能體從W 中隨機采樣獲得一組神經網絡w決策無人機基站的動作,獲取獎勵rm,并更新神經網絡w的累積獎勵

圖5 基于集成學習的穩定收斂技術的實現架構

其中,τw是神經網絡的累積獎勵的更新步長。

如果神經網絡w的累積獎勵遠小于神經網絡集的最大累計獎勵,則對神經網絡w采取剪枝操作,并復制W 中剩余網絡中累積獎勵值最大的神經網絡作為新的神經網絡w。

通過上述集成學習的設計,MASAC 智能體在訓練過程中能夠剪枝發生了導致巨額性能損失的災難性遺忘的神經網絡,并且擇優選擇神經網絡繼承,加速算法的收斂過程。

2)基于課程學習的加速收斂技術

課程學習按照物理意義將學習任務從易到難劃分為多個子任務,并由簡入繁地設計每個子任務的獎勵函數,降低學習難度,提升算法收斂速度。

運用課程學習的思想,如圖6 所示,將3.1 節中的獎勵函數由簡及繁劃分為以下3 個子任務:1)無人機基站保持飛行在一個固定的區域內;2)無人機基站通過調整飛行軌跡減小通信服務中斷發生,當無人機基站接收分簇中心用戶信息的信噪比小于閾值時發生通信中斷;3)無人機基站通過進一步優化飛行軌跡最大化網絡的頻譜效率。因此,3 個子任務的獎勵函數可以分別設計為

圖6 基于課程學習的加速收斂技術任務劃分

值得注意的是,學習更難課程的內容可能會導致神經網絡忘記簡單課程的學習結果,從而引起災難性遺忘。在更難課程的獎勵設計中,需要包含簡單課程的獎勵,如式(41)和式(42)所示,并配合集成學習剪枝發生災難性遺忘的子網絡,消除災難性遺忘的影響。

結合了集成學習、課程學習技術的基于MASAC 的多無人機軌跡分布式調控算法如算法3所示。該算法能夠有效降低網絡的通信中斷頻率,最終實現網絡頻譜效率的提升。

3.4 復雜度分析

在“分布式執行”階段,每個無人機基站需要獲取自身的局部狀態信息,并與鄰近無人機基站共享,該過程與鄰近無人機基站的數目Mj呈正相關,因此,這一階段算法的復雜度為O(Mj)。

在“分布式訓練”階段,每個無人機基站需要更新集成學習神經網絡集W 中的全部W個神經網絡,每個神經網絡的更新需要計算梯度的次數與從經驗回放池中取出的批量樣本數目成正比。假設樣本數目為ND,那么,這一階段算法的復雜度為O(WND)。由于鄰近無人機基站的數目Mj遠小于批量樣本的數目ND,因此算法3 的總體復雜度為O(WND)。

3.5 面向大規模災后用戶的分布式覆蓋優化流程

本文提出的分布式智簡的覆蓋優化架構可劃分為網絡特征層和軌跡調控層,其中網絡特征層作為多智能體強化學習的特征提取階段,由基于貝葉斯推理的用戶差異性學習算法(算法1)和考慮用戶差異性的分布式k-sums 算法(算法2)共同實現,軌跡調控層作為多智能體強化學習的策略實現階段,由基于MASAC 的多無人機軌跡分布式調控算法(算法3)實現。面向大規模災后用戶的分布式覆蓋優化的總體流程如圖7 所示。

圖7 面向大規模災后用戶的分布式覆蓋優化的總體流程

4 仿真分析

本節通過仿真實驗評估所提出的基于多智能體強化學習的大規模災后用戶的空中覆蓋架構與相應算法的有效性。仿真中應急通信網絡系統和算法參數設置如表2 所示。假設受災地區在1 km×1 km的范圍內存在500 個地面用戶,無人機基站的飛行高度變化范圍是100~1 000 m。MASAC 算法中Actor網絡和Critic 網絡均采用三層全連接層作為隱層,隱層神經元數目分別為512、256、128。本文在Python3.7平臺上對所提的基于多智能體強化學習的大規模災后用戶分布式覆蓋優化方案進行了性能驗證,利用Numpy 工具包實現了貝葉斯推理和分布式k-sums 算法,利用TensorFlow 工具包實現了多智能體強化學習MASAC 算法,計算機環境為Windows 10、Intel 7th CPU、GTX 1060。

表2 應急通信網絡系統和算法參數設置

首先驗證底層優化考慮用戶差異性的分布式k-sums 分簇算法的有效性,在不同最大優先參數λmax下進行仿真實驗,并與k-sums 算法和k-means 算法進行對比。圖8 給出了不同分簇算法對簇間用戶數目方差的影響。從圖8 中可以看出,所提分布式k-sums 算法保持了k-sums 算法的分簇均衡性,當不考慮用戶的信息差異性,即λmax=1 時,分布式k-sums 算法的簇間用戶數量的方差大小與k-sums 算法基本相同,遠小于k-means 算法;當最大優先參數λmax增大時,所提算法由于更關心優先參數更大用戶的性能,因此會犧牲一定分簇均衡性,簇間用戶數量的方差會有所增大。

圖8 不同分簇算法對簇間用戶數目方差的影響

圖9 給出了不同分簇算法對簇內用戶平均負載效率的影響。從圖9 中可以看出,隨著分簇數目的提升,平均簇內距離會減小,因此所有分簇算法的平均負載效率均顯著提升。當不考慮用戶的信息差異性,即λmax=1 時,所提分布式k-sums 算法與k-sums 算法的平均分簇效率相近,整體均好于k-means 算法。隨著最大優先系數λmax的增加,通過貝葉斯推理可以學習到用戶間的信息差異性,在計算不相似性度量時對優先系數更高的用戶賦予更大的權重,從而使平均負載效率提升。綜合上述仿真結果,本文通過增加最大優先系數λmax,能夠提升流量需求更高用戶的通信效率,實現簇內平均負載效率的提升,這驗證了所提算法能夠有效適應不同優先級的業務。

圖9 不同分簇算法對簇內用戶平均負載效率的影響

進一步,對本文提出的基于多智能體強化學習的上層空中覆蓋優化算法的有效性進行仿真驗證。圖10給出了MASAC 算法平均累積獎勵的收斂性能,在相同的仿真環境下,展示了集成學習和課程學習對MASAC 收斂速率和穩定性的影響。平均累積獎勵是衡量強化學習算法收斂的重要指標[25],其表示在一個訓練輪次內所有時隙得到獎勵函數大小的平均值,具體的物理意義由獎勵函數的設計決定,本文的平均累積獎勵表示一個訓練輪次內的平均頻譜效率與平均通信中斷懲罰、安全性懲罰之和。從圖10 中可以看出,集成學習和課程學習均可以提升算法的收斂速率。然而,集成學習對復雜任務直接學習,僅能收斂到性能一般的局部最優策略;課程學習在學習到任務1 和任務2 后會發生災難性遺忘,收斂性能難以進一步提升。同時,結合集成學習和課程學習的MASAC 算法能夠以更快的收斂速度收斂到更優的策略,同時消除了災難性遺忘的影響。

圖10 MASAC 算法平均累積獎勵的收斂性能

圖11~圖14 給出了不同強化學習算法對無人機基站軌跡調控學習過程的影響,主要是將所提MASAC 算法與MADDPG 算法[13]和DDPG 算法[11]進行對比。圖11 展示了不同強化學習算法平均累積獎勵的收斂性能,圖12~圖14 分別展示了課程學習任務1~任務3 的關鍵指標的變化,即無人機基站飛出指定區域頻率、通信中斷頻率、平均頻譜效率。

圖11 不同強化學習算法平均累積獎勵的收斂性能

圖12 不同強化學習算法對任務1?飛出指定區域頻率的學習效果

圖13 不同強化學習算法對任務2?通信中斷概率的學習效果

圖14 不同強化學習算法對任務3?平均頻譜效率的學習效果

從圖12~圖14 中可以看出,單智能體強化學習DDPG 算法能夠很快完成任務1 的學習以飛行在限定的1 km×1 km 區域內,而難以進一步完成任務2 和任務3 的學習。這是由于每個無人機基站飛行區域的策略學習不會影響其他無人機基站的飛行區域,學習環境平穩;而在任務2 和任務3 中,無人機基站飛行策略的改變會干擾其他無人機基站的通信,學習環境非平穩。對比多智能體強化學習MASAC 算法和MADDPG 算法,2 種算法均可以完成對任務1 和任務2 的學習,而MADDPG 算法由于采用確定性策略算法,收斂性能和穩定性較差,對任務3 頻譜效率的學習效果不如MASAC 算法。此外,仿真中對獲取全局狀態的集中式MASAC 算法和獲取鄰近狀態的分布式MASAC 算法進行對比。可以看出,分布式MASAC 算法能夠收斂到和全局優化相同的效果,同時因為僅需要獲取鄰近無人機基站的狀態,通信開銷大幅減少。

圖15 給出了無人機基站數量對平均頻譜效率的影響。從圖15 中可以看出,隨著無人機基站數量的增加,學習環境的非平穩性和復雜程度增加,DDPG 和MADDPG 算法的頻譜效率隨著無人機基站數量的增加而降低。而本文提出的MASAC 算法在無人機基站數量較小時可以通過聯合調控無人機基站的飛行軌跡,得到更高的頻譜效率,但是隨著無人機基站數量的進一步增加,每個無人機基站會受到更多其他無人機基站的干擾,頻譜效率下降。此外,對比集中式MASAC 算法和分布式MASAC 算法,分布式優化能夠得到與全局優化相同的效果,甚至會在無人機數目較多時因為狀態輸入維度更低、神經網絡規模更小而得到性能增益。

圖15 無人機基站數量對平均頻譜效率的影響

5 結束語

本文針對大規模災后用戶應急通信恢復提出了分布式智簡的空中覆蓋優化架構。網絡特征層執行用戶分簇,并設計了考慮用戶差異性的分布式k-sums 分簇算法。軌跡調控層優化無人機基站飛行軌跡,并設計了基于多智能體強化學習MASAC 的分布式軌跡調控算法,融合集成學習和課程學習技術提升了收斂速度和效果。由仿真結果可知,所設計的網絡特征層算法能夠應對用戶的動態性和差異性,得到平均負載效率更高的分簇結果;本文所設計的軌跡優化層算法能夠應對多無人機基站學習環境的非平穩性,利用鄰近觀測狀態分布式優化各無人機基站的飛行軌跡,減小通信中斷頻率,提升頻譜效率,實現應急網絡覆蓋性能優化。

本文的研究工作為恢復大規模災后用戶的通信覆蓋提供了分布式智簡的解決思路,但仍然存在一些局限性,未來的研究工作可以從以下2 個方向入手:1)所提算法受多超參數的影響,如鄰近無人機基站的數量、無人機基站可觀測的用戶數量、無人機之間的相關性系數,這些超參數的取值基于規則給定,通過引入深度學習中的注意力機制等方法,上述超參數可以被進一步研究;2)本文的研究重點聚焦于用戶覆蓋優化以快速恢復災區通信,沒有考慮實際應用中可能存在的其他問題,包括功率分配、能耗均衡等,未來可以在本文基礎上進一步研究多優化目標相互耦合的綜合性問題。

猜你喜歡
智能優化用戶
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
主站蜘蛛池模板: 国产精品自在拍首页视频8 | 无码精品国产dvd在线观看9久 | 色综合狠狠操| 就去吻亚洲精品国产欧美| 青青青视频91在线 | 超级碰免费视频91| 无码专区国产精品第一页| 3p叠罗汉国产精品久久| 亚洲第一视频网| 国产欧美视频在线| 另类重口100页在线播放| 久久这里只精品国产99热8| 婷婷亚洲最大| 国产香蕉97碰碰视频VA碰碰看| 亚洲一区二区三区香蕉| 精品福利视频网| 国产高潮流白浆视频| 啪啪免费视频一区二区| 日本人妻丰满熟妇区| 真实国产乱子伦视频| 国产美女在线观看| 爱做久久久久久| 91啪在线| a国产精品| 欧美在线免费| 国产情侣一区| 欧美午夜在线播放| 欧美日韩精品一区二区在线线| 最新亚洲av女人的天堂| 中文字幕永久在线看| 国产欧美高清| 在线观看国产精美视频| 国产欧美高清| 色综合久久综合网| 日本免费新一区视频| 男女精品视频| 狠狠v日韩v欧美v| 99国产在线视频| 亚洲欧美另类久久久精品播放的| 欧美天天干| 全午夜免费一级毛片| 色噜噜中文网| 无码精品国产dvd在线观看9久| 全免费a级毛片免费看不卡| 伊人色在线视频| 国产精品成人不卡在线观看| 亚洲AV无码久久精品色欲| 国产无人区一区二区三区| 欧美午夜视频| 久久综合九九亚洲一区| 精品国产aⅴ一区二区三区| 国产原创自拍不卡第一页| 综合网天天| 午夜高清国产拍精品| 天堂在线www网亚洲| 精品国产www| 狠狠色香婷婷久久亚洲精品| 亚洲系列无码专区偷窥无码| 亚洲最黄视频| 国产精品成人免费视频99| 国产性生大片免费观看性欧美| 亚洲精品综合一二三区在线| 免费播放毛片| 日本人妻丰满熟妇区| 午夜福利无码一区二区| 国内精品91| 99re视频在线| 日本久久网站| 五月天福利视频| 国产精品尤物铁牛tv | 最新日本中文字幕| 日本免费精品| 日韩在线2020专区| 色婷婷久久| 中文字幕日韩视频欧美一区| 久久性视频| 国产91高清视频| 亚洲天堂网2014| 99免费视频观看| 在线免费观看AV| 成人午夜天| 国产无人区一区二区三区|