魏強 廖瑛 徐瀟審 郝媛媛 任術波 張千 繆中宇 辛寧
(1 國防科技大學 空天科學學院,長沙 410073)
(2 中國空間技術研究院通信與導航衛星總體部,北京 100094)
(3 中國人民解放軍32039部隊,北京 102300)
隨著通信需求向多空間、多方位的不斷擴展,以及天基、空基、海基、地基等各種網絡服務的不斷涌現[1],構建全球覆蓋、隨遇接入、按需服務的天地融合網絡是通信發展的重要趨勢[2]。天地融合網絡充分利用天基網絡和地基網絡在不同空間維度上的優勢,不斷突破網絡邊界限制,在實現多維網絡互聯互通的同時為用戶提供全時全域的信息服務。然而,建設天地融合網絡需要大量的頻譜資源來滿足通信需求,而頻譜資源是有限且不可再生的,因此,設計天地融合網絡的無線資源智能分配方法,提高頻譜資源利用率,成為天地融合通信系統中亟需解決的關鍵難題之一[3]。
為了對有限頻譜資源進行高效利用,文獻[4]中提出了天地融合網絡中的認知無線電技術,通過衛星網絡與地面網絡之間的頻譜資源共享提升頻譜資源的利用率。認知無線電技術旨在根據無線電環境調整參數以動態接入可用頻譜,具體來說,該技術允許未授權的衛星用戶在不中斷已授權地面用戶通信的情況下訪問未使用的頻譜。根據授權用戶(地面用戶)和認知用戶(衛星用戶)的頻譜資源占用情況,認知無線電技術可以分為覆蓋(Overlay)模式、底墊(Underlay)模式,以及兩者混合(Hybrid)模式[5]。Underlay模式允許授權用戶與認知用戶同時使用同一頻段,但要求認知用戶對授權用戶的干擾處于一個可接受的范圍;在Overlay模式下,認知用戶通過頻譜空洞探測結果來決定是否接入授權用戶已經占用的信道,以避免對授權用戶產生干擾;Hybrid模式即為Overlay模式與Underlay模式兼備的模式。為了最大程度地提高頻譜利用率,本文采用Underlay模式實現天地融合網絡中的可用頻譜動態接入,即:如果衛星用戶引起的干擾低于地面用戶預定義的干擾閾值,則允許并行傳輸。但是,對于授權頻譜的二次利用方式,可能會導致嚴重的同頻干擾問題,這對資源分配提出了嚴峻的挑戰。
近年來,利用認知無線電技術深入研究天地融合網絡中的頻譜資源利用問題,在一體化頻譜感知、共享與管理方面已獲得一定的研究成果。文獻[6]中提出了一種基于衛星和基站協作的頻譜感知方案,利用模糊神經網絡確定最佳檢測概率。文獻[7]中研究了基于云的衛星和地面頻譜共享網絡,并提出了基于認知無線電的智能頻譜共享方案,以減少用戶阻塞率和等待概率。但是,在實時操作中,頻繁的切換導致衛星網絡的通信環境高度動態且復雜多變,難以用數學模型來建模和求解。為了解決該問題,有些研究嘗試將強化學習與認知無線電網絡集成,以獲得最佳的資源管理策略。文獻[8]中提出一種認知無線電物聯網(CR-IoTNet)框架,該框架將物聯網與認知無線電技術融合,通過采用支持向量機(SVM)算法分析傳輸數據的潛在特征,以獲取傳輸網絡的頻譜狀態信息,更加智能地管理和優化頻譜資源的利用。文獻[9]中利用認知無線電技術提出一種衛星通信的動態頻譜接入方法,采用雙深度(Q-learning)神經網絡來自主感知當前頻譜資源狀況并學習資源感知分配策略,實現頻譜利用率的提升。但是,以上研究將通信環境視為完全未知的,忽視了網絡拓撲結構信息的重要性,在大規模通信網絡中可能會出現性能下降甚至是失效的情況。
針對上述問題,本文將天地融合網絡建模為動態圖結構,將信號鏈路視為節點,干擾鏈路視為邊,利用圖結構來保存通信環境中的時空拓撲信息,為資源分配提供先驗知識。然后,提出一種應用圖卷積網絡深度強化學習的無線資源分配方法,利用智能體與通信環境之間的交互,自主感知頻譜資源狀態并探索最優的信道選擇和功率調整策略,在實現衛星網絡和地面網絡之間頻譜共享的同時提高天地融合網絡的頻譜資源利用率。
本文針對天地融合網絡的下行傳輸過程進行研究,系統模型如圖1所示,由地面基站b∈{1,2,…,B}和每個基站服務的地面用戶u∈{1,2,…,U}構成的地面網絡為主網絡,由地球靜止軌道(GEO)衛星s∈{1,2,…,S}和每顆衛星服務的衛星用戶v∈{1,2,…,V}構成的認知衛星網絡為次網絡,其中,B為地面基站數,U為地面用戶數,S為衛星數,V為衛星用戶數。地面用戶作為主用戶,通常配備單副天線與基站通信;衛星用戶作為次級用戶,采用定向天線與GEO衛星進行通信。此外,本文假設衛星用戶采用Underlay模式與地面用戶共享頻譜資源,系統中的總帶寬為W,頻譜資源由集合n∈{1,2,…,N}表示,N為子信道的數量。

圖1 系統模型Fig.1 System model
在天地融合網絡中存在2種類型的下行鏈路。①GEO衛星與衛星用戶之間的傳輸鏈路,采用自由空間傳播模型;②基站與地面用戶之間的傳輸鏈路,采用對數正態(Log-normal)陰影模型。
1)衛星用戶信道模型
考慮自由空間損耗的影響,衛星用戶下行鏈路的信道增益表示為
(1)
式中:GR為用戶接收天線增益;Gs,v為第s顆衛星到第v個用戶的天線增益;ds,v為衛星與用戶之間的距離;λ為工作波長。
2)地面用戶信道模型
考慮到陰影衰落和路徑損耗的影響,基站與用戶下行鏈路信道增益可以表示為
(2)
式中:K為陰影效應的隨機變量;f為信道的中心頻率;L為信道模型的校正參數;db,u為用戶和基站之間的距離;α為路徑損耗指數。
3)系統容量
在天地融合網絡中,衛星用戶與地面用戶共享同一信道時會相互干擾。對于地面用戶來說,其主要干擾來源為次網絡中的衛星用戶。假設衛星用戶和地面用戶共享相同的資源塊n,則地面用戶u在資源塊n上遭受的干擾為
(3)

地面用戶u的數據速率為
(4)

對于衛星用戶來說,它會受到來自地面用戶的干擾,以及其他次網絡中的衛星用戶的干擾。類似地,假設衛星用戶和地面用戶共享相同的資源塊n,衛星用戶v的干擾為
(5)

第v個衛星用戶在資源塊n上的數據速率為
(6)

綜上所述,天地融合網絡的系統總數據速率為
(7)
本文的優化目標為:在保證主用戶通信不受影響的前提下,最大化整體網絡系統容量,因此優化問題可表達為
(8)

本節提出了一種應用圖卷積網絡深度強化學習的無線資源智能分配方法,流程如圖2所示。

圖2 方法流程Fig.2 Method flow
在無線資源智能分配方法中,首先,初始化無線電網絡環境,利用動態圖結構來構建天地融合網絡的拓撲結構模型和虛擬干擾鏈路;然后,設計應用圖卷積網絡的深度強化學習端到端模型,通過特征提取生成資源分配策略;接著,執行上述策略,得到當前的資源分配狀態;最后,通過獎勵計算判斷是否滿足優化目標,并重復上述過程直到學習到最優的資源分配策略。
動態圖結構G表示為一組頂點C和邊E的集合,關系式為G={C,E}。為了更詳細地描述圖結構,使用鄰接矩陣M=[mpq]來表示這種關聯,即
(9)
式中:epq為2個相鄰頂點cp和cq的邊;mpq=1表示cp和cq之間存在邊,反之,mpq=0。
動態圖結構構建完成之后,使用圖神經網絡處理圖結構數據,圖神經網絡通過聚集來自每個頂點的邊和相鄰頂點的特征,以迭代方式更新頂點的隱藏狀態。在每個時間t,圖中的每個頂點c的隱藏狀態嵌入都被更新,表示為hc,c∈C。在時間t+1,頂點c的隱藏狀態嵌入被更新為
(10)


本文將中央控制器視為智能體,負責調度認知天地融合網絡中Underlay模式下主用戶和次用戶的頻譜和功率資源。強化學習框架中的狀態表示智能體可以從環境中獲取的信息。由于認知無線電網絡的總數據速率受到同信道干擾的影響顯著,而同信道干擾包括衛星、用戶之間的同層干擾,以及衛星用戶和地面用戶之間的跨層干擾,這些干擾是用戶距離分布和資源占用的結果。
對于第i次迭代訓練的時間t,有效狀態oi,t主要由用戶距離分布D(i,t)和資源占用情況X(i,t)組成。
oi,t={D(i,t),X(i,t)}
(11)


(12)
(13)

獎勵定義為認知網絡的系統數據速率r(oi,t,ai,t)=Ctotal。
在解決資源分配和干擾減緩問題中,認知無線電網絡拓撲的空間特征至關重要。圖4為應用圖卷積網絡的端到端模型,用來聯合學習環境表示與資源分配策略。為了提取認知無線電網絡拓撲上的特征,采用圖卷積網絡作為基礎,使用階數索引為1的2個圖卷積層,有效提取干擾特征,防止因堆疊層過少導致頂點缺失相鄰的特征信息或者堆疊層過多導致所有的頂點都被判斷為鄰點的問題。此外,使用3個全連接層作為局部輸出函數,生成動作的概率分布,為了將輸出解釋為概率分布,本文在輸出層使用Softmax函數將實數向量映射為0~1范圍內的向量。在學習模型中,每個動作有2個子目標,即信道選擇和功率調整,通過共享該模型的圖卷積網絡層和完全連接層實現這2個子目標,并且將這2個子目標的損失和設置為整個模型的總損失函數,使得權重可以通過反向傳播同時學習信道選擇和功率調整的策略。通過權重共享方法,能避免設計2個獨立學習模型的復雜性,使得模型更加高效。
通過構建應用圖卷積網絡的端到端學習模型,將表示學習和任務學習融合在一起,解決復雜的認知無線電網絡資源分配問題。該模型不僅避免了頂點特征在連接中的不連貫性,還保持了強化學習框架的獎勵引導。通過多層特征提取,自動獲取最具代表性的空間特征,支持精確的資源分配決策。同時,模型通過整體獎勵驅動,實現了表示學習和任務學習的同時進行。

(14)
(15)

總損失與網絡參數更新公式為
(16)
(17)
式中:η為學習率。
最小化損失函數即為最大化累積獎勵,根據r(oi,t,ai,t)=Ctotal的獎勵設置,表明本文的優化目標為最大化系統數據速率,并且智能體在損失函數(累積獎勵)的驅動下不斷更新網絡參數,直到學習到最優的信道選擇和功率調整策略。
在本節中,通過試驗來評估本文提出的資源分配方法,該方法是應用圖卷積網絡的深度強化學習框架(GCN+DRL)實現的,仿真參數如表1所示。

表1 仿真參數Table 1 Simulation parameters
將本文提出的GCN+DRL與以下幾種方法進行比較:①隨機法(Random Strategy);②策略梯度法(PG Algorithm);③應用卷積神經網絡的深度強化學習法(CNN+DRL)。其中:Random Strategy以隨機策略選擇信道占用;PG Algorithm采用全連接網絡,并利用梯度信息來改進策略;CNN+DRL采用卷積神經網絡與全連接網絡的混合結構,并利用PG Algorithm更新策略。此外,本文提出的GCN+DRL將通信環境的網絡拓撲結構轉換為圖形式,并且采用圖神經網絡與全連接網絡的混合設計來挖掘環境中潛在的干擾信息,以實現更高效的資源利用。
圖5展示了不同方法可達到的數據速率。在下行鏈路干擾受限的認知網絡中,GCN+DRL表現最好。相比之下,Random Strategy收斂速度較快,但其實現的資源分配方案并不是最優的;PG Algorithm在40000次迭代后收斂,但由于用戶移動而存在較大波動;CNN+DRL在收斂速度和資源分配性能上均次于GCN+DRL。

圖5 不同方法的可實現數據速率Fig.5 Achievable data rates for different methods
圖6描述了提出的聯合信道選擇和功率調整方法的收斂性,展示了隨著訓練迭代次數的增加,每個訓練步驟的預期回報。當學習網絡剛開始訓練時,預期回報值相對較小,并且方法處于探索階段。隨著培訓過程數量的增加,預期回報值逐漸增加。訓練20000次迭代后,預期回報值穩定下來,這意味著本文方法將自動更新其決策策略并收斂到最優。此外,表2給出了不同方法的收斂時間對比,Random Strategy雖然實現了快速的收斂,但是其系統數據速率性能較差;與其他方法相比,GCN+DRL具有更短的收斂時間,因為其利用圖神經網絡可以挖掘通信環境中的潛在干擾信息,實現干擾避免并獲得較高的數據速率。

表2 不同方法收斂時間Table 2 Convergence time of different methods

圖6 方法收斂性Fig.6 Convergence of the proposed method
圖7研究了本文方法分別在0.00001,0.00003,0.00005,0.00007學習率下的收斂性能。從圖7中可以看出:不同學習率的曲線之間存在相同的趨勢,但收斂時間略有不同。就趨勢而言,早期智能體主要負責嘗試,所以預期回報值較低;就收斂時間而言,學習率為0.00001的曲線收斂大約22000次迭代,學習率為0.00003的曲線收斂大約20000次迭代,學習率為0.00005和0.00007的曲線收斂迭代次數相對較小,大約18000次迭代,因此相對較大的學習率可以加速學習過程。但是,為了收斂到最優學習策略,本文更傾向于犧牲收斂時間,選擇相對較小的學習率,得到較大的回報。

圖7 不同學習率的收斂性Fig.7 Convergence for different learning rates
本文基于認知無線電技術提出一種應用圖卷積網絡深度強化學習的資源分配方法,在保證主用戶服務質量的前提下最大化系統數據速率。為了建模認知無線電網絡的底層拓撲結構,本文考慮地面網絡為主網絡,衛星網絡為次網絡,將通信網絡建模為動態結構,使用隨機行走模型來模仿用戶的動作,利用結構中包含的用戶距離分布來估計信道質量信息,并且通過圖卷積網絡提取關鍵的干擾特征。最后,采用深度強化學習框架進行模型學習,探索最優資源分配策略。試驗結果表明:本文方法在保證授權用戶遭受的干擾小于其噪聲閾值的前提下,顯著提升了天地融合網絡的系統數據速率。