孫瑞錦,文添圣,楊 浩,黃 蕾,承 楠,李長樂
(西安電子科技大學 通信工程學院,陜西 西安 710071)
移動通信系統從第一代(First Generation,1G)發展到第五代(Fifth Generation,5G),經過數次深刻變革,實現了從模擬到數字;從只能支持語音文本業務到支持高清視頻、在線游戲等業務;從人與人的通信到人與物、物與物的全方位通信。在覆蓋范圍方面,前五代移動通信系統都專注于陸地移動通信,陸地移動系統只覆蓋了小于6%的全球表面積,在占全球表面積70%的海洋區域以及地廣人稀的沙漠森林等區域,鮮有穩定的通信信號。為了支持全球范圍內的移動通信,第六代(Sixth Generation,6G)移動系統將通過泛在、智能、深度的連接,構建跨地域、空域、天域和海域的“空-天-地-海”一體化動態網絡[1]。在業務支撐方面,6G將接力5G移動通信系統的持續演進,進一步支持大帶寬高速率的沉浸式虛擬現實、全息通信業務,面向海量連接的物聯網業務以及高可靠低時延的車聯網、工業互聯網等垂直行業業務。此外,6G還將支持感官互聯、普惠智能、數字孿生等新型典型業務。在網絡架構方面,隨著云網融合技術的發展和服務器在移動網絡架構中的下沉,6G通信網絡將由異構接入網、邊緣云和核心云構成,可調度資源也包含功率、頻譜、空域、計算和存儲等多維資源的聯合調度。為高速率無縫覆蓋熱點區域,使用毫米波、太赫茲等頻段的異構接入網也在不斷密集化[2]。
由于網絡覆蓋的立體化、網絡拓撲的動態化、應用場景的多元化、服務需求的個性化、接入機制的異構化、接入節點的密集化以及網絡資源的多維化和細粒度化,6G網絡資源調度的復雜性急劇增加。傳統的資源調度從方法上主要分為兩大類,分別是基于優化理論、博弈論等數學模型驅動的調度方法和基于神經網絡、深度強化學習等數據驅動的調度方法[3]。基于數學模型驅動的資源調度方法依托于通信理論,具備很強的可解釋性和可控的性能保障。然而,在復雜場景中,數學模型難以對網絡多維動態特征進行精準建模,導致算法性能不精確。此外,基于優化理論等模型的方法在線實時計算的迭代次數多、處理時間長,難以滿足低時延業務的時效性要求。基于純數據驅動的資源調度方法本質上是利用大量離線訓練的計算資源換取快速的在線計算時間。然而,該方法依賴于穩定的網絡環境和海量的高質量訓練樣本,泛化性差且訓練階段收斂緩慢。此外,純數據驅動的方法可能無法滿足像自然法則、安全準則等無法用數據進行描述的約束條件,可解釋性差,難以應用于自動駕駛、工業互聯網等安全性要求極高的關鍵場景中。
為了滿足6G網絡復雜資源調度的時效性和精確性,充分發揮模型和數據驅動方法各自的優勢,學術界開始將數學模型、通信理論、網絡語義特征、專家經驗等知識和神經網絡方法深度融合,探索知識驅動的資源調度方法。一方面通過在數據驅動的神經網絡方法中引入特定領域知識,增強系統的穩健性,增加神經網絡結構和任務特性以及系統性能之間的可解釋性,并且降低對訓練樣本量的依賴,提升小樣本甚至零樣本下的學習性能。另一方面,通過知識在不同網絡間的共享和遷移,讓知識在網絡中動起來,增加知識在網絡中的復用率,提升資源調度的決策速度[4]。目前,基于知識驅動6G網絡資源調度方法的研究還處于初始階段,如何針對不同的應用設計知識驅動的定制化資源調度方法還沒有統一的定論。本文將嘗試對該領域的研究進行深入分析和探討,并給出可能的解決方案或研究思路。
本文給出了6G網絡資源調度知識的定義和分類方法,設計了知識定義的6G網絡架構并綜述了知識驅動資源調度方法的關鍵技術,展望了6G網絡中知識驅動資源調度的未來研究方向。
知識是人類對物質世界以及精神世界探索結果的總和。在哲學領域,邁克爾·波尼爾(Michael Polanyi)對知識的定義做了詳細的闡釋:人類的知識有兩種,通常描述為知識的,即以書面文字、圖表和數學公式加以表述的,是顯性知識;而未被表述的知識,像做某事的行動中所擁有的知識,是隱性知識。本文在網絡領域重新對知識進行了定義,即網絡知識是對網絡環境、用戶主體、業務需求的個性化特征、演變規律等的認知描述,對網絡資源調度過程中的經驗規則、理論算法等的認知總結。
為了對抽象的網絡知識有更具體的認知,本文對網絡知識做了更詳細的分類,具體包括網絡知識的來源、表征和網絡知識在資源調度過程中的融入方法[5],三者之間的關系如圖1所示。

圖1 網絡知識的來源、表征和融入方法
網絡知識的來源是指資源調度過程中所使用網絡知識的出處,主要包括專家知識、數據知識和模型知識。網絡知識的表征是網絡知識的抽象化表示,是知識在計算機中的表示方法、表示形式和設計原則,是實現網絡知識提取、共享、遷移及利用的重要基礎。本文將通信網絡中的知識表征為以下種類型,即數學公式、仿真結果、空間不變性、邏輯規則、知識圖譜以及概率關系。
各類網絡知識和其對應表征方式的關系如圖1所示,其具體描述如下:
① 專家知識。專家知識是由一個特定的專家群體掌握的知識,是特定領域的專家對所掌握的信息做出判斷后得出的結論。在網絡通信資源調度中,專家知識就是專家針對網絡場景中的環境、主體和需求,依據經驗制定的決策規則。專家知識大多采用數學公式和概率關系的表征形式,有時也能被表征為邏輯規則、空間不變性等形式。
② 數據知識。從認知計算來看,數據是知識的外延,知識是數據的內涵,兩者之間是抽象與具象的關系[6]。本文定義的數據知識是指從網絡數據中學習、提取、預測的網絡語義特征,例如網絡業務流量的時空演變規律、用戶的移動特征和文件流行度預測等。數據知識多以仿真結果的形式來表征,也可以采用知識圖譜的形式表征。
③ 模型知識。模型知識是指具有可解釋性的已有的基于優化理論、博弈論、概率論等的資源調度方法,例如基于注水定理的功率分配算法、基于迫零和最大比合并的波束成形算法、基于log定律比例公平資源塊調度方法等。模型知識多以數學公式和概率關系形式進行表征。
網絡知識的融入方法描述了網絡知識在智能資源調度算法中的融入方式,是設計知識驅動資源調度的重要方法論。網絡知識的融入方法可以從改進學習算法、選擇神經網絡結構、模型數據雙驅動和深度展開四個方面來提升神經網絡的可解釋性,增強系統的穩健性。
① 改進神經網絡方法。改進神經網絡方法主要包含改進學習算法與改進神經網絡架構兩類。改進學習算法通常以增加額外損失項來影響學習算法中損失函數的方式來實現知識集成。例如,以數學公式形式存在的先驗知識就可以通過附加損失項的方式進行知識融合[7]。而改進學習算法則是通過引入知識來改變網絡的結構和超參數,從而改變網絡架構以實現知識融合[5]。在知識改進神經網絡方法中,大多將知識表征成數學公式、概率關系等形式,也可以直接以仿真結果、知識圖譜的形式融入到機器學習過程,或是將知識以空間不變性、邏輯規則的形式實現集成。
② 數據模型雙驅動方法。將知識集成到已有的模型算法中,在數據驅動算法性能下降時,可以選擇模型作為數據驅動方法的備份,或者與數據驅動方法聯合使用[8]。數據驅動與知識驅動有多種組合方式,如模型數據串行雙驅動、并行雙驅動、耦合雙驅動、反饋雙驅動等[9],不同的結合方式在提升算法的可解釋性、精確性上有著不同的影響。采用數據模型雙驅動融合方式的知識表征多為數學公式、邏輯規則以及概率關系。
③ 基于深度展開的方法。深度展開就是先構造特征提取模型,推導模型的求解算法,將算法在迭代方向展開成網絡,利用端到端的訓練方法確定算法或網絡中的超參數[10]。深度展開常用于解決優化算法問題,在算法展開成網絡的過程中引入相關領域知識,能有效地提升算法的穩健性和可解釋性[11]。深度展開可以直接使用數學公式、概率關系形式的知識。
在知識驅動的資源調度過程中,為便于網絡知識的發現、存儲、共享和管理,本文從網絡協議層次和網絡功能模塊兩方面設計了知識定義的6G網絡架構。
從協議層次上劃分,知識定義的異構融合網絡架構可以分為如圖2所示的基礎設施層、虛擬資源層、資源編排層和應用服務層。

圖2 知識定義的6G網絡協議架構
其中,基礎設施層包括以手機、物聯網節點、智能網聯汽車等為主的用戶,以基站、無人機、衛星等為主的多種異構接入機制,以及邊緣云和核心云的硬件服務器等。虛擬資源層是利用虛擬機、容器等技術將基礎設施的硬件資源抽象成一個大的虛擬資源池,虛擬化的帶寬、計算和存儲資源可以在全網進行按需調度。資源編排層是根據業務需求和網絡狀態,對虛擬資源進行編排、調度和管理。最上層是應用服務層,負責多元化應用的服務質量保障。本文在資源編排層中引入知識子層,用于輔助決策子層的服務需求匹配、資源按需調度和動態智能協同。決策子層資源調配過程中形成的決策知識也可以用于完善知識子層的認知架構。知識子層中的知識庫用于存儲網絡中新發現和挖掘到的以各種形式表征的網絡資源決策知識,包括通過神經網絡方法學習到的業務流量知識、文件流行度知識,通過深度強化學習獲知的優質狀態-行為對知識,專家總結的經驗知識和基于理論模型的調度規則、算法知識等。知識子層還具備知識發現、知識管理和知識遷移等功能。
從網絡功能模塊上看,本文所設計的知識定義6G網絡架構如圖3所示。網絡資源控制器中包含感知模塊、學習模塊、網絡決策知識庫、決策模塊和行動模塊。其中,感知模塊用于感知業務的個性化需求和復雜的網絡環境。學習模塊根據感知模塊提供的數據進行場景特征識別、用戶移動性預測和業務流量預測等。網絡決策知識庫中存儲不同類別和來源的資源調度知識,包括學習模塊中網絡語義特征知識、通過知識遷移獲得的多種公有知識和其他通用知識。決策模塊根據網絡決策知識庫提供的通用知識、學習模塊提取的本地知識以及特定領域知識進行資源的按需智能調度。行動模塊將決策模塊的決策結果下發至各個接入節點和用戶分別執行。此外,不同網絡資源控制器之間可以借助知識遷移以有線的方式共享網絡決策知識。

圖3 知識定義6G網絡功能架構
知識驅動的資源調度方法是網絡資源調度知識和神經網絡雙驅動的快速而精準的資源調度方法。具體而言,在資源調度過程中,將以各種形式表征的網絡資源調度知識與神經網絡方法深度融合,利用知識指導神經網絡的結構選擇、減少訓練參數和改進學習算法等,充分發揮網絡資源決策知識的可解釋性優勢和神經網絡方法的快速在線決策優勢,滿足6G復雜網絡資源調度的時效性、精確性和可靠性。
本文從網絡資源調度知識的來源出發,將知識驅動的資源調度方法歸類為基于本地知識驅動的資源調度方法和基于知識共享的資源調度方法,并分別從這兩個方面對知識驅動的資源調度方法進行綜述。
2.2.1 基于本地知識挖掘的資源調度方法
基于本地知識挖掘的資源調度方法是利用本地網絡學習到的知識從零開始設計知識指導的資源調度方法。在基于本地知識挖掘的資源調度方法中,本文按知識的融入方法分類,綜述現有的知識和神經網絡雙驅動的資源調度方法。
改進深度網絡算法的網絡資源調度方法通常利用通信網絡的領域知識來解決深度強化學習在網絡資源調度中遇到的一些問題。具體而言,Sun[12]通過挖掘通信領域資源服務的排列不變性,使得訓練深度強化學習算法所需訓練樣本大量減少,從而大幅度提高了網絡的收斂速度。Guo[13]利用排列不變性設計了參數共享的神經網絡結構,從而大幅度提升了網絡的決策速度。Shen[14]創新地提出使用圖神經網絡,有效地解決了深度強化學習在多維資源調度中存在行為空間過大的問題。除此之外針對深度強化學習在資源決策中存在的延遲獎勵和稀疏獎勵問題,可以利用專家對目標調度策略的知識設計一個勢函數,以生成一個非零的即時獎勵,提升調度的時效性。
模型數據雙驅動的網絡資源調度方法通常是數據驅動與模型驅動兩種方法協同工作、相互支持,形成混合數據模型驅動的資源調度方法。Shen[8]等人指出了在6G背景下,使用模型數據雙驅動算法解決復雜資源調度問題具有優勢。Zheng[3]在深度強化學習網絡中融合了通信領域知識,對產生了回報值進行重塑,進而改進深度強化學習的更新函數,最終有助于提高資源調度過程的準確性。Xia[15]通過模型驅動的方法先確定解的結構,再使用深度學習方法來學習解結構里的部分參數,加快了優化速度。
基于深度展開的資源調度方法是以傳統基于優化理論的迭代算法為框架,利用深度學習方法解決傳統迭代優化算法遇到的問題。具體而言,針對和速率最大化的功率迭代優化方法中一些運算模塊(如矩陣求逆)計算復雜度高的問題,Hu[16]采用深度學習方法對其進行預訓練和擬合,降低資源調度算法的在線計算復雜度。此外,針對傳統迭代優化方法求解多用戶波束成形矩陣等非凸優化問題時常常陷入局部最優解的問題,Chowdhury[17]借鑒深度學習的思想,在迭代算法中引入一些待學習參數,用深度學習方法訓練新引進的參數,提升算法找到全局最優解的概率。
綜上所述,通過將網絡資源調度知識與神經網絡方法深度融合,可以提升資源調度方法的可解釋性,提供可靠的性能保障,同時有效加快資源調度算法的在線處理速度。然而,現有基于本地知識挖掘的資源調度方法研究仍處于初級階段,主要是用知識驅動的方法重新解決比較經典的功率分配、資源塊調度、波束成形等傳統通信問題,對6G新架構全場景個性化需求下復雜廣域網絡的通信、計算、存儲等多維資源的調度還研究得比較少。
2.2.2 基于知識共享和遷移的資源調度方法
由于網絡業務流量的時空演變特征、用戶的移動性行為和服務的個性化需求等具有一定的相似性,可篩選出高質量的網絡資源決策知識,并在相似網絡環境下的相似服務決策中共享,可以避免相似任務的重復線下訓練,實現輕量級的訓練資源消耗和快速的資源決策速率。在基于知識共享和遷移的資源調度方法中,將現有研究按基于無監督強化學習和有監督深度學習的遷移方法進行分類,并分別綜述。
基于無監督強化學習的遷移方法通常是利用通信網絡資源調度的具體場景來訓練強化學習模型,再遷移模型數據。具體而言,Sun[18]提出了一種深度強化學習方法,用于光纖陀螺無線接入網絡中的模式選擇和資源管理,其主要目的是降低網絡的功耗。為了加快模型訓練過程,在環境發生變化時,使用遷移學習將先前訓練的深度Q網絡(Deep Q-Network,DQN)的知識轉移到新的DQN。仿真結果表明,知識共享將訓練過程加快37.5%。Li[19]提出了一種基于遷移學習的演員-評論家強化學習模型來管理無線接入網絡中的基站切換,為了進一步提高模型的效率,將歷史經驗和鄰近地區獲得的知識遷移進模型。仿真結果表明,所提出的知識遷移方法可以將模型的能量效率提高60%。
基于有監督深度神經網絡的遷移方法通常是以通信網絡資源調度的理論知識或歷史數據為基礎,構建資源調度的神經網絡模型或初始化模型參數。Zhang[20]提出了一種用于空中邊緣網絡的智能邊緣計算架構,利用遷移學習在無人機之間共享和重用知識,減少計算和通信開銷,大大提高了邊緣服務性能。She[21]先讓深度神經網絡在理論模型獲得最優策略知識,然后通過深度遷移學習轉移到現實世界的網絡,提高了移動邊緣服務器的學習效率。Dong[22]提出了一種深度學習方法來設計移動網絡中基站的最佳資源分配策略,由于無線環境變化頻繁,提出了一種知識遷移學習方法,將離線模式下訓練的神經網絡遷移到目標任務中二次訓練。仿真結果表明,該方法可以幫助目標任務訓練過程更快地收斂,即減少2 000~3 000個訓練周期。
綜上所述,通過知識共享和遷移,網絡資源調度任務能夠顯著地降低訓練時間,節約訓練資源,減少通信資源開銷。然而,現有方法更側重于目的網絡中基于遷移學習的訓練性能,忽視了源網絡和目的網絡間多維度特征的相似度量化和基于相似度的知識動態匹配機制。此外,現有方法大多只共享或遷移了單一表征形式的知識,如神經網絡參數或通信理論,沒有涉及基于多種來源、多種類型和多種表征形式聚合的知識共享方案。
6G網絡將跨越地域、空域、天域和海域,通過物理世界和虛擬世界的連接,滿足人類與機器互聯互通的全方位需求,其潛在應用場景不僅包含全息通信、自動駕駛、工業互聯網等已知場景,還將催生大量用戶自定義的未知場景。6G廣域異構的網絡環境和全場景個性化的服務需求使得資源調度的復雜性增加。知識驅動的方法有望提升復雜網絡資源調度的時效性和精確性。而現有知識驅動資源調度方法的研究主要是利用知識驅動的方法重新審視傳統經典的資源調度問題。本節面向未來6G網絡,展望了知識驅動資源調度技術的未來研究方向。
6G網絡多樣化場景和潛在未知場景導致對場景類型、特性的規范描述與相應的需求提取十分困難,難以實現網絡資源的按需調度。因此,需要研究基于本體論的場景規范化描述方法,通過挖掘網絡中要素、屬性、需求等之間的內在關聯以及用戶-網絡深層次關聯模型,構建6G全場景知識圖譜。首先,挖掘全場景的關鍵要素,建立6G全場景的本體。本體是知識圖譜的模型,6G全場景的本體包含場景、關鍵性能指標(Key Performance Index,KPI)之間的映射,其中場景可以進一步細分為環境、主體和需求。其次,構建基于本體的6G全場景知識圖譜。基于本體模型,建立6G全場景知識圖譜中實體和關系的類別庫。采取自底向上的方法,從現有6G文獻、白皮書等資料中抽取實體、關系的三元組,構建6G全場景知識圖譜。最后,自動化擴充和對齊6G全場景知識圖譜。基于深度學習方法實現6G全場景知識圖譜的自動抽取和補全。此外,將符號主義知識和連接主義神經網絡方法深度融合,實現不同知識圖譜的對齊和融合。
6G網絡應用場景豐富多元,用戶個性化需求復雜多變,不同場景間KPI指標差異巨大,難以采用簡單的場景劃分方法實現用戶需求到KPI的映射。因此,需要研究面向6G全場景的場景服務識別方法,通過匹配6G場景知識庫中的關鍵要素,將網絡多元化場景下用戶的個性化需求快速映射到客觀的網絡KPI,進而實現網絡資源的按需調度。可研究的方向有基于模糊匹配的場景服務識別。根據全場景知識圖譜的環境、主體、需求等節點屬性,按照目標場景和需求在知識空間的映射,與相鄰節點做模糊匹配,劃分場景與相應KPI的知識圖譜子圖。此外,研究基于知識推理的場景服務識別。根據6G全場景知識圖譜中已知場景與KPI的映射關系,從已知場景出發通過知識推理得到目標場景與KPI的映射關系。最后,研究基于圖神經網絡方法的場景服務識別。根據6G全場景知識圖譜上現有場景與KPI的知識,模擬相應場景到KPI的映射數據,訓練用于場景識別的圖神經網絡。根據訓練好的圖神經網絡,輸入場景數據,快速識別對應場景的KPI。
現有關于知識驅動資源調度方法的研究大多集中于引入單一知識以提升網絡性能。而在未來6G資源調度網絡中,網絡挖掘到的知識是復雜多樣的,具有不同的來源、類別以及表征形式,不同的知識能夠為網絡帶來不同角度的增益。因此,未來可以研究基于多知識聚合的6G網絡資源按需調度技術。首先,針對用戶的個性化需求,篩選和聚合多種類型的網絡知識。根據具體的任務需求在已構建的大規模6G網絡知識庫中自動篩選相關知識,匹配最優的知識或知識組合,將多知識進行統一聚合。然后,研究多知識驅動的通算存一體化資源調度方法。在基于深度強化學習的復雜網絡多維資源調度中,可以綜合利用行為概率分布、頻率相關性等專家知識大幅減少狀態空間,提升算法的收斂速度;利用多任務的置換不變性知識改進神經網絡結構,增加算法的可解釋性;利用通信理論知識指導優化行為的選擇,增強系統的穩健性。
本文針對傳統基于模型、數據資源調度方法所具有的精準性不穩定、泛化性差、收斂緩慢等問題,提出了知識驅動的網絡資源調度方法。首先,重新定義了網絡知識,并詳述了網絡知識的來源、表征形式與融合方式。然后,設計了知識定義的6G網絡架構,對基于本地知識挖掘、知識遷移共享的資源調度方法進行綜述。最后,探討了知識驅動6G網絡資源調度方法的未來研究方向,希望為后續研究提供參考,并推動6G網絡資源調度技術的進一步發展。