林妙預,李因新,趙力強,2,王云峰,劉洋
(1.西安電子科技大學通信工程學院,陜西 西安 710071;2.西安電子科技大學廣州研究院,廣東 廣州 510100;3.中國電信研究院,北京 102209)
近年來,全息呈現、無人駕駛、元宇宙等新興服務的提出將打破現有5G 三大應用場景間的界限[1]。未來的智能服務對端到端傳輸時延、可靠性等都有極高的要求,因此需要研究6G 通感算深度融合技術。云服務器可以提供超高的計算能力,邊緣服務器靠近用戶側,可以更好地感知用戶服務,降低服務時延。所以亟需探索一種面向6G 通感算深度融合的云-網-邊智能協同方案。
如今網絡中的數據呈指數級增長,如果將智能算法部署在云服務器中,將感知的全部數據傳輸到云服務器,一方面會對網絡造成壓力,另一方面也有泄露用戶數據隱私的風險。邊緣智能[2]通過在邊緣服務器上挖掘數據成功地解決了上述問題,在邊緣服務器上產生的數據可以更好地保證用戶的隱私和安全,并緩解回傳的壓力。但是,如果所有的人工智能算法都下沉到邊緣,會造成資源的短缺。因此,如何實現云計算[3]和邊緣計算的智能算法的協同訓練是一個值得研究的問題。
目前國內外學者對6G 網絡相關技術進行研究[4-6],并在通感算融合方面取得了較多成果。楊艷等[7-9]對面向6G 通感算融合的應用場景、關鍵技術、不同通感融合階段以及未來發展趨勢進行了概述。段向陽等[10-11]從5G-Advanced 和6G 不同階段中提煉出其技術五大發展模式特征。Gao 等[12-13]結合邊緣計算和分布式深度學習的思想,提出了新的分布式環境感知推理框架,提高了計算效率與準確性。Xu 等[14]提出一種云-邊協同框架,提高了智能模型的準確率,并可以在較差的環境中保持云-邊數據的傳輸。Huang 等[15]提出了一個集成的云-邊-端深度適配器框架,以實現更低延遲和更高吞吐量。Wu等人[16]提出了一種新穎的基于云-邊的家庭健康監測聯合學習框架,它從網絡邊緣的多個家庭學習云中共享全局模型,并通過將用戶數據保存在本地來實現數據隱私保護。Kai 等[17]提出了一個協同計算框架,實現了在有限的計算和通信能力范圍內提高任務的云-邊-端處理效率。Liu 等[18]提出了一個云-邊-端分層聯合學習系統,支持分層聯合平均算法,并允許多個邊緣服務器進行部分模型聚合。但上述云-邊相關研究都基于非服務化思想,靈活性、敏捷性不高。云-網-邊智能協同與微服務融合的工作還很少。針對上述問題,本文引入微服務[19]思想設計云-網-邊智能協同方案,并搭建面向6G 通感算深度融合的云-網-邊智能協同實驗平臺驗證方案可行性。
云計算、5G 網絡以及邊緣計算的發展推動了6G 通感算的深度融合。而人工智能算法具有易實現、更偏向于處理復雜問題等優點,可以用來替代傳統算法對網絡進行智能感知。因此,本文借鑒了微服務思想提出面向6G 通感算融合的云-網-邊智能協同架構,并將分布式人工智能算法協同訓練及推理過程解耦為相應的NF,并通過統一的超文本傳輸協議(HTTP,Hypertext Transfer Protocol)接口來完成各個NF 之間的通信以實現智能協同。
所提架構如圖1 所示,該架構為三域四層三面結構。現對計算域、通信域和感知域進行介紹:

圖1 面向6G通感算深度融合的云-網-邊智能協同架構
(1)計算域:主要由云計算組成,將核心網云原生化并部署在云服務器,以提供強大的計算、存儲資源,并提供全局的長期決策。
(2)通信域:主要由網絡設備和節點組成,以提供網絡資源,作為媒介將感知域和計算域連接在一起。
(3)感知域:主要由邊緣服務器成,靠近用戶,與通信和計算域協作為用戶提供計算、存儲和通信資源。
各域之間的交互借助于統一的基于服務的接口(SBI,Service-Based Interface)總線,本文將HTTP 作為邏輯總線的實現。
接著,對基礎設施層、虛擬化層、功能層和應用層進行介紹:
1)基礎設施層:位于整個架構的最底層,提供所需的計算、緩存和通信資源。
2)虛擬化層:依托網絡功能虛擬化(NFV,Network Functions Virtualization)[20]技術對底層物理資源進行抽象和虛擬化。
3)功能層:由統一的SBI 總線以及遍布控制面、智能面和管理編排面的NF 組成,通過統一的SBI 將這些網絡功能連接在一起,保證它們在需要時可以直接通信。
4)應用層:主要是各個面所提供的各種服務,比如智能面提供的各種智能感知算法服務。
智能面、控制面和管理編排(MANO,Management and Orchestration)面介紹如下:
1)控制面:主要包含服務選擇功能、服務注冊功能和服務發現功能等及其占用的系統資源。資源的獲取涉及基礎設施層和虛擬化層。
2)智能面:是本架構的重點。以聯邦學習為例,智能面借鑒微服務的思想,將分布式人工智能算法的訓練和推理過程解耦為五個NF:數據采集(Collector)功能、數據預處理(Pre-Producer)功能、模型(Model)功能、分發(Distributor)功能和聚合(Aggregation)功能。對其簡要描述如下:
◆Collector:為后期感知算法訓練及推理采集原始數據;
◆Pre-Producer:對Collector 采集的數據進行數據清理、數據聚合或執行數據所需的其他預處理操作,使數據處于訓練所需的格式,以便后續使用;
◆Model:訓練和推理模型,通過讀取經過Pre-Producer 處理過的數據進行模型訓練及推理,還可以用來存儲和管理一些常見的神經網絡模型;
◆Distributor:主要根據該功能中所具有的節點選擇算法對模型訓練及推理部署所需的參與節點進行選擇。節點選擇在一定程度上決定了分布式機器學習最終得到模型的好壞;
◆Aggregation:該功能包含在聯邦學習等分布式算法訓練過程中的參數聚合方式和同步方式等。常見的參數聚合方式主要有聯邦梯度聚合和聯邦模型參數聚合等;常見的同步方式有同步通信和異步通信等。
3)MANO 面:主要負責智能面和控制面NF 的資源分配、健康狀態監控、全生命周期管理并具有一定的自治能力。MANO 面借助于Kubernetes 實現,但為了更好地管理與編排,本文利用Kubernetes 提供的client-java 和client-go進行二次開發,通過與API Server 和metrics-server 交互以實現網絡功能的模板實例化以及資源的管理與編排。
控制面、智能面和MANO 面的NF 可以通過SBI 總線進行通信,而不限制于某一個特定面之上。
本文設計了云-網-邊訓練與推理流程,以支撐6G 通感算智能協同。其中計算域采用Distributor、Aggregation 與Model 網絡功能完成模型分發、節點選擇與模型聚合;感知域采用Collector、Pre-Producer 以及Model 網絡功能完成數據采集、數據預處理以及模型訓練和上傳。由于網絡功能是解耦之后得到的,因此各個網絡功能之間邏輯相互獨立,僅通過數據進行交互。
訓練與推理過程的前期流程一致,具體流程如下。
首先,用戶通過5G 基站接入核心網,并通過無線網絡連接到云-網-邊系統,然后向控制面應用層發送服務請求。控制面應用層在收到服務請求后,通過RESTful接口得到智能面功能層的服務。
智能面功能層對服務請求進行解析并向MANO 面發送請求。當MANO 面收到請求后,首先對請求進行解析獲取需要實例化的智能面NF,然后對相應的NF 進行實例化和部署。
(1)訓練過程
在訓練過程中,當相應的NF 部署完成后,向計算域的Distributor NF 發送請求。
步驟1:Distributor NF 收到請求后,通過內部的節點選擇函數選擇合適的邊緣節點參與本輪的智能算法訓練。如果本次訓練處于初始化環節,還需向Model NF 選擇一個合適的神經網絡模型。Distributor NF 將獲取得到的神經網絡模型下發到選擇出的邊緣節點。
步驟2:被選中邊緣節點的Collector NF 接收到模型后,開始收集相應的數據,并將其放入到數據庫。Pre-Producer NF 讀取數據庫中的數據文件進行數據預處理,并將處理后的數據放入到數據庫中,并向Model NF 發送訓練請求。
步驟3:Model NF接收到訓練請求后,利用Distributor NF 發送的模型和數據庫中的預處理文件進行一輪模型訓練,并將訓練得到的模型發送到計算域的Aggregation NF。
步驟4:計算域Aggregation NF 對接收到的模型進行聯邦聚合并得到聚合后的模型,將該模型發送給計算域Distributor NF。跳到步驟1 直到模型到達期望的準確率。
(2)推理過程
在推理過程中,當相應的NF 部署完成后,向感知域的Collector NF 發送請求。
步驟1:Collector NF 接收到請求后,開始收集相應的數據,并將其放入到數據庫。Pre-Producer NF 讀取數據庫中的數據文件進行數據預處理,并請求Model NF 計算結果。
步驟2:Model NF 接收到請求后,解析請求中所選擇的模型,并將數據庫中的預處理文件輸入到模型中得出最后結果,返回給用戶。
本文使用5G SA 實驗平臺對云-網-邊智能協同進行實現,實驗場景圖如圖2 所示。平臺建設過程大致可分為四個步驟:Kubernetes 集群建立、邊緣計算平臺部署、NF 部署、5G 移動通信系統部署。

圖2 實驗場景圖
本文對集中式智能算法和基于微服務的智能協同算法在不同規模的神經網絡模型下的總訓練時間進行了測試。將邊緣服務器上傳神經網絡模型參數產生的傳輸時延和智能算法訓練產生的計算時延之和作為智能算法的總訓練時延。
從圖3 可以看出,當神經網絡模型采用的卷積核大小為[16,16]、[32,32]和[64,64]時,基于微服務的智能協同算法的總訓練延遲遠低于集中式人工智能算法的總訓練延遲。這是因為基于微服務的智能協同算法可以選擇多個邊緣服務器進行模型的訓練與推理,有效地減低總訓練延遲。

圖3 基于微服務的智能算法與集中式智能算法訓練總時延
由于6G 網絡對可靠性有著極高的要求,并且分布式智能算法訓練也需要可靠的通信網絡,所以必須保證參與協同的節點不會因為通信質量問題而脫機。因此,分別對傳統的智能協同和基于微服務的智能協同方法進行了20、40、60、80、100 次訓練測試。
如圖4 所示,在100 次測試中,基于微服務的智能協同方法只失敗了2 次,而傳統的智能協同方法則失敗了10 次。這是因為,一方面,基于微服務的智能協同方式部署在Kubernetes 集群內部,而Kubernetes 對其網絡狀態給予了一定的保障。另一方面,服務之間的資源隔離是通過Docker 容器實現的,減少了服務之間資源競爭的機會。因此,基于微服務的智能協同比傳統的智能協同架構具有更高的系統可靠性。

圖4 基于微服務的云-網-邊智能算法協同訓練可靠性
為了更好地說明本文提出的云-網-邊智能協同架構能夠快速響應服務請求,將其與其他相應平臺進行比較。用1 臺本地機器作為客戶端,以3 000 個任務請求的時間間隔發送3 000、6 000 和30 000 個請求。服務請求響應時間是指從開始請求到收到最后一個字節的響應所消耗的時間。
從圖5 可以得到,基于微服務的云-網-邊智能協同平臺的用戶服務請求響應時間低于另外兩個對比平臺。分析其原因:一方面,文中所提架構使用了Kubernetes 來部署服務,與另外兩個平臺的部署方式相比,Kubernetes減少了服務啟動時間;另一方面,基于微服務架構的服務部署可以保證資源的隔離性,與其他服務部署方式相比,減少了對資源的競爭。研究結果表明,本文提出的平臺可以更快地響應用戶的請求,從而降低服務延遲。

圖5 服務請求響應時間
在本文設計了一種面向6G 通感算深度融合的云-網-邊智能協同方法。首先,提出了一個“三域四層三面”的分布式網絡架構。其次,通過微服務思想將分布式智能算法抽象為多個虛擬網絡功能,各網絡功能之間借助于HTTP 完成服務的獲取與提供。然后,設計了云-網-邊智能協同算法訓練與推理流程。最后,建立了一個實驗平臺。實驗結果表明本文提出的架構可以提高系統的可靠性,并降低網絡傳輸負載和服務時延。未來可以考慮加入能量傳輸補給接入側的能量消耗,提高系統壽命,實現通感算能相互融合。