王衛斌,朱堃,何偉
(中興通訊股份有限公司,廣東 深圳 518057)
5G 時代,移動通信從最初的人與人之間的通信開始轉向人與物的通信,直至物與物之間的通信。AR/VR、物聯網、工業自動化、無人駕駛等新興業務被大量引入,對帶寬、時延、安全性等方面的需求也越來越苛刻,傳統云計算的集中部署方式已經無法滿足業務需求。MEC(Multi-Access Edge Computing,邊緣計算)由于具備算力、時延、成本的最佳綜合優勢,成為新時代改變通信信息服務模式的關鍵創新之一,有望帶來更多的顛覆性業務模式。在邊緣計算場景下,應用服務和內容部署在網絡邊緣,可以減少數據傳輸環節,提高數據安全性,降低端到端時延,減少帶寬占用,并降低功耗。運營商可以通過部署MEC 平臺,發揮5G 網絡優勢,充分挖掘無線網絡能力,為行業數字化轉型賦能。MEC 將助力運營商實現網絡從接入管道向信息化服務使能平臺的跨越[1]。
如圖1 所示,MEC 總體架構可以劃分管理域和業務域,MEC 管理域提供MEC 服務門戶、業務編排管理、業務策略管理、FCAPS 管理、生命周期管理和虛擬資源管理等。業務域又分為三層,具體功能如下[2]:
(1)資源域:包括各種類型的服務器,如以計算能力為主的計算型服務器、存儲為主的存儲型服務器以及硬件加速卡之類,滿足AI 推理、圖形圖像渲染、網絡高速轉發等需求。以及為上層各種能力服務以及APP 應用提供的虛擬化平臺資源及管理,包括虛機、容器以及裸金屬等類型,能力平臺及各類應用可以共享統一的資源域。
(2)能力域:網絡能力包括本地分流,還有NAT、虛擬防火墻VFW、DNS、業務負載均衡LB 等基本服務能力,同時還提供無線網絡信息服務RNIS、TCP 優化、無線室內定位等服務。這些服務通過網絡能力開放框架,以API 接口方式對外提供。能力層采用微服務化框架設計,隨著后續業務需求的變化,可以引入第三方業務能力,如AI 能力、大數據能力等來豐富完善MEC 的能力層。
(3)應用域:如視頻監控、AR/VR 視頻、園區等各種應用APP。

圖1 MEC總體架構
以中心DC、邊緣DC 和接入站點為基礎架構的全分布式云成為各運營商5G 時代基礎設施演進的共同路線。MEC 可以按照不同業務場景以及時延方面的需求進行靈活的部署,通常可部署在接入機房、一般匯聚機房、重要匯聚機房以及地市核心機房等位置。同時結合客戶應用場景的差異,通常有兩種部署模式[3]:
(1)面對政企大客戶的專享型一體機模式。通常部署在大客戶現場機房,應用于2B 專網等場景。考慮到在客戶機房部署,高安全保障、快速部署及現場零運維是重點需求,MEC 通常和UPF 等媒體面接入設備采取軟硬件一體化集成部署的傳統CT 網元模式,同時具備物理安全防護、出廠預裝、現場即插即用等特性。
(2)面對多個中小客戶敏捷創新而建設的共享型開放平臺模式。通常部署在地市核心或綜合業務園區,具備開放能力、DevOps、自服務等IT 云的特征。豐富的ICT 開放能力,應用敏捷開發、測試、快速部署是其競爭力的體現。
政企大客戶專網場景下,通常將運營商的MEC 下沉部署在客戶現場機房,邊緣數據面直接分流到客戶私有云執行行業業務,其核心需求主要包括兩點:一方面是保證工業控制等應用的低時延要求,另外一方面通過數據面直接從邊緣分流到客戶私有云,保證數據的安全性。因此,專享MEC 采用軟硬件一體化集成的即插即用產品模式,以適應客戶現場機房的惡劣環境、高安全風險以及零運維的要求,就成為專享型MEC 的關鍵產品特征。
(1)一體化機柜
如圖2 所示,一體化機柜集成了接入、算力等不同的硬件設備,同時出廠預裝了MEC 系統軟件,可整體運輸,一體化交付。在交付現場只需開機上電,快速導入現場配置,即可開通業務,達到開箱即用的要求。
同時集成了配電、制冷、消防和監控,采用無源門鎖、IP55 防塵防水、斷電保護等多種技術,滿足防腐蝕、防雷、防侵入等惡劣環境部署的要求,具有靈活選址、快速部署和極簡運維的優勢。

圖2 一體化機柜軟硬件架構
(2)邊緣服務器
邊緣站點機房與運營商核心數據中心相比條件有比較大的區別,很多方面無法滿足常規通用服務器的部署及運行要求,給邊緣服務器帶來了挑戰。
1)邊緣機房普遍低于數據中心承重標準,同時機架多限制為600 mm/800 mm 深;
2)邊緣機房的制冷系統的穩定性無法有效保證,在制冷系統故障時,機房溫度可能會達到45℃以上;
3)部署于邊緣機房的服務器還將面臨抗震、電磁兼容和防噪等較高要求,機房空氣質量欠佳等眾多限制。
考慮到以上限制,邊緣服務器需要具有尺寸小、功耗低、計算密度高等特征。除此之外,服務器采用前走線設計,便于維護管理;支持強異構計算,極大提升性能功耗比;良好的結構設計,滿足邊緣機房較為惡劣的環境。
(3)邊緣接入設備
專享型一體機中通過集成接入設備,可以進一步提升系統的集成交付能力,通常包括了無線BBU 和有線OLT 設備:
1)新一代IT BBU 設備通常支持2G/3G/4G/5G 全制式,容量配置靈活,接口豐富,組網靈活,演進平滑,也具有體積小(僅2U 高)、容量大、功耗低、易維護和高集成等特點。同時具備強大的IT 擴展能力,無需額外空間,通過新增通用處理器單板,可以把MEC 集成部署在BBU 中,進一步提升了一體機的集成度。
2)隨著智慧工廠、智慧園區的興起,PON 光網絡逐漸成為基礎網絡。OLT 設備不僅具備功能完善的二三層網絡連接功能,在不改變網絡整體架構下,可方便卸載本地MEC 流量,實現固移融合邊緣業務。基于新一代全分布式架構的OLT 平臺可內置處理器單板,同樣支持把MEC 集成部署在OLT 中。
專享型MEC 主要用于處理專網內的本地用戶業務,覆蓋范圍有限,因此具有規模小、數量多的特點。一體機內的云平臺如果采用完整IaaS 部署,虛層管理資源占比過大,一方面推高了建設成本,另一方面也造成管理資源的浪費,因此,必須采用輕量化精簡部署,提升資源利用率[4]。
(1)輕量化VIM 和Hypervisor
輕量化VIM 和Hypervisor 通過裁剪組件,僅保留基礎組件,將其他組件作為選配組件,同時通過修改組件服務配置,減少組件服務的工作線程數量來降低對物理資源的消耗,同時需要支持計算和控制合一部署,使得資源能夠得到有效利用。
(2)輕量化存儲
一體機規模較小,承載業務以本地處理為主,所需的存儲容量較小,存儲可采用本地存儲或者云存儲。本地存儲性能高,占用資源少,但可靠性差,并且不支持遷移,而云存儲如果采用獨立的分布式存儲或者磁陣成本較高。因此采用計算存儲融合方案是一種有效方案,將分布式存儲部署于計算節點上,計算/存儲共物理平臺節省成本。存儲采用多副本,沒有單點故障,同時可通過策略配置,使得虛擬機優先使用本地副本,進一步提升數據訪問效率。
(3)輕量化網絡
邊緣上的業務以第三方業務為主,業務變動頻繁,網絡配置如果采用手工配置,對于運維人員,運維工作量巨大,而部分邊緣站點無人值守的特點使得網絡配置更為困難,因此通過SDN 來進行網絡自動化配置成為必然選擇。而一體機由于規模較小,需要采用輕量化SDN 控制器,例如OVN,來實現網絡自動化部署,提升運維效率,降低運維工作量,適應業務的頻繁變化。
相對于傳統運營商網絡,邊緣計算系統在部署機房等級、組網架構、服務提供方式、運營模式上有較大的變化,這些變化對安全提出了更大的挑戰。重點需要關注:
(1)物理安全:通過在一體機上部署電子門禁告警、電子門鎖等設備,保障機柜的物理安全。
(2)基礎設施安全:除了提供網絡安全、租戶隔離、加密通道等傳統安全保障之外,還可以通過如圖3 所示的軟硬協同虛擬化技術將Hypervisor 下沉到虛擬化卡上,實現虛層的物理級別安全,也是目前逐步興起的熱點技術。
(3)接入安全:由于邊緣網元遠程接入核心網,UPF/MEP 與核心網之間需要考慮雙向認證。
(4)應用安全:應用無代理殺毒、鏡像加密。

圖3 軟硬協同虛擬化技術
一體化邊緣設備一般集成部署在企業園區內,從運維職責上劃分,將分為由運營商或設備提供商負責,以及由企業自服務自主運維兩種模式。運維系統可分為兩級層次,分別為面向企業的自服務門戶系統及面向專業運維人員的專業維護系統[5]。
(1)系統架構
一體化設備運維系統的兩級層次中,企業自服務運維門戶要求全局、簡單、易用,適合由企業運維人員使用;專業運維系統提供分域、專業、詳盡的數據分析,適合由運營商或設備商專業運維人員使用。
1)面向企業自服務自運維門戶
一體化設備企業自維護門戶,為企業用戶屏蔽復雜的網絡細節,僅呈現關鍵指標和企業相關的資源情況,幫助企業運維人員進行有效簡化運維管理,提升運維效率。自維護門戶較電信級網管系統而言,更為簡單輕便。
◆功能簡化:僅提供網絡性能、資源監控、告警處理等基礎功能,不包含復雜網絡操作如網元實例化、業務配置等,減輕企業用戶運維壓力。
◆界面簡化:支持用戶自定義大屏指標,如僅展示分類指標,或僅呈現企業用戶關心的業務SLA。
針對網絡資產屬于企業的場景,企業自運維門戶在簡化操作和界面的同時,提供更全面的網絡監控和更智能的定位分析,幫助用戶精確掌握網絡業務質量情況,快速排除網絡故障,保障業務穩定運行,具體包括:
◆監控終端設備的運行狀態、設備流量、設備鏈路質量等。
◆監控網絡管道的資源情況及狀態,如無線信道時延、承載傳輸速率、MEP 平臺API 調用情況等。區別于運營商網絡運維系統,自維護門戶包含預定義的幾十種網絡SLA,對網絡管道復雜指標進行封裝,企業用戶可關注封裝后的SLA 情況,降低企業運維人員技能要求。
◆監控企業自身應用的各項指標,如應用的網絡性能、用戶的操作日志、業務QoS 指標、接口流量、閾值告警等。
更智能的故障診斷支持自動統計不同層級的故障及性能,提供故障定界定位,幫助企業運維人員快速分析是運營商網絡問題還是自身應用問題,縮短問題解決時間。
2)面向專業運維人員的本地運維門戶
一體化設備企業自維護門戶提供了簡便的運維方式,可滿足基本的日常運維需要,為更好地保障系統的正常運行,部分專業運維能力需由本地運維門戶提供。此本地運維門戶系統并不需要類似運營商大網管體系,僅需提供基本的設備運維功能,主要包括:版本升級、設備告警監控、處理、網元指標統計、信令跟蹤、日志異常分析等。這些本地運維能力滿足面向設備的基本維護要求,通過本地維護管理系統可滿足設備維護需要。
(2)安裝開通
一體化設備是集成度非常高的產品,其中包含了核心網、無線、承載等若干基礎通訊設備及云資源池平臺,此時對一體化設備運維提出了高集成度、高可操作性的要求,其中包括生產預裝、即插即用上電、全局監控概覽、一鍵業務恢復等。
1)生產預裝,即插即用:如圖4 所示,邊緣MEC 一體化設備開通流程遵循通用數據標準化預配置。一體化設備在出廠前,自動化完成標準化MEC 運行環境、軟件的自動化安裝,標準化預配置通用性數據等,個性化數據遠程一鍵配置,支撐MEC設備即插即用、快速部署,縮短MEC站點上線周期。
2)一鍵配置:預裝MEC 設備支持自動接入遠程邊緣管理域系統,由現場部署工具依據現場自動化設計生成每個站點腳本,自動化部署工具完成一體化設備的上電開通。
3)自動化測試:邊緣管理域可提供自動化測試工具,封裝邊緣MEC 一體化設備的測試用例、測試工具,運維人員依據不同場景選用測試用例,系統自動化實現MEC的業務測試報告。
(3)全局監控
邊緣MEC 一體化設備需要對設備本身運行狀態進行全方位監控,其中包含作為管道設備的UPF 及MEP,以及相關資源池部分,以及作為邊緣云的云資源和其上運行的業務APP 運行情況的監控等,具體監控內容如圖5 所示。

圖4 生產預裝,即插即用流程

圖5 邊緣MEC一體化設備全局監控內容
1)資源層監控
一體化監控系統實現一體機資源集中監控能力,搜集全局資源容量、資源分配、資源負荷等基線數據,以清晰明了的方式呈現資源的概覽情況。同時通過峰值分析、預測分析等手段,對如何處理業務資源彈縮做出更好、更明智的決策,以確保應用性能和資源消耗的平衡,同時可以通過預測未來利用率以及潛在的容量限制來更加主動地管理其資源。
2)網絡業務層監控
一體化設備運維系統需監控一體化UPF 分流情況,按照應用、DNN 等多個維度統計網絡總流量指標,直觀呈現租戶、應用使用流量的情況。同時可選擇按照用戶關心的如DPI 數據統計區域、小區、RAT、網元、業務類型、應用類型、終端、用戶等多個維度全方面分析各種數據業務和應用的流量分布及使用情況,從而發現熱點小區、熱門應用和網站,為網絡流量分流優化和市場營銷提供幫助。
3)應用層監控
一體化設備運維系統對虛擬化資源一體化邊緣設備提供可視化的拓撲視圖,支持自上而下鉆取顯示應用、虛擬資源、物理資源拓撲關系,可視化展示應用的物理位置,并在拓撲上渲染各層資源的告警、關鍵性能數據,實時呈現應用的運行監控狀態,幫助運維人員可視化、高效維護各種行業應用。
(4)業務保障
邊緣MEC 一體化設備作為邊緣云基礎設備,除采用靈活快速的部署安裝方式,以及簡單易用的監控系統外,對于問題發生后,需要提供以業務快速恢復為目標的保障手段。系統能以簡單可讀的方式上報告知運維人員異常事件的發生事件、事件類型、異常對象、具體描述等,以及提供運維人員基本的處理方式。當問題沒有得到快速的解決時,借鑒IT 設備的運維模式,通常可采用的維護方式包括一鍵式重啟、一鍵式復位、一鍵式重新安裝等,通過簡單的操作可使得業務得以快速恢復,此時,一體化運維系統應以類似航空“黑匣子”方式記錄問題發生時的相關日志,如操作日志、安全日志、系統運行日志等。通過數據采集方式提供給專業分析系統對問題進行事后分析,找出根因,得出問題規避方式,避免再次發生。
在地市核心局點,運營商通常會部署多個中小客戶共享的邊緣計算MEC 系統。此類MEC 具備靈活的多種模式資源供給,提供豐富的ICT 開放能力,同時具備從應用開發、測試、發布到部署的全過程DevOps 環境,為中小客戶提供了良好的應用創新平臺。這種模式的MEC 可以認為是成熟的公有云服務模式在邊緣場景的落地,同時也為運營商在邊緣計算領域建設合作生態提供了良好的平臺基礎。
不同的邊緣計算應用由于其功能及性能不同,對資源的需求也各不相同,包括虛機、容器、裸金屬等不同類型資源,也有對GPU 等加速硬件的資源需求。
如圖6 所示,基礎設施平臺通常采用OpenStack+Kubernetes 雙引擎在計算、存儲、網絡等模塊的深度融合,實現虛機、裸金屬、容器資源的靈活供給,大大提升了資源池的利用率,降低了管理資源開銷。同時通過生命周期管理、權限控制以及運維的融合,也為客戶提供了一致的管理、編排等使用體驗[4]。
在共享型模式下,MEP 也可以稱之為邊緣計算PaaS平臺ECP。如圖7 所示,該平臺除了提供邊緣計算基礎的分流、DNS、LB、NAT 等能力服務之外,還結合無線、核心網等設備提供運營商獨有的RNIS、定位、用戶識別等網絡能力,同時與第三方伙伴合作提供豐富的行業能力。系統提供了開放能力API 網關,提供能力對外運營能力[6]。
邊緣計算運營平臺ECM 提供能力集成、應用開發測試部署的全過程應用孵化環境以及應用商店。與ECP 協同,實現了在中心云應用的敏捷快速創新之后,遠程復制部署到邊緣云。這種如圖8 所示的“前店后廠”的模式,為邊緣計算應用的敏捷創新提供了良好的平臺環境[7]。

圖6 雙引擎基礎設施平臺架構

圖7 邊緣計算PaaS平臺ECP架構
共享型邊緣云開放平臺分為基礎設施平臺層、能力提供PaaS 層、邊緣通訊管道層及邊緣應用層,在運維上需要根據NFV 架構對相關各層進行運維管理。其上由面向客戶的業務運營系統負責邊緣云業務的整體運營[8]。
(1)系統架構
共享型邊緣云運維系統一般可集中建設中運營商中心機房,其中包 括:MEO、OMC、MEPM、VNFM、ECM、業務編排中心等,構建總體架構可參見圖9[6]。
在邊緣業務節點之上,運營運維體系整體可分為運維管理層及運營管理層。
1)運營管理層ECM
邊緣計算管理平臺,提供企業客戶可訪問的服務門戶,ECM 可根據客戶需求進行業務訂購組合提供,業務來源可包含自有業務、合營業務、第三方業務等。對于行業組合方案類業務,可根據不同行業提供初始業務模板供客戶選擇,并編輯訂購,行業業務模板可包括云游戲、智慧鋼鐵、智慧文旅、自動駕駛、智慧城市、智慧工廠、智慧園區等行業。
2)運維管理層

圖8 前店后廠模式
業務編排中心:銜接運營門戶ECM 與運維管理中心MEO/OMC 等的中樞節點,實現客戶需求向網絡需求的轉換。
OSS:集中運維管理系統,可管理多廠商邊緣設備FCAPS 等,包括UPF/MEP 及云資源池等。
MEO:通過調用VNFM 能力,實現對于UPF、MEP等虛擬化電信網元的生命周期管理和第三方APP 的生命周期管理;調用邊緣云節點OMC/MEPM 實現UPF、MEP 的業務配置;與邊緣云節點VIM/CISM 實現第三方APP 等業務的資源發放;實現邊緣節點資源池的監控、巡檢、故障分析定位。
OMC:實現對于UPF 的運維管理能力。
MEPM:實現對于MEP 的運維管理能力,管理APP的規則和需求。
(2)關鍵技術
1)MEC 業務監控
運營商建立邊緣計算運營運維管理域,可以提供完整的運維管理功能,除采集基本的管理信息外,可提供豐富智能分析能力及故障定位能力,實現對邊緣業務的有效保障。MEC 技術可以實現網絡業務的分布式交換,降低核心網核心數據中心的交換壓力,同時優化行業用戶的業務的感知和性能,也是運營商行業創新、三方協同的基礎。管理域依據MEC 業務場景進行指標建模,建立關鍵指標的統計方法,針對業務指標提供多粒度、多維度的監控,隨時隨地掌控業務變化趨勢,智能分析出終端、管道、應用的問題,快速處理行業應用無法上網、視頻卡頓、打開網頁慢等問題,以幫助運營商優化網絡,提升用戶體驗。

圖9 共享型運維系統總體架構
2)MEC 智能策略
MEC 站點一般位于位置偏遠的機房,維護能力比較弱,運維管理域通過智能策略系統分層次恢復資源層、應用層故障,保障最優的業務體驗。MEC 網絡智能策略架構包含以下幾個功能模塊[9]:
◆AI+數據引擎:引入大數據分析和機器學習的模型訓練與應用,為5G 網絡提供了智能分析和策略決策的能力,主要功能包括分別收集網絡數據和業務數據,執行AI 分析,向策略決策模塊、業務平臺等推送AI 數據分析結果。
◆策略決策:用于從AI 引擎接收AI 數據分析結果,然后基于數據分析結果,生成執行策略,并發送給策略執行模塊和業務平臺。
◆策略執行:分為資源層運管系統和網絡業務層網管支撐兩個部分,既作為網絡數據的來源,提供海量數據給AI 引擎,用于大數據分析;也作為策略執行者,從策略決策模塊獲取策略信息并本地執行。
基于MEC 策略系統智能實現故障智能閉環主要包括帶寬自動調整和彈性擴容等場景。
◆帶寬自動更新:視頻監控的場景下,策略中心檢測到視頻業務帶寬性能指標達到條件上限,需要觸發帶寬更新擴大,則策略中心下達MEP 平臺更新該業務QoS策略,擴大應用帶寬能力。
◆彈性擴容:策略中心檢測到切片當前邊緣UPF 整體性能指標達到條件上限,需要擴大核心網媒體面網元的處理能力,則策略中心下達網元更新操作,執行擴容,增加網元虛機數量。
3)MEC 智能故障定位
應對邊緣MEC 位置分散、維護能力弱的特點,運維管理域提供故障自動定界、網絡診斷、日志分析等功能提升設備故障定位效率,實現MEC 故障自感知管理。
◆故障自動定界:通過搜集大量MEC 告警,分析告警中時間、地點、事件描述等多個維度的特征,結合告警的歷史頻度信息,結合網絡中同網元中其他信息、跨網元信息、同專業網信息、跨專業網信息及同業務的關聯信息,識別告警線索關系。根據當前切片告警、統計、日志信息,利用訓練獲得的規則進行推理,獲取到最能匹配上的告警根因。
◆網絡故障診斷:MEC 站點管理中引入網絡診斷工具,提供可視化拓撲、自動診斷、遠程抓包手段,降低網絡故障診斷難度。
◆日志分析:某些場景設備的問題傳統的告警無法反映出來,而設備日志的內容往往比告警更詳細、更全面,通過日志該特性可以實現系統故障快速定位和提前發現故障隱患。
◆故障根因定位:在告警/ 投訴等故障情況發生時,結合設備拓撲,通過對當前時間段所有關聯設備日志的掃描分析與檢查,智能判斷故障的真實性以及故障的業務影響、可能根因等。
◆異常檢測:通過內置的專家庫或者智能手段挖掘出的規則實現日志異常的觸發,基于時序異常檢測和疑似操作識別,提前發現系統異常行為。
獨享型一體機和共享型開放平臺兩種部署模式互補,為邊緣計算服務專網大客戶以及建設邊緣計算生態環境提供了平臺基礎適配。需要說明的是,廠家通常是提供了一套異構同源的系統,通過裁剪適配來滿足了兩種部署模式,這也為運營商以及應用開發商提供了一致的服務體驗。
邊緣計算發展方興未艾,在平臺技術成熟后,下一個可以預見的技術熱點是邊邊協同、云邊協同,進而實現公有云、專屬云以及邊緣云的一體化布局,其中算力網絡、UPF SSC、多MEP 間交互等是需要進一步研究落地的具體技術。
相信隨著邊緣計算相關技術的全面成熟,邊緣計算應用在千行百業的百花齊放將為5G 時代的來臨提供強大的助力[10]。