黃光平 史偉強 譚斌



摘要:提出一種以IP網絡為中心的算力網絡架構,即在網絡域創建云池算力資源和服務的狀態,從而實現網絡層的算力編排和調度。算網一體編排和路由,是該算力網絡架構的核心特征。針對算力網絡中的服務多實例應用場景,所提架構方案對SRv6或基于SRv6的業務功能鏈(SFC)做功能增強和擴展,以滿足單服務對應動態多實例的算力路由需求。控制面架構方案采取一種分級分層狀態表的維護機制,將不同顆粒度的算力資源和服務狀態在不同的網絡域做同步通告,并創建對應的分級路由表,從而壓縮節點的狀態表和邊界網關協議(BGP)的通告頻率。轉發面則執行算力服務標識語義封裝,承載網骨干節點仍然保持無狀態轉發。
關鍵詞:算力網絡;SRv6;算力狀態;分級路由
Abstract: An IP network-based architecture of computing power network is proposed, which creates the state of cloud pool computing power resources and services in the network domain to realize the computing power arrangement and scheduling of the network layer. Integrated computing network arrangement and routing are the core features of the computing power network architecture. For the service multi-instance application scenario in the computing power network, the proposed architecture scheme enhances and extends SRv6 or SRv6-based service function chaining (SFC) to support the single service routing requirements for dynamic multi-instances. The control surface architecture scheme adopts a maintenance mechanism of hierarchical state tables, which synchronously notifies the computing power resources and service states of different granularity in different network domains, and creates the corresponding hierarchical routing table, to compress the state table of the node and the notification frequency of the border gateway protocol (BGP). Accordingly, a dual-semantic encapsulation with IP topology and computing service identification in the forwarding plane would also be proposed, while the backbone network nodes would remain unaware of computing power metrics.
Keywords: computing power network; SRv6; computing status; classified routing
在互聯網協議(IP)承載網絡域,通過精細化動態感知,網絡控制器或網絡節點可以創建基于多云池內算力資源及服務狀態的算力路由表,并據此進行算力資源和服務的編排調度。這是以網絡為基礎平臺的算力網絡架構的核心要素。也就是說,在IP拓撲路由的基礎上,新增算力資源和服務路由,使路由策略約束機制由當前的IP拓撲單約束演變為IP拓撲和算力雙約束。這給網元控制面、轉發面和管理面均帶來新的挑戰,也是算力網絡為IP網絡引入的全新議題。
當前主流的云側應用級跨云池計算資源調度系統,如內容分發網絡(CDN)、AWS(亞馬遜公司的云計算服務)等,均與特定應用或應用集群硬綁定。除此之外的其他應用無法接入該系統納管的計算資源。此外,這種云測算力調度系統納管的云池資源是一種典型的封閉調度平臺,僅限于在服務商自營的資源中,且從技術和運營模式上均不兼容多元云池計算資源。更重要的是,這類云測調度系統與網絡資源無關,即它的網絡連接服務要么適用于公共網絡的“盡力而為”服務,要么適用于專線租用或業務虛擬專用網絡(VPN)的開通。網絡與計算業務獨立配置、獨立編排、獨立調度。以網絡為基礎平臺的算力網絡,構建的是一個開放平臺,即與具體的應用和業務完全解耦,且兼容多元云池算力資源和服務。與云測算力調度顯著不同的是,在算力網絡架構下,算力和網絡的狀態和路由表均由網絡維護,因此這種算力網絡架構內生支持算網一體編排和調度。
然而,一個開放的算力網絡平臺,可以創建多元云池算力資源、服務狀態、路由表,其前提是算力資源和服務的標準化度量和標識。SRv6(基于IPv6的源路由技術)中間轉發節點無狀態的優良特征,非常適合算網一體路由策略和路由轉發,但是需要在轉發面和控制面進行功能增強和擴展,以滿足算力網絡場景下的全新需求。同時,根據應用的算網服務級別協議(SLA)需求,網絡需要進行精準靈活的資源匹配和編排,并需要對應用的算力SLA進行更細顆粒度的感知。
1 算力資源和服務的顆粒化度量
當前,云池算力資源和服務的運行模式是與業務強相關,并且高度本地化的,不存在互通和交易,因此尚無系統的度量和標識方案。但是,云池內的算力資源和服務在網絡域進行應用流顆粒度的編排和調度,涉及算力資源和服務的跨池跨域調度,以及平臺層面的多方資源交易。因此,對算力資源和服務進行層次化顆粒度的度量和標識,是算力網絡架構的關鍵因素。如圖1所示,從交付和執行模式來看,算力資源可以分為3個層次,或稱為3種顆粒度。
1.1 算力資源和服務的層次化顆粒度
(1)基礎設施即服務(IaaS)類型算力資源
該類型算力資源屬于裸資源,包括中央處理器(CPU)、圖形處理器(GPU)、現場可編程門陣列(FPGA)、專用集成電路(ASIC)等。當前這些資源的度量顆粒度,比如核數,無法滿足算力網絡精細顆粒度的資源調度。因此,需要針對各類異構的計算裸資源進行系統的標準度量。可服務計算資源的標準量化數據,是網絡對算力資源感知并創建狀態的數量依據。
(2)函數即服務(FaaS)類型算力服務
虛擬機、容器、微內核等更細顆粒度計算單元的出現,讓一些基礎計算功能或服務的駐留和運行模式發生根本性的變化。例如,分布式的微服務架構,將傳統單一應用系統解耦成獨立的微服務群組,應用層根據特定的業務邏輯調用不同的微服務,完成特定的業務功能。
在這種架構下,一些與業務無關的基礎計算功能或算法可以實現分布式靈活部署,更加快速地滿足新型業務需求,縮短新業務上線周期,大幅降低部署成本。基礎計算功能是算力裸資源的一種可服務形態,而算力網絡需要創建基于其狀態的路由表,并在網絡域完成對這種計算功能服務的編排和調度。
(3)軟件即服務(SaaS)類型算力服務
相對于當前增值業務的單站點資源部署和服務模式,在算力網絡目標架構下,增值算力服務的駐留和服務將由單點變為全網虛擬SaaS池的模式。同一類增值算力服務資源,在上層交易系統的支撐下,可以在算力網絡域完成跨池編排和調度。
1.2 算力資源和服務的度量和標識
如1.1所述,算力資源的標準化度量,需要針對上述3種顆粒度的資源和服務進行業務無關的通用度量,以及CPU、GPU等異構裸資源的度量。目前,學術界和信息技術(IT)界已經開始了一些有益的嘗試。資源和服務標準化標識的實現,首先需要建立一個結構化的標識體系,對各種顆粒度的資源和服務進行收斂和標定。考慮到網絡單元的存儲和處理容量限制,網絡域可感知、可編排、可調度的資源和服務標識需要優選數字化標識機制[1]。
2 基于SRv6的算力網絡增強控制面技術
在網絡域創建、維護云池算力資源和服務的狀態,也就是完成對多資源和服務顆粒度的精細化和動態感知,是控制面在算力網絡架構下的首要功能。控制面有集中式和分布式兩種通用架構技術。
2.1 集中式控制面架構增強
目前的控制器主要有3類。第1類是管理與編排(MANO)控制器,負責納管移動邊緣計算(MEC)內的計算和存儲資源、側重占用率之類的宏觀數據,其顆粒度無法滿足算力網絡的精細化編排和調度需求。因此,可以基于上述算力資源的標準化度量,對MANO納管的算力資源顆粒度進行擴展和增強。第2類是數據中心和邊緣計算中心控制器,負責納管云內網絡拓撲資源。其顆粒度可達服務器對應的端口號,但無法納管層次化的算力資源和服務。同樣,它也可以進行擴展和增強,以涵蓋對算力資源的精細化納管。第3類是IP承載網控制器,負責納管承載網絡域的拓撲資源。
另一種可選方案則是新增算力資源編排器,可與上述3類控制器并列;但也可以居于更上一層,在納管層次化算力資源的同時,統一納管數據中心或邊緣計算中心、IP承載網的網絡拓撲資源,可以實現單點算網全局資源視圖。
2.2 分布式控制面架構增強
跨云池的算力資源和服務分布式路由協議,目前主要是基于邊界網關協議(BGP)增強和擴展。BGP在現網通告的對象主要是節點端口、鏈路等拓撲資源的狀態。這些資源的變化周期通常為小時、天,甚至月的數量級,網絡的高并發拓撲變更會造成路由震蕩等嚴重后果。在算力資源和服務狀態(尤其是FaaS級算力服務的狀態)被通告的情景下,其資源標識種類和通告頻率均遠大于網絡拓撲資源及其通告頻率。例如,在一些通用計算功能實例中,一次服務執行的生命周期最短可達毫秒級。大規模的通告量和高通告頻率,對算力路由表的穩定將造成嚴重的后果。因此,簡單地擴展BGP通告的資源種類,無法解決路由表高度不穩定的問題。本文中,我們提出一種分級通告分級路由的機制,極大地壓縮BGP通告的資源數據量和通告頻率;還提出一種獨立于BGP的全新算力路由協議雛形。
2.2.1 基于BGP的分級路由機制
分級分域路由通告的算力網絡路由解決方案,旨在解決兩個算力網絡路由的問題:多種云內算力資源及服務在路由節點上引起的超大路由表項問題、算網端到端路由問題[2]。
我們將算力資源和服務劃分為兩種顆粒度:
(1)邊緣計算節點或數據中心的粗顆粒度(顆粒度記為1)算力資源,包括但不限于:
計算及存儲資源的種類,如CPU、GPU、嵌入式神經網絡處理器(NPU)、ASIC等;
上述資源種類的可用狀態,包括但不限于量化空閑資源值,如使用率、可用核數目等;
提供的算力服務種類,包括SaaS/FaaS服務種類及標識,以及服務對應的忙閑狀態屬性,并且服務的忙閑狀態閥值可配置,如90%及以上為忙的狀態;
(2)邊緣計算節點或數據中心的細顆粒度(顆粒度記為2)算力服務,包括但不限于:
算力服務種類以及其所對應的可服務實例數;
每實例的處理容量;
算力服務與其實例之間的標識映射關系,如一個任播地址Anycast標識一個算力服務,關聯的群組成員地址為實例地址。
粗顆粒的算力資源狀態僅在邊緣計算節點或數據中心節點之間通告,并維護對應的路由表項。首次上線的節點,通告上述粗顆粒度全集數據,此后根據可配置的變更門限值來觸發變量更新通告和同步。通告可有兩種方案:BGP擴展方案,即將上述粗顆粒度算力資源信息,通過擴展BGP協議載荷,通告至鄰居網絡邊緣節點;集中式控制器方案,包括但不限于通過路徑計算單元通信協議(PCEP)、邊界網關協議-鏈路狀態(BGP-LS)等通告同步上述粗顆粒度算力資源相關信息。
細顆粒度算力服務狀態,僅在邊緣計算或數據中心節點所歸屬的域內網絡邊緣節點進行維護,無須通告鄰居網絡邊緣節點。首次上線的節點,通告或發布上述全集信息,此后根據可配置的變更門限值,觸發變量更新通告和同步。細顆粒度的算力服務通過如下可選方案通告網絡邊緣路由節點:發布訂閱的應用消息,并向網絡邊緣節點通告狀態數據;通過內部網關協議(IGP)擴展通告,將上述細顆粒度算力服務信息通過擴展IGP協議載荷,向網絡邊緣節點通告。
2.2.2 基于BGP的地址路由和算力服務路由的兩級路由表機制
用戶接入網絡邊緣節點維護類型1路由表,即路由節點僅感知邊緣計算或數據中心節點的粗顆粒度算力資源信息,并以此創建、維護對應的算力路由表。類型1的算力資源顆粒度較粗,變更頻率較低,因此網絡邊緣節點維護的類型1路由表的大小與聯動的邊緣路由和數據中心節點數目成正比,路由表規模可以得到數量級的壓縮。
邊緣計算或數據中心節點歸屬的域內網關或網絡邊緣節點維護類型2算力服務路由表,即上述域內網關或網絡邊緣節點可以感知本邊緣計算或數據中心節點內的算力服務狀態,并以此創建、維護對應的算力服務路由表或映射表。類型2路由表的大小,與該網絡邊緣節點、網關歸屬的邊緣計算或數據中心提供的算力服務規模成正比。由于僅做本地的或有限歸屬邊緣計算的或數據中心節點的算力服務信息狀態維護,類型2路由表規模得到極大的壓縮。兩級算力顆粒度類型路由及通告機制如圖2所示。
2.2.3 新型算力路由協議
云內算力資源和服務的種類以及狀態變更頻率均與現網IP拓撲通告有著顯著區別。為了適應新型算網一體路由架構,我們提出一種全新的算力路由協議。該協議內生支持算力資源和服務的跨域通告,并將與BGP解耦,從而規避算力資源的動態對現網路由收斂的負面影響。網絡和算力資源的融合路由策略通過算法優化解決。我們還提出了一種基于網絡L4的新算力路由協議架構,其主要特征是算力資源和服務在云內直接發布,并由服務商邊緣路由器(PE)為其創建算力路由表,如圖3所示。
兩種可能的協議模式為:發布訂閱機制和定向通告機制。
(1)發布訂閱機制:作為發布主體,云池內算力網關對云內層次化算力資源進行發布,并對云池內算力資源狀態信息進行結構化設計;支持增量發布,支持高頻率動態更新;發布對象為網絡邊緣節點以及用戶的接入網關。
(2)定向通告機制:云內算力網關向網絡邊緣節點以及用戶接入網關主動發起面向連接的狀態通告,網絡邊緣節點以及用戶接入網關僅接收通告并據此創建和更新路由表;支持基于隧道的高頻率更新通告。
3 基于SRv6的算力網絡增強轉發面技術
算力網絡路由是一種集網、云、算為一體的綜合路由。在網絡入口節點,算力網絡路由根據用戶業務的算力和網絡雙SLA約束,制定算網路由策略。和當前IP拓撲路由顯著不同的是,IP/多協議標簽交換(MPLS)拓撲路由本質上解決的是“去哪里”,即明確路由的網絡目的節點,在參數上體現為IP地址或標簽。在算力網絡架構下,網、云、算綜合路由本質上解決的是“去哪里”+“干什么(執行何種計算服務)”,即在IP路由的基礎上,疊加了算力服務路由。因此,轉發面的報文頭需要執行IP路由+算力服務路由雙重封裝。算力網絡的IP和算力服務雙重路由機制網絡流程圖,如圖4所示。
如2.2.2節所述,在分級路由表的機制下,網絡在入口和出口節點,維護有兩種不同顆粒度的算力路由表,這對應轉發面的IP拓撲和算力服務雙重路由封裝。在用戶接入網關(如BRAS)處,網絡執行上述兩級封裝,并由用戶接入網關根據2.2.2節所述本地維護的類型1路由表,計算生成到選定的邊緣計算或數據中心節點的路由,并執行IP拓撲地址封裝。我們有兩種封裝方案:(1)目的地址封裝方案,即將選定的邊緣計算或數據中心節點歸屬的網絡邊緣節點或網關地址,作為目的地址,封裝在報文頭對應的字段中,包括但不限于互聯網協議第4版(IPv4)、互聯網協議第6版(IPv6)、MPLS等網絡數據平面;(2)源路由地址方案,即以選定的邊緣計算或數據中心節點歸屬的網絡邊緣節點或網關作為出節點,編排源路由路徑,并封裝在對應的報文頭中,包括但不限于SR-MPLS、SRv6等網絡數據平面[3]。
用戶接入網關(如BRAS)根據用戶算力服務請求執行算力服務標識封裝,這包括:單一算力服務標識封裝、基于SRv6的業務功能鏈(SFC)、多算力服務標識鏈封裝。算力服務標識的封裝包括兩種方案:(1)增強SRv6算力服務標識編程擴展方案,即在片段識別(SID)的Locator + Function(定位器+功能) 結構中,算力服務標識作為Function封裝在SID中,并可選擇擴展Argument來作為算力服務的必要輸入參數;(2)算力服務標識封裝在IP與L4傳輸層之間的overlay層中,如SFC架構下的網絡業務報文頭(NSH)、三層網絡虛擬化overlay(NVO3)的Geneve等,還可以在IPv6之上引入一個全新標識層,用于封裝算力服務標識,從而實現與IP層完全解耦。在這種IP拓撲和算力服務雙路由封裝、點到點路由的機制支持下,網絡中間轉發節點無須識別算力服務標識,僅做普通路由轉發,即平滑繼承當前網絡中間節點無狀態的特征。
類型1路由的出節點執行算力服務標識解封裝,并查找節點維護的所屬邊緣計算或數據中心算力服務的路由表或映射表,從而將用戶數據路由至對應的服務實例,并終結全部端到端算網路由。
特別地,為了保持流粘性,即確保同一應用的數據流被路由至同一個算力服務實例,出節點維護應用數據流標識與算力服務實例的映射關系,并將后續應用數據流路由至同一算力服務實例。這種映射關系的維護方法包括但不限于5元組方案(源IP地址、目的IP地址、源端口、目的端口、傳輸層協議類型)。在IP拓撲和算力服務雙重封裝的機制下,算力服務標識僅僅體現了服務類型的抽象語義,而實際服務實例節點的映射關系被維護在2.2.2節所述的類型2路由表中。由于路由表具有與業務無關的中性特征,算力業務流粘性的維護保證,需要在出入口節點維護業務相關的狀態。在兩級路由、兩級封裝的全流程下,流粘性也需要維護對應的兩個顆粒度的狀態,即在入口節點維護業務標識和算力服務標識的狀態,業務標識可通過類似前述5元組的模式實現。在出口節點維護業務標識、算力服務標識和服務標識實例的狀態,服務標識實例可以是虛擬局域網(VLAN)/虛擬擴展局域網(VxLAN)號、端口號、IP地址等。
4 網絡對算力應用的感知
在當前數據網絡的轉發和路由機制中,網絡資源和策略對應的最小顆粒度是流甚至報文。也就是說,從本質上看,網絡路由策略是與業務無關的。在算力網絡架構下,網絡感知云池算力資源和服務,并根據應用的算力SLA,在網絡層對算力資源和服務進行編排和調度。與當前網絡策略和路由機制不同的是,算力資源和服務對應的最小顆粒度是算力應用,且必須與業務相關。當前網絡路由策略的聚合服務質量(QoS)機制,無法直接對標算力QoS的顆粒度。算力QoS更加靈活,不便于聚合,因此算力網絡的另一個全新技術挑戰是網絡層(L3)對應用的算力SLA的感知。
由于ISO層級解耦的內生架構原則,當前網絡層沒有感知接口,對應用無感知。算力網絡架構下,應用的算力SLA的感知主要有兩種方案:一種是控制面方案,即所謂的帶外方案,通過類似接入控制信令擴展向網絡入口網關通告特定算力應用的SLA,網絡入口網關據此創建算力應用顆粒度的會話。控制面方案的優勢是安全、可信、與設備硬件無關。另一種方案是轉發面方案,即所謂的帶內方案,通過在IPv6或SRv6的擴展頭中增強封裝應用標識及其SLA,網絡節點解封裝即可執行對應的路由策略。轉發面應用感知方案的優勢是網絡每個節點均可做精細化策略和資源匹配,但這也引入了額外的安全問題,以及大量的冗余硬件設備處理負荷。
5 結束語
算力資源和服務的標準化度量和標識是算力網絡中一個重要的支撐要素。層次化資源和服務顆粒度下的度量和標識,帶來了精細化的可編排、可調度算力資源和服務體系。在網絡域創建云池算力資源和服務的狀態,給控制面尤其是路由協議如BGP等帶來了挑戰。本文中,我們提出了一種基于聚合原則的分級分層路由表機制,即將算力資源和服務分為粗和細兩種顆粒度,極大地壓縮了路由協議的通告頻率和路由表尺寸。同樣,在轉發面引入基于SRv6可編程的增強功能,或擴展overlay層的IP拓撲和算力服務標識雙重語義封裝,都能較好地適應IP拓撲和算力服務雙重路由的全新需求和場景。同樣,當前網絡L3不能感知應用的層級解耦模式,無法應對算力網絡的資源匹配和調度需求。這需要通過帶外模式,即控制面增強擴展方案來實現網絡層對算力應用感知,對現網架構以及設備的影響最小。
參考文獻
[1] 朱海東. 云網一體使能網絡即服務 [J]. 中興通訊技術, 2019, 25(2): 9-14. DOI: 10.12142/ ZTETJ.201902002
[2] 劉鐸,楊涓,譚玉娟. 邊緣存儲的發展現狀與挑戰 [J]. 中興通訊技術, 2019(3): 15-22. DOI: 10.12142/ZTETJ.201903003
[3] 馬洪源. 面向5G的邊緣計算及部署思考 [J]. 中興通訊技術, 2019(3): 77-81. DOI: 10.12142/ ZTETJ.201903011
作者簡介
黃光平,中興通訊股份有限公司資深架構師;主要研究方向為下一代IP網絡架構及關鍵技術,先后從事增值業務消息系統設計和開發、確定性網絡以及遠程寬帶接入網關全球標準工作;發表論文3篇,申請專利20余件。
史偉強,中興通訊股份有限公司有線架構總經理;主要研究方向為IP網絡、光網絡和SDN系統架構與技術,先后從事網管、接入網和SDN控制器等產品的架構設計和研發管理工作;獲 2012年國家科學進步獎二等獎等獎項;發表論文多篇,申請專利3項。
譚斌,中興通訊股份有限公司未來網絡技術研究項目經理;主要研究方向為IP網絡、SDN系統架構與技術,先后從事有線路由器、接入產品開發、產品規劃和市場等工作;申請專利2項。