文|蔡旭輝 董曉荔 趙宇 顧明 楊海 馮圓媛 周逸飛
在當前數據經濟時代,算力已成為一種新型生產力,為各行各業實現數字化轉型提供動力。在應對當前社會大量信息處理的挑戰下,算力網絡將全網內各方的算力通過網絡進行匯聚從而更方便地進行管理和調度,進而為各類用戶提供服務。算力網絡的發展趨勢是將多方算力和網絡進行融合,逐步形成算網一體化的過程。
算網感知是算網一體的前提,通過打通網絡領域、計算領域、應用領域的信息邊界,為進一步協同、調度、融合提供基礎。算網感知包括算力感知、網絡感知、應用感知及多維資源協同感知,感知的數據包括算網性能數據、告警數據、日志等,資源數據包括算網各域物力資源、邏輯資源信息以及編排中心已有業務實例的資源信息。
當前各領域內都有相對成熟的數據感知體系,并且長時間獨立發展,自成一派,暫未打通融合。算力網絡中缺少統一、全局性的算網狀態實時采集、感知、呈現能力;亟須構建算網感知能力,逐步融合、統一現有的算網感知體系,形成算網一體化的數據感知體系。
面向未來的多樣化算力需求、任務式服務模式、算網智能調度,要實現跨專業領域的多樣化算力協同,需要將算力、網絡、動環等相關感知數據納入統一的算網數據感知體系,構建統一的算網感知模型,實現算網關聯分析、算力算效分析等業務分析評估能力,支撐算網業務智能編排調度。
圍繞算力網絡“算力泛在、算網共生、智能編排、一體共生”的總體目標,對算網感知能力提出全覆蓋感知、面向需求即時感知、跨專業協同感知的能力要求面向未來,算網感知除向下感知資源,也需向上感知業務與事件,參與運行支撐算力即取即用。
全覆蓋感知:是算力網絡實現一體編排、智能調度的基礎。對于算力而言,實現自有中心云、邊緣云、端算力、社會算力、國家樞紐算力的全量感知。對于網絡而言,實現端到端網絡的全面感知,包括入云、云間網絡端到端的協同感知等。
即時感知:要求以更實時、更細粒度、更自動化的方式實現對算網資源狀態的動態感知,為算網業務提供數據支撐。對于算網資源信息需由傳統的定時采集演進為變量實時感知;對于算網資源運營相關數據(如分配/回收、使用/占用數據)實現實時感知同步;對于算網運行態勢數據(如利用率)實現低時間粒度的采集與分析。
協同感知:面向算網一體共生的目標,單域運維難以滿足要求,需要實現跨域的協同感知。對于算力而言,在橫向上實現多種算力的協同感知;在縱向上需實現物理層、虛擬層、容器層的協同感知;為滿足算力算效評估的要求,需對算力、動環、能耗信息等跨專業領域數據進行協同感知。對于網絡而言,橫向上需要實現跨專業、端到端網絡的關聯,協同跨專業網絡資源,并通過網絡去感知算力;縱向上需要實現業務與資源的關聯和協同。最終實現算網融合感知。
面向算力網絡服務方式從資源式向任務式轉變,算網感知系統需具備將算、網資源信息向算力和網絡運力信息映射的能力;具備基礎算力、運力模型構建與封裝能力,支撐算網業務的編排調度。
算網感知系統需要對接多種數據源,完成多源異構數據的匯聚、存儲、處理等數據流轉環節。首先需要對各種異構資源建立統一的數據模型、維護各類資源的模型列表、模型屬性等內容;通過預置的數據模型,實現對不同來源資源數據的歸一化處理。然后再通過資源、狀態、能效等多維度數據統一分析當前算力資源、網絡資源和存儲資源當前狀態情況,并輸出各域資源可服務率。
在算網感知系統中,數據的分析評估能力也是其核心能力之一,通過采集各算力資源、性能數據以及數據中心的PUE指標和能耗等進行分析評估,其結果用來支撐編排與調度策略制定與執行。
感知系統通過對各專業工作臺進行采集,獲取各類算力模型數據,以性能利用率指標為例,可通過以下方面進行分析:
對設備性能的監測。通過監控利用率指標的情況,能夠及時發現設備中存在的如CPU過載等問題,方便運維人員進行故障排查。
對設備容量與資源的分配。利用率可反映當前設備對于不同任務或應用程序的資源使用情況,有助于運維人員進行設備容量與資源的規劃,確保設備能夠滿足預期要求。
對能耗的分析。當利用率處于一個較高效且合理的水平時,設備能夠高效處理任務,這表明該類設備能夠在相同的時間內完成更多的工作量,從而減少任務執行時間,在保證性能的同時降低能耗,從而實現節能減排的效果。
目前網絡的度量已經比較成熟,算力的度量還缺乏統一標準。在算力網絡的場景中,需要提供算力和網絡的綜合服務。這時需要對算力也有一個方便的度量機制,這個機制一方面需要支持對用戶算力需求的描述,另一方面也需要支持對提供算力資源的能力描述。
算力網絡包含的資源類別和數量規模龐大,算網業務種類豐富,傳統的數據采集方式已無法滿足這種高度復雜性的需求。從算網感知的需求來看,在不同的業務場景中對各類感知數據的時效性要求不盡相同,因此在感知層面對于感知數據的同步要求也不同。

表1 算網感知數據的需求
為了滿足多樣化的數據感知需求,從數據量、時效性、數據準確性、接口方式等方面綜合考慮,在算網應用中可根據實際情況采用以下4種數據感知技術,其適用場景基本可以涵蓋算網感知數據的業務特性范圍。
1.主動同步
主動同步適合于小批量數據即時獲取場景,采用主動請求方式,響應快、精度高,一般用于查詢資源狀態數據、配置數據、服務清單等。
在主動同步中被感知系統構建RESTful API接口程序,并能在合理時間范圍內通過Response Body以JSON格式返回查詢數據結果;算網感知系統構建可以調度RESTful API的服務程序,可向被感知系統API及時發起數據服務請求。
2.主動異步
主動異步適合于批量歷史數據延時獲取場景,采用主動請求方式,響應較慢、數據精度較高,一般用于補采歷史一段時間內的性能、告警等數據。如圖1所示。

圖1 延時響應大批量數據獲取示意圖
被感知系統構建RESTful API接口程序,并能在合理時間范圍內通過Response Body以JSON格式返回鑒權、數據下載地址等信息;被感知系統構建SFTP/FTP文件傳輸服務,并能在合理時間范圍內通過生成文件并上傳文件服務器;算網感知系統構建可以調度RESTful API的服務,可向被感知系統API及時發起數據請求;系統構建可下載文件的服務程序,可通過SFTP/FTP協議下載數據文件。
3.被動實時
被動實時適合于大量數據流實時獲取場景,采用被動通知方式,響應快、精度高,一般用于實時接收并需要進行流處理海量的性能、告警等數據。如圖2所示。

圖2 實時大量數據獲取示意圖
被感知系統構建適配KAFKA的消息生產程序,并能在合理時間范圍內生產并上送信息數據;被感知系統構建KAFKA消息隊列服務,能接收并存儲一段時間范圍內的實時消息數據;算網感知系統構建可以消費KAFKA消息的服務程序,可及時消費消息隊列上的大量消息數據。
4.被動準實時
被動準實時適合于大批量周期性數據準實時獲取場景,采用被動通知方式,響應快,精度較高,一般用于周期性地獲取性能、資源、告警、工單數據等。如圖3所示。

圖3 準實時大批量數據獲取示意圖

圖4 算網感知模型分類
被感知系統構建數據訂閱通知程序,并能在合理時間范圍內通過Http請求Body以JSON格式發送鑒權、數據下載地址等信息;被感知系統構建SFTP/FTP文件傳輸服務,并能在合理時間范圍內通過生成文件并上傳文件服務器;算網感知系統構建RESTful API服務,接收被感知系統API及時發起數據訂閱通知;構建可下載文件的服務程序,可通過SFTP/FTP協議下載數據文件。
雖然算網領域已經有相對成熟的感知數據體系,但是對于不同的網管、云管系統支持的感知對象以及對象屬性存在較大差異,而且算網之間暫未打通融合,因此,構建統一的算網感知模型,是將算力和網絡的數據納入統一的算網數據感知體系的前提。
聚焦典型算網業務場景梳理感知對象、對象屬性、對象關系,圍繞感知對象延伸現有的算網資源模型,從資源感知擴展到算力節點感知、支撐算網業務開通;增加服務和業務感知維度,實時捕捉服務、業務的狀態,為算網業務的動態調整能力提供數據支撐;區分靜態特性、動態特性,明確各類數據的感知時效性要求,構建面向業務的敏捷、輕量化模型。
例如針對東數西存業務,在算網業務開通階段,需要感知可用的算力資源、網絡資源,并根據策略選擇合適的資源進行分配調度及配置;在業務運行階段,需要對業務相關的資源狀態、關鍵指標進行實時監控,支撐算網業務質量保障。
2022年全國信標委發布了《計算中心有效算力評測體系白皮書》,提出了有效算力的概念、有效算力指標CUE的定義和計量方法。傳統意義上,計算中心用計算芯片的規格算力進行性能衡量,常用的計量單位是每秒執行的浮點數運算次數。這種衡量方式較為簡潔,從宏觀與統計的角度實現算力整體的呈現,但缺乏對整型數據、存儲等集群系統處理的能力。有效算力是對規格算力的補充,能夠更為直觀地反映計算系統在特定作業上的、用戶可獲得的計算能力,是計算計量方法的有力補充。
有效算力指標(C U E:C o m p u t i n g U s a g e Effectiveness),是覆蓋計算中心全生命周期評估的指標體系,包含了對應的方法論、工具和測試數據集。可用于評價計算中心建設的綠色性、先進性、實用性。有效算力指標可用如下公式進行計量:
其中Psi為測試集在基準軟硬件系統上的實際性能;Pi為測試集在目標軟硬件系統上的實際性能。ωi為測試集中不同實際應用軟件的權重。α為調整系數,建議該常數值為100。
CUE公式的設立,可以有效避免多個真實業務性能測試所帶來的單位不統一、描述過于復雜等局面。通過幾何加權平均的方式獲得一個單一數值,有助于進行定量、對比性分析。
隨著算力網絡的不斷發展以及算網業務場景的持續豐富,對算網感知的要求會越來越高,未來算網感知的發展趨勢包括以下幾個方面:
1.隨著算力技術的不斷發展和應用,需要持續完善針對新型算力(如GPU等)與網絡協議(如RoCE)的狀態感知方案,統一量化異構算力節點可用性、連接可用性、網絡負載狀態等指標。
2.人工智能算法也可以應用于算網感知中,實現面向算力網絡的數據智能感知,算網資源及數據的采集和統計向算網智能態勢感知演進。
3.感知數據隱私保護:通過引入安全傳輸機制、數據加密算法實現對感知數據的保護。
4.算網感知在實際應用中仍存在挑戰,例如指標算法的可擴展性,傳遞的及時性等。未來研究還包括對算法的優化、信息傳遞優化和智能化等。
總之,算網感知是實現算網業務智能編排調度和一體化運維的重要基礎,隨著算力網絡技術的不斷發展、算網業務的不斷創新,算網感知技術將會越來越成熟,為企業和用戶提供高質量、高可靠、有保障的算網業務服務。
算力網絡建設是我國迎接5G時代的重要戰略部署,算力和網絡融合是未來信息革命的必經之路,對各行各業的轉型具有重要意義。而在算力網絡中缺少對算網狀態實時采集感能力,本文提出的算網感知三項核心能力及對應能力需求的技術實現旨在推動算網感知關鍵技術在算網業務中的應用,為更好的構建算網數據感知體系奠定基礎,助力算力網絡建設。