鄭卿?楊坤?操張進?李國策?丁光遠


摘要:電信級的云資源池承載著通信業務,故對云服務能力有著極高的響應能力,其運行質量的評估變得愈發重要。本文提出基于數字孿生的云資源池質量監控系統架構,并從虛實映射角度,通過規則模型、行為模型和狀態模型三個遞進層次構建資源池質量監控系統,全面呈現資源池的運行狀態?;跓o監督學習的資源池故障分析以及資源池健康度評估,本文提供可視化的質量評估報告,幫助云服務提供商及時發現和解決問題,以提高云資源池的可靠性和穩定性。
關鍵字:云資源池;數字孿生;虛實映射;質量監控;故障分析;健康度評估
云計算技術的發展為網絡的演進和物理資源的整合提供了新的技術手段。隨著技術的不斷成熟和發展,網絡云化已成為一種趨勢。它不僅可以提高資源利用率、降低維護成本和增加業務整體的容災性等能力,還給云資源池的運營運維帶來了質的變化。云資源池要實現統一調度、統一監控和統一運維管理,但更重要的是對云資源池的運行質量進行實時觀察以保障安全運行。
目前云資源池的規模龐大且復雜性高,傳統云資源池運行質量監控方法已經無法滿足市場需求。數字孿生技術作為一種新興的監控方法,可以將實體系統的運行狀態進行數字化建模。本文中的數字孿生模型是采用物理空間、虛擬空間、孿生數據、應用封裝和連接5個維度構成的綜合體[1]。通過虛實雙向映射、數據雙向驅動以及實時連接的機制,數字孿生技術可以實現對實體系統的監測、評估、優化、管理等功能。隨著數字孿生的技術、生態圈、行業、標準加快突破和發展,其應用市場正在進入成熟推廣期。為了保障云資源池的穩定性和可靠性,并提高運維效率,本文提出了一種基于數字孿生的云資源池運行質量監控系統。該系統利用虛實映射對云資源池的運行狀態進行建模,并通過數據分析和機器學習算法對其進行質量評估。在此基礎上,該系統可以進行故障定位和資源池健康度評估。總之,這種基于數字孿生的監控方法可以實現對云資源池運行質量的實時監測和評估,幫助運維人員及時發現和解決問題,保障云資源池的可靠性和穩定性。
一、系統設計
本文提出的基于數字孿生技術的云資源池運行質量監控系統,其架構如圖1所示,結合了云資源池評估需求和數字孿生五維模型構建[2]。系統架構包括了五個部分:①物理空間。該部分是從云資源池維度進行監管的,能夠監測全網任意設備,實現全面性評估。物理實體從設備的組件到整個設備再到各個設備間的交互和屬性信息都要被監測。②虛擬空間。該部分通過描述物理設備的幾何、物理、行為、規則等建立全方位的數字化模型。一方面,在虛機空間中能夠全方位反映云資源池的運行狀態;另一方面用建立的模型評估資源池的健康狀態。③應用封裝。該部分通過對虛擬空間建立的模型、算法等服務進行封裝,在物理空間實時數據的驅動下實現服務。其應用主要包括資源池健康度評估、異常定位、故障定位以及預測等。④孿生數據。該部分包含物理空間、虛擬空間以及服務應用中產生的數據,主要是實時數據、歷史數據、運行日志數據、評估分析的數據、模型產生的數據等。其可以作為其他部分提供數據源泉,可搭建孿生數據中心管理平臺,建立交互接口實現數據共享。⑤連接。該部分實現了物理空間通過傳輸協議、采集設備將資源池運行數據傳輸給虛擬空間和孿生數據。前者用于更新資源池運行狀態,實現以虛寫實;后者則是用來管理數據。
二、數字孿生模型中虛擬空間建立
本文從虛實映射的角度構建云資源池運行質量監控系統,整個映射過程分為規則模型、行為模型和狀態模型3個遞進關系。
(一)規則模型
規則模型旨在構建云資源池虛實一致的數字模型,根據規則呈現設備以及網絡信息,是云資源池運行質量評估的基礎。為有效構建模型,首先要確立云資源池的組網架構,然后建立資源的CMDB模型,最后采用建模手段實現模型信息的數字化呈現。
1.云資源池CMDB模型
NFV標準架構是由硬件層、虛擬層和虛擬網元三層以及NFV管理和編排系統組成。本文著重關注的是硬件層、虛擬層和虛擬網元。云資源池是指利用虛擬軟件將硬件層的計算、存儲、網絡等硬件資源虛擬化成虛擬的計算、存儲、網絡等資源,為虛擬機的部署、執行和管理提供的資源池[3-4]。
2.模型信息組成及拓撲關系
在現實網絡中,各級模型間存在關聯關系。各級模型對象包含自身屬性和運行信息。其中自身屬性是設備的軟硬件版本、固定參數等,用Attribute表示。運行信息是在設備在運行時產生的實時數據,用Value表示。拓撲關系是指通過設備所在南北向接口和東西流量來確定設備的位置,用Positon表示。故可以用多物元理論表示某一層的實體模型,則其信息組成為Modle=
3.模型信息呈現
利用上述三元組信息可以抽象地描述每個模型所需要的信息,然后建立模型間的上下層關系。在進行模型實體化時,可以從幾何、物理、規則方面進行描述。幾何描述設備的基本結構尺寸信息,物理描述設備重要物理特征,規則描述設備的操作邏輯和規則動作。這些信息可以被用來建立云資源池的數字化模。
(二)行為模型
行為模型旨在構建資源池的實時數據的數據模型,是資源池運行質量評估的數據驅動。本文所關注的是物理設備的宏觀行為模型,即從宏觀角度觀察設備的行為,并進行數據采集、描述和量化,例如信息流和數據流等。
(三)狀態模型
狀態模型旨在反映資源池某時刻的運行質量,是資源池運行質量評估的實現?;跀底謱\生的云資源池評估系統使得對資源池的運行維護從被動變為主動,從離線變成在線。在整個評估過程中,依據資源池中設備的技術參數、歷史數據、實時數據等建立異常分析、健康評估、故障診斷、故障特征等全方位的評估模型以及質量評價指標體系,對功能實現封裝。最后,在實時數據的驅動下,調用封裝后的應用進行評估分析。
三、數字孿生模型中評估技術
(一)基于無監督學習的故障分析
資源池的運行質量監控需要考慮異常情況下的故障根因定位。為了實現故障根因定位,需要通過告警信息進行故障分析和定位??紤]到告警信息的海量性和時序性,本文利用序列挖掘算法進行告警關聯分析,然后利用知識圖譜完成故障的根因定位。
①序列挖掘算法。從原始告警日志中挖掘告警關聯規則。本文通過采用基于PrefixSpan-Prefix-Projected Sequence Pattern Mining(簡稱PrefixSpan)的無監督的序列模式挖掘算法提取告警中的關聯性信息[6],同時對關聯規則中告警進行因果關系對比分析,剔除沒有因果關聯的無效告警,這樣可以給故障的定位和判斷提供更可靠的數據支撐。
②知識圖譜。告警的關聯性是識別根源告警事件的重要依據,同時將告警關聯知識展現在圖譜中,進而為故障根因定位提供數據支持[7]。本文采用Nebula Graph圖數據庫為知識圖譜存儲的有效媒介[8],將圖中的數據高效存儲為點(Vertex)和邊(Edge),還可以將屬性(Property)附加到點和邊上,將復雜的關聯關系通過邊及其類型和屬性自然地呈現。
③故障根因定位。根源告警是導致衍生告警事件發生的根因,是在告警知識圖譜中構成“導致”關系的有向量的起點。本文針對故障根因定位提出基于告警知識圖譜進行根因定位的方法(以下簡稱根因定位法)[9]:將故障根因定位問題轉變為對知識圖譜中節點檢索問題,即查找當前告警知識圖譜中不存在因節點的告警事件。該方法首先要在一定的時間窗口中建立一個根源告警事件的候選集,遍歷知識圖譜中所有表示“導致”關系的邊,在候選集中添加因節點告警事件,然后判斷其對應的節點告警事件是否已存在于候選集中,若存在則剔除此因節點。最終候選集中的告警事件就是依據告警知識圖譜的圖結構分析獲得的根源告警事件集。
(二)資源池健康度評估模型
隨著云資源池設備多樣化和復雜化以及底層數據多源異構,設備數量呈指數增加。在這個背景下,本文提出利用數字孿生系統實時監控云資源池的運行狀態,多維度分析云資源池的健康狀態,依據輸出評估報告,更新云資源池的維護方案和計劃。其中,資源池健康度評估算法是孿生數據系統結合物元信息熵,通過層次分析法和關聯熵確定指標的主、客觀權重的算法[10]。具體從運行質量、安全質量、資源質量、維護質量、調度質量、服務質量六個維度量化資源池運行狀態,通過逆向逐級綜合加權計算出各專業健康值,全面分析整個資源池實際運行狀態。
1.主觀權重確定過程
依據云資源池的資源數據模型構建指標體系層次結構模型,利用專家經驗對比兩兩指標之間影響程度,并依據1~9標度法進行賦值,構建判斷矩陣。判斷矩陣是表示本層所有因素針對上一層某一個因素的相對重要性比較,構建判斷矩陣元素axy的標度方法,如表1所示,設定兩個因素分別為xi和xj,考察兩個因素的重要性標度。
設X={x1, x2, x3...xn}是某層的因素集,根據表2判斷方法對因素集內數據進行兩兩對比,構建判斷矩陣A,即為:
2.客觀權重確定過程
考慮到云資源池的健康度評估是多指標綜合決策的結果,故文中是基于物元理論構建評估云資源池健康的評估物元。物元理論的基本單位是物元,是以事物名稱、事物特征和該特征的量值三者所組成的三元組,記作 R=(事物,特征,量值)構建復合物元矩R=[M,T,V],其中M質量名稱,T指標名稱,V指標數值,其中Vij是第j個質量的第i項指標的值,物元矩陣如下所示。
在實時采集數據過程中,會出現部分指標值變化較大而其它指標值較穩定的情況,使用主觀原始權重計算,會造成結果出現誤差,因此,采用關聯熵法計算客觀權重,修正主觀權重,減少數據變化對結果造成的影響。
3.計算組合權重及健康度過程
根據主觀權重? 和客觀權重得到某評價指標的組合權重,故某項質量的復合關聯熵物元為:
其中,H代表某項質量的健康度,
由熵值的定義可知,熵值越大表示某項質量運行越好,健康度越高。反之生產過程中就需要多關注熵值小的質量項,注意日常的巡檢和維護計劃。
四、結束語
基于當前云資源池的運維痛點,本文提出了基于數字孿生的云資源池的質量評估系統架構設計過從虛實映射的角度出發,逐步構建用規則模型、行為模型和狀態模型3個遞進層次構建數字化模型,同并給出了2類業務監控場景,即故障定位和健康度評估功能模塊。這在一定程度上降低了運維人員的工作強度,提高了云資源池運維能力,同時也減少了因設備增多而引起的人工成本,也為數字孿生在云領域的應用提供了一定參考。但本文沒有對方案的功能應用進行詳細論證,后續將技術理論和實際情況相結合展開討論,推進方案落地應用,從而不斷驗證系統的有效性和可行性。
作者單位:鄭卿 中國移動通信集團有限公司
楊坤 操張進 李國策 丁光遠 中國移動通信集團安徽有限公司
參? 考? 文? 獻
[1] 陶飛,劉薇然,張萌,等.數字孿生五維模型及十大領域應用[J].計算機集成制造系.,2019,25(1):1-18.
[2] 劉占省,張安山,邢澤眾,等. 基于數字孿生的智能建造五維模型及關鍵方法研究[C]. //中國土木工程學會2020年學術年會論文集. 2020:112-124
[3] 中國移動NFV電信云資源池內組網、資源部署和數據配置原則[S].中國移動,2019.
[4] 中國移動NFV 虛擬層技術要求[S].中國移動,2019.
[5] 熊浩,孫才新,杜鵬,等. 基于物元理論的電力變壓器狀態綜合評估[J]. 重慶大學學報(自然科學版),2006,29(10):24-28.
[6] 胡秋秋. 移動通信網絡運行數據處理與分析[D]. 西安電子科技大,,2019.
[7] 覃華云,吳侃,毛恒.基于知識圖譜和因果算法的告警根因定位方法研究[J]《網絡安全技術與應用,2023(3):41-43.
[8]陳肖勇,蔡永健,顧丹鵬,等. 圖數據庫在工程數據中心的應用[J]. 計算機時代,2021(9):42-45.