朱明亮,顧秀秀,史洪瑋
(1.宿遷學院 信息工程學院,江蘇 宿遷 223800;2.宿遷市AI+智慧醫療重點實驗室,江蘇 宿遷 223800)
隨著5G 技術標準的不斷完善,各類5G 商用場景也日趨多樣化。作為解決居民醫療衛生服務需求的新方法,5G智慧醫療自誕生以來就備受矚目,衍生出了涵蓋院前輔助、院中診療、院后護理等多個具體環節的智慧醫療分領域[1]。由于兼具5G 網絡的諸多優點,5G 智慧醫療不管是在健康信息監測,還是在遠程診療、手術示教等方面都具有較大的發展空間[2]。
同時也應看到,由于5G 智慧醫療的應用尚屬于探索發展期,相關場景在網絡承載運營方面的設定仍過于簡易和理想化,隨著5G 智慧醫療融合應用的不斷推進,承載網絡的安全性和有效性日益突出,網絡時延和帶寬保證能力亟待提升[3]。開展面向5G 智慧醫療的承載網告警識別研究,對提升其場景化運營能力,促進其長效發展至關重要[4]。
網絡應用,承載先行。作為搭建通信網絡和運行各類業務的基礎,選擇恰當的承載方式顯得尤為重要。面對5G 背景下各類新型通信場景的承載要求,中國移動選擇切片分組網(Slicing Packet Network, SPN)作為其5G 時代的主要承載方式。研究表明,SPN 可有效滿足5G 智慧醫療在帶寬、連接、切片、時延、同步以及智能調度等方面的個性化要求,可按需進行虛擬專網搭建,同時具備較強的演化升級能力,滿足未來網絡的發展要求[5]。
5G 行業專網組網架構主要涉及行業終端、5G 覆蓋、端到端網絡切片、行業網關以及邊緣計算平臺等[6],則基于SPN 的5G 智慧醫療切片 專網同樣包含上述四個部分,具體構成如圖1 所示。

圖1 基于SPN 的5G 智慧醫療切片專網構成
其中行業終端主要指5G 智慧醫療場景下的各類具備聯網功能的應用設備、穿戴設備、測試設備、醫療設備等[7];5G 覆蓋主要指針對具體部署場景,提供符合帶寬、時延、安全、連接數量等要求的5G 室內及室外網絡覆蓋[8];端到端網絡切片主要由SPN 網絡完成,可根據業務等級和重要性進行差異化的切片管理;行業網關以及邊緣計算平臺為具體的醫療應用提供專業化的解決方案和數據處理,實現智慧醫療各類功能的有效閉環[9]。
選擇和建設高效的承載網絡,有利于實現對現有網絡資源的統一規劃、調配,提升網絡資源利用率,確保網絡的可靠、穩定運行[10]。
選用基于SPN 技術的5G 智慧醫療切片專網,可根據具體需求靈活劃分虛擬專網業務切片,實現各類醫療數據的存儲和傳輸安全,滿足不同醫療應用場景下的低時延、高帶寬網絡需求[11]。為開展后續驗證,搭建了端到端的具備3 條靈活以太網(Flexible Ethernet, FlexE)通道的SPN 智慧醫療切片專網業務模型,具體切片劃分示意如圖2 所示。

圖2 SPN 智慧醫療切片專網模型
由于5G 智慧醫療的業務場景復雜多樣,且很多場景關乎患者的生命健康,時延及帶寬敏感,網絡安全要求較為特殊,因此需要一套響應及時、判斷精準的智能告警處置機制,以實現網絡運維提質增效,保障各業務的安全運行。
針對SPN 切片網絡告警的構成及現狀,采用告警三級智能處置模型,進行快速精準的網絡運維,相應的模型架構如圖3 所示。

圖3 SPN 智慧醫療切片專網智能告警處置模型架構
告警是網絡故障的外在呈現,具有傳遞性、多方性、重復性等特點[12]。一般情況下,網絡設備發生故障時,其上、下聯同網設備因為無法獲取組網端口的信息同樣會產生告警,由此造成短時間內的大量告警積壓,其中既有主要的根因告警,也有其衍生告警,既有本專業的直接告警,也有其他專業的間接告警[13]。面對海量的突發告警,快速精準的進行告警識別是智能告警處置模型的第一步[14]。
告警處置模型依據不同告警產生原因的差異,結合SPN切片網絡告警構成及現狀,將相關告警統分為工程告警、空閑告警、重復告警以及根因告警四類,便于第二步驟告警壓縮的開展。
通過時間關聯算法、業務關聯算法、名稱關聯算法聯合去重降噪,實現切片網絡告警總量的顯著壓縮。三種算法之間依次為遞進關系,最終實現海量告警的過濾去重,確定根因告警。具體壓縮規則定義為:
(1)時間關聯算法:研究表明,網絡告警日志的數據內容往往與時間存在較強的關聯性,屬于典型的時序數據[15]。因此可根據告警時間序列對上報的數據進行規律分析,建立特定時段的動態閾值告警模型。同一個故障產生的告警,發生時間基本接近,規定5 分鐘為算法閾值點,對5 分鐘以外的告警信息進行慮重降噪操作;
(2)業務關聯算法:針對上報告警屬于同一切片拓撲上同一個環或同一區域的告警,或者上報告警的兩網元之間有業務路徑關聯,或者網元間隔在3 跳以內的相關告警,進行慮重降噪操作;
(3)權重關聯算法:同一種故障產生的影響在告警信息中具有很大相似性,主要表現在告警名稱方面,根據告警名稱給每個告警按照根因告警、重要告警、次要告警三個等級進行權重分配,并統計各告警的上報次數,最終將經過時間關聯算法和業務關聯算法降噪過的告警信息根據“告警比重=告警權重×告警次數”的關系進行比重計算,最終確定根因告警。具體權重分配表如表1 所示。

表1 名稱關聯算法權重分配表
依據壓縮后確定的各類根因告警,依次進入告警處理環節。
(1)故障診斷:集成現有診斷功能,整合以往歷史處理經驗,提供基于故障的可視化診斷能力,依據根因告警信息判定故障種類歸屬,生成故障處置指導意見,協助網絡維護人員及客戶快速排障;
(2)故障派單:將根因告警自動生成告警工單,連同故障處置指導意見一同發送至維護人員處,同時檢查業務倒換及環網安全保護機制,在不影響承載業務感知的基礎上為故障盡快消除贏得時間;
(3)故障修復:一線網絡維護人員依據診斷意見和派單內容進行業務恢復和告警清除,系統同時提供故障修復后的優化預案,并支持切片網絡用戶自定義故障修復后的優化意見上傳。
依據上述的智慧醫療切片專網業務模型和告警處置模型,模擬故障場景進行效果驗證。
設定某承載SPN 智慧醫療業務的切片網絡接入層級環網中,網元B、C 間光纖中斷導致環網開環,如圖4 所示。

圖4 SPN 智慧醫療切片專網故障場景模擬
該故障場景中,鏈路兩端網元B、C 均上報Eth-Los 接口失效告警,同時經過此物理鏈路的所有Tunnel/PW 均上報中斷告警及其他大量衍生告警。經統計,故障環網在故障發生的前后1 小時內累計上報251 個告警,淹沒根因告警,具體分布如圖5 所示,其中橫坐標為告警上報時間(min),縱坐標為告警個數。

圖5 原始告警散點圖
(1)引入智能告警處置模型后,處置模型首先自動識別告警類型,排除工程告警、空閑告警后按時間關聯算法進行降噪,251 個原始告警中濾除重復及無效告警88 個,壓降率達35%,壓降后的告警散點圖如圖6 所示。

圖6 時間關聯慮重后的告警散點圖
(2)其次按業務關聯算法進行降噪,濾除重復和衍生告警104 個,壓降率達41%,壓降后的告警散點圖如圖7 所示。

圖7 業務關聯慮重后的告警散點圖
(3)最后按權重關聯算法進行降噪,聚合告警信息,濾除低權重告警54 個,壓降率達22%,壓降后的告警散點圖如圖8 所示。

圖8 權重關聯慮重后的告警散點圖
經過三輪算法的依次降噪,保留有效告警5 個,累計壓降率達98%,最終識別出根因告警Eth_Los(以太網接口失效),明確故障為Fiber Cut(光纜纖芯中斷)引起,并在推薦故障處理建議后將有效告警派給相應處理人員進行根因修復。
隨著5G 智慧醫療應用場景的逐步完善,承載相應業務的SPN 切片網絡也將日趨復雜。智能告警模型通過三重算法聯合使用,壓縮大量衍生告警,明確對業務安全承載產生真正影響的根因告警,有效地提升了切片網絡面對故障沖擊的健壯性和時效性,并對告警背后隱藏問題進行溯源,針對故障類型提出優化方案,為后續的網絡全流程智能化運維奠定了基礎。