劉映霓
(中國人民大學 信息資源管理學院,北京 100872)
銀行數據中心傳統IT 運維工作的問題和挑戰主要表現為:主要依靠運維人員的技能經驗,IT 運維工作壓力和強度很大、風險高、效率低、責任重大。因此,如何實現快速、高效的IT運維管理,成為銀行數據中心IT 運維領域的關鍵問題;尤其在大數據、云計算等技術快速發展的今天,銀行新形態業務對可用性、穩定性、可靠性等的要求進一步提高,使得IT 運維問題和挑戰更為突出。
中國人民銀行在其發布的《金融科技發展規劃(2022—2025年)》中指出:“建立健全金融數據中心智能化運維機制,加強多場景協同聯動、多節點一體管控,提升節點感知、異常發現和故障預測能力,降低人工操作風險,推動運維管理模式轉型升級。”為了解決傳統IT 運維問題,近年來,銀行數據中心遵循人行的規劃要領,在智能運維(AIOps) 方面發力,將傳統運維中的關鍵、突出和典型的運維問題逐漸納入智能運維框架下進行探索處理,以推動IT運維向數字化和智能化轉型。智能運維依托的是人工智能技術,知識圖譜作為人工智能的重要組成部分,在智能運維發展中的基石作用日益凸顯。
知識圖譜技術雖然已廣泛應用于互聯網、電商、醫療、金融、教育等行業中,但在銀行IT運維領域還處于比較初級的階段。本文從知識圖譜的概念和在IT運維領域的應用特點出發,基于智能運維中的知識圖譜研究現狀,根據IT運維的實際需求和面臨的問題,探討知識圖譜在銀行數據中心IT運維領域的應用場景、應用方向、應用前景及發展重點,以期對知識圖譜在銀行數據中心智能運維的應用方面有一個全面認識。
“知識圖譜”是Google 公司在2012 年提出的概念,目的是能夠更快更簡單地發現新的信息和知識,搜索結果也能體現一定的層次結構。知識圖譜本質上是一種語義網絡,是結構化的語義知識庫,由“實體-關系-實體”或者“實體-屬性-屬性值”這樣的三元組構成,通過圖的形式呈現,圖中的節點表示概念或實體,邊表示事物的關系或屬性。構建知識圖譜的知識源來自相關的結構化、半結構化和非結構化的數據。知識圖譜分為通用知識圖譜和領域知識圖譜,通用知識圖譜涉及常識性知識,展現知識的廣度;而領域知識圖譜則涉及特定領域知識,體現知識的深度,運維知識圖譜是典型的領域知識圖譜。
知識圖譜的邏輯結構包括模式層(schema) 和數據層(data) 兩個層次,其構建方法有兩種:自頂向下(先模式層后數據層)和自底向上(先數據層后模式層)兩種方法;領域知識圖譜大多采用自頂向下的方法進行構建,主要因為領域知識圖譜所涉及的概念、定義、框架等經過長期積累和反復實踐已基本成為穩定的經驗模式。運維領域知識圖譜的構建過程主要包括知識建模、知識獲取和抽取、知識融合、知識存儲、知識推理等。知識圖譜的主要特點是:1) 知識圖譜對各種數據和知識的表達形式統一,為不同來源知識的有效融合奠定了基礎。2) 知識圖譜以圖結構格式存儲知識,有利于快速進行知識的遍歷檢索并支持高效智能的知識推理。因此,知識圖譜已經成為實現智能運維的關鍵技術之一。

圖1 領域知識圖譜技術體系
在銀行數據中心IT運維中,知識圖譜的應用特點如下:
1) 具有典型的領域性和很強的專業特性。
2) 具備長期積累的運維大數據可利用。
3) 具備現成的網絡拓撲結構所帶來的初步構建的便利性。
4) 需要運維領域專家經驗知識的指導和融合。
5) 需要能支持快速檢索和高效推理的數據庫來存儲運維知識。
6) 多采用自頂向下的構建方式。
知識圖譜應用于銀行數據中心的IT運維,就是將長期積累的IT運維大數據進行有效地抽取、處理并以實體、屬性、事件和相互之間的關聯關系為元素存儲到相應的數據庫中,進而形成運維知識圖譜。構建完善的運維知識圖譜既可用于緊急運維事件和故障的輔助處理以加快問題分析、故障診斷和根因定位的進度,也可用于日常運維知識的展現、知識管理和IT 設施健康狀態評估等,對提高IT 運維工作的質量和效率、促進IT 運維的良性發展、為銀行業務提供更加穩定和安全的運行保障具有十分重要的意義。
銀行數據中心的各種IT 設備、系統、應用涉及不同廠家,不同廠商提供各自的監控管理平臺和系統,導致所產生的海量運維數據基本處于相互獨立分散的狀態,在傳統運維中,這些運維數據對IT 運維管理未能充分發揮系統性的作用;而在智能運維的框架下,通過人工智能技術特別是知識圖譜技術的應用,把這些分散的運維大數據組織起來,進行有效處理和邏輯關聯,構成具有網狀存儲特點的運維知識圖譜,以協助加快解決傳統運維的問題。
銀行數據中心IT 管理中的配置管理數據庫(CMDB) 和網絡拓撲結構為構建IT運維知識圖譜提供了便利和優勢,也是快速構建IT 運維知識圖譜的基礎。IT運維知識圖譜的基本構建流程如圖2。

圖2 運維知識圖譜構建流程
1) 運維需求分析:結合傳統IT 運維問題,對緊急事件處理和日常運維管理方面相關的應用場景進行需求分析。
2) 運維知識圖譜建模:在IT運維領域專家經驗的基礎之上,以運維實體、事件為出發點,對IT設備和系統的基礎信息、狀態信息、性能指標、告警信息、運維信息以及各種關聯關系等進行梳理、定義和表達,建立“實體-關系-實體”“實體-屬性-屬性值”的三元組形式和以事件為核心的多元組形式相結合的運維知識圖譜的模式,這個過程的結果需要人工反復核驗,以保證模式框架的正確性。
3) 運維知識抽取/轉換:根據第一步建好的運維知識圖譜的模式,選擇所需的現有結構化(如CMDB) 、半結構化(如日志)和非結構化(如產品文檔)的運維數據進行知識轉換或抽取,并結合運維專家的經驗,具化運維知識圖譜模式。
4) 運維知識融合:對知識抽取階段來自多個信息數據源的知識進行實體、屬性、概念的對齊、消歧、統一以及合并等知識融合工作,形成初步的運維知識圖譜的知識庫。在此融合階段就開始相關的質量審核,以確保已有的運維知識圖譜內容的一致性和準確性,為形成能有效協助和支持實際運維工作的運維知識圖譜奠定基礎。
5) 運維知識存儲:把經過以上抽取并融合的運維知識圖譜的知識庫存儲到所選擇的相應數據庫中。
6) 運維知識加工:知識加工主要包括知識推理和全面的質量評估。在知識融合之后,運維知識圖譜就初步形成了,但可能知識內容缺失不全,可以通過知識推理技術進一步發現潛在的知識并補全或更新。因為銀行數據中心運維知識圖譜的重要性,構建完的知識圖譜在投入應用之前需要做全面的質量審核與評估,以確保其準確性、一致性和完整性。
7) 運維知識應用:運維知識圖譜可以展示出物理設備、虛擬機、系統、應用、進程、服務之間的邏輯關系等,能用于緊急事件或故障的輔助運維處理和日常運維管理工作,可以結合銀行數據中心實際運維應用需求,落實相應的應用場景的設計和使用。
在知識圖譜構建完成后,可以基于知識圖譜設計和開發所需的運維應用。從目前銀行業智能運維知識圖譜的應用研究、實踐和發展來看,主要有兩方面的應用:1) 面向緊急事件或故障處理的應用;2) 面向日常運維的應用。
2.2.1 面向緊急事件或故障處理的應用
面向緊急事件或故障處理的應用主要包括故障原因分析、故障影響范圍、系統告警收斂方面。
1) 故障原因分析
當IT 系統和網絡發生故障時,傳統的排障過程是:故障發生→產生日志和告警→運維人員分析處理→原因定位→排除故障,故障處理的效果和結果,主要取決于運維人員的經驗和技能,效率不能保障。應用知識圖譜后,重點在于運維知識圖譜能協助運維人員進行故障信息的分析和處理,正常情況下,構建完整的運維知識圖譜融合了運維領域內專家的重要經驗、設備和系統知識、網絡知識、完備的關聯關系、規則知識、案例知識等;當故障發生時,知識圖譜的推理功能將依據這些知識和規則對故障日志告警信息進行更為精細的分析推理,給出推理結果,幫助運維人員盡快找到故障原因。因此,應用運維知識圖譜能從根本上加快故障處理進程,提高故障處理的效率。
2) 異常事件的影響范圍
當異常事件或者故障發生時,會產生相應的日志、告警等,運維知識圖譜基于知識庫中的關聯關系和規則等知識能推理出異常事件或故障的波及范圍,并把結果推送到前臺,運維人員可以據此采用自動化或半自動化的方法調出與異常事件或故障相關的子圖,供進一步研判。
3) 系統告警收斂
在傳統運維過程中,當異常事件或故障發生時,會產生大量的相關日志和告警等,這極大降低了運維人員處理故障和事件的效率;應用知識圖譜后,運維知識圖譜的推理功能可以基于知識庫的相關知識對告警傳播路徑進行推理分析過濾,可以有效屏蔽無關告警、大幅減少告警數量,使重要的核心告警容易“脫穎而出”,大大提高了異常事件或故障的分析速度。
2.2.2 面向日常運維的應用
面向日常運維的應用主要包括故障案例庫知識管理和IT設備管理方面。
1) 案例庫知識管理
在多年的運維工作中,銀行數據中心IT運維人員積累了豐富的運維經驗,這些經驗凝結成了一個個的運維案例,傳統是以手冊或者電子文檔的形式保存,但實際受各種情況和條件的限制,總有漏記未存的經驗知識,而且在緊急情況下,查手冊和文檔并不方便。當以知識圖譜的方式梳理運維案例時,就“激活”了這些運維案例,這種智能化的技術手段不僅解決了運維經驗的高效使用和分享問題,也促進了運維人員技能的快速普遍提高。
2) IT設備管理
在知識圖譜構建過程中,IT設備的性能、容量、狀態、產品信息等也作為基礎知識被抽取出來存入知識庫,供運維知識圖譜分析推理之用,也可結合預先設置的規則、閾值和關聯關系等對異常事件進行預警,提示運維人員在問題出現之前及時采取相應措施以規避風險。運維知識圖譜可以根據構建時的設置情況自動產生設備狀況報表,或者人工進行知識查詢獲得相關運維信息,使運維人員能及時掌握IT設備運行情況。
基于知識圖譜的IT 運維方法徹底改變了傳統的主要依賴于人的運維方式,得益于運維知識圖譜的知識推理、知識查詢、人工交互等功能與技術的運用,實現了IT 運維管理的自動化和智能化。在目前銀行數據中心IT運維知識圖譜應用探索和實踐的基礎之上,可以在運維知識管理、故障預警、故障解決自愈等應用方向上繼續發揮知識圖譜的重要作用。
傳統IT 運維知識管理主要以文檔和文件的形式保存和管理,包括紙質文檔,電子文件文檔等,積累量大,利用率和共享率低,經驗知識沉淀不足,大量運維數據中的隱藏知識有待挖掘。基于知識圖譜進行運維知識管理,可以使用圖的形式表達運維概念、知識點和知識點之間的關系等,利用知識圖譜的推理功能挖掘出運維數據中的潛在知識;圖形式表達的直觀性,有利于提高運維知識的利用率和共享率,潛在知識的挖掘有助于運維知識體系的完善和運維工作效率的提高。
傳統運維中,沒有系統性的方法進行故障預警。應用知識圖譜后,可以收集和處理IT 設備、系統、網絡、應用等的日志、告警信息以及相關性能、容量、狀態、負載等數據,結合常見和重點的IT故障場景,構建故障預警知識圖譜,通過知識圖譜的可視化功能展示出哪些IT因素及其變化與相關故障的關聯性,幫助運維人員預判異常事件或故障觸發的可能性、提前采取相應措施消除隱患,盡可能規避故障的產生,減少IT故障率和影響,提高IT運維質量。
故障自愈不僅是故障解決過程中的一個自動化環節,也是減輕運維人員壓力的重要手段之一。對于無須人工干預的安全級別較低的普通故障,可以設計相應的故障自愈程序進行關聯,當運維知識圖譜完成故障原因定位并確定故障影響和安全級別后,自動觸發運行預先設置好的故障自愈程序,修復故障,恢復正常。雖然故障自愈是運維管理的一種理想狀態,但由于銀行業務要求的重要性和安全性很高,不適宜在生產運維中采用,而在測試中心等非生產環境的運維中可以嘗試采納,并人工復核結果。盡管如此,故障自愈在盡可能解放運維人力方面值得深入研究和探索。
可以看到,知識圖譜在銀行數據中心IT運維管理中的應用前景是廣闊的,同時還有很長的路要走。在學術界不斷研究和各行各業積極探索應用知識圖譜的大背景下,銀行數據中心可以結合智能運維管理工作的重點和難點,順勢深挖研討知識圖譜技術,應用知識圖譜到運維管理的各個契合點,從根本上解決傳統IT運維的問題。
隨著人工智能技術在銀行數據中心IT 運維中的使用,知識圖譜在智能運維中的應用逐漸深入;銀行數據中心大數據的特性和典型的應用場景,使得知識圖譜在智能運維中的應用價值突出,從而高效助力銀行數據中心智能化IT運維。
基于知識圖譜的智能運維將使銀行數據中心IT運維的技術和手段從以產品和廠家為特點的離散獨立狀態整合為自動化智能化的邏輯統一體。運維工作逐漸從以“人”為中心轉為以智能化“體系”為中心,使IT 運維人員逐漸從一些重復性的運維工作中解脫出來,有更多精力自我提升、從事創新工作,這有利于進一步推動IT運維體系的智能化發展,從而盡可能地減少被動運維,提升主動運維能力,達到運維人員、運維工作、運維體系的良性循環。