何云瑞 閆祎穎 黨義杰 李揚 陳亮 王寧

摘? 要:隨著信息技術的不斷改進與提高,大數據時代已經來臨,人工智能被應用到各行各業。各類大數據中心的出現對IT運維的模式提出了新的標準和要求,智能運維憑借無可比擬的優勢脫穎而出。本文通過分析運維的發展歷程,對比傳統運維與智能運維的優劣勢,提出了大數據中心的智能運維方案和實現途徑。
關鍵詞:智能運維;數據中心;架構
中圖分類號:? ? ? ?文獻標識碼:
Abstract: With the continuous improvement of information technology, the age of big data has arrived, and artificial intelligence has been applied to a variety of industries. The emergence of big data centers puts new standards and requirements on the mode of IT operation and maintenance. AIOps stand out with unparalleled advantages. By analyzing the development history of operation and maintenance and comparing the advantages of traditional operation and maintenance with AIOps, we will put forward the structures and implementations of AIOps of big data center.
Key words: AIOps; Big Data Center; Structures
1? 引言
隨著IT行業的發展和信息化水平的不斷提高,數據中心的規模也在日益擴大,這不僅體現在需維護的服務器數量上,也體現在產生的運維數據量上,單純依靠投入大量人力進行巡檢及監控已不能滿足日常運維的需求,這對IT運維的模式提出了新的標準和要求。另一方面,隨著大數據時代的到來,人工智能(Artificial Intelligence,AI)技術在各行各業中得到了越來越廣泛的應用,智能運維便是將AI技術應用到IT運維領域的實例,借助運維自動化、大數據、桌面虛擬化等技術手段,實現對所有設備的監控,能極大提高IT運維管理效率。
2? 智能運維的概念及優勢
2.1? 基本概念
根據國際上對智能運維的最新定義,智能運維(Artificial Intelligence for IT Operations, AIOps)是ITSM、ITOM和 IT 自動化三大方面的全面融合,自動化處理傳統IT運行和維護,以提升運行和維護效率。作為AI、大數據和IT運維融合的產物,智能運維成為現代傳統企業數字化轉型的必然選擇。
2.2 智能運維的優勢
(1)傳統IT運維存在的問題
傳統的IT運維管理模式是被動的,其存在以下三點問題。一是運維成本高。傳統運維受限于技術和人力等原因,系統一旦出現故障產生告警后,運維人員需要逐條進行手工排查,不僅要付出大量的人力,還要浪費大量的時間;二是無預警。傳統單一的運維模式沒有設置全面的系統監控,對于系統即將出現的故障和問題不能及時預判和告警,無法做到防患于未然;三是缺乏快速有效的分析解決工具。面對大量的操作和維護數據,越來越多的運維場景和問題無法用傳統的方法來解決,傳統運維手段已經不能適應現有大數據環境下的新形勢。
(2)智能運維的優勢與特點
相比傳統運維的模式而言,智能運維具有不可比擬的優勢。從技術層面上看,智能運維的優勢和特點主要包括以下四個方面。一是“可存儲”,可以形成龐大的數據庫,可以迅速的對系統內的各類數據數據進行存儲、檢索和調用;二是“可關聯”,以自身龐大的數據庫作為支撐可以對存儲的數據進行關聯分析;三是“可預測”,通過構建數據知識庫和自我學習能力,對數據進行對比分析和閾值分析,建立分析預測系統,可以對系統異常等提前告警;四是“可溯源”,針對系統發出的告警和異常狀態,可以根據溯源組件實現根源追溯,查看引起異常的數據流和位置,以便快速定位問題根源,實現自動化修復等后續運維工作。
總體來說,智能運維的工作模式優勢在于可以通過自我學習實現自動化運維和自動故障判斷處理,是集“自我學習、自我監控、自我校驗、自我修復”四位一體的運維平臺。智能運維的推廣和運用將可以有效降低傳統IT運維高成本低效率的困境,使運維管理實現“易見、易管、易控”。
3? 大數據中心的智能運維建設
3.1? 大數據中心的現狀及需求
隨著大數據時代的到來,數據中心建設的理念也進入一個云時代,越來越多的大數據中心出現在各大企業的建設清單中。第三代以計算機計算為核心的機架式服務器機房的數據中心方興未艾,第四代以大數據計算為核心的大數據中心已經走上舞臺。一個大型的數據中心部署擁有多云的數據基礎設施環境,可以提供機房、設計、功能、資源四大服務類型,裝機容量均在5000機架以上甚至上萬機架,面對如此龐大的容量,大數據中心的運維工作就更加重要了。
當一個數據中心的建設規模越來越大,承載的業務種類和數量越來越多,對于數據的快速處理、高速傳輸、實時響應等要求不斷提高,其面臨的問題和挑戰也日益增加。
3.2? 智能運維的解決方案框架
目前,大數據中心的IT系統具有數據節點多、系統規模大、運行速度快等特點。因此,大數據中心智能運維的落地需要循序漸進,分區域分步驟的進行架構。整個大數據中心的智能運維系統可以分為可以分為五大邏輯板塊來進行架構。具體如圖1所示。
圖1? 大數據中心的智能運維系統架構示意圖
(1)數據采集存儲板塊
該板塊包含數據采集器和數據存儲器。數據采集器采用分布式布局,通過動態化的采集方式對底層的多種不同的運維平臺進行數據的收集工作;數據存儲器使用My SQL和MongoDB結合的方式,對于數據量小和有穩定結構的配置類數據統一存儲在SQL結構化數據庫中,而大量的運行數據、日志等具有實時性、不穩定性的的數據均存儲到非結構化的數據庫中。
(2)數據學習儲備板塊
該板塊將數據采集存儲板塊的數據進行再整理,分為元數據、狀態數據和事件數據三大類進行分門別類,利用自我學習的功能,形成數據知識庫。通過該板塊的設置,將數據建設變成一個持續的過程,是智能運維的建設重要的一部分。
(3)數據分析處理板塊
該板塊是智能運維最核心關鍵的一部分,由數據計算和數據執行兩部分組成。數據計算主要是對采集存儲的數據進行實時處理分析,檢測監控數據的實時變化,對數據匯聚、數據加載、數據異常等問題進行感知分析并提前告警;數據執行則是對部署、執行命令等數據操作控制進行寫入操作。
(4)數據決策執行板塊
該板塊是智能運維的“大腦”,控制整個智能運維的行為。根據前三個板塊的采集存儲、自我學習和分析處理,根據邏輯判斷規則和算法組件的設置形成異常檢測、故障預測、止損決策、根因診斷、容量預測等策略庫,可以根據整個系統平臺出現的需求自動給出運維策略并自動處置,讓決策執行過程“可定位、能復用、有針對”。
(5)數據可視化板塊
數據可視化板塊將分析結果、決策策略等數據通過可視化組件變為簡單易懂的圖表或圖,將數據直觀地展現出來,實現數據的可視化、場景化以及實時交互,以幫助非運維人員對數據更好的理解,根據直觀的圖表或圖可以更好的找出包含在海量數據中的規律或者信息。
3.3? 智能運維的預期價值與實現途徑
智能運維在大數據中心建立起來之后,將產生不可估量的使用價值,其主要IT運維的自動化、智能化實踐可以從以下幾個方面進行實現。
(1)自動化進行日常數據巡檢
作為智能運維最基礎的任務就是進行日常的巡檢運維工作,每日重復化的巡檢工作,看起來簡單,但需要定時進行重復執行。智能運維系統通過設定邏輯組件,可以對大數據中心的軟硬件環境、設備端口的狀態和負載、數據流量和空間使用率等日常巡檢工作內容進行自動巡檢并生成日志和報告。
(2)自動化進行配置管理
隨著大數據中心的運營環境越來越大,采集存儲基礎組件的管理成為配置管理員的巨大的工作量,尤其是這些組件還在不停的變化和關聯。實施智能運維后,對系統的基礎組件進行標準化和規范化設置,保證運維工具可以自動從資源環境中提取配置庫信息,自動更新到配置庫中,最終實現配置項和屬性的自動更新。
(3)自動化進行系統故障預判和修復
作為智能運維最突出的價值就是預判和自動故障修復功能。智能運維通過自我學習功能,通過數據庫分析、檢測等組件聯合,可以預判即將面臨的問題和威脅,將通過提前告警等對故障進行預判。一般系統故障的出現會經歷“發現、診斷、決策、執行”四個階段。在這四個階段中,通過前兩個階段(即發現和診斷)結合知識庫板塊,明確處理決策執行修復命令。
(4)可視化進行數據流展示
作為智能運維的重要一環,在智能運維終端可以通過對采集存儲的數據流,通過設定的可視化大數據組件,實現對全網數據的有效識別;對訪問關系、流量構成、異常行為等實現可視化。將數據、組件和終端之間的訪問關系、會話特征、異常的訪問路徑、非正常的數據出口、異常的TCP連接等問題以具象的形式展現出來。
(5)自動化進行資源申請調配
智能運維可以利用資源監控的手段有效地監控一組或多組資源指標,并且根據系統資源當前的使用情況進行適當適量的動態伸縮。當資源不足的時候,根據約定的規模比例部署節點并將其添加到當前的運行環境中。當資源利用率很低時,又可以回收資源以避免造成資源的浪費。
4? 結束語
綜上所述,智能運維基于人工智能的自我學習和深度學習技術,創新了運維模式的構建和實現方式,可以提高大數據爆炸時代的運維工作效率,是未來運維工作的主導方向。目前,部分數據中心已經在智能運維方向上進行了一定的嘗試,并且取得了非常好的效果和用戶體驗。未來,針對不同的應用場景和需求,更好地利用智能化工具關聯分析數據、深入挖掘數據的價值將是智能運維的主要研究方向,本項目將結合自身的運維需求,探討適宜的實現智能運維的技術路線和方案。
參考文獻:
[1]鐘湘瓊.基于云計算的大數據只能運維系統設計.信息通信[J],2016.2
[2]羅硯.基于大數據的信息系統運維智能化研究.郵電設計技術[J],2018(3)
[3]毛開梅.大數據之智能運維系統設計及應用.網絡與信息工程[J],2018(14)
[4]劉世發,畢永軍.智能化運維的探索與實踐[J].金融電子化,2017,08.
[5]李鵬.基于云計算的大數據運維系統的設計與實現[D].天津大學,2017.
[6]劉瑩旭.智能運維中心信息集成技術研究[D].上海交通大學,2013.