林志達 呂華輝 徐歡
關鍵詞:運行監控場景;信息運維;運維大數據
中圖分類號:TP277 ? ? 文獻標識碼:A 文章編號:2096-4706(2019)06-0132-03
Abstract:With the development of information technology,all kinds of large energy enterprises have established and continuously improved their IT operation management system based on their own development needs,and continue to promote the enterprises’information construction. Nowadays,the development of IT operation has entered a new stage with the application of advanced technologies like“cloud,big data,IoT,mobile and artificial intelligent”,in which the operation and maintenance of large data is an important part with broad prospects. By using new technologies such as big data and machine learning,the intelligent analysis of IT operation data and the automatic judgment of IT operation as well as maintenance strategy can be realized. The proportion of manual operation can be reduced,while the intelligent development of IT operation and maintenance can be accelerated. Aiming at the big data application of IT operation,this paper introduces the IT operation process under several scenarios of operation and monitoring,analyses the problems existing in the current IT operation,and finally puts forward construction suggestions based on the application of large data of IT operation.
Keywords:IT operation monitoring scenario;IT operation;operation and maintenance of big data
0 ?引 ?言
進入21世紀,信息技術與企業經營管理全面融合,大量企業業務的開展依賴于信息系統的穩定運行,IT運維管理的重要性不斷凸顯。
隨著信息化的不斷發展,大數據運維是企業運維管理的重要趨勢之一。如何對IT運維大數據加以應用,也是企業在IT轉型過程中應重點加以關注的。運維大數據的應用場景通常包括了運行監控類、性能容量類、分析決策類和科技優化類等。
運行監控類場景是企業日常運維中的一個重要基礎場景。IT運維監控管理支撐了信息系統的安全運行,為信息化應用提供了最基礎的安全保障。安全運維是運維管理的一大核心原則,然而隨著IT系統的日趨復雜化,確保運維安全成為IT運維監控管理的一大挑戰。如何進一步優化IT運維監控管理,是目前大規模IT應用環境中必須要考慮的問題。
1 ?運行監控流程的三個階段
在IT運維的運行監控類場景中,IT運維監控流程大致可以分為三個階段。
1.1 ?事前故障預測
在事前階段,運維管理主要集中在運維評估、運維報告、應用系統投運前的準備工作、應急預案修訂及應急演練等運維管控活動,運維期間對系統的測試工作,包含發布測試及補丁測試前的驗證測試等。
1.2 ?事中異常識別
主要集中在巡檢管理、缺陷管理兩方面業務事項。缺陷管理則是指對缺陷處理過程的管理。缺陷是指發生的可能影響運維對象安全可靠運行、性能、壽命或服務質量的異常或隱患,通過巡檢管理進行故障識別,巡檢管理指對運維對象的運行狀況進行巡視、檢查,分為定檢和臨檢。定檢是定期對運維對象進行巡檢;臨檢是臨時性對運維對象進行巡檢,從而識別運維系統異常。
1.3 ?事后根源分析
著重在故障管理、系統優化兩方面業務事項。故障是指在沒有預先安排的情況下出現的用戶服務中斷,而故障管理指故障處理過程的管理,是出現故障之后對運維系統進行分析根因、排除故障的管理過程。排除故障之后,對應用系統、軟硬件平臺、基礎設施進行增強與優化。
2 ?運行監控現存問題
“IT時代”向“DT時代”的演變已逐步成為業界發展趨勢,如何充分利用數據成為了企業運維管理的新挑戰。近年來,電力行業數據量呈指數型增長,電力行業邁入大數據時代。持續增加數據積累、有效挖掘數據價值,在電力生產、電力企業經營管理和社會能源節約中都有著重要的意義。當前電力通信網逐步發展成以光纖通信為主,微波、載波通信為輔,多層級的電力骨干和接入網絡。網絡規模的擴大讓電力通信網支持的業務范圍和用戶類型越來越多,故障影響和傳播機理變得更加復雜,加大了運維風險管控的難度。IT運維管理被賦予了更多信息挖掘和數據分析的重任。然而現有情況下,大型企業傳統的運維管理平臺無法有效借助數據實現運維故障事前預測、事中監控、事后分析的全生命周期管理,不能發揮運維數據的巨大潛力。運維管理平臺面臨著三大運維痛點。
2.1 ?事前故障預測
從目前的情況來看,運維管理潛在風險點的挖掘和故障預測功能有待優化。一方面是現有運維的基礎架構越來越復雜,涉及的技術和平臺越來越多,數據形態各異、數據資產存放分散、數據質量及規范度較差,難以有效整合。另一方面,各類運維數據生成的維度和顆粒度“井噴”,現有平臺不具備海量數據吞吐及計算能力。各類運維數據整合及預測性分析難以實現,容易導致“救火式”運維。運維管理運行監控尚未實現從被動處置到主動預防的轉變,需要引入特定數學模型進行故障預測,建設主動預防能力,并對預測數學模型進行訓練,不斷提升其精準度。
2.2 ?事中異常識別
運維安全是電網企業最重要的生命線,必須保證和強化運行監控對異常事件或事故的及時識別能力。只有在運行監控中的信息及時得到有效反饋,運維系統的安全才能夠得到切實保障。一方面,企業對待運維數據分析結果的時效性要求越來越高,傳統的離線計算場景不能滿足實時計算要求,使得以往離線計算場景愈發向實時計算場景靠攏。另一方面,伴隨企業信息化建設,越來越多的不同類型、不同顆粒度的運維數據在迅速產生,企業能搜集的運維數據總量在迅速增長,企業越發重視運維數據的處理能力是否能及時響應新需求。如何借助大數據處理能力,實現及時有效處理多種數據,并從中識別運行風險,成為企業運維管理的新挑戰。
2.3 ?事后根因分析
在傳統的運維管理當中,面對復雜的業務監控和問題診斷,通常是依靠運維人員的經驗來找到指標和事件之間的關聯關系,進而進行故障的定位。在故障定位的過程中,往往在召集相關運維專家診斷時,已浪費不少時間。在診斷過程中,一方面是依據經驗進行故障定位存在一定主觀隨意性,當面臨迅速更新迭代、層出不窮的新系統以及新的故障風險點,難以僅憑相關人員已有的運維經驗進行準確定位;另一方面,隨著運維場景復雜化,各類系統、平臺高度集成,傳統運維管理下問題根源定位精度低、不及時的缺點集中暴露。若需提升事后根因分析能力,IT運維管理必須從粗放式走向精細化,借助大數據技術,對根因分析過程進行自動化改造,減少人力消耗,提升根因分析精度和速度。
3 ?運行監控優化建議
3.1 ?周期性分析技術強化事前故障預測
周期性分析用于同指標性能、同故障告警、同日志記錄等按周期發生的規律性,主要用于時序挖掘分析和反復事務挖掘。周期性分析可應用于指標基線預測。
借鑒算法較先進的IT運維服務商的成功嘗試,IT運維服務商應用周期性分析可在其運維大數據分析平臺衍生出一些運維大數據應用,如利用大數據自動化學習業務運行規律生成的指標動態預警基線。運維人員根據指標基線進行實時預警,可擺脫“經驗式”的故障告警模式,提高運行監控的準確性。
以保障業務高峰期整個IT體系的穩定性為例,一般的做法是根據業務部門告知的業務量上漲預估值來判斷IT性能增長的百分比。換言之,假設預估今年第二季度業務上漲量可能達到50%,那IT運維部門就會通過添加服務器、集群節點等整體配置來提升50%的IT性能,以保障業務高峰期的IT系統的承載力。這樣的IT運維決策缺乏實際數據支撐,存在較大風險,如果IT投入過少,將可能導致整個業務運營服務系統的崩潰,反之則造成資源的浪費。而以周期性分析技術為基礎的指標基線預測的優勢則在此體現:通過對歷史性的運維數據的學習、分析,預測出未來一段時間(如:7天)內各項指標值的變化趨勢圖,運營商運維人員便可根據基線預測知曉業務高峰期各項IT指標的可能運行形態,進而可以提前采取措施,深層次保障業務系統的穩定性、安全性。
3.2 ?強化大數據實時計算處理能力
數據是解決運維效率、實現運維自動化甚至智能化的核心。企業應該著手于在調度、故障處理、質量調優在內的多個場景中,努力實現自動化,優化運維大數據架構平臺建設,發揮平臺支撐作用。提高運維效率,通過提高運維大數據自動化、智能化水平,實現運維大數據的快速處理,有效應對數據井噴。
針對離線數據分析,在基于Hadoop的云計算平臺上利用數據挖掘算法能夠實現對海量廣域運維系統數據進行高效處理。
針對實時數據分析,流處理模式下大數據處理技術注重對動態產生的數據進行實時計算并及時反饋結果,滿足了數據快速處理的需要。目前,流式數據處理的計算框架主要有Spark Streaming、Samza、Storm等,在優化運維大數據快速處理時可以提供一定的參考借鑒。
3.3 ?優化運維大數據價值化處理
隨著數據來源不斷擴充,在數據井噴的情況下,如何挖掘數據價值,成為運維大數據處理的一個重要課題。
一方面,面對大量模糊的非結構化數據,通過規劃運維數據的使用生命周期、根據業務場景優化運維數據生成時的相關參數、進行適當數據壓縮等多種手段對運維大數據進行優化,對海量運維數據進行壓縮、重刪,提煉高價值運維數據,提升故障洞察能力。
另一方面,面對今天動輒數萬條的告警信息,傳統的、單純的日志事件集中展現難以令運維人員鎖定后續處理的工作重點,IT運維管理平臺可基于資產管理角度進行關聯風險分析,以運維大數據技術高速關聯計算取代傳統人員的經驗分析,優先處理重要資產告警事件,使運維管理者對關鍵事件與重要風險的把握更精準,提升處理效率。
3.4 ?利用相關性分析技術強化根因分析
相關性分析運用于跨業務系統、跨軟硬件設備、跨自動化工具等產生的多個指標之間的內在關聯性,主要用于運維故障根源挖掘和發現潛在原因等方面。數據相關性分析方法可應用于告警根源挖掘,幫助運維管理人員有效地找到告警信息發生的根源等方面。
舉例說明,A服務器和B服務器在業務上相鏈接,A服務器的Tomcat因CPU占用高,發出了告警;B服務器的Oracle死鎖數增長,產生了報警。調取歷史運維告警數據進行大數據相關性分析,可發現這兩個看似毫無聯系的指標同時告警的概率高達90%;此時,通過進一步的相關性挖掘可發現,與A服務器Tomcat的CPU同時告警的指標還有C交換機的某端口流量和A服務器的URL響應時間,且機率分別達到85%和80%。利用運維大數據技術實時學習分析的特性,運維人員可根據相關性概率挖掘出告警產生的根因,進而不斷豐富運維關系庫、知識庫,大大節省人工排查的人力、物力、財力,從根本上解決潛在問題、消除安全隱患。
4 ?結 ?論
實現對運行監控的全生命周期管理是企業智能化、一體化運維的重要目標,也是運維大數據可以應用的一個典型場景。在這之中,企業通過明確未來信息化發展對運維提出的新要求,發現傳統運維管理在運行監控場景中全生命周期存在的不足,針對性地利用運維大數據技術進行優化,進一步提高企業的運行監控場景中的IT運維綜合水平,將以往的被動式運維轉變為主動式服務,助推IT運維管理向智能化發展,從而推動IT運維管理從粗放式走向精細化。
參考文獻:
[1] 楊志農.智慧型IT運維監控管理平臺的技術特點及實現 [J].計算機安全,2014(12):2-4.
[2] 徐英超.運維數據的大數據分析和前瞻性展望 [J].綜合運輸,2015,37(11):94-99.
[3] 2018年中國企業IT運維管理市場報告 [R].艾瑞咨詢,2018.
作者簡介:林志達(1983-),男,漢族,廣東大埔人,主管,高級工程師,本科,主要研究方向:信息運行管理。