今天,當我們回顧運維工作時,我們發現可以把其分為四個階段。
在運維1.0階段,運維工作主要采用了指標監控、閥值報警的方法,其過程采取定義應用關鍵指標,利用事件觸發細顆粒度數據采集的方法。但這種方法存在一個巨大的問題,就是故障分析的工作量成倍增長;另一方面,由于應用間調用關系的存在,判斷故障根因必須參考多個應用在同一時刻的狀態,導致故障根因的判斷流程漫長,需要多部門協同工作,故障排查的時間無法控制。
同時,運維1.0階段存在的一個較大的問題,是無法避免大量誤報,這極大的消耗了寶貴的時間和人力,由此提出了運維2.0的思路和方法。在這一階段,通過對已知問題的根因進行分析,將根因導致的問題場景化,并定義相關監控指標,在此基礎上對增量問題不斷加以分析補充,使得報警數據量得到了極大的減少。在某大型銀行中,減少了40%的報警數據量。

圖1 運維4.0平臺
但是,運維2.0階段依然無法完全滿足運維工作的需求,其問題表現為由于相關應用部署時存在的資源差異,導致的重復報警。由此,運維3.0階段來到了。在這一階段,人們采用基線報警和事件分級的方法,基于生產環境的數據,建立應用系統的性能基線,并定義性能基線的相關分級警報數值,并與事件相關聯,從而實現了基于模型規則的報警事件,并根據不同角色推送相應警報內容,從而在運維3.0階段實現了60%的問題量減少。
運維3.0階段存在一個較大的問題,即由于應用間調用關系和第三方服務的存在,以及業務視角和覆蓋全局和第三方的視圖的缺乏,針對單一應用的監控無法準確描述業務的可用性和質量,因此需要引入新的工具以進一步提升運維工作的質量和效率,促使運維平臺進化到4.0時代。針對這一需求,比較有效的方法是在運維平臺中引入網絡流量分析數據,和ELK工具實現針對大量應用、業務日志的集中式高效分析。在運維4.0平臺上。應當實現幾個目標:端到端的監控數據管理;系統資源的自動化按需分配;關聯應用特點的模型;日志檢查和規范化;客戶端性能監控;交易路徑和覆蓋率檢查;面向業務交易的性能基線;最終實現事件觸發的運維自動化操作。
對比運維4.0平臺的目標和Gartner定義的AIOps,可 以 發 現 兩者的需求和目標是完全一致的。即下一代運維平臺應當是一個多層次的技術平臺,使用分析和機器學習技術,采集和分析來自于不同IT運維工具、設備的大數據,以實現故障根因的自動分析和定位,響應實時問題,使得IT運維工作通過自動化得到增強。
基于以上定義,可以發現新一代的智能運維管理平臺是針對現有運維平臺的提升,以大數據和機器學習為手段將現有多種監控數據和業務數據、事件加以整合,結合原有的人工運維操作包括故障根因判斷和操作等,實現復雜能力的工具化,進而實現運維操作的自動化,并以此為基礎,實現整個運維監控平臺的不斷進化。而就整個智能運維平臺的技術架構來說,其數據源不僅涵蓋現有的監控數據源,如網絡設備、操作系統、應用程序等等,還應當包含業務操作日志、變更管理、配置管理、設備管理等等,以大數據技術為手段,實現所有運維監控數據的計算、分析,以機器學習技術引導運維操作的不斷進化,最終以可視化的方式實現系統狀態、故障根因、排障操作的可視化、自動化。

圖2 AIOps的定義
當前,作為一個新生領域的智能運維平臺還處于發展的初期,發現并收集有價值的數據是當務之急和首要問題。而網絡流量作為整個IT系統的基礎,任何的系統間通信、業務處理都以網絡流量為基礎,任何故障也都必然以網絡流量為表現,所有的運維操作也都以網絡流量為手段實現,因此網絡全流量數據是最為完整的數據源,對其進行采集和深度分析,可以作為智能運維平臺的基礎。同時,結合其他數據源,也是構建智能運維平臺的最佳路徑。
當我們以網絡全流量分析為基礎組件之一構建智能運維平臺時,需要考慮的一個問題是,僅在IT系統中關鍵節點或者應用前段部署網絡流量采集點是無法滿足全系統監控分析的要求的,因此,不僅在應用前段需要部署流量采集點,在應用交易路徑的所有環節都應當部署流量采集點,并加以統一視圖的分析,才能清晰準確的實現應用和整個系統的運維監控需求。
另一方面,網絡流量采集探針不能僅針對網絡設備等硬件,由于云計算、SDN技術的大規模應用,流量采集探針也必須支持虛擬化環境、云和SDN環境,不僅能采集物理設備間的流量,還必須能夠在采集虛擬環境內部的流量,特別是由于SDN環境的特點限制,網絡全流量采集分析是SDN環境下最佳故障排查手段。
在數據中心層面,新一代的智能運維平臺必須能夠實現應用的全局監控,快速準確的展現應用和業務運行狀態,同時對于應用路徑的各個環節也必須實現全路徑監控,當任意一點由于任何原因導致的異?,F象,實現快速、準確的展現和警報,更進一步,新一代的智能運維平臺還應當具有深度的數據挖掘能力,可以對任何異?,F象實現數據包的深度挖掘和分析,還原異常現象并對根因做出最準確的還原和分析。
另一方面,由于移動互聯網的快速普及,在很多行業,基于移動端的業務交易已經成為業務的主要實現方式,特別是在金融行業,移動端交易量已經超過了50%的交易占比,但是由于移動互聯網的復雜度和移動設備的多樣性,導致異常現象的排查難度大幅提高,因此,新一代的智能運維平臺不能僅面向數據中心提供運維監控支持,還必須具備客戶端特別是移動端的運維監控能力,能夠快速準備的采集、匯總、分析移動端應用程序的運行狀態。同時,基于當前精準營銷,業務快速拓展的需求,移動端客戶行為分析也成為了業務需求之一,新一代的智能運維平臺應對此需求具備支持手段,作為數據源之一為業務營銷提供支持。
在數值監控方面,新一代的智能運維平臺不能僅面向IT運維,還應當具備業務運行的支撐能力,能夠實時反映業務的運行狀態,對于交易成功率、交易時延、交易類別等等業務運行狀態提供快速準確的監控報警能力,特別是在業務促銷、大業務量突發等場景下具備實時監控能力。相應的,新一代的智能運維平臺在應用層面還必須具備交易路徑的監控分析能力,這種能力不同于針對IT環境的監控,其應當是對交易路徑中包括關聯業務和第三方等各個環節的監控分析能力。而在警報分析能力層面,新一代的智能運維平臺不能采用傳統的閥值警報模式,基線警報模式是其基本的要求之一。只有采用性能基線監控和報警模式才能準確反映一個時間段內業務和應用的變化趨勢,并對未來的業務和應用發展態勢做出預測。

圖3 AIOps的技術架構
在今天的IT團隊中,網絡、應用、研發、安全是必備的四個部門,各部門的配合與協調確保了整個IT系統的平穩可靠運行,進而確保了業務和交易的平穩可靠。因此,從整個IT團隊的角度出發,新一代的智能運維平臺不能像傳統平臺一樣僅面向單一的團隊,完成單一的網絡或者應用等的運維工作。新一代的智能運維平臺應當是一個集成的平臺,面向網絡、應用、研發、安全部門,提供全方位的支持和操作平臺。因此,新一代的智能運維平臺應當具備多層次的監控運維能力,既針對特定部門的特定需求提供精準的監控和操作工具,也可以針對部門間配合協調需求,提供集成化監控分析和操作手段。
當新一代的智能運維平臺具備多種能力之后,其面向IT團隊的人機接口就成為其可用性關鍵因素。只有具備了清晰、準確、快速的展現能力,才能為整個業務應用系統提供更好的支撐。因此新一代的智能運維平臺的展現能力也應當是層次化的。面向業務,其應當具備不同業務間的關聯關系和業務運行狀態的展現能力,從而提供業務狀態的監控分析能力。
而針對單一業務,新一代的智能運維平臺也必須提供全應用系統的監控、分析、展現能力,不僅僅包括了網絡設備或者應用的單一視圖,還應當提供涵蓋了客戶端、網絡、應用的統一視圖,從而實現針對應用全系統的統一監控,提升網絡、應用、安全等不同運維部門間的協同配合能力。相應的,新一代的智能運維平臺也必須具備定制化的數值監控能力,可以將重要的業務數據、應用狀態、網絡狀態集中監控和分析,提升網絡、應用、安全等不同運維部門間的協同配合能力。
當前,新一代的智能運維平臺已經成為了IT系統運維工作的發展方向,而基于網絡全流量分析的智能運維平臺已經具備基本的能力,但是距離智能運維平臺的要求尚存在差距。未來,應當引入多種數據源,采集分析來自業務事件、運維操作、配置管理、資產管理等等多個來源的數據,實現綜合的智能化分析,從而實現異常事件的自動發現、警報和根因分析,并在此基礎上實現自動化操作。