

“只有可見的,才是可運維的。”這是IT運維人員常說的一句話。
然而現實往往并不能如愿以償,過去的很長一段時間內,企業IT團隊的精力往往都放在應用系統的建設上,工作重心多是完成一個又一個項目,很少真正對所有的應用系統做詳細的梳理、弄清楚其中的邏輯關系。再加上早期開發的一些應用系統并沒有建立良好的開發和運維流程,應用系統之間的關聯關系也往往沒有規范的文檔可以查詢。這樣久而久之,隨著運維人員的交替,支撐企業業務的應用架構已經變得難以梳理,IT運維面臨的壓力也越來越大。
而在眾多信息化建設開始較早的企業中,這種情形尤為明顯,一方面是由于建設時資源緊張等特殊因素,某臺服務器上可能運行著多個不同的應用程序,或者有一些邊緣組件平時不太引人注意。這些問題伴隨開發人員的更替,逐漸被人們淡忘,為后來的運維工作埋下了隱患,國內某大型商業銀行便是這方面的典型案例。
應用可視化是關鍵
為此,該銀行開展了相應的治理工作,以清除IT運維工作中存在的死角。該項目負責人姜巖在接受采訪時表示,由于運維人員的不斷交替,對整個應用系統缺乏清晰的認識是運維工作面臨的最大難題。
顯然,如果沒有一種有效的梳理手段支撐,企業要解決應用梳理問題,無疑是一項充滿挑戰的工作。特別是在業務與IT系統越來越緊密關聯的趨勢下,業務運行會很依賴IT系統的支持,如果缺乏對IT架構的理解,每一個未知風險都可能導致業務的嚴重中斷;另一方面,業務快速變化也對IT運維的敏捷性提出了前所未有的要求,運維人員只有對IT架構保持充分的了解,才能讓IT跟得上業務變化的節奏。因此,如今的運維人員已經不能僅滿足于知道有哪些應用和節點部署在企業中,更需要知道它們之間是如何連接和交互的。
為此,姜巖和他的團隊嘗試過多種方法,比如使用Agent模式、日志分析、代碼植入等方式,不過效果并不盡如人意。由于這些方式直接與被管理系統、應用程序產生交互,也就是說其在監視數據產生的同時,本身也會消耗系統、應用程序資源,而這往往會導致資源緊張,進而導致業務處理性能下降,甚至有不少用戶因此而遭受了嚴重的業務中斷故障。
在經過多方考量后,最終他們采用了基于網絡數據資源的應用性能管理方法,使用CrossFlow BPC(Business Performance Center)網絡與應用性能管理產品進行應用梳理,并進行相關的監控管理。
而之所以采用這樣的方式,也是因為在當前的應用架構下,應用服務層級劃分已十分清晰,各層級間的交易全部通過網絡傳輸來完成,基礎設施和交付設施本身都以服務為中心向應用提供界限明確的服務功能,使得數據采集設備可以輕松獲取關鍵交易環節的網絡數據,這給網絡數據源的獲取帶來了極大的便利和靈活性。
據姜巖介紹,整個項目的實施主要有五個關鍵步驟,包括應用整體監控的標準化制定;監控統一管理的必要性分析;明確監控統一管理的主要目標;掌握監控統一管理的關鍵技術及監控統一管理最終如何展現與運用。“整個項目的關鍵詞就是整體、統一。”姜巖解釋說,只有做到整體監控、統一管理,才能使IT系統可視化,運維工作才能得心應手。
整體監控 統一管理
在具體的實施過程中,姜巖首先對現有應用系統的整體構成做了全面了解、仔細排查,包括哪些應用是跨節點、跨層面的,哪些應用是多維度的;然后按照應用構成信息的不同(不同應用的基礎層面構成信息、應用內部構成信息、應用外部關聯信息等都不盡相同),設定不同的KPI監控指標,再根據相應的指標分發相應的監控策略。姜巖表示,這樣做的好處就是可以全方位多維度地梳理應用監測點,并以體系化的監控指標作為分發策略的參考。在此基礎上,構建起了三層架構的監控統一管理平臺,其中包含監控對象及代理層、監控工具層及監控管理平臺,進而對應用產生的數據進行采集、處理、監控及管理。
其中作為數據采集的關鍵,中間層的監控工具層起著至關重要的作用。因此,據姜巖介紹,他們前后部署了多個監控工具用以監視各個部件的情況,有針對惠普小型機監控的OVO、針對網絡事件監控的SORLAWINDS、針對IBM小型機監控的TIOVLI、針對數據庫監控的OMS、針對應用性能整體監控的CrossFlow BPC及針對存儲環境監控的SOC等。
其中針對小型機、存儲、網絡的監控工具主要監控的是單一類型的系統,而針對應用性能監控的CrossFlow BPC則能在一定程度上起到全局監控的作用。因為當系統中的某一應用出現故障時,CrossFlow BPC能夠及時發現,并追根溯源,進行自動故障定位,在呈現應用故障對用戶體驗影響的同時,指出導致問題發生的根源組件和原因。
CrossFlow BPC能夠通過交易筆數、成功率、響應時間、響應率及返回碼5個指標及交易時間、交易筆數2個維度對關鍵業務指標進行統計,并進行深入的分析。而其內置的SPV Discovery還能自動呈現被監控網絡數據的IP連接性,快速梳理應用組件之間的邏輯訪問關系。
也正是由于以上的種種特性,姜巖使用其對銀行的核心業務進行監控,通過關鍵交易當前的狀態分析、性能趨勢對比、交易直接探測等措施,明確當前的各項交易處于什么狀態、有無威脅,并通過CrossFlow BPC梳理各項應用之間的邏輯關系,降低人為出錯的可能性。
在實際環境中,當其中某項業務出現故障時,CrossFlow BPC會以明顯的顏色加以區分,并告知故障定位及告警數目,以方便用戶做進一步的故障判斷。
據姜巖介紹,通過上述一系列的應用梳理,數據采集、處理、分析工作,并在監控統一管理平臺統一呈現,最終實現了應用整體監控的既定目標,即在應用整體結構管理方面,能夠梳理應用整體結構,達到自動實時監測;在應用健康運行監視方面,做到實時采集并監測應用運行的狀態;在應用運行故障預警方面,實時分析并監控應用運行的關鍵KPI;在應用運行故障報警方面,實時自動檢查應用服務狀態的異常情況;在應用故障原因分析方面,采集故障現場數據,并進行關聯數據分析。
如今,通過新建立的監控統一管理平臺,姜巖的運維工作已經變得得心應手。姜巖表示,現在通過總行的告警監控視圖,運維人員可以輕松查看各個部分的運行情況。當某一部分出現故障時,通過整體報警消息,運維人員可以做到快速接管、準確檢查、全程跟蹤并及時通報。