洪蕾
如何有效掌控數據中心運行狀況與資源使用效率,是考驗現代企業IT運維能力的關鍵,也是國內各大商業銀行面臨的首要問題。
在中信銀行總行數據中心內,既有的一套監測系統可用來監測服務器、操作系統、數據庫等IT組件運行狀況。而2015年5月中信銀行上線新一代核心系統后,又部署了一套新的監測系統——EZSonar。對中信銀行總行而言,這套新的系統與原有監測系統又有何不同?
據了解,EZSonar并非用來監測IT組件的,而是用來實時監測中信銀行業務系統,具體而言就是監測銀行每筆交易成功與否、效率高低。舉例來說,銀行一筆業務在正常情況下30毫秒~50毫秒就應完成,如果在業務系統中監測到幾百毫秒還未處理完且類似狀況頻繁出現,就意味著銀行業務系統出現故障。在過去,多數企業都缺乏有效的應對方法,因為傳統運維工具和業務系統的關注點相對微觀,而缺少一個能夠從宏觀層面,且從業務和交易角度去看系統運營狀況的監測工具。
EZSonar的出現,恰恰彌補了這一短板。它能指出業務系統中存在的問題,便于運維部門盡快將問題反饋至研發部門,后者可根據這一反饋進行系統優化,從而提高業務系統性能。而中信銀行選擇與新一代核心系統同步上線EZSonar,即出于保障新一代核心系統平穩、高效運行的考慮。
EZSonar登場 高效運維
按照中信銀行信息部的考慮,在計劃上線新一代核心系統時,也將同步上線EZSonar——這是一套基于大數據技術的應用性能管理軟件,用以監測和分析業務系統部署和運營情況,以便及時發現和解決問題。
隨著2015年5月11日新核心系統正式上線,EZSonar也同步開始監測新核心系統的運行情況,其第一期工作就是監測包括新核心系統在內的11個業務系統。據了解,除此之外,EZSonar在2015年全年陸續監測40個業務系統。據中信銀行相關項目負責人介紹,這40個業務系統均為中信銀行核心業務系統,主要對外提供服務,如柜臺業務、卡業務、網上銀行、手機銀行等關鍵業務。
據了解,作為應用性能管理軟件,EZSonar在中信銀行發揮了三大作用:一是系統監測;二是輔助分析;三是出具報表。而利用EZSonar的監測功能,中信銀行技術人員能快速地監測到系統哪里出了問題、哪里響應速度慢。
三大功能 改善業務運營
據中信銀行EZSonar項目負責人介紹,在部署之前,銀行業務系統維護人員通常是手動巡檢,費事費力。而新部署的EZSonar能夠協助運維人員關注業務系統運行的幾個重要指標:交易成功率、交易響應率和交易響應時間。管理員針對這三項指標設置域值。當系統實際交易過程中相關值超過該域值時,EZSonar會形成告警事件將其推到事件管理平臺中,隨后在平臺中會開出工單具體處理。
據了解,除系統監測外,通過EZSonar中信銀行技術人員還可實現業務應用分析。如網銀系統中各類業務,哪種跑得快,哪種跑得慢?慢的原因是什么?如運營管理平臺上,哪類交易訪問錯誤較多,造成的原因等。
EZSonar的第三大重要功能是報表統計功能,可以直觀地統計各類IT部門內部的數據報表。在2015年“雙十一”時,中信銀行技術部基于EZSonar直觀地了解到在某個時點第三方支付合作伙伴共有多少筆交易、多少交易額。如支付寶多少筆交易、多少交易額;阿里微信多少筆交易、多少交易額;以及京東、蘇寧等電商的相關信息。而要獲取這些數據,傳統的方式是從數據庫中查詢,費時費力,現在通過EZSonar,可以隨時查看。
為什么要上EZSonar
其實在上EZSonar前,中信銀行已有如下考慮:雖然已經有一個監控系統,但當時的系統只能實現對IT資源,或者是IT組件的監測,無法監測到業務系統運轉得是否正常。每筆交易是否成功、快慢與否,都看不到。在過去,要想看業務系統運行得好不好,通常有兩種途徑:日用程序開發時輸出很多日志,那樣做的話,會損耗應用性能,占用系統資源。如果想了解應用的情況,需要到數據庫里查。而白天是銀行營業期間,系統始終高速運行,再運轉這個任務,會導致系統性能進一步下降。晚上查的話,就需要人員加班,并且還需要了解業務的同事留下來,牽扯到的人員、精力太多。能否以一種方式,既可以關注和了解業務的運行情況,同時對生產系統也不造成任何影響?EZSonar就能充分滿足上述需求。
系統監測是持久戰
經過半年試運行,EZSonar運行整體平穩,可實時監控業務狀況,并及時發現業務系統故障點。對此,該項目負責人表示,目前,中信銀行有360多個應用系統,現在已有40多個系統通過EZSonar監控。后續,中信銀行其他重要的偏交易類系統也會考慮上EZSonar監測軟件。
據了解,EZSonar是基于先進的協議解析技術,通過對系統網絡流量數據的分析實現對業務過程的端到端監控,幫助運維團隊建設性能監控平臺。通過交易成功率、響應時間等核心指標,結合靈活的多維分析指標,對業務過程進行全面的監控,實現故障的迅速定位,有效降低故障恢復時間,從而協助中信銀行保證核心系統等重要交易系統平穩、高效運行。
因為中信銀行不斷有新的業務系統投產,所以EZSonar的應用是一項長期的工程。
相關鏈接
提升運維效率的關鍵,就是要“人”和“事”隨著系統的運維特點而變化,并利用先進的運維工具,從各方面提升運維效率。
差別化運維管理方式
差別化運維管理就是在保障系統運行目標的前提下,根據系統特性合理安排運維工作流程。這項工作需要多方面協作,如在系統報警設置上根據應用特點和影響性設置報警閾值;改變統一的考核方式,以運行目標為驅動,各系統運維不再拘泥于具體形式,用最合理的人力配置滿足運維需要。
應急流程的優化
應急是運維中最重要的工作之一,應急效率的高低直接影響運維質量。可以通過完善應急流程中的工作職責,建立統一的指揮機制,對應急中可能涉及的部門,如系統部、網絡部、運行部、項目組統一調度,明確指揮權。
運維制度的改變
要清理、簡化現有IT運維制度,從制度的適用性、可行性、效力的合法性、執行的有效性等方面進行審核,對不符合實際工作的管理制度進行修訂和完善,形成“以制度帶人,以制度帶動工作”的模式。
優化運維工具平臺
要改變各運維工具平臺關聯度不高的問題,打造集系統監控、知識查詢、日常操作、配置管理于一體的運維平臺,讓運維的各個環節有機結合。運維人員可以通過統一入口登錄平臺(包括現場和遠程),完成日常監控和巡檢。