宋昊爽
(石化盈科信息技術有限責任公司 北京100007)
隨著信息化快速發展,尤其是近幾年以信息化帶動工業化、以工業化促進信息化的高層次深度“兩化融合”,信息化已經成為企業集團追求可持續新型發展模式的重要推力,眾多企業集團已然將信息化上升并作為發展戰略的重要組成部分。隨之而來的是,企業集團各種生產運營、經營管理的信息系統越來越多,企業集團的IT資源越來越龐大,結構越來越復雜,企業集團信息管理部門的運維服務工作面臨前所未有的挑戰:如何在有限成本支付的約束下,有效運營和管理這些IT資源,提供高質量的IT服務,以保障企業集團生產經營業務正常開展,并為企業集團塑造具有獨特優勢的競爭力。這就必然要求IT運營監控管理服務工作本身必須先實現信息化,必須建立一套與之相配套的IT運營監控管理技術平臺,改變原有分散的、被動的、低效的運維管理模式,為企業集團IT資源的集中維護提供技術工具、管理手段,切實提供有效(general)、經濟(economy)、可靠(reliability)、安全(security)(即 GERS)的信息化服務。
近年來,建設與應用IT運營監控平臺也成為眾多企業集團信息管理部門的共識,并為企業集團IT運營監控管理工作提供了有力支撐。它主要是指對企業集團各種IT資源的運行狀態進行集中監控管理,全面可視化展現IT資源的分布與連接關系,實時監控IT資源的運行狀態,進行故障關聯處理并準確定位故障根源,對IT資源性能趨勢進行量化科學分析,實現集中的、主動的、高效的IT運營管理體系,最終保障企業集團信息基礎架構和各種業務應用的可用性。
隨著數據中心、云計算、物聯網等新興信息技術的大行其道,企業集團IT運營監控管理平臺本身如何適應這些新的技術環境、如何對新技術架構下的IT資源進行運營和監控,成為目前企業集團IT運營監控管理平臺建設和應用時面臨的主要問題與重要挑戰。而要適應這些新的IT 環境,“云化”、“立體化”、“智能化”、“一體化”和“共享服務化”是IT運營監控管理平臺的必然發展趨勢和變革方向。
云計算是企業集團IT的資源池,同時也是一種IT服務的新模式,它可以創建和提供應用、平臺以及基礎架構等各種公共服務。由于云計算具有“要什么、有什么;要什么、給什么”、“優化IT資源,實現按需分配”的優勢,已經成為信息技術發展勢不可擋的潮流。《經濟學家》認為“云計算將催生出巨大的力量與財富”,美林證券預測:“這股沖擊波將引發1 600億美元的科技海嘯”。在我國,云計算應用近階段將以政府、電信、教育、醫療、金融、石油石化和電力等行業為重點,總體投資將從2010年的167.31億元增長到2013年的1 174.12億元,年均復合增長率達到91.5%。《“十二五”國家戰略性新興產業發展規劃》中更是明確提出:“到2015年,要初步形成符合國情的應用模式、標準規范和安全可靠的產業體系”。國內一些重要企業集團如中國移動、中國石化、國家電網等也分別在“十二五”期間規劃建設各種基礎云、測試云、業務云。
云計算資源都要集中于云數據中心環境中,它對IT運營監控管理平臺的直接影響,體現在以下兩個方面。
一方面要求IT運營監控管理平臺從傳統IT資源的管理逐步提升到對云計算環境下的物理資源、虛擬資源、業務應用的運營監控管理,如圖1所示。要能幫助運維管理人員很好地了解當前云計算環境的運行狀態:有多少虛擬機正在運行?這些云計算配置是什么樣子?虛擬化環境是否存在瓶頸?應用程序是否被合理分配到虛擬機?哪些部門使用哪些資源?需要再為虛擬化投入多少資源……

另外一方面,IT運營監控管理平臺本身也要 “云化”,也就是說IT運營監控管理平臺本身也要逐步遷移并運行部署到云數據中心、云計算環境中,如圖2所示。
傳統認為,信息系統結構主要涉及兩個層次:基礎設施層和應用層。基礎設施層主要是指支撐應用系統運行的網絡、安全、服務器、負載均衡、存儲等基礎設施。應用層則是指數據庫、中間件和ERP、OA及各種生產運營、經營管理等應用軟件系統本身。而在新的虛擬化和云計算環境下,除傳統意義上理解的基礎設施層和應用層外,還有另外兩個層次:數據中心基礎環境層和虛擬化層。基礎環境層是指包括數據中心在內的配電、UPS、暖通、溫濕度、漏水、布線、機柜、門禁等基礎環境和相關設施設備。虛擬化層則是指從物理機到虛擬機的轉化層。
在云計算環境下,IT運營監控管理平臺對應也要涉及4個層次,如圖3所示。對數據中心基礎環境的狀態、性能、故障統一監控管理,對支撐應用系統運行的基礎設施通斷狀態、時延、配置、性能等進行統一監控管理,對虛擬機的配置、容量、性能、故障以及虛擬機與物理機的關聯關系進行統一監控管理,從最終用戶角度,以業務為中心對業務系統的可用性、響應時間、業務處理效率、處理質量、交易數量等進行統一監控管理。以上4個監控管理層次中,以業務應用監控為核心,并相互關聯、相互支撐,形成一個有機整體,切實實現對云環境下的數據中心的全面、多層次、立體式的運營監控管理服務。
云計算技術下的IT資源無疑比傳統IT設備的運維管理更加復雜,如果只是單純依靠手工方式來管理,顯然無法滿足對服務的動態調整,也就無法充分體現云計算的優勢。IT運營監控管理平臺要適應云計算環境,就要朝著智能化方向發展,成為一個擁有設備維護管理經驗、綜合優化經驗、故障處理經驗、性能分析經驗、主動性預防性維護經驗、資源管理經驗等的運營監控管理平臺,實現由低效率的人工處理為主向高效率的自動處理為主的轉化,實現故障或問題自動發現、自動定位、自動處理等功能。云數據中心IT運營監控管理平臺的智能化至少要體現以下幾個方面,如圖4所示。

·云資源(計算資源、內存資源、存儲資源等)的智能匹配、部署、分配。
·云服務的智能編排、部署建立、動態調整、持續優化。
·云資源運行的自動化分析、過濾、關聯、定位故障根源,自動提供預測、預警信息,自動發現隱患問題。
·云資源故障的智能化處理,分析所出現故障的特征,自動匹配對應的解決方案,并進行自動處理和恢復。
·云資源作業計劃的自動執行,配置和標準化核查的自動化,云資源數據的統一化、規范化管理。
·云資源運行數據的縱向、橫向分析,從縱向看本身特殊性的變化,從橫向看普遍性的變化,自動提供優化方案。


云數據中心的IT運營監控管理分3個方面:監視、管理和控制,如圖5所示,“監、管、控”三者緊密關聯,邏輯上是一條龍過程,并形成閉合環路。監視的結果作為依據來分析、決策和指導IT運維工作的進行;IT運維工作本身需要綜合管理來進行規范和控制;自動化運維操作將運維工作中大量、重復的勞動批量控制,自動完成,以節省人力成本,提高效率。需要監視運維服務工作的質量和結果來進一步觀察和判斷是否符合工作預期。
監視是我們的眼睛,幫助我們透視和認清基礎環境、基礎設施、虛擬層、應用層等整個云數據中心IT環境,是我們的情報來源;運維管理是我們的大腦,幫助我們思考、制定決策和完成流程控制和管理,是我們的情報分析和決策中心;控制是我們的雙手,完成自動化批量處理,是我們的實施手段。由此,可以說IT運維監控管理平臺的“監、管、控”,是有序的一條龍、閉環過程。

IT“監、管、控”一體化運維,就是真正實現一條龍過程和達到閉合環路的目的。在IT“監、管、控”一體化運維模式下,當監視管理發現故障并產生告警后,如滿足相應的過濾和觸發條件,自動觸發運維流程管理生成相應的任務,運維管理依據任務信息和運維人員預先設置好的關聯條件,自動尋找、識別和匹配自動化運維中的操作腳本,實現自動和快速的故障操作處理,由此實現從發現故障到解決故障的IT運維全自動化,并自動完成運維操作日志記錄,以備事后查詢和審計。IT運營監控管理的一體化不是IT運維工作中簡單的維護過程的改變,而是IT運維管理工作方式的根本變革,是現代IT運維管理的重要發展趨勢。
云計算為最終用戶提供的是一種服務。隨著云計算提供的服務日漸增多,企業集團IT管理部門要保持競爭力并提供業務價值,必須實現IT運營監控管理的共享服務。共享服務是在知識經濟的大背景下產生的。知識經濟是現代主流經濟,在這個時代,知識成為推動社會發展和人類進步的最主要的因素,知識正代替昔日的土地等自然資源、金融資本,成為最重要的資源。對于企業集團IT管理部門來講,對運維知識的管理,或者說對以運維知識為中心的核心能力的管理成為知識經濟時代IT服務成敗的關鍵。知識管理的核心是實現IT管理部門顯性知識和隱性知識的共享,運用集體的智慧提高信息管理部門的應變和創新能力。運營監控管理的共享服務需要在組織模型和運作模式上進行變革,具體涉及組織結構、業務范圍界定、運作模式、績效管理等內容,更需要建立一個標準化的運營監控管理服務體系。
總之,IT運營監控管理向 “云化”、“立體化”、“智能化”、“一體化”和“共享服務化”的變革與發展,是建立與云數據中心環境下相適應、相匹配運維管理體系的必然要求,是保障云數據中心持續、穩定、可靠、安全運行的中心要務的必要要求,是實現云計算“優化IT資源,實現按需分配”根本目標的必然要求。
1 姚有真.云計算及其發展趨勢.通信管理與技術.2011(4)
2 (美)布賴恩·伯杰倫.共享服務精要.北京:中國人民大學出版社,2004
3 (美)卓蘇拉,(美)歐爾,(美)佩吉,張猛譯.云計算與數據中心自動化.北京:人民郵電出版社,2012
4 《智慧數據中心》編委會.智慧數據中心.北京:電子工業出版社,2011