由于信息技術的滲透性和先導性,信息技術已成為國內外企業戰略決策的制定和調整、生產經營過程中的計劃、組織、管理和控制不可或缺的重要工具以及公司核心技術的主要載體,信息技術促進了生產經營過程的集成化和科學化,從而成為各公司降低成本、維持技術領先地位的戰略舉措。
近年來,國內外各企事業單位都十分重視信息化建設,把加快信息化建設作為提高生產經營管理水平、促進業務流程優化、加強內部控制、提高決策質量和效率的重要手段。結合中國石油發展戰略和業務需求,中國石油出臺了統一的“十一五”信息技術總體規劃,F5(企業信息系統管理)項目便是“十一五”信息技術總體規劃中的一項,目標是建立集成的監控管理平臺和統一、完善的運維管理體系,提高中國石油信息技術基礎設施的可靠性和性能,從而保證中國石油各業務系統的高可用性,徹底改善IT服務的管理水平,提高客戶滿意度,降低IT服務支持成本。
被動的傳統IT運維管理
市場研究機構Gartner調查發現,在導致IT基礎設施出現故障的原因中,源自技術或產品方面的因素其實只占了 20%,而因為運維管理方面的原因則占到80%,可見IT系統運維及管理是相當重要的。企業每年對IT部門投資都不少,但是得到的效益卻沒有體現,問題仍然時常發生,感覺好像所有的投入都打了水漂。
企業的IT運維部門是一個吃力不討好的部門,因為IT運維就是在后臺默默地保證信息系統的正常運行,只有在問題發生的時候才想到還有IT部門的存在。這種現象是由于IT運維管理還處于傳統模式,即無相應的運維監控軟件或者是僅僅單獨使用某項監控軟件而沒有聯合使用。這種傳統的IT運維管理是被動的管理,是孤島式的管理,是與業務應用沒有聯動的管理。
1.被動管理
傳統的IT運維管理是救火式的管理。通常是用戶先于IT人員發現問題,然后再找到IT部門要求解決問題。這是由于傳統的IT管理采用人工方式管理基礎設施,網絡管理是從各種IT基礎設備出發的,僅僅是保障各類IT設備如服務器、數據庫、存儲設備、交換機等等基礎設施的正常運行。
不采用任何管理軟件,僅僅靠運維人員定期輪詢,或者執行某項命令來檢查設備,在系統規模較小時,只要參與運維的技術人員足夠負責,人工運維方式是可以滿足日常運維需要的。但是,當應用系統達到一定的規模后,這種運維方式的弊端就暴露出來了。輪詢一遍要花費幾個小時,這樣,輪詢周期越長也就代表越需要更久才能發現故障。這種被動式管理IT導致有了問題不能及時發現。
2. 無關業務、孤島管理
有些企業雖然采用某一種或幾種監控軟件來監控IT基礎設施,但這些監控軟件都各自獨立運作,沒有進行對業務的整合監控。如果用戶投訴業務應用不暢通,很難定位故障源,到底是網絡、應用程序、數據庫還是其他后臺系統出了問題,或者是各部門踢皮球,都說自己所負責的設備正常?
好一些的IT主管會把各個部門集合到一起開會,討論問題根源。傳統的IT運維管理方式是各類設備的管理各自為政,絲毫沒有關聯性。處理故障不便于追根溯源。每個人的精力有限,在專業應用系統賴以生存的各基礎設施支撐單元上很難做到專、精、準的多面手角色,加之由于管理范圍的界定和監控手段的限制,運維人員很難直接判定問題是出在基礎網絡、系統服務器、數據庫還是應用系統自身,故障難以定位將直接導致業務恢復時間的推遲,影響業務系統的正常運行,大大降低服務質量。
將IT運維與業務相關聯
IT運維是在后臺默默地保證各項業務應用系統的正常運行。IT運維工作是無形的,怎樣把這種無形的運維變為有形、甚至量化,這就要把IT的運維與業務相關聯。傳統的IT運維管理中,基礎設施的運維工作不能和業務相結合,僅僅是在設備管理的層面上。這就導致IT管理的成績沒有體現。想想看,如有業務應用不正常,那網絡或者服務器之類的任何一種基礎設備的正常運行又有什么用呢?業務應用是“1”,設備是“0”,沒有了正常通暢的業務應用,那其他的都是空談。只有在業務應用暢通的前提下,基礎設施管理才有意義,才能體現IT運維管理的價值。
因此我們需要幫助企業IT:部門了解用戶使用感受,關聯真實用戶感受和系統性能,指導問題事件定位和原因診斷 。
企業信息化發展過程首先是基礎架構建設階段,這個階段主要是采購一些硬件和應用軟件。隨著采購的不斷擴大,企業的IT組件不斷完備,IT系統初具規模,這就產生了IT運維和管理的要求,即網絡和系統監控(NSM)階段,監控網絡連通性和系統可用性,此階段主要還是對IT設備的監控。隨著企業業務日趨復雜,IT系統進一步擴大,這時就產生了對IT服務流程進行管理的需求,上升到第三階段,即IT服務管理(ITSM)的階段。以上三個階段都是IT間接產生業務價值的階段,對業務的順暢起輔助監控的作用。
企業業務系統對IT系統依賴的不斷增強,企業開始關心IT服務對業務帶來的影響,強調從業務目標角度出發來管理IT,也就是到達第四個階段——IT與業務融合的階段,即BSM(Business Service Management,業務服務管理)階段。企業可以根據業務目標對IT服務進行調整,以確保IT能夠支持業務目標,從而直接產生業務價值(如圖2所示)。
如今各類重要的IT應用系統相繼在中國石油發揮著舉足輕重的作用,所以IT應用系統的可用性尤其重要,例如ERP、OA、郵件、門戶等各類重要的系統如果出現中斷,都會給企業造成大量的經濟損失,所以除了需要對各類應用系統部署冗余的設備以備保證其高可用性,同時也需要對應用系統進行監控和管理,并且進行關聯管理。業務系統的可用性是由底層的各類基礎設施的狀態所決定的,因此建立一個有效的業務模型,將與某個業務相關的底層IT基礎設施關聯起來,該業務模型能夠有效地定位故障根源。這樣ERP的管理員只需要關心ERP業務的可用性,而沒有必要去關注每臺主機的性能參數和啟動的進程,不但大大節約了運維時間,而且也提高了運維效率,使故障持續時間大大縮短了。
基于BSM的IT運維
當前中國石油IT運維管理的需求就是從業務出發,建立基于BSM解決方案的新型IT運維。
新型的IT運維管理系統要做得到的就是基于BSM架構的業務管理。
首先,要實時掌控最終用戶對IT服務的使用體驗,根據制定好的SLA(Service Level Agreement,服務等級協議)來管理業務服務的質量,這樣就可以根據業務影響和SLA來對IT服務進行管理。
其次,通過端對端的應用交易時間測量,實現業務要求端對端的可見性;從最終用戶的角度,來測量業務服務的響應性能,主動幫助運維人員在第一時間發現問題,以便在問題對用戶造成不利影響之前,及時得到隔離、診斷和修復,把它們對業務的干擾降到最低。
第三,提供業務服務、應用及底層IT系統構架部件之間的映射關系。這種解決方案通常會基于一種稱為CMDB(Configuration Management Database,配置管理數據庫)來實現。通過服務依存關系映射技術,來展現業務服務、應用和底層IT系統構架部件之間的動態關系,這樣就增進了對各種IT元素的掌控和理解。
第四, 借助業務服務與IT基礎設施的依存關系,對告警事件進行管理。當IT系統的組件產生告警時,結合收集上來的底層的IT系統告警事件,對它們進行過濾、關聯、聚合,根據對業務服務影響的嚴重性,來進行排序處理。
傳統意義上的CMDB是服務流程中的一部分,是ITIL中最重要、最核心的概念之一,在以業務為核心的IT運維中,CMDB也是業務建模的主要工具。CMDB通過自動發現工具收集和一定范圍的IT基礎架構基礎信息,包括配置項和關系,建立IT基礎架構模型;并通過端到端的業務服務拓撲圖來可視化展示業務系統所有部件和關聯關系。
把這四方面的功能整合起來,從最終用戶的角度來衡量業務影響和風險;自動發現業務服務、應用和底層IT系統構件,并建立依存關系;理解用戶感受,監控用戶業務響應時間 ,在用戶受影響之前發現問題,以求滿足下列功能:
1. 通過基于角色的業務視圖,提供業務流和服務的可見性;
2. 從最終用戶的角度來衡量業務影響和風險;
3. 設置和檢測業務過程的SLA,了解應用性能對業務的影響;
4. 24×7小時端到端監控,從瀏覽器到后臺實時監控所有交易;
5. 理解用戶感受,監控用戶業務響應時間 ,在用戶受影響之前發現問題;
6. 主動發現和按優先級管理關鍵業務問題;
7. 通過自動把業務和底層運營信息建立關聯來縮短平均問題修復時間;
8. 自動發現業務服務、應用和底層IT系統構件,并建立依存關系;
9. 通過聯合的CMDB,來為IT環境提供一個“統一的真實數據”視圖,這樣就可以為用戶提供一個主動的、以業務為中心的BSM解決方案,幫助用戶極大地改善業務服務的性能和可用性,降低服務突然中斷帶來的風險。
提升IT部門的作用
以前,IT運維部門救火隊式的混亂狀況導致無法判斷IT運維總體表現的好壞。而IT部門又是公認的成本中心,這就導致了在很多企業中IT部門總是承受著很多批評,IT人員的工作熱情也不高。
而現在,IT運維部門實現了主動發現問題、提前處理故障;IT運維管理與實際的業務應用掛鉤,IT運維部門的工作由無形化為有形;促進IT部門從成本中心向利潤中心轉變,這一切既有利于IT人員發揮其工作熱情,也有利于IT部門在整個企業地位的提升。
中石油的IT運維管理就是要基于BSM模式來建設,F5項目就是要實現基于業務來管理IT,也就是要提高信息技術基礎設施的可靠性和性能,降低支持成本,對基礎設施的規劃進行最佳的決策和采用更好的系統支持策略。同時,獲取與業務運行相一致的信息技術服務與實踐,整合網絡、系統、數據庫和應用系統管理等關鍵業務,從而服務于數據大集中趨勢下數據中心運維模式的建立和各專業應用日常運維的需要。