卑 風
數據中心是大型商業銀行中信息密集度最高的分支機構之一,是生產運營工作體系中的運行、保障和處理中心,全面高效地管理全國業務經營所產生的數據,提供技術支持和業務保障、交易監控以及門柜業務的后臺處理職能。伴隨著集約化程度的不斷提升,數據中心的軟、硬件種類及數量快速增多。如何有效地管理復雜的資源、輔助解決生產故障已經成為亟待解決的問題。面對資源眾多、人力緊張的現狀,合理借鑒國內外高效的IT管理流程,研究適合數據中心的配置管理體系,將成為解決問題的關鍵。
本文借鑒了目前流行的IT服務管理的標準與規范,結合數據中心自身的業務特點,合理制定了銀行數據中心的配置管理方案,對配置信息進行有效的梳理和關聯,這種做法,不僅將眾多配置信息有機的結合起來,幫助運維人員全面了解數據中心的信息體系架構,同時,其快速的信息查詢功能,對輔助解決生產運營中出現的問題,也起到積極的作用。
在各類操作風險、管理風險以及差錯處理風險,伴隨著數據集中的運營模式來到了數據中心的前提下,如何建立安全、穩定、長效的生產運行機制和精細化的管理模式,是目前銀行業內普遍關注的問題。本文引入全球通用的IT服務管理標準,將IT服務產業內的最佳實踐運用于日常生產運維工作,使之達到數據中心標準化、流程化的要求并有效提升生產運維的服務水平。
ITIL體系基本框架由業務管理、服務管理、IT服務管理實施規劃、IT基礎架構管理、應用管理、安全管理6個模塊構成。其中服務管理模塊是ITIL體系的核心模塊。該模塊包括兩個流程組,即服務支持和服務提供。其中,服務支持流程組,是支撐IT服務正常運行和使用的重要基礎。
服務支持流程組,包含一項管理職能和 5個運營級流程,分別為服務臺、事件管理、問題管理、配置管理、變更管理和發布管理。
1.1.1 服務臺
服務臺在用戶支持方面扮演了重要的角色,在用戶和IT部門之間,架起單一的聯系點,協調兩者之間的聯系。IT服務運作中出現的問題從發生到被解決的工作流程均被服務臺記錄在案。同時,服務臺具有迅速響應大量的客戶請求的優勢,作為IT用戶使用IT服務流程的前臺,實施多個屬于其它流程的活動,在IT服務運作的過程中向客戶提供統一的技術支持,幫助提升客戶滿意度。
1.1.2 事件管理
事件管理存在于IT服務的整個生命周期中,注重快速恢復IT服務并最大程度降低事故對客戶的影響。事件管理流程處理由服務臺分配過來的事故,在記錄和歸類事件的同時安排專家處理。隨后全程監督事件處理過程直至事件被解決和終止。
1.1.3 問題管理
與事件管理流程的被動解決問題不同,問題管理作為事件管理的延伸,深入分析和調查引發事故的根本原因。并通過找出存在于IT基礎架構中的薄弱環節并提供相應的解決方案以防止相關事件再次發生。
1.1.4 配置管理
配置管理為其它流程提供相關的基礎設施配置信息以及這些配置項與其它配置項之間的相互關系,IT資源統稱為配置項(CI),配置管理的作用是識別基礎設施中各個配置項,記錄并管理各個配置項的信息、狀態并檢驗這些信息的正確性和完整性。
1.1.5 變更管理
變更管理的目的在于通過評估、審批和控制的手段,確保使用標準的方法和合理的步驟實施變更。變更管理要求用最短的中斷時間和付出最小的負面影響代價來完成變更。
1.1.6 發布管理
發布管理負責發布首次被導入實際運作環境并取得成功的新增或修改后的配置項集合。確保IT基礎設施中所包含的各個配置項信息的來源是通過測試并授權的正確信息。
在ITIL體系中,配置管理作為一項基礎流程支撐著1.1節中所提到的其他四項流程。配置項作為配置管理中的基本單元,其顆粒度可以根據具體的實踐靈活的細化,既有系統級抽象的配置項,也有由具體的軟件或者硬件信息構成配置項單元。由配置管理數據庫(CMDB)統一儲存配置項以及不同配置項之間的關聯關系。配置管理數據庫隨著變更管理流程的進行更新配置項信息,結合發布管理流程,確保配置項信息本身以及各個配置項信息之間的關系反映了當前 IT基礎架構的實際情況,如圖1所示:

圖1 表示配置管理流程與其他五個流程的關系
從圖中不難看出,服務臺、事件管理、問題管理、變更管理、發布管理都以配置管理流程作為依托,客戶在需要服務支持的時候向服務臺發起事件后,服務臺隨即啟動配置管理流程,查看當前配置管理數據庫中是否有關于該事件的歷史解決方案,如配置管理數據庫中已經記錄了該問題的解決方案,則使用該方案解決事件后終止流程。如配置管理數據庫中沒有記錄該問題的解決方案,服務臺啟動事件管理流程,由專家負責解決客戶的問題,如需深入分析和調查引發事件的根本原因,則由事件管理觸發問題管理流程。在事件管理流程和問題管理流程中,專家都需要通過配置管理查詢相關配置信息來協助定位、解決問題。如需通過變更的方式來解決起問題,則由問題管理進一步觸發的變更管理和發布管理流程,后兩個流程終止后將修改配置管理數據庫中的當前配置。
目前,各大銀行的數據中心普遍成為其所屬銀行的前臺業務的實際運行、處理和保障中心。考慮到數據中心對銀行運作的重要性,各大銀行紛紛投入價格昂貴、數量龐大的IT基礎設施來確保數據中心能夠高效、安全和持久的運作。在此背景下,將數據中心的資源現狀與IT服務管理模式相結合,建立一套適用于數據中心的配置管理工具,對各項基礎設施進行有效管理,從而實現數據中心安全生產、高效保障、持久運行的基本目標。
該配置管理工具采用dotnet作為開發平臺,結合windows操作系統和SQL Server 2005的數據庫軟件,采用C/S架構模式提供多種功能。本文的建摸對象為銀行數據中心,通過該工具軟件全面展示配置管理數據庫(CMDB)中的各項信息,CMDB中的配置項由現實世界中的實際信息抽象而來,并按照功能對各個配置項進行合理的劃分。具體的配置項集合抽象成上級配置項類以確保該劃分滿足CMDB在通用性、完備性和可擴展性等方面的基本要求,如圖2所示:

圖2 CMDB模型
底層由基本節點構成,基本節點由配置項名稱、屬性和關聯類型構成,從實體資源抽象而來,基本節點的上層為父節點,父節點由基本節點抽象而來,每個基本節點都繼承其父節點的所有屬性。由父節點抽象而來的節點稱為根節點,根節點無實際屬性,僅作為各個父節點的祖先。根據實際情況劃分配置項所處的領域,根節點下既可以直接包含配置項信息,即基本節點,也可以包含配置項集合構成的配置項組,即父節點。
根據數據中心的配置資源實際情況,本文中CMDB信息模型包含系統硬件、軟件介質、設備配件、邏輯設備、系統配置、管理類信息5個根節點。
2.2.1 系統硬件
根節點系統硬件包含網絡設備、存儲、基礎設施類、變配電、物理計算機5個子節點以及磁帶庫、負載均衡器以及存儲交換機3個基本節點。系統硬件基本涵蓋了數據中心各類硬件設施。各節點,如表1所示:

表1 系統硬件領域節點列表
2.2.2 設備配件
根節點設備配件由CPU信息、磁帶driver、銅口網卡、HBA卡、內置硬盤、內存、備份磁帶、光纖網卡、存儲端口10個基本節點和布線類及網絡組件2個子節點構成。各節點信息,如表2所示:

表2 設備配件領域節點列表
2.2.3 軟件介質
軟件介質包含一個基礎軟件子節點及補丁信息和license信息兩個基本節點。軟件介質包含數據中心目前使用者中的全部軟件、補丁及license的詳細信息。各節點如表3所示:

表3 軟件介質領域節點列表
2.2.4 邏輯設備
邏輯設備由邏輯網卡、Pool、備份磁帶Pool、存儲分配策略、NAS文件系統、計算機邏輯硬盤、VMWare虛擬機、備份策略、邏輯計算機、存儲邏輯硬盤、虛擬資源池這11個基本節點構成。各項邏輯設備信息,如表4所示:

表4 邏輯設備領域節點列表
2.2.5 系統配置
系統配置領域包括HTTP Class、Traffic IP Groups、IP地址、系統特權文件、IIS配置、系統間通訊客戶端、Virtual Servers等7個基本節點,記錄業務級的所有配置信息。具體節點,如表5所示:

表5 系統配置領域節點列表
2.2.6 管理類信息
管理類信息記錄了銀行數據中心各部門信息、人員信息以及應用項目信息。具體節點信息,如表6所示:

表6 管理類信息節點列表
CMDB模型除了系統地展示各個配置項節點,還描述了構成應用實體的各配置項之間的關聯關系,如圖3所示:

圖3 配置項關聯關系圖
數據中心在運維過程中,經常要對配置項信息進行新增、刪除或者修改操作,以確保CMDB中的各個配置項信息都是最新的。利用該配置管理工具將ITIL體系中的變更管理流程、發布管理流程與配置管理流程無縫的結合在一起,確保生產運維過程中配置信息的連續性、可用性和實時性。變更實施人于變更實施之前,需要在配置管理工具中CMDB變更流程控制模塊下,填妥配置項變更申請表,表中應包含配置項變更原因、變更描述、變更后配置項信息以及與之相關聯的服務臺變更單號。隨后該配置項變更申請表將由相關審核人員進行審核,如果變更申請未被審核人員批準,那么變更實施人員取消該變更或者重新提交變更申請,如果變更申請通過審核則實施人員在變更時間窗口內實施變更,并在變更實施完畢后,提請相關人員進行變更結果評價。如果該變更被評價為實施成功,則觸發配置管理流程,CMDB管理員依據變更記錄表中記錄的變更后配置項信息來維護CMDB中相關的配置項信息,修改完畢后發布當前正確的配置項集合。如果變更評價顯示該變更未成功實施或實施后的結果未被審核人員評價通過,則觸發變更回退機制并且相關配置項信息不作更改。
審核配置項維護申請流程,如圖4所示:

圖4 配置項維護申請流程圖
配置項變更實施成功后,進入配置項維護階段。該階段分為配置項新增、刪除和修改。具體介紹如下:
3.1.1 新增配置項
新增配置項流程如圖5所示:操作步驟如下:

圖5 新增配置項流程圖
配置管理人員登陸配置管理軟件,進入CMDB界面,選擇相應的CI節點,填妥配置項名稱、屬性以及變更類型(新增、刪除、修改)等必要字段后保存。配置項新增成功。
3.1.2 刪除配置項
對于已下線的配置,配置項管理員會及時在CMDB中刪除該配置項。
刪除配置項流程如6所示:

圖6 刪除配置項流程圖
操作步驟如下:
配置項管理員進入CMDB界面,輸入所要刪除的配置項名稱,查詢到待刪除配置項并查看該配置項信息是否和其他配置項信息有關聯關系,即該配置項下是否關聯著其他配置項,如果該配置項下關聯著其他配置項,則先逐一刪除配置項之間的關聯關系直至待刪除配置項與其他配置項之間不存在關聯后刪除該配置項,如待刪除配置項是獨立存在的,則直接刪除該配置項信息。
3.1.3 修改配置項
配置項修改流程,如圖7所示:操作步驟如下:

圖7 修改配置項流程圖
配置項管理員進入CMDB界面,輸入所要修改的配置項名稱,查詢到待修改的配置項,然后將此配置項的部分或者全部屬性根據變更紀錄一一修改并保存。
常規的監控工具如BMC監控軟件、SCOM監控或者網絡監控軟件報警時往往只能附帶提供部分配置信息,這對運維人員快速定位故障原因、及時解決故障帶來不少困難,也提升了運維成本。利用配置管理工具可以實現利用少量已知信息進行查詢得到與此相關的全部配置信息。
配置項查詢流程,如圖8所示:

圖8 查詢配置項節點流程圖
操作步驟如下:
不同于配置項維護需指定配置項管理員操作,配置項查詢功能模塊的使用對象為所有運維人員。運維人員首先根據告警信息判斷該信息屬性,隨后輸入具體配置項名稱及部分屬性字段即可實現條件查詢,配置管理工具會顯示出符合查詢條件的配置信息明細以及配置信息間的關聯關系。
面對頻繁的外部審計和內部安全檢查,自動生成的電子報表相比手工登記的報表而言信息更全面、可信度更高、維護代價更低以及效率更高。利用配置信息管理軟件可以方便的生成各類報表供審計部門隨時檢查。在報表生成模塊中可按照應用項目、網絡、操作系統、存儲等分類生成不同的報表。配置項管理員根據審計要求生成各類的報表,自動生成的電子報表全面反映了CMDB中的各個配置項的實時信息,相比人工維護的報表可能存在的信息維護不及時、人工篡改信息和維護代價過大等不足之處,電子報表更具優勢。
假定BMC監控軟件報出貸記卡風險控制系統應用服務器運行狀態異常的告警信息,接到報警后,運維人員應先采取措施定位故障,首先輸入機器名稱(HQsPSW-SCRM-A01)使用條件查詢的方式查找到該服務器的基本信息,確定該服務器的物理位置以及IP地址,通過生產區域的運維終端嘗試登錄該應用服務器,若能夠成功登錄服務器,則表明這臺服務器與外界的網絡連通性不存在故障,基本排除網絡問題與硬件故障問題。隨后在CMDB中查詢該服務器上所安裝的各類系統軟件,結合告警現象、查看CMDB中是否已經記錄了該類告警的歷史解決方案,如有,則采取同樣的解決方案。如果該告警信息沒有對應的解決方案,在服務臺上發起事件流程聯絡相關專家解決事件并全程記錄解決過程。若通過生產運維終端無法遠程登錄服務器,則初步判定可能出現硬件故障導致系統宕機,或者是網絡連通性出現問題。因此在服務臺上發起針對環境或者網絡部門的事件要求對服務器硬件狀態、交換機端口狀態及連通性狀況進行排查,定位問題后由相關專家進行解決。
根據銀行數據中心配置信息數據量巨大的特點,結合銀行現行的以配置管理為基礎的ITIL管理規范,本文對銀行現有的配置信息庫進行統一建模并形成專業軟件用于高效的管理銀行數據中心的配置信息,為配置項管理員維護配置信息的工作提供了便利并且有效提升了配置信息的準確性。其次,該軟件通過設計配置項之間的關聯關系,使銀行的管理人員對于銀行設備的整體架構、不同設備間相互關系、設備的詳細配置情況以及設備對應的業務信息有全面地掌握。為應對突發狀況時快速定位故障從而確保數據中心平穩、有序的運作打下堅實的基礎。
[1](荷)博恩(BON,J.V)(譯)章斌.基于ITIL的IT服務管理基礎篇[M].北京:清華大學出版社,2007:31-33
[2]封叢德. IT的核心模塊是什么[N/OL].IT服務管理百科.(2011-10-27)[2012-10-8].http://itsm.baike.com/article-89341.html.
[3]張鵬飛、熊進.基于ITIL體系的配置管理流程研究 [D].北京:北京工業大學,2009:82-83.
[4]李文璟、王迎雪、王穎.基于分域的IT配置管理數據信息模型 [D].北京:北京郵電大學,2009:7.
[5]鄭笑天.基于CMDB的銀行網絡管理系統的設計與實現[D].哈爾濱.哈爾濱工程大學, 2009:33-36.