梁多姿 上海鐵路局信息化處
隨著信息化進程的大幅度加快,鐵路的信息化建設取得了前所未有的成就。鐵路應用系統不僅涉及鐵路運輸生產、經營、服務等多個領域,還深入到辦公、財務、計劃、統計、人事、勞資等各個方面。業務與信息技術的緊密結合,迫使各應用系統由原來的單一獨立逐步邁向多元化、層次化,應用系統運維工作亦日益變得復雜,對安全、穩定、高效運行的需求也在大幅提升。
ITSM(即IT服務管理)是IT系統的規劃、建設和運行維護業務中涉及的一系列方法、流程和經驗的總和,其目標是實現IT服務的規范化、流程化、電子化和自動化,降低IT運維成本,提高客戶滿意度和服務水平。目前主流的IT服務領域相關標準有 ITIL,ISO 20000,COBIT等,其中應用最為廣泛的就是被稱為ITSM最佳經驗集的ITIL。
目前鐵路的ITSM系統僅處于對硬件設施管理的初級階段,建立基于ITSM理念的自動化、智能化的應用系統監控管理平臺對提升應用系統運維管理質量,為鐵路局級運輸生產核心應用系統群平穩運行和可靠應用提供有效的管理和技術保障。
鐵路局級應用系統主要包括:客票發售和預訂系統(PMIS)、鐵路運輸管理信息系統(TMIS)、運輸調度信息系統(TDMS)、車號自動識別系統(ATIS)、電子商務系統、辦公自動化系統(OMIS)及其他生產、管理信息系統。上述系統涉及了大量的硬件、網絡設備以及應用相關的虛擬化系統、操作系統、數據庫、中間件、應用軟件等。路局信息技術部門在日常的運維管理中以人工方式為主,整體運維效率較低。
鐵路局級應用系統架構復雜,且信息技術人員水平參差不齊,對系統業務理解能力各有不同,各種故障難以避免,此外各個系統均存在著各類隱患,采用人工監控的方式存在監控不及時、不到位、反應慢的問題。
目前鐵路局還沒有建立局級應用系統運維標準服務體系,運維質量和水平整體偏低。信息技術人員解決問題時基本依靠個人習慣解決,缺乏依據缺乏協作;現今各業務系統故障處理知識非常分散,很多技術知識和經驗的積累基本依賴個人,缺乏一套全面的知識管理體系,運維經驗和技術無法在應用系統維護部門中進行有效的流通、共享和傳承,一旦出現人員更替或者流失,就很可能影響故障的處理。
應用監控管理系統是基于ITSM最佳實踐流程ITIL建立的,具有綜合應用監控和管理能力的平臺,包括功能模塊化和底層數據的互通性兩大特征。各個流程模塊可以逐步的構建,頂層的訪問和底層的數據共享都有平臺統一化的服務實現,這樣確保流程信息的共享以及使用的一致性。系統架構如圖1所示。

圖1 系統架構圖
整個運維管理平臺在邏輯上分為四個層次,分別是:門戶(前端用戶訪問層)、服務平臺(ITIL最佳實踐流程)、服務基礎架構(流程引擎及相關基礎設施)和外圍接口(與服務臺系統相關的所有外圍系統和應用)。通過采用這種分層的架構模式,大大降低了各層次間的耦合程度,提供了系統的可用性和可擴展性,為企業實現一種高可用、高穩定性的平臺提供了保障。
鑒于鐵路局TMIS綜合網與客票網物理隔離的現狀,在現有的條件下無法解決網絡問題,需在兩個專網下各建一套系統,系統間通過客票接口網閘(網閘中只提供FTP服務)實現數據傳輸,最終可在TMIS綜合網內展示全系統監控報表等,網絡拓撲圖如圖2所示。

圖2 網絡拓撲圖
目前主要的鐵路局級應用系統主要包括系統軟件(虛擬化系統、操作系統等)、數據庫軟件、中間件、應用軟件等。虛擬化系統監控。通過監控平臺,可以自動發現當前平臺下所有虛擬化主機和對應虛擬機;監控虛擬化集群、資源池、虛擬主機,存儲I/O,網絡流量等相關重要虛擬化資源的運行情況。
數據庫監控。鐵路客票系統數據庫以SYBASE ASE為主,包含12.5、15.0、15.7三個版本,其他系統以Oracle 9i、Oracle10g、Sql Server為主。監控平臺可為這些數據庫提供實時且不間斷的監控,包括連接數,鎖、CPU、內存、I/O等資源使用情況,并可自動發現環境,在監測到潛在的問題或錯誤時發生警告和警報。
中間件監控。監控平臺對現有環境中的主流中間件WebSphere/Jboss/A-pache/MQ等實現監控。中間件管理主要是對中間件的關鍵運營活動和事件進行監控和管理,保證中間件系統的高可用性。
應用交易監控。監控平臺可提供直觀有效的方式展現應用系統的運行狀況。應用交易監控能完美覆蓋客票、調度、貨票、電子商務等主要業務系統的業務流程監控,均可采用應用交易監控實現實時直觀的監控體驗,能幫助應用開發部門第一時間定位到核心問題所在,從而從整體上降低應用程序故障時間。
應用監控平臺將可以提供“自學習的動態基線和閾值”和“基于趨勢的主動報警”以及“仿真核心業務流程監控”三種方式相結合的全方位監控模型。
“自學習的動態基線和閾值”可以通過自學習產生的推薦閾值為手工設定提供參考;支持告警觸發自動操作功能,系統可以根據告警的類型和告警級別自動觸發腳本級的自動化操作功能,能夠實現為現有平臺提供高智能和基于策略自動化的監控管理;有數據表明,40%以上的告警可以通過自動化腳本在第一時間自動解決,無需人工介入,更好地提高了整個平臺的可用性。
“基于趨勢的主動報警”簡稱趨勢報警,系統可自動分析歷史運行數據,分析系統資源的使用趨勢,在系統資源達到閾值之前主動報警,確保系統管理員有足夠的時間調整資源配置,防范問題與未然,該報警方式能對服務級別協議(SLA)產生直接的積極影響。通過有效專業的參數配置,能將資源瓶頸產生的故障報警降低80%以上。
“仿真核心業務流程監控”是應用交易層面的監控,系統將定期執行已錄制的模擬訪問腳本,通過網絡抓包的方式從應用接入點獲取并分析數據,以實現面向用戶真實會話的性能及可用性監控,從使用者的角度測試系統應用是否運行正常,并能夠非常精確地將出錯的步驟第一時間反饋給系統管理員。對于提高應用訪問的可用性,降低系統排錯時間,降低平臺故障時間有顯著的效果。
管理平臺主要實現應用系統運維事件分析,實時告警管理等功能,該平臺將事件分析匯聚監控到的各類信息,并進行整合加工,將需要管理員關注的信息提示出來,并幫助管理員進行相關故障的定位。
事件管理。事件管理流程的主要功能是盡快解決影響應用系統正常運行的事件,通過有效的事件嚴重級別分類,為不同級別設置不同的響應機制,有效降低平均故障解決事件(MTTR),保持業務支撐系統的穩定性。
問題管理。問題管理流程的根本目的是通過對于常見問題的不斷追蹤,從系統,應用,網絡等各方面不斷排查,從根本上消除或減少生產環境中事件發生的數量和嚴重程度,從而為企業建立一個穩定的IT環境,提高IT服務的可用性。
知識庫管理。通過對知識庫維護和使用,不僅可以在故障自動處理和人工處理的過程中在知識庫中得到相關故障維護的分類和快速定位,而且知識庫具有的業務幫助功能,使相關人員可以通過關鍵字查詢業務幫助、產品、市場活動、發生過的處理流程、電子文檔等,從而快速定位問題,解決問題,降低故障處理時間。
配置管理。為了使得監控、流程以及自動化操作的運行有序,確保維護人員看到的信息是真實可靠更新的,而不是基于個人經驗的,構建統一的配置管理數據庫和配置管理系統有助于整個IT系統更加穩健,管理更加有序。
通過自動化手段覆蓋主流IT環境(系統、數據庫、應用、中間件、存儲、網絡等)IT對象性能及故障事件采集、整合“自學習的動態基線和閾值”和“基于趨勢的主動報警”以及“仿真核心業務流程監控”三種監控方式,涵蓋閾值的故障報警、事件過濾、事件壓縮、事件關聯、問題場景自動捕捉,問題根源分析,提供多種報警手段提高運維管理效率。
實施應用綜合管理監控系統之后,IT支持人員可以管理整個服務流程,從定義和監控依從性到收集并分析性能數據、找出問題區域以及持續改善所提供的服務。通過實時的前瞻性管理,確保滿足或超出客戶的期望值。因此,通過實施本系統,可以緊密調和所提供的 IT服務與業務要求,并持續改善服務質量。
通過基于趨勢的監控方式,通過對于歷史信息的智能化動態分析,能通過專業報表的方式將未來一段時間的資源需求呈獻給系統管理員參考,為軟硬件投資提供堅實的量化的技術參考依據,從而優化基礎設施的投資,避免不必要的資源浪費。
應用系統監控管理平臺應用系統監控管理平臺是基于ITSM最佳經驗集ITIL建立的綜合監控管理平臺,它能夠提供豐富的智能化手段跨系統、跨平臺的及時發現應用系統問題,提升響應時間;能夠從業務優先級出發優先解決對業務影響較大的應用系統故障,降低故障影響;通過自動化的處理腳本,降低人工介入,進一步降低故障處理時間;通過統一的門戶平臺提升應用系統運維管理的便捷性。由此可見,應用系統監控管理平臺的應用對鐵路應用系統運維工作質量提升具有很好的實用性。
[1]北京神州泰岳軟件股份有限公司.中國IT服務管理指導規范研究[M].北京:北京郵電大學出版社,2008.
[2]胡波,詹瑾.淺析IT服務管理系統的構建[J].廣東技術師范學院學報,2007(10).
[3]陸雪峰.基于ITIL的證券公司ITSM系統設計與實現[D];復旦大學,2010.