梁秀勛
摘 要 信息技術應用在我國鐵路運營中發揮著重要作用,信息化建設體系愈發完善。為提升信息系統運行維護的管理水平,保障各應用系統穩定運行,研究和分析當前鐵路信息系統的運維管理現狀,提出改進和提高的建議。
關鍵詞 運維;信息系統;管理
隨著鐵路信息化建設發展規劃的逐步落地,信息系統應用領域越來越廣泛,為了更好地服務于鐵路運輸生產、經營管理等各個領域,近年來,鐵路總公司和各鐵路集團公司開發和投產了各種應用系統,解決了生產、經營管理過程中的問題,提高了工作效率和工作質量,規范了內部管理,實現了信息共享,并不斷向智能化和自動化逐步推進。目前,這些應用系統正在發揮越來越重要的作用的同時,也面臨運行維護規范、有效的管理的難題,鐵路局集團公司層面的運維壓力越來越大,責任越來越重,傳統的運維模式和各類監控手段多種多樣,效果不一,如何構建規范、高效、有序的運維管理模式尤為重要。
1鐵路信息系統運維管理現狀
1.1 運維管理水平不一,不能適應發展需要
鐵路信息系統運維管理經過長時間的摸索和探討,已經初具規模,但各鐵路集團公司在運維管理的實際運作方式多種多樣,參差不齊,實際效果也大相徑庭,缺乏統一、規范的管理和要求。鐵路總公司雖然對發生較大運維事件,構成信息故障或事故已經明確了事后追責管理流程,但對日常運維管理和事前要求基本處于在重大節假日和敏感特殊時期提出專項要求,還沒有完整的運維管理解決方案和規范統一的管理模式。以北京局集團公司為例,鐵路信息系統經過幾十年的摸索和近十年的重點建設推進,運維管理理念先進、落實有效,基本實現“全天候”運維技術保障。在2016年鐵路總公司組織現場會上介紹運維管理經驗,主要體現在以運維管理平臺和綜合監控系統為抓手,落實了應用系統和設備管理的巡檢巡視及應急響應,貫徹了全員“大運維”理念和“狀態修”維護標準,基本做到了人防、技防、物防三個方面落地實施,但是,也存在對應用系統變更管理缺乏主動和有效的管理,對局外應用系統提供者和管理團隊不能有效管控等問題。
當前,面臨信息系統大量投入使用的趨勢,我們還缺乏高效的運維工具和規范的管理手段,信息故障還經常發生,特別是軟件故障發生后對運輸生產影響較大,軟件故障的定位和及時恢復應用仍然是運維管理的薄弱環節,每一次的故障發生都會暴露出運維管理的人為因素和設備巡檢、軟件優化不到位等管理和技術問題。
1.2 應用系統維護的人為因素和重復性工作量巨大
目前,信息系統的軟件版本升級、操作系統和數據庫的漏洞補丁等工作都需要人為下載、安裝、測試;對應用系統運行過程檢測的閾值需要人工設定和不斷修正,信息設備、機房環境的巡檢大多由人工操作、巡視和判斷確認。同時,由于鐵路各專業信息系統應用發展不同步,專業間推廣了大量的業務相近、功能相似的應用系統,各個相近和相似的應用系統間數據需求和數據交換量巨大,出現故障時人工排查問題點很困難,耗時耗力,造成故障延時擴大;有的信息系統在鐵總、集團公司和站段三級部署,升級和打補丁時要逐級進行,經常出現補丁無效或引發其他問題。這樣的運維運行模式效率低、重復工作量大、易發漏操作等都給當前的信息系統運行埋下了隱患。
1.3 運行環境繁多也是信息系統運維壓力巨大的原因之一
隨著信息技術的快速發展,移動互聯網和大數據、云平臺、虛擬化等技術的實際應用,各個信息系統的運行環境和平臺越來越多,傳統的運維巡檢、監測的手段面臨越來越大的挑戰。隨著國家對網絡安全越來越重視,各個應用系統和專業網絡的安全隔離和防控措施的實施也對運維管理構成了動態巡檢和檢測的屏障,使得安全有效的運行維護更加復雜和受限,對出現故障的判斷和查找問題點變得越來越困難,耗費時間越來越長[1]。
2如何優化鐵路信息系統運維管理流程
2.1 強化應用系統整合,擴大集中部署
隨著鐵路總公司主數據中心的開通運行,將既有運行系統按照分類逐步進行遷移,全路性的應用系統按照鐵路總公司的部署進行整合后遷移到主數據中心。各鐵路局集團公司做好不同時期開發的業務相關的信息系統強力整合,最大限度減少和規范系統間的數據接口,構建統一的數據交換平臺,盡可能集中部署在集團公司中心機房或區域機房,減少站段各自部署的應用,實現標準機房資源和運維資源的共享,最大限度地為鐵路信息系統規范化和自動化運維打好基礎。
同時在信息化建設方面,要堅持鐵路總公司信息化建設“三統一”原則,在總體規劃的框架下,各業務領域信息化建設項目,經鐵路局集團公司審核通過后進行項目立項。要基于鐵路總公司信息化標準體系框架及統一的數據及編碼標準、應用系統建設整合標準、一體化信息集成平臺運用標準,促進系統互聯互通和信息共享。要基于鐵路局集團公司一體化信息集成平臺,開展業務應用建設和既有業務應用整合、信息交換和共享,各業務應用系統要逐步整合到一體化信息集成平臺上。
2.2 構建鐵路信息系統運維管理統一平臺
鐵路信息系統運維管理隊伍人員分散、知識水平差距大、隊伍不穩定,很難形成統一管理、統一平臺、上下一致的快速響應和有效調度的格局,因此,構建集中式的、統一平臺管理的運維管理模式可以實現信息系統的運維管理專業化、規范化,特別是鐵路局集團公司對主要生產站段實行下管一級的運維管理,統一管理平臺,統一監控手段,規范監督考核,進而實現鐵路信息系統運維管理自動化解決方案。目前,在鐵路內部推廣使用的ITSM監控平臺沒有后續的系統升級和隨著機房建設及設備增加進行逐步優化升級,而且,ITSM系統的監控覆蓋面不全,有必要對其進行優化擴展和補充完善,逐步建設一套集環境監控、設備監控、應用監控于一體,集自動巡檢、自動備份、自動調度于一體,包含設備配置、系統優化、運維管理等功能完善的綜合運維管理平臺,基于標準化流程工具規范化處理,通過自動化運維工具操作工具處理修復等功能,實現運維監管自動化。該平臺對各類IT資源(包含服務器、操作系統、數據庫、中間件、存儲備份、網絡、安全、環境、應用、虛擬化等)進行實時監控,及時歸集報警并處理。及時有效發現設備及應用的異常狀態,在故障發生之前進行預警,減少人為巡檢遺漏。同時,還要加強網絡安全支撐體系的建設,做好終端安全防護系統建設,提高信息系統終端安全綜合管理能力,極大的提高對信息系統隱患的超前感知,提升運維管理的質量和效率。
2.3 構建鐵路信息系統運維管理知識庫
按照信息系統維護、使用的不同層級,建設總公司級、鐵路局級、站段級的運維管理知識庫,根據運維管理權限進行資源共享和交流,在一個平臺內進行知識庫的不斷完善補充,進行交流和探討,由此提升各級運維隊伍和技術人員工作水平和工作經驗,在平臺上定期組織技術研討和發布新的知識點。
運維管理知識庫與運維管理平臺共同構建運維支撐平臺,與鐵路總公司形成兩級架構,包括數據展現平臺、流程管理平臺、集中監控平臺、配置管理數據庫(CMDB)等,并與云管理平臺進行集成。傳統環境與云環境并存,通過IT服務管理系統管理傳統環境運維,云管理平臺管理云資源及服務。將非云化物理設備、云化虛擬設備分別通過集中監控平臺、云管理平臺進行管理,二者通過流程管理平臺進行整合,實現系統運維監控自動化、服務流程化、展示互動化。
參考文獻
[1] 高明星,羅晴,黃京華.鐵路信息系統運行維護知識管理研究%Researching for operation and maintenance knowledge of railway information system[J].世界軌道交通,2011,(2):26-29.