徐 銘
(北京鐵路局 信息技術處,北京 100860)
近年來,隨著客運專線的陸續開通運行和調度系統的不斷整合,對信息系統運行安全、運行質量提出了更高的要求。以客票系統為例,隨著京津城際的開通,列車運行間隔縮短到10 min左右。這就意味著如果客票系統故障延時超過10 min,就可能影響到車站的售票和乘車秩序。同樣,隨著列車的不斷提速,調度系統、施工命令等項目一旦中斷,將直接危及行車安全。因此,保證信息系統安全運行成為我們第一位的任務。
多年來,在信息系統的運行維護管理上,信息技術部門更多地習慣于經驗型、粗放型管理,基本處于故障先導的應對處理,目前存在的問題主要有:
(1)缺少有效的運行維護管理機制。雖然探討過多種加強運行維護管理的辦法和措施,但運行維護管理、專業技術支持和廠商保修之間管理責任不清、分工不明,難以形成機制,造成出現故障分析難、定責難、整改措施落實難的現象。
(2)沒有建立明確的故障分析機制。對于發生的每一件故障,缺少分析和追蹤力度,運行維護管理的品質得不到根本提升。
(3)監測技術手段不足。隨著路局和站段投入運行的軟件系統、硬件平臺越來越多,系統結構也越來越復雜,出現問題的環節也越來越多,而既有監測手段存在范圍不足、信息不全等問題。
在應用項目實時性越來越高、機房設備越來越多和安全問題越來越被重視的情況下,為了保證信息系統穩定運行,我們提出了建立“鐵路局信息系統安全運行維護體系”的總體構想:以信息系統運行維護安全為出發點和落腳點,建立以集中調度為主導、以專業管理為基礎、以流程化管理為核心的整體運行維護模式,在加強日常運行維護管理的基礎上,突出專業技術支持作用,加大設備巡檢巡視力度,形成信息系統3重安全防護,從機制上保障設備和系統的完好率,減少各類故障發生,提高信息系統運行的穩定性。
鐵路局信息系統安全運行維護體系(以下簡稱大運維)由運維管理體系、運維作業體系和運維支援體系組成,其架構如圖1。

圖1 大運維體系架構圖
運維作業體系是大運維核心體系,由基層維護層、巡檢監視層、調度響應層和核心維護層4個部分組成,是大運維體系的第1道防線;運維支援體系是整個運維體系另1個重要環節,由技術支援層(上級技術部門)和協作支援層(外部廠商)構成第2道防線,是對運維作業體系的有力補充。運維管理體系是基于行政管理和專業管理雙重管理架構下的信息技術處專業歸口管理體系,重點是通過行政體系的干預,從業務流程的高度協調各個業務系統和單位,打破部門間的條塊分隔,彌合系統和部門之間的縫隙,實現各種維護行為的流程化管理,是大運維體系的第3道防線。
大運維打破傳統的以科室、部門為運維主體的傳統運維格局,建立以信息技術處集中調度為主導、以專業維護為基礎、以流程化維護為核心的整體運維模式。
(1)信息技術部門全員都是運行維護工作的主體,都是運行維護工作的參與者和執行者。通過人人確立運行維護崗位分工、人人明確運行維護職能責任、人人遵循運行維護工作流程,構成“全員大運維”。
(2)運行維護部門是大運維牽頭組織部門,負責日常信息系統運行生產的調度指揮和運行維護安全情況統計分析;設備部門負責設備狀態、運行質量管理;各專業技術部門負責系統維護,提供“全天候”技術支持。
(3)在運行維護組織活動中產生的任何組織和協調工作,均通過行政管理體系反饋至處領導,通過縱向專業管理機制反饋至處專業部門,形成所內聯動、處內聯動以及相關廠商聯動的大運維格局。大運維組織模式如圖2。

圖2 大運維組織模式
建立大運維體系,是對傳統信息系統技術支持體系的發展和融合,是運行維護以效益維護為前提、以集中維護為主導的深化和體現。
按照建立大運維體系的總體構想,我們在全局信息技術系統進行宣傳貫徹,不斷加深全員對“大運維”理念和“狀態修”標準的理解,全系統上下安全意識有了進一步提升,“大運維”的理念有了進一步的樹立,“狀態修”的標準有了進一步的深化,更豐富了運行維護安全的內涵。
在全局信息機房統一和規范運行維護管理細化措施,統一要求做到“五個一”。即:“做好每一次巡視、盯準每一個部位、重視每一件故障、嚴管每一項施工、暢通每一個情況”。制定了《機房生產值班一日作業流程》,作為值班人員的每日工作標準;制定了《中心機房巡視關鍵部位明細表》;編制了《機房重點部位巡視線路圖》。每次巡視結束后,當班人員準確記錄巡視情況,發現問題及時通知相關人員進行處理,并做好追蹤和記錄。
高度重視發生的每一件故障和隱患。建立了明確的故障分析機制,加大對故障的分析和追蹤力度。對全局發生的影響信息安全的故障,視故障影響范圍、影響程度,分別由各電子所領導、處領導組織分析,做到件件故障有分析、有記錄,查找故障原因,采取有力措施,避免今后類似問題再次發生。
信息系統運行維護工作是系統工程,在加強運營值班管理的基礎上,組織運行維護、網絡、客票、設備等專業細化“全天候”技術支持措施??推焙途W絡專業,責任落實到人,巡視檢查內容具體化。設備專業加強對設備的動態管理、保修管理,加強對硬件設備巡檢質量的分析。各專業技術支持措施以2011年信息技術處1號文件頒布執行,構成“大運維”專業技術支持體系,形成保障運行維護安全的第2道防線。
設備狀態穩定是信息系統安全運行的基礎,維修維護是提高設備運行質量的關鍵。按照建立“大運維”體系、實施“狀態修”標準的總體構想,落實“計劃管理、過程控制、結果考核”的具體要求,狠抓設備保修工作,使保修管理工作得到進一步的規范和加強:
(1)制定流程,三方責任得到落實。設備科作為管理部門,負責對承保公司的管理、保修合同的簽訂、服務質量管理以及保修整體情況總結通報等管理工作;各專業技術部門負責配合承保公司進行設備巡檢和故障處理;各承保公司按照合同規定,按時進行巡檢維護,消除故障隱患,及時處理發生的故障,確保設備正常運行。
(2)明確標準,巡檢作業得到規范。信息技術處頒布了《北京鐵路局信息技術設備保修服務標準》,設備管理部門根據設備狀態、承載項目的重要程度對保修設備進行分類,分別制定服務質量標準,并將相關內容列入合同條款;承保公司根據承保設備的類別,制定全年巡檢計劃,各專業科室、電子所相關技術人員根據承保公司的巡檢計劃,在全力做好配合工作的同時,對保修工作進行督導,并在巡檢記錄上簽字。承保公司巡檢結束后,將有用戶簽字認可的巡檢記錄帶回,交設備科簽字確認后再返給用戶。實現了巡檢過程閉環管理,規范有序。
(3)嚴格管理,考核機制得到建立。圍繞 “大運維、狀態修”的理念及標準要求,在保修工作上著力實現“計劃管理、過程控制、結果考核”的工作目標,發布了《北京鐵路局信息技術設備保修管理規范》、《北京鐵路局信息技術設備保修工作考核辦法》,對設備保修管理工作中的方案制定、合同簽訂、巡檢計劃、設備巡檢、故障處理、故障、安全問題分析、服務質量考評及保修設備備件管理都逐一進行了規范。對每月保修工作情況及發生的問題進行匯總并通報, 2011年共發通報12期,表揚7次,包括5家承保公司;批評6次,涉及5家承保公司。
(4)深入推進,質量分析得到加強。初步建立了保修服務質量分析制度。根據設備保修服務中存在的服務質量問題,諸如不按時服務,故障延時過長,備件不到位等問題,及時召集相關承保公司負責人,召開服務質量分析會,分析原因,落實責任,避免類似問題再次發生。2011年共召開保修服務質量分析會4次,涉及5家承保公司,此舉得到各承保公司的重視。
根據信息技術處建立“大運維”體系、實行“狀態修”標準總體構想,為把運行維護安全管理工作落實到實處,信息技術處自主研發了“大運維管理信息系統”,搭建了運行維護綜合管理平臺,將運行維護安全過程管理信息化。該系統于2011年3月投入試運行,4月1日正式投產運行。實現了運行維護管理、設備管理、保修管理、計劃巡檢、專業巡視以及施工管理等的動態管理,為“大運維”、“狀態修”的具體落實提供了信息共享平臺。
該系統通過構建運行維護管理體系、作業組織體系和技術支援體系,形成統一的專業維護技術支持標準,強化全員參與、注重運行維護細節,使運行維護組織工作更加精細化、有序化、高效化,使全處運行維護工作的縱向專業管理和橫向行政管理得以有機結合,極大的提升了“大運維”管理水平。
在2年的運行維護體系建設和實施過程中,圍繞提高值班巡視質量、建立“全天候”技術支持體系、強化設備保修管理、加大故障分析考核等方面,采取了一系列行之有效的措施,將“大運維”理念及“狀態修”標準落到實處,收到了初步效果。
通過大運維體系的建立和不斷落實,加強了值班人員日常巡視管理,對值班巡視實行“定量定標”管理,要求日常巡視要走到、看準、聽清,從設備正常運行的狀態中比較出差異和不同,將漸進類的問題提前確定,提升了值班巡視質量,及時發現可能發生問題的每一次報警。各專業技術支持人員,也由以前被動、事后處理信息系統出現的異常事件和故障,變為現在“全天候”技術支持,從每周一次到機房實地對分管設備進行外觀狀態巡視,到每日對分管設備系統運行狀態、日志提示等信息的檢查,在一個更高的技術層面上做預防性的維護工作。既是對機房值班人員日常巡視的一個補充,又是對值班人員在專業技術上的支持。
通過實行“狀態修”標準,設備巡檢次數得到保證,特別是在春運、暑運、“五一”等特殊時期前,巡檢力度明顯加大;通過巡檢發現處理故障、消除故障隱患比例在提高,應急處理故障次數在減少。特別是通過采用技術監測手段,發揮故障預警功能,及時發現可能發生故障隱患,達到預防為主、降低故障率的目的。2011年,全局共發生信息故障31件,月均2.6件,與2010年相比下降幅度較大。具體數據見圖3及表1。

圖32011年全局信息系統故障統計圖

表1 2011年度與2010年度故障統計對比
在“大運維管理系統”中建立了信息系統運行安全綜合管理監控子系統,將日志分析、網絡管理、綜合監控和視頻等功能集成為一個綜合監控平臺,實現對全局網絡拓撲結構的實時監測、對各類關鍵設備的日志實時采集分析、短信報警和對機房環境的綜合實時監測,最終實現對機房信息系統安全的全方位實時監測,收到良好效果。2011年在路局和3個電子所共產生各類日志報警72次、主動發現故障所占比例由年初的21%上升到目前的82%,在信息系統安全生產中發揮了重要的作用。
鐵路局信息系統安全運行維護體系建立以來,通過組織體系的建立,實現 “大運維”的要求;通過具體作業流程的落實,達到“狀態修”的標準,使“大運維”理念和“狀態修”標準不是停留在口號上,而是真正落實到實際工作中。全方位加強了全局信息系統運行維護安全的快速響應能力和消除設備隱患的能力,在保障全局信息系統安全運行方面上了一個新臺階。
[1]葛世倫,尹 雋. 信息系統運行于維護[M]. 北京:電子工業出版社,2012.