姜東參 扶湘典 黃紫翎





摘 要:三峽通航目前已經建設了調度系統、安檢系統、遠程申報系統、綜合監管系統、CCTV系統、PTN系統等大量信息系統。隨著新系統、新設備投入建設和使用,以及移動互聯網的迅速發展,原有的運維管理模式不足以滿足信息化水平的發展。對于如何優化設備運行維護方式,提高運維管理效率,成為當前形勢下三峽通航信息化系統運維面臨的實際問題。本文結合實際,在IT運維監管平臺的基礎上,結合局內各業務系統的現狀,進行系統運維的功能分析和技術分析,就如何實現高效率的系統運維提供了經驗和解決技術方案。
關鍵詞:三峽通航;IT運維監管平臺;系統運維管理
中圖分類號:692? ? ? ? ? ?文獻標識碼:A? ? ? ? ? ? 文章編號:1006—7973(2021)11-0047-03
1 三峽通航系統運維現狀分析
按照“十三五”信息化發展的要求,三峽通航已經建成了IT運維監管平臺和故障管理系統,在設備監控、故障管理方面發揮了重要的作用,監管對象主要包括調度系統、安檢系統、CCTV系統、數據中心和網絡系統的部分設備,但未能完全實現主動運維、精細運維的目標,距離現代化運維管理要求有一定的差距。隨著新增業務系統的上線,現有的運維管理模式無法滿足信息系統維護需求,主要表現在以下幾個方面:
(1)三峽局新增業務系統較多,對新增的業務系統無法實現運維監測。
(2)IT運維管理平臺的監控對設備的狀態監控時能發揮較好的作用,但是對生產業務層面的監控較為薄弱,對一些重要的接口、服務無法做到實時監測狀態。
(3)IT運維監管平臺監管對象劃分不清晰,指標設置不能完全滿足精細運維的要求。
(4)故障申告系統具備故障申報記錄和故障處理的信息錄入功能,缺乏對故障的流程管理和故障反饋的評價。
這些問題將會導致故障發現不及時,影響系統的可用性。因此基于IT運維監管平臺完善對相關業務的監管提升運維管理效率是非常有必要的。
2 提升運維效率的技術應用分析
2.1技術應用分析
現有的移動互聯網技術具備覆蓋范圍廣、數據通信容量大的優勢,IT運維管理平臺是三峽通航系統運維必備的系統,將他們融合起來,開發出適應新需求和發展的功能服務模塊,是當前迅速實現要求有效的解決方案。
目前比較常用的有手機APP和企業微信兩種方式。手機APP安裝在移動終端上的軟件,以實現特定的功能;企業微信是專業化辦公管理工具,可以利用企業微信豐富的接口實現移動辦公的需求和應用,對比兩種技術,在開發難度、維護便捷性、交互性、網絡安全等方面進行統一考量,企業微信方式相對比較適合故障告警信息在移動互聯網客戶端推送。
2.2系統功能需求分析
2.2.1故障告警
通過移動端接口和內部IT運維監管平臺進行對接,系統產生故障后移動端自動推送信息給相應負責人員進行及時處理,實現故障告警提醒,需要對當前綜合運維管理系統的監管對象和指標進行梳理,調整監管對象、優化性能監管指標,明確哪些設備屬于哪個系統。按照系統類型,對設備進行詳細分類與補全,將之前沒有納入IT運維監管平臺的設備添加進去,彌補以往單一根據設備類型分類的不足,增加按照業務系統分類的分類方式,根據業務系統劃分負責人,明確告警信息發送對象,同時,告警內容詳細豐富,界面簡明。
2.2.2 設備分類及指標優化
優化對設備狀態監控,添加需要監控的設備狀態,做到對各個系統以及通信信息設備做到全方位監控,優化不必要監控的狀態,防止因為過于追求監控效果,導致監控項增加,占用過多系統資源,進行影響系統的運行。此前,受監控設備的分類比較單一,只按照設備類型分類,如操作系統,數據庫,中同件,Web平臺,虛擬化平臺,網絡設備,CCTV,光纖交換機,存儲設備,動環及PTN等設備類型,沒有明確該設備所屬的系統,一種類型的設備可能會存在多個系統之中,這樣系統產生故障并分派維修員時,容易造成不必要的麻煩。所以需要對受監管設備進行詳細分類,按照設備類型以及所屬業務系統分類,明確系統責任人,按照所屬業務系統對設備進行分類,即GPS系統,數據中心系統,政務網站系統,保障系統,VTS系統,CCTV系統,網絡系統、調度系統等。明確主機名,IP、業務系統、管理員以及位置。示例如表1:
同時需要對監控指標進行優化,此前根據不同的系統,用不同的監控方式。網絡系統每三分鐘 ping 一次,判斷是否通斷:業務系統需要在服務器上安裝代理收集系統狀態信息,然后根據設定的闌值判斷是否發送告警信息。ping 間隔時間過短,代理監控內容過多,發送告警的指標與實際情況有出入。需要將 ping間隔時間改為十分鐘,減少因為偶爾丟包而產生的誤告警:去除不必要監控的指標類型,防止因為監控內容過多,對 CPU產生更多負荷:優化指標的閾值,根據有關標準,結合當前實際,優化告警的值,示例如表2:
2.2.3信息集中展示
將故障告警信息統一展示,對故障進行分級,一般警告通過界面集中展示,影響業務的警告通過平臺發送至設備運維人員的移動端。
2.2.4 接口監控
將API監控采用shell腳本的方式進行實現。腳本放在監控服務器上,通過主監控服務器代理,定時執行shell腳本,采集API接口數據,并根據數據進行判斷,如果不符合預期數據,則產生告警。
2.2.5報表統計
(1)故障匯總:按選定的時間段導出已經處理完成的故障。
(2)事件匯總:按選定的時間段導出已經處理完成的事件。
(3)統計分析:按選定的時間段對故障率、故障時間進行匯總分析。
(4)月報導出:將故障和事件按月導出,進行分類估計和匯總統計。
3 實際應用中的主要技術措施
3.1故障告警功能實現
在明確監管對象以及指標以后,確定各個系統的負責人,根據后臺終端以及企業微信的不同特點,對告警信息進行處理,使數據適合在不同平臺上展示。
3.2設備分類及指標的優化實現
根據需求,對設備進行分類,明確了監控的設備對象,在此基礎上,優化設備監管指標。
3.3接口監控的實現
根據需求,明確了具體監控的接口,通過增加接口url地址,可以采集到對應接口的返回數據,當前通過訪問接口地址監控所添加的接口狀態,如果出現異常則進行告警。
4 結語
根據梳理三峽局信息系統目前主要的業務,分析設備運維的基本需求,在已有的IT運維監管平臺上結合企業微信,完善設備分類,增加接口監控,使運維管理工作更加精準高效。此外,有些功能目前還需要和其他業務系統對接才能實現,有些功能還需要進一步提高和完善,讓信息化為提高系統運維效率和安全提供更多的保障。
參考文獻:
[1] 梅沁、蔡晶晶.基于ITM的電力信息系統智能監控管理的應用[B].江蘇電機工程,1009-0665(2010)03-0063-04.
[2] 索燕.基于ITM的第二代支付系統運維監控平臺建設[B].金融科技時代,2014(022)008.