楊文軍,李明軒
(湖南省水上交通安全指揮監控中心,湖南 長沙 410000 )
湖南內河航運發達,水上交通資源豐富,水上運輸在湖南省經濟發展和對外開放進程中占據重要地位。近些年,湖南省先后建設了渡口視頻監控系統、航道視頻監控系統、VHF安全通信系統、危化品碼頭視頻監控系統、視頻會議系統、內河客運船舶3G視頻監控系統等項目。通過這些信息化手段,加強了渡口、航道、渡船、危化品船及運砂船等的水上交通安全監管,提升了水上交通安全監管和應急反應能力,提高了水上交通安全監管效率,有效降低了執法成本[1]。如何保障上述多個系統穩定運行,在水上交通安全中持續高效發揮作用,實現系統的高質量運維管理,成為信息化系統運維管理工作的重點和難點[2]。
目前運維工作所涉及的網絡設備、VHF通信基站、視頻監控監控點位等數量已經突破2 000個,硬件設備上萬臺,主要分布在全省各地的碼頭、航道、渡口、客渡船、危化品船、運砂船以及湖南省中心機房。隨著系統持續建設和升級,系統所需硬件設備數量也將呈現幾何增長。目前,省監控中心對于系統的總體運行情況和運維工作難以進行全面客觀評估[3],尤其是對各個運維單位的運維質量好壞缺乏有效監管手段。
傳統的系統故障檢查一般是通過人工巡查方式來實現,故障的發現時間周期長,信息反饋被動,故障的發生和恢復時間缺少準確記錄[4-5]。目前運維工作所涉及的網絡設備系統、VHF通信系統、視頻監控系統等,沒有自帶故障檢測功能。經過研究分析,上述系統設備都部署在專網中,每個設備都有固定的IP地址。運維管理系統對信息系統設備故障監測主要采用2種方式:① 對于網絡設備和VHF通信系統設備,通過IP包進行設備運行情況檢測;② 視頻監控設備,通過對接設備廠商,閱讀和分析設備(IPC)網絡SDK技術文檔,利用監控設備的RTSP協議實現對監控設備操作。
系統開發基于自有的應用框架XWAF(XML-based web application framework)。XWAF是一個基于XML描述的應用框架,技術成熟穩定又能保持先進性。可實現2個方面的通用功能:① XML描述 + 數據庫引擎 可建立數據庫;② XML描述 + 界面引擎可實現后臺管理頁面的建立。
1)系統架構方面:采用B/S架構使系統能集中部署,分布使用,有利于系統升級維護。
2)開發模式方面:采用MVC開發模式并參考SOA體系架構進行功能設計,可快速擴展業務功能,且不影響現有系統功能的正常使用,還可根據實際業務量進行部分功能擴容,在滿足系統運行要求的同時實現成本最小化。
基于信息化項目運維管理系統的需求以及 XWAF框架優點,采用PostgreSQL關系數據庫作為本系統存儲方式,采用Python作為開發技術棧[7-8]。
信息系統設備分布在全省各碼頭、航道、渡口、客渡船、危化品船和運砂船等,設備通過專用光纖、無線通信設備等接入水運內網;而運維人員則使用外網(互聯網)通過運維外業APP查詢與上報運維過程數據。另外,故障預警從服務器實時主動推送消息到省監控中心瀏覽器端和外業運維APP上,設備狀態監控需要輪詢設備的工作狀態。所以系統是一個內外網交互、支持多通訊協議的分布式物聯網應用,系統硬件組成見圖1。
基于系統的組成及特征,構建信息化項目運維管理系統架構。宏觀層面上,本系統擬采用分布式部署方案,即分別在外網和內網部署相應的服務器和服務應用,并在這些跨網、跨機器的服務應用之間構建一條分布式的異步事件總線(相當于計算機主板),各服務應用(相當于顯卡、聲卡模塊)連接在該異步事件總線上,發布請求事件、響應通知事件。通過這種架構,既降低了各應用服務之間的耦合程度,提高了各應用服務的魯棒性,又降低了系統的總體復雜度,保證了系統的可伸縮、可擴展性。系統分布式架構如圖2所示。

圖1 系統硬件組成

圖2 系統分布式架構圖
微觀上,在單一應用系統內部架構上,則采用基于插件的微內核架構。系統以微內核為交易中心(相當于市場),應用系統內的各模塊以插件的形式加載到應用系統內,并通過微內核發布服務(賣服務),發現并調用服務(買服務)。通過這種架構,解耦了各模塊之間的相互依賴(各模塊之間互不依賴,它們都依賴于微內核),降低了應用系統復雜度,提升了應用系統的可擴展性,應用系統內部架構如圖3所示。

圖3 應用系統內部架構圖
將各子系統從業務邏輯上劃分為表現層、感知層、業務層、平臺層和持久層[7]。表現層(presentation)提供用戶界面,負責視覺和用戶互動;感知層(perceptual)提供設備狀態反饋和視頻反饋;業務層(business)提供業務邏輯實現;平臺層(platform)提供事件總線、權限/安全和其它中間件;持久層(persistence)提供數據永久存儲。系統分層架構如圖4所示。

圖4 系統分層架構圖
根據省監控中心管理訴求及運維工作流程,將系統分為設備資產管理、故障告警、鏈路檢測、GIS圖層展示、運維績效管理、合同管理、檔案管理、運維管理APP等8大主要業務功能模塊(見圖5)。

圖5 系統功能模塊
2.3.1設備資產
設備資產功能模塊針對所涉及的硬件設備,將其按照所屬系統、所屬類型進行分類,建立設備檔案,記錄設備的廠家、技術指標、招標信息、質保周期、維修記錄、IP地址、安裝位置等相關信息。該功能模塊由設備清單、備品備件、二維碼管理組成。
2.3.2故障告警
故障告警功能模塊是系統的核心功能之一,系統按照設定的時間點或時間間隔自動檢測所有監控設備的運行狀態。管理人員可查看最新一次檢測得到的信息列表,包含每個設備的檢測日期、時間、故障等級以及故障描述等。若設備檢測正常,則可以查看獲取的監控圖像;若設備檢測異常,則系統根據預先設置的權限,通過短信、APP兩種方式對相關管理人員、運維單位推送故障提醒消息,達到預警、告警的目的。
2.3.3鏈路檢測
鏈路檢測功能模塊主要針對各子系統的網絡鏈路通信情況進行監測,及時反饋通信故障。模塊包含航道視頻監控系統鏈路檢測、VHF安全通信系統鏈路檢測、網絡設備通信系統鏈路檢測和危化碼頭監控系統鏈路檢測4個子系統。通過頁面UI的精細設計,可清晰地展示各子系統鏈路情況,深色為故障鏈路,淺色為正常通信鏈路。下拉列表還可查看子系統的故障情況統計及明細。圖6為航道視頻監控系統鏈路檢測頁面。

圖6 航道視頻監控系統鏈路檢測頁面
2.3.4GIS展示
GIS展示功能模塊能夠讓管理者以最直觀的視角掌控所有設備的空間位置,并了解各個設備的系統級別和狀態。該功能模塊由監控系統分布圖層、故障分布圖層組成。監控系統分布圖層主要功能是在監控中心內網航道圖上展示各個監控點所在的空間地理位置,以圖標顏色區分監控點狀態;點擊設備圖標,顯示設備詳細信息及最新一次檢測時獲取的圖片,可更加直觀地了解系統運行情況。故障分布圖層主要功能是在監控中心內網航道圖上展示故障設備所在的空間地理位置及基本信息,方便運維人員及時掌握需要維護的設備的位置及損壞情況。
2.3.5運維管理
運維管理功能模塊是將故障檢測數據、鏈路檢測數據、APP反饋的運維記錄、巡查記錄、超時情況說明等信息,自動整理出運維報告,并生成各類統計圖表,供客戶查看,使客戶對運維情況一目了然。同時系統可根據客戶對運維管理的相關規定,通過故障響應時間、故障率等指標對運維單位進行考核評級。該功能模塊由故障統計、運維報告、維修記錄、巡查記錄、服務商評級組成。
故障統計模塊,可以直觀查看各子系統設備的故障率及故障等級占比,還可以直觀看到最近一個月內故障數的波形變化情況。
運維報告模塊能夠針對各子系統運維商的故障率、故障響應速度、維修記錄、巡查記錄進行統計,自動形成運維日報、周報、月報、季報、年報推送給監控中心。客戶可通過左側豎軸切換運維報告的時間段,點擊右側標簽鍵切換子系統,并可對選定的運維報告進行預覽和下載。
2.3.6合同管理
合同管理功能模塊包含合同信息和運維進度款兩個功能。合同信息可以錄入運維合同的關鍵條款,并添加電子檔附件,作為紙質合同的備份,防止紙質合同丟失,并且方便及時查看。運維進度款能夠根據合同條款、系統的運維績效評分、省監控中心的相關管理規定輔助運維進度款支付,并可查詢到各個運維單位的合同日期、應付款、已付款以及相應的付款進度。
2.3.7檔案管理
檔案管理功能模塊可以錄入各個子系統建設過程中的重要檔案文件,形成電子檔案,作為紙質檔案的備份,可以一鍵打印成卷宗文本,方便查看。
2.3.8運維APP
省監控中心信息化項目運維管理系統APP是整個運維系統的重要組成部分,使用對象為運維單位的管理人員及設備維修人員。APP分為:我的工單、日常巡查、巡查記錄、故障采集4個功能模塊,以及系統設置、登出賬號2個賬號管理模塊。系統監測到設備發生故障后,將故障信息自動推送至APP我的工單中,運維人員通過APP及時響應,并將維修后的設備狀態拍照上傳。另外,運維人員在日常巡查過程中若發現故障,APP能夠自動記錄運維人員對故障的響應時間,方便一線人員記錄運維過程。
以往信息系統運維工作,由負責運維工作的第三方公司接到故障電話后進行處理。對故障的發生時間、處理響應時間、處理過程及時間、恢復時間缺乏記錄或記錄不全。故障處理后,不能清楚地描述故障發生原因以及處理的方法和方案,也不能跟蹤設備修復后運行狀況。而運維管理系統能記錄故障發生的時間,通過手機APP記錄運維的技術員響應時間、故障修復過程記錄、故障原因、以及故障修復情況。對于不能在規定時間恢復的故障,報相關系統管理人員進行情況審核,給予故障修復建議。管理人員能夠一目了然地了解運維工作的各個環節情況,促進運維管理工作的規范化,流程化。
有些系統平時應用較少,在需要使用時,又存在故障,且故障恢復需要一定時間。如網絡專線故障,使用單位在需要用時才能發現網絡專線故障(例如視頻會議),導致工作不能及時開展,影響工作進度。運維管理系統能每天對網絡系統各設備進行監測,及時發現網絡專線問題,督促網絡運營商及時維護網絡,提高用戶使用滿意度。
各信息系統的運維工作都納入到一個運維運維管理系統中,每個故障發生的時間,負責運維技術員響應時間,故障存在的時間、故障恢復時間等,以及系統中各設備在某一段時間發生了多少次故障等都有詳細記錄。一方面對系統運維工作考核有詳細的數據記錄,可為運維工作公司的選擇提供依據;另外一方面,通過系統設備故障發生的記錄,了解各設備的運行狀況,對故障發生次數多,不穩定的設備進行更換,確保各系統的正常穩定運行。
水運信息化項目運維管理系統能夠主動發現、診斷故障,并將故障信息自動推送給對應的運維人員;并對故障狀況、維修情況、巡查情況實時統計,方便管理人員查看,了解系統的整體運行狀況;同時該所有建立了標準化運維管理流程,通過APP監督并跟蹤運維人員及時響應,保障故障設備得到及時維護及更換,真正做到了監控設備物盡其用。另外系統還可對運維單位進行科學客觀的績效考核,督促運維管理人員和技術人員盡職履責,從而保障所有系統設備的高效運轉,真正行之有效地保障信息系統的高質量穩定運行。在后續使用中,還將不斷完善系統,更好地為水運信息系統運維管理服務。