談 震,舒依娜,劉 敏,楊興旺
(南瑞集團(國網電力科學研究院)有限公司,南京 211000)
引供水工程信息化系統的建設僅僅實現了需求功能,而功能作用的充分發揮往往需要依賴后期的系統運維來實現[1]。因此,引供水工程運維系統的管理亦是重中之重。而引供水工程輸水總干渠距離長,干渠、支渠、輸水管線眾多,工程涉及城市供水、灌溉用水。具有輸水線路長、自動化信息化系統規模大、點多面廣的特點[2],在運維管理上,存在重建輕維、站點多、系統多、設備廠商多、地域分布廣、一線運維人員缺乏、運維標準不完善、運維支撐工具缺乏等業務痛點[3-5]。為有效解決上述問題,舒依娜等[6]運用云計算、大數據、互聯網、GIS、BIM 等高新技術,結合“智慧管控”理念實現了千島湖引水工程的綜合管理系統開發;張社榮等[7]采用分類樹數據管理體系管理數據,解決后期運維中多源數據繁雜不易管理的問題;李獻忠等[8]以及蓋海英[9]皆采用BIM+GIS融合技術、物聯網技術等手段,解決長距離引水工程運行管理需求。
因此,為保證水利工程(特別是長距離引供水工程)“云-網-端”全鏈路的基礎IT設施、現地測控設備和業務應用系統安全、可靠、穩定地運行和最大發揮性能,需要通過研究全鏈路監控的水利自動化智能運維關鍵技術,建立一套水利工程智能運維系統,涵蓋傳統IT 設備與現地設備的整體運維,實現全面及時的設備狀態采集,精準的遠程故障定位,簡單智能的操作,最終能實現科學決策支持、降低人力成本、改變被動運維現狀、突發事件的快速應變和處理、減小管控壓力、簡化故障診斷定位并形成運維數據累計與分析,最終全面提升工程應用運行的安全性與可靠性。
隨著水利信息化建設的不斷深入,“云-網-端”的架構也逐漸應用于“互聯網+水利行業”,在全鏈路的水利各類信息系統中,用于支撐的IT基礎設施以及水利類工程特有的采集、監測、計量、控制等專業現地測控設備及各類業務應用系統數量越來越多、通信方式越來越復雜,使得水利工程全鏈路的信息系統環境變得龐大而復雜。
由于水利工程信息化通信當前的特點,給水利工程設備運維管理帶來以下痛點:①數據中心與現地傳感采集設備的運維缺乏整體性,市面上的通用運維軟件都無法有效支撐;②現地的傳感采集設備分布很廣,故障定位,日常運維大多要去本地,通過現地PLC 開展,非常消耗人力與時間;③運行維護的數據中心和現地的各類設備,通信,軟件的狀態獲取不準確,不全面,不及時,不智能,導致運維工作,處理異常滯后;④采集端到使用端的數據連通性是運維的關鍵點,沒有有效的方法支撐全鏈路的故障快速定位;⑤運行人員信息化水平較低,不掌握信息化工具使用技能,需要有人性化,智能化,易于使用的手段給予支撐;⑥新型管理理念,方法和技術在日常運維中都運用不足。
為了解決以上痛點,急需打造一款貼合工程應用水利工程信息化系統運維管理實際需求,解決日常運行痛點,同時體現運維管理新理念,運用最新數據中心、物聯網、移動技術,實用,先進的專業智慧運維系統,需求如下:第一要滿足實際需求,系統要高度關注設備與鏈路的可用性,做到全鏈路、端到端的設備監控,對業務視角的故障做到精準定位;第二解決行業痛點,系統必須涵蓋傳統IT 設備與現地設備,做到全面、及時的對各個設備的狀態進行采集處理,然后精準定位全鏈路上的遠程故障,操作要簡單、人性化、智能化;第三體現新理念,在傳統IT運維理念的基礎上做到基于中心驅動的運維管理,基于事件驅動的運維流程和基于邊緣計算的快速響應三點;第四是要運用新技術,系統在大眾使用網絡技術上融合云技術,物聯網技術,移動技術和人工智能技術實現基于數據中心的云環境運維,基于物聯網的現地狀態采集,基于移動技術的事件通知和基于知識圖譜、決策樹技術的智能分析四點突破。
(1)“云-網-端”全鏈路監控的運維采集技術。充分結合工程應用中水利工程(特別是長距離引供水工程)設施建設與部署現狀,研究分析在“云-網-端”物聯架構下水利自動化智能運維應用場景、關鍵數據釆集指標、業務應用流程;研究水利設施在“云-網-端”物聯架構下的全鏈路監控采集部署方式、關鍵指標的采集技術,實現水利設施運行狀態的采集與深度感知。
(2)基于水利業務場景的自動化智能運維技術。在“云-網-端”物聯架構下,通過信息化技術與物聯網技術的融合,研究工程應用中水利設備全鏈路狀態采集下的故障智能定位技術、智能告警技術,當發生現地數據無法獲取等故障與異常時,使用業務拓撲,以業務視角的全狀態、全端口、全鏈路的故障定位分析,為實現水利自動化智能運維提供技術支撐。
(3)基于云-邊協同的水利自動化運維模式。結合工程應用中水利自動化智能運維應用業務場景,研究水利設施在基于物聯網架構下的“統一運維、統一工單、統一告警”的云-邊協同自動化運維模式。以水利工程全設備、全鏈路、端到端的監視為基礎,實現以事件處理為驅動的設備監控、分析告警、故障定位、故障處理、設備評價與監控告警優化的運維流程。完成水利自動化智能運維平臺設計與軟件研發,打造一款貼合水利工程信息化系統運維管理實際需求,解決日常運行痛點,同時體現運維管理新理念,為實現“全面覆蓋、深度感知、專業導向、智能決策”水利自動化運維體系提供理論與實踐支撐。
工程應用中引供水工程智能運維系統是基于計算機網絡,數據采集,數據處理,監視控制,移動通信,云服務,物聯網,智能邊緣分析等技術,針對水利工程(特別是長距離引供水工程)的智能化全鏈路軟硬件運行監控系統,邏輯構成主要包括物理設備層、數據采集層、配置接入層、業務應用層、管理應用層等五部分,業務應用主要包括PC+App+大屏的可視化展示、臺賬-告警不同維度的統計分析報表、告警-定障-工單一體化的管理應用等。系統總體框架如圖1所示。

圖1 系統總體框架Fig.1 Overall system framework
系統內部主要包括以下核心部分:
物理設備層,不僅包括機房內的主機設備、網絡設備、軟件等,也包括了現地各站點不同專業的監測設備、安防設備等。該層包含了水利工程全鏈路上所有帶網口光口的軟硬件設備,實現對全鏈路設備臺賬分門別類的整理,并按照實際情況配置全鏈路的網絡拓撲圖。
數據采集層,該層主要用于對全鏈路軟硬件設備的信息采集,包括設備基礎信息和告警信息等。采集方式按照設備地理位置分為兩種,機房設備信息采集和現地設備信息采集。機房設備的信息采集使用有線傳輸方式,現地設備信息采集使用物聯網技術傳輸。
配置接入層,配置各種類型設備需要采集的信息,通過ip地址互聯,接入數據采集層過來的各設備的基礎信息、告警信息。
按照智慧水利新提出的數據中心架構,將全鏈路網絡架構分為控制區和管理區,由于控制區必須嚴格保證數據安全性的特點,系統執行跨安全區部署,整體部署架構如圖2所示。

圖2 系統整體部署架構Fig.2 Overall system deployment architecture
控制區由一臺數據庫服務器和一臺采集服務器組成,采集服務器用于采集控制區軟硬件設備信息同步至數據庫內。管理區由一臺數據庫服務器、一臺采集服務器、一臺Web 服務器、一臺鏡像采集服務器組成,采集服務器用于采集管理區軟硬件設備信息同步至數據庫內,Web 服務器用于系統Web 展示。控制區與管理區中間網絡通過隔離裝置進行物理隔離,通過隔離裝置自帶的數據同步軟件將控制區采集到的設備信息同步至管理區數據庫內,通過Web 頁面就實現控制區和管理區所有設備的信息展示。
3.3.1 總體設計思路
以工程應用中水利工程全設備、全鏈路、端到端的監視為基礎,實現以事件處理為驅動的設備監控、分析告警、故障定位、故障處理、設備評價與監控告警優化的運維流程。系統總設計如圖3所示,包括以下幾大核心功能:

圖3 系統總設計Fig.3 General system design
(1)臺帳與配置管理。運維設備臺帳包括IT 軟硬件、監測設備與機電設備,實現水利工程設備全覆蓋;監控指標重點關注設備可用性指標與鏈路連通性指標;實現臺帳與Zabbix/物聯代理的無縫配置對接。
(2)設備監視采集。監視采集對象涵蓋數據中心IT 軟硬件設備與現地設備;數據中心IT 軟硬件設備監視采集使用Zabbix;現地設備的監視采集使用物聯代理裝置;支持分布式部署,使用4G通道上傳現地采集數據。
(3)監視告警。監視告警是全鏈路,端到端的監視告警;以物理拓撲和業務拓撲的模式全面展示軟硬件設備與鏈路的可用性狀態;支持對現地設備以邊緣計算的方式快速分析與告警通知,提高故障響應速度。
(4)運維操作。以運維事件驅動開展日常運維操作流程;以業務系統視角進行故障定位與故障診斷;快速生成工單,以APP 或短信等多種方式下發給運維人員;滿足水利工程業務流程特點。
(5)智能評價。跟蹤故障處理過程與處理效果,自動根據故障處理結果調整與優化監控與告警配置;建立水利水電設備運維知識圖譜與決策樹,開展設備狀態評價,根據評價結果調整與優化監控與告警配置。
3.3.2 各模塊設計思路
臺賬管理以四點為核心設計方向,具體包括設備全覆蓋、數據可關聯、類型可擴展、屬性可定義。如圖4所示。

圖4 臺賬管理Fig.4 Account management
設備全覆蓋,臺賬管理中的設備必包含全鏈路所有設備,除傳統IT軟硬件設備以外,還包括各專業現地監測設備和現地機電設備等;數據可關聯,臺帳數據第一要具備與其他管理系統關聯集成的能力,第二要與采集引擎Zabbix 和物聯代理進行數據關聯集成;類型可擴展,操作人員可以靈活的擴展定義系統所需要的設備類型,以滿足不用應用場景對不同運維類型設備的監視需求;屬性可定義,操作人員可以對不同設備類型中的差異屬性靈活自定義,也可以對不同類型設備的公共屬性抽取共用。
監控配置管理以四點為核心設計方向,具體包括簡化配置、關注核心需求、行業定制化、支持遠程配置維護。如圖5所示。

圖5 監控配置管理Fig.5 Monitoring configuration management
簡化配置,系統通過Zabbix API封裝的方式,實現對傳統IT軟硬件設備的監控配置管理,通過MQTT 協議與物模型實現對物聯代理裝置采集配置的管理,實現對現地設備的監控與告警設置;關注核心需求,在監控與告警配置上,重點關注設備的可用性與鏈路的連通性等核心業務需求;行業定制化,在配置設置上考慮水利工程特點,充分考慮監控對象、監控采集指標、監控數據采集頻率、監控采集協議支持、數據保留周期、數據傳輸方式、監控項設防等需求;支持遠程配置維護,系統充分利用Zabbix的分布式架構與物聯網技術的特點,實現遠程配置維護。
監視采集分為數據中心設備監視采集和現地站點設備監視采集兩部分。如圖6所示。

圖6 監視采集Fig.6 Monitoring collection
數據中心設備監視采集中,主機、服務器類設備通過Zabbix agent 采集軟件監視采集信息上傳數據,軟件進程類通過Zabbix agent調用Python 腳本方式上傳數據,網絡類設備例如交換機路由器等通過開啟Snmp 協議獲取信息上傳數據。所有獲取到的設備信息傳送至Zabbix 控制臺進行信息整理處理,然后傳輸至數據庫中,最后在系統Web頁面進行展示。
現地監視采集通過在現地站點部署物理代理裝置實現現代站點設備的監視采集。如圖7所示。

圖7 現地監視采集Fig.7 Local monitoring and acquisition
物聯代理裝置通過串口與LCU 連接,通過Modbus 協議實現對LCU 及與LCU 連接的監測傳感器、機電設備的狀態數據采集;物聯代理裝置通過網口與現狀的交換機、工作站等設備連接,通過Agent、Snmp 等協議實現現代站點交換機、工作站設備的狀態數據采集。
物聯代理裝置對采集的數據以MQTT 物聯網協議進行封裝,并上傳到Zabbix 控制臺進行信息整理處理,然后傳輸至數據庫中,最后在系統Web 頁面進行展示。物聯代理裝置在現地對采集的數據根據告警規則進行邊緣計算分析,如有異常發生,可第一時間以短信的方式通知相關運維人員,加快現場故障處理速度。
全鏈路的拓撲展示實現從現地傳感器到主調中心應用服務器之間完整網絡鏈路的狀態監視與拓撲展示,包括設備當前運行狀態與告警的監視與拓撲展示、設備物理接口與接口間的連接狀態監視與展示、應用進程與進程間邏輯端口狀態監視與展示。如圖8所示。

圖8 全鏈路拓撲展示Fig.8 Full link topology display
業務視角的故障定位分析以業務視角的全狀態,全端口,全鏈路的故障定位分析,當發生現地數據無法獲取等故障與異常時,使用業務拓撲,以業務視角進行全設備狀態、全端口、全鏈路的自動故障定位分析。具體流程如下,進程狀態檢查,進程端口檢查,服務器狀態檢查,服務器接口檢查,網絡設備檢查,網絡鏈路檢查,工控設備檢查,傳感裝置檢查,工單生成與派發。如圖9所示。

圖9 業務故障定位Fig.9 Service fault location
甘肅某大型引供水工程,東西寬約85 km,南北長約110 km。整個鏈路上接入LCU 設備約72 臺,主機服務器類設備約54 臺,網絡設備約47 臺,其他類型設備包括攝像頭、RTU、NDA等約197臺,接入監管率約99.7%。
青海某大型引供水工程,干渠總長122.61 km,其中暗涵長13.84 km;隧洞64 座,總長80.40 km;渡槽52 座,總長12.45 km;倒虹吸8 座,總長15.93 km;其他渠系建筑物101 座。支渠共29條,總長320.96 km,其中明渠99.74 km,管道段總長151.28 km。整個鏈路接入LCU 設備約128 臺,主機服務器類設備約64 臺,網絡設備約52 臺,其他類型設備包括攝像頭、RTU、NDA 等約264臺,接入監管率約99.8%。
浙江某大型引供水工程,工程路線總長113 km,隧洞襯后洞徑6.7 m,全線一共32 個現地站點,設有16 處交通洞,5 處埋管,1 處穿江隧洞,1 處穿江倒虹管。整個鏈路上接入LCU 設備約53 臺,主機服務器類設備約213 臺,網絡設備約172 臺,其他類型設備包括攝像頭、RTU、NDA等約683臺,接入率約99.8%。
平臺在運維地域上實現支持廣范圍,長距離,流域級別的運維監控管理;在運維對象上,既支持傳統的IT 信息設備的監控運維,又支持工控PLC 設備的監控運維,實現信息與工控的有效融合;在運維架構上,既支持調度中心級集中式運維又支持現地站點級的分布式運維架構;在網絡安全架構上,支持管理區與控制區的集中運維管理實現。
平臺在功能實現上,以運維臺帳作為核心基礎功能,通過采集引擎完整全面收集運維對象的基礎信息以及運行狀態信息;然后通過流域級別的運維拓撲視圖,展示當前設備的運行狀態與網絡鏈路的連通狀態,也能從業務的維度展示關鍵業務涉及的軟硬件設備、鏈路狀態以及對應服務進程的運行狀態;當設備出現故障時,通過Web 或者APP 進行告警,根據告警信息生成工單,通過工單派發進行告警故障處理并且可以通過組屏圖有效指導運維人員找到需要維護的設備;故障處理完畢后可以通過運維知識庫積累運維故障處理經驗,同時在派發工單中,可以利用知識庫檢索智能找出故障的處理建議與方案,為故障排除處理提供輔助;在數據分析報表方面,提供整體運維態勢統計分析展示功能,從宏觀上查看流域設備在線率,在線分布,故障率及故障分布,并統計故障處理執行情況從不同維度生成月報。
通過平臺實現的功能解決了引供水工程由于工程范圍廣,距離長,站點多,設備雜,通信線路節點多導致的人力巡檢巡視困難,周期間隔長,難以第一時間發現故障;缺少故障精準定位與根因判斷的支持手段,設備維護搶修成難以有針對性的進行,效率低,耗時長,維護本高;工程設備中以工控系統,工控PLC 設備為主體,傳統的運維系統以傳統IT 設備為主,在通信協議,規約,監控方式等方面存在巨大的差異,傳統IT運維軟件難以實現對工控設備的運維監控管理,缺少有效的運維支撐工具等問題,在工程應用中具有重大意義。
長距離引配水工程建設是關系民生的重大工程,其重要性不言自明,人工管理、傳統自動化管理、簡單信息化管理的方式已不能滿足復雜引水工程的軟硬件運維需求,基于云網端全鏈路監控的水利自動化智能運維關鍵技術研究將對引供水工程自動化的運維工作具有重要實踐意義。本文以三個大型配水工程為例,結合其特點開展工程應用水利信息化智能運維系統需求分析,對平臺總體架構、部署架構、功能設計等進行全面研究與設計,為類似的長距離引配水工程軟硬件運維領域提供了理論依據和技術參考。
但是展望未來,社會在一步步進入大數據、人工智能時代,在長距離配水工程軟硬件運維中,需要建設的內容和突破的技術還有很多,建設一個全國乃至全世界范圍內的開源的水利工程運維知識圖譜來更高效的提出解決方案、突破現有的動態決策組件和自動化工具來完全取代人工、形成新時代的運維大數據平臺等還需要進一步的研究和探討。引供水工程智能運維下一步目標就是在基于現有的內容技術基礎上,逐步研究運用新興的IT 運維技術、網絡技術等,最終實現在工程應用中長距離網絡鏈路設備運維中解放人、取代人、超越人的目標。