唐 治,楊 勇,別華斌
(1.杭州市臨安區水利水電局,浙江 杭州 311300;2.浙江禹貢信息科技有限公司,浙江 杭州 310052; 3.安吉縣老石坎水庫管理所,浙江 安吉 313301)
浙江省地處我國東南沿海,由于特殊地理位置,易受季風環流影響,每年有梅汛和臺汛兩個特殊時期,且山丘區面積占全省陸域面積的70%以上,導致因降雨引發的山洪災害問題十分突出[1]。這些災害的頻繁發生對周邊建筑設施造成了巨大的破壞,甚至對人民群眾的生命安全帶來隱患,極大地成為影響浙江特別是山區市縣城市經濟社會發展的制約因素。
基于山洪災害帶來的大量群眾受災,經濟損失巨大等問題,依據2006年國務院批復的《全國山洪災害防治規范》中提出的“山洪災害防治能力要去山丘區全面建設小康社會的發展相適應”要求,在信息化建設中,數據面臨采集、傳輸、治理、入庫、交換這一系列流程中多個問題,例如感知體系無統一規范、傳感器類別和通信標準無統一標準、多元異構數據入倉無完善的解決方案以及數據交換共享方面存在難度等問題。為此,結合實際情況,研究和提出一種山洪災害感知數據集成規范體系,旨在建立統一感知體系規范和數據傳輸協議,解決數據不兼容、接入繁瑣、存在安全隱患等問題,同時建立數據專門管理機制,解決數據可用性不高、共享程度不夠等問題,避免數據開放不完全所導致信息資源浪費。
近年來,水利信息化高速發展,山洪災害防御工作取得較大成效,水利“整體智治”水平有所提升,但是也暴露出應急災害管理存在的短板和薄弱之處,主要分為以下幾點:
(1)感知體系集成國家尚無統一規范
目前水利感知設備設施多樣,通信協議不同,沒有統一的接口規范,導致數據集成技術難度大,接入工作量多,設備在線泛在診斷不易。
(2)傳感器類別和通信標準國家尚無標準
當前傳感器的分類尚無統一規定,傳感器本身種類繁多,原理各異,故此在傳感器分類工作上存在一定的困難,且各類傳感器通信標準不一致,導致不同物聯網企業和設備商對接各種傳感器的時候,存在許多安全隱患。
(3)多源異構數據集成尚無完善解決方案
以基礎數據為例,工程特性數據最多來源于省廳,部門和下轄區縣,由于來源、存儲形式等各不相同,數據源之間存在異構性、分布性和自治性,數據類型既包括數字、關系型數據等結構化數據,也包括圖像、音頻等非結構化數據。由于行業缺乏多源異構數據入倉的解決方案,當下將異構數據整合統一,匯聚共享是存在一定難度的。
(4)數據縱向和橫向交換存在一定困難
雖然數字化改革后,數據的邊界壁壘得到了一定程度打破,但數據共享的難度還是存在,數據部門化傾向問題突出,導致數據無法完全跨部門暢通分享,另外我國在政府數據開放規劃中尚未作出專門的系統性規定,形成相對獨立的管理制度體系,從而導致數據開放不完全,造成大部分信息資源浪費,成為“信息孤島”。
根據數字化改革主體擴面、應用場景不斷推陳出新,在對標“一體化”、“智能化”要求下,梳理山洪感知數據規范框架如圖1所示,其中總體架構主要涵蓋標準規范體系、組織保障體系、網絡安全體系、政策制度體系、基礎設施體系(物聯感知、網絡通信)、數據資源體系、業務應用體系(數據治理組件)組成[2]。

圖1 山洪感知數據規范集成框架圖
(1)基礎設施體系
主要包括物聯感知層、網絡通信層,物聯感知層主要通過基礎設施采集數據,包括雨情、水情、視頻等數據的采集;網絡通信層主要負責將采集到的數據傳輸至數據處理中心,以此保障數據的完整和安全。
(2)數據資源體系
通過數據庫、數據共享交換以及數據服務的設計,負責對采集到的數據進行綜合治理,為業務應用體系提供數據支撐。
(3)業務應用體系
通過數據治理組件,提供數據治理服務,支持快速數據治理和共享服務。
在本框架下對于數據集成的設計包括:
(1)可靠性
針對數據層、應用層等層次提供多種檢查和處理手段,保障數據的安全一致,高度可靠。
(2)開放性
充分考慮開放性,相關系統中留有相應的軟件接口,使各類數據資源得到很好的共享。
(3)數據可擴展性
考慮到業務未來發展對各方面數據的需要,要能夠支持對多種格式數據的存儲。
3.2.1 感知數據傳輸規范
通過規范感知數據上報方式,將傳感器采集到的數據通過數據鏈路,經物聯網建立與上位機通信,從而將數據匯集到上位機,數據采集傳輸到上位機后,單位編制前置上報程序,通過專線、4G/5G網卡以及GPRS等方式上報到數據倉,具體如圖2所示。

圖2 感知數據上報結構圖
3.2.2 感知數據匯聚規范
(1)數據采集
山洪災害涉及數據種類繁多,包括水雨情、視頻監控、安全監測、臺風暴雨以及部分業務數據,針對數據存儲結構不同,提供多種數據采集工具,按照通信協議要求進行統一采集處理,對于結構化數據、非結構化數據以及半結構化數據采用不同的采集工具進行數據導入,例如ETL、FTP、文件導入導出、關系數據庫數據等。
(2)數據匯聚
水利領域前端感知設備類型較多,各設備通信協議不同,通過研究一種數據傳輸協議,適配設備的異構性,從而統一整合設備監測數據,實現數據的高效傳輸,同時完成各種途徑數據抽取并同步至匯聚庫,確保匯聚庫與各數據源數據一致性、及時性。
(3)數據治理
按照水利信息資源相關標準規范要求,對集成的海量多源異構數據進行質量評估,根據數據類型及格式,定制開發數據抽取、清洗、轉換、融合、加載流程,將原始分散、重復、低質量的數據,治理成為格式統一、類型統一、單位統一、編碼一致、邏輯一致、數源清晰的高質量數據集。
(4)數據入庫
采用數據集成自適應技術,通過對現有數據進行歸集整合,繼而統一入庫。橫向數據(包括實時數據、業務數據或基礎數據)采用WebService和Webapi接口兩個途徑實現數據的采集,對于采集到的數據再做清理和處理存儲,實現數據標準統一。針對縱向系統數據,主要通過單點登錄、消息集成、DB接口方式,在遵循統一數據資源目錄的前提下,進行數據的交互。
(5)數據共享交換
設計一種省市縣三級交換體系,實現山洪災害數據縱向和橫向的共享交換。縱向,設計一種集中分發模式,如水雨情數據及基礎數據,先匯集到省水利數據倉,再共享到系統內外,實現與省、市水利數據倉的海塘相關數據共享交換;橫向,設計一種分級匯總模式,除水雨情外的其他感知數據,通過前置庫數據處理平臺數據清洗后,逐級匯集到省水利數據倉,再共享到系統內外,實現氣象局等部門之間數據共享交換。數據的共享交換通過接口服務的形式實現,需按照既定的數據格式、共享需求編制相關服務接口。
3.2.3 感知數據治理規范
(1)數據清洗設計
數據清洗是在數據抽取匯聚的基礎上,對采集的數據進行清洗、整理、篩選。通過采用正則表達式作為自定義規則,根據準確性判斷規則和控制閾值,通過上報借口進行限制,防止錯誤數據上報系統平臺,從而實現對數據有效性、數據越界、數據缺失、數據跳變等狀態進行清洗和處理,主要包括非空檢核、非法值檢核、數據格式檢核等。整個數據清洗流程如圖3所示。

圖3 數據清洗處理流程圖
數據是否符合自動清洗判斷只針對發現有效性錯誤后可以自動修改完善的數據。
(2)數據質量評價管理
確立有效、合理的數據質量評價和考核服務流程,強化問題認證、責任歸一。支持數據治理數據質量評價及考核服務,提供對各地提交的數據質量進行監督、管理與評價,主要從數據的有效性、完整性等指標進行統計、評價和告警,針對數據質量和評價不達標的地區,系統組件自動將告警信息推送至相關地區。

圖4 數據質量評價維度
(1)組件運行狀態監控
提供組件運行管理控制臺,用于統計組件運行狀態,包括接收請求數、處理請求數、來自請求單位、執行效率、規則運行數、數據處理量,并根據日、月、季、年和行政區域、數據類型維度,提供統計分析報表功能。同時實現組件的錯誤日志監控,對于錯誤時間進行后臺記錄,便于迭代組件,最終實現數據治理組件運行成效分析和監控。
(2)治理消息推送
支持對組件治理后的問題數據通過浙政釘行政體系或數據責任鏈進行消息推送、告警、通知。
(3)安全訪問控制管理
數據治理組件需要進行統一組件管理及授權訪問管理,組件管理主要包括注冊、發布、調用、監控;組件授權訪問管理主要包括訪問申請、訪問授權、調用安全認證。
針對防洪減災建設上存在的感知體系無統一規范、傳感器類別和通信標準無統一標準、多元異構數據入倉無完善的解決方案以及數據交換共享方面存在難度等問題,研究和實踐一種山洪災害感知數據集成規范體系,建立統一感知體系規范和數據傳輸協議,解決數據接入繁瑣,存在數據安全隱患的問題,通過正則表達數據清洗、DTS數據傳輸等技術,建立數據專門管理機制,解決水利數據可用性不高、共享程度不夠等問題。最終凝練形成清洗、評價數據治理組件,并通過組件對全省水利數據提供數據治理服務,實現數據治理能力的高質量提升。