傅漢霖 陸克一 游旭晨 吳志峰 楊釩

摘要:南水北調工程是緩解我國北方水資源嚴重短缺局面的重大戰略性基礎設施,但隨著相關業務系統的建設與應用,產生了大量數據資源,如何整合并利用這些數據并為工程運行服務,是智慧水利中的熱點問題。基于東線一期工程江蘇段的業務數據特點,開展數據資源梳理,形成了統一的數據標準體系,構建數據管理體系;建設貼源庫、標準庫、主題庫,推動各業務系統數據進行統一聚合;搭建數據資源管理系統,實現數據共享,形成數據可持續使用的機制。通過構建數據中臺,將在工程管理、調度運行等南水北調工程運行業務中發揮數據價值。
關鍵詞:南水北調工程;智慧水利;數據管理體系;數據共享;數據中臺
中圖分類號:TP391? ? ? 文獻標識碼:A
文章編號:1009-3044(2023)31-0085-03
開放科學(資源服務)標識碼(OSID)
0 引言
南水北調工程是緩解我國北方水資源嚴重短缺局面的重大戰略性基礎設施,事關戰略全局、事關長遠發展、事關人民福祉,其中南水北調江蘇境內輸水干線404公里,共設9個梯級,14座大型泵站,匯聚了亞洲乃至世界大型泵站數量最集中的現代化泵站群[1]。
南水北調東線一期工程江蘇段調度運行管理系統主要包括信息采集系統、通信系統、計算機網絡、工程監控與視頻監視系統、數據中心、應用系統、實體運行環境和網絡信息安全8個部分建設[2]。2022年3月,調度運行管理系統順利通過項目完工驗收,實現江蘇段工程全線智能調度管理。
近年,隨著調度運行管理系統的建成,共新增了14個業務系統,但也帶來了兩個問題:一方面由于不同業務系統的開發和維護相對獨立,煙囪式業務系統之間的數據無法聯通,形成了“數據孤島”[3]。另一方面,各業務系統獨立存放自身業務數據,數據不集中,無法利用和挖掘業務系統中沉積的數據價值。
結合以上問題,通過數據治理來解決南水北調東線工程中的數據孤島是非常緊要的。通過參考水務企業[4-5],建立整體規劃和數據標準體系[6],建設數據中臺體系,打通調度運行管理系統各業務系統數據,實現南水北調工程的智慧化和數字化轉型。
1 南水北調東線一期工程江蘇段數據中臺建設思路
1.1 總體目標
從整體視角打造南水北調東線工程江蘇段數據中臺整體數據運營能力,改變目前數據自治的建設模式,構建安全可靠的數據管理機制,對南水北調東線第一期工程江蘇段的預測預報、調度運行、工程管理、統一運維、內部管控等提供決策支撐,為水利部“數字孿生南水北調”建設提供數據底板,實現統一、融合、驅動三大目標。
1) 統一:改變目前數據自治的建設模式,打造統一的數據標準體系,構建自頂向下的數據管理服務體系,達成對各系統間公用數據、業務價值數據進行統一、集中管理的目的,加強數據庫完整性、一致性、安全性保障,為后續開展規范化的數據服務、標準化的應用研發打下堅實的基礎。
2) 融合:已建的各業務系統數據未進行統一的聚合管理,系統間各自互相對接獲取數據,無法對數據進行統一更新與維護,導致不同系統同一數據更新狀態、數據標識等不統一。因此,需要推進多專業、跨系統的資源整合,增強協調聯動、數據共享。
3) 驅動:形成數據可持續使用的機制,建立信息化建設的戰略選擇和組織形式,利用數字化技術手段把業務數據轉變為數據生產力,同時數據生產力產生的數據反哺業務,形成迭代循環的數據決策、調度運行的閉環過程,驅動業務的優化開拓和服務創新。
1.2 南水北調東線工程江蘇段數據源
南水北調東線工程江蘇段數據來源主要分兩大類,內部數據及外部數據。其中內部數據主要來源于業務系統業務庫,包括物聯網平臺、水文水質系統、調度運行管理應用軟件系統、OA辦公系統、工程管理系統等,外部數據包括外部采購數據與外部共享數據,如雨情數據、臺風數據以及水情數據。
1.3 總體框架
南水北調東線工程江蘇段數據中臺遵循核心分層框架,總體框架如圖1所示。貼源庫、標準庫、主題庫三個存儲區域的數據都可以形成數據服務,統籌已建、待建業務系統數據,對外提供服務支撐,達到反哺業務系統的目的。同時,數據在采集、加工、分析、治理等過程中需調用數據采集、數據治理、數據質量審計、數據資源目錄、數據共享等平臺功能模塊,各功能模塊集成至數據資源服務門戶中,為數據資源提供方、需求方、管理方提供統一服務。
2 南水北調東線一期工程江蘇段數據中臺主要建設內容
2.1 數據資源規劃
數據資源規劃包括現狀分析和需求調研、資源分析和數據標準體系建設等。
現狀分析和需求調研通過了解對業務部門的職能、業務、流程、資源、標準規范等情況通過多種調研方式明確各部門數據使用需求,明確部門數據公開內容,數據共享內容。
數據標準體系建設包括元數據標準建設[7]、數據采集標準建設、數據資源目錄標準建設、數據服務標準建設、數據質量標準建設,奠定數據管理基礎。
2.2 貼源庫
貼源庫用于存放從外部共享或業務系統中直接抽取出來的數據。后臺數據庫可直接從源系統全量復制到貼源庫層,通過數據清洗服務,建立標準數據庫的映射關系,實現業務系統數據庫與標準庫的數據同步。貼源庫主要存放從業務系統直接抽取來的各類數據。數據類型包括:
1) 基礎數據:湖泊信息數據、河流信息數據、泵站數據、水閘數據等;
2) 專業數據:工程監控數據、水量調度數據、工程管理數據、工程安全管理數據、工程維護管理業務、綜合辦公相關數據等;
3) 外部共享數據:水利主管部門共享數據、彩云氣象數據等。
2.3 標準庫
標準數據庫主要存放經過清洗過的基礎數據和專業數據。貼源庫中的數據來自南水北調東線一期江蘇段工程調度運行管理系統中已建的業務系統,可能存在缺失、冒大數等影響上層應用的無效數據,需要通過對數據進行相應的清洗處理后再存入標準數據庫中,能夠為業務應用系統提供數據服務。標準數據庫主要包括基礎數據庫、元數據庫、動態監測數據庫等標準數據庫。
2.3.1 基礎數據庫
基礎數據庫包括公用基礎信息數據庫和主數據庫。
公用基礎信息數據庫是在已建的基礎庫上參照國家標準規范進行優化,公用基礎信息數據庫劃分為管理域、工程與設施域、字典域和監測域。
主數據庫是集中存儲管理歷史歸檔數據的場所,永久保管具有長期保留價值、有共享需求的、經過數據質量檢查驗證的、規范化的數據。
2.3.2 元數據庫
主要存儲水利元數據,包括標識信息、內容信息、數據質量信息等[8]。
元數據是數據的內容、質量、所處語境等特征的基礎定義或結構化描述,元數據按層狀結構進行組織,其內容包括對數據集內容的描述、對數據集中各數據項的數據精度、數據的邏輯、數據源頭、數據量以及數據生產過程等的說明等。
2.3.3 動態監測數據庫
確定雨水情、工情、水質數據入庫規則,針對不同的數據來源、不同的數據生成規則、不同的數據處理邏輯,自動判斷,對報文進行解析,按照數據存儲、處理、傳輸、同步等方面的特定要求,實現各類測站監測數據的“一站一數”[9]。
工程監測數據庫存儲實時或半實時監測的數據,包括泵站水閘實時運行數據、工程安全監測數據、水量水質監測數據等。
2.4 主題庫
主題庫建設的主要內容是通過主題數據庫利用大數據平臺技術形成數據集市,為調度運行管理系統提供數據服務。主題數據存放基于數據倉庫之上的用于支撐專題分析、專業應用、輔助決策以及提供訪問、共享的數據。主題數據是按特定的應用目的和業務模型進行了重新構建、面向業務系統和各級用戶服務的數據[10]。
標準庫通過ETL服務對ODS數據進行抽取、清洗、轉換、加載等得到,主題數據則通過ETL服務對標準庫數據進行抽取轉換和加載得到。主題數據直接引用標準庫中生成的派生指標數據和匯總數據,從而保證整體統計口徑的一致性。主題數據共同組成數據集市,直接支撐管理層和分析人員的個性化、深層次的分析需求,作為面向報表服務、多維分析服務和應用服務的數據輸入。
數據集市的建設內容主要根據對業務應用管理及綜合服務、決策會商、可視化展示等綜合性應用的數據需求進行分析,結合綜合數據庫中已經收集的各類數據進行規劃,針對不同業務部門分析數據需求設計相應的數據集市,包括監測預警數據集市、水量調度數據集市、工程管理數據集市、安全管理數據集市、綜合內控數據集市等。
2.5 數據資源管理系統
2.5.1 數據采集
數據采集模塊通過工作流組件和規則引擎定義采集任務,實現定時采集,人工觸發采集,多任務并行采集等,利用多種數據采集方式,充分提高數據匯聚效率[11]。可通過可視化方式自主配置采集流程,并對采集流程、狀態進行實時監控,及時發現異常,有效保障數據采集的質效。數據采集模塊將有效匯聚水利行業數據,為數據采集提供強有力的渠道保證。
2.5.2 數據治理
數據治理是為過濾或修改那些不完整的、錯誤的、重復的數據。主要根據行業數據規律對數據進行清洗,將不符合規則的數據打上標記,自動進行預警,并通過自動或者人工干預的方式將其處理為符合規則的數據,不符合要求的數據包括冒大數、數據異常、數據缺測等。
2.5.3 數據審計
數據質量審計模塊對整合的數據進行數據校驗、規則審計、審計任務以及審計發布進行管理。出具數據質量檢測報告等工作,支持數據質量問題集中監控和管理,提供全方位的數據質量分析評估能力,為南水北調東線一期工程江蘇段數據質量管理提供支撐。
2.5.4 數據資源目錄管理
數據資源目錄維護管理系統的主要作用是保證目錄服務系統的可用性,它的功能包括數據和服務資源目錄庫的建立、更新、備份與恢復等,并支持批量模板導入。管理者能夠通過系統保存、備份、注銷與恢復信息資源目錄內容,目錄內容的更新維護由提供者負責,目錄系統的更新維護工作由管理者承擔[12]。
3 南水北調東線工程江蘇段數據中臺發展的思考
3.1 數據中臺協助規范水利數據管理能力
隨著南水北調東線一期工程江蘇段的建設,調度運行管理系統目前已建成財務系統、檔案信息化系統、工程管理系統、水量調度系統、工程監控系統、紀檢信息系統、安全生產管理系統、辦公系統、水文水質系統、視頻監控與分析系統等多個應用系統。各應用系統每天產生的數據量大,但缺乏統一的數據管控,缺少對數據資源全局視角的管理,造成數據家底不清、數據標準不統一等問題。數據中臺的建設將解決不同業務部門之間、業務部門與技術部門之間、技術團隊之間,存在溝通和理解的歧義,降低需求從提出到實現存在前后不一致的風險。
3.2 數據中臺支持水利大數據的創新應用
調度運行管理系統對監控、調度、管理等業務進行了部分的集中,也上線了統一物聯網平臺,搭建了水利模型、調度模型,實現了部分業務的聯動。但是跨業務領域的數據還是在各業務系統中,并沒有實現數據的融合,無法進行數據挖掘及關聯分析。通過對數據資源管理平臺的建設,解決現有數據未能用于輔助工程管理和調度運行決策等問題,從業務驅動走向數據驅動,體現數據的價值。
3.3 數據中臺加強數據安全管理
數據安全方面,數據分散存儲在各個系統中,各業務系統通過與其他業務系統直接對接獲取數據,存在數據安全隱患問題。通過本項目建設,使數據權限分配使用實現統一管理,使數據獲取權限透明。
3.4 促進新應用的快速迭代開發
結合數字孿生南水北調等“十四五”智慧水利建設規劃要求,平臺建成后將為加快構建具有預報、預警、預演、預案功能的新型智慧水利工程信息化體系,提供有力支撐和強力驅動,通過提前做好數據底板的規劃和布局,減少后期開發成本,提高后期數字孿生等新建信息化系統上線速度,實現快速迭代,集約發展。
4 結束語
為了解決南水北調東線一期工程江蘇段的數據資源在管理與應用方面的問題,本文在盤點南水北調東線一期工程江蘇段調度運行管理系統與數據資源的基礎上,提出建立一個數據倉庫,建設貼源庫、標準庫、主題庫,明確真實價值數據現狀;在統一的基礎設施、標準規范和保障體系支撐下,搭建一套數據資源管理系統,形成數據接入整合能力、數據資源管理能力、數據清洗治理能力、數據分析服務能力四大核心能力,建設南水北調東線一期工程江蘇段數據中臺,在工程管理、調度運行等業務應用中發揮數據價值,可為其他水利工程項目數據資源整合和應用提供參考。
參考文獻:
[1] 精細管理 強化協調 確保我省南水北調配套工程安全運行[N].河南日報,2016-11-24(003).
[2] 楊鐵樹,賈改卿,張同生.大型引調水工程自動化系統設計綜述[J].水科學與工程技術,2013(4):73-76.
[3] 劉繼民,時書燕.新時代智慧水利建設的思考[C]//莆田:2022(第十屆)中國水利信息化技術論壇論文集,2022:412-418.
[4] 韋樑.一種水務企業大數據業務中臺系統研究[J].電子技術與軟件工程,2021(9):159-161.
[5] 張文體,金利康.基于中臺思想的智慧水務建設探討[J].給水排水,2021,57(S2):538-544.
[6] 包志炎,姜小俊,黃康,等.浙江水利數字化轉型總體框架和關鍵技術研究[J].水利信息化,2020(2):1-8.
[7] 姚閣.基于元數據指標體系的北京市南水北調數據資源管理模式研究與應用[C]//中國水利學會2018學術年會論文集第一分冊.南昌,2018:260-264.
[8] 中華人民共和國水利部.水利信息核心元數據:SL 473—2010[S].北京:中國水利水電出版社,2010.
[9] 朱迅,黃世秀,沈天賀,等.時空大數據與云平臺的關鍵技術[J].安徽建筑,2020,27(11):137-138,153.
[10] 孫益,方夢陽,何建寧,等.基于物聯網和數據中臺技術的自然資源要素綜合觀測平臺構建[J].資源科學,2020,42(10):1965-1974.
[11] 莊春意,王子民.河南省南水北調配套工程運行管理數據可視化平臺設計與實現[J].河南水利與南水北調,2021,50(7):46-48.
[12] 謝云馳.交通云數據安全與隱私保護研究[D].南昌:華東交通大學,2019.
【通聯編輯:王 力】