關鍵詞:數據資源;數據治理管理;算力;數據安全;數字李生黃河中圖分類號:TP39;TV882.1 文獻標志碼:A doi:10.3969/j.issn.1000-1379.2025.08.002引用格式:,,.數字孿生黃河數據治理管理研究與實踐[J].人民黃河,2025,47(8):5-9.
Research and Practice on Data Governance and Management for the Digital Twin of Yellow River
YU Haihong, XU Zhihui, CHEN Feng(Information Center,Yellow River Conservancy Commission,Zhengzhou 45OoO4,China)
Abstract:InordertodoagoodjobinthegoveranceandmanagementofdigitaltwinYelowRiverdatandconsolidatethedatafoundation of thedigitaltwinYelowRiver,thispapersummarizedandanalyzedthecurrntstatusofYelowRiverdatastorageandmanagementAddressingthemainexistingisses,itonductedreseachontedatagoveancesstem,computingpowerasurancesste,scuritysu ance measuresandtheraspects.According to teprincipleof“onedatafromonesourcebyonepathwa,andonedataformultpleuses\",it establishedtedatagoveacesstmforthdigialtwinYeloiverInaccordnceihtepricipleof“inteatigathasbilt, coordinating what is under construction,and standardizing new construction”,a“ 1+X+1 ” digital twin Yellow River computing power support systemwasbuilt,andthedisasterecoverybackupsystemanddatasecurityprotectionmeasureswereimproedItalsointendedtoiprove disasterrecoverysystemandtrengthendatasecuityprotection.UsingthereservoirdataaboutthergionoftheYelowRiverBasinasacase study,data goverancepracticewascrdoutadthegoveranceachieveentdatacovering3673eservoisinthYelowRverBasnas formed,demonstrating the feasibility of data governance for the digital twin Yellow River.
Key words:data resources;datagovernanceand management;computing power;data security;digitaltwinof Yelow River
0 引言
水利部把建設數字孿生流域作為推動新階段水利高質量發展的重要路徑,按照“需求牽引、應用至上、數字賦能、提升能力”要求,加快構建數字孿生水利體系[1-2]。數字孿生水利建設是一項復雜的系統工程,做好數據治理和信息資源整合利用至關重要。水利部組織開展數字孿生水利“天空地水工”一體化監測感知夯基提能行動,包括建設流域數據歸集平臺、持續開展流域內監測數據歸集治理[3]。黃河水利委員會(以下簡稱黃委)把數字孿生黃河建設作為推動新階段黃河流域水利高質量發展的重大任務、重要路徑,全流域貫通、全領域覆蓋、全鏈條聯動推進數字孿生黃河建設[4]。數字孿生黃河建設具有良好的基礎,早在2001年黃委就啟動了“數字黃河”工程建設,提出把黃河裝進計算機[5],編制了《“數字黃河”工程規劃》,建設基礎設施,研發數學模型,構建防汛減災、水資源調度管理、水資源監測保護、水土保持、工程建設與管理等核心業務應用系統[,取得了顯著成效。在“數字黃河”工程建設基礎上,守正創新、迭代升級,充分運用物聯網、云計算、大數據、人工智能、虛擬現實等新一代信息技術,建設具有預報、預警、預演、預案(以下簡稱四預)功能的數字孿生黃河,為黃河流域水利高質量發展提供強力驅動和有力支撐,是當前一項重大而緊迫的任務。高質量的數據資源是高水平建設數字孿生黃河的基石,當前數字孿生黃河數據治理工作面臨諸多挑戰,需要高度重視并探索解決途徑。水利行業針對數據治理進行了有益探索,但主要聚焦在數據治理內容和治理流程方面[7-I],對包括數據模型和數據服務平臺等在內的數據治理體系缺乏系統性考慮,同時對算力支撐和安全保障考慮也較少。
筆者通過分析黃河數據存儲與管理情況,針對存在的主要問題,從數據治理體系和算力支撐體系、安全保障措施等方面進行較為全面的研究,提出對策措施,并以黃河流域(片)水庫數據為例開展數據治理實踐,以期能夠夯實數字孿生黃河數據基礎
1黃河數據存儲與管理情況
1.1 發展歷程
《“數字黃河”工程規劃》提出構建“ 1+7+N+1 數據存儲與管理體系,包括1個黃河數據中心、7個專業數據分中心 Ω,N 個基層數據匯聚中心和1個數據災備中心。黃河數據中心為一級數據中心,負責接收各專業數據分中心提供的數據,并通過統一的平臺和接口為各應用系統之間的數據共享和交換提供服務;專業數據分中心為二級數據中心,負責存儲滿足自身業務需要的數據,由所在單位的專業部門來負責更新、維護、備份;基層數據匯聚中心為三級數據采集和存儲的網絡節點,按照統一的數據格式和接口協議標準向上提交數據[12]
經過持續建設,基本形成了以黃河數據中心為主體的黃河數據存儲與管理體系,為數據存儲和系統部署提供了重要保障。2004年黃河數據中心(一期)工程建設完成,成為全國水利系統首個投人使用的數據中心。2010年建設數據交換與共享服務平臺,實現黃河數據中心與分中心的互聯互通。2012年黃河數據中心機房樓建成使用,基礎環境保障能力得到增強,同年開展了數據資源目錄收集、整編和發布工作。2015年搭建黃河云計算平臺,同時掛牌“水利部北方數據災備中心”和“水利財務分中心”。2016年黃委提出“六個一”信息化建設任務,要求將治黃業務和政務應用的歷史和實時數據納入黃河數據中心,建設“一個庫”。2019年開展國產化通用算力建設。2023年初步構建人工智能算力。
1.2 取得成果
1.2.1 數據資源情況
隨著黃河流域“天空地水工”一體化監測感知網的逐漸完善,黃河數據資源逐步豐富。目前,黃委所屬水文站145處、水位站93處、雨量站900處、蒸發站38處、泥沙站118處,水庫、河道及濱海區淤積測驗斷面824個,干流取退水口137個,水功能區水質監測斷面127個、地下水水質監測井578口、水環境監測中心5個,水土保持科學試驗觀測站3個、水土流失動態監測站52個,廣泛采用衛星遙感、無人機監測、視頻監視、物聯感知等新型監測手段,采集黃河流域水文、水資源、水生態環境、水土保持、水利工程等數據。據統計,黃委數據資源目錄包括4大類57小類共計1231項目錄信息。地理空間數據方面,現有黃河“一張圖”等基礎圖層及專題圖55套。數據庫方面,現有各類數據庫63套,存儲數據7.99億條。
1.2.2 算力資源情況
算力資源涵蓋通用算力、高性能算力和人工智能算力三類,包括國產化和非國產化2套體系。據統計,通用算力方面,國產化體系共計5968個計算核心、14 TB內存,非國產化體系共計7736個計算核心、49TB內存。高性能算力方面,國產化體系達到20TFlops(每秒萬億次浮點計算),非國產化體系達到103TFlops。人工智能算力方面,均為非國產化體系,達到 22 TFlops。
存儲資源包括國產化和非國產化存儲資源。國產化存儲資源總可用容量173TB,非國產化存儲資源總可用容量 2 432TB 。
容災備份方面,黃河數據中心基于備份一體機及虛擬化平臺自帶的備份功能,實現核心業務數據及關鍵業務系統的本地備份;部分委屬單位建設有本地備份系統。
1.3 主要問題
1)數據資源整合共享不充分。數據資源采取分散管理模式,數據標準不統一,數據質量差異大;基礎數據、監測數據存在“一數多源”現象;業務管理數據分散在各業務系統中,存在“數據孤島”;部分數據尚未與黃河“一張圖\"實現數圖聯動;數據匯聚治理服務技術手段落后,缺乏統一的數據匯聚治理服務平臺。
2)算力資源尚未有效形成合力。算力布局有待優化完善;近年來各單位建設的算力資源采用不同的算力架構和服務器品牌型號,導致共享和統一調度困難;國產化算力所占比例不高,部分單位的核心業務系統仍在非國產化算力平臺上運行。
3)保障體系存在薄弱環節。信息化基礎設施存在短板,缺少委級災備中心;現有機房整體能耗較高,不符合機房能效標準;政務外網區與互聯網區混用算力資源,存在較大的網絡安全風險;數據加密、脫敏等技術手段不足,對敏感數據的保護能力較弱。
2 數據治理及保障體系構建
數據是原型黃河及其影響區域內的自然和社會各類要素的數字化表達,全面、準確、現勢的數據是保持數字孿生黃河與原型黃河精準性、同步性的前提。為此,建立數據治理及保障體系,對多源異構、標準不一、質量參差不齊的數據進行有效治理顯得尤為必要。本研究提出的數據治理及保障體系,由數據治理體系、算力支撐體系以及安全保障措施三部分構成。數據治理體系通過構建軟件平臺和數據處理分析,實現數據匯聚、治理和服務;算力支撐體系通過搭建硬件環境,為數據治理提供必要的存儲和計算支持;安全保障措施從容災備份和數據安全防護兩方面確保數據安全。
2.1 數據治理管理思路
按照“一數一源一路徑、一數多用”原則,開展數字孿生黃河數據匯聚、治理和應用工作。以數據模型為框架,以水利對象名錄為基礎,遵循數據采集治理及數據庫建設的標準規范,融合結構化與非結構化數據,整合矢量數據與柵格數據,加強算力資源和安全措施保障,形成“分級采集治理、按需匯聚共享、一池容納數據、多平臺協同服務、統一訪問門戶、依據授權使用”的數據治理管理格局,夯實數字孿生黃河的數據資源基礎。
2.2 數據治理體系
2.2.1 建立數據模型
1)數據模型。數據模型包括水利數據模型和水利網格模型。水利數據模型是面向水利業務應用的多目標復雜需求,構建的集水利對象的時空特征、業務特征和關系特征于一體的模型,以水利對象為核心,實現時空屬性、業務屬性和對象關系的完整描述和一體化管理[13]。水利網格模型是根據自然流域、水資源分區、水功能區劃、河段、灘區、河湖管理范圍、行政區劃和數值計算等需求構建的網格化管理模型,實現流域水旱災害防御、水資源管理與調配、河湖管理、工程管理等水利業務的網格化聯動。
2)水利對象關系。水利對象關系主要分為空間關系和水利業務關系。空間關系是水利對象在空間上抽象表達為點、線、面后,相互之間的空間邏輯關系,如引黃涵閘和黃河堤防分別表示為點和線后,空間關系是點在線上。業務關系是不同類型水利對象之間存在的業務關聯關系,如引黃涵閘和引黃灌區之間存在供水和用水關系。
3)水利對象名錄。水利對象名錄是指記錄和管理涉水對象的信息列表,包括流域、河流、湖泊、水利工程、水利單位、監測站點等涉水對象的名稱和代碼,是開展數據治理的基礎,是數據模型建立和保持各種關系的紐帶。
2.2.2 構建數據資源池
根據《數字孿生流域建設技術大綱(試行)》,數據資源主要包括基礎數據、監測數據、業務管理數據、地理空間數據、跨行業共享數據以及元數據[14]。在黃河數據中心匯聚上述數據,構建數據模型和水利對象關系,打通數據治理鏈條,加強數據質量管理,構建多層級數據資源體系,形成數字孿生黃河數據資源池,為9 2+N′ 業務應用提供統一的數據服務。相關單位對自身業務工作中產生的水文、水資源、水生態環境、水土保持、水利工程等數據,按照統一技術標準進行初步治理后形成專業數據庫,按需向數字孿生黃河數據資源池匯聚數據。
多層級數據資源體系主要包括源數據、治理數據和主題數據等。構建源數據體系,初步整合匯聚的源數據,使其基本保持初始形態并保存在數據資源池,形成數據治理的基礎。構建數據治理體系,按照數據模型和水利對象分類及數據標準體系,抽取源數據進行整合、加工、轉換并流轉到治理數據庫,為數據服務奠定基礎,同時建立源數據到治理數據庫的數據同步更新機制,保證數據一致性。構建主題數據體系,按照業務應用需求,對治理后的數據進行統計匯總分析維度設計、數據集市設計、業務專題設計等,為業務應用提供便捷化數據主題分析服務。
2.2.3 搭建數據服務平臺
數字李生黃河數據多源異構、規模龐大,數據服務平臺實際上由數據匯聚治理平臺、黃河“一張圖”平臺、衛星遙感影像獲取與處理平臺、無人機管理調度與數據處理平臺、視頻級聯集控平臺等多個平臺有機組成,通過多平臺協同實現多源數據匯聚、治理和服務,支撐模型計算和業務系統應用。
1)數據匯聚。數據匯聚治理平臺主要實現基礎數據、監測數據、業務管理數據等的匯聚以及服務提供等。黃河“一張圖”平臺主要實現地理空間數據管理、地圖服務匯聚與提供、通用GIS功能服務以及基于地理空間位置的信息服務等。衛星遙感影像獲取與處理平臺主要實現衛星遙感影像獲取、專業化影像處理、信息提取及服務等。無人機管理調度與數據處理平臺主要實現無人機管理、應急調度、數據匯聚與專業化處理等。視頻級聯集控平臺主要實現跨層級視頻聯網、視頻圖像智能識別以及視頻服務提供等。
2)數據治理。對匯聚后的多源數據進行清洗融合、關系建立、質量控制、元數據管理等,實現基礎數據、監測數據、業務管理數據、地理空間數據等有效融合,提升數據的完整性、準確性、一致性和可用性
3)數據服務。主要以數據服務接口和地圖服務接口等方式,向“ 2+N′′ 業務應用提供高效數據服務。
2.2.4 開發數據資源門戶
實現數字孿生黃河數據資源一站式服務,包括數據資源目錄的注冊、審核與查詢,數據服務接口和地圖服務接口的注冊、管理與查詢,實體數據查詢,數據服務申請審批以及用戶管理等。
2.2.5 完善治理管理制度與標準規范
建立健全數據治理管理制度與技術規范,明確數據匯聚與治理規定、數據質量要求、數據安全要求,以及數據資源目錄和元數據規范、數據庫設計規范、數據服務接口規范等,為有序有效推進數據治理管理工作提供保障。
2.3 算力支撐體系
考慮當前技術發展狀況、黃委算力建設現狀以及委屬單位原有系統部署情況等,按照“整合已建、統籌在建、規范新建”原則,構建“ 1+X+1 ”數字孿生黃河算力支撐體系,即1個黃河數據中心、 X 個算力節點、1個異地災備中心。在黃河數據中心現有設施基礎上進行升級擴展,構建集通用算力、高性能算力和人工智能算力于一體的黃河算力中心,集中部署委級應用系統、支撐模型計算和存儲所需數據,為不單獨進行算力建設的委屬單位提供算力服務;與《“數字黃河”工程規劃》提出的專業數據分中心相對應,在層級多、系統用戶多的委屬單位建立 X 個通用算力節點,集中部署本單位應用系統以及存儲專業數據;科學選址建立黃河數據中心異地災備中心,實現核心業務數據容災和關鍵業務應用容災。
考慮網絡安全、基層單位技術力量以及資源集約利用等因素,《“數字黃河”工程規劃》提出的基層數據匯聚中心不再單獨建立,算力資源逐步整合上移,由委屬單位算力節點向相應的基層單位提供算力服務。
2.4 安全保障措施
通過完善容災備份體系和數據安全防護措施,加強數據安全保障。黃河數據中心和算力節點建立本地備份系統,實現核心業務數據和關鍵業務系統的本地備份;黃河數據中心向各算力節點提供備份服務,實現核心業務數據異地備份;黃河數據中心建立異地災備中心,實現核心業務數據和關鍵業務系統容災。依據《水利數據分類分級指南(試行)》的規定,開展數字孿生黃河數據分類分級與標識工作,建立一般數據、重要數據及核心數據目錄,實施分類管理,嚴格控制數據使用權限;加強數據保護措施,利用數據脫敏、數據加密、數據訪問控制、安全審計等技術手段,構建數據安全防護體系;構建數字孿生黃河可信數據空間,探索建立“原始數據不出域,數據可用不可見”[15]的數據使用機制和技術支撐體系,更好促進數據開發利用和數據安全保障能力提升。
2.5 數據治理關鍵技術探討
1)水利數據模型彈性擴展技術。考慮到水利對象及其屬性的變化,須適時對水利數據模型進行彈性擴展,實現一處改動則整體鏈式協同,保持水利數據模型的完整性和一致性。
2)結構化數據與地理空間數據有機聯動技術。水利對象名錄、基礎數據、監測數據等結構化數據與地理空間數據有機聯動,實現數據匯聚治理平臺、黃河“一張圖”平臺等數據同步。
3)多模態地理空間數據平滑集成技術。各類地理空間數據應平滑融合集成,包括影像數據融合、地形數據融合、BIM與傾斜攝影模型融合、BIM與地形融合、傾斜攝影模型與地形融合、矢量數據與場景融合等,實現多維、多尺度、多要素數字孿生場景平滑銜接。
4)水利對象統一編碼技術。水利對象代碼必須具有唯一性,須對各類水利對象進行統一自動編碼,并實現全生命周期管理。
2.6 數據治理及保障體系實施路徑
1)打通數據鏈條,釋放數據價值。健全數據共建共享機制,打通黃委內部、黃委與水利部、黃委與流域省(區)之間的數據鏈路,按需共享委內外數據資源。做好數據匯聚,針對業務需求,形成數據需求清單,逐項匯聚數據。開展數據治理,融合基礎數據、監測數據、業務管理數據、地理空間數據和跨行業共享數據,構建數字孿生黃河數據資源池。精細數據服務,實現數據間協同聯動,提供黃河“一張圖”服務和數據產品服務。
2)挖掘算力潛能,統籌算力建設。整合國產化算力資源,各單位現有算力資源保持物理位置不變,國產化算力資源納入統一資源管理平臺,非國產化算力資源逐步自然淘汰。抓好算力資源建設,依托國家數字孿生水利建設工程(一期)項目黃河流域建設任務,升級擴展黃河數據中心算力資源,以滿足當前數字孿生黃河建設需要。建設算力資源管理平臺,實現異構資源統一納管、多級組織精細化管理、算力資源閉環管理。
3)強化保障體系,確保數據安全。改善基礎環境,對黃河數據中心現有機房進行綠色節能改造,建設模塊化機房。提升容災能力,推動黃河數據中心容災備份項目立項,建設異地災備中心。構建安全體系,謀劃DMZ區算力基礎設施建設,加強網絡安全和數據安全技術防護。
3數據治理實踐成效
水庫數據作為關鍵的水利工程信息,在流域管理工作中發揮著重要作用。針對黃河流域(片)水庫數據存在的不全、不準、重復等問題,按照“一數一源一路徑、一數多用”原則,對分散于水庫運行管理系統、防汛指揮系統、視頻綜合管理平臺等多個系統(平臺)
的黃河流域(片)水庫數據進行了示范治理
通過對水庫名稱、代碼及行政區劃等關鍵信息的對比分析和去重處理,形成黃河流域(片)水庫對象名錄數據,以此作為水庫數據治理的基礎。結合黃河流域特點,對水庫數據模型進行完善和優化,擴展水庫建筑物和水庫安全生產責任人等基礎屬性項、水雨情等監測屬性項、水庫調度和病險水庫管理等業務管理屬性項,對水庫各類屬性項數據逐項進行匯聚、清洗、融合、質量控制,并建立與水庫所在河流、行政區劃等的關聯關系,實現與黃河“一張圖”的融合集成。同時,對水庫所在河流、所在省(區)、工程規模、超預警水位等多個維度進行統計分析,提供水庫數據服務。
通過規范化數據治理,最終在黃河數據中心形成了黃河流域(片)3673座水庫共計1555萬條數據的治理成果(界面展示見圖1),為黃河防汛系統、小水庫安全風險預警系統等提供了堅實的數據支撐
圖1黃河流域(片)水庫數據治理成果界面展示 Fig.1InterfaceDisplayofReservoirData Governance Resultsinthe YellowRiverBasin(Area)

4結束語
數據治理是數字孿生黃河建設的一項重要基礎性工作。加強數據治理,強化算力和安全保障,構建全面、準確、現勢、權威的數字孿生黃河數據資源體系,對于實現數字孿生黃河與原型黃河同步仿真運行、虛實交互、迭代優化起到關鍵作用。黃河流域(片)水庫數據治理取得初步成效,表明開展數字孿生黃河數據治理是可行的。
隨著大數據、人工智能等技術發展,數據治理將愈發重要,應進一步創新數據治理管理機制,加強工作統籌組織和頂層設計,統一技術標準規范,深人開展數據治理管理工作,更好支撐數字孿生黃河建設。
參考文獻:
[1]張岳峰.李國英給水利部卓越水利工程師培養工程(數字孿生水利班)全體學員回信[EB/OL].(2024-12-21)[2024-12-27].http://www.mwr.gov.cn/xw/slyw/202412/t20241221_1725393.html.
[2]李國英.為以中國式現代化全面推進強國建設、民族復興偉業提供有力的水安全保障:在2024年全國水利工作會議上的講話[J].中國水利,2024(2):1-9.
[3]中華人民共和國水利部.數字孿生水利“天空地水工”一體化監測感知夯基提能行動方案(2024—2026年)(水信息[2024]178號)[A].北京:中華人民共和國水利部,2024:18-20.
[4]祖雷鳴.數字孿生黃河建設先行先試進展和成效[J].水利發展研究,2024,24(9):5-8.
[5]李國英.建設“數字黃河”工程[J].人民黃河,2001,23(11):1-4,46.
[6]李國英.“數字黃河\"工程建設實踐與效果[J].中國水利,2008(7) :30-32.
[7]李建新.數字孿生海河建設及關鍵技術[J].中國水利,2022(9) :17-20.
[8]楊勝飛.數據資源整合共享背景下的水利業務數據治理應用探討[J].內蒙古水利,2022(3):60-62.
[9]李班,陳雅莉,鄒冰玉.面向水文數字化轉型的數據治理研究[J].水文,2024,44(2):34-42.
[10]王銘銘,董凱頌.水資源多元數據融合與治理技術探討[J].長江技術經濟,2021,5(5):83-86.
[11]王軍.黃河流域空天地一體化大數據平臺架構及關鍵技術研究[J].人民黃河,2021,43(4):6-12.
[12]水利部黃河水利委員會.“數字黃河”工程規劃[M].鄭州:黃河水利出版社,2003:133-146.
[13]程益聯,付靜.水利數據整合共享研究[J].水利信息化,2014(6) : 13-17.
[14]謝文君,李家歡,李鑫雨,等.《數字孿生流域建設技術大綱(試行)》解析[J].水利信息化,2022(4):6-12.
[15]新華社.中共中央國務院關于構建數據基礎制度更好發揮數據要素作用的意見[EB/OL].(2022-12-19)[2025-01-10].https://www.gov.cn/zhengce/2022 - 12/19/content_5732695.htm.
【責任編輯栗銘】