李詠梅
(新疆維吾爾自治區水文信息中心,新疆烏魯木齊 830000)
數字孿生流域是以物理流域為單元、時空數據為底座、數學模型為核心、水利知識為驅動,對物理流域全要素和水利治理管理活動全過程的數字化映射、智能化模擬,實現與物理流域同步仿真運行、虛實交互、迭代優化。
本文簡要介紹了數字孿生概念產生的背景和主要特征,并結合水利行業特點,借鑒北京航空航天大學陶飛教授“數字孿生五維模型”思想,定義了數字孿生流域模型。隨后,討論了數字孿生流域實現過程當中勢必遇到的“大數據”問題,并希望借助先進的技術理念化解難題。文中基于數據湖構建數字孿生流域的建設方案將海量異構數據統一匯聚、治理整合、共享交換、存儲管理于集中式數據湖“算據”中心,利用數據湖內置的多模態分析計算引擎如批式處理、流式計算、交互式分析、機器學習、人工智能與領域知識、歷史場景模式、預報調度方案、業務規則、專家經驗等有機融合,建立對物理流域全要素及水治理活動全過程的模擬仿真、預測預報、優化評估、智能決策等“算法”引擎綜合布局,具有多源異構信息融合與管理、分析模型引擎快速組裝與敏捷復用、應用服務靈活適配水旱災害防御、水資源管理與調配、江河湖泊生態保護治理等業務應用場景,為實現“四預(預報、預警、預演、預案)”功能的智慧水利建設規劃、設計參考與引用[1]。
2002年,在美國密歇根大學的產品生命周期管理中心成立時的一次演講幻燈片中,Michael Grieves教授展示了產品生命周期管理的概念模型,它包括3個基本的要素:產品存在的現實空間、虛擬空間,從現實空間到虛擬空間的數據流和從虛擬空間到現實空間信息流的連接,此連接在產品的整個生命周期都存在。這個模型幾經易名,2011年后被稱為數字孿生模型,現實空間物理系統與包含了該物理系統所有信息的虛擬系統互為孿生,其中的虛擬系統稱為數字孿生。
數字孿生概念的內涵、外延在實際應用中不斷豐富和擴展。專家學者提出了許多數字孿生的定義,如2012年美國 NASA 基于飛行器仿真系統工程提出數字孿生的定義為:數字孿生是一個使用最佳物理模型、動態傳感、歷史數據等,多物理量、多維度和概率集成的飛行器(或系統)仿真。NASA 的數字孿生定義就是一個數字孿生概念的外延,同時,也深化數字孿生的內涵,將歷史數據、多維度、模擬仿真引入數字孿生[2]。
數字孿生流域的定義也是數字孿生概念的外延,其物理實體是物理流域全要素和水利治理管理活動全過程,數字孿生為物理實體的數字化映射。
我國科技工作者早在20年前就提出了類似的概念,并在治水實踐中應用。2002年,黃河水利委員會李國英撰寫的《建設“三條黃河”》一文中明確提出:“新時期的黃河治理開發和管理應著力建設‘三條黃河’,即‘原型黃河’‘數字黃河’和‘模型黃河’。‘原型黃河’指現實中的黃河;‘數字黃河’是‘原型黃河’的虛擬對照體;‘模型黃河’是按一定比例縮小的‘原型黃河’。‘三條黃河’的建設相互關聯、互為作用”。這一論述,應該是國內外最早公開提出的數字孿生流域概念,甚至是最早的數字孿生概念。
進入2l世紀以來,我國實施了以“數字黃河”“數字長江”為代表的一系列早期數字孿生流域建設工程。隨著工程的實施,使我國在數字孿生流域探索、研究方面走在了世界前列,緩解了區域防洪抗旱和用水安全面臨的嚴峻局面。雖然我們有很好的數字孿生流域概念,但在日新月異的信息技術發展背景下,早期的數字孿生流域存有一些薄弱環節。
(1)物理實體和數字孿生連接不緊密,許多基礎數據無法及時更新。
(2)受“算據”“算力”限制,物理實體不能在虛擬空間完美再現,用戶體驗受到影響。
(3)從“小數據”抽象出模型適應性較差,難以在不同尺度、不同流域上建立起具有應用價值較高的支撐服務。
(4)無法滿足影像、圖片、遙感、音視頻等非結構化數據存儲與管理需求,更難以對其進行建模、分析、預測和驗證。
(5)應用存在技術割裂、數據碎片化分布、治理協同困難。
新時期產生了不同時空尺度模型智能進化,精準刻畫物理實體不同粒度的屬性、行為和演化過程的需求;用戶沉浸式體驗的需求;實體間普遍互聯、迅速響應的需求;多類型、高頻監測數據存儲管理需求等,這些都需要更多的算據、更好的算法和更強的算力。
物聯網可為我們提供更多的算據;大數據技術為從數據通向知識,產生“柔性”模型開辟了新徑;云服務可提供更強的算力。從數據處理的方式上來看,數字孿生流域就是建立云服務之上的大數據分析處理。
為使數字孿生便于實現,北京航空航天大學陶飛教授提出了由物理實體、虛擬實體、服務、孿生數據和各組成部分連接構成的數字孿生五維模型。同理,我們將數字孿生流域模型定義為由以下5個部分組成:
(1)物理流域實體。它是客觀存在的自然地理、干支流水系及水利建設的工程體系、洪水影響范圍、經濟社會等實體的集合。
(2)虛擬流域實體。它是對物理流域的多源異構全要素和水利治理管理活動全過程進行數字化映射,這些映射要通過模型和仿真來實現,包括水利工程幾何模型、水文機理模型、行為模型和規則模型,以支持洪水演進、水利工程運用模擬仿真等[3]。
(3)服務。其包括數字孿生流域內部組件之間及為終端用戶提供的服務。
(4)孿生數據。它是生成數字孿生流域及虛實交互所依賴的數據。
(5)連接。實現數字孿生流域各組成部分的連接使信息空間與物理空間保持實時交互、一致性與同步性,從而提供更加實時精準的應用服務。
2010年,Pentaho公司的CTO Dixon率先提出數據湖的概念,其定義為“未經處理和包裝的原生狀態水庫,不同源頭的水體源源不斷地流入數據湖,為企業帶來各種分析、探索的可能性”。一般的數據湖產品都有大型數據存儲庫和處理引擎,它能夠存儲海量的結構化、半結構化和非結構化數據;可提供批處理、流式計算、交互式分析等數據處理方式和比較完善的數據管理與服務,為數據獲取、存儲、多模式處理提供全生命周期管理。
與以往存儲技術相比,數據湖具有以下顯著特征:
(1)數據高保真。不需要重新定義數據模型,在系統中會存儲一份無損的原始數據,這樣不僅簡化了數據的處理過程,還保證數據真實可靠,對具有時效性要求的實時應用提供更好的支撐。
(2)數據可存儲。能夠提供足夠用的、可擴展的統一數據存儲能力,它本身內置多模態的存儲引擎,綜合考慮響應時間/并發/訪問頻次/成本等因素,以滿足不同應用對于數據訪問需求。
(3)數據可管理。既能存儲原始數據,又能保存各類分析處理后的中間結果,隨著湖中數據的不斷積累、演化,作為統一的數據存放場所,提供對于數據的管理、治理和資產化能力。
(4)數據可追溯。具備對數據全生命周期的管理能力,提供對其間的任意一條數據的接入、存儲、處理、應用過程的可追溯性,能夠有效識別和管控各項數據產生、流動及其處理過程。
(5)數據可分析。囊括從批處理、流式計算、交互式分析到機器學習等各類計算引擎,具備計算引擎的可擴展/可插拔敏捷能力,持續對原始數據進行迭代分析,獲得超越原有數據分析服務的價值。
3.2.1 總體架構
基于數據湖擁有“分布式對象存儲+多模態計算引擎+全周期數據管理”等技術優勢,以一種更為敏捷、快速的構建方法,搭建出標準統一、接口規范、敏捷復用、高效實用的數字孿生流域總體架構,如圖1所示。
圖1 數據孿生流域總體架構
3.2.2 建設流程
數據湖包含物理流域信息融合(“建湖”)、數據匯聚存儲 (“入湖”)、整合分析(“治湖”)、共享服務(“用湖”)4個建設流程。形象的描述就是用“建湖”來形容信息感知與數字化映射,流“入湖”中的水表示未經處理的原始數據;湖中的水就代表存儲的各種數據,在湖中可以進行數據的計算、分析、建模、加工等“治湖”處理,處理后的數據仍然可以留在湖中;而流出的水代表經過信息融合、整合治理、智能分析后,下泄所需要的數據,為領域提供“用湖”信息服務支撐。
(1)建湖-信息融合。將物理流域中的河流水系、江河湖泊、水利工程等涉水要素在信息空間進行重建及數字化映射;對物理流域對象的幾何、行為、運動、狀態等信息進行實時采集和傳輸;持續將不同數據來源、數據類型、數據形態、數據模式等信息進行有機融合。
(2)入湖-匯聚存儲。確定要接入的數據源,采用離線批量導入或者在線實時接入等手段,將各類數據全量獲取與增量接入,借助數據湖提供的內置組件如資產目錄、訪問控制、任務編排、元數據管理等,構建高效共享的數據湖集中存儲體系。
(3)治湖-整合分析。將各類計算分析引擎與業務應用進行深度融合,逐步形成面向特定領域的多維時空專題模型、元數據模型等,優化數據資源整合,逐步規范、開放各類數據接口、服務調用接口等,為定制開發的預報模型、智能模型、可視化模型等模塊化組件提供靈活集成與敏捷適配,提供全局的數據資源目錄和完整元數據描述,便于快速查詢數據及更好地支撐數據分析。
(4)用湖-共享服務。萃取和沉淀專家經驗、業務規則、知識圖譜等構建知識引擎,持續對原始數據、中間成果、增量實時數據等進行迭代、訓練、預測、推演,從數據中提煉有價值的信息,為領域或跨行業應用提供信息融合、業務協同的一體化決策支持與共享服務。
綜上所述數據孿生流域建設:對物理流域進行全要素數字化映射,將多源異構如基礎數據、監測數據、業務數據、跨行業共享數據、地理空間數據等進行統一歸集、存儲管理、整合處理,融合形成數字化場景;在此基礎上,集成耦合多維多時空尺度水利專業模型、智能模型、可視化模型,調用各類通用接口服務進行分析處理,以水利專業模型為主體,智能模型作為輔助互補進行計算和推理,為模擬仿真引擎提供所需的各項參數,完成對水利業務過程的智慧化模擬;將萃取沉淀的治水經驗和水循環演變規律、反演的歷史場景等知識圖譜進行有效融合,經水利知識引擎處理形成業務全流程和服務全領域的應用服務體系,為防洪調度、水資源管理與調配、水生態保護等提供精確化決策支撐[4]。
基于數據湖構建的數字孿生流域如同興修水利一般:筑湖挖掘—采集和映射數據,引水蓄能—接入和存儲數據,建站發電—整合和分析數據,開閘放“水”—開發和利用數據,發揮數據湖技術基礎設施的乘數效應,推進水利數據湖與“水利云”有效融合,形成天上的“云”負責收集、計算和分析各類水利相關數據,助力地下的“湖”實時制定數據存儲策略,共同作用于水利信息資源共建,優化、適配和集成水利業務,以實現水利信息價值的持續挖掘,為構建數據一體化存儲、平臺邏輯統一、物理分散、統一部署的水利數字孿生流域夯實基礎,最終建成數據統一管理、數據充分共享、支撐智慧水利應用的數字孿生流域。