彭 玲,王 丹,陶富嶺
(1.新疆額爾齊斯河流域開發工程建設管理局,新疆 烏魯木齊 830000;2.黃河勘測規劃設計研究院有限公司,河南 鄭州 450003)
我國水資源分布呈現出南多北少的時空分布規律,水資源短缺已成為缺水地區經濟發展的掣肘點,習總書記提出了“節水優先,空間均衡,系統治理,兩手發力”的新時代治水方針。通過調水工程可有效解決水資源空間分布不均勻的問題,助力經濟社會的可持續發展。在調水過程中,通常面臨輸送距離遠,工程范圍廣、規模大,涉及建筑物復雜等系列問題,此外復雜的自然環境和地質條件也增加了調水工程的難度。
調水工程除承擔供水任務外,還兼具防洪、發電、灌溉、生態、航運等多重任務。因此在調水工程運行時,需進行水資源的優化調度,水閘泵站的精準控制,水質、水情的實時監測預警,此外還需保證調水工程的安全問題,實現高效、智能的工程管理。為補足水利行業在信息化方面的短板,迫切需要從傳統的管理理念和方法向專業化、精準化、智能化的新時代水利工程管理要求轉變。
大數據作為一種嶄新的研究和工作方法,在洞察海量數據間的內置規律、內在關聯、新價值方面具有顯著優勢,可進行精準決策、業務優化,在經濟社會中具有極大的應用潛力。關于大數據在信息時代的應用,各研究機構給出了不同的觀點,其中Gartner認為,大數據要具有更強的決策力、洞察力和流程優化能力,才能夠適應未來信息資產的海量化、多樣化以及高增長的特性,更新大數據的處理模式是必經之路;麥肯錫認為,目前尚且無法通過傳統數據庫軟件對大數據進行處理分析[1- 2]。國內外在水利工程大數據理論研究和工程應用方面都進行了一些嘗試,但從總體上看,目前的研究成果尚不能滿足市場對大數據技術的應用需求。筆者針對調水工程大數據,從數據生成到應用,提出了總體架構并分析了七大應用場景,為調水工程大數據應用發展提供了理論方法基礎。
遙感、物聯網、射頻等新一代信息技術的飛速發展,大幅度提升了調水工程的數據采集能力,隨之而來的問題是,數據空間尺度和要素類型變得愈加復雜。來源范圍廣泛類型眾多的數據,開始呈現出多源異構、分布廣泛和動態增長的特點。
從數據類別看,既有來自物聯網設備的水文、氣象、水質、旱情、工程安全、引供水、水生態、閘泵工況等大量的實測信息,還有大量與工程相關的調水區、受水區、沿線區域各類輔助信息,如社會經濟數據、自然地理數據、人文信息、地質災害數據、交叉工程外部信息、生態環境數據、土地利用、水土保持、工程視頻和互聯網數據等。雖然上述數據類別不一,但其并不完全獨立,相反地,各類數據之間存在復雜的業務和邏輯關系。如氣候類型的轉變會引起水資源量空間分布規律的改變,進而對調水工程、水生態環境、洪旱災害、水資源分配等一系列數據產生間接影響。從數據結構看,大數據兼具結構化數據以及非結構化數據特征,然而目前的技術架構尚無法滿足高效處理大數據的需求。
從價值密度看,新技術帶來了巨大的信息量,但同時也導致信息的價值密度降低,因此需要通過模型算法快速地從海量數據中提取有用的信息。從時效性看,某些實時性數據,比如洪災預警、工程安全、水質變化、設備故障征兆等,需要及時高效的信息處理和反饋,常規的數據分析方法難以在合理時間內獲取和處理,為此需要借助大數據技術,以實現調水工程管理的科學決策。
在長期運行管理中,調水工程的業務數據已逐漸向多源化、多態化、以及多維度的方向演變,具體表現為以下五項顯著特征。
(1)數據量規模龐大:隨著時間的累積,調水工程各類數據量增長迅速,數據量級通常在數百TB甚至PB以上。
(2)數據多源異構:調水工程數據不僅包含運行管理數據,還涵蓋了勘測規劃設計等多種來源的海量數據,多源數據伴生的問題是復雜的數據結構。
(3)數據增速迅猛:信息化技術的提升提高了運行管理水平,監測密度大幅提升,各環節的數據指標也顯著增多,相比傳統技術手段數據增速呈幾何增長態勢。
(4)數據信息價值高昂:運行管理單位以及水行政主管部門,愈加依賴于工程運行數據來進行業務處置,在工程安全和經濟運行、資源優化配置等方面數據信息的高昂價值愈加凸顯。
(5)實時要求:通過對部分工程數據(如工程安全數據)的實時監測,可以快速高效的判別險情,并及時做出相應應急決策,因此需具備實時處理的特性。
數據架構描述數據全命周期管理的流程、參與流程的功能構件以及它們之間的相互關系。數據架構圍繞調水工程業務應用數據和大數據兩類,分數據匯聚、數據整理、數據存儲、數據服務、數據應用逐級流轉。調水工程大數據通過數據資源池的全域數據采集、標準規范數據架構、深度萃取數據價值、統一數據資產管理和統一主題式服務,形成對調水工程業務應用和管理決策過程的支持[3]。
在服務于調水工程大數據的存儲與應用需求時,受制于數據處理分析等技術特性限制,傳統架構稍顯乏力。為滿足豐富的業務需求,在智慧水利數據架構的基礎上,結合調水工程的特點,構建調水工程大數據總體框架[4]。針對不同的數據類型,選用最優的技術手段進行分析處理,如采用關系型數據庫對結構化數據進行組織和管理;利用空間數據引擎進行地理空間數據的高效管理;以關系型數據庫管理目錄加文件存儲方式對半結構化或結構化數據進行組織管理。通過多種數據組織與管理方式結合,共同支撐工程大數據的存儲和管理。此外,上述數據管理方式并非獨立存在,可通過數據抽取及裝載工具進行數據間的轉換及補充[4- 5]。
基于大數據的調水工程數據應用架構具體可劃分為五個層次,分別為數據匯集、整理、存儲、服務、應用[6],其架構如圖1所示。其中,調水工程大數據匯集和整理是其存儲和應用的基礎;調水工程大數據存儲和共享研究通過數據資源化和調水工程大數據中心的構建,實現安全可靠的數據存儲和互聯互通;根據調水部門的業務需求,利用調水工程大數據實現調水業務管理和決策。
數據匯集是調水工程數據流程的起點,同時也是主體化匯聚核心能力的體現[7]。要構建調水工程大數據,首先需要對不同來源的異構數據進行采集和匯總。異構數據來源主要分為三類,上報采集數據、其他系統數據、其他部門交換數據。在數據匯集的過程中,對現有業務系統數據庫,并不需要整庫進行遷移,可按業務需求對需要匯集的數據項進行梳理,以聯合建模的方式對部門數據共享,這樣也可避免行業壁壘所帶來的數據共享難題。
數據整理是對數據匯聚后的多源及多元數據進行統一整理,主要包括梳理數據間的邏輯關系,提升數據的規范性,避免數據冗余,提升數據一致性。具體包括坐標、編碼等方面的統一,以及對海量數據進行抽取等。
針對規則化調度數據,主要是基于業務邏輯和處理規則,建立對象實體關系,將不同對象數據進行關聯。針對復雜多變的大數據,通過抽取、清洗等,連接不同來源的數據,以對數據進行有效利用。
數據存儲是通過結構化數據環境,承擔時空一體化水利數據的存儲和管理任務。為解決傳統調水工程數據存儲分散、信息孤島、利用率不高等問題,建設調水工程數據中心,實現工程數據的統一管理及應用。在建設調水工程數據中心之前應制定統一的數據存儲和共享標準,包括統一的數據編碼體系。并通過統一的技術架構和集成方法,有效降低數據交換和共享的復雜度,提高數據使用效率。

圖1 調水工程大數據總體框架
建立調水工程數據中心,可從5個方面進行:①對當前信息系統已存儲的原始數據進行梳理,獲悉各類數據以及數據結構之間的邏輯關聯;②根據業務需求制定科學合理的工程數據資源目錄,實現數據接口、元數據格式、數據編碼的統一定義;③確定數據整合規則及策略,以此為基礎建立嚴格的數據校驗機制;④通過中間件技術實現數據資源的統一訪問和調用降低整合成本,實現數據整合;⑤開發分布式數據存儲云平臺,實現基于云的數據統一存儲和共享。
數據服務是從存儲層抽象出來的標準化、可共享的服務[6]。目前信息化呈現出橫向拓寬、縱向加深的發展趨勢,大量的多種類低價值數據源源不斷的涌入數據庫,要實現對數據的高效利用,需滿足前置條件即快速準確的從海量數據中獲取有價值的信息。通過Map和Reduce可以有效的對數據進行歸類、關聯、分析、重組,滿足數據分析處理的業務需求。調水工程大數據分析的著力點在于根據業務應用的需求,實現對數據的處理、挖掘和可視化操作,主要的技術手段為依托于云計算的數據挖掘、機器學習等。
依托大數據技術可以充分挖掘數據的應用和決策價值。通過耦合分析實時、歷史數據,對調水工程數據進行實時監控、動態分析、預警預報、決策生成,實現跨區域、跨部門的信息資源一體化,使大數據具備知識服務功能,對不斷變化的數據進行態勢評估與可視化表現,從而提升調水工程管理決策水平。
依托Hadoop等大數據處理平臺可實現調水工程大數據的具體應用。Hadoop具備強大的批量數據處理和分析能力,在調水工程數據架構中,可采用該系統存儲非結構化和半結構化數據,結合MapReduce批量處理歷史監測數據,為監測數據的分析挖掘和模型計算賦能。在調水業務應用中,一些關鍵數據指標如雨情、水情、工情等大量實時數據需要進行高效、實時的處理操作,在數據應用架構中加入Storm實時計算框架,可大幅提升實時數據信息的決策處理能力。
結合調水工程調度管理與運行維護實際需求,大數據在調水工程中主要有以下典型應用場景。
(1)水量優化配置。如何進行科學合理的水量分配是調水工程需要著重解決的核心問題。借助大數據技術預測受水區需水變化規律、水源區來水變化過程,對水量實時調度信息、用水戶基本信息等多維數據進行綜合分析,為優化水量分配原則、合理制定水源地水量調度方案及供水方案,提供智能化的決策依據,達到提高用水保證率的目的。
(2)工程安全管理。調水工程具有線路長、范圍廣的特性,保證工程的安全性是調水工程運行的先決條件。大數據可以通過對地形地質、氣象水文、交叉建筑物信息、以及社會經濟等數據進行融合分析,構建針對調水工程安全管理的多維大數據庫,實現數據重組、整合和分析,進而實現工程安全監測、實時診斷、以及預警發布等功能。
(3)供水成本優化。供水成本核算涉及輸水損失、工程運行維護、工程管理等參數和指標,數據的信息量較大。通過開發合理的供水成本模型優化算法,并結合大數據分析技術,針對水量分配方案等相關方案信息,實現供水成本費用測算和成本費用優化,為工程運行精細化管理提供技術支撐[7]。
(4)工程機電機組故障診斷和預警。將機組振擺、壓力脈動、發電機局放、變壓器油色譜等在線監測數據及監控系統數據進行綜合分析處理,通過數學運算提取信號特征值,利用大數據技術分析設備運行規律,提取長周期趨勢分析結果,評估機電機組設備的健康狀態,為狀態檢修和維護提供科學依據[7]。
(5)水環境監測和水資源保護。在水環境監測方面,個人在移動社交平臺上發布的突發水污染事件成為重要信息源。通過對此類數據進行數據提取、關聯分析和挖掘利用,為水環境監測和預警提供依據。在水資源保護方面,將重點行業的用水數據納入到調水工程大數據關鍵分析體系之中,逐步完善水資源監管體系,從根源上提高用水效率,提升行業效益。
(6)洪災預警管理。傳統洪澇災害預測通常是通過在目標區域內設置雨量監測站,通過實時和預測降雨情況,利用水文模型進行洪水預測。這種方式存在洪水預見期短、預報精度不高的問題。采用大數據進行暴雨洪水相似性分析,結合歷史洪澇災害數據,則可有效彌補水文模型預測洪水的技術短板。
(7)旱災預警管理。通過對衛星遙感、地形地貌條件、歷時降雨、江河水位和歷史災情等海量數據進行整合,在此基礎上建立旱災預測模型,能夠有效預測旱情,提前優化水庫蓄水,降低旱災發生的可能性,減少旱災損失,使調水工程的水源供給得到保證。
傳統水利數據分析方法為我國水利信息化發展做出了有力貢獻,但隨著信息技術的飛速發展,以及水利業務數據分析處理需求的不斷增長,迫切需要新的數據分析處理方法。調水工程大數據研究方法技術優勢明顯,相較傳統方法具有本質區別,主要表現為:
(1)分析處理數據體量迥異。傳統的數據分析方法是基于少量的抽樣數據因此不能確保分析結果的全面性以及可靠性,而大數據分析方法則是依托于多源異構的海量數據,相較于傳統方法雖然增大了數據處理技術難度,但分析結果更加精準、智能。
(2)數據分析維度、角度差異性較大。傳統水利數據分析方法僅針對于某一專業或某一部門,而大數據分析則立足于多維度、多角度,跨越了專業、部門甚至于領域的限制,從數據間復雜的邏輯規律尋根溯源,更加深入了分析數據背后所蘊含的內在機理。
大數據技術為調水工程管理決策提供了新思維和新手段。本文介紹了調水工程大數據特點、大數據技術架構、大數據應用方法以及應用場景,但在調水工程大數據集成、調水工程大數據分析挖掘算法、調水工程大數據數據安全等方面尚未完整論述。大數據在調水工程中的應用呈現良好的發展態勢,需不斷進行研究和應用,以逐步形成調水工程大數據的理論方法體系。