王 亮
(廣東省防汛保障與農村水利中心,廣州 510000)
20世紀70年代至今,水利建設智能配置、水利信息資源整合一直是我國的重點工程任務。隨著社會經濟、城鎮化建設的快速發展,水利行業受洪水災害、水污染、水資源短缺、水利信息人工采集、加工、管理和使用等問題的挑戰越來越大,不僅制約了水利行業的可持續發展,而且嚴重影響了社會經濟發展和生態可持續保護[1]。
提高水利信息使用/管理價值,以高效、合理的實現水利工程調度決策工作。2012年初,Google提出了知識圖譜技術,其核心是通過組建實體-關系-實體的數據關系組[2],構建網絡狀的信息工程體系,對不同區域內水利信息具有相似關系特征值進行聯結,以進行水資源合理調度、水工程智能監管[3]。
為破解北江流域水利改革發展的難題,實現智能、合理且準確的調度北江流域水工程,文章基于江北流域水利基礎信息,構建智能化知識圖譜,實現“四預”(預報、預警、預演、預案)功能,優化北江流域水工程聯合調度系統。并在此基礎上進一步挖掘知識圖譜中水利資源,以提高流域內洪水、旱情、地下水沉降和水污染的監測、預警、防護能力,達到區域水工程高質量調度總目標,落實防災減災的重要指示。通過知識圖譜智慧化調度系統,充分發揮北江流域水利工程防災、供電、生態等綜合經濟效益,實現水利智能化監控調度、區域高質量建設和環境可持續發展的任務。
研究區位于廣東省境內的北江流域,地理位置為E111°52′-114°41′,N23°10′-25°25′,流域北接南嶺和長江分界,南接分水嶺最高點畫眉山,平均海拔約1752m。北江流域地勢北高南低,上游陡,而中游順直,下游相連珠江三角洲地區,流域支流眾多,其中,集雨面積超過1000km2的支流13條,且各條支流呈現葉脈狀排列,支流口接近,加之每年降雨量大,易造成洪水大面積集中爆發、山體滑坡等現象。在春夏之際,北江流域多暴雨,常引發洪水危機,造成經濟和生活損失。
流域性水利知識包括事實類知識和認知類知識,因此,詳細的掌握水利綜合知識,對北江流域水工程知識圖譜構建研究有極為關鍵的幫助。通過描述水利知識組成單元和概念[4],實現不同類型水利知識的關聯特征,以構建完善的水利綜合知識圖譜,見表1。

表1 水利知識組成單元和基本概念
由表1可知,事實類水利知識一般分為自然、工程和社會對象,分別指在自然界天然存在的流域、湖泊等,人工修建的水庫、灌溉渠、水電站、泵房等人為安全措施和水利管理人員對水文、水域地理位置、職責等類的管理,其特點是具備抽象性、認同性和普適性等,也是目前水利學科知識和預防措施的關鍵點;認知類知識主要是指在通過科學理論、原理、方法、數學模型、統計特征等對水利知識進行相關研究。
表1為水利知識圖譜體系,其核心是水利知識表示、水利抽取、水利查詢存儲、水利推算和水利交融五部分。其中,水利知識圖譜體系主要通過結構化、半結構化和非結構化方式抽取水利知識;水利知識查詢和存儲主要以數據劃分、查詢優化和分布式查詢為主;水利知識主要通過可視化和信息推薦進行展示,而水利知識則通過實體對齊、屬性對齊等完成水利知識交融。最終,通過不同特征水利知識單元構建智能化、可視化和調度信息精準化的水利知識圖譜體系,實現高效、合理的江北流域水工程調度系統。
1.4.1 實體關系獲取
水利實體關系獲取是指在非結構化水利數據中,構建網絡矩陣確定水利實體間的關系特征。通過統計分析法獲取不同水利實體數據在文本中出現的次數,隨后,尋找數據共性,以分析不同數據中水利實體所占的比例,當共同出現的比例高于某一標準值時,知識圖譜系統則認定兩者間存在某種聯系,進而對不同水利實體(流域、河流、湖泊、管理機構)類型關系定義,以抽取實體關系、實體和屬性指標,通過相似算法將這些抽取數據連接至知識圖譜概念模型中,實現水利實體推薦和共享,以大量水利數據幫助水利工程領域進行聯合調度工作。

圖1 水利領域知識圖譜體系框架
1.4.2 多類型水利知識融合
融合是指將不同的數據源、概念、特征和事物基本點有機的統一起來,進而實現知識圖譜信息相互溝通的目的。文章水利知識融合分為實體、數據屬性等層面進行。實體融合是以此通過不同流域內水利數據源的語意關聯,將不同外界環境、影響因素等關聯后,便捷獲悉各領域內的水利知識信息,經進一步確定相互水利關系,進而有效的避免水利工程出現的危害。水利知識屬性融合是不同源數據中屬性一致的問題,以實現同一屬性水利信息的相互聯系,形成多層次、全方位的知識圖譜系統。
水利知識圖譜的構建不僅有利于北江流域水利信息的便捷采集、查詢和分析,而且能夠有機的實現不同轄區水利信息資源共享,實現區域內水工程聯合調度的基本職能。文章通過設計一種高可靠性和低耦合性的多層次、多功能的水務知識圖譜模塊:
1)水利信息資源模塊:
該模塊主要功能是采集水利信息數據源,按照結構化體系抽取水利原始文本數據、地理數據、水利基礎數據和用戶數據等,半結構化中抽取IE和維基百度中水情況、旱情和氣象等的水利知識和信息數據,最后在抽取水利業務專題數據。
2)水工程聯合調度數據模塊:
知識圖譜是集成各類有效性數據的中心,為此,將知識圖譜技術應用與北江流域水工程聯合調度中,通過預報和調度專業計算模型庫、水工程聯合優化調控業務庫構建專題數據庫,形成一套集數據采集、分析、計算、預報和聯合調度應用的流程,如圖2所示。

圖2 北江流域水工程聯合優化調度系統數據架構圖
對文章構建的知識圖譜在水利聯合調度應用系統性能進行分析,首先系統平臺滿足可擴展性,通過修改系統各模塊與組件間的關系,增加數據存儲量和構建更為完善知識圖譜,其次平臺穩定性和簡單操作性,保證數據檢索、分析和變更影響較小,在保證操作穩定的同時滿足高功能性和易操作性。最后,保證平臺兼容性,一方面解決水利基礎數據、地理位置和社會經濟等數據間關聯性較低,無共享的問題,另一方面提高流域水利工程檢索效率,將知識圖譜采集、模擬的數據應用在水利管理信息中。
2.3.1 水利數據抽取
水利數據抽取是指在類別中采集、篩選、分析后并存儲有關水利知識數據。目前,知識圖譜技術中的核心模塊則是對水利數據抽取的設計,面對結構化、半結構化和非結構化數據類別進行。如百度數據則通過Xpath語句進行抽取,文本數據聽過語句抽取法進行,而對于水利內部信息數據,則抽取為RDF格式文件,對不同抽取數據匯總,以構建足量、多方面、多層次和多理論性的水利知識圖譜。
2.3.2 可視化數據模塊
數據可視化是以簡單、直觀且明了的形式將水利信息數據呈列形式和表現形式的科學研究,通過可視化技術實現圖像、計算機視覺和用戶視角界面的有機溝通。文章大量水利數據儲存于知識圖譜,以此提取不同區域內數據以立體、動畫的形式呈現,對北江流域水工程聯合調度工作的及時性、高效性和準確性有重要意義。
知識圖譜是水利領域的技術手段,同時也是水利領域的大數據庫,目前知識圖譜技術的日常應用主要包括以下3個方面:①數據運營服務,對北江流域一張圖所提供的各項基礎資料數據、展示影像數據等進行更新維護;對防洪、水資源、水工程安全等各項監測信息的接入服務情況進行監視,及時記錄及反饋數據接入異常情況;②預警體系維護,對北江流域防洪、水資源、水工程安全等預警指標體系在系統中的各種閾值進行更新和維護;③功能設置與調整,針對系統中涉及深度專業交互計算分析、業務流等變化的應用需求,及時進行了解和記錄,與水利業務數字孿生支撐服務運營共同進行適當的修改調整。
數據庫管理系統主要用于對本項目從外部匯聚和系統自身產生的數據進行存儲和管理,表2為知識圖譜技術水利中心數據管理結果,按照數據庫管理系統標準,將水利基礎數據分為關系型數據庫(社會經濟數據、水利基礎數據、水利行業單位)、空間型數據庫(地理信息數據)兩部分。其中關系型數據庫是穩定水工程聯合調度運行的基礎,在數據系統上線后,數據存儲和處理容量不斷上升,因而數據庫系統需要具備擴容能力,使關系型數據庫儲存系統隨著水利信息量的增加而增加,同時關系型數據庫服務器系統還應具備維護成本低、可靠、易使用和技術開放的特點。
由于水利工程調度中涉及到大量的地理信息數據,而傳統關系型數據庫針對基礎水利數據,無法對空間信息數據進行存儲,為此,在數據庫類型中增加空間型數據庫,將知識圖譜采集轉化的屬性和空間數據聯合管理,其特點是不僅能存儲空間矢量數據,而且提高了相關水利數據的處理能力,強化了北江流域水工程調度速度和信息獲取能力。

表2 基于知識圖譜水利數據中心數據運營
隨著智能化的知識圖譜技術發展革新,水利工程高效、智能化調度越發深入,基于知識圖譜的水利工程項目社會經濟性和安全性隨著智慧化措施也形成了一定改變,如防洪經濟安全措施日常運營:①知識圖譜根據江北流域運行現狀,收集更新江北流域各水庫、防洪區、堤壩、河段等控制目標對象資料,對超出閾值的數據報警,以保證防洪安全;②聯合調度方案維護過程,針對水工程、控制目標等情況變化,及時更新江北流域調度資料信息,協同水利業務數字孿生支撐服務運營進行實例調整;同時以知識圖譜智慧技術提前預防洪水災害,確保社會經濟和安全。文章通過Copula函數理論的貝葉斯預報處理器對水利信息進行監測,其公式如下:
貝葉斯概率水文預報方法理論基礎明確,在實際中應用廣泛,是目前概率水利超標預報方法。
令Hk、Sk(k=1,2,…,K)分別表示待預報的實測流量和確定性預報流量,K為預見期長度;hk、sk分別為Hk、Sk的實現值。根據貝葉斯公式,預見期k的實測流量Hk的后驗密度函數為:
(1)
式中:φk(hk|Sk)的后驗密度函數;gk(hk)為流量先驗概率密度,代表了實測流量過程的先驗不確定性;對于確定的Sk=sk,函數fk(Sk|hk)為Hk的似然函數,反映了確定性預報模型的預報能力。1)Copula函數可以將多個隨機變量的邊緣分布連接起來構造聯合分布。令Q(x1,x2,…,xn)為一個n-維分布函數,其邊緣分布分別為F1(x),F2(x2),…,Fn(xn)。由Sklar定理可知,存在一個n-Copula函數C,使得:
Q(x1,x2,…,xn)=C(F(x1),F2(x2),…,Fn(xn))
(2)
借助Copula函數,Hk、Sk的聯合分布函數可以表示為:
Fk(hk,sk)=Cθ(Gk(hk),Fk(Sk))
(3)
式中:u=Ck(hk),v=Fk(sk)分別為邊緣分布函數;θ為Copula函數的參數,采用Kendall秩相關系數τ求解。
通過合理的知識圖譜信息技術,保障了北江流域內因水利問題產生的社會經濟和安全的問題。
文章通過對水利知識和知識圖譜技術特征進行梳理分析,以結構化、半結構化和非結構化數據為水利數據源,提出對不同類別數據的實體識別和關系抽取,設計集采集、分析、計算、預報和調度為一體的知識圖譜架構體系。在水利知識圖譜基礎上,通過多源異構水利數據融合技術,以對不同類型水利數據挖掘和分析的能力,進而通過知識圖譜實現水利工程智能化服務調度體系的目標遵旨。