文|汪福成
可視化數據挖掘在水利工程管理中的使用
文|汪福成
水利工程作為基礎設施,隨著我國經濟的快速增長和人口的不斷增多,水利事業已經成為我國國民經濟中的命脈和基礎產業。怎么樣做好農田水利工程管理,保證水利工程發揮重要作用,是擺在每個水利人面前的一個重大課題。
水利工程建設是國家基礎性建設項目,是真正為人民服務的一項民生工程,水利工程能有效控制和調配自然界的地表水和地下水,在灌溉排澇,工業生產,泄洪防災和運輸等方面發揮了重要作用,具有社會服務性和經濟效益性的特點,是新形勢下開展的一項事關廣大人民群眾切身利益的重要建設項目。但是水利工程作為一個龐大的水利工程體系,需要投入大量的人力物力進行有效的管理,才能讓水利工程持續健康快速的發展進行。如何做好管理,直接影響著工程的投資效益與安全運行。而由于水利工程管理有其自身的特殊性、復雜性,在工程管理過程中仍出現了一些問題,這就需要我們借助現代化的信息手段來輔助進行決策與管理,利用可視化數據挖掘技術在農田水利工程管理中的應用。
數據挖掘和可視化是信息社會發展的趨勢,可視化是使用計算機圖形學和圖像處理技術來表征數據,把隱藏在大量數據中的信息以更加直觀,同時容易領會的圖像方式進行表達,達到更加快速獲取信息的目的。數據可視化是對大型數據庫以及數據倉庫里的各類數據用圖形圖像方式表示,當做一種表示工具,如解析復雜結構的數據或者是生成最初的視圖,以及顯示分析結果,并作為數據分析過程中非常重要的階段。數據挖掘就是從數據庫的大量的數據中提取或“挖掘” 隱含的、未知的并且具有潛在價值的信息過程。例如我們可以采用數據挖掘的方法分析河道河情、水土保持、河道險工、水量調度、防洪和實時雨水情等方面的發生變化情況,總結其一般的發生變化規律,從而利用數據挖掘發現的信息采取相應的措施,更好地發揮水利工程的效益,為水利工程的管理提供決策依據。
可視化數據挖掘的過程是一個長期反復的過程,對于挖掘需要探索的問題通常是沒法預知最后結果的狀況下,預見探索問題可以很好避免數據挖掘的盲目性,更好的提高成功效率。達到事物飛本質,使得問題的解決方案更加趨于最優化,可視化數據挖掘過程包括4個方面,一是對數據庫里的數據進行選擇。選擇查找全部與業務目標相聯系的內部與外部的數據信息,并從中選出能夠用于數據挖掘的信息。二是對被選擇的數據進行預處理形成格式化數據。三是對格式化的信息進行挖掘。四是吸收其中有用的知識。
水利工程在快速的建設中,水利工程管理系統也在不斷增多,水利工程信息化成為當今水利工程的發展方向。但是水利工程信息系統還有很多缺陷,在提供服務方面只是業務性方面,對于管理決策很少涉及。尤其是水利工程數據化管理更快的向現代化方面發展,存在著大量的非空間數據和空間數據,空間數據包括地圖、預處理過的遙感圖像、視頻等數據。在對于這些數據,人們往往處理不到位或不能及時。尤其是在空間類型數據方面。他們雖然知道這些數據中存在了大量的有價值的信息,但是卻不能有效的將它們合理的利用。而在水利工程建設和管理中,影響決策的數據來源是各種類型,包括氣象數據庫、蓄雨情和水情數據庫、滯洪區空間分布式社會經濟數據庫和水旱災情數據庫等豐富多樣的數據,傳統的信息數據收集處理,已經不能解決復雜的問題。作為可視化數據挖掘技術應運而生,可以從海量數據中挖掘出有價值的、潛在的信息知識。而不同數據的收集與整理就必須依賴于建立完善的數據庫,所以對于水利工程而言,數據庫可以建立水文、實時雨水情、河道險工、河道河情、水量調度和防洪工程等,并選擇合適的可視化數據挖掘方法,才能選擇有用的數據。
聚類就是將輸入的無任何類型標記的離散且無明顯規律而言的數據,按一定的規則劃分為若干個類或簇,同一個類或簇中的數據對象有很大的相似性,而不同簇間的對象有很大的相異性,聚類可以強化人們對數據的認識能力。聚類分析的方法把我縣不同農田用水情況進行分類,然后對不同類型的農田用水地方提供不同的服務,這樣可以更好的管理農田用水的使用情況,同時還給有特定農田用水者提供專門的服務。下面根據一些農田用水多少的數據進行了具體的挖掘實驗,實現了聚類分析在農田用水數據管理方面的應用。
數據準備階段。本文將做的是一個簡單的數據挖掘分析,分析近三年我縣農田用水情況,所以我們要先做一下數據的預處理,把在這三年之前的農田用水情況棄掉不用,原因是我縣農田用水情況變化會很大,所以近兩年的數據更具代表性,用來進行分析也會更加貼近我縣農田用水的真實需求。
對數據進行聚類。我們將使用k-means算法對第一步中清理出來的數據采取聚類挖掘,設置聚類個數為三。代表把我縣農田用水情況一共分成3個大類,一類為頻繁農田用水地方,一類為普通農田用水地方,一類為偶爾農田用水地方.分類好了以后,我們就可以針對不同的農田用水提供不同的、更加符合農田用水需求的、個性化的服務了。然后是進行三個步驟對收集的數據進行聚類分析:(1)把目標對象劃分成n個非空子集(聚類);(2)對每個聚類中所有點的坐標計算平均值,然后把平均值作為每個聚類的中心;(3)對每個點到聚類中心的距離計算分析,并把每個點聚類到離該點最近的聚類中心的聚類中去反復執行(2)、(3),直到聚類中心不再進行大范圍移動或者聚類次數達到要求為止。
挖掘統計結果分析。對于挖掘出來的農田用水地方,第一類頻繁農田用水地方可以適當的增加其供水上限,更好的滿足該地區農田對水的需求;對于第三類偶爾需要農田用水地方,則可以采用其他的挖掘方法,研究他們的農田用水少的原因和該地區的地理優勢,從而相應地改善該地區的地理環境,達到創造更好的地區優勢。這樣把農田用水分類之后再進行數據分析,可以更加精確地挖掘出不同農田用水地方的不同需求,可以給不同需求的地方提供具有個性化的幫助。

(作者單位:民和縣水利局)