胡 鑫,劉招雄
(云南省水文水資源局曲靖分局,云南 曲靖 655000)
區域水資源合理利用是水利工作的關鍵,一方面收集水利信息,能夠為防洪抗旱做準備;另一方面,水利自身的建立也離不開相關信息的支持[1-3]。近些年,水利信息化建設逐漸完善,基本完成了基礎空間數據庫的建設,其他區域水資源信息庫的建設也在不斷完善,水資源時空變化特征數據是水利信息化建設的重要組成部分[4-6]。隨著水資源數據量的日益增加,水資源時空變化特征也越來越復雜,其特征數據背后可能隱藏著更重要的信息[7]。因此,在對水資源時空變化特征研究上,需要進行更高層次、多樣化的處理和分析,以便更好地利用這些數據[8]。
目前,比較成熟的數據分析方法就是數據挖掘技術,通過數據挖掘技術即可從海量的水資源區域時空變化特征數據中獲得有價值的信息;但是,單一的挖掘方法缺少目的性,利用其他方法實現更高水平的特征挖掘是現階段國內外專家、學者研究的重點[9-11]。在特征挖掘的研究上,比較常規的挖掘方法有文獻[12]提出的基于位置差的特征挖掘方法。該方法在挖掘特征信息前,對時空變化信息進行解析處理,獲得位置信息,以不同位置之間的差作為依據,挖掘出特征信息。在實際工作中,這種方法在遠距離特征數據挖掘上,數據聚類效果不理想,數據損失較嚴重,抗干擾性能比較差。文獻[13]提到的基于GIS的挖掘方法存在類似的問題,GIS技術的使用也是需要利用位置信息來挖掘特征數據,在使用上并沒有解決遠距離處理抗干擾性能差的問題。
因此,本研究提出基于改進啟發式搜索算法的區域水資源時空變化特征挖掘方法,以解決上述常規的特征挖掘方法存在的問題。
區域水資源時空變化特征包含圖像特征和數據特征。這些特征信息隨著時間的變化不斷增加,往往在短時間內就能累計大量特征信息,其中包含很多冗余信息、干擾信息等無用信息,嚴重影響特征挖掘的實際效果[14]。因此,采用改進啟發式搜索算法,搜索有價值的時空變化特征數據,建立數據倉庫,在數據倉庫內實現進一步的特征挖掘。
改進啟發式算法開始時,讀取特征信息,經過標準化處理后,設置閾值個數為D,初始化特征信息集合,在解空間內隨機產生N個位置的初代聚點,遍歷每一個特征數據,利用公式計算出各個初代聚點的適應度值以及特征變化的強度和幅度[15]。即
fi(TN)=α0α1(β0-β1)2+α0α2(β0-β2)2+…
+αD-1αD(βD-1-βD)
(1)
式中,fi(TN)為第i個目標的適應度函數值;α和β分別為特征分布總體概率和平均概率。特征變化強度和幅度計算公式為
(2)
(3)
式中,Ai為特征變化強度;Si為特征變化幅度;Ymin和Ymax分別為適應度函數值的最小值和最大值;ε為校正值。在計算完成后,按照強度和幅度大小順序排序,選擇前20%的個體進行高斯變異處理并替換,在替換完成后,對超出解空間的次代個體做映射處理,具體處理過程如下
(4)

區域水資源時空變化特征涉及到的數據類型非常廣泛。經過改進啟發式搜索后,根據不同的使用目的建立主體數據倉庫,便于為特征挖掘工作提供方便有效的服務。
數據倉庫不僅具有存儲作用,還能夠對數據進行重新整理,根據使用要求形成當前的基本數據層,在特征隨著時間不斷變化過程中,數據倉庫內的時間控制機制將基本數據層轉為歷史數據。
數據倉庫包含源數據、數據倉庫、倉庫管理和分析工具4個部分。倉庫管理負責將通過抽取、轉換等手段處理數據源存入到數據倉庫中,分析工具用于分析數據、查詢處理數據。數據倉庫的內部結構如圖1所示。

圖1 數據倉庫內部結構示意
在圖1中顯示的數據倉庫結構的基礎上,為其設計邏輯模型,采用關系模型作為主要模型,用于建立數據間關系。在數據倉庫建立完成后,從數據倉庫中挖掘水資源時空變化特征。

(5)
(6)
式中,r為最小化類內散度;N為最大化類間散度;j為投影后類內方差系數;M為映射點集v的維度;center為中值。特征數據倉庫類間散度
(7)
(8)
(9)

Q=[q1,q2,…,qn]=b2/ωib1
(10)
式中,ωi為與b2/b1對應的第i個特征值。特征挖掘求解公式為
ru=r*Q
(11)
式中,ru為特征挖掘結果;r*為頻繁特征。式(11)求解出的結果是一組數據集,同時也是特征挖掘結果。至此,改進啟發式搜索算法的區域水資源時空變化特征挖掘方法設計完成。
在區域水資源時空變化特征挖掘方法實驗中,以某區域的水資源狀況作為依據,分析改進啟發式搜索算法的區域水資源時空變化特征挖掘方法的抗干擾能力??紤]到提出的挖掘方法在理論上和實際應用上還沒有統一的論證,實驗采用對比研究的形式,以基于位置差的挖掘方法和基于GIS的挖掘方法作為參考,采用統一的實驗數據,分析各個時空變化特征挖掘方法的性能。實驗中準備的區域水資源狀況數據如圖2所示。

圖2 某區域水資源狀況示意(萬m3)
上述準備的實驗數據空間分辨率為30 m,其中包含大量氣象數據。這些氣象數據來自站點,在實驗前,需要對觀測到的數據進行插值,才能獲得這個區域的完整信息。根據該區域的地理特征和自然特征,對站點的多項數據進行空間插值處理,確定一個模擬點,在模擬點附近找到多個參照點,以參照點與模擬點的距離作為判斷標準確定權重,為每一個參照點分配合適的權重,默認最近的點與模擬點相關性最大。點與點之間的柵格值計算公式為
(12)
式中,n為參照點個數,同時也是實測站點的個數;S為待估計的要素柵格值;S(xi)為某個時間段第i個站點的觀測值;di為待估點到第i個實測站點的直線距離;w為與距離相關的權重系數。選擇合適參考點個數進行空間插值處理。
在完成上述處理后,采用逐步自回歸模型模擬水位數據,設計兩組對比實驗,均以特征數據作為目標,一組為特征數據聚類分布實驗,一組為特征數據聚類正確率實驗,通過上述兩組實驗結果,分析區域水資源時空變化特征挖掘方法的抗干擾性。
在特征數據聚類分布實驗中,將海量干擾數據作為區域水資源時空變化特征挖掘的干擾因素,將原始特征數據按照不同的特征挖掘方法進行聚類操作,設置初始聚類中心為1,得到特征數據聚類分布圖。各個特征挖掘方法實驗結果如圖3所示。
對比觀察圖3顯示的實驗結果可知,3組實驗結果的特征數據以左下角坐標為聚類中心,逐漸向外擴散。其中,基于位置差的特征挖掘方法和基于GIS的特征挖掘方法實驗結果顯示的數據聚類過于分散,數據向上、右上和右方向不斷擴散,聚類效果并不理想,說明很難抵抗數據干擾;而提出的特征挖掘方法實驗結果中,特征數據分布比較密集,聚類效果更加接近理想效果,說明該方法有效抵抗了數據干擾。綜上所述,提出的區域水資源時空變化特征挖掘方法能夠抵抗干擾,獲得聚類效果更好的特征數據。

圖3 不同特征挖掘方法數據聚類分布實驗結果
在工作過程中,數量的大小會影響數據聚類效果。為了進一步驗證特征數據聚類效果,在同樣的實驗環境中,布設間隔不同的參考點,獲得不同大小的數據集,布設方案見圖4。

圖4 間隔不同的參考點布設方案示意
使用不同的特征挖掘方法處理數據集,計算出特征數據聚類的正確率。實驗結果如表1所示。

表1 干擾情況下3種不同特征挖掘方法的聚類正確率
通過對表1的觀察可知,數據量大小的變化與聚類正確率相關,隨著數據量的增加,聚類效果越好;反之,數據量過多,參考點分布較緊密,容易使聚類效果變差,進而降低聚類正確率。由此可見,在存在干擾的情況下,提出的特征挖掘方法數據聚類效果更好,并且聚類正確率更高。從抗干擾性能上分析可知,提出的改進啟發式搜索算法的區域水資源時空變化特征挖掘方法抗干擾能力更強,優于常規的特征挖掘方法。
本文以區域水資源時空變化特征作為研究重點,將改進啟發式搜索算法用于特征挖掘,設計特征挖掘方法,根據啟發式算法的一般要求,與區域水資源特點,對于水資源時空變化特征數據準備、挖掘等關鍵問題做出相關技術處理和論述,為特征挖掘提供更為細致的信息,使其具有更好的抗干擾性能,適合應用于水資源規劃中。
盡管本文研究的挖掘方法取得了不錯的成果,但是理論方法和實際應用上還存在一些差距,數據自身的質量也是判斷特征挖掘是否可靠的一個重要因素。在后續研究中,將從數據質量出發,進一步完善特征挖掘方法,為水資源時空變化特征挖掘提供良好的技術支持。