王 皓,王紅崧
(西南林業大學,云南 昆明650224)
隨著計算機學與數據采集、處理技術迅速發展,使得人們從現實世界中獲取、存儲和處理數據的能力得到大大提高,獲得越來越豐富的數據資源[1]。從空間數據中挖掘知識,提取空間數據中不明確的和隱含的知識顯得越來越重要[2]。如何從紛繁復雜的空間數據中提取信息和把數據轉化為知識,成為國內外重點研究領域。空間數據挖掘(Spatial Data Mining,SDM)是一種知識決策技術,是建立在空間數據的基礎上,結合多門學科的理論技術,從海量空間數據中挖掘不明顯的、隱藏的新知識,揭示客觀世界的規律、內在聯系及其發展趨勢的空間決策支持系統。
由于空間數據挖掘在處理空間數據上具有重要意義,早在20世紀90年代初美國韓家煒就對空間數據挖掘進行了研究,提出了聯機分析挖掘思想,并在MapInfo軟件平臺上開發空間數據挖掘原型系統[1]。Walter于2008年提出了建立在柵格算法基礎上的矢量數據庫自動解譯[3]。Donato利用歸納邏輯技術的方法提取了空間人口調查數據的關聯規則[4]。國內對空間數據挖掘的研究起步稍晚,在1994年李德仁教授提出了從GIS數據庫中發現知識,并對空間知識發現的特點和方法進行了系統的分析[5]。董春、張清浦等人提出了基于地理數據庫進行空間數據挖掘的構想[6]。陳江平、傅仲良等人提出一種建立在空間分析基礎上的空間關聯規則挖掘算法[7]。
空間數據挖掘的研究目前還處于起步階段,國內外對空間數據挖掘的研究雖然取得了豐富的成果,但是尚屬實驗室階段,許多挖掘算法尚不夠成熟完善,實用性不強。一方面需要完善空間數據挖掘理論基礎與框架結構,另一方面完善已有算法,并不斷創新算法,提高算法的精度與效率,加強應用性研究;除此之外相關的空間軟件系統的開發也有待進一步加快,以跟上空間數據更新速度。
由于空間數據挖掘是計算機、數據庫應用和管理決策支持等技術發展到一定階段時,由數據庫、模式識別、統計學、人工智能和管理信息系統多學科交叉的新興學科[8],因而空間數據挖掘方法較為豐富,但針對地理空間數據庫,其方法可總結為以下4種。
空間分析作為地理信息系統區別于一般計算機系統的主要標志,也是支持其強大功能的關鍵技術。借助GIS系統強大的空間分析功能模塊,可以發現客觀事物在地理空間上的相鄰、相連和共生等關聯關系、找出客觀事物之間的最優路徑、最短路徑和最佳位置。空間分析通常作為處理空間數據和提取空間數據特征的方法,進而發現空間數據庫知識。
聚類是按一定的規則將數據分成若干個相互區別的組,發現數據的分布特征,使得每組中的數據具有高相似,而不同組之間的數據盡可能不同。目前空間聚類算法較為豐富,但主要有劃分方法、層次的方法、基于密度的方法、基于網格的方法及基于模型的方法5大類。
但上述算法現實空間中尚存在著缺陷,如在地理空間中(山脈、河流、橋梁等)障礙物時,為提高聚類的準確性,需謹慎選擇對聚類是進一步劃分還是合并。
關聯規則是由Agrawal等人通過對大型的事務型數據庫的挖掘首次提出,而后Koperski等人將其擴展至空間數據庫,進一步提出了挖掘強空間關聯規則的算法,并給出了空間優化技術[9]。空間關聯規則可表示為:AUB(c1%)、A∩B(c2%),其中 A、B表示空間或非空間謂詞的集合,c1%、c2%為規則的支持度和可信度,空間謂詞有3種表示形式:空間方向的謂詞、拓撲結構的謂詞和距離的謂詞。
所謂空間分類指的是首先把數據庫中每個對象歸為某一給定的類,從而將所有數據歸類。預測是根據數據內在規律,根據空間維發現空間對象的變化趨勢。
除此之外,空間統計學、神經網絡、證據理論、模糊集、粗糙集和遺傳算法等都屬于數據挖掘方法,以上在對空間數據進行挖掘時,并不是孤立的,只有將各種方法加以綜合運用,方能科學有效地發現空間知識。
近些年來,雖然空間數據挖掘技術發展迅速,并取得了一定的成果,但許多的理論與方法仍需進行深入研究。未來空間數據挖掘應把基于空間不確定性的數據挖掘、多源空間數據的數據挖掘、一體化柵格矢量數據挖掘、空間查詢語言數據挖掘、遙感圖像及其網絡空間數據的挖掘等方面作為主要努力方向。與此同時,在開發空間數據挖掘系統時,還要研究人機交互技術、空間數據挖掘系統與地理信息系統、多源空間數據的集成、多算法的集成、地理空間數據庫、空間數據決策支持系統以及解譯專家解譯系統的集成等問題。
此外,空間數據挖掘除了創新完善本身的理論和方法,也需充分結合利用數據挖掘和知識發現、可視化、數理統計、人工智能、圖像處理學等學科領域的理論方法。
[1]張 楠,曲海平,劉 念.空間數據挖掘的研究進展[J].微處理機,2007(2):1~7.
[2]李德仁,王樹良,史文中.論空間數據挖掘和知識發現[J].武漢大學學報(信息科學),2001,26(6):491499.
[3]V.Walter.Automatic Interpretation of Vector Databases With a Raster-based Algodthm [J].Institute for Photogrammetry,Universitaet,Geschwister- Scholl.Str.24D70174Stuttgart,Germany,2008.
[4]Donato Malerba,Floriana Esposito,Fancesca A L ISI.Ming Spatial Association Rules in Census Data[C].Specifying Collective Qutputs from UN/ECE Activities on Statistical Information Teclmology,2002:541~550.
[5]李德仁,王樹良,李德毅.空間數據挖掘理論與應用[M].北京:科學出版社,2006.
[6]董 春,張清浦,張家慶.地理因子庫的建立及應用探討[J].遙感信息,2000(1):12~16.
[7]陳江平,傅仲良,邊馥苓,等.基于空間分析的空間關聯規則提取[J].計算機工程,2003(11):29~30.
[8]Li D R,Cheng T.KDG-Knowledge Discovery from GIS.In:Pro-ceedings of the Canadian Conference on GIS,Ottawa,1994.
[9]胡彩平,秦小麟.空間數據挖掘研究綜述[J].計算機科學,2007,34(5):14~18.