□ 韓祚鵬 □范占永(黔南州水利水電勘測設計研究院)
數據挖掘由很多成分組合而成,而空間數據挖掘的技術只是這個家庭當中的一個成員,空間數據的挖掘實際上以空間數據庫作為主要的支柱,在進行多種技術的結合。在海量的數據空間當中進行知識的挖掘與篩選,對選擇的知識通過專業(yè)的手段進行空間關系或者是別的意識的提取,并能夠分析出其內在的信息,包括數據以外的真實世界、其與外界的具體聯系以及以后的發(fā)展方向等等,從而能夠更加方便的進行技術的決策以及經營的決策。
由于GIS以及遙感技術的廣泛運用,能夠在空間數據當中獲取的知識主要包括以下幾個方面的內容:
普遍的集合知識,實際上就是人們普遍認知的知識,包括該目標的具體數量、目標的大小、目標的具體形狀以及目標的主要特征等方面的內容,舉個簡單的例子:點狀的目標的具體位置,這個目標的大小、其長度的具體值、其周長的值、面積的大小、幾何的中心等等,都能夠通過計算或者是總結出GIS當中空間目標的具體的幾何特點,還包含了其特征量的最大數值、最小數值、平均值、以及特征量的特征圖都能夠得出。
空間的分布規(guī)律實際上指的的就是具體的目標在地里范圍之內的如垂直的方向、水平方向包括垂直方向與水平方向的分布的概率等等。垂直分布也就是空間的目標順著空間目標的調和的狀況。
空間關聯,顧名思義,指的就是空間目標相互之間的聯系,例如臨近關系、共同生長的關系、相互包含的關系等等,例如:道路與河流是相互連接的,而不同的國家之間就是臨近的關系。
空間分類的規(guī)則指的就是按照目標的具體空間情況或者是非空間的特點對各自的類型劃分的一個原則,這種規(guī)則能夠用在GIS的空間概括以及空間組合當中。
空間特點的規(guī)則指的就是某一類的或者多類別的空間的目標的結合特征與屬性之間的特征,同時也是對他們的共性的總價,在空間特征當中,通常的幾何知識空間特征當中的組成本部分,之所以將其分離出來,是因為其具有非常關鍵的作用,尤其是在遙感影像當中的作用更為關鍵。
空間的區(qū)分規(guī)則特征也是比較容易理解的,指的就是在兩種或者兩種以上的目標的幾何屬性之間的特征,需要注意的是,空間的區(qū)分規(guī)則只是對一個目標的描述,其與空間分類的規(guī)則還是具有一定的區(qū)別的,分類的規(guī)則對于目標的劃分更加準確,精度也屬于比較高的,為了保證分類的準確程度,通常都是在比較低的層次進行分類的處理,但是區(qū)分規(guī)則的不同在于它是對已經了解對象的比較,通常情況下,是在比較高的層次上進行的描述。
空間演化的規(guī)則實際上就是空間的變化的規(guī)律,主要包括了空間的幾何過濾、屬性特征的規(guī)律,其變化的規(guī)律是會隨著時間的變化而發(fā)生改變的。
空間數據挖掘就是對于隱含的信息的提取,以及其空間的聯系等等,最終了解出其具有一定作用的特征以及模式、方式以及技能。常用的空間數據挖掘方法主要有:
基于概率論的方法實際上就是一種利用與計算出非確定性的特征的概率來獲取空間信息的方法,在此過程當中所了解到的信息大多數情況下都被表達成為在特定情況下的某一種具體的假設為真實條件的概率,通過對于誤差矩陣的分析來進行遙感的區(qū)分的時候,能夠利用這樣的條件的概率當做是背景的知識。
空間的分析方法是一種綜合的分析方法,其中主要包含了數據的分析與處理、緩沖區(qū)域的分析、距離的分析、地形的分析與總結等等分析相互結合的一種分析的方法,這種方法能夠更加便捷而又準確的發(fā)現目標在空間范圍內的鏈接的情況,還能夠得出目標之間的最短距離,或是最優(yōu)知識。
統(tǒng)計的分析方式指的就是借助于空間對象的特有信息或者是非確定性的信息,進行的一系列的統(tǒng)計與分析,然后對分析結果進行合理的評估,并能夠實現空間測試的功能。
歸納的學習方式,顧名思義,指的就是在特定的指示狀況下,對于數據的總結以及分析的一種方式,在空間的數據庫當中通過搜索與挖掘的方式,了解到常用的規(guī)則以及模式的方式,在實際的歸納當中,包含多種多樣的算數方法,例如:決策數的計算方式以及基于屬性特征的歸納方式等等。
指的就是根據物體的基本特征如形狀、大小、體積等等,然后對該物體進行的聚類或者分析,進而能夠歸納出數據集的空間分布的狀況以及模式的具體方式等等,目前,較為常用的聚類方式主要包括K-mean,K-medoids以及集合關系的親近聯系以及公共特性的基本算術方式等等。
指的就是利用較多的神經元組合而成的網路系統(tǒng),最終能夠滿足獨自使用的非線性的動態(tài)系統(tǒng),并能夠滿足具備一定的分布存儲的能力以及事物的聯系的能力,并能夠實現較大規(guī)模的處理、獨立學習、獨自組織等等方面能力的一種方式,在空間數據挖掘當中能夠用來實現分裂以及聚類的相關信息的以及特點的挖掘處理。
遺傳算法實際上并不是一種真實的算術方法,其指的就是某種模擬的生物進化階段的算術方式,能夠實現問題的空間數據的搜索,并能在整個的搜索階段實現空間信息的自動獲取以及數據整理的功能,還能夠在搜索的過程進行適當的控制,并對存在的問題進行優(yōu)化處理等等,因此,在空間數據的挖掘過程當中發(fā)現的諸多困擾,都能夠借助于遺傳的算法來解決,例如:空間數據挖掘比較難處理的分類的問題、聚類的問題、預測的問題等等都能夠得到很好的解決。
盡管在數據挖掘方面取得了一定的成就,但是還是有一些值得思考與解決的地方,下面就我國數據挖掘技術的主要問題進行了列舉說明。
由于空間數據具有復雜程度高,數據信息量大的特點,使得計算的發(fā)放更加繁瑣,也給搜索帶來一定的阻力,怎樣有效地進行不重要信息的去除,同時獲取到有效地信息,使得問題發(fā)生的可能性不斷較低,這一系列的問題都給數據挖掘造成了巨大的挑戰(zhàn)。
由于數據挖掘的局限性,使得數據的挖掘在應用方面遇到了很大的難題,尤其表現為程序方面的時序關系,這也就導致了靜態(tài)的數據存儲在極大影響了數據挖掘的使用,由于圖層的計算模式的卻別,不一樣的尺度空間的割裂,使得空間數據挖掘的設置階段面臨著重要挑戰(zhàn),空間實體所依賴的信息比較復雜,不僅包括了標識碼,還包含了其他的一系列的信息,這就造成了一維的聯系方式損失了非常多的聯系資源,使得多維與隱含的內在關系缺乏真實性,也就給計算造成了一定的難度,使得工作的效率無法提高。
在空間數據的挖掘技術方面,尤其關鍵的分析與運用方向主要包括:在網絡環(huán)境當中的數據挖掘方式、非確定性狀況下數據挖掘的方式、分布狀況下的數據挖掘方式等等。
空間數據的挖掘技術還有許多需要不斷深入的地方,通過本文的敘述,不難了解到,在未來數據挖掘技術將逐漸邁向智能化、網絡化的發(fā)展方向,空間數據挖掘的分析方法和應用結果,為全球變化和區(qū)域可持續(xù)發(fā)展提供有力的分析工具,將會更好的服務社會。
[1]李德仁,史文中,等.論空間數據挖掘和知識發(fā)現[J].武漢大學學報:信息科學版,2001,26(6).
[2]周海燕,王家耀,等.空間數據挖掘技術及其應用[J].測繪通報,2002(2).
[3]毛克彪.空間數據挖掘技術方法及應用[J].遙感技術與應用,2002,17(4).