肖渝梅
摘 要:本文在對數據挖掘基本概念進行了介紹的基礎上,詳細介紹了目前在數據挖掘中最常用的計算模型,包括空間關系、空間實體關聯矩陣、空間實體信息模型,讓讀者對數據挖掘技術有一個基本的了解。
關鍵詞:數據挖掘;空間關系;空間實體關聯矩陣;空間實體信息模型
1 空間數據挖掘概念
空間數據挖掘指利用統計學、人工智能、機器學習、模糊數學、模式識別和專家系統等理論、方法和技術,從空間數據庫中抽取人們想要獲取但沒有清楚表現出來的能反映出客觀世界的本質的隱含知識[1][2]。
空間數據由三個層次構成。最底層是數據源為空間數據挖掘提供數據。包含數據域的空間數據倉庫管理系統和知識域的知識庫管理系統。中間層為挖掘器,它采用各種空間數據挖掘方法分析被提取的數據。頂層是人機交互界面,即將發現的知識以用戶能理解和接受的形式展現給用戶[1,2]。
空間數據處理過程可分為:數據準備、數據選擇、數據預處理、數據變換、確定目標、確定算法、數據挖掘、模式解釋和知識評價[1]。常用的計算模型有:空間關系、空間實體關聯矩陣、空間實體信息模型,本文將對這三種模型一一介紹。
2 空間關系計算方法
數據挖掘中主要有空間距離、空間拓撲、空間方位三類空間概念。
空間距離:距離常指幾何學的歐式距離,用它來描述空間兩個物體之間的遠近關系。歐氏距離是兩點間的直線最短距離,在空間數據挖掘中可以用它來計算:點點距離、點線距離、點面距離、線線距離、線面距離和面面距離,此外根據具體問題也會使用棋盤距離或曼哈頓距離[1]。
空間方位:定義目標對象之間的方位,在分析的時候,我們一般預定義一個坐標軸,再做垂直于坐標軸的直線,用此直線來表示兩個對象間的方位關系。當分析的對象是某個平面時就用平面的重心來代替面,再求出兩重心之間的方位關系,用此來代表兩平面間方位關系[1]。
空間拓撲:它不考慮距離和方位,而是把點、線、面都看成拓撲元素,用關聯和鄰接來描述點線面之間的關系。關聯是不同拓撲元素之間的關系,存在于點與線,線與面、點與面之間,相同拓撲元素(比如點點、線線、面面之間)的關系常用鄰接表示;也用包含、幾何、層次關系描述兩個拓撲元素之間的關系,包含關系指面與其他拓撲元素之間的關系;兩元素間距離在某個約束范圍內稱他們之間有幾何關系;同類元素之間的等級高低用層次表示[1]。
3 空間關聯矩陣
它是李新運博士在空間權重矩陣基礎上拓展而得到的,矩陣中每個元素表示實體之間所具有的某種指定空間關系。若實體j和實體i滿足某種指定關系時則矩陣中的值為1,如果不滿足則的值為0[1]。
根據李博士的定義:當=1,則矩陣所指代的對象i和對象j在空間上是相關的;若=0,則其所指代的對象i和對象j在空間上是無關的。結合前面的空間關系計算方法和該觀點,研究者們又定義出:根據拓撲元素間的鄰接關系的鄰接矩陣,根據拓撲元素之間的鄰近關系的鄰近矩陣,根據線狀實體之間的相交關系定義空間相交矩陣,根據點線之間空間距離定義空間側近矩陣,根據點狀要素是否位于區域內部定義空間擊中矩陣,根據線狀實體是否穿過區域定義空間切割矩陣,根據點狀要素之間的空間關系定義方位矩陣[1]。
4 空間實體信息
空間實體信息模型對空間實體的組織和表示起著非常重要的作用,常見的空間實體信息有:空間場模型、空間要素模型、空間網絡模型[1]。
空間場模型:由空間框架、場函數和一組相關場操作組成,多用來表示連續的或無固定形狀的概念,在計算機中用柵格數據結構、不規則三角網、等高線和點網絡來實現。空間框架是一個用于度量空間對象的有限框架,利用場函數將空間框架映射到分析對象的屬性域,選擇分析對象的那些屬性域,使用什么場函數來映射,需要結合分析的具體問題來確定,在三個要素中場被看成同屬性的點的軌跡構成的表面或者等值線[1]。場操作把場的一個子集映射到其他場,它實現了不同場之間的交互和聯系,常用的場操作有局部場操作、聚焦場操作、區域場操作。
空間要素模型:空間對象被認為是一個在概念上可以與它的鄰域分離的現象,空間要素模型用來表達空間對象之間的關系,所以空間要素由彼此存在某種特殊關系的空間對象(元素)構成。模型中的信息是具有各自特征屬性的集合,即其中的每個對象必須具有可被識別、重要性和特征明顯三個條件。對象的各種特征之間反映了現實世界與信息世界之間的表達和對應關系,對象的特征在于它的屬性分為空間屬性和非空間屬性,距離說明空間屬性,比如對象是一個多邊形,則此處的多邊形就是對象的空間屬性;此外對象的其他屬性被稱為非空間屬性,比如對象的名稱,特別指出的是一個對象可以有多個空間屬性[1]。
空間網絡模型:用節點、鏈表示對象,所以我們常把位于該模型中的地物抽象為節點、鏈等對象,并且關注他們之間的連通關系,常常使用有向圖來表示,有向圖中的節點代表數據記錄,連線代表不同節點之間的連通關系。該模型最基本的特征是多個要素之間的影響和交互需要沿著有向圖中的箭線;節點間沒有明確的從屬關系,它可以與有向圖中其他多個節點建立聯系[1]。
參考文獻:
[1]賈俊杰.空間數據挖掘中若干關鍵技術研究[D].2009.
[2]潘玲.空間數據挖掘與GIS集成技術研究[D].2007.