李圍成,張雪萍,祝玉華(河南工業大學 信息科學與工程學院,河南 鄭州 450001)
空間數據挖掘認識及其思考
李圍成,張雪萍,祝玉華
(河南工業大學 信息科學與工程學院,河南 鄭州 450001)
在這個大數據時代,空間數據正在從各個領域飛速累計。空間數據挖掘作為數據挖掘的一部分,現已成為人們研究空間數據的重點學科。主要介紹了空間數據挖掘的基本概念、一般步驟及其最新的挖掘方法,表達了對當前空間數據挖掘的看法。最后對未來空間數據挖掘的研究方向進行了更加深入的探討。
大數據;空間數據挖掘;挖掘方法
空間數據挖掘(Spatial Data Mining,SDM)即找出開始并不知道但是卻隱藏在空間數據中潛在的、有價值的規則的過程。具體來說,空間數據挖掘就是在海量空間數據集中,結合確定集、模糊集、仿生學等理論,利用人工智能、模式識別等科學技術,提取出令人相信的、潛在有用的知識,發現空間數據集背后隱藏的規律、聯系,為空間決策提供理論技術上的依據[1]。
空間數據挖掘系統大致可以分為以下步驟:
(1)空間數據準備:選擇合適的多種數據來源,包括地圖數據、影像數據、地形數據、屬性數據等。
(2)空間數據預處理和特征提取:數據預處理目的是去除數據中的噪聲,包括對數據的清洗、數據的轉換、數據的集成等。特征提取是剔除掉冗余或不相關的特征并將特征轉化為適合數據挖掘的新特征。
(3)空間數據挖掘和知識評估:采用空間數據挖掘技術對空間數據進行分析處理和預測,從而發現數據背后的某種聯系。然后結合具體的領域知識進行評估,看是否達到預期效果。
空間數據挖掘是一門綜合型的交叉學科,結合了計算機科學、統計學、地理學等領域的很多特性,產生了大量處理空間數據的挖掘方法。
2.1 空間關聯規則
關聯規則挖掘是尋找數據項之間的聯系,表達式形式是X→Y,其中X與Y是兩種不相交的數據項集,即X∩Y=?。KOPERSKI K等人將關聯規則與空間數據庫相結合,提出了空間關聯規則挖掘[2]。空間關聯規則將數據項替換為了空間謂詞,一般表達形式如下:

令 A=(A1,A2,…,An),B=(B1,B2,…,Bm),A和 B分別表示Ai和Bj的謂詞集合,A和B可以是空間謂詞或非空間謂詞,但是必須至少包含一個空間謂詞且A∩B=?。SHEKHAR S和HUANG Y針對空間關聯規則的特點提出了把關聯規則的思想泛化成空間索引點集的空間同位規則的概念,在不違背空間相關性的同時用鄰域替換掉了事務[3]。時空關聯不僅涉及事件在空間中的關聯,還考慮了空間位置和時間序列因素。國內的柴思躍、蘇奮振和周成虎提出了基于周期表的時空關聯規則挖掘方法[4]。
2.2 空間聚類
空間聚類分析是普通聚類分析的擴展,不能完全按照處理普通數據的聚類分析方法來處理空間數據。由于存在地理學第一定律,即空間對象之間都存在一定的相關性,因此在空間聚類分析中,對于簇內的定義,要考慮空間自相關這一因素。通過對空間數據進行自相關分析,可判斷對象之間是否存在空間相關性,從而可合理判斷出對象是否可以分為一簇。
基本的聚類挖掘算法有:
(1)劃分聚類算法:存在 n個數據對象,對于給定 k個分組(k≤n),將n個對象通過基于一定目標劃分規則,不停迭代、優化,直到將這n個對象分配到k個分組中,使得每組內部對象相似度大于組之間相似度。
(2)層次聚類算法:通過將數據不停地拆分與重組,最終把數據轉為一棵符合一定標準的具有層次結構的聚類樹。
(3)密度聚類算法:用低密度的區域對數據對象進行分割,最終將數據對象聚類成為若干高密度的區域。
(4)圖聚類算法:用空間結點表示每個數據對象,然后基于一定標準形成若干子圖,最后把所有子圖聚類成一個包含所有空間對象的整圖,子圖則代表一個個空間簇。
(5)網格聚類算法:把空間區域分割成具有多重分辨率的和有網格結構特性的若干網格單元,在網格單元上對數據進行聚類。
(6)模型聚類算法:借助一定的數學模型,使用最佳擬合數據的數學模型來對數據進行聚類,每一個簇用一個概率分布表示。
僅采用一種算法通常無法達到令人滿意的預期結果,王家耀、張雪萍、周海燕將遺傳算法與K-均值算法結合提出了用于空間聚類分析的遺傳 K-均值算法[5]。現實空間環境中,存在很多像道路、橋梁、河流的障礙物,張雪萍、楊騰飛等人把 K-Medoids算法與量子粒子群算法結合進行帶有空間障礙約束的聚類分析[6]。
2.3 空間分類
分類,簡單地說是通過學習得到一定的分類模型,然后把數據對象按照分類模型劃分至預先給定類的過程。空間分類時,不僅考慮數據對象的非空間屬性,還要顧及鄰近對象的非空間屬性對其類別的影響,是一種監督式的分析方法。
空間分類挖掘方法有統計方法、機器學習的方法和神經網絡方法等。貝葉斯分類器是基于統計學的方法,利用數據對象的先驗概率和貝葉斯公式計算出其后驗概率,選擇較大后驗概率的類作為該對象映射的類別。決策樹分類器是機器學習的方法,采取從上到下的貪心策略,比較決策樹內部節點的屬性值來往下建立決策樹的各分支,每個葉節點代表滿足某個條件的屬性值,從根節點到葉節點的路徑表示一條合適的規則。支持向量機也是機器學習的方法,思路是使用非線性映射把訓練數據集映射到較高維,然后尋找出最大邊緣超平面,將數據對象分類。神經網絡是一種模擬人神經的網絡,由一組連接的輸入和輸出單元組成,賦予各個連接相應的權值,通過調節各連接的權值使得數據對象得到正確分類。
針對融入空間自相關性的空間分類挖掘,SHEKHAR S等人使用空間自回歸模型和基于貝葉斯的馬可夫隨機場進行空間分類挖掘[7],汪閩、駱劍承、周成虎等人將高斯馬爾可夫隨機場與支持向量機結合并將其用于遙感圖像的信息提取[8]。
2.4 其他空間挖掘方法
空間數據挖掘的方法多種多樣,其他還包括:空間分析的方法,即利用GIS的方法、技術和理論對空間數據進行加工處理,從而找出未知有用的信息模式;基于模糊集、粗糙集和云理論的方法可用來分析具有不確定性的空間數據;可視化方法是對空間數據對象的視覺表示,通過一定技術用圖像的形式表達要分析的空間數據,從而得到其隱含的信息;國內張自嘉、岳邦珊、潘琦等人將蟻群算法與自適應濾波的模糊聚類算法相結合用以對圖像進行分割[9]。
空間數據挖掘作為數據挖掘的延伸,有很好的傳統數據挖掘方法理論的基礎,雖然取得了很大進步,然而其理論和方法仍需進一步的深入研究。伴隨著大數據時代,面對越來越多的空間數據,提升數據挖掘的準確度和精度是一個有待研究的問題。同時現在流行的空間數據挖掘算法的時間復雜度仍停留在O(n log(n))~O(n3)之間,處理大量的異構數據,數據挖掘算法的效率也需要進一步提高。數據挖掘在云環境下已經得到很好的應用[10],對于處理空間數據的空間云計算是有待學者們研究的方向。大多數空間數據挖掘算法沒有考慮含有障礙約束的情況,如何解決現實中障礙約束問題值得探討。帶有時間屬性的空間數據呈現出了一種動態、可變的空間現象,時空數據挖掘將是未來研究的重點。
由于數據挖掘涉及多種學科,其基本理論與方法也已經比較成熟,針對空間數據挖掘,如何合理地利用和拓展這些理論方法以實現對空間數據的挖掘仍將是研究人員們需要長期努力的方向。
[1]李德仁,王樹良,李德毅.空間數據挖掘理論與應用(第2版)[M].北京:科學出版社,2013.
[2]KOPERSKI K,HAN J W.Discovery of spatial association rules in geographic information databases[C].Procedings of the 4th International Symposium on Advances in Spatial Databases,1995:47-66.
[3]SHEKHAR S,HUANG Y.Discovering spatial co-location patterns:a summary of results[C].Procedings of the 7th International Symposium on Advances in Spatial and Temporal Databases,2001:236-256.
[4]柴思躍,蘇奮振,周成虎.基于周期表的時空關聯規則挖掘方法與實驗[J].地球信息科學學報,2011,13(4):455-464.
[5]王家耀,張雪萍,周海燕.一個用于空間聚類分析的遺傳 K-均值算法[J].計算機工程,2006,32(3):188-190.
[6]Zhang Xueping,Du Haohua,Yang Tengfei,et al.A novel spatial clustering with obstacles constraints based on PNPSO and K-medoids[C].Advances in Swarm Intelligence,Lecture Notes in Computer Science(LNCS),2010:476-483.
[7]SHEKHAR S,SCHRATER P R,VATSAVAI R R,et al.Spatial contextual classification and prediction models for mining geospatial data[J].IEEE Transactions on Multimedia,2002,4(2):174-187.
[8]汪閩,駱劍承,周成虎,等.結合高斯馬爾可夫隨機場紋理模型與支撐向量機在高分辨率遙感圖像上提取道路網[J].遙感學報,2005,9(3):271-275.
[9]張自嘉,岳邦珊,潘琦,等.基于蟻群和自適應濾波的模糊聚類圖像分割[J].電子技術應用,2015,41(4):144-147.
[10]石杰.云計算環境下的數據挖掘應用[J].微型機與應用,2015,34(5):13-15.
Understanding and consideration of spatial data m ining
Li Weicheng,Zhang Xueping,Zhu Yuhua
(School of Information Science and Engineering,Henan University of Technology,Zhengzhou 450001,China)
In this era of big data,spatial data are accumulated from various fields rapidly.Now,the Spatial Data Mining(SDM),as a part of Data Mining(DM),has become the key subject of research on spatial data.In this paper,we mainly introduce the basic concept of SDM,the general steps and the latest mining methods,expressing the opinions of the current SDM.At last,we discuss the future research objectives in SDM deeply.
big data;spatial data mining;mining methods
P208;TP18
A
1674-7720(2015)22-0012-02
李圍成,張雪萍,祝玉華.空間數據挖掘認識及其思考[J].微型機與應用,2015,34(22):12-13,21.
2015-06-21)
李圍成(1991-),通信作者,男,碩士研究生,主要研究方向:空間數據挖掘等。E-mail:13598591208@163.com。
張雪萍(1968-),女,博士,教授,主要研究方向:空間數據挖掘等。
祝玉華(1965-),女,博士,教授,主要研究方向:地理信息系統、空間數據挖掘等。