盧建青,陳銀珠,劉玉珠,張 錦
廣義回歸神經網絡在空間數據聚類中的應用
盧建青1,陳銀珠1,劉玉珠1,張 錦2
(1. 浙江省測繪大隊,杭州 310030;2. 中國地質大學 地理與信息工程學院,武漢 430074)
針對空間數據聚類中由于空間數據本身的特點造成模糊C均值聚類算法無法滿足使用要求的問題,提出1種改進的空間數據聚類算法:將模糊C均值聚類算法與廣義回歸神經網絡相結合,得到結合廣義神經網絡的模糊C均值聚類算法;并將結合廣義神經網絡的模糊C均值聚類算法應用到空間數據的聚類中。實驗結果表明,結合廣義神經網絡的模糊C均值算法在空間聚類方面比模糊C均值有著更好的效果,可以滿足實際空間數據聚類的要求。
空間數據;空間聚類;模糊C均值聚類算法;結合廣義神經網絡的模糊C均值聚類算法;聚類效果
隨著我國遙感、測繪、地理信息等各種空間數據獲取技術的快速發展,空間數據的量越來越大??臻g數據由于其自身的特點,往往具有較高的復雜度,處理空間數據也相對困難。海量的空間數據無法得到有效的處理,造成了空間數據利用率低的現象[1-2]。于是空間數據挖掘被人提出[3-4],空間數據挖掘就是指如何在海量的空間數據中得到與空間數據相關的空間數據結果或者非空間數據結果,探索空間數據背后的規律,最大限度地發揮空間數據潛在的價值??臻g聚類作為空間數據挖掘的一部分,可以發現空間數據的分布特點,分析空間數據的集中規則,并可以進一步判斷和預測空間數據的分布位置的變化[5-6]。目前較為常用的空間聚類算法有:K均值聚類算法(K-means)[7]、模糊C均值聚類算法(fuzzy C-means, FCM)[8-10]、自組織特征映射網絡(self-organizing feature map, SOM)聚類算法[11-12]、期望最大化聚類算法(expectation maximization, EM)[13]。由于空間數據本身的量較大且空間數據較為復雜,目前常用的空間聚類算法都無法完全滿足各種空間數據聚類的需求。如K-means作為被使用最為廣泛的空間聚類算法,其主要不足在于K均值聚類的初始點是隨機選擇的,這可能會導致即使是相同的數據每次聚類時的結果也不完全相同,甚至可能由于初始點的選擇造成聚類結果錯誤。此外,其對于離散的空間數據處理能力不足,且K均值聚類不具備較高的抗噪聲性能。SOM作為1種全連接神經網絡聚類算法,可以進行非監督、完全自主的空間數據聚類。其大致原理是通過神經網絡的自主學習能力使某1種神經元只對符合某1種特征的輸入數據敏感,從而達到空間數據非監督聚類的目的。但是SOM需要較多的輸入參數,若輸入參數設置數量不足或參數選取錯誤,聚類結果會有較大的偏差。所以對于SOM最大的難點在于輸入參數的確定。FCM在處理空間數據分類時1個數據在2個類的重疊區域部分有著極大的優勢,但是空間數據的分布情況會對聚類結果產生較大的影響,并且可能存在會局部極值的現象導致無法得到準確的聚類結果。本文提出將廣義回歸神經網絡(generalized regression neural network, GRNN)引入空間數據聚類中,將FCM和GRNN相結合,建立1種新的空間數據聚類算法即結合廣義回歸神經網絡的模糊C均值聚類算法(generalized regression neural network-fuzzy C- means,GRNN-FCM),并通過實際的空間數據檢驗GRNN-FCM的聚類效果。
FCM算法通過模糊聚類的目標函數將數量為的空間數據聚類成數量為的模糊類,當函數達到最小時便可確定每類的聚類中心。模糊聚類目標函數為



FCM聚類算法具體步驟如下:
1)設置模糊聚類的需要得到類別數,模糊權重指數和初始聚類中心;
2)利用式(2)計算得到空間數據的模糊隸屬度矩陣;
3)利用式(3)計算出數量為的小類別中每1個的類別中心v;
4)利用式(1)計算模糊聚類目標函數值,若目標函數值到達最小,則結束計算,否則返回步驟2)。
FCM聚類算法是1種以模糊隸屬度作為聚類標準的聚類算法,每個空間數據都是通過模糊隸屬度矩陣確定其所屬類別。


圖1 GRNN網絡拓撲結構
網絡共分為4個層,具體作用如下:
1)輸入層。本層的作用為輸入學習的樣本并將輸入參數傳入模式層,輸入層的神經元分布簡單且神經元的數目為訓練輸入樣本的維數。
2)模式層。本層作用是利用本層的神經元對輸入的訓練樣本數據進行學習,所以本層中神經元數目等于訓練樣本數,訓練函數為

式中:為全部訓練樣本;X為第個神經元的訓練樣本。
3)求和層。本層的作用是對模式層的數據分別進行算法求和及加權求和,公式為


式中權y為訓練輸出樣本的對應元素。
4)輸出層。輸出層的作用為計算并輸出結果,因此本層的神經元數為訓練輸出的樣本維數,結果計算函數為

本文提出的GRNN-FCM空間聚類算法是采用GRNN和FCM相結合的方式進行空間聚類。先通過模糊聚類將空間數據分為類再選取每1類中最具有代表性的組樣本數據作為網絡的訓練輸入數據,以每個樣本數據的類別為網絡的訓練輸出。GRNN通過訓練輸入數據和訓練輸出數據對空間數據的聚類規律進行學習。最后利用學習后的GRNN網絡對所有的輸入數據和輸出數據聚類,得到每個空間數據所處的類別。算法的具體流程如圖2所示。
實驗所使用的空間數據來自于浙江省測繪大隊的自然資源大數據建設項目,自然資源大數據建設項目整合了各個部門收集自然資源數據樣本數據,包括國土資源數據、住房和城鄉建設數據、水利數據、農業數據、林業數據、測繪地理信息數據和海洋數據。自然資源大數據建設項目需要這些數據進行分類、分析,因此也為本次實驗提供了豐富的空間數據。本次實驗采用全國34個省級行政區的國土資源空間數據。國土資源數據由于其自身的復雜性,數據特征參數較多且有部分空間數據分布較為集中;因此使用一般的空間聚類方法處理此類空間數據有一定的困難。為了將空間數據導入MATLAB中計算和顯示,對空間數據進行質心化處理得到結果如圖3所示。

圖2 GRNN-FCM算法流程

圖3 國土資源質心化
為了對GRNN-FCM聚類算法進行分析,本文分別采用GRNN-FCM和FCM聚類算法對國土資源空間數據進行聚類,并將2種聚類算法得到的結果進行分析比較。
參數設置時將2種聚類算法的聚類數均設為5。得到GRNN-FCM和FCM的聚類結果如圖4、圖5所示,為了對比2種聚類方法的效果計算得表1、表2。

圖4 FCM聚類結果

圖5 GRNN-FCM聚類結果

表1 聚類結果表

表2 聚類效果對比表
從圖4和表1中可以清楚地發現,由于空間數據較為復雜、屬性較多的原因,FCM聚類沒有能夠區分出第1類和第2類,最終FCM聚類算法僅僅只聚類出了4種空間數據的類別。從圖5和表1中可以發現GRNN-FCM聚類算法在FCM的基礎上有效地將第1類和第2類區分開,根據實際情況將空間數據聚類成5個類別。GRNN-FCM較FCM聚類算法可以更好地區分出復雜空間數據中屬性的細小差異,并且根據聚類要求得到需要的聚類結果。從表2中也可以發現GRNN-FCM的聚類結果中每個小類的空間數據離中心點更加近,這表示GRNN-FCM得到的小的類別內部更加緊湊。因此可以證明GRNN-FCM和FCM相比有著更好的聚類效果,聚類結果更加準確。并且從表2中可以發現GRNN-FCM由于其先期利用具有一定代表性的數據進行了學習,所以GRNN-FCM的聚類時間相較于FCM明顯較短,算法也更加高效。
FCM作為1種廣泛使用的聚類算法,在對空間數據進行聚類的過程中,由于空間數據自身具有較為復雜、參數較多并且數據量較大的特點,某些情況下可能無法有效地按照聚類要求完成空間數據的聚類。針對FCM聚類算法在空間數據聚類方面的不足,本文提出在FCM中引入GRNN,將2者結合得到了全新的GRNN-FCM空間聚類算法。并利用空間數據進行實驗,比較GRNN-FCM和FCM聚類效果。結果證明GRNN-FCM聚類算法在空間數據聚類時比FCM有著更好的聚類效果、更加準確的聚類結果。同時GRNN-FCM比FCM進行聚類時所需時間更少,算法的效率更高。實驗證明GRNN-FCM在空間數據聚類中有一定的實際應用價值,同時本文的研究也為其他空間聚類算法研究提供了參考。
[1]王家耀, 苗國強, 成毅. 空間信息系統數據的獲取[J]. 海洋測繪, 2004, 24(2): 1-4.
[2]裴韜, 周成虎, 駱劍承, 等. 空間數據知識發現研究進展評述[J]. 中國圖象圖形學報, 2018, 6(9): 854-860.
[3]李德仁, 王樹良, 李德毅. 空間數據挖掘理論與應用[M]. 北京: 科學出版社, 2013.
[4]李德仁, 王樹良, 李德毅, 等. 論空間數據挖掘和知識發現的理論與方法[J]. 武漢大學學報(信息科學版), 2002, 27(3): 221-233.
[5]汪閩. 空間聚類挖掘方法研究[D]. 北京: 中國科學院地理資源研究所, 2006.
[6]馬飛. 數據挖掘中的聚類算法研究[D]. 南京: 南京理工大學, 2008.
[7]張建輝. K-means聚類算法研究及應用[D]. 武漢: 武漢理工大學, 2007.
[8]周開樂. 模糊C均值聚類及其有效性檢驗與應用研究[D]. 合肥: 合肥工業大學, 2014.
[9]BEZDEK J C , EHRLICH R , FULL W. FCM: the fuzzy c-means clustering algorithm[J]. Computers & Geosciences, 1984, 10(2/3): 191-203.
[10]孫曉霞, 劉曉霞, 謝倩茹. 模糊C-均值(FCM)聚類算法的實現[J]. 計算機應用與軟件, 2008, 25(3): 48-51.
[11]齊志. 基于SOM神經網絡的聚類可視化方法研究[D]. 長春: 東北師范大學.
[12]周歡, 黃立平. 基于SOM神經網絡的C-均值聚類算法[J]. 計算機應用, 2007, 27(6): 51-52.
[13]MOON T K. The expectation-maximization algorithm[J]. Signal Processing Magazine, 1996, 13(6): 47-60.
[14]溫愛華, 李松. 基于廣義回歸神經網絡的鐵路貨運量預測[J]. 鐵道運輸與經濟, 2011, 33(2): 88-91.
[15]周昊, 鄭立剛, 樊建人, 等. 廣義回歸神經網絡在煤灰熔點預測中的應用[J]. 浙江大學學報(工學版), 2004, 38(11): 1479-1482.
[16]SENG T L, MARZUKI K, RUBIYAH Y, et al. Adaptive neuro-fuzzy control system by RBF and GRNN neural networks[J]. Journal of Intelligent & Robotic Systems, 1998, 23(2-4): 267-289.
Application of generalized regression neural network in spatial data clustering
LU Jianqin1, CHEN Yinzhu1, LIU Yuzhu1, ZHANG Jin2
(1. The Institution of Geological Surveying and Mapping, Hangzhou 310030,China; 2.School of Geography and Information Engineering,China University of Geosciences, Wuhan 430074, China)
Aiming at the problem that it is difficult to meet the requirement of spatial data clustering for the fuzzy C-means clustering algorithm due to the characteristics of spatial data itself, the paper proposed an improved spatial data clustering algorithm: the fuzzy C-means clustering algorithm was combined with the generalized regression neural network to get the generalized regression neural network-fuzzy C-means (GRNN-FCM) clustering algorithm, and GRNN-FCM was applied in spatial data clustering. Experiments showed that the proposed method would have better effect than the fuzzy C-means algorithm in spatial clustering, which could meet the requirements of actual spatial data clustering.
spatial data; spatial clustering; fuzzy C-means; generalized regression neural network-fuzzy C-means (GRNN-FCM); clustering effect
P228
A
2095-4999(2020)02-0031-05
盧建青,陳銀珠,劉玉珠,等. 廣義回歸神經網絡在空間數據聚類中的應用[J]. 導航定位學報, 2020, 8(2): 31-35.(LU Jianqin, CHEN Yinzhu, LIU Yuzhu, et al. Application of generalized regression neural network in spatial data clustering[J]. Journal of Navigation and Positioning, 2020, 8(2): 31-35.)
10.16547/j.cnki.10-1096.20200206.
2019-09-20
盧建青(1979—),男,廣東饒平人,碩士,注冊測繪師,高級工程師,研究方向為地理信息系統平臺設計開發及其應用技術。
張錦(1995—),男,安徽合肥人,碩士研究生,研究方向為GNSS數據處理。