楊文濤,鄧 敏,王玉朝,顏才玉
(1.中南大學地理信息系,湖南長沙410083;2.云南大學資源環境與地球科學學院,云南昆明650091; 3.中南大學工商管理系,湖南長沙410083)
一種基于信息熵的時空點模式分析方法
楊文濤1,鄧 敏1,王玉朝2,顏才玉3
(1.中南大學地理信息系,湖南長沙410083;2.云南大學資源環境與地球科學學院,云南昆明650091; 3.中南大學工商管理系,湖南長沙410083)
現有時空點模式分析方法在度量時空鄰近或時空密度時,存在時空耦合參數選擇的主觀性問題,無法得到有效的分析結果,為此,該文提出了一種基于信息熵的時空點模式分析方法。首先,計算每個時空點實體的空間最近鄰的時間距離;進而,統計不同范圍內空間最近鄰的時間距離的頻率分布特征,計算歸一化信息熵值描述分布的不確定性程度,歸一化熵值越大越表現為聚集分布,熵值越小越趨近于隨機分布。最后進行了模擬實驗比較和實際應用驗證分析,結果表明:該方法在無須輸入敏感性參數條件下,能夠識別不同點模式類型,并能近似度量不同強度的聚集模式。
時空點模式;空間最近鄰的時間距離;信息熵
時空點模式分析是時空數據分析的一項重要內容,旨在從時空點數據集中提取點群的時空分布特征和相互關系,即探討時空點對象集表現為聚集、隨機還是均勻分布模式[1,2]。對時空點數據集進行模式分析,一方面能夠直接獲取時空點對象集的分布信息,如在犯罪“熱點”探測中,時空點模式分析可用于判別研究區域某時間段的犯罪事件集合是否表現為時空聚集模式,聚集程度如何等[3];另一方面也是進行時空聚類、時空異常探測等相關分析的基礎性工作,如在時空點群聚類分析前需要對其可聚性進行判別,只有在數據表現為聚集分布模式的條件下,得到的聚類結果才是有效的[4-6]。由此可見,時空點模式分析具有非常重要的作用。
現有空間點模式分析方法[7-15]主要借助于空間鄰近或空間密度指標來判別分布類型,僅考慮空間特征卻忽略了時間特征,從而難以適應于存在明顯時間跨度的時空數據。針對這一問題,一些研究試圖將現有的空間點模式分析方法從空間域擴展到時空域,從時空一體化的角度度量時空鄰近或計算時空密度,然而時空耦合參數選擇的主觀性,直接影響著時空點模式分析結果的有效性。例如,在基于細胞單元的密度計算過程中[16-18],時空細胞單元的空間長度與時間長度難以確定,而在基于距離的密度計算過程中[19],空間k近鄰與時間k近鄰的參數k值亦難以確定。為此,本文提出一種基于信息熵的時空點模式分析方法,在不需要用戶輸入敏感性參數的條件下,該方法能夠兼顧空間特征與時間特征,采用空間最近鄰的時間距離來度量時空點對象間的鄰近性,同時考慮到空間最近鄰的時間距離在不同時空點模式類型下分布的差異性,借助于信息熵理論判別時空點模式的分布類型。
時空點模式主要包括3種類型:聚集分布模式、隨機分布模式和均勻分布模式,而地理空間中的點數據集一般較少表現為均勻分布,因而時空點模式分析主要是識別數據是隨機分布還是聚集分布(圖1)。對基于信息熵的時空點模式分析理論與步驟介紹前,有必要給出與分析過程有關的幾個概念。

圖1 時空點分布模式的3種類型Fig.1 Three types of spatio-temporal point pattern
1.1 相關定義
定義1 時空點對象:在地理空間中發生的事件能夠采用點對象進行抽象表達,這些地理事件有確定的空間位置(x,y)與確定的時間t,數據表示為(x,y,t),如圖2a所示。
定義2 空間最近鄰的時間距離:給定時空點實體對象集合P,P={p1,p2,p3,…,pn},對于P中任一點pi(xi,xi,ti),都存在pj(xj,xj,tj)(j≠i),使得任意pk(xk,yk,tk)(k≠i,k≠j))都滿足:

則pj為pi的空間最近鄰,pi空間最近鄰的時間距離為|ti-tj|。如圖2b所示,對p1點而言,其空間最近鄰為p2,在這種情況下p1的空間最近鄰的時間距離為Δt,即p1與p2時間距離的絕對值。

圖2 時空點對象與空間最近鄰時間距離的示意圖Fig.2 Illustration of spatio-temporal point object and temporal distance of spatial nearest neighbor
1.2 基于信息熵的時空點模式分析原理
時空點數據同時具有空間特征與時間特征,由于兩者具有不同的量綱,因而不能直接由空間位置信息與時間信息計算時空距離,也就無法得到時空最近鄰。但是空間最近鄰的時間距離是空間位置信息與時間信息的結合,空間最近鄰的時間距離能夠間接地度量時空鄰近性,高密度時空區域的空間最近鄰的時間距離在統計上小于低密度的空間最近鄰的時間距離,隨機分布模式下空間最近鄰的時間距離在整個取值區間上近似于均勻分布,不確定性較大,而聚集分布模式下空間最近鄰的時間距離在較小的取值區間中頻率較大,不確定性較小。
由于不同時空點分布模式類型中,空間最近鄰的時間距離分布存在差異,因而可以通過度量這種分布的不確定性,來判別時空點模式的分布類型。信息熵是度量不確定性的工具之一,不確定越大則信息熵越大[20],因此,空間最近鄰時間距離的分布不確定性可借助于信息熵進行度量,隨機分布模式下的信息熵最大,而聚集分布模型模式下信息熵較小,并且數據聚集程度越高其信息熵越小。
1.3 基于信息熵的時空點模式分析過程
基于信息熵的時空點模式分析方法,將空間最近鄰時間距離的值域等間距地劃分為k個區間單元{Bi|i=1,2,3,…,k},若Bi包含Ci個數據對象,點對象總的數目為N,那么由信息熵理論規定如下:

其中,式(2)給出了空間最近鄰時間距離的信息熵(Inf o)計算方法,式(3)描述了信息熵的取值范圍,式(4)與式(5)給出了信息熵取最值的條件。當空間最近鄰的時間距離的值域劃分為k個區間時,信息熵的最大值為log2k,隨機分布模式下,空間最近鄰的時間距離近似于均勻分布,落在每個區間單元的點數大致相等,因而信息熵近似于log2k,聚集分布模式下信息熵小于log2k,并且聚集程度越高,則信息熵越小。考慮到k的取值對信息熵的影響,即不同劃分k對應的信息熵存在差異,因此,對信息熵取值進行歸一化處理,表達為:

或

由于Inf o取值為[0,log2k],則NI(Normalized Index)取值為[0,1];NI趨近于0時,為隨機分布, NI值越大,則聚集程度越大。于是,基于信息熵的時空點模式分析的具體步驟為:1)計算每個空間實體的空間最近鄰的時間距離;2)將空間最近鄰時間距離取值區間等距劃分為k個區間單元{Bi|i=1, 2,3,…,k},計算落在每個區間單元的點個數Ci(i= 1,2,3,…,k)(k>10);3)依據式(6)計算歸一化指數NI,判別時空模式的類型,如果NI趨近于0則為隨機分布模式,NI越大聚集程度越高。
2.1 模擬實驗
本文設計兩組模擬數據來驗證算法的有效性,每組模擬數據包括4個數據子集。第一組模擬數據集描述一個由聚集到隨機的漸變過程,在(0,10)和(0,10)矩形空間區域中生成300個時空點對象,數據集的時間范圍為(0,10),如圖3所示。第二組模擬數據則考慮研究區域存在多個時空簇,以及時空簇密度存在差異,在(0,20)和(0,20)矩形空間區域中生成200個時空點對象,數據集的時間范圍為(0, 10),如圖4所示。

圖3 第一組模擬數據集Fig.3 The first group of simulated datasets

圖4 第二組模擬數據集Fig.4 The second group of simulated datasets
按照本文所提出的方法對兩組模擬數據分別進行分析,空間最近鄰的時間距離區間劃分k取20,兩組數據的頻率直方圖如圖5和圖6所示,其中橫坐標表示區間單元(空間最近鄰距離時間距離的一個取值范圍),縱軸表示頻率(落在某個取值范圍中點的數目占所有點數目的比例)。在實驗中,為了分析k對NI取值的影響,計算不同區間劃分(k=5, 10,…,50)所對應的NI值,實驗結果如圖7和圖8所示。可以發現:兩組數據中聚集程度較大的數據集(1-1與2-1)的NI值較大,并且隨著數據的聚集程度降低,NI值也相應減小;數據集1-4與數據集2-4模擬的是隨機分布模式,在不同的k值對應的NI值均小于0.1,從而滿足理論上隨機分布下NI值趨近于0的推斷。此外,從圖7與圖8可以分析得出,式(2)中的信息熵經過歸一化后,其取值平穩,但是NI值與k的選取存在一定相關性,當k取較小的值,NI值偏大,這是由于劃分的區間個數較少導致整體不確定性減小。
因此,從上述實驗可知,時空數據表現為隨機分布時,其信息熵最大,對應的NI值趨于0,而聚集分布模式的信息熵較小,聚集程度越高則信息熵越小,對應的NI值越大。

圖5 第一組模擬數據集的頻率直方圖(k=20)Fig.5 Frequency histogram of the first group of simulated datasets(k=20)

圖6 第二組模擬數據集的頻率直方圖(k=20)Fig.6 Frequency histogram of the second simulated datasets(k=20)
2.2 實際應用
實驗數據為中國陸地2008-2009年震級大于4的地震數據,如圖9所示。采用本文提出的基于信息熵的時空點模式分析方法對地震分布模式進行分析,首先計算每個時空對象的空間最近鄰的時間距離,將整個取值范圍劃分k個區間單元,然后統計落在每個區間單元的點數。圖10表示k取20的頻率直方圖,圖11表示不同k所對應的NI值,NI的取值均在0.4附近,以此可以判斷我國2008-2009年發生地震(M>4)為聚集分布模式,并且聚集程度較高。實際上,我國位于世界兩大地震帶—環太平洋地震帶與歐亞地震帶交匯部位,在2008-2009年地震(M>4)主要聚集分布在青藏高原地震區與四川龍門山地震帶,其中2008年5月四川龍門山地震帶發生里氏8.0級的地震以及隨之發生的余震表現為顯著的時空聚集特征。基于信息熵的時空點模式分析可以用來獲取地震的分布類型,當數據表現為顯著的聚集分布時,可以對地震數據進行更深入的分析,進一步了解地震時空統計分布特征與演變規律。

圖7 模擬數據一的k區間劃分對應的NI值Fig.7 Results of NI for the first group of datasets

圖8 模擬數據二的k區間劃分對應的N I值Fig.8 Results of NI for the second group of datasets

圖9 2008-2009年中國陸地地震數據(M>4)Fig.9 China′s seismic data during 2008-2009(M>4)

圖10 地震數據的頻率直方圖Fig.10 Frequency histogram of the seismic data(k=20)

圖11 地震數據的k區間劃分對應的N I值Fig.11 Results of NI for the seismic data
本文提出了一種基于信息熵的時空點模式分析方法,采用空間最近鄰的時間距離度量時空鄰近性,避免了用戶選取閾值的主觀性問題,進而依據空間最近鄰的時間距離在隨機分布模式與聚集分布模式下分布的差異性,采用不確定性度量工具——信息熵定量地判別分布類型,通過兩組模擬數據和實際地震數據驗證了本文方法的可行性與實用性。
本文對時空分布模式類型的判別是建立在單一的時空尺度上,考慮到時空數據分析在不同時空尺度上可能會產生不同的結果,因而,下一步的研究工作需考慮不同時空尺度對分布模式類型的影響。
[1] ANSELIN L,REY S J.Perspectives on Spatial Data Analysis [M].Springer Berlin Heidelberg,2010.
[2] SHEKHAR S,VATASAVA R R,CELIK M.Spatial and Spatiotemporal Data Mining:Recent Advances.Next Generation ofData Mining[M].New York:CRC Press,2009.
[3] MURRARY A T,MCGUFFOG I,WESTERN J S,et al.Exploratory spatial data analysis techniques for examining urban crime[J].British Journal of Criminology,2001,41(2):309-329.
[4] 鄧敏,劉啟亮,李光強,等.空間聚類分析及應用[M].北京:科學出版社,2011.
[5] DENG M,LIU Q L,WANG J Q,et al.A g eneral method of spatio-temporal clustering analysis[J].Science China:Information Science,2012,42(1):111-124.
[6] BIRANT D,KU T A.ST-DBSCAN:An algorithm for clustering spatial-temporal data[J].Data&Knowledg e Discovery,2007, 60(1):208-221.
[7] CLARK P J,EVANS F C.Distance to nearest neighbor as a measure of spatial relationships in populations[J].Ecology, 1954,35:445-453.
[8] RIPL E B D.Spatial Statistics[M].New York:Wiley,1981.
[9] BAILEY T C,GATRELL A C.Interactive Spatial Data Analysis[M].Harlow,England:Longman Scientific&Technical, 1995.
[10] HAASE P.Spatial pattern analysis in ecology based on Ripley′s K-function:Introduction and methods of edg e correction[J]. Journal of Vegetation Science,1995,6(4):575-582.
[11] GAT RELL A C,BAILEY T C,DIGGLE P J,et al.Spatial point pattern analysis and its application in geographical epidemiology[J].T ransaction of the Institute of British Geographers, 1996,21(1):256-274.
[12] BOOTS B N,GET IS A.Point Pattern Analysis[M].Newbury Park,CA:Sage Publications,1998.
[13] HAINING R P.Spatial Data Analysis:Theory and Practice[M]. U K:Cambridge University Press,2003.
[14] 王勁峰.空間分析[M].北京:科學出版社,2006.
[15] 王遠飛,何洪林.空間數據分析方法[M].北京:科學出版社, 2007.
[16] KU LLDORFF M,HJALMARS U.T he Knox method and other tests for space-time interaction[J].Biometrics,1999,55:544 -552.
[17] KULLDORFF M,HEFFERNAN R,ASSUNCAO R,et al.A space-time permutation scan statistic for disease outbreak detection[J].Plos Medicine,2005,2(3):216-224.
[18] GAUDART J,POU DIOU GOU B,DICKO A,et al.Space-time clustering of childhood Malaria at the household level:A dynamic cohort in a Mali village[J].BMC Public Health,2008, 6:286.
[19] JACQUEZ G M.A K nearest neighbor test for space-time interaction[J].Statistics in M edicine,1996,15(17-18):1935-1949.
[20] SHANNON C E.A mathematical theory of communication[J]. The Bell System Technical Journal,1948,27:379-423,623-656.
A Method of Spatio-Temporal Point Pattern Analysis Based on Information Entropy
YANG Wen-tao1,DENG Min1,WANG Yu-chao2,YAN Cai-yu3
(1.Dep artment of Geo-inf ormatics,Central South University,Changsha410083; 2.School of Resource Environment and Earth Science,Yunnan University,Kunming650091; 3.Dep artment of Business Administration,Central South University,Changsha410083,China)
Existing methods of spatio-temporal point pattern analysis require users to set both space and time autocorrelation parameters,and the selection of those parameters is difficult and subjective,which makes it difficult to obtain effective and reliable results.T o overcome this difficulty,in this paper,a spatio-temporal point pattern analysis method based on the information entropy theory is proposed.In the method,the temporal distance of one object to its spatial nearest neighbor is firstly calculated, and then the frequency of the temporal distance is counted in each interval.Finally,an index based the normalized information entropy is developed to describe the uncertainty of the temporal distance distribution.According to the value of the index,the type of spatio-temporal point pattern can be identified,and a larger value indicates an aggregate distribution pattern while a small value(which is near zero)means a random distribution pattern.Both simulated and real-life datasets are used to evaluate the proposed method,and the results show that the proposed method can identify the different point pattern types with less parameters,and what′s more,it has been found that the index can even indicate the strength of aggregation patterns in some sense.
spatio-temporal point patterns;temporal distance of spatial nearest neighbor;information entropy
P208
A
1672-0504(2016)05-0071-05
10.3969/j.issn.1672-0504.2016.05.011
2016-01-09;
2016-05-24
湖南省研究生創新項目(CX2014B051)
楊文濤(1988-),男,博士研究生,研究方向為地理空間數據挖掘。E-mail:yangwentao8868@126.com