周 迪 施 冬* 徐 豐
(長江大學地球科學學院,湖北 武漢430100)
分級統計地圖是通過將數據地圖化,用不同的色級或不同疏密的暈線表現地圖上各分區的數量指標,直觀地表現了各區現象的分布差別、分布趨勢[1]。目前,分級統計地圖的相似性研究相對較少,本文借鑒前人的思想并創新,基于改進的Jaccard系數,進行分級統計地圖相似性比較,以計算分級統計地圖不同級別的數據集合之間的相似度,以突出分級統計圖的制圖對象的數量分布特征[2]。
本文基于Jaccard 系數算法,提出一種兼顧數據權重與計算效率的改進的Jaccard 系數算法,即比較具有相同數值的不同集合之間的相似度[3]。集合之間若無相同數值,則取值為0,以不同數據集合之間的相似性度量分級統計地圖的不同級別的相似性。設分級統計地圖的地理數據為數據集C={C1,C2,...,Ci}(i 為正整數),在ArcGIS 中將地理數據按照字段值分為m 級和n 級,不同級別之間進行兩兩對比,最后得出級別之間的相似性理論。則設Cm={D1,D2,...,Dm},Cn={E1,E2,...,En}(m,n 為正整數),用Cw(w為正整數)表示數據集C 中的數值。其算法過程如下:
計算每個數值對集合相似度是否有貢獻。若集合Dm和集合En的數值無交集,則兩集合的相似度為0。設R(Cw)表示Cw是否在Dm和En中同時出現,若R(Cw)=1。設數據Cw在集合Dm和En所占的數量個數分別為集合{1,2,3,...,X},{1,2,3,...,Y}(X,Y 為正整數)。在集合Cm和集合En,若每個數值都不相等,數量個數為1;若有2 個數值相等,則數量個數為2,以此類推。設集合Dm和集合En的總數分別為S,T,計算Cw在集合Dm和集合En所占比重SD,TD,計算數據集合之間的Jaccard 相似度。設每個數值在總個數為K 的數量個數為M,計算L(Cw)表示每個數值在總個數K 中所占權重。設集合之間的相似度為Sim,Sim 越小,表明集合Dm和集合En越相似。計算得出的結果為不同級別的不同集合的相似度,用集合Q 表示,因不同級別的集合個數不一樣,比較級別之間的相似度較難,故需要進行數據標準化處理后再進行比較。Z-Score 標準化算法主要是將不同量級的數據統一轉化為同一個量級,劉競妍等對Z-Score 方法進行了總結,設不同級別之間的相似度為Z,?表示集合Q 的平均值,O 表示集合Q的標準差。可以用Excel 計算集合Q 的平均數和標準差,提高計算效率。將集合Q 中每個數據標準化,并將計算的值相加,得到分級統計地圖不同級別之間的總相似度,即H=∑Z,對H 值進行比較,即得出不同集合的相似度差異。
本文選自2015 年河南省信陽市十個地區的人口密度數據(取整數),將人口密度數據按自然間斷點法分為3 級、5 級和7級,這里用同一色系的不同色相變化來體現信陽市的人口密度分布情況(見圖1)。本次實驗的數據即信陽市人口密度的數據集合C= {263,227,230,311,359,368,392,394,436,469},3 級的區間數據集合C3= {D1,D2,D3},5 級區間的數據集合C5={E1,E2,E3,E4,E5},7 級區間的數據集 合C7={E1,E2,E3,E4,E5,E6,E7}。則D1= {263,227,230},D2={311,359,368,392,394},D3={436,496};E1= {263,227,230},E2= {311},E3= 359,368},E4={392,394,436},E5= {496};E1= {227,230},E2= {263},E3={311},E4={359,368},E5={392,394},E6={436},E7={496}。

本文基于改進的Jaccard 系數算法,考慮數據權重這一因素,進行了分級統計地圖相似性比較,并且以信陽市十個地區的人口密度進行計算,得出分級統計地圖不同級別之間的相似度,該研究將為地理空間相似關系的進一步研究提供一定的參考價值。而該算法有助于提高地圖綜合制圖的質量,比較不同級別分級統計地圖的相似度,得出準確的數據分析,有利于為相關人和相關部門的決策提供參考價值,使相關部門做出更精準的判斷。本文運用改進的Jaccard 系數算法的計算相似度精度高,計算結果準確,但計算過程較為復雜,還需要從其它角度和其它方法進一步研究分級統計地圖的相似性度量問題。

圖1 基于自然斷點法的多級人口密度分布圖