張凱業, 汪 逸, 梁勤歐
(浙江師范大學 地理與環境科學學院,浙江 金華 321004)
建筑群的空間分布特征是指多個建筑物在地理空間分布中的形狀特征或排列方式,是進行地理空間數據多尺度表達及地圖自動綜合等的關鍵因素.因此,讓計算機像人腦一樣智能理解建筑群的空間分布特征,是地理空間認知領域值得重點關注的問題[1-2].當人們處于空間認知方式時,格式塔原則由于重視視覺認知過程中物體結構的整體性,它既符合人類對地理空間分布的認知,又能讓計算機較完整地表達出隱含于建筑群中的空間信息,其在中大比例尺地圖自動綜合中有著較為廣泛的應用[3-4].
在格式塔原則約束下對建筑群聚類是挖掘建筑群空間分布特征、實現建筑群自動綜合的首要條件.有許多研究對建筑群的聚類分析方法進行了深入探討,如在層次聚類方面,劉慧敏等[5]、艾廷華等[6]利用建筑物加密點的Delaunay三角網描述建筑物之間的通視區域,并通過三角網的骨架線和最小生成樹(minimum spanning tree,MST)對建筑群進行聚類.在MST基礎上,Qi等[7]提出逐個加入建筑物的面積、密度等格式塔因子對建筑群進行分級約束,并根據各個影響因子的重要性,利用MST實現了建筑群的分層聚類.孫前虎[8]通過MST對比建筑物間的質心距離、最近距離、旋轉卡殼平均距離等值,并結合方向性和鄰近性等探討了建筑物之間的不同距離約束對建筑群聚類的影響.王安東[9]、Zhang等[10-11]利用建筑物的MST連接邊,通過跟蹤算法實現了建筑群線性和非線性排列模式的識別,充分表達了建筑物的幾何特征和空間分布特征,為聚類后的建筑群進行自動綜合奠定了基礎.在密度聚類方面,劉呈熠等[12]引入新的面要素分布密度參數——聚集度,利用聚集度識別聚類中心得到初始的面群,并通過建立的邊緣檢測和群組合并模型,得到空間鄰近面的主次關系,從而實現聚類.在劃分聚類方面,王真[13]、程博艷等[14]利用SOM(self organizing maps)競爭神經網絡對建筑群進行初步聚類,并在格式塔原則的約束下,通過行列掃描法和建筑物之間的因子特征相似性對建筑群進行了二次精細聚類.另外,高曉蓉等[15]、楊俊等[16]基于空間相似性理論提出居民地、土地利用圖斑等面實體在多尺度空間中的語義相似度計算模型,為大比例尺下建筑群的聚類與地圖自動綜合提供借鑒.
上述方法都充分考慮了建筑物自身的幾何形態特征和建筑群的空間分布特征,其中MST由于自身只需要設定少量參數便能達到聚類目的,在空間聚類中被廣泛應用.相關文獻研究大都選用集中均勻排列的城區建筑群(類似圖1(a)),并設定合理閾值去對MST進行剪枝、聚類,但都缺乏利用固定閾值對分散均勻排列的城區建筑群(類似圖1(b))的聚類討論.而閾值的設定往往具有較強的人工干預性.因為MST聚類不同于地圖自動綜合,若點與點、線與線或面與面之間的距離小于地形圖圖式標準規范的距離,便對目標進行相應的綜合操作.相反,MST剪枝邊的權值并沒有一個固定的標準,需要人為指定.若閾值指定合理,則能提高計算機對建筑群聚類和自動綜合的質量,改善人們對地圖的認知.但是合理的閾值往往需要大量的人工試驗,這并不符合計算機智能化處理的規定.為此,Zahn[17]提出了一種參數檢測方法,其不需要指定閾值就能對MST邊進行剪枝,但是Zahn只是從算法的角度介紹各個參數設置的合理性,并沒有將該方法應用到具有地理空間分布特征的建筑群中去,后續也沒有相關的研究將MST參數檢測與MST閾值方法進行定量的比較.

(a)集中均勻排列城區建筑群

(b)分散均勻排列城區建筑群
因此,本文圍繞MST和格式塔原則下的建筑群空間分布智能理解這一主題,期待解決以下2個問題:1)對于分散均勻排列的城區建筑群來說,MST通過固定閾值聚類是否能像集中均勻排列的城區一樣維持建筑群的空間分布特征?若不能,原因是什么?2)MST參數聚類和閾值聚類的適應性問題.

如何將格式塔這一心理學原則用于定量描述建筑物之間的特征差異?在描述這種差異之前,需先挖掘建筑物的鄰近關系.Delaunay三角網具備的“外接圓規則”和“最鄰近連接”特征是空間鄰近分析的有力工具[18].因此,本文利用Delaunay三角網將格式塔原則鄰近性質對應建筑物間的鄰近關系,相似性對應鄰近建筑物間的面積差異、形狀差異、密度差異,同向性對應方向差異.差異越大,則鄰近建筑物視覺距離越大,越不符合格式塔原則,越不能被視為一類.因此,可以將建筑物之間的特征差異問題定量為視覺距離大小問題,具體計算視覺距離的步驟如下:
首先,利用建筑物邊界內插生成的加密點構建Delaunay三角網,若建筑物邊界與三角形其中一個邊界重合,則兩建筑物空間鄰近,生成鄰近矩陣,連接2個建筑物的質心生成無加權值、不受約束的鄰近邊.其次,參考文獻[6]的骨架線連接方法,對連接之后的每條骨架線賦予通視區域,并進行鄰近距離的計算,得到加權、不受約束的鄰近邊.同時,選取建筑物的面積、密度、形狀、方向作為格式塔因子來約束鄰近邊,其對應于格式塔原則的相似性和同向性.表1為各個參數的計算方法.

表1 視覺距離的定量化參數
之后利用式(1)~式(4)對鄰近邊進行格式塔約束獲得加權、受約束的鄰近邊.

(1)


(2)
式(2)中:ymin和ymax分別表示2個鄰近建筑物之間最小和最大的面積、密度、形狀;Wy表示各因子對應的權重.

(3)
式(3)中:θ表示建筑物之間的SMBR方向夾角.WD表示方向因子對應的權重.

(4)
式(4)中,S表示視覺距離.最后利用Prim算法在空間鄰近圖的基礎上構建MST,此時MST的權值為視覺距離S.如圖2(d)所示,雖然計算得到115—155和137—155的鄰近距離相當,但是經過格式塔的面積約束,115—155的視覺距離要大于137—155的視覺距離(3個綠色建筑所示).

(a)Delaunay三角網

(b)骨架線(紅線)

(c)空間鄰近圖

(d)MST圖
最小生成樹(MST)是包含原圖n個頂點的極小連通子圖(圖2(d)所示),通過自身的結構特點在空間聚類方面得到廣泛應用,它并不用事先預定聚類的數目,而是只通過對邊的剪枝達到聚類的目的.大部分剪枝方法都是通過設定一定的閾值,若邊的權值大于該閾值,則剪枝該邊,Zahn稱剪枝邊為不一致邊.而MST邊的閾值剪枝僅僅考慮單條邊的權值,忽略了在一定范圍內與該邊具有相似幾何和空間特征的建筑群之間邊的關系,即沒有考慮建筑群的空間分布特征.為此,Zahn提出一種檢測不一致邊的方法,即利用參數檢測,其定義如下:

(5)
式(5)中,Il和Ir分別表示左鄰近邊綜合權值和右鄰近邊綜合權值,綜合權值為
I=max{f×Smean,Smean+n×Sstd}.
(6)
式(6)中:Smean表示左或右二階鄰近邊權值的平均值;Sstd表示左或右二階鄰近邊權值的標準差,若左或右不存在第2階鄰近邊,則只判斷右或左的二階鄰近邊;f和n為自定義參數,由前人的研究結果可知,f≥1,n≥3對不一致邊的檢測有意義,具體原因可查看文獻[9].不一致邊檢測算法如下:
步驟1:將f設為1到2,步長為0.1,將n設為3~4,步長為0.1,即共有121種不同的參數組合.
步驟2:準備A,B,C,D4個列表,A,B列表分別用來存儲左、右鄰近邊權值,C,D列表用來存儲檢測邊的ID碼,并將該邊標為已訪問狀態.同時提取檢測邊兩端頂點的ID碼作為變量.令L1為A|B列表中元素的個數,L2為C|D列表中元素的個數.
步驟3:在全局范圍內搜索未訪問的并與一端頂點ID碼重合的邊,將權值寫入A列表中,將邊的ID碼寫入C列表,并將提取的鄰近邊標為已訪問狀態.計算L1.
步驟4:遍歷C列表,并重復步驟2和3直至所有邊都被標為已訪問狀態.計算L2.若L1=L2,則不存在第2階鄰近邊,將A列表及C列表清空.
步驟5:在全局范圍內搜索未訪問的并與另一端頂點ID碼重合的邊,將權值寫入B列表中,將邊的ID碼寫入D列表,并將提取的鄰近邊標為已訪問狀態.計算L1.
步驟6:遍歷D列表,并將已遍歷的邊標為已訪問狀態,并重復步驟2和步驟3直至所有邊都被標為已訪問狀態.計算L2.若L1=L2,則不存在第2階鄰近邊,將B列表及D列表清空.
步驟7:分別對A,B列表計算Il和Ir,并利用式(5)~式(6)判斷MST中的不一致邊,若是不一致邊,則標為False.之后轉至步驟2~步驟7,并清空A,B,C這3個列表,將所有邊都標為未訪問狀態.當所有邊都判斷完畢后,將False邊刪除,轉至步驟1~步驟7.重新調整參數直至所有的參數組合計算完畢.

建筑物的語義特征在建筑物聚類或者是地圖自動綜合中起著重要作用.為此,本文先利用建筑物的幾何形態特征和空間分布特征,再利用語義特征對建筑群進行二次聚類,通過二次聚類的結果來表達更符合人類認知的建筑群空間分布.在一般的地圖數據庫中,建筑物語義特征很難獲取,而通過高德地圖獲取POI數據是目前獲取建筑物語義特征效率最高的一種方式[20].雖然提取的POI數據能準確描述建筑物的語義信息,但是并不是所有的POI數據點都會落在建筑物內,因此,需要對建筑物進行一定距離的緩沖來覆蓋POI數據點,若是建筑物的緩沖區沒有覆蓋POI數據點,則默認建筑物的語義特征與最鄰近建筑物相同.
由于POI數據類別的多樣性,高德地圖對POI數據進行了分類編碼,本文根據試驗區域將POI劃分為相應的語義類型.然而這些文本類的屬性信息并不像建筑物的面積、方向那樣能直接進行定量化的描述和比較.為此,文獻[5]在語義信息的基礎上定義了建筑物的語義向量等指標,其定義為:
1)建筑物語義向量:假設研究區存在N類數據點,那么任意的建筑物bi的語義類型可以通過一個N維向量進行描述,表達為
Fi=(r1,r2,r3,…,rk,…,rN).
(7)
式(7)中,rk為落入bi的第k類數據點的數目與第k類數據點總數的比值.本文中N=7.
2)建筑物語義相似度:通過2個建筑物(bi和bj)的功能向量Fi,采用向量余弦來描述2個建筑物之間的語義相似度Fsim,表達為

(8)
式(8)中:|Fi|和|Fj|為功能向量的模;Fi·Fj為功能向量的內積.

試驗區域分別是金華市城區部分分散均勻排列建筑群,美國邁阿密城區部分集中均勻排列建筑群.建筑群矢量數據來源于OSM(open street map,開源平臺),前者共包含849個建筑,后者包含395個建筑,比例尺都為1∶6 500.如圖3所示.

(a)金華市部分分散均勻排列建筑群

(b)邁阿密部分集中均勻排列建筑群


(a)最優參數聚類

(b)閾值聚類

(c)參數聚類值

(d)集中均勻排列建筑群聚類結果

(e)最優參數聚類部分區域放大
1)圖4(e)中的虛線(ABCDFGH虛線)表示在閾值聚類中被視為不一致邊,而在參數聚類中被視為一致邊的線.對1區建筑進行參數聚類時,發現建筑群大致呈線性排列,MST邊沒有被剪枝,可以將這一列建筑群歸為一類;若使用閾值聚類,會發現ABCD邊由于大于設定的閾值而被剪枝,導致建筑群的空間分布特征被破壞.出現此情況是因為在參數聚類時由于鄰近邊的存在,會提高式(5)中Il或Ir的值,導致其不容易符合式(5)不一致邊的識別條件.
2)對2區建筑進行聚類時,由于F邊連接的2個建筑面積及形狀的差異大,其視覺距離也增大,從而被閾值聚類和參數聚類同時視為不一致邊,維持了2區上方的8個建筑和下方的7個建筑的線性排列,符合格式塔原則.但是E邊和G邊在閾值聚類中卻被視為不一致邊,使得建筑群空間分布特征被破壞.原因是,雖然E,G兩邊的權值大于閾值,但是由于F邊的存在,利用參數聚類對E,G兩邊進行不一致邊檢測時會提高式(5)中Il或Ir的值,導致其不易符合式(5)不一致邊的識別條件.
3)由于3區建筑群的整體排列結構相對整齊,符合文獻[21]提到的組合直線模式,因此,3區建筑群往往會被歸為一類.但是由于面積、密度差異及鄰近距離較大,H邊所連接的兩建筑物的視覺距離權值會大于其余邊的權值,進而在閾值聚類時,H邊下方的2個建筑被單獨分成了一類.經計算發現,H邊的視覺距離為29.146 m,恰好大于27 m的閾值,而在參數聚類中H邊的Il為31.913 m,不符合不一致邊識別條件.
圖4(d)為集中均勻排列建筑群的MST,其利用參數聚類和閾值聚類挖掘建筑群空間分布特征.經試驗發現,二者挖掘出的建筑群空間分布特征結果一致,并能很好地展現建筑群線性排列的空間分布特征,符合人類的視覺認知.虛線表示檢測出的不一致邊.
經過試驗分析可以得出,MST的參數聚類不僅適用于集中均勻排列建筑群,且適用于分散均勻排列建筑群,而傳統MST的閾值聚類僅僅適用于集中均勻排列建筑群.
1)集中均勻排列建筑群由于排列整齊,同一簇建筑群之間鄰近距離小,視覺距離小,變化小,說明簇內Cv值較小.而不同簇之間的建筑群,即圖5中MST虛線(不一致邊),其鄰近距離大,視覺距離權值大,明顯大于簇內的視覺平均距離,這使得閾值較容易確定,很少出現在經過格式塔約束后,簇內建筑物視覺距離大于簇間建筑物視覺距離的情況.
2)簇間建筑物視覺距離往往會大于簇內建筑物視覺的平均距離.對于分散均勻排列建筑群,由于簇與簇之間的鄰近距離小,簇間建筑物視覺距離與簇內建筑物視覺平均距離的差異會小于集中均勻排列建筑群的差異,并且同一簇內建筑物雖然鄰近距離小,但建筑物面積等變化大,視覺距離變化大,說明簇內Cv值較大.這使得閾值不容易確定,導致同一簇內部分建筑物視覺距離大于閾值,如圖4(e)的3個區域所示.
利用參數聚類后的建筑群進行POI二次聚類.根據金華市城區部分建筑,將POI數據劃分為7種語義類型(具體見圖例).語義相似度閾值β1=0.7,建筑緩沖距離設置為5 m,得到二次聚類結果,具體如圖5所示.

(a)POI數據點

(b)POI二次聚類
實現建筑群自動地圖綜合首先要挖掘出建筑群的空間分布特征,建筑群聚類是挖掘建筑群空間分布特征的基礎.
