聞 俏 蔡紅玥 逯躍鋒,3*
(1、山東理工大學 建筑工程學院工程學院,山東 淄博255049 2、中國交通通信信息中心,北京100011 3、中國科學院地理科學與資源研究所 資源與環境信息系統國家重點實驗室,北京100101)
對現實世界中地理實體以空間數據對其進行表達時,由于觀測尺度、應用需求等不同,導致產生不同比例尺的空間數據[1],匹配技術成為數據融合的主要途徑,是目前研究的難點[2]。空間數據匹配就是通過分析空間實體的差異和相似性識別出不同來源圖中表達現實世界同一地物或地物集(即同名實體)的過程[3]。
目前所采用的匹配方法中,采用的特征指標主要有長度、面積、方向、形狀、距離等[4-5],文獻[6]所用方法利用數據的語義關系進行識別和融合。本文基于幾何特征提出基于最小凸包的形狀描述子,結合方向、長度、節點度、Hausdorff 距離等相似度度量指標構建綜合空間相似度度量模型,將此模型與其他指標構建的空間相似度模型進行比較以驗證本文方法的有效性。



圖1 線實體最小凸包構造原理

其中,T1和T2分別是PL1、PL2有序點集構建的最小凸包,D1和D2為PL1、PL2的長度。
將線狀矢量對象的方位角、長度、節點度、Hausdorff 距離與基于最小凸包的形狀描述子等相似度度量以向量組的形式加權綜合構建綜合空間相似度度量模型。各度量指標如下:
長度:一種常用的線實體線實體PL1、PL2的長度之差C2。
方向:線實體首尾節點所連直線的方位角。線實體PL1、PL2的方向之差為C3。
距離:本文采用Hausdorff 距離表示線實體間的距離,設有線實體PL1、PL2距離計算公式如下:


設已知兩個線狀矢量數據集分別A 和B,且以A 為參考數據集、B 為目標數據集。根據綜合相似度模型的具體匹配步驟為:
3.2.1 數據預處理。對來自不同尺度下數據集統一坐標系,使各個空間對象之間的關系一致。
3.2.2 通過等間距距離插值方法對線實體來均勻增加線實體特征點數。
3.2.3 根據參考數據集生成線實體泰森多邊形確定候選匹配集。


在上述公式中,TP 是正確的匹配對數量,FP 是錯誤匹配的匹配對數量,FN 是漏匹配的匹配對數量。
本文實驗數據采用某縣級市的1:50 000 和1:250 000 的不同比例尺的數據集。通過對已匹配實體進行隨機取樣,獲得正例樣本,計算各樣本差異度和綜合相似度,得到各指標的權值和綜合相似度閾值0.75,表1 為各指標的權重值。根據3.2 節中數據處理、匹配步驟以及5 個描述子提取計算,對兩數據集進行匹配試驗。

表1 指標的權重
本文將1:250 000 道路數據作為參考數據集,將1:50 000道路數據作為目標數據集(待匹配數據集)。通過生成路段泰森多邊形構建參考路段道路匹配單元,與待匹配數據集進行空間相交,得到匹配候選集,最后遍歷匹配單元與匹配候選集中路段完成相似度評價。

圖2 算法匹配精度
表2 為添加本文所提描述子前后的對比結果,從中可以看出,本文方法相比僅采用其余4 種描述子的匹配方法,減少了誤匹配和漏匹配,且正確匹配對數由36 增加到40。由圖2 可知,通過在匹配過程中增加基于最小凸包的形狀描述子,查準率和查全率分別提高2.5%、6.5%,相應的,F-score 值從87.6%提高到了92.3%,該匹配精度結果說明了增加本文所提出的形狀描述子的算法正確率更高,有效提高了多尺度線實體匹配精度。
通過對某縣級市道路矢量數據集進行匹配試驗,經添加基于最小凸包的形狀描述子,與長度、方向、節點度、Hausdorff 距離所構建的基于5 種指標的綜合相似度模型,能夠增加描述矢量數據實體的形狀細節特征,提高了實體匹配相似度,減少漏匹配與誤匹配,相較于4 種指標的匹配算法F-score 值提高了4.7%。表明本文所提綜合相似度模型能夠在不同尺度、不同時相下的數據集中有效,并且具有較高的匹配質量和準確率。