焦洋洋,金 澄,3,徐道柱,3
1. 西安測繪研究所,陜西 西安,710054;2. 地理信息工程國家重點實驗室,陜西 西安,710054;3. 信息工程大學地理空間信息學院,河南 鄭州,450001
?
基于幾何精度的居民地匹配質量評估方法
焦洋洋1,2,金澄1,2,3,徐道柱1,2,3
1. 西安測繪研究所,陜西 西安,710054;2. 地理信息工程國家重點實驗室,陜西 西安,710054;3. 信息工程大學地理空間信息學院,河南 鄭州,450001
空間數據匹配是空間數據更新與維護的基礎和關鍵。針對空間數據匹配質量評估方法欠缺的現狀,以居民地為例,提出了基于幾何精度的居民地匹配質量評估方法。通過分析居民地匹配質量問題的內涵,確定了以幾何精度作為依據的評估方法;結合居民地匹配質量評估特點,改進一般矢量數據質量評估中的缺陷扣分模型,得到了居民地幾何匹配質量評估缺陷扣分模型,從而建立了居民地幾何匹配質量評分評級模型。實驗表明,該方法可以有效地完成居民地匹配質量評估,具有較強的可行性和實用性。
匹配;居民地;質量評估;幾何精度
隨著國家基礎地理信息數據庫的建成,基礎地理信息的更新與維護逐漸代替數據生產成為了主要工作[1,2]。作為地理信息更新中發現級聯關系的重要步驟,空間數據匹配成為了空間數據增量更新的關鍵技術[2]。目前針對居民地匹配理論上的研究成果越來越多[3-5],但始終得不到廣泛的實際應用,究其原因,主要是匹配質量不能得到保證。因此,如何對匹配后的數據進行質量評估,糾正匹配產生的錯誤,提高匹配算法的實用價值,成為地理信息更新工作中必須直面的問題。通常人們將匹配質量問題和空間矢量數據質量問題聯系起來,參照矢量數據質量問題的研究方法和思路去理解匹配的質量,但是它們之間是有很大區別的,簡單地依據矢量數據質量問題的研究思路和方法是遠遠不能滿足實際需求的。目前大多數學者使用人工檢查的方法檢驗匹配的結果,找出誤匹配、漏匹配及正確匹配的實體,并用查準率查全率來評估匹配結果;也有部分學者使用自動檢核的方式對匹配的結果進行修正[6,7],但自動化程度不高,不能達到完整的質量評估結論。因此,本文以居民地為例研究其匹配質量評估方法和流程,為日后其他要素的匹配質量評估提供理論和方法參考。
國際標準化組織ISO 9000:2005“質量術語”對質量的定義為:反映某項產品、服務滿足一些明確或隱含需求能力的特性或特征的總和[8]。顯然,居民地匹配質量也符合上述定義。匹配關系即為匹配處理過程所“生產”的“產品”,匹配關系的正確性、滿足下一步更新及入庫需要的能力即為其滿足“明確”和“隱含”需求的能力。
2.1匹配質量問題的概念
正如上文對質量的定義,居民地匹配的質量是對空間數據匹配處理是否“達到”預先設定的目標,是否“滿足”后續更新融合及入庫要求程度的“滿意度”。居民地匹配質量并不是一個一成不變的標準,它隨著待匹配數據源的特點、匹配成果的用途、預先設定的匹配目標等質量影響因子的變化而變化,其內涵也隨著匹配技術提高、數據源質量的改善而變化。
結合空間數據匹配的流程,匹配質量評估主要包括數據源質量評估、匹配算法質量評估、匹配過程控制、匹配結果質量評估四方面內容,其中前三項主要在數據預處理和匹配過程中完成,涉及面較廣,匹配結果質量是反映匹配質量最直觀、最有效、也是最便捷的內容,故將其作為主要研究內容。匹配結果質量評估通常需要對已匹配的同名實體之間的幾何關系、屬性關系以及拓撲關系等質量元素的相似性進行度量。不同來源空間數據的屬性信息通常存在格式差異、內容差異、信息缺失等問題,拓撲關系一致性度量對數據要求較高,在匹配質量評估中不能過分依賴拓撲關系和屬性信息,因此,本文選擇幾何精度度量作為匹配結果質量評估的唯一標準,并以此提出了基于幾何精度的居民地匹配質量評估方法。
2.2匹配結果的質量評估
2.2.1匹配結果類型
Cobb(1998)等在空間數據匹配分析中將匹配結果分為匹配、未匹配兩種情況[11]。可以將匹配進一步分為正確匹配和誤匹配;未匹配也可分為正確未匹配和漏匹配,如圖1所示。

圖1 匹配結果分類
正確匹配是指參考數據源中的一個實體在目標數據源中存在一個實體與之互為同名實體,并在匹配中正確建立了匹配關系。正確未匹配是指某一數據源中實體在另一數據源中沒有對應的同名實體,在匹配處理后也沒有與任何實體建立匹配關系。誤匹配是事實上非同名實體,即非同一地理實體或現象在不同數據中表達的實體之間,經過匹配處理,錯誤地建立了匹配關系。漏匹配是事實上應為同名實體的實體之間,匹配處理后并沒有建立匹配關系。
2.2.2匹配結果質量評估指標
目前,在空間數據匹配研究領域并沒有一個統一的標準,但有一些慣用的質量評估指標,總結起來分為兩種類型。
(1)匹配效率
匹配效率(efficiency),也就是匹配速度,表征匹配過程中獲得所需要結果的快慢程度,能夠在一定程度上體現匹配算法的性能。計算方法為匹配數據源中所有匹配實體的個數N與匹配過程總耗時T的比值:
(1)
(2)匹配精度
圖形識別領域中應用最為廣泛的指標有查全率(Recall)和查準率(Precision),目前也被廣泛地應用于空間數據匹配領域。
假設數據源中需要進行匹配處理的實體個數為NA,正確建立匹配關系的實體個數為NC,錯誤建立匹配關系的實體個數為NE。
查全率是指匹配結果中所有參與建立匹配關系的實體個數(NC+NE)與數據源中實體個數NA的比值:
(2)
查準率是指匹配結果中正確匹配實體的個數NC與所有參與建立匹配關系的實體個數(NC+NE)的比值:
(3)
本文主要研究匹配結果的質量評估方法,不對原有的匹配算法進行比較,因此,在下文中會使用查全率和查準率描述匹配結果的質量及本文評估方法的評估結果,而不用匹配速度對原匹配方法進行效率度量。
利用幾何指標的匹配質量評估的總體思路是對匹配后的同名實體進行幾何相似性計算和評價,當滿足指標要求時就可以判定為質量合格,不滿足則需要補充判斷和人工輔助判定并重新執行匹配流程。因而,當前的問題就主要體現在幾何指標的選取、指標使用方式以及指標相似性計算策略、質量評估結果表示方法方面,下面將依次進行討論。
3.1質量元素選擇
與矢量數據質量匹配相同,居民地匹配質量也應當有質量元素。目前對于空間數據匹配結果的幾何質量元素并沒有深入的研究,也沒有統一的標準。參考矢量空間數據幾何精度質量元素,結合匹配質量問題自身的特點,為空間數據匹配結果質量定義了4個幾何精度質量子元素:形狀、位置、面積、方向。
匹配結果的幾何精度與矢量數據的數據精度內涵不同,主要表示匹配完成后建立匹配關系的居民地實體之間幾何信息包括形狀、位置、面積、方向等的一致性,度量方法是對同名實體之間幾何精度指標的相似性或差異性進行度量,以此為依據找出匹配錯誤,完成對匹配結果的質量評估。
形狀作為空間面實體重要的幾何特征,具有比其他特征更明顯的識別作用,也是匹配的重要依據。在人們空間認知的過程中,首先注意到的是物體的顏色、形狀、紋理及其周圍的環境。尺度相同或相近的空間數據中,同名居民地實體在形狀上通常較為相似,因此,本文將形狀作為最重要質量子元素,進行優先度量和初次匹配判斷。位置、面積、方向三種幾何精度子元素的度量方法最為成熟,本文采用加權平均的方式進行綜合度量,作為形狀度量匹配判斷后的二次判斷環節。
3.2匹配關系判斷方法
針對居民地形狀相似性的計算方法已經有很多,但均不是十分成熟,在幾何匹配中通常作為其他指標的輔助手段,且現有大多數算法都是針對一對一居民地實體匹配的情況,而在多尺度匹配中,非一對一匹配的情況有很多。因此,本文采用文獻[12]中利用格網疊置分析的形狀相似性度量方法,該方法能夠解決質量評估中一對一及非一對一情況的形狀相似性度量問題。
位置、面積、方向三種幾何精度子元素的度量一般采用計算同名實體間幾何差異值與其限制的接近程度來完成,故本文引入文獻[13]中圖形數據差的概念,使用位置數據差、面積數據差及方向數據差分別表示三種幾何質量子元素的度量結果,通過加權平均的方式獲得綜合圖形數據差作為幾何匹配質量評估依據。各質量子元素的權值采用文獻[14]中基于人工神經網絡的方法,使用較為成熟的三層BP神經網絡,并利用遺傳算法優化收斂權值矩陣,將位置、面積、方向圖形數據差標準化值分別輸入對應神經網絡輸出層的神經元,使用收斂過后的神經網絡確定權重向量集。
在實際評估過程中,對匹配關系的判斷流程主要分為三個步驟,如圖2所示。
(1)對待評估數據中已經建立匹配關系的“同名實體組合”進行形狀相似性度量的初次判斷,當度量值大于“相似”閾值時再進行位置、面積、方向綜合圖形數據差度量,否則判斷為錯誤匹配;
(2)當形狀相似的“同名實體組合”綜合圖形數據差度量值小于“差異”閾值時,可以判斷為正確匹配,否則判斷為錯誤匹配;
(3)將前兩次判斷所得錯誤匹配的實體與“未匹配實體”利用幾何度量和人工輔助的方式進行聯合補充判斷,成功匹配的實體組合判斷為漏匹配。
判斷完成后利用判斷結果對原匹配結果進行修正,可以提高匹配的質量。

圖2 匹配關系判斷流程
3.3質量評分評級模型
居民地幾何匹配質量評估不同于空間數據質量評估,沒有數量繁多、定性與定量度量混合的質量元素,只需要利用不同匹配情況實體數目即可對匹配的質量做出評估。
匹配關系正確性判斷的結果中“錯誤匹配”和“漏匹配”都是匹配錯誤,也均可認為是一種“質量缺陷”。因此,本文使用一種改進缺陷扣分模型獲取匹配結果質量得分。空間數據匹配的成果主要用于空間數據增量更新和融合,更新中建立匹配的同名空間實體為沒有變化的實體,較為相似但沒有匹配的實體作為變化實體,其他實體為刪除或新增實體。“錯誤匹配”實體因錯誤地建立了匹配關系而沒有進行修改、刪除或新增操作,影響更新后的數據質量;“漏匹配”實體在更新中本不應進行任何操作,但是因沒有匹配而產生了冗余操作,影響更新的效率。相比較而言,“錯誤匹配”對于更新后數據質量的影響要明顯大于“漏匹配”,故對這兩種類型的“缺陷”應采用不同的扣分分值。
在大數據量的匹配時,由于數據源質量、數據特點、匹配算法等因素方面的影響,產生一定數量匹配錯誤屬于正常現象,并不像空間數據質量評估中對質量缺陷那樣敏感,也就不能使用空間數據評估所使用的缺陷等級劃分和扣分分值設置方法。因此,本文提出了一種改進的匹配缺陷扣分模型,設置“錯誤匹配”和“漏匹配”為普通缺陷和輕微缺陷,當評估得分滿分為100分時,普通缺陷“錯誤匹配”的影響因子設為3,輕微缺陷“漏匹配”的影響因子設為1,其扣分方式為:
(4)
其中,NE為“錯誤匹配”實體數目;NM為“漏匹配”實體數目;NA為所有參與匹配實體數目。
依據實際數據匹配與更新作業相關規定和用戶需求,將居民地幾何匹配質量劃分為四個等級——優秀、良好、合格、不合格。設置各質量等級相應評分分值區間見表1。
表1幾何匹配質量等級評分分值區間

分制等級優秀良好合格不合格百分制[90,100][80,90)[60,80)[0,60)十分制[9.0,10.0][8.0,9.0)[6.0,8.0)[0.0,6.0)
為驗證本文評估方法的有效性,通過實驗對其進行驗證。實驗用數據為我國東部沿海丘陵地區某城市1∶5萬和1∶10萬數據,如圖3所示。

(a) 1∶10萬目標數據 (b) 1∶5萬參考數據圖3 居民地實驗數據
本文采用居民地匹配中較為常見的基于面積重疊率相似性的雙向匹配方法,對實驗居民地數據進行匹配,當匹配閾值設置為0.6時,匹配結果如圖4-(a)所示。圖中使用紅色線段連接建立匹配關系居民地實體中心的方法表示匹配結果,圖中原色填充、灰色(黑色)邊框的實體為建立匹配關系的“同名實體”,無色填充、灰色(黑色)邊框的實體為未匹配實體。
接下來,采用本文評估方法對匹配結果進行質量評估,匹配關系判斷結果如圖4-(b)所示。圖中紅色(灰色)填充、灰色(黑色)邊框的實體組合為正確匹配的“同名實體”,綠色填充、灰色邊框與黃色填充、黑色邊框的實體組合為錯誤匹配的“同名實體”,紅色(灰色)填充、無邊框的實體組合為漏匹配實體組合。

(a) 雙向匹配結果 (b) 匹配關系判斷結果圖4 雙向匹配評估
為全面驗證本文評估方法的有效性,下面對不同匹配方法所得匹配結果進行評估。使用基于面積重疊率相似性的單向匹配方法,獲得匹配結果如圖5-(a)所示(匹配關系表示方法同圖4-(a))。采用本文評估方法評估得到匹配關系判斷結果如圖5-(b)所示(判斷結果表示方法同圖4-(b))。經統計與計算,得到質量評估結果見表2。

(a) 單向匹配結果 (b) 匹配關系判斷結果圖5 單向匹配評估
表2匹配質量評估結果

匹配方法查全率查準率質量得分質量等級雙向匹配51.4%97.0%94.7優秀單向匹配53.4%91.9%87.2良好
分析評估結果可知,雙向匹配結果的質量要明顯高于單向匹配,原因在于單向重疊相似度匹配只考慮參與匹配兩實體重疊面積與其中一個實體面積的比值,相似性度量不夠全面,而雙向匹配沒有這一缺陷,匹配質量較高。通過比較實驗也可以看出,本文匹配質量評估方法能夠處理不同匹配方法的匹配質量評估問題,能夠正確地評估不同情況下的匹配結果質量,具有較強的有效性和魯棒性。
空間數據匹配結果的質量評估是空間數據增量更新的基礎,針對目前缺乏有效匹配質量評估方法的現狀,本文以居民地為例,利用幾何指標進行匹配關系判斷,并采用改進的匹配缺陷扣分模型獲得質量評估結果,最后實驗表明:
(1)已匹配實體間的幾何質量元素度量可以發現匹配中的錯誤,進而提高匹配的質量;
(2)改進的匹配缺陷扣分模型可以適應匹配質量評估領域的應用,并真實地反應匹配質量評估結果。
匹配質量評估是一項復雜繁瑣的工作,本文僅在利用幾何質量元素進行居民地匹配質量評估方面進行了研究,實際評估過程仍需要參考其他質量元素的度量結果,這將是下一步研究需要關注的方向。
[1]陳軍, 李志林, 蔣捷等. 基礎地理空間數據庫的持續更新問題[J]. 地理信息世界, 2004, 2(5):1-5.
[2]COOPER A. The Concepts of Incremental Updating and Versioning[A]. Proceedings of the 21st International Cartographic Conference, August 2003:855-857.
[3]SAMAL A, SETH S, CUETO K. A Feature-based Approach to Conflation of Geospatial Sources[J]. Geographical Information Science, 2004, 18(5):459-489.
[4]BEERI C, DOYTSHER Y, KANZA Y. Finding Corresponding Objects when Integrating Several Geo-spatial Datasets [A]. Proceedings of the 13th Annual ACM International Workshop on Geographic Information Systems, Bremen, Germany, 2005:87-96.
[5]許俊奎, 武芳, 錢海忠等. 一種空間關系相似性約束的居民地匹配算法[J]. 武漢大學學報·信息科學版, 2013, 38(4):484-488.
[6]楊敏, 艾廷華, 劉鵬程等. 等高線與水網數據集成中的匹配及一致性改正[J]. 測繪學報,2012,41(1):152-158.
[7]趙東保, 徐艷杰, 張弘弢. 道路網匹配質量檢核與修正機制研究[J]. 中國礦業大學學報, 2013,42(4):689-694.
[8]胡圣武. GIS質量評價與可靠性分析[M]. 北京:測繪出版社, 2006.
[9]吳芳華. 矢量地圖數據質量控制的理論與實踐[D]. 鄭州:信息工程大學, 2002.
[10]吳娟. 基于云理論的矢量地圖數據質量評估方法研究[D].鄭州:信息工程大學, 2011.
[11]Cobb M, Chung M, Foley H. A Rule-based Approach for the Conflation of Attributed Vector Data[J]. Geoinformatica,1998,2(1):7-35.
[12]焦洋洋, 翟仁健, 陳藝文等. 一種利用格網疊置分析的居民地形狀匹配方法[J]. 測繪科學技術學報, 2015, 32(3):310-314.
[13]姬存偉, 武芳, 鞏現勇等. 居民地要素增量信息表達模型研究[J]. 武漢大學學報·信息科學版, 2013, 38(7):857-861.
[14]許俊奎, 武芳, 魏慧峰. 人工神經網絡在居民地面狀匹配中的應用[J]. 測繪科學技術學報, 2013, 30(3):293-298.
Settlement Place Matching Quality Evaluation Method Based on Geometric Accuracy
Jiao Yangyang1, 2, Jin Cheng1,2,3, Xu Daozhu1,2,3
1. Xi’an Research Institute of Surveying and Mapping, Xi’an 710054, China 2. State Key Laboratory of Geo-information Engineering, Xi’an 710054, China 3. Institute of Geospatial Information, Information Engineering University, Zhengzhou 450001, China
Spatial data matching plays a basic and key part in spatial data update and maintenance. In order to solve the current problem of lacking ways of evaluating spatial data matching quality, a method to evaluate the quality of settlement place matching based on geometric accuracy is put forward in this paper. The connotation of settlement place matching quality problem is analyzed, and the evaluation method based on geometric accuracy is decided. According to the characteristics of settlement matching quality evaluation, the defect marking model for vector data quality evaluation is improved, and a model for settlement matching quality evaluation is obtained. Finally, the settlement geometric matching quality score rating model is established. The experiment results show that the method is effective and practicable in settlement matching quality evaluation.
matching; settlement; quality evaluation; geometric accuracy
2016-02-02。
國家自然科學基金資助項目(41171354,41101362,41171305);國家863計劃資助項目(2009AA12Z305)。
焦洋洋(1989— ),男,研究實習員,主要從事地圖制圖綜合及空間數據更新方面的研究。
P283
A