趙 裴,趙劉飛,吳芳華,張龍星,王 磊,康 棟
(1.西安航天天繪數據技術有限公司,西安 710199;2.西安測繪研究所,西安 710054)
當前越來越多的行業采用基礎地理信息空間數據作為行業決策制定的依據,其數據質量的好壞直接決定著決策的正確性與可靠性[1]。20 世紀國內多采用人工檢查的方式對基礎地理信息數據進行檢查,這種檢查方法費時費力且對作業員經驗要求較高,無法保證檢查標準的一致性和準確性[2]。21 世紀初期,中國解放軍信息工程大學率先開發出國內首款基礎地理信息數據質量檢查軟件MapCheck,該軟件針對矢量地圖數據進行了包括控制精度檢查、幾何精度檢查及文件形式檢查等11 類檢查項,開辟了基礎地理信息空間數據計算機自動檢查的先河[3]。地理信息產業近二十年的蓬勃發展涌現了一大批優秀質檢軟件,但這些軟件多基于數據庫集成化設計[4-5],每次更改都需要修改底層代碼,這使得軟件更新極為不便,嚴重制約了基礎地理信息數據質量檢查軟件的更新與發展。本文提出了一種全新的基礎地理信息數據質量檢查軟件的數據庫結構,將基礎地理信息質量檢查軟件數據庫拆分為算法庫、模型庫、模板庫及規則庫,各數據庫中基本單元遵循國家標準[6-11],在進行數據質量檢查時,各數據庫之間以并行插件的形式統一調用但互不影響,極大地增加了數據庫的可維護性與擴展性。
模型被用來以數據化的方式來表達各類質量缺陷,模型的作用就是表達各類質量缺陷識別概念性質,對研究對象進行必要時的建模,并用適當的規則把它的主要特征描述出來。基礎地理信息數據質量檢查模型主要是用數學語言描述的一類模型,定性或者定量的描述缺陷識別的概念、規則和方法;面對矢量地圖、DEM 數據產品的質量特征,通過各種質量元素、缺陷類型、檢查要求共同作用形成的數據質量評價模型,主要有缺陷扣分模型和圖幅評分模型2 種[12]。
1.1.1 缺陷扣分模型
以幅為單位對基礎地理信息數據進行缺陷扣分評價,扣分表見表1。

表1 缺陷扣分表
根據缺陷值、缺陷個數、帶權求和的計算公式統計產品質量分數,公式如下
式中:M 為單位產品質量得分;P1為重缺陷質量特性權;P2為次重缺陷質量特性權;P3為輕缺陷質量特性權;n1為單位產品中重缺陷個數;n2為單位產品中次重缺陷個數;n3為單位產品中輕缺陷個數。
產品質量實行優級品、良級品、合格品和不合格品四級評定制。優級品:M=90~100 分;良級品:M=75~89分;合格品:M=60~74 分;不合格品:M=0~59 分。
1.1.2 圖幅評分模型
將圖幅錯誤類型分為A 類錯漏、B 類錯漏和C 類錯漏3 個等級,圖幅質量滿分為100 分,按照質量子元素缺陷分類的對應分值采取減分計分制計分,減分累計不能超過該檢查項的分值,即得分最低為0 分,不能為負數。圖幅缺陷以人工抽樣驗收確認結果為準,以目標數作為區分圖幅難易程度的標準,單位成果質量得分按式(2)計算。其中嚴重缺陷作為數據質量因素的固定指標,與圖幅難易程度無關。
式中:S 為單位成果質量得分;a1為A 類錯漏個數;a2為B 類錯漏個數;a3為C 類錯漏個數;r2為B 類錯漏合格錯誤率,通常取0.2%;r3為C 類錯漏合格錯誤率,通常取0.8%;t 為比例尺調整系數;N 為基礎地理信息數據要素總數,以實際要素總數計算。
基礎規則一般是指數據的本質特征,是通過沉淀、抽象和總結多類型、多格式、多尺度數據的內在邏輯關系而形成的。規則庫包括空間關系規則、拓撲關系規則及沖突關系規則等。內容覆蓋矢量地圖數據、數字高程模型數據等基礎地理信息產品質量檢查所需的全部規則。
1.2.1 完整性檢查規則
數據完整性是指地理數據在范圍、內容及結構等方面的完整度,完整性檢查規則的檢查內容有:①圖幅文件完整性檢查,檢查圖幅文件是否有缺失、重復或名稱錯誤;②圖層完整性檢查,圖層目錄是否符合國家規范,圖層是否有缺失或重復;③文件內容完整性檢查;④文件屬性記錄項完整性檢查。
1.2.2 邏輯一致性規則
邏輯一致性規則包括屬性值與屬性項的檢查,其檢查內容主要有:①檢查居民地層、交通層要素的行政區劃代碼與境界層的一致性;②國道編號檢查,國道編號與國道名稱不符;③省道編號檢查,省道編號與省道名稱不符;④車站編號檢查,車站編號與車站名稱不符;⑤交通層地名相同屬性不同檢查,交通層名稱相同,只檢查連貫性、主編號;⑥交通層道路編號首位與編碼匹配檢查,建通層道路編號首位與編碼匹配檢查,G、S、X 對應相應編碼;⑦檢查居民地層、交通層要素的行政區劃代碼與境界層的一致性;⑧前六位河流代碼檢查,只檢查注記一致但河流代碼前六位不一致的部分;⑨深度值與危險值一致性檢查,深度值與危險級別不一致則報錯。
1.2.3 屬性規則
屬性檢查是指對矢量地圖數據要素的屬性信息進行的檢查,多項要素自身屬性信息的檢查,具體檢查內容有:①鐵路名稱代碼檢查,用模板檢查鐵路名稱的正確性;②國省道代碼檢查,與國省道模板比對檢查合理性,具體要用人機交互檢查;③公路里程檢查,屬性里程和實際要素長度的差超出檢查指標的則報錯;④橋梁屬性檢查,檢查橋梁屬性是否輸入全面,如橋長、橋寬、載重噸數等屬性;⑤橋長差檢查,線狀橋梁實際橋長與屬性橋長超過檢查指標,實際橋長超出檢查閾值范圍則報錯;⑥居民地行政區劃代碼檢查,全國1∶10000地形圖改化工程作業細則對檢查要素的補充完善;⑦屬性缺省值格式檢查,交換格式缺省的字符屬性項不為NULL,如果為其他缺省值或無缺省值則報錯;⑧街道名稱檢查,街道名稱含有“-”或高速等字符;⑨地名相同檢查,檢查注記文件中相同的注記并列出相同注記個數;⑩線要素圖形特征代碼不為LS,除等高線以外,線要素的圖形特征代碼要求為LS;?線要素誤輸入高程檢查,不應輸入高程值的線狀要素例如高程,輸入則報錯;?高程缺省值為0 檢查,高程缺省為NULL或-32767 報錯;?公路寬度為0 檢查,公路寬度屬性為0 則報錯;?水深數值小數位數正確性檢查,水深數值小數位數超限則不合理,以31 m 為界限;?國道與省道編號檢查,檢查國道與省道編號是否為空,首字母是否符合規范,不符合規范則報錯;?橋梁、隧道編號檢查,國道省道上橋梁、隧道編號與所在道路編號一致,不一致則報錯;?測控點理論坐標檢查,檢查測量控制點理論坐標是否為空,如果測控坐標為空則報錯;?深水區水深值超限檢查,深度區水深值不在閾值范圍內則報錯;?通航性質檢查,水域陸地層要素通航性質不為缺省值(0 或NULL)且不在編碼模板中則報錯。
1.2.4 表征質量規則
表征質量檢查是指對矢量地圖數據要素的實際合理信息進行的檢查,多指要素屬性信息顯示符合實際情況的檢查。具體檢查內容有:①公路互相交檢查,端點限差在0.1 mm 內認為合理;②線目標長度檢查,線目標表示的圖上實際長度是否達到標準;③等高線自動檢查,用網格法檢查等高線的正確性;④偽節點檢查,檢查節點是否為偽節點;⑤最小山頭檢查,檢查山頭的最小面積是否小于規定限差;⑥最小面積檢查,檢查面要素的最小面積是否小于規定限定差;⑦居民地指針檢查,不掛指針則報錯;⑧面邊線指針檢查,要查的邊線掛指針報錯;⑨等高線連貫性檢查,檢查等高線是否連續且編碼與高程相同;⑩等深線連貫性檢查,等深線首末點的距離坐標是否在范圍內;?曲線兩點距離過大檢查,曲線目標兩點間距超出檢查指標則報錯;?指針對應文字說明檢查,檢查指針對應的注記文件;?角度異常檢測,線目標坐標間不應出現尖角;?等深線互相交,斷電限差在0.1 mm 內認為合理;?要素重復檢查,檢查點、線、面目標是否重復;?圖邊強制閉合線的檢查,線要素到圖邊距離應在限差范圍內且閉環;?注記重復檢查,檢查兩注記名稱、編碼、定位坐標是否完全相同。
1.2.5 空間關系規則
空間關系規則檢查是指對矢量地圖數據要素的幾何空間關系信息進行的檢查,多項要素自身空間信息和相鄰要素幾何空間關系信息的檢查。具體檢查內容有:①要素落水檢查,檢查要素是否在水中;②水域面入植被面檢查,水域不能入植被面;③線要素非法進入面區域,公路進入面居民地超過限差則報錯;④線狀橋落水檢查,線狀橋梁有一端點在水中則報錯;⑤點與線相交檢查,點狀目標是否落在線目標上,如:公路橋應位于公路線上;⑥工農業層面要素落于居民地層面要素檢查,限制工農業要素落入居民地,落入則報錯;⑦河寬水深點檢查,河寬水深點不在單線河上則報錯。
1.2.6 拓撲關系規則
拓撲關系檢查實質上是檢查點、線、面目標與其組成弧段、節點、坐標之間的相交、鏈接、連通和包含關系,具體包括線拓撲關系檢查和面拓撲關系檢查。拓撲關系檢查是空間分析和網絡分析的基礎。拓撲質量檢查項主要包括自相交、打折、懸掛點、拓撲面、懸掛線、地物重疊和兩線相交。
①自相交檢查,檢查折線或曲線自身存在交點的情況;②打折檢查,檢查線要素是否存在2 個連續的銳角或直角且線段節點數大于等于6 個;③懸掛點檢查,當一條線的端點(起點或重點)位置上沒有其他線對象的節點時,該端點就為懸掛點;④拓撲面檢查,在矢量化過程中所產生的小的閉合多邊形,而在拓撲關系的構建過程中構成不合法的面;⑤懸掛線檢查,檢查在數據采集過程中是否存在由于主觀或客觀的原因所產生的孤立的線;⑥地物重疊檢查,地物重疊是指點、線、面、注記等實體在某容差范圍內重疊;⑦線相交檢查,對不合理的線相交情況進行檢查,如等高線相交等。
1.2.7 沖突關系規則
①交通重線檢查,交通層中有關目標坐標重合;②隧道橋梁重復檢查,隧道和橋梁坐標完全重合的檢查;③點要素重合檢查,檢查同層點要素是否重合;④微短線檢查,檢查是否存在小于等于最小長度限差的線要素;⑤單一地名對應多實體檢查,檢查單一地名是否對應多個實體。
模板匹配法是借助模板文件來識別數據缺陷的方法。模板是由各種質檢規則的集合,是為了處理特定種類地理信息空間質量數據的質檢人為制定的方案,具體檢查模板如下:①數據結構檢查模板,是對基礎地理信息數據文件的整體結構進行動態檢查;②屬性檢查模板,一般包括單屬性類型檢查和多屬性類型檢查,檢查數據文件中所有要素的屬性項是否符合規范且完整準確;③圖形檢查模板,檢查不同數據圖層質檢的圖形相關性是否合理,包括單一圖層檢查和多圖層檢查,單一圖層檢查較為簡單,只需檢查各要素之間是否存在重疊關系,而多圖層檢查較為復雜,需要檢查不同圖層之間是否存在圖形不合理;④屬性圖形約束檢查模板,圖形之間不僅存在空間拓撲關系,由于特殊地物的存在導致圖形之間的屬性亦有可能存在特殊關系,比如懸掛點只能存在與線要素為鐵路網格,其他道路屬性不可存在單一懸掛點。
按照基礎地理信息產品質量檢查算法進行分類歸納形成算法庫。具體分為拓撲關系檢查、數學基礎、屬性數據檢查、接邊檢查和空間關系合理性檢查等5 類。基本算子是各種地圖數據缺陷,尤其是空間關系缺陷識別算法建立的基礎。具體算子分類如下。
1.4.1 拓撲關系檢查算子
①線段自相交檢查算子,讀入線要素并判斷該要素是否存在重疊現象;②線段打折檢查算子,讀入線要素并依次選擇3 個相鄰的節點計算夾角,若角度值為銳角則存在打折錯誤;③兩線相交檢查算子,依次讀入2 個線要素,并計算其外接矩形范圍,將線要素兩兩對比判斷是否存在兩線相交;④公共邊重復檢查算子,按屬性代碼依次讀入每條面邊線要素,將要素范圍進行兩兩對比,如存在范圍重疊且端點一致則存在公共邊重復。
1.4.2 數學基礎檢查算子
①坐標系統檢查算子,檢查數據文件坐標系統是否存在于數據庫中且合理。②圖幅范圍檢查算子,檢查數據文件地理范圍是否符合規范。③投影參數檢查算子,通過對圖廓點坐標進行校驗實現坐標系統正確性的檢查。④平面精度檢查算子,以固定點為基礎檢查圖幅與實際地物的平面精度,是否偏移過大。
1.4.3 屬性數據檢查算子
①屬性項檢查算子,檢查基礎地理信息數據的屬性項是否正確,包括屬性字符數、屬性類型與屬性合理性。②屬性值檢查算子,屬性值檢查算子是檢查圖層各要素屬性值是否正確,是否存在空值、超限值或非法字符等。
1.4.4 數字高程模型精度評估算子
數字高程模型的精度一般是指數字高程模型柵格數據高程值與實際高程值的差異,具體如下。
1)誤差均值
2)標準差
3)均方根誤差
N 為柵格數量,Hi為第i 個柵格的高程數值,Href為第i 個柵格所在位置的實際高程數值。
算法庫是各種地圖數據缺陷尤其是空間關系缺陷識別算法建立的基礎,是基礎地理信息產品質量檢查基本算子的集成。規則庫是對各類基礎地理信息產品的完整性、一致性、空間關系與屬性信息的正確性進行檢查的邏輯規則。規則庫的構建需要對各類地理信息產品的質量要求進行充分調研并抽象為相應的檢查規則,建立正確的、完備的、可靈活擴展的規則庫。模板庫是根據作業細則、圖示規范、數據模型、地理信息要素編碼和制圖規則等確立的質量檢查流程,是對規則庫的有機集成,其中涉及對算法庫中基礎算子的調用。模板庫可以輔助空間關系缺陷、數據形式缺陷等的自動識別,達到靈活的自動識別各類基礎地理信息產品缺陷和應用的目的。模型庫是針對各類缺陷識別和各類基礎地理信息產品質量特征進行定性或定量描述的模型集合,4 種數據庫的互聯關系圖如圖1 所示。

圖1 數據庫互聯關系圖
以多幅矢量地圖數據為例,數據庫調用方法如圖2 所示,根據質檢任務選擇待檢圖層及質檢方案,質檢方案由4 種數據庫共同確定,模型庫根據任務需求配置相應的評價模型并設定模型評價因子及各因子權重。規則庫按照質檢任務配置質檢規則,選擇空間關系檢查規則(要素落水檢查、水域面進入植被面檢查和街道出街區等)和拓撲關系檢查規則(懸掛點檢查、拓撲面檢查、懸掛線檢查和地物重疊檢查等),模板庫依照質檢任務配置相應模板,選擇屬性檢查模板(屬性值域檢查、屬性內容一致性檢查和屬性值唯一性檢查等),然后算法庫匹配相應算子,4 種數據庫共同構成質檢方案與流程。最后經過計算機自動檢查和人工檢查后輸出質檢結果。

圖2 矢量地圖數據質量檢查數據庫聯動流程
基礎地理信息數據的質量是行業應用的基石,面對目前爆炸式增長的基礎地理信息數據量,如何利用自動化檢查軟件對基礎地理信息數據高效地進行數據質量檢查是當前面臨的難點問題[13]。本文對傳統的基礎地理信息數據質量檢查軟件數據庫進行重新設計,提出了模型庫、模板庫、算法庫和規則庫并行的數據庫設計方案,該設計使得基礎地理信息質量檢查軟件可以靈活應對不同種類數據的復雜質檢任務,極大地增加了數據質量檢查軟件的質檢效率、擴展性與可維護性,該數據庫設計方案可為后續基礎地理信息數據質量檢查軟件提供參考。