萬 磊,程效軍,郭 王
(同濟大學(xué)測繪與地理信息學(xué)院,上海200092)
大比例尺地形圖數(shù)據(jù)質(zhì)量檢驗自動化方法初探
萬磊,程效軍,郭王
(同濟大學(xué)測繪與地理信息學(xué)院,上海200092)
針對當前地形圖數(shù)據(jù)檢驗仍主要依靠人工的問題,通過分析人工檢驗的流程和數(shù)據(jù)檢驗的標準,設(shè)計了數(shù)據(jù)質(zhì)量檢驗算法,開發(fā)了數(shù)據(jù)質(zhì)量檢驗軟件,在數(shù)據(jù)的屬性精度、完整性、邏輯一致性等方面實現(xiàn)了自動化檢驗。試驗結(jié)果表明,自動化檢驗程序能夠輔助質(zhì)檢人員在數(shù)據(jù)檢驗方面提高效率,同時可以統(tǒng)計錯誤數(shù)據(jù),為后期分析數(shù)據(jù)錯誤原因提供參考。
數(shù)據(jù)質(zhì)量檢驗;地形圖數(shù)據(jù);自動化算法
隨著數(shù)字城市的深入發(fā)展,全國大多數(shù)城市正在或已經(jīng)建立基礎(chǔ)地理信息數(shù)據(jù)庫[1],大比例尺地形圖作為城市空間信息系統(tǒng)建設(shè)的基礎(chǔ),需要滿足國家規(guī)定的各項技術(shù)規(guī)范和標準,以及用戶期望的目標。數(shù)據(jù)的質(zhì)量不僅關(guān)系到各項工程建設(shè)的質(zhì)量和安全,而且關(guān)系到社會經(jīng)濟發(fā)展規(guī)劃決策的科學(xué)性和準確性,影響著信息化建設(shè)的順利進行。在目前實際測繪工程中,大量自動化的采集手段雖然廣泛使用,但其采集成果還存在各種各樣的問題,因此對入庫數(shù)據(jù)進行質(zhì)量檢驗顯得極其重要。然而大比例尺地形圖一般數(shù)據(jù)量大、實際情況復(fù)雜,傳統(tǒng)的人工檢驗已經(jīng)不能滿足日益增長的建庫速度與質(zhì)量要求,利用計算機輔助人工實現(xiàn)自動化檢驗是未來數(shù)據(jù)質(zhì)量檢驗的發(fā)展方向。
《數(shù)字測繪成果質(zhì)量檢查與驗收》(GB/T 18316—2008)規(guī)定了數(shù)字測繪產(chǎn)品的9個質(zhì)量元素[2]為檢驗的主要內(nèi)容,其中屬性精度、完整性和邏輯一致性是實際檢驗工作的重點,一些學(xué)者也對其進行了卓有成效的探討。曾衍偉研究分析了空間數(shù)據(jù)的質(zhì)量模型,總結(jié)了地形圖數(shù)據(jù)各質(zhì)量元素的檢驗方法,但對于屬性精度、位置精度的自動化檢驗涉及較少[3];丁建勛等從GIS角度出發(fā)分析了地形圖數(shù)據(jù)質(zhì)量問題產(chǎn)生的原因,為檢驗方法的設(shè)計提出了方向[4];范大昭提出利用模板匹配的方法自動檢查屬性正確性,利用套合方法檢查分類正確性,但其采用的模板固定無法修改,且未考慮屬性值的邏輯組合的正確性[5];張彥彥進一步擴充了檢驗?zāi)0澹⒃试S用戶自定義[6];吳芳華在套合檢驗的基礎(chǔ)上提出通過設(shè)計符號系統(tǒng)對數(shù)據(jù)進行可視化,從而提高人工檢查的效率[7],該方法目前已成為生產(chǎn)實踐中最常用的方法之一,但其對符號設(shè)計的結(jié)果依賴較大,且仍需要大量的人工作業(yè);于煥菊從多源空間數(shù)據(jù)角度出發(fā),通過統(tǒng)計分析與地址匹配的方法檢驗城市大比例尺地形圖數(shù)據(jù)的邏輯一致性與完整性[8],該方法過于依賴外部數(shù)據(jù)的正確性,且檢查對象較少。本文根據(jù)地形圖檢驗工作中的實際需要,針對大比例尺地形圖的屬性精度、完整性和邏輯一致性等質(zhì)量檢驗,提出一種實用性強、適用性廣的自動化檢驗方法。
1.地理數(shù)據(jù)分層
為了更好地規(guī)范地理信息數(shù)據(jù)庫,符合當?shù)貙嶋H需求,各地相關(guān)部門出臺了相應(yīng)標準。以浙江省為例,《基礎(chǔ)地理信息要素分類與圖形表達代碼》(DB33/T 817—2010)和《1∶500 1∶1000 1∶2000基礎(chǔ)地理信息及地理實體數(shù)據(jù)庫技術(shù)規(guī)程》(征求意見稿)規(guī)定了基礎(chǔ)地理信息數(shù)據(jù)庫數(shù)據(jù)應(yīng)分為以下21層:水系點、線、面,居民地及設(shè)施點、線、面,交通點、線、面,管線點、線,境界及政區(qū)點、線、面,地貌點、線、面,植被與土質(zhì)點、線、面與注記,同時對各層的基本屬性進行了規(guī)定。這些規(guī)范都是檢驗時所需要參考的重要標準,需根據(jù)圖層的不同分別設(shè)計檢驗方法。
2.檢驗內(nèi)容與方法
(1)屬性精度檢驗
主要檢驗分類正確性與屬性正確性,包括分類代碼值錯漏與屬性值錯漏的情況。
1)分類正確性。分類代碼作為各要素在信息系統(tǒng)中的“身份證”,表征了其性質(zhì)與內(nèi)容,是信息系統(tǒng)最重要的組成部分,系統(tǒng)中各應(yīng)用(如檢索、查找、決策等)都依賴其正確性,因此對分類代碼值正確性的檢驗是檢驗中最重要的一部分。
標準規(guī)定,基礎(chǔ)地理信息要素分類代碼采用10位十進制數(shù)字碼,分別為按數(shù)字順序排列的要素分類碼、幾何特征碼和圖形特征碼,其中要素分類碼各位數(shù)代表不同含義,而幾何特征碼與圖形特征碼應(yīng)按規(guī)則組合使用,具體規(guī)定見表1和圖1。

表1 幾何特征碼和圖形特征碼組合
目前主要的檢驗內(nèi)容包括:①分類代碼屬性不為空;②不存在非法分類代碼,即在標準文件及項目設(shè)計書、技術(shù)總結(jié)中均不存在的代碼;③要素的幾何特征碼與要素幾何類型一致,如點要素分類代碼的幾何特征碼應(yīng)為1或2;④要素的大類碼與要素層類型一致,如水系要素分類代碼的大類碼應(yīng)為2。人工檢查需要提取每一個要素的代碼,檢查其長度、格式等并與標準代碼表比對,操作復(fù)雜且重復(fù)性嚴重。使用自動檢驗可以減少人工作業(yè),提高效率,分類代碼自動檢驗的流程如圖2所示。

圖1 分類代碼結(jié)構(gòu)

圖2 分類代碼自動檢驗流程
提取分類代碼唯一值可以減少循環(huán)執(zhí)行的次數(shù),提高速度,檢驗程序中使用數(shù)據(jù)庫語言LINQ實現(xiàn)。
2)屬性正確性。分類代碼是所有要素共同的屬性,除此外不同要素有其他不同屬性字段,檢驗內(nèi)容也不盡相同,概括起來包括:①控制點坐標不能為負且不能超出測區(qū)范圍;②有向點要素旋轉(zhuǎn)角度屬性應(yīng)在值域0~360°內(nèi);③居民地及設(shè)施面樓層屬性值不能為0;④交通線技術(shù)等級屬性應(yīng)在值域范圍內(nèi);⑤交通線、居民地及設(shè)施面材質(zhì)屬性應(yīng)在值域范圍內(nèi)等,歸納可知檢驗核心為屬性值應(yīng)在值域范圍內(nèi)。自動檢驗算法為:
a.坐標屬性的檢驗包括小數(shù)位數(shù)是否正確、是否為非數(shù)字、是否為半角字符、是否超出測區(qū)范圍等。該部分檢查需對所有數(shù)據(jù)進行遍歷,人工操作煩瑣且容易出現(xiàn)漏查、錯查的現(xiàn)象。
b.其他屬性檢驗主要包括必填屬性項是否不為空、字符是否為半角、屬性值是否在值域范圍內(nèi)等。為提高容錯性,允許用戶修改默認值域,添加自定義值,程序內(nèi)部使用List型數(shù)據(jù)構(gòu)建值域列表,以保證快速自動判斷目標值是否在范圍內(nèi)。
(2)完整性檢驗
主要檢驗要素多余與遺漏的情況,目前常用的檢驗方法是模板套合檢驗法,但由于實際地物豐富,人工檢驗漏查率較高。
檢驗點元素時,對于控制點和地貌點,比較坐標值是否相同,若相同則為重復(fù);對于其他類型點,則應(yīng)比較關(guān)鍵屬性值,如兩個名稱對象點,雖然坐標值不同,但名稱、分類代碼屬性值均相同,且距離很近(一般認為小于500 m),也應(yīng)判斷為重復(fù)。更特殊的是,對于居民地及設(shè)施(點)要素,若為行政區(qū)劃、政府機構(gòu)、行政單位等獨一性要素,只要名稱相同一定是重復(fù)。
檢驗線、面要素時,第一步比較長度與面積是否一致,地物在數(shù)據(jù)庫中以線或面狀要素表現(xiàn)時系統(tǒng)會自動賦予長度與面積屬性值(SHAPE_Length、SHAPE_Area)且精確位數(shù)高(一般為10-6),因此基本不會出現(xiàn)完全相等的情況;第二步輔助其他屬性值進一步判斷,如對于交通(線)要素,當SHAPE_ Length一致時可以比較道路寬度、名稱屬性值是否也相同。圖3為完整性檢查的流程。

圖3 完整性檢查流程
(3)邏輯一致性檢驗
主要檢驗屬性項定義、數(shù)據(jù)格式、拓撲關(guān)系是否正確。屬性項定義及數(shù)據(jù)格式的檢查參照有關(guān)規(guī)定并通過模板匹配的方法來實現(xiàn)自動化檢查。
DB33/T 817—2010中對于各類要素的基本屬性進行了規(guī)范,包括要素的中、英文名稱,要素基礎(chǔ)字段的名稱、類型、閾值及可否為空等,其中屬于邏輯一致性的檢查項包括名稱、類型、長度等。傳統(tǒng)的人工檢查方法需對所有圖層的所有字段進行查看并與規(guī)范比較,重復(fù)操作較多,費時費力。使用計算機自動遍歷圖層讀取字段屬性并與預(yù)先錄入的標準值進行比較即可實現(xiàn)自動化檢驗,算法步驟如下:
1)進入圖層i。
2)選擇字段j,提取該字段的名稱、類型、長度。
3)與標準值比較,若正確,進入下一步;若不正確,報錯并進入下一步。
4)選擇下一字段并返回步驟2)直到遍歷完該圖層所有字段。
5)進入下一圖層直到遍歷完所有圖層。
綜上所述,人工檢驗雖然可行,但由于數(shù)據(jù)量巨大,人工檢驗往往效率低、錯漏率高,且操作煩瑣,重復(fù)性工作多,將這部分工作采用自動化檢驗代替,可以大大提高檢驗的效率與正確性。
根據(jù)前文介紹的自動化檢驗算法,使用ArcGIS Engine與C#進行編程實現(xiàn),并將檢驗程序運用到實際檢驗項目中,以驗證自動化檢驗的效果。
以某地區(qū)1∶2000 DLG地理數(shù)據(jù)入庫項目為例,該項目覆蓋范圍為302.5 km2,數(shù)據(jù)大小為462 MB,共包含1 062 846條記錄,經(jīng)業(yè)務(wù)熟練的質(zhì)檢員對其進行檢查,共發(fā)現(xiàn)65處錯誤,耗時2 h 50 min。利用自動化檢驗程序?qū)ζ溥M行檢查,運行時間為20 min 11 s。程序運行界面如圖4所示,檢查結(jié)果見表2,人工檢驗結(jié)果與程序檢驗結(jié)果的對比見表3。

圖4 檢驗時自定義參數(shù)設(shè)置與運行結(jié)果界面

表2 某地區(qū)1∶2000 DLG地理數(shù)據(jù)檢查結(jié)果
造成人工漏查的原因主要有兩點:一是數(shù)據(jù)編碼問題,如屬性值為空與屬性值填寫為空格顯示時是沒有區(qū)別的,但對應(yīng)的計算機編碼是完全不同的,因此無法通過人工檢查出來;二是數(shù)據(jù)量過大的問題,如地貌點個數(shù)為116 218,數(shù)據(jù)量大,人工逐個檢查位數(shù)錯誤或在測區(qū)范圍外的點很容易出現(xiàn)遺漏,這類需要遍歷實現(xiàn)的檢查項通過計算機自動檢查更容易保證其準確性和完整性。
造成程序漏查的原因有兩點:一是數(shù)據(jù)質(zhì)量問題導(dǎo)致算法無法完全兼容,如河流配置點的方向錯誤,對于有方向(角度)屬性的記錄來說,單獨檢查其方向值是沒有意義的,只有與其他地物參照比較才能進一步判斷,然而入庫時這些有方向?qū)傩缘呐渲命c往往沒有按鄰接順序存儲,而是散亂地分布在數(shù)據(jù)庫中,這就導(dǎo)致難以提出有效算法進行自動檢驗。對這類問題的檢查目前仍需要人工進行,如果可以在數(shù)據(jù)采集和錄入時提高數(shù)據(jù)規(guī)范化程度,保證數(shù)據(jù)存儲符合標準,自動檢驗方法將更具準確性和兼容性。二是缺少進一步約束條件,如某交通線名稱屬性值為“A公路”,但實際上應(yīng)為“B公路”,這類與實際不符的錯誤在缺少外部約束條件時程序難以檢驗出來,如果可以引入其他多源數(shù)據(jù)如遙感影像數(shù)據(jù)等作為約束條件,并保證數(shù)據(jù)的及時更新與維護,可以解決此類問題。
造成程序錯判的原因是個別地理要素名稱中存在特殊字符,程序未能識別導(dǎo)致錯判。特殊字符在實際中并不經(jīng)常使用,因此這類錯誤數(shù)量較少,且易于排除。
綜上所述,自動化檢驗程序可以將大部分錯誤迅速、完整地檢查出來,且正確率較高,雖然對于一些需要依賴外部參考數(shù)據(jù)、情況更加復(fù)雜的檢查項存在漏查的現(xiàn)象,但仍顯著地縮小了檢驗范圍,有效地提高了效率。由此可見,自動化檢驗在解放人力、提高效率、提高檢驗結(jié)果正確性方面具有重要的意義。
隨著測繪技術(shù)的不斷發(fā)展,未來城市地理信息基礎(chǔ)數(shù)據(jù)將會更加海量,更新將會更加頻繁,因此對質(zhì)檢速度和質(zhì)量要求也會越來越高,自動化檢驗是必然趨勢。本文在當前人工檢驗方法的基礎(chǔ)上,對可以自動化檢驗的項目提出了相關(guān)算法并編程實現(xiàn),通過實例進行驗證。試驗結(jié)果表明,該算法實用可行,能夠顯著提高效率,但仍不能完全實現(xiàn)自動化檢驗。因此如何進一步提高自動化程度是下一步研究的問題。
[1] 李宣銳.大比例尺地形圖入庫前質(zhì)量評價方法[J].地理空間信息,2011,9(2):73-74,77.
[2] 國家標準委員會.數(shù)字測繪成果質(zhì)量檢查與驗收: GB/T 18316—2008[S].北京:中國標準出版社,2008. [3] 曾衍偉.空間數(shù)據(jù)質(zhì)量控制與評價技術(shù)體系研究[D].武漢:武漢大學(xué).2004.
[4] 丁建勛,程效軍,石如文,等.淺談珠海市基礎(chǔ)空間數(shù)據(jù)檢查與建庫預(yù)處理[J].地理空間信息,2005,3 (2):30-32,35.
[5] 范大昭.數(shù)字地圖矢量數(shù)據(jù)檢查的研究與實踐[D].鄭州:信息工程大學(xué),2001.
[6] 張彥彥.基于規(guī)則的DLG數(shù)據(jù)質(zhì)量檢查方法研究[D].南京:南京師范大學(xué),2007.
[7] 吳芳華.失量地圖數(shù)據(jù)質(zhì)量控制的理論與實踐[D].鄭州:信息工程大學(xué),2002.
[8] 于煥菊,李云嶺,史德杰,等.城市大比例尺數(shù)字地形圖的多源空間數(shù)據(jù)檢核方法研究[J].測繪通報,2012 (11):81-83,91.
Research on Automatic Quality Inspection for Large-Scale Topographic Maps
WAN Lei,CHENG Xiaojun,GUO Wang
10.13474/j.cnki.11-2246. 2016.0235.
P208
B
0494-0911(2016)07-0106-04
2015-08-10
萬 磊(1991—),男,碩士,主要研究方向為三維激光掃描。E-mail:1052590944@qq.com
引文格式:萬磊,程效軍,郭王.大比例尺地形圖數(shù)據(jù)質(zhì)量檢驗自動化方法初探[J].測繪通報,2016(7):106-109.