黃海英,熊 芬,張 博,史 乘
(1.湖北省測繪質量監督檢驗站,湖北 武漢 430074;2.湖北工業大學 體育學院,湖北 武漢 430068;3.湖北省航測遙感院,湖北 武漢 430074)
湖北省在2017 年和2018 年的基礎性地理國情監測成果驗收工作中,自主創新,設計包含了地表覆蓋與國情要素錯誤的“監測成果錯誤數據集”。兩年的驗收工作形成了數量可觀的成果檢驗數據,成果每年更新,檢驗工作每年進行,如何利用成果歷史檢驗數據,有針對性地為后續開展的監測工作進行技術指導和質量控制,是值得質檢工作者深入分析的問題。
成果檢查采用程序自動檢查、人機交互檢查和人工比對檢查3 種方式。檢查中發現的數據質量問題形成“錯誤數據集.mdb”。湖北省驗收總面積為18.59 萬km2,包括103 個縣級行政區劃。根據規定要求,2017 年、2018 年分別抽取了11 個縣級任務區作為樣本進行驗收,其中地表覆蓋分類數據抽樣采用了多階段抽樣方法,即對于成果采集精度和分類精度兩項質量元素的檢查,在縣級測區范圍內抽取不低于樣本10% 面積的圖幅進行詳查[1]。驗收抽樣面積達3.1 萬km2,2017 年和2018 年形成了包含縣級任務區檢查意見和分幅圖檢查意見在內的236 個樣本“錯誤數據集.mdb”。
本文采用以Access 數據庫為基礎的個人地理數據庫格式.mdb,設計樣本錯誤數據集。該數據集中包括3 個數據層,層名和字段定義如表1 所示。

表1 錯誤數據集圖層和字段定義
質量研究的主要工作包括成果質量數據庫建設、數據處理和數據分析,主要流程如圖1 所示。
1)數據合并。利用Python 腳本語言編寫批量處理命令代碼,調用ArcPy 模塊中的ListFiles 函數、ListFeatureClasses 函數、Append_management 函數[2]可對236 個樣本“錯誤數據集.mdb”進行批量同圖層合并,并存儲到新建的個人地理數據庫中(.mdb),即成果質量數據庫。

圖1 監測成果質量研究流程圖
2)數據疊加。利用ArcMap 疊加分析功能將湖北省任務區范圍界線數據鏈接到成果質量數據庫,為成果質量數據庫中所有圖層添加樣本名稱、生產單位、任務區面積、樣本量等字段。
對成果質量數據庫進行數據處理,利用ArcGIS 轉換數據格式,輸出地表覆蓋點狀錯誤圖層(.xls)、地表覆蓋分類精度錯誤圖層(.xls)、國情要素錯誤圖層(.xls)3 個文件。人工編輯提取“質量問題描述”、“所屬質量元素”、“錯誤個數”、“錯誤字段”、“正確CC 值”、“錯誤CC 值”、“錯誤重要程度”等字段內容,并按照一定規則統一規范質量問題描述;再對各差錯類別的主要問題描述進行關鍵字提取,合并同類問題,整理形成最終質量問題匯總表。
最終質量問題匯總表包括2017 年、2018 年地表覆蓋分類數據成果與地理國情要素數據成果的質量問題,分別對兩類數據成果進行質量分析。
2.3.1 地表覆蓋分類數據成果
地表覆蓋分類數據成果在進行質量問題記錄時,分類精度按照面積記錄[1],其他質量元素按照個數記錄,因此將地表覆蓋分類數據分為兩類進行質量透視分析。
1)分類精度錯誤統計。①對一級類分類錯誤與二三級類分類錯誤的面積進行統計,得到2017 年一級類分類錯誤的面積占比為91.16%,二三級類分類錯誤的面積占比為8.84%,2018 年一級類分類錯誤的面積占比為72.02%,二三級類分類錯誤的面積占比為27.98%;②對分類錯誤所屬地類類別進行統計,按照一級類種植土地(01)、林草覆蓋(03)、房屋建筑(05)、鐵路與道路(06)、構筑物(07)、人工堆掘地(08)、荒漠與裸露地表(09)、水域(10)、地理單元(11)、地形(12)[3]共10 類統計錯誤面積,占比如圖2所示;③對分類錯誤所屬地類類別進行細分統計,統計每個一級類中被錯分的地類類別,結果如圖3 所示。
2)其他質量元素錯漏統計。①對錯漏類型所屬質量元素進行統計,分別統計表征質量、采集精度、拓撲一致性、屬性精度的錯漏個數占比,2017 年分別為3.39%、63.29%、1.13%和32.19%,2018 年分別為4.15%、61.83%、7.88%和26.14%;②對錯漏類型所屬檢查項進行統計,錯漏類型包括屬性不接邊、Tag 賦值錯誤、ChangeType 賦值錯誤、面連續、圖斑與影像套合超限、幾何不接邊、面折刺、極小面,錯漏所屬質量元素與個數占比如圖4 所示。

圖2 分類錯誤所屬地類類別統計

圖3 地表覆蓋分類數據分類錯誤所屬地類類別細分統計

圖4 地表覆蓋分類數據錯漏類型所屬檢查項統計
2.3.2 地理國情要素數據成果
1)錯漏所屬質量元素統計。分別統計表征質量、邏輯一致性、屬性精度、完整性、位置精度的錯漏個數占比:2017 年為0.81%、3.85%、62.01%、9.63%和23.71%;2018 年為1.96%、15.36%、49.35%、19.61%和13.73%。
2)錯漏所屬圖層統計。經分析,最終質量問題匯總表中國情要素質量問題出現在社會經濟區域單元層的UV_BERA、UV_BERP、UV_BGBA,行政區劃與管理單元層的UV_BOUA、UV_BOUL、UV_BOUP,城鎮綜合功能單元層的UV_BUCA、UV_BUCP,水域層UV_HYDA、UV_HYDL,鐵路與道路層的UV_LCTL、UV_LLKL、UV_LRDL、UV_LRRL、UV_LVLL,構筑物層的UV_SFCA、UV_SFCL、UV_SFCP共計18 個圖層中,各層錯誤占比如圖5 所示。
3)UV_LRDL 公路層屬性值錯漏統計。公路層屬性值錯漏占比最高,因此單獨對公路層錯漏進行統計分析。按照屬性值錯漏所屬字段分別統計錯誤個數,占比如圖6 所示。

圖5 地理國情要素數據錯漏所屬圖層統計

圖6 UV_LRDL 公路層屬性值錯漏頻次統計
在兩年的驗收工作中,成果未出現空間參考系、概念一致性、時間精度以及地表覆蓋分類數據面縫隙、面重疊等屬于“符合/不符合”性質的質量問題。該類問題通過質檢軟件自動檢查[4],生產階段便可進行有效控制。
2.4.1 地表覆蓋分類數據成果質量分析
1)分類錯誤集中在種植土地、林草覆蓋、水域3 大類,特別是種植土地和林草覆蓋的二三級類的混淆。2017 年種植土地錯分為林草覆蓋的比例最高,2018 年水域錯分為種植土地的比例最高。
2)地表覆蓋分類數據中一級類錯分的比例較高,2018 年較2017 年同比下降21%;但2018 年技術規定進行了修改[3],導致2018 年地表覆蓋分類數據中ChangeType 賦值錯誤比例遠遠高于2017 年。
3)地表覆蓋分類數據除分類精度外,2017 年的常見錯誤為圖斑與影像套合超限、圖斑屬性不接邊、ChangeType 賦值錯誤等;2018 年的常見錯誤為圖斑與影像套合超限、ChangeType 賦值錯誤、幾何不接邊以及面連續等。出錯比例最高的質量元素為采集精度,2017 年的錯誤占比為63.19%,2018 年的錯誤占比為51.87%,同比下降11.32%。
2.4.2 地理國情要素數據成果質量分析
1)地理國情要素數據質量問題主要集中在屬性精度上。2017 年的屬性精度錯漏占比約為62%,2018 年的屬性精度錯漏占比約為49%。國情要素屬性填寫與地理國情要素生產流程有關[5],在生產前需收集民政、國土、環保、交通、水利、農業、林業、旅游、教育、衛生等多個行業的最新版專題資料數據,再分析、整理后應用到國情要素的采集和屬性賦值中。從2017 年和2018 年的錯漏占比來看,2018 年與2017 年同比下降20.97%,由于2018 年湖北省基礎性地理國情生產單位成立技術專班,對收集到的專題資料進行了統一分析,詳細規定了資料利用原則,有效提高了地理國情要素數據屬性填寫的正確性。
2)屬性精度錯漏最多的圖層UV_LRDL(公路)在2017 年的錯漏占比達52%,在2018 年的錯漏占比為23%,同比下降55.77%。該圖層錯漏集中在ChangeAtt(更新字段說明)、WIDTH(路寬)、MATRL(鋪設材料)、TYPE(類型)4 個字段。
2017 年、2018 年湖北省監測成果質量問題數量逐年減少,質量水平總體發展呈上升趨勢,得益于監測技術部門對質量問題產生原因的分析,找到了生產作業中應關注的重點和薄弱點,制定了相應的改進措施,避免了后期生產出現同類型的質量問題,從而保障監測成果質量不斷提高。
本文建立統一標準的錯誤數據集和規范化的錯誤描述庫,收集整理各級質檢形成“錯誤數據集.mdb”,結合Python 中的ArcPy 模塊建立年度成果質量數據庫。本文通過對成果質量數據庫構建方法的研究以及對建庫數據的統計分析,確定了質量問題產生的原因并提出了科學有效的建議,為對持續性地理國情監測工作進行有效質量控制提出了一個新思路,為建立科學合理的自然資源質量管控體系起到了一定的參考作用。