趙軍鵬,劉 軍
(河北省林業和草原調查規劃設計院,河北 石家莊050051)
地理空間數據質量的檢查一般包括兩種:數據拓撲關系檢查和數據邏輯一致性檢查。數據拓撲關系檢查既包括單個圖層的拓撲檢查也包括多個圖層之間的拓撲檢查;數據邏輯一致性檢查主要是根據屬性表中各字段本身或相互之間的各種邏輯關系,檢查各項數據是否正確。檢查的方法有很多,對于大批量的數據,通常使用兩種方法:單進程和多進程批量處理。這里以河北省森林資源調查數據為例,介紹使用Arcpy對數據進行檢查的方法。
Python程序設計語言的設計哲學是“簡單”、“明確”、“優雅”,它既有簡單腳本語言和解釋型程序語言的易用性,也擁有傳統編譯型程序語言所有強大通用的功能,另外它還是一種解釋型的、面向對象的、帶有動態語義的高級程序設計語言。Python語法嚴格、可讀性強、易于學習,提供了非常完善的基礎代碼庫,同時又擁有大量的第三方庫用來實現各種功能,具有很強的移植性,使它成為很多軟件平臺上開速編寫腳本的理想語言。
作為ArcGIS自帶的Python站點包,ArcPy降低了ArcGIS開發的門檻,面向的是廣泛的應用GIS的專業人員,在ArcToolbox、Model Builder和Desktop定制插件中涌現了眾多的腳本,ArcPy成為ArcGIS應用人員擴展自定義功能的首選工具。
ArcPy是一個以arcgisscripting模塊為基礎并繼承了arcgisscripting功能進而構建而成的站點包。目的是為以實用高效的方式通過Python執行地理數據分析、數據轉換、數據管理和地圖自動化創建基礎。Arcpy分為大模塊,數據訪問模塊,制圖模塊,Network Analyst模塊,Spatial Analyst模塊,時間模塊。用ArcPy編寫的ArcGIS應用程序可以使用多個不同領域的GIS專業人員和程序員組成的眾多Python小群體開發的附加模塊。
河北省森林資源調查數據的基礎數據包括兩個矢量圖層:小班層和林帶層。由于具有拓撲信息的矢量數據對GIS中的網絡分析以及空間關系分析非常重要,所以必須對矢量圖層進行拓撲關系檢查。拓撲關系檢查需要對小班層和林帶層分別建立拓撲關系,小班層需要檢查各個小班是否有重疊,是否存在空隙;林帶層只檢查是否有重疊。數據邏輯一致性檢查要根據《河北省森林規劃調查技術細則》,檢查屬性表中二十幾個字段的值是否正確及字段間邏輯關系是否一致;小班層和林帶層還要檢查在森林面積統計中是否存在重復部分。
空間數據檢查的流程如下:
新建一個文件地理數據庫(GDB)→新建一個要素數據集(需要選擇投影坐標系)→導入要檢查的矢量數據→新建拓撲(在選擇拓撲目標時選擇上一步導入的數據)→添加拓撲規則→驗證拓撲→在ArcGIS軟件中顯示所有錯誤并修改→小班和林帶相交檢查→導出矢量數據。完整的技術路線如圖1所示。

圖1 空間數據檢查技術路線
游標(Cursor)是包括表格或要素類中的一行或多行數據的內存對象,每一行都包含數據源中每個字段的屬性和每個要素的幾何特征。
數據邏輯一致性檢查的方法是使用游標對屬性表逐行檢查,根據表中各列之間的邏輯關系判斷是否存在錯誤,并把錯誤原因寫到“錯誤”字段中。
新建“錯誤”字段→更新面積(對面積小于667m2的小班歸并到臨近小班)→查看字段是否存在→判斷地類的值是否正確→清洗數據,清除某些地類中一些字段的多余值→根據邏輯關系逐行查錯→統計錯誤數量并報告→修改錯誤,并再次檢查,直到錯誤統計為0。完整的技術路線圖如圖2所示。

圖2 數據邏輯一致性檢查技術路線
3.3.1 使用單進程批量處理 在ArcMap中將所有需要進行邏輯一致性檢查的數據放到mxd文檔中,在工具箱中創建腳本,數據類型選擇“ArcMap文檔”,運行腳本時選擇mxd文檔,即可實現對文檔內所有圖層的批量處理。
編寫腳本時,首先導入ArcPy、os模塊及相關附屬工具,并對工作環境進行初始化設置,核心代碼如下:
#-*-coding:utf-8-*-
import sys,os,arcpy
reload(sys)
sys.setdefaultencoding(′utf-8′)
arcpy.env.overwriteOutput=True
然后定義一個函數AttributeChecking(fc),作為數據檢查的主函數,在主函數下建立若干個子函數分別實現創建字段,計算面積,補全字段,數據清洗,邏輯檢查等功能,在main函數下引用此函數。批處理的核心代碼如下:
mxd0=arcpy.mapping.MapDocument(′CURRENT′)
df=arcpy.mapping.ListDataFrames(mxd0,"")[0]
inlayer=arcpy.mapping.ListLayers(mxd0,"",df)
for fc in inlayer:
AttributeChecking(fc)
3.3.2 使用多進程處理 首先把所有的shapefile文件放到一個文件夾中。然后在python中新建一個列表,把所有文件的路徑全部放到列表中shape-FileList,核心代碼如下:
Import os,arcpy,multiprocessing
arcpy.env.workspace="D:\H"
shapeFileList=[]
featureclasses=arcpy.ListFeatureClasses()
for file in featureclasses:
fullpath=os.path.join("D:\H\",file)
再建立進程池,使用異步非阻塞的方式處理數據。
MyGPool=multiprocessing.Poo(l)
# 多進程并行處理
for sf in shapeFileList:
MyGPool.apply_async(AttributeChecking,(sf,))
MyGPool.close()
MyGPool.join()
以上計算基于如下運行環境:
1) 中央處理器 CPU Intel(R)Xeon E5507(2.26GHz/4M)
2)內存:32G
3)操作系統:Win7 64bit操作系統
4)應用軟件:ArcGIS 10.2,Python2.7.3,Pycharm 2019
Python語言作為一種面向對象的、開放的解釋型腳本語言,功能強大而又易于學習,基于其開發的Arcpy站點包與ArcGIS系統實現的高度集成。利用ArcPy對數據整理檢查能提高工作效率,減輕工作量,且能保證計算準確。對于大量數據的計算或檢查,使用多進程能充分發揮電腦的機器性能,節省時間,但如果少量數據的話,單進程批量處理速度更快。