斯庭勇,高飛,胡小華
(1.合肥工業大學土木與水利工程學院,安徽合肥 230009;2.合肥市國土資源局,安徽合肥230071)
當前,隨著改革開放的逐步深入,我國加快城鎮化步伐的條件日益成熟,開始步入快速城市化進程。產業用地結構不合理、布局不優化、產業用地功能和利用效率低[1]等問題逐漸暴露出來。為此,相關單位開始著手研究“城市化地區產業用地集約化利用與調控技術研究與示范”這一課題,它是圍繞解決國土資源管理與開發利用過程中存在的集約化程度不高與調控難等問題,為國家開展土地調控、為政府各部門調整產業布局和優化產業結構、促進國民經濟協調發展提供數據支持和決策依據。“產業用地數據整合與建庫關鍵技術”是其中一個子課題,通過研究土地調查與經濟普查、土地利用規劃、城市規劃、城市建設、國民經濟、社會發展、生態環境等多種與產業用地有關的數據整合與建庫的關鍵技術,實現不同產業的社會經濟數據與用地數據的合理對接和有效整合,制定產業用地綜合數據庫標準,建立示范區產業用地綜合數據庫,建設產業用地綜合數據庫管理系統,為相關其他研究工作提供數據庫標準和數據基礎支撐。其中,產業用地數據整合是首要解決的問題。本文結合該項目的實施,研究整合的大體思路、流程、技術方法以及相關的注意點。
經過研究和分析,產業用地的結構、分布、面積、投入、產出、稅收、就業、土地利用狀況和動態變化等方面的信息是產業用地綜合數據的主要內容。而這些產業用地信息目前從經濟普查數據、城鎮地籍數據、基礎地理信息數據、土地利用現狀數據、土地利用規劃數據、城市規劃數據和社會經濟發展數據這7類數據中獲取[2]。由于產業用地數據獲取方式、表示和管理方面等不同,使得這些數據具有多源、多尺度、多時態等多源異構性,在進行數據整合時必須要對這些源數據歸類整理及檢查分析,便于數據整合到標準形式。
產業用地數據具有明顯的時空特性,需要對不同來源、不同時段的土地調查、經濟普查、土地利用規劃、城市規劃、城市建設、國民經濟、社會發展、生態環境等產業用地數據集成整合,并進行多層次的空間分析、數據提取、格式轉換和匯總統計,創建產業用地數據整合技術體系。
產業用地待整理數據庫的數據量大,數據類型多樣,數據來源廣,相互關系復雜,所以在進行數據整合時,必須執行科學縝密的技術路線,以確保數據整理工作的順利完成。
數據整合前,必須要制定一個標準,只有統一的數據標準,才能保證整合后數據的系統性,有利于數據的維護、分析和更新[3]。本文研究制定標準,采用面向對象的分析建模技術,分析、研究產業用地要素的組成、分類體系、空間結構、屬性特征和相互間的邏輯關系,整理、歸納與分析產業用地相關的數據模型、要素類、數據對象、表現形式和表示方法等內容,抽象、概括產業用地信息要素類和數據對象,研究要素類的包含關系和繼承關系,空間數據對象的幾何拓撲關系和屬性邏輯關系,研究土地調查、經濟普查、土地規劃、城市規劃、城市建設、生態環境、國民經濟、社會發展數據間的關聯度,進行產業用地各要素的合理分類和邏輯關聯,構建統一、集成、高效的產業用地數據表達的標準化模型,提出《產業用地綜合數據庫標準》的框架結構和主要內容,制定產業用地綜合數據庫標準。標準中的產業用地數據庫要素劃分如表1,其中小類省略。

產業用地數據庫要素分類 表1
依據產業用地綜合數據庫標準和建設規范的要求,采用計算機和信息處理技術,利用地理信息系統技術、數據的抽取轉換裝載技術和數據庫技術,根據設備配置、數據庫情況,制定空間數據整合與非空間數據整合的技術路線,具體技術路線如圖1與圖2所示。

圖1 空間數據整合技術路線

圖2 非空間數據整合技術路線
數據整合流程:
(1)對已有的數據進行搜集、篩選、檢查,對照整合成果要求,對每一類待整合數據情況進行登記,摸清現有數據情況。對于需要更新或補充調查的,制定相應的更新或調查方案。
(2)嚴格按照產業用地數據整合技術規范和成果要求,利用FME和ArcGIS相關軟件完成數據轉換、拓撲檢查、屬性檢查、數據拼接等處理,然后按西安80坐標系統和高斯克呂格投影,規定組織方式和命名規則對數據進行整合。
(3)人機交互和計算機自動處理相結合。在數據庫整合過程中充分利用計算機技術,對數據進行處理,提高工作效率。同時結合人機交互處理技術進行檢查和修改,減低數據庫整合過程中的錯誤率。
(4)建立多級質量檢查機制。在數據整合的各個中間環節及最后成果階段,均建立嚴格的檢查機制,對空間數據的拓撲關系一致性、多邊形是否閉合以及節點一致性等內容以及屬性數據字段結構、屬性內容、要素分類、代碼是否完備等內容均進行檢查。
(1)ETL技術
ETL(Extraction.Transformation.Loading)主要用來實現異構多數據源的數據集成,是數據倉庫、數據挖掘以及商業智能等技術的基石。ETL具有數據抽取、數據轉換和數據裝載功能,是數據整合的基礎[4]。在產業用地數據庫建設過程中,需要用到ETL技術對多源異構數據進行整合,實現產業數據的抽取、轉換、清洗、加載等過程,其概念模型如圖3所示。
圖3中,ETL技術在產業用地數據庫整合過程中實現:數據抽取需要符合一定結構和規則體系[5],通過分析提取建立規則,然后從經濟普查數據、城鎮地籍數據、基礎地理信息數據、土地利用現狀數據、土地利用規劃數據、城市規劃數據和社會經濟發展數據這7類數據中提取符合規則的數據,并對提取的數據分類標識,把重復、關聯度低、精度低的數據剔除。數據轉換是根據產業用地綜合數據庫的需要,將數據格式統一、類型統一,保證數據的統一性和完整性;數據清洗要借助規則的驅動[6],將不符合要求的數據清洗掉。數據裝載是將已經清洗好的數據批量加載到目標數據庫里,然后,目標數據庫可以被系統直接訪問或通過數據文件方式訪問的方式進行批量加載,實現產業用地數據的統一入庫管理。

圖3 產業用地數據整合中的ETL概念模型
(2)數據庫技術
數據整合的最終形式是以ArcGIS的shape格式存儲的,但是由于城鎮地籍數據,基礎地理信息數據和經濟普查數據均是以不同的格式存儲的,這就需要將這些數據整合加載到ArcGIS工具里。以經濟普查數據為例說明,經濟普查數據源數據是Excel格式的,將Excel格式數據按照標準要求,保留需要的屬性。在ArcCatalog里新建表后,建立相關字段,將整理好的Excel數據加載進去。通過Access數據庫完善信息。
(3)經濟數據與空間數據的連接

圖4 連接后的產業用地數據展示
整合好后的ArcCatalog里存儲的經濟普查數據要與相應產業單位空間位置數據高度保持關聯,以產業單位的“組織機構代碼”為主鍵,并以其為關鍵字段對這兩種數據連接。本文以合肥市產業用地數據整合為例,將連接后的產業單位空間數據以及相應的其他類數據添加到ArcMap里,展示結果如圖4所示,其中點表示產業單位。
為了保證產業用地綜合數據庫成果的準確性、完整性,按照相關標準和要求,對數據成果建立多級多層次的質量檢查機制。在數據整合的各個中間環節及最后成果階段,均進行工作人員自檢、工作小組互查、項目負責人抽查的多層次的檢查。具體數據質量要求如下:
(1)數據入庫前應對數據進行100%的數據質量檢查。
(2)數據入庫后要對計算機自動輸出成果進行檢查。
(3)數據運行過程中要對數據庫整體安全性運行檢查。
(4)坐標系使用國家西安1980坐標系,投影類型使用3°分帶高斯-克呂格投影。
(5)宗地、房屋的要素完整。
(6)宗地、房屋等主要面狀要素的拓撲關系正確。
(7)注記要素完整。
(8)數據的命名及存儲格式符合要求,內容完整。
隨著產業用地相關領域的深入研究,本文的產業用地數據整合路線已經得到應用,筆者參與了整個課題建設的流程,從數據采集,源數據的分析,標準的制定到數據整合的路線及關鍵技術不斷研究補充,取得了進展。產業用地數據由于其來源不同,格式不同,整合標準尚沒有統一等原因,造成此類整合內容有一定的局限性,需要進一步探索研究及完善。
[1]李國平,薛領.產業與空間:北京市產業用地分析、評價與集約利用研究[M].北京:中國經濟出版社,2008.
[2]胡劉鵬,高飛,胡小華.基于ARCGIS的產業用地數據庫系統設計研究[J].測繪,2012,35(3):131~134.
[3]楊亞鋒,王黎明.地理信息系統建設中的幾個問題[J].測繪通報,2003(1):46~47.
[4]葛迪.ETL技術在交通信息資源整合工程中的應用研究[D].哈爾濱:哈爾濱工程大學,2010.
[5]張梅蘭,肖桂榮.區域地理空間數據整合技術研究[J].計算機與數字工程,2011,39(1):48 ~52.
[6]舒飛躍.基于知識與規則驅動的國土資源空間數據整合方法研究[J].國土資源信息化,2007,(3):19~25.