張 涵,趙麗宇,趙曉明
1.東華理工大學,江西 南昌 330013;2.江西省煤田地質局普查綜合大隊,江西 南昌 330001
近年來,隨著測繪地理信息產業的迅速發展,結合社會發展向智能化、信息化、網絡化的發展方向。軟件開發商、網絡運營商等大都相繼的轉向地理信息相關平臺、數據系統進行開發研究,由于不動產數據整合系統的建設及應用不同于其它的測繪地理信息系統,它包含空間地理位置的平臺架設、存量數據的整合、外業測量數據的輸入及成圖、點線面等多類數據源的屬性輸入、空間數據的運算、各種分類面積的分項分宗分類分層的數據交換處理與計算出表等,數據源的存儲與分層調入等、數據網絡化管理并傳輸到上級更大系統平臺等,實現有權級管理的網絡信息化的區域登記管理系統,且用于日常常規政務工作中。然而,對以往普通平面地理信息數據庫系統建設有較大的不同,原先相對簡單的數據變得更復雜,較運算能力、數據校核及準確度、合理性的系統架構支撐更復雜,使人為的邏輯性分析及修改在數據整合過程中有大量的工作,主要分析有:數據庫加載緩存量大,數據分析及可變通的運算能力還有提高的空間,數據庫建設的平行處理能力要完善并加強。下面簡要談談用ETL 技術與 ODS 技術在不動產數據整合工作中的應用,以不動產數據整合為例。
ETL(數據處理過程)指的是把項目中不同類的數據經過提取、過濾轉換程序之后加載進數據庫的過程,運用該技術可以把任務中散亂、標準不統一的數據整合關聯在一起。
(1)功能強大、處理靈活
ETL 技術具有強大的管理功能的特點,如日志管理、權限管理等功能;ETL 技術還具有豐富的處理組件,這些組件因容易復用具有很強的通用性;ETL 技術還為用戶方便控制相關數據的質量具有靈活的規則定制等特點。
(2)便于維護
數據庫系統的建立,ETL 是必不可少的一項技術。ETL 技術不僅局限于處理數據的工具,更是數據整合的解決方案。標準化的操作過程,生成了統一的元數據,方便了后期客戶的維護。
移動互聯網的飛速發展的不斷推動,使“數據”時時刻刻在產生,人們正在進入一個“大數據”的時代。“數據”,已經成為一種龐大的資源。在當今社會中,如何從龐大繁雜的數據中生產出對我們可用的信息是我們需要不斷研究的課題。但在目前生產生活中,數據依然集成互通度不高,不同類型的數據通常是分布在若干個獨立的信息系統中。通過ETL 技術可以增加數據整合的工作,提供開發利用的效率。
以不動產數據整合為例,不動產數據包含了房產、土地、林權等方面龐大的數據,包含有空間的矢量信息以及屬性信息,這些數據由于由不同的部門使用不同的信息系統管理,數據類型、數據格式都有所不同,現在需要整合在一起,ETL 技術就是數據庫管理的關鍵的技術。
(1)首先能夠實現不同數據庫內部的數據轉換及同一個數據庫內部數據的轉換。
(2)其次應該可以支持多個框架體系結構中的數據庫之間的數據轉換。
(3)再者通過工具可將多種結構數據源統一導入一個數據庫中。并且數據轉換根據需求配置實現復雜數據的計算、查詢等。
(4)還可實現數據庫內數據的高效精準轉換。
ODS 取自Operational Data Store 的縮寫,也就是操作型數據存儲,它是一種常被用作存儲數據的臨時區域的數據庫。ODS 作為存儲業務系統和數據倉庫間的過程數據,它是“面向主題的、集成的、當前或接近當前的、不斷變化的”數據[1]。
有個理發師,理發時總講些妖魔鬼怪的故事,問他為什么。他說:“我講這些故事的時候,你的頭發就會豎起來,這樣我理起發來就容易得多了。”
(1)ODS 可以整合多種源中的不同數據,在操作時,可執行業務分析和報告。
(2)在當前使用操作中,可將大部分數據在被轉入數據倉庫(ETL),并在進行長期存儲前只存儲在當前操作型數據存儲里。
(3)ODS的設計查詢對象主要是那些相對簡單的少量數據,對最終數據倉庫中的大量復雜數據進行查詢能力不足。這點與ETL 技術是最大的不同。操作型數據存儲存儲的是最近的信息,相反,數據倉庫存儲的是相對永久的信息。
(1)ODS 系統中可以實現ETL 模塊功能。
(2)支持計算和控制轉換單元等更新對象。
(3)保障高質量的數據,并且應用于不同系統中。
隨著社會信息化建設的快速發展,ODS 技術可用于數據共享平臺,還可以根據數據模型進行數據的整合,可提供數據共享,可支撐不同系統中數據的應用為其提供高質量的數據。
普通的數據倉庫的應用系統中,由于這些數據存放在不同的地理位置、不同的數據庫、不同介質的系統之中,它們的數據來源都很復雜,從這些系統中提取這些數據需要轉換才能實現,比如實際操作中數據源和存儲目標不能直接連通,數據可能會用文件方式上傳上來,這就需要將原始數據先存入臨時數據庫中。使用ODS 技術用于存放從業務系統直接抽取出來的數據,這些數據的數據結構、數據的邏輯關系上由于都與業務系統基本保持一致,在提取過程中大大減少了數據轉化的復雜性,在數據提取時僅僅關注過程接口、數據量大小、抽取方式等方面的問題就可以了。
在ETL 過程技術開發和運維過程中,運維人員需要對發現的公式或處理邏輯有誤的地方進行修改,每次修改之后還要再次調用之前一系列的批次數據,如果之前未保留這些時點上的原始數據,而源系統中的部分數據已經發生了變化,很多數據的調用將變得非常困難。所以需將數據快照下來用于和前端結果校驗檢查。臨時區域的數據存儲保留了原始數據當時時點的快照,這樣便于數據轉換后的校驗排錯和批次操作。
整個數據庫完成之前主要是由業務系統來直接支持的大量的報表生成和分析任務,這個過程需要業務系統的運行支持對其產生相當大的壓力,使用ODS 技術的數據從多個方面保持了與業務系統的一致,這樣由原來的業務系統產生的報表、細節數據的查詢也可以在ODS 中進行,從而降低業務系統的查詢壓力。如果從目標源數據到最終的分析結果的生成,需要花費較長時間進行ETL 轉換,那么從ODS 中直接提取數據可以查詢分析實時性的數據,兩個技術互相結合能夠減小系統的運行壓力。
不動產數據來源主要有不動產審批和交易數據、不動產增量登記數據、不動產存量數據登記、權籍調查數據等[2];不動產測繪對象包括有土地、房屋建筑、海域、林地、草原、礦山、農村土地經營權等。其中基礎地理信息數據包括有行政區界限、控制點(點之記、點位、點號)信息、坡度圖、等高線圖等,房屋信息包括有建筑面積、房屋位置、使用用途等,林地、草原數據包括有位置、面積、界限、等級等,權屬數據包括有各種不動產的權屬調查信息等[2]。
不動產數據整合工作是指全面清理和整理各類不動產登記歷史資料,遵循《不動產登記數據庫標準》(試行),在數據整合建庫技術規范的指導下,對土地、房產、林權等多方面的存量登記數據進行整合,并且建立他們間的圖圖和圖屬關聯關系,最終建成支撐全國范圍的可運行的不動產登記信息管理基礎平臺的成果數據庫。
由于土地、房產、農業、林業等數據來源不同、數據存儲標準不同、數據質量不同,在不動產數據整合工作中存在許多困難。具體困難有:
(1)許多地區城鎮地籍調查數據庫存在沒有及時更新的問題,而且登記數據庫和檔案數據庫沒有相關聯,造成了數據現勢性較差的狀況;
(2)很多地方出現房地無法關聯,落宗難度大的狀況,例如有地無房、有房無地、無房無地等情況增大了實地勘查工作量;由于歷史記載的房屋登記比較分散,且位置記錄模糊不清,導致了登記信息和空間信息無法關聯。
在ArcGis 軟件的擴展模塊中,有FME 引擎,FME 就是一種ETL 技術,在FME 模塊中對數據進行轉換,并且對數據做好質量檢查工作,得到不動產登記規定的標準格式[3]。
為了實現不動產統一登記信息管理平臺的建設基礎就需要建立一個完整性、科學性、統一標準的數據庫系統。有了統一標準的數據庫系統,這樣才能真正實現數據共享,在全省乃至全國方便的查詢檢索任何地方的任何不動產的數據。
結合進賢縣不動產數據整合工作,其中數據庫的建設工作包括有:海量基礎數據存儲的建設、存儲不同結構的數據的建設,數據整合應用、公共服務工作等[3]。
我和隊內同事結合不動產確權登記辦證的需求開發出這個不動產確權登記辦證管理系統,現已申請獲得計算機軟件著作權登記證書,登記號為2020SR0246512。該管理系統嚴格按照國家相關行業標準為不動產數據進行整合和管理提供一個解決方案。
具體地說,在不動產數據整合工作中希望通過ODS 技術來完成以下三個目標:
(1) 建立目標區域的不動產統一視圖信息,方便后期不動產登記和精確管理;
(2)為實現數據共享平臺的作用建立統一的標準,支持跨系統應用,建立整合數據的模型,最后生成不動產標準數據;
(3)解決各數據系統之間數據標準不一致、數據質量差的問題。
在數據整合階段,使用ETL 技術作為ODS 數據庫中的核心技術,能夠從系統中提取數據進行轉換、映射、處理、加工、加載等程序最后生成ODS 的數據,并將這些運用到不動產數據整合工作中去。
本文簡述了ETL 和ODS 技術知識,探討了不動產確權登記工作中的數據來源、數據整合、數據庫建設,以及ETL 技術的使用,進一步說明了基礎不動產數據整合的完整性、規范性、統一性。當然,還需要不動產數據整合工作制度以及不動產數據建庫標準不斷的完善,這樣,不動產數據整合建庫工作才能更好的完成。