

摘要:數據資源是不動產統一登記的基礎,是不動產登記工作順利開展的重要前提。本文以廣州市不動產登記數據為例,在對現有數據進行分析的基礎上,對多源異構不動產登記數據抽取技術方法進行研究,提出數據抽取方式、流程及數據抽取方案,以便將原不動產登記業務系統的數據抽取至不動產電子登記簿數據庫,為不動產登記數據共享和再利用提供有力的保障和支持。
關鍵詞:多源異構;不動產登記;數據抽取
1、引言
數據資源是不動產統一登記的基礎。目前,國土、房產、農業、林業等部門都積累了大量寶貴的不動產登記數據,包含大量的歷史檔案、登記信息和圖形數據,具有種類多、數據量大、多源異構、歷史關系復雜、數據之間關聯性較差等特點。各登記部門在登記數據方面存在一定程度的耦合,并且都各自支持著大量業務系統的運行,在數據來源、數據組織方式等方面都存在較大差異。隨著各地不動產信息化平臺建設工作進入常態化,如何將現有的分散存放、格式不一、介質不同的不動產登記信息存量數據更好地進行統一、整合,解決數據模式不匹配、數據內容不唯一、語義沖突等問題,是我們面臨的難點和關鍵。本文以廣州市不動產數據為例,探討一種多源異構不動產登記數據抽取技術方法,從而為全面構建不動產統一登記提供強有力的數據支撐和保障。
2、現有數據分析
廣州市房地產登記業務信息化建設起步較早,經過多年建設,目前廣州市在用的與房地有關的信息系統達19個,主要有廣州市房地產檔案管理系統、房地產交易登記整合系統、新房屋管理系統、廣州市集體土地登記發證系統以及各區分局歷史以來自行建設的各類房產或土地登記業務管理系統等。由于在用登記業務系統較多,導致已經建成的不動產系統的數據庫標準和使用情況不一致,不能滿足統一利用的需求。經對廣州市土地、房產等部門現有不動產業務登記現狀情況進行分析,其成果數據主要情況如下:
(1)成果數據庫存量大,房地產測繪成果、業務登記成果數據、檔案成果數據管理源頭眾多,存在多源頭業務數據重復現象;
(2)成果管理規范不一,格式眾多,土地測繪成果坐標管理混亂,不同年代不同坐標系的成果未作統一轉換處理,宗地權屬測繪成果空間壓蓋問題嚴重;
(3)宗地及房地產單元編號規則不統一,地方編號標準眾多,不符合不動產空間數據入庫規范要求;
(4)部分業務登記數據缺失,宗地、樓棟空間入庫數據不全,屬性數據存在不完整或缺失,樓盤表數據信息不全;
(5)未進行地樓房統一空間數據建庫,房與地(自然幢)存在空間關聯缺失;集體房產登記成果上下手關系關聯不全,存在權屬關聯信息缺失;房地產登記業務成果未與空間數據實現關聯,權屬數據均未落宗;
(6)未對各類土地或房地產登記檔案成果未形成統一的登記簿冊,電子檔案管理模式不一致,存在獨立檔案數據管理以及業務與檔案數據混合管理兩種模式等。
通過以上分析,如果用傳統模式開展數據整合要消耗大量的人力、物力,效率較低,需要尋找一種高效快捷的技術方法來實現,建立現有不動產登記業務系統數據動態抽取工作機制,將原不動產登記業務系統的數據抽取至不動產電子登記簿數據庫。
3、數據抽取原則
(一)一致性原則
在數據抽取過程中不能對原始數據進行修改,保證抽取前后的數據一致。
(二)規范性原則
依據《廣州市不動產電子登記簿數據庫標準》,對檔案庫中現有的房、地登記信息進行抽取并規范化。
(三)可迭代性原則
由于數據抽取過程中并沒有通過手工整理過歷史數據,必然存在部分數據抽取后不符合前期標準,需要重新對標準進行修改,以適應歷史數據。標準制定、數據初次抽取、標準修訂、數據再次抽取,這是一個持續的迭代過程。
4、數據抽取方式及流程
根據不動產現有系統的實際情況,數據抽取的方法可以分為以下兩種模式。
(1)主動上報
由各現有系統的管理單位,根據簡易版電子登記簿模板的要求,主動將本系統數據庫中的數據一次完整上報至簡易版電子登記簿前置數據庫中。
(2)被動抽取
由項目建設單位在各現有系統的管理單位的協助下,依據簡易版電子登記簿模板的要求,將系統數據庫中的數據一次完整上報至簡易版電子登記簿前置數據庫中。
被動抽取包含以下幾個步驟:
(1)數據分析
對廣州市現有的19套不動產業務和檔案系統分析,確定廣州市不動產電子登記簿的數據來源,并確定每套系統的業務和數據邏輯關系,同時制定每套系統到不動產電子登記簿數據庫的轉換方法。為了達到短時間內抽取各系統登記數據的目的,要求現有系統按統一的格式提供數據訪問視圖。
(2)數據轉換
數據轉換是在數據分析基礎上,采用初步確定的轉換方案進行轉換,在轉換過程中根據實際問題進行調整,直到數據轉換成功,所有過程記錄到操作日志。
數據轉換的過程需包括以下內容:
(1)模擬抽取
根據設計的數據抽取測試方案測試數據模擬抽取,也就是檢查數據模擬抽取后數據是否正常。
完成數據同步工具和轉換方案的制作后,對數據轉換的質量進行測試,針對測試成果對數據抽取工具和轉換方案進行修改,直到數據轉換的質量符合原樣遷移和滿足《廣州市不動產電子登記簿數據庫標準》為止。
在測試階段,如果發現部分數據無法通過程序或者腳本進行同步的,記錄這些數據和這些產生這些數據的原因,并對產生問題的原因進行分析,建立機制,確保在日常同步數據時不會出現遺漏、錯誤的情況。
(2)抽取準備
數據模擬抽取測試成功后,在正式實施數據抽取前還需要做好以下幾個方面工作:進行完全數據備份、確定數據抽取方案、準備抽取工具等。
(3)正式抽取
按照確定的數據抽取方案,正式實施數據抽取。
首次同步:在確定數據同步能夠達到原樣遷移后,選擇非不動產業務登記工作時間段,完成首次數據同步工作,并在此驗證數據同步的數量,如果首次同步失敗,則需要判斷失敗的原因,及時更正方法,等待下個登記業務辦理的休息日再進行數據同步。
日常同步:完成首次同步工作后,數據同步工具將繼續運行,每日定時或者根據各不動產業務檔案數據庫的變化實時同步數據。
(4)效果分析
按照數據抽取測試方案測試數據抽取效果,并對數據抽取后的數據庫參數和性能進行調整,使之滿足數據抽取后實際應用系統的需要。
抽取校核
為保證抽取的數據質量,抽取驗證采用全庫邏輯驗證和抽樣人工檢查兩種方式。需對數據邏輯關系檢查和業務數據正確性檢查方面提供解決方案。
通過編寫的腳本進行數據查詢,核對數據查詢的數據量是否與實際一致,隨機抽檢數據的主體權利和其他權利是否與實際的數據表單一致,如果發現存在錯誤則需要重新調整轉換方案,直到正確為止。
通過校核的數據,則交換到不動產電子登記簿數據庫,同時自動刪除中間數據庫中的數據;未通過校核的數據,則直接生成問題響應文件,反饋給不動產登記數據抽取工具,同時刪除中間庫中的數據,不動產登記業務系統根據問題響應文件中的問題提示信息,對數據進行處理后,重新生成登記業務數據匯交抽取到不動產電子登記簿數據庫,再次依照上述校驗流程進行流轉,直到抽取的數據達到《廣東省不動產登記數據庫標準》和《廣州市不動產電子登記簿數據庫標準》要求。
5、數據抽取方案
為保證現有系統數據的抽取不受影響,可針對不同的系統制定對應的數據抽取方案。抽取方案主要包含:方案名稱、時間、同步內容、創建者、最后執行時間等關鍵信息。數據抽取平臺會定時執行對應的數據抽取方案以達到數據實時的目的。
(一)完整性抽取更新
完整性抽取更新方案的數據抽取時間起點是在各現有系統的數據庫中已經按照不動產現狀成果庫的要求建立了視圖,每天晚上定時對各現有系統的數據進行查詢,完全覆蓋之前的記錄。完整性抽取更新方案流程如下圖所示:
這種更新的優點是當各現有系統處于閑時才進行數據更新,不會因為數據查詢和數據寫入的操作而影響登記部門的系統使用效率,缺點是寫入數據庫中的現狀數據實時性最多有一個工作日的時間差。
(二)增量式抽取更新
系統正式上線后會對滿足抽取條件的系統數據進行一次全庫抽取,對于日常業務辦理中產生的變化數據采用每日更新的方式;對于未滿足接入條件的系統采用分步接入的方式。增量式抽取更新方案流程如下圖所示:
圖2 增量式抽取更新方案
為保證數據抽取的實時性,不影響各現有系統的正常運行速度以及在查詢、利用本數據的效率,建議使用的數據抽取模式如下描述:
(1)在服務器上建立不動產現狀成果數據庫;
(2)在各現有系統的數據庫中建立數據視圖,便于完整性查詢和完成首次數據抽取工作;
(3)在各現有系統的數據庫中建立觸發機制和更新表,可以將現狀不動產登記成果數據的增刪改情況實時反饋到數據表中,抽取系統實時或者定時將更新表的數據更新至現狀數據庫中。
經過研究與模擬環境測試表明,若在日常工作中數據入庫的方式是單條/筆數據入庫的情況下,如原數據寫入時間是1秒,在各現有系統的數據庫中建立觸發機制后,寫入數據在1.2秒左右;若在日常工作中數據入庫的方式是批量導入,使用觸發機制會對原數據庫性能產生較大影響,所需要時間約為原來的兩倍。
6、結束語
在不動產登記過程中,數據的好壞直接影響到不動產能否按照標準要求進行登記。而土地登記數據和房產登記數據是不動產登記數據的主要內容。這些數據的多源異構性導致不能滿足統一利用的需求。本文以廣州市不動產登記數據為例,在綜合分析目前不動產登記數據現狀的基礎上,依據不動產電子登記簿數據庫標準等要求,探索了一種多源異構不動產登記數據抽取的技術方法和思路,期望能對不動產數據整合的長效機制構建有所借鑒。
參考文獻
[1] 國土資源部.不動產登記數據整合建庫技術規范(試行).
[2] 王履華, 孫在宏,彭英,丁遠.不動產登記信息數據整合及管理基礎平臺建設研究.地理信息世界, 2014,21(4):76-82.
[3]黃亮,張鵬.不動產統一登記新思路——談以土地所有權為基礎的不動產統一登記體系構建[J].中國土地,2013,32(3):47-48.
[4] 張雙根.論房地關系與統一不動產登記簿冊 兼及不動產物權實體法與程序法間的交織關系.中外法學,2014,04.