馬春林
(新疆維吾爾自治區測繪成果中心,新疆 烏魯木齊 830002)
地名地址是最常用的社會公共信息之一,在測繪、規劃、交通、郵政、電力、民生等各個領域扮演著不可或缺的重要角色,是現代社會進行各種聯系、交流必不可少的基本工具和紐帶。通過融合多源地名地址數據,構建權威、標準化地名地址時空數據,作為行業專題數據上圖的“粘合劑”,實現行業、社會經濟信息與地理空間關聯的媒介和橋梁。
建設標準化、質量好的地名地址數據,是充分發揮基礎地理空間數據應用服務能力的前提與保障。為構建新疆基礎地理信息時空云平臺應用體系,提升政府治理能力和公共服務水平,促進大數據的深化應用和快速發展,地名地址數據融合更新是一項重要的基礎性工作。
以“精度高、現勢性好、表達豐富”為前提和目標,通過高效采集、有效融合新疆各級基礎地理信息數據,匯聚各類與地名地址相關的信息,推進多源異構地名地址數據的融合、集成、服務,實現地名地址數據資源的統一管理,做到“統籌規劃、整體設計、逐步實施”,規范有序地開展新疆維吾爾自治區地名地址時空數據融合更新工作。
充分利用已掌握基礎資料情況,將地名數據和地址數據進行數據融合、數據預處理、數據判重及去重、地名地址標準化、實體匹配等一系列處理,實現地名地址數據的融合更新。通過標準化地名地址時空數據融合,解決因行政村邊界、宗地所有權數據、天地圖等各種數據來源不一、精度不同、標準各異、同物不同數、時空參考不一、邊界矛盾沖突、現勢性不統一等問題,避免因數據源質量不好的問題影響基礎地理信息時空云平臺的數據應用與服務。
地名地址數據來源多樣,因而存在標準不統一、現勢差異性大、數據組織不相同等問題,不能直接滿足客戶地理編碼服務業務的需求。為此要建立標準化、規范化及通用化的地名地址數據處理流程,實現標準化地名地址時空數據生產,保證數據成果質量,為地理編碼服務等業務需求提供數據保障。地名地址數據處理總體要求如下:
(1)數據現勢性要求:不同來源的融合數據現勢性不一致時,以現勢性高的數據為準。
(2)空間參考要求:融合后數據統一采用2000國家大地坐標系,坐標系單位為度,保留9位小數(0.000000001度)。高程基準:采用1985國家高程基準,高程系統為正常高;高程坐標單位為“米”。
(3)平面位置精度要求:不同來源的融合數據平面位置精度不一致時,以精度高的數據為準。
(4)屬性取值要求:不同數據源中同一地物要素的相同屬性項取值不一致時,依據現勢性、準確性等進行一致性處理。
(5)空間關系與邏輯一致性要求:融合后的成果數據要素空間關系正確,各類信息邏輯一致。
(6)數據內容要求:融合處理后的數據,數據格式、空間參考、屬性結構及屬性取值應滿足標準規范要求。
開展全疆區域內地名地址相關的數據分析工作,在了解數據來源、權威性、數據格式、空間參考、標準規范的基礎上,分析數據量與數據質量等;并整理數據結構,根據數據分析結果制定融合優先級。具體數據源為全疆區域內的天地圖地名地址與POI數據、基礎性地理國情監測行政村數據。
(1)天地圖地名數據:天地圖數據中主要采用地名地址與POI中的地名數據,數據現勢性為2018年春季。有著現勢性好、豐富度高、更新頻率快等優點,將作為本次地名數據融合的主要數據來源。
(2)基礎性地理國情監測地名地址數據:基礎性地理國情監測數據中主要采用行政村數據,數據現勢性為2017年。國情監測數據有著位置精度高、更新頻率高等優點,可作為地名數據補充數據源。

圖1 數據融合技術流程圖
地名數據生產流程主要包括數據預處理、數據融合及數據質檢三部分。其中數據預處理包括數據轉換和模型轉換。數據融合包括圖形屬性融合、屬性標準
(3)已有的地址數據及相關資料主要為天地圖中的地址數據,數據現勢性為2018年春季。有著現勢性好、豐富度高、更新頻度快等優點,將作為本次地址數據融合的主要數據來源。
依據新疆基礎地理信息時空云平臺的建設要求,在現有地名地址數據的基礎上,遵循地名地址相關數據標準,形成地名地址數據融合技術流程,主要包括數據預處理、數據融合、判重處理、去重處理、實體匹配、標準化及質檢等環節,融合流程(如圖1所示):
以基礎性地理國情監測行政村數據以及天地圖地名數據為基礎,經過數據預處理、數據融合和數據質檢,形成標準化地名時空數據。技術路線(如圖2所示):化、數據判重去重、外業核查、內業整理、數據編碼。該階段將數據源融合為一套標準的地名數據。

圖2 地名數據技術路線
4.1.1 數據預處理
數據預處理是將原始數據經過數據轉換和模型轉換,形成標準地名屬性結構數據,為數據融合做好準備。
(1)數據轉換
數據轉換包括格式轉換和坐標轉換。將數據格式轉換為DB格式,坐標轉換為CGCS2000國家大地坐標系。
(2)模型轉換
根據新疆基礎地理信息時空云平臺地名數據標準中的屬性項定義與說明,建立統一的地名數據屬性存儲結構。分析原始數據分類體系與新疆基礎地理信息時空云平臺地名數據分類體系的關系,進行模型轉換,形成按照地名屬性結構標準的地名數據。
4.1.2 數據融合
數據融合包括圖形屬性融合、屬性標準化、數據判重去重、外業核查、內業整理、數據編碼三個部分,為數據生產的主要工作,形成融合后的地名數據。
(1)融合原則
數據融合處理的總體原則為現勢性原則、精度原則、精細度原則、拓撲一致性原則、屬性處理原則、豐富性原則。多個原則共同出現時,現勢性優先級最高,精度和精細度次之,其他原則輔助。
其中,行政村地名點位置以國情行政村數據為準。
(2)圖形屬性融合
將不同來源的數據進行圖形數據融合,將同名數據進行比對,保留唯一精確的數據。如果數據屬性出現矛盾,參照屬性填寫要求,保留更規范的屬性。
同一要素對象的屬性融合,宜以現勢性高、準確性高的數據為準進行屬性賦值或補全。具體要素位置需參考地名數據的選取指標與采集要求。
(3)屬性標準化
根據地名屬性定義與說明中的填寫要求,對融合后的屬性內容進行標準化處理。其中,地名:名稱參考地名填寫規范要求進行標準化;PAC碼:根據融合結果提取行政地名數據,參考民政名錄中行政區劃的權屬關系,需建立地名數據中行政村與自然村的權屬關系,進行PAC碼賦值。
(4)數據判重、去重
將融合后的地名點分別進行數據判重、去重,使數據唯一,保留位置精確數據、屬性規范的數據。地名點根據要素間的距離、名稱、簡稱、類別名稱、地址、電話等屬性信息識別重復對象,并進行去重。判重原則:一定距離范圍內類型相同,名稱、地址的相似度大于設定閾值;一定距離范圍內類型相同,名稱、簡稱、電話相似度大于設定閾值。
(5)數據編碼
數據編碼字段包括要素唯一標識、地名編碼。兩者均唯一標識要素且通過連接關系實現一一對應。要素唯一標識在入庫時批量賦值。地名編碼由3部分共20位數字組成。前9位為數據位置所在的鄉鎮/街道辦代碼,中間6位為地名類別代碼,后8位為順序碼,取值范圍為00000000-99999999,根據類別代碼排序自動進行生成。
4.1.3 數據質檢
數據質檢主要對融合后數據進行質量檢查,主要包括基本要求、完整性檢查、圖形檢查、屬性檢查和邏輯一致性檢查。具體主要有數學基礎、數據格式及數據文件完整性及有效性的檢查;數據位置精度及拓撲關系的檢查;屬性正確性、屬性分類、屬性精度檢查;圖形屬性一致性及圖層屬性一致性檢查等。
4.1.4 數據反饋
形成標準化地名數據后,將融合后的全疆標準地名數據反饋數據提供單位。
通過標準地名數據中的數據來源、數據來源標識碼與數據源中的實體編碼字段的對應關系,實現原始數據與地名成果數據的一一對應關系,數據提供單位可更新原始數據,并根據自身業務情況進行數據的豐富完善。
4.1.5 數據更新與維護
地名數據的更新主要包括匯交更新和反饋更新兩種方式。匯交更新通過數據提供單位提供新版全量數據,項目組對比兩版數據的差異,將變化內容進行數據更新、數據質檢,形成更新后的地名數據。反饋更新通過數據提供變化的增量數據,直接通過數據來源和數據來源標識碼進行數據更新和質檢,形成更新后的地名數據。
地址數據融合技術流程主要包括數據預處理、判重處理、去重處理、實體匹配、標準化及質檢等環節,融合流程(如圖3所示):

圖3 地址數據技術路線
4.2.1 數據預處理
將多源數據融合為統一的數據結構。在融合過程中根據源數據屬性結構與標準地址數據屬性結構之間的映射關系,將源數據的屬性值轉換到標準地址數據的字段中,同時保留可用的輔助字段,刪除無用字段。
4.2.2 判重處理
由于地址數據來源較雜,地址描述標準不一,數據精度不一,在同一數據源內部或者不同數據源之間都存在地址點重復的情況,為提高地址匹配精度,需對地址點進行重復點檢測和去重。即在一定范圍內比對地址數據的地址字段及其他輔助字段,計算相似度,相似度越高,重復幾率越大。然后對判重結果進行審核,分析輸出相似度閾值,標識出實際的重復點。
4.2.3 去重處理
根據判重結果,結合數據源的精度、現勢性、邏輯一致性,疊加天地圖河流、道路、居民地等數據作為輔助信息,對重復點做去重處理。
4.2.4 數據標準化處理
數據標準化主要是指對地址數據的屬性字段做標準化處理。將地址字段內容轉換為結構化地址描述。同步將地址內容拆分到省、市、區縣、鄉鎮/街道辦、行政村委會/社區居委會、片區、街巷、一級門樓址、自然村/居民小區、門樓址/標志物、二級門樓址、單元、樓層、室等字段中。最后為地址編碼字段賦值。
4.2.5 數據質檢、反饋、維護與更新
地址數據的質檢、反饋、維護與更新與地名數據基本一致。其中,質檢除一般檢查項外還增加了拓撲一致性檢查;而反饋同樣是通過編碼字段的對應關系,實現原始數據與地址成果數據的一一對應關系;地址數據的更新同樣包括匯交更新和反饋更新兩種方式,具體與地名數據一致,這里不再贅述。
以國家相關技術規范為依據,結合新疆基礎地理信息時空云平臺建設要求與新疆數據建設的現狀,按照“統籌規劃、頂層設計、逐步完善”的工作要求和“統一標準、規范流程”的技術要求,制定一套地名地址數據融合與更新技術方法,用來指導新疆基礎地理信息時空云平臺數據資源體系中地名地址數據的建設,進而有效地促進了時空大數據的深化應用和快速發展。