張景峰


摘 要:隨著數字城市建設逐步完成,形成了多源海量的POI數據資源,針對不同來源的POI在數據格式、坐標參考、屬性結構等方面的差異,綜合運用ArcGIS、Geoway、4dConvert軟件,通過數據收集分析、數據準備、數據預處理、數據核查、屬性賦值、數據入庫及元數據制作等生產環節,利用ModelBuilder開發出了與生產相匹配的工具箱,多源異構POI的融合方法,建設統一的、權威的、內容規整、信息量豐富的省級地名地址數據庫,最后通過保密技術處理,發布使用,并持續更新。該數據庫建設完成后,為“天地圖”省級節點提供地名地址在線服務數據集,為數字城市政務版、公眾版服務平臺提供地名地址數據基礎。
關鍵詞:POI;多源異構;省級地名地址數據庫;數據融合
中圖分類號:P208 文獻標識碼:A 文章編號:1671-2064(2019)14-0009-02
為滿足國家信息化建設中政府部門和社會公眾對地理信息在線服務的迫切需求,國家測繪地理信息局提出了構建數字中國地理空間框架建設的戰略性決策。數字省區、數字城市、數字縣區是數字中國的有機組成部分;地名地址數據是對地名、地址信息的結構化描述與空間化標識,其以坐標點位的方式描述某一特定空間位置上自然或人文地理實體的專有名稱和屬性,是社會經濟信息與地理空間信息通過地理編碼或地址匹配進行掛接的媒介與橋梁。地名地址數據是數字省區、數字城市地理空間框架建設、數字縣區地理空間框架建設、“天地圖”省市級節點建設等項目的基礎數據,是地理信息公共服務平臺數據的重要組成部分。本文結合筆者多年從事省級地名地址數據庫建設及更新的實踐,探索出一套基于ArcGIS的省級地名地址數據庫建設方法,為省級海量地名地址數據庫的建設及動態維護更新提供了一種新的思路。
1 研究框架
本文研究的核心內容為:資料收集完整后,運用ArcGIS作業平臺對數據進行分析,制定作業方案,實現多源數據的統一分類、統一屬性結構,并完成質量檢查等,再將數據入庫,形成省地名地址數據庫成果。數據生產流程按其先后順序,可分為數據分析、坐標轉換、數據提取、數據組織重構、生僻字處理、數據核查、屬性項完善、入庫前檢查、數據入庫及元數據制作10個部分。具體生產流程如圖1所示。
2 研究內容
2.1 數據準備
對獲取的大量的POI數據進行預處理,處理的過程是首先進行坐標轉換,再利用ArcGIS ModelBuilder對數據進行清洗,以保證用于融合的數據的質量。主要包括以下內容。
(1)對源數據進行分析,通過自主開發的4dConvert進行坐標轉換,統一坐標系;
(2)數據格式的統一,非漢字字符統一使用英文字符,并對特殊字符進行刪除處理,處理屬字段中出現的分融符;
(3)政區實體處理,政區實體處理是地名點屬性賦值和數據劃分作業單元的基礎,在鋪開作業前必須完成;
(4)數據提取,從多源導構數據中提取地名地址數據,數據提取要求:1)行政區域名提取注記數據,包括注記點位置、名稱、分類代碼和政區編碼;2)街巷名提取注記數據,包括注記點位置、名稱和分類代碼;3)小區名提取注記數據,包括注記點位置、名稱和分類代碼;4)標志物名和興趣點名提取注記數據,包括注記點位置、名稱和分類代碼;5)門(樓)址名提取注記數據,包括注記點位置、名稱和分類代碼。
2.2 數據預處理
(1)空值檢查,由于數據源的原因,許多地名點并沒有NAME屬性,而NAME屬性又為地名地址數據庫屬性的的必填字段,在對數據進行轉換和分層處理前,需要對NAME屬性為空的點進行刪除或對確有必要保留的地名點補充NAME屬性;
(2)數據分類的初步處理,數據在采集過程中有可能因為分類標準不同而歸類到不同的地名類別中,所以為了對數據進行正確的分類,需要對各個數據源的數據分別進行分類的初步處理,通過對照數據源的分類代碼表及數據中實際所包含的地名點名稱進行對照;
(3)代碼轉換和分層,將不同數據的地物類代碼轉換成標準的地名地址代碼
2.3 數據核查
以地級市為作業單元,參考省地圖院出版的相關圖件資料對地名進行全面的檢查,并將歸類錯誤的地名點修正到正確的類別中。在進行POI融合過程中,首先通過Python腳本對要進行同名點判別。根據相關文獻資料,采用文本名稱相似度、距離相似度、門址相似度3個指標進行判別,在判別過程中,根據不斷優化和試驗,分別賦予0.5、0.3、0.2的權重可取得最好的判別效果。對于兩個POI對象,如果總體相似度大于0.8,則判定為疑似同名點,并作標記,采用人工交互處理方式最終判定,并在數據庫中進行標識,其次,通過人工核對的方式,進行判斷。具體流程圖2所示。
2.4 屬性項完善
所有地名點全部核查并修改完成后,就要對未賦值的字段按作業單元通過自主開發的《省地名地址生產工具箱》進行賦值,如圖3所示。
2.5 涉密地名及興趣點刪除
按照《公開地圖內容表示若干規定》及其補充規定的要求,對數據庫的涉密地名及興趣點數據運用批處理工具進行刪除,生成政務版和公眾版地名地址數據庫。
2.6 建立地名地址數據庫管理系統
地名地址數據庫管理系統旨在提供地名地址數據及相應地理實體數據的組織、建庫、維護、更新、安全管理、數據發布和元數據發布等服務。因此地名地址數據庫管理系統主要實現地名地址數據及相應地理實體數據的組織、入庫、維護 、更新、查詢檢索、瀏覽、定位、距離量算以及對入庫數據的數據格式轉換等功能。
2.7 基于ArcGIS Server及ModelBuilder的模塊化自動更新維護
(1)首先制作ModelBuilder數據處理流程模板,主要將POI處理流程的各階段數據處理過程制作可執行的腳本。
(2)對外源性數據,通過腳本進行自動化處理并更新入庫。
3 結語
本文提出了一種基于多源異構POI融合方法的省級地名地址數據庫建設及應用方法。該方法通過對多源異構POI空間位置、屬性信息進行自動化和人工交互比對,確定POI數據間融合的機率和置信度,最終形成全省統一的、權威的、內容規整、信息量豐富的地名地址數據庫,滿足數字省區、天地圖建設和日益增加的LBS的需要。總體來說,該方法是一種比較實用、高效的方法,為多源POI資源的整合成為省級地名地址數據庫,作為基礎測繪數據的一部分,數據庫建設完成后通過全省統一發布和定期更新,為POI數據的有效利用、降低POI數據的重復生產提供了一種新的思路,本文成果應用在天地圖省級節點在線服務地名地址數據集、數字縣區、一村一鎮一地圖等項目中,有效降低了建設成本,取得了顯著的經濟效率和社會效益。
參考文獻
[1] 邵蕾.網絡POI數據增量更新技術研究[D].蘭州:蘭州交通大學,2016.
[2] 高新院.基于空間位置信息的多源POI數據融合問題的研究[D].青島:中國海洋大學,2013.
[3] 張巍,高新院,李瑞姍.空間位置信息的多源POI數據融合[J].中國海洋大學學報(自然科學版),2014,44(7):111-116.
[4] 陳瑞.基于多源POI數據的匹配融合方法研究[D].蘭州:蘭州交通大學,2014.
[5] 李瑞姍.基于自然語言處理的多源POI數據融合的研究[D].青島:中國海洋大學,2013.
[6] 王婷婷.基于位置與屬性的多源POI數據融合的研究[D].青島:中國海洋大學,2014.
[7] 曾李陽,齊華,譚明建,等.基于天地圖的POI數據采集系統設計與實現[J].測繪與空間地理信息,2016,39(3):55-58.
[8] 吳張峰,夏蘭芳.多源異構POI融合方法及應用[J].測繪通報,2018(3):143-146.