王 維
東華理工大學測繪工程學院,江西 南昌 330013
如今,城市建設已經步入數字城市發展階段,開始向著智慧城市邁進。隨著大數據時代來臨,城市空間下的各種數據在獲取方式、方法及來源等各方面都發生了巨大的變化。與此同時,隨著數據體量越來越大,領域部門數據越來越多,數據的集成和共享變得愈發困難。從長遠發展來看,數據孤島問題不會輕易消失,如何解決數字城市發展當中的數據融合、共享及集成,是數字城市建設中不可忽視的問題。
對于這個問題,已有方法大都面向特定領域之間的數據互通,并沒有從本質上解決數據孤島問題。由于數字城市的終極目標是數字地球,而數字城市的本質是將各種信息根據位置進行融合與共享,所以如何通過位置最大程度的完成不同領域之間的數據互通成為一個值得研究的問題。
位置信息的形式多種多樣,包括坐標、郵政編碼、電話號碼、IP、地名、地址等。在這幾種數據類型當中,地址是一種相對規范且使用場景豐富的數據形式。交通、郵政、規劃、稅務、公安等眾多領域業務中都存在的大量的地址數據,通過將地址定位到城市地理空間體系下,可以有效完成基于位置的數據共享,對數字城市而言意義重大。但由于我國地名地址管理體系混亂,地址的區域差異性顯著等問題,不同部門和領域所包含的地址數據通常不屬于標準地址,現有的GIS解決方案并不能用于解析這些地址數據,更無法對其進行定位。
針對數字城市空間體系下非標準地址的解析和定位問題,論文基于現有地址編碼解決方案,提出了一種基于地址元素結構的地址編碼方案,通過構建地址元素和位置之間的關系,提升原有地址編碼解決方案在非標準地址上的解析和定位能力,輔助實現數字城市空間體系下基于位置的信息共享。論文主要包含3部分研究內容。
(1)非標準地址的自動化解析、識別及切分。方法從地址結構特性出發,利用統計特征從原始非標準地址庫中提取地址的實體名稱及模型要素,結合規則方法對地址元素進行識別和切分。圍繞這一關鍵問題,介紹分析了現有中文地址分詞方法的發展狀況,討論了各種方法的優缺點,詳細論證了現有方法在不依賴額外地址庫情況下對非標準地址進行解析時存在的不足。設定了對比試驗,詳細分析了基于統計、基于規則及基于混合方法的切分效果,方法相互之間的影響及其優劣。試驗結果說明了本文提出的基于統計和規則方法的切分效果較好,可以達到80%的切分正確率,明顯高于單獨方法的結果。
(2)非標準地址庫的標準化過程。在回顧國內外標準地址庫技術發展現狀基礎上,提出基于語義位置網模型結構的非標準地址庫的標準化流程框架。對語義位置網構建過程中存在的問題進行了分析,并給出了具體修正方法,詳細介紹了相應索引的構建方法。對語義位置網中包含的對象和關系進行了詳細介紹,提出了基于語義位置網的城市地址空間體系,論述說明了地址元素、語義位置網以及空間定位的關系。
(3)地址庫中缺失地址的定位問題。根據語義位置網單元節點包含的語義關系,提出一種位置推理方法,論述了方法的推理依據及參數策略,詳細分析和研究了各種策略對位置推理精度的影響。針對點狀要素數據集進行了試驗驗證,與標準地址匹配方法進行了對比。試驗結果表明,最優策略組合的位置精度提高了約18.34%。