衛啟云,渠偉勇,黃 鴻,趙振盛
(1.太原市基礎地理數據中心,山西太原030009;2.北京星球數碼(集團),北京100190;3.太原市民政局,山西太原030002)
地理編碼又稱地址匹配,是將自然語言描述的地址信息根據地址模型和編碼規則進行智能語義解析,并通過與地名地址標準庫進行匹配建立與之對應的空間坐標信息和地理編碼關聯的過程[1]。
20世紀60年代中期,美國為配合由美國國情情報局負責的人口普查,做了大量的關于地址編碼的工作,研究出了雙重獨立地圖編碼系統(dual independent map encoding,DIME)。80年代后期,美國國情普查局將DIME系統發展為TIGER(topologically integrated geographic encoding and referencing)系統,作為地址編碼的參考系。TIGER在美國已經成為一種公認的標準,影響力非常大。此外,加拿大也完成了國家級的地址編碼數據庫建設;德國、以色列、澳大利亞等國家在很早之前也進行了許多詳細的關于地址編碼技術的研究工作,并且都已投入了使用。
20世紀80年代,北京、上海、廣州、深圳等一些城市在地名地址匹配和定位技術方面開發了一些相應的軟件和應用,但是沒有標準的地址編碼數據庫,且基本上都是僅限于針對某個具體的應用系統。
隨著太原市數字城市建設的不斷推進,以及政府對跨部門數據需求的增加,部門間數據共享成為一個迫切需要解決的問題,人民群眾和各政府部門對地名地址數據的需求越來越大,地理編碼系統逐漸成為了豐富共享數據、推進應用的重要手段;而采用地理編碼,快速地將文本形態的業務數據空間化,推進了GIS在業務部門中的應用。本文以太原市地名地址數據采集與建庫項目建設為契機,結合數字太原建設現狀,實踐地名地址標準庫建設和地理編碼,制定地名地址數據更新模式,并將建設成果在“數字太原”地理信息公共服務平臺、太原各政府部門應用系統及移動端上開展了一些應用,實現了多部門業務數據“落地”及跨部門數據的共享。
總體技術架構如圖1所示。

圖1 總體技術架構圖
本研究將充分利用現有軟硬件與網絡環境,以現勢性較高的地形數據、影像數據、專題數據為基礎,建設地名地址標準庫和地名地址專題庫,形成核心數據層;借助工作流引擎、地址匹配引擎、GIS通用組件等,發布地址匹配、查詢統計、質檢入庫等功能服務,在“數字太原”平臺、應用系統、移動端開展地名地址應用。
筆者采用ArcGIS+Oracle+.NET技術平臺進行開發,搭建CS架構地名地址管理系統,搭建BS架構的地址匹配引擎和地名服務發布系統。
(1)基于規則庫和實時索引的地址匹配技術
地址分詞是與地址匹配相結合的過程,通用的地址一般由行政區劃和街道地址的詳細信息構成,首先對整條地址字符串進行過濾,分離出行政區劃和街道詳細地址兩部分信息,這就大大縮小了搜索范圍,也加快了搜索速度。對于街道地址的詳細信息,通過地址分詞技術可以將其分割成最小的地址要素,參考建立的地址匹配的規則庫,搜索的范圍越來越小,當滿足某一個規則時,匹配即完成,這種算法達到了搜索范圍的彈性伸縮。
這種基于分詞方法的匹配技術具有一個明顯的弊端,即對于詞表中未登錄的詞難以進行匹配和切分,同時在很多情況下由于前后漢字的特殊組合也容易出現錯誤的切分。針對這種情況,可以在地址的規則庫中加入存儲常見地址別名、地址歷史名稱、地址常見拼寫錯誤的規則庫,在進行地址分詞匹配之前,先進行歧義、錯誤、別名地址的匹配監測,將大大提高基于地址分詞匹配的精度。
為了應用的快捷,地址匹配引擎啟動后,會自動關聯到地址數據并創建索引,整個過程只有毫秒級的延遲,不會對使用造成任何影響。地址數據更新后,只需更新地址匹配引擎的應用實例,所有更新操作立即生效,實現更新即展現。
(2)地名地址與實體地理要素的空間相關性識別與關聯技術
太原市主城區地址詳細程度精確至建筑物,高密度的地名地址數據覆蓋為地名地址與建筑物的空間關聯奠定了數據基礎。通過對地名地址數據與建筑物數據內在關聯性進行剖析,對地名地址數據與對應的地理空間圖形數據(如建筑物、行政區劃、道路等)進行空間相關性識別與關聯;利用地名地址數據和建筑物等數據各自的空間位置特性,建立起它們相互間的空間關聯關系。
(3)基于中間件技術的政務資源一體化交換入庫
地名地址數據要實現共享交換,務必要與平臺集成,各種服務資源都通過服務注冊的方式注冊到ESB服務總線。“數字太原”平臺、移動端及第三方系統可以通過服務總線檢索自己需要的服務,并進行調用,以支撐各自的應用。
基于地名地址實現政務資源一體化規范體系建設及自動化政務資源交換入庫,以地名地址數據和地理編碼技術為紐帶,建立整個政務資源體系與空間信息的關聯,也建立起政務資源數據間的關聯,實現政務資源數據的一體化融合和自動入庫;同時,利用地名地址的橋梁作用獲取社會經濟的詳細信息,提供標準化的與空間位置信息相關聯的屬性數據,更靈活、便捷地查詢、統計各種綜合應用信息,為社會經濟、文化、人口、環境變化、統計等相關領域的多源、多層次、多時空研究奠定基礎,為社會經濟快速發展提供決策支持。
地名地址標準庫是地理編碼的核心和關鍵,筆者參考國家標準、行業、地方及企業標準規范,結合太原市數據現狀,從現有可獲取的數據及外業采集數據中提取、整合、規整出地名地址數據,并經過數據質檢,將數據入庫更新至地名地址標準庫。地名地址標準庫建設流程如圖2所示。

圖2 地名地址標準庫建設流程
地名地址標準庫共定義了涵蓋門樓址信息、地名信息、時態信息等內容的34個字段。為了提高地址匹配和檢索的效率,在標準庫中將標準地址字段拆分成行政區劃、街路巷、門牌號、樓號、單元號、房間號等字段,并按照《數字城市地理空間信息公共平臺地名/地址分類、描述及編碼規則》對地址進行編碼。
地理編碼的實現是將需要匹配的地址字符串進行拆分和標準化處理,然后用處理后的關鍵地址字段的值與地址編碼地址庫中數據對應字段的屬性值進行匹配,如果匹配成功,就將該數據的坐標值賦給屬性表中的相應記錄,從而實現對該記錄的地址匹配[2]。
在地名地址匹配的過程中,經常需要對兩類數據進行匹配:一種是只包含地理實體位置描述信息、而沒有空間坐標的地址數據,如街道地址、郵政編碼、行政區劃等;另一種是已經包含了相關地圖定位信息(空間坐標)的地理參考數據(如街道地圖數據、行政區劃地圖數據、郵政編碼地圖數據等),這些數據集合或數據庫在地址匹配過程中起空間參考的作用[3-4]。完成匹配后,給前者賦予地理空間坐標,是地理編碼實現中最核心的部分。
地名地址數據的來源是多方面的,包括太原市公安局、太原市民政局等多個部門,以及快遞公司及導航數據等。在更新機制上,建立太原市基礎地理數據中心與太原市民政局、太原市公安局等政府部門的協同管理,社會公眾參與維護的更新機制。數據中心管理人員通過地名地址數據庫管理系統對發生變更的地名地址數據進行增加、修改、刪除;民政部門各級管理人員通過“數字太原”平臺提供的空間數據或非空間數據進行上傳→地址匹配→地圖糾正,將更新信息推送至地名地址數據庫服務系統,系統對重復數據進行甄別及標準化處理后,進行流程化更新;社會公眾可以通過“數字太原”平臺客戶端(互聯網)提供的在線標繪或地址糾錯,對轄區內發生變更的地名地址數據進行標繪或糾錯描述,并將更新信息發送給平臺管理員,管理員對變更信息進行甄別及標準化處理,即進行流程化更新。
建立地名地址數據常態化的多源協同收集與集中更新模式,有效地促進了地名地址日常管理的質態,保障了地名地址數據的持續鮮活。
(1)地名地址數據成果與平臺無縫連接
地名地址數據是“數字太原”地理空間框架數據的重要組成部分,也是“數字太原”地理信息公共服務平臺數據擴展的有力工具之一。太原地名地址建設成果與“數字太原”地理信息公共服務平臺的無縫集成,既完善了平臺的服務體系,也通過平臺擴大了地名地址成果的應用范圍,如圖3所示。借助平臺提供的服務共享與交換功能,各部門的業務系統可通過網絡獲取互聯網/局域網服務器端的數據服務,在其業務系統中實現以地圖為中心的資源查詢展示功能。

圖3 地名地址數據在平臺端展示效果圖
(2)地名地址與實體地理要素空間關聯
經過省測繪地理信息局、公安局、民政局等多部門的提供及外業地名地址的采集與核查工作,共匯集了太原主城區400 km228萬余條地名地址數據,地址詳細程度精確至建筑物。利用地名地址數據和建筑物等數據各自的空間位置特性,建立起它們相互間的空間關聯關系,就可以通過建筑物、行政區劃或道路等找到相關的地名地址信息,也可以根據地名地址信息找到其所在的建筑物、行政區劃或道路。圖4為地名地址數據與建筑物實體關聯效果示意圖。

圖4 地名地址與建筑物關聯示意圖
(3)部門業務數據“落地”及共享
地名地址標準庫建成后,通過地址匹配可實現衛生局、教育局等部門業務數據的空間化,并對匹配結果進行質檢入庫,形成地名地址數據資源;將這部分數據以服務的形式發布至公共服務平臺,在平臺上進行展示和應用;同時,不同部門之間也可共享并交換專題數據服務。圖5為部門業務數據匹配效果。

圖5 部門業務數據匹配效果
地名地址數據庫作為數字城市的基礎,在數字城市的地理空間框架建設中起著關鍵的作用,它既是一個技術問題,又是一個標準化問題。本文通過對太原市地名地址建設的實踐,總結了地名地址標準庫建設和地理編碼的主要技術流程、地名地址數據更新模式及地名地址建設的應用成果。在以后的工作中,還需進一步提高業務兼容性,加大地名地址數據應用的宣傳與推廣力度,逐步實現太原市各政府委辦局、企事業單位的業務專題數據整合,促進城市數字化、網絡化、智能化發展。
[1]唐潔.數字南昌地址編碼數據庫的設計與實現[D].撫州:東華理工大學,2012.
[2]馬照亭,李志剛,孫偉,等.一種基于地址分詞的自動地理編碼算法[J].測繪通報,2011(2):59-62.
[3]程昌秀,于濱.一種基于規則的模糊中文地址分詞匹配方法[J].地理與地理信息科學,2011,27(3):26-29.
[4]于濱.面向經濟普查項目需求的模糊中文地址匹配方法研究[D].長沙:中南大學,2010.