衛(wèi)啟云,渠偉勇,黃 鴻,趙振盛
(1.太原市基礎地理數(shù)據(jù)中心,山西太原030009;2.北京星球數(shù)碼(集團),北京100190;3.太原市民政局,山西太原030002)
地理編碼又稱地址匹配,是將自然語言描述的地址信息根據(jù)地址模型和編碼規(guī)則進行智能語義解析,并通過與地名地址標準庫進行匹配建立與之對應的空間坐標信息和地理編碼關聯(lián)的過程[1]。
20世紀60年代中期,美國為配合由美國國情情報局負責的人口普查,做了大量的關于地址編碼的工作,研究出了雙重獨立地圖編碼系統(tǒng)(dual independent map encoding,DIME)。80年代后期,美國國情普查局將DIME系統(tǒng)發(fā)展為TIGER(topologically integrated geographic encoding and referencing)系統(tǒng),作為地址編碼的參考系。TIGER在美國已經(jīng)成為一種公認的標準,影響力非常大。此外,加拿大也完成了國家級的地址編碼數(shù)據(jù)庫建設;德國、以色列、澳大利亞等國家在很早之前也進行了許多詳細的關于地址編碼技術的研究工作,并且都已投入了使用。
20世紀80年代,北京、上海、廣州、深圳等一些城市在地名地址匹配和定位技術方面開發(fā)了一些相應的軟件和應用,但是沒有標準的地址編碼數(shù)據(jù)庫,且基本上都是僅限于針對某個具體的應用系統(tǒng)。
隨著太原市數(shù)字城市建設的不斷推進,以及政府對跨部門數(shù)據(jù)需求的增加,部門間數(shù)據(jù)共享成為一個迫切需要解決的問題,人民群眾和各政府部門對地名地址數(shù)據(jù)的需求越來越大,地理編碼系統(tǒng)逐漸成為了豐富共享數(shù)據(jù)、推進應用的重要手段;而采用地理編碼,快速地將文本形態(tài)的業(yè)務數(shù)據(jù)空間化,推進了GIS在業(yè)務部門中的應用。本文以太原市地名地址數(shù)據(jù)采集與建庫項目建設為契機,結合數(shù)字太原建設現(xiàn)狀,實踐地名地址標準庫建設和地理編碼,制定地名地址數(shù)據(jù)更新模式,并將建設成果在“數(shù)字太原”地理信息公共服務平臺、太原各政府部門應用系統(tǒng)及移動端上開展了一些應用,實現(xiàn)了多部門業(yè)務數(shù)據(jù)“落地”及跨部門數(shù)據(jù)的共享。
總體技術架構如圖1所示。

圖1 總體技術架構圖
本研究將充分利用現(xiàn)有軟硬件與網(wǎng)絡環(huán)境,以現(xiàn)勢性較高的地形數(shù)據(jù)、影像數(shù)據(jù)、專題數(shù)據(jù)為基礎,建設地名地址標準庫和地名地址專題庫,形成核心數(shù)據(jù)層;借助工作流引擎、地址匹配引擎、GIS通用組件等,發(fā)布地址匹配、查詢統(tǒng)計、質(zhì)檢入庫等功能服務,在“數(shù)字太原”平臺、應用系統(tǒng)、移動端開展地名地址應用。
筆者采用ArcGIS+Oracle+.NET技術平臺進行開發(fā),搭建CS架構地名地址管理系統(tǒng),搭建BS架構的地址匹配引擎和地名服務發(fā)布系統(tǒng)。
(1)基于規(guī)則庫和實時索引的地址匹配技術
地址分詞是與地址匹配相結合的過程,通用的地址一般由行政區(qū)劃和街道地址的詳細信息構成,首先對整條地址字符串進行過濾,分離出行政區(qū)劃和街道詳細地址兩部分信息,這就大大縮小了搜索范圍,也加快了搜索速度。對于街道地址的詳細信息,通過地址分詞技術可以將其分割成最小的地址要素,參考建立的地址匹配的規(guī)則庫,搜索的范圍越來越小,當滿足某一個規(guī)則時,匹配即完成,這種算法達到了搜索范圍的彈性伸縮。
這種基于分詞方法的匹配技術具有一個明顯的弊端,即對于詞表中未登錄的詞難以進行匹配和切分,同時在很多情況下由于前后漢字的特殊組合也容易出現(xiàn)錯誤的切分。針對這種情況,可以在地址的規(guī)則庫中加入存儲常見地址別名、地址歷史名稱、地址常見拼寫錯誤的規(guī)則庫,在進行地址分詞匹配之前,先進行歧義、錯誤、別名地址的匹配監(jiān)測,將大大提高基于地址分詞匹配的精度。
為了應用的快捷,地址匹配引擎啟動后,會自動關聯(lián)到地址數(shù)據(jù)并創(chuàng)建索引,整個過程只有毫秒級的延遲,不會對使用造成任何影響。地址數(shù)據(jù)更新后,只需更新地址匹配引擎的應用實例,所有更新操作立即生效,實現(xiàn)更新即展現(xiàn)。
(2)地名地址與實體地理要素的空間相關性識別與關聯(lián)技術
太原市主城區(qū)地址詳細程度精確至建筑物,高密度的地名地址數(shù)據(jù)覆蓋為地名地址與建筑物的空間關聯(lián)奠定了數(shù)據(jù)基礎。通過對地名地址數(shù)據(jù)與建筑物數(shù)據(jù)內(nèi)在關聯(lián)性進行剖析,對地名地址數(shù)據(jù)與對應的地理空間圖形數(shù)據(jù)(如建筑物、行政區(qū)劃、道路等)進行空間相關性識別與關聯(lián);利用地名地址數(shù)據(jù)和建筑物等數(shù)據(jù)各自的空間位置特性,建立起它們相互間的空間關聯(lián)關系。
(3)基于中間件技術的政務資源一體化交換入庫
地名地址數(shù)據(jù)要實現(xiàn)共享交換,務必要與平臺集成,各種服務資源都通過服務注冊的方式注冊到ESB服務總線。“數(shù)字太原”平臺、移動端及第三方系統(tǒng)可以通過服務總線檢索自己需要的服務,并進行調(diào)用,以支撐各自的應用。
基于地名地址實現(xiàn)政務資源一體化規(guī)范體系建設及自動化政務資源交換入庫,以地名地址數(shù)據(jù)和地理編碼技術為紐帶,建立整個政務資源體系與空間信息的關聯(lián),也建立起政務資源數(shù)據(jù)間的關聯(lián),實現(xiàn)政務資源數(shù)據(jù)的一體化融合和自動入庫;同時,利用地名地址的橋梁作用獲取社會經(jīng)濟的詳細信息,提供標準化的與空間位置信息相關聯(lián)的屬性數(shù)據(jù),更靈活、便捷地查詢、統(tǒng)計各種綜合應用信息,為社會經(jīng)濟、文化、人口、環(huán)境變化、統(tǒng)計等相關領域的多源、多層次、多時空研究奠定基礎,為社會經(jīng)濟快速發(fā)展提供決策支持。
地名地址標準庫是地理編碼的核心和關鍵,筆者參考國家標準、行業(yè)、地方及企業(yè)標準規(guī)范,結合太原市數(shù)據(jù)現(xiàn)狀,從現(xiàn)有可獲取的數(shù)據(jù)及外業(yè)采集數(shù)據(jù)中提取、整合、規(guī)整出地名地址數(shù)據(jù),并經(jīng)過數(shù)據(jù)質(zhì)檢,將數(shù)據(jù)入庫更新至地名地址標準庫。地名地址標準庫建設流程如圖2所示。

圖2 地名地址標準庫建設流程
地名地址標準庫共定義了涵蓋門樓址信息、地名信息、時態(tài)信息等內(nèi)容的34個字段。為了提高地址匹配和檢索的效率,在標準庫中將標準地址字段拆分成行政區(qū)劃、街路巷、門牌號、樓號、單元號、房間號等字段,并按照《數(shù)字城市地理空間信息公共平臺地名/地址分類、描述及編碼規(guī)則》對地址進行編碼。
地理編碼的實現(xiàn)是將需要匹配的地址字符串進行拆分和標準化處理,然后用處理后的關鍵地址字段的值與地址編碼地址庫中數(shù)據(jù)對應字段的屬性值進行匹配,如果匹配成功,就將該數(shù)據(jù)的坐標值賦給屬性表中的相應記錄,從而實現(xiàn)對該記錄的地址匹配[2]。
在地名地址匹配的過程中,經(jīng)常需要對兩類數(shù)據(jù)進行匹配:一種是只包含地理實體位置描述信息、而沒有空間坐標的地址數(shù)據(jù),如街道地址、郵政編碼、行政區(qū)劃等;另一種是已經(jīng)包含了相關地圖定位信息(空間坐標)的地理參考數(shù)據(jù)(如街道地圖數(shù)據(jù)、行政區(qū)劃地圖數(shù)據(jù)、郵政編碼地圖數(shù)據(jù)等),這些數(shù)據(jù)集合或數(shù)據(jù)庫在地址匹配過程中起空間參考的作用[3-4]。完成匹配后,給前者賦予地理空間坐標,是地理編碼實現(xiàn)中最核心的部分。
地名地址數(shù)據(jù)的來源是多方面的,包括太原市公安局、太原市民政局等多個部門,以及快遞公司及導航數(shù)據(jù)等。在更新機制上,建立太原市基礎地理數(shù)據(jù)中心與太原市民政局、太原市公安局等政府部門的協(xié)同管理,社會公眾參與維護的更新機制。數(shù)據(jù)中心管理人員通過地名地址數(shù)據(jù)庫管理系統(tǒng)對發(fā)生變更的地名地址數(shù)據(jù)進行增加、修改、刪除;民政部門各級管理人員通過“數(shù)字太原”平臺提供的空間數(shù)據(jù)或非空間數(shù)據(jù)進行上傳→地址匹配→地圖糾正,將更新信息推送至地名地址數(shù)據(jù)庫服務系統(tǒng),系統(tǒng)對重復數(shù)據(jù)進行甄別及標準化處理后,進行流程化更新;社會公眾可以通過“數(shù)字太原”平臺客戶端(互聯(lián)網(wǎng))提供的在線標繪或地址糾錯,對轄區(qū)內(nèi)發(fā)生變更的地名地址數(shù)據(jù)進行標繪或糾錯描述,并將更新信息發(fā)送給平臺管理員,管理員對變更信息進行甄別及標準化處理,即進行流程化更新。
建立地名地址數(shù)據(jù)常態(tài)化的多源協(xié)同收集與集中更新模式,有效地促進了地名地址日常管理的質(zhì)態(tài),保障了地名地址數(shù)據(jù)的持續(xù)鮮活。
(1)地名地址數(shù)據(jù)成果與平臺無縫連接
地名地址數(shù)據(jù)是“數(shù)字太原”地理空間框架數(shù)據(jù)的重要組成部分,也是“數(shù)字太原”地理信息公共服務平臺數(shù)據(jù)擴展的有力工具之一。太原地名地址建設成果與“數(shù)字太原”地理信息公共服務平臺的無縫集成,既完善了平臺的服務體系,也通過平臺擴大了地名地址成果的應用范圍,如圖3所示。借助平臺提供的服務共享與交換功能,各部門的業(yè)務系統(tǒng)可通過網(wǎng)絡獲取互聯(lián)網(wǎng)/局域網(wǎng)服務器端的數(shù)據(jù)服務,在其業(yè)務系統(tǒng)中實現(xiàn)以地圖為中心的資源查詢展示功能。

圖3 地名地址數(shù)據(jù)在平臺端展示效果圖
(2)地名地址與實體地理要素空間關聯(lián)
經(jīng)過省測繪地理信息局、公安局、民政局等多部門的提供及外業(yè)地名地址的采集與核查工作,共匯集了太原主城區(qū)400 km228萬余條地名地址數(shù)據(jù),地址詳細程度精確至建筑物。利用地名地址數(shù)據(jù)和建筑物等數(shù)據(jù)各自的空間位置特性,建立起它們相互間的空間關聯(lián)關系,就可以通過建筑物、行政區(qū)劃或道路等找到相關的地名地址信息,也可以根據(jù)地名地址信息找到其所在的建筑物、行政區(qū)劃或道路。圖4為地名地址數(shù)據(jù)與建筑物實體關聯(lián)效果示意圖。

圖4 地名地址與建筑物關聯(lián)示意圖
(3)部門業(yè)務數(shù)據(jù)“落地”及共享
地名地址標準庫建成后,通過地址匹配可實現(xiàn)衛(wèi)生局、教育局等部門業(yè)務數(shù)據(jù)的空間化,并對匹配結果進行質(zhì)檢入庫,形成地名地址數(shù)據(jù)資源;將這部分數(shù)據(jù)以服務的形式發(fā)布至公共服務平臺,在平臺上進行展示和應用;同時,不同部門之間也可共享并交換專題數(shù)據(jù)服務。圖5為部門業(yè)務數(shù)據(jù)匹配效果。

圖5 部門業(yè)務數(shù)據(jù)匹配效果
地名地址數(shù)據(jù)庫作為數(shù)字城市的基礎,在數(shù)字城市的地理空間框架建設中起著關鍵的作用,它既是一個技術問題,又是一個標準化問題。本文通過對太原市地名地址建設的實踐,總結了地名地址標準庫建設和地理編碼的主要技術流程、地名地址數(shù)據(jù)更新模式及地名地址建設的應用成果。在以后的工作中,還需進一步提高業(yè)務兼容性,加大地名地址數(shù)據(jù)應用的宣傳與推廣力度,逐步實現(xiàn)太原市各政府委辦局、企事業(yè)單位的業(yè)務專題數(shù)據(jù)整合,促進城市數(shù)字化、網(wǎng)絡化、智能化發(fā)展。
[1]唐潔.數(shù)字南昌地址編碼數(shù)據(jù)庫的設計與實現(xiàn)[D].撫州:東華理工大學,2012.
[2]馬照亭,李志剛,孫偉,等.一種基于地址分詞的自動地理編碼算法[J].測繪通報,2011(2):59-62.
[3]程昌秀,于濱.一種基于規(guī)則的模糊中文地址分詞匹配方法[J].地理與地理信息科學,2011,27(3):26-29.
[4]于濱.面向經(jīng)濟普查項目需求的模糊中文地址匹配方法研究[D].長沙:中南大學,2010.