□ 文/沈丹鳳
作者單位:上海電科智能系統股份有限公司
在信息技術高度發達的今天,海量的數據充斥了人們的生活,推動促進著社會的發展。這些數據宏觀上分為非空間數據與空間數據。非空間數據(Aspatial Data),意味著該信息與地球表面的位置關系不密切,或者說只是偶然關系密切[1]。空間數據(Spatial Data)是能夠表示位置信息的數據。隨著社會經濟的快速發展,大數據挖掘分析的范圍不僅僅局限于非空間數據,更趨向于挖掘統計空間數據。如何準確、高效、統一的將非空間數據轉換為空間數據是現階段業務領域與技術領域融合的關鍵。
地理位置坐標信息是對地理空間信息進行具體分析統計挖掘的基礎。人們日常生活中使用頻繁的都是非結構化的地址信息,而任何技術應用的衍生發展都需要以精確的地理位置坐標信息為依據。為了提供準確的地理坐標,必須對非結構化的地址信息進行解析關聯,尤其是在交通領域,通過對黑車、套牌、超速、逆行等車輛違法行為以及由此引發的道路交通事故等的精確定位,能服務決策支持,優化勤務調度,提高執法效率和執法水平,有效保障車輛和行人的出行安全,并能為后續分析挖掘打下良好的基礎。
多源語義地理信息坐標解析方法通過構建標準化高精度離線地址庫,對非結構化地址信息進行地理編碼,關聯交通對象及多維度轄區。非結構化地址(Unstructured address):指不規則、不完整的地址描述,例如:“川南奉公路金亭公路口往南100米左右”、“福山路458號對面”等;地理編碼(Geocoding):將地址或地名描述轉換為地球表面上相應位置;交通對象(Traffic object):預定義的交通描述常用對象,主要分三類:道路交叉口、路段、poi興趣點。
傳統的地理編碼解析是通過 HTTP/HTTPS 協議訪問遠程服務的接口,將結構化地址轉換為經緯度。主要是將地理位置信息提交至各在線地圖服務來獲取經緯度坐標點。其中結構化地址是指內含國家、省份、城市、區縣、城鎮、鄉村、街道、門牌號碼、屋邨、大廈等建筑物名稱,按照由大區域名稱到小區域名稱組合在一起的字符,且有效的地址是獨一無二的[2]。而實際中人們上報的地址信息往往無法做到標準的結構化,并帶有不定量錯別字。通常都是非常主觀化的描述。這使得傳統的地理編碼解析存在許多不足:
非結構化地址進行語義識別時錯誤率高;
各在線地圖POI地址庫坐標不全,使得地理編碼轉換準確率低;
各在線地圖坐標系不同,轉換后的經緯度坐標點不能統一使用;
必須在有互聯網的環境中才可以進行地理編碼轉換;
通過 HTTP/HTTPS 協議訪問遠程服務的接口速度慢;
各在線地圖遠程服務每日有訪問量限制,不適用于大批量地理編碼;
各在線地圖不提供關聯交通對象功能。
本文介紹了一種不依賴于互聯網遠程接口的地理編碼非結構化地址解析方法,對大批量非結構化地址進行解析關聯交通對象與多維度轄區。為黑點分析、轄區分析等業務處理奠定基礎。

▲圖1 系統總體架構圖
如圖1所示,系統總體分為四個模塊,分別為本地坐標地址庫建立、非結構化地址解析、關聯交通對象、關聯轄區。
本地坐標地址庫建立,即實時化標準化高精度離線地址庫。將不同坐標系的經緯度坐標通過各自的加密方式進行相應的解密轉換成統一的WGS84坐標。不定期更新離線地址坐標庫,同時,在每類坐標庫表中加入“創建時間”和“更新時間”字段,利用這兩個字段實現各個坐標的版本控制,保證坐標庫的完整性。
非結構化地址數據分類精確定位。將非結構化地址規范化匹配結構化描述,通過結構化描述對原始數據精確分類。按照各類別精確定位,通過gis地圖處理,實現地面地址解析精度精確到米級別。高速高架按每3km為一段精確定位到分方向的各段上。
交管應用關鍵對象關聯分析。通過gis地圖將交通對象分為poi興趣點、道路交叉口、路段三大類,以50m為精度范圍,優先級由高到低依次為poi興趣點、道路交叉口、路段進行關聯。
多維度區域定位分析。提供與業務系統相銜接的轄區關聯分析,將地理數據定位精確到各個管理轄區,為業務系統橫向分析奠定基礎。
本方案主要由本地坐標地址庫建立、非結構化地址解析、關聯交通對象、關聯轄區四大模塊組成。其中本地坐標地址庫建立為前期基礎模塊,非結構化地址解析、關聯交通對象、關聯轄區為后續分析模塊。
本地坐標庫建立模塊,通過各在線地圖的遠程服務接口收集各類POI位置坐標點,將不同的坐標系轉換成統一的WGS84坐標,錄入本地坐標庫中。

▲圖2 標準化高精度離線地址庫
圖2所示為本地高精度離線地址庫構建及標準化流程圖。本地坐標庫建立模塊包括坐標獲取單元、坐標轉換單元及坐標分類,其中,坐標獲取單元通過各在線地圖的HTTP/HTTPS 協議訪問遠程服務的接口進行信息收集,獲取各在線地圖各分類地圖資源;坐標轉換單元從坐標獲取單元收集到的信息中提取經緯度坐標,并將提取后的經緯度坐標通過各在線地圖的加密方式進行相應的解密轉換成WGS84坐標;坐標分類則按照優先級規則對坐標轉換單元獲取的WGS84統一坐標按照地理信息進行類型分類,將分類后的WGS84坐標分別錄入本地坐標庫中的地面道路交叉口表、高架與地面道路交叉口表、地鐵站出入口表、門牌號表、poi興趣點表中。
WGS84坐標錄入本地坐標庫的同時,在每類坐標庫表中加入兩個時間字段進行版本控制,分別為當前WGS84坐標創建時間以及最近更新時間,通過這兩個字段實現各個坐標的版本控制。
分析模塊包括非結構化地址解析、關聯交通對象、關聯轄區三部分。如圖3所示為分析模塊總體流程圖。

▲圖3 分析模塊流程圖
由于數據類型及處理流程的差異,輸入數據根據數據分類配置分為地面數據與高速高架兩大類。
如圖4所示為地面文字解析流程圖,非結構化地址按精準度逐一分解匹配本地坐標庫中WGS84坐標點,進行地址解析,獲得非結構化地址信息的經緯度坐標,包括地鐵站出入口類匹配單元、道路交叉口類匹配單元、門牌號匹配單元及興趣點類匹配單元。

▲圖4 地面文字解析流程圖
地鐵站出入口類匹配單元,用于判斷當前非結構化地址中是否包含軌交線路及地鐵站名關鍵字,若包含軌交線路及地鐵站名關鍵字,判斷是否包含出入口信息,包含出入口信息的情況下,匹配本地坐標庫中的WGS84坐標,若不包含出入口信息,將非結構化地址與本地坐標庫中首個出入口坐標點的WGS84坐標相匹配。若不包含軌交線路或地鐵站名關鍵字,則使能道路交叉口類匹配單元;道路交叉口類匹配單元,首先判斷非結構化地址中是否含有道路交叉口庫中的任意兩條或兩條以上路名,若包含,則優先匹配非結構化地址描述中先出現的兩個路名交叉口,若不包含,使能門牌號匹配單元;門牌號匹配單元,判斷非結構化地址中是否包含道路名,若包含,判斷是否包含該路名對應的任一門牌號或10以內相臨近門牌號,包含的情況下匹配本地坐標庫中的WGS84坐標,若不包含道路名或者包含道路名不包含該路名對應的任一門牌號及相近門牌號,則使能興趣點類匹配單元;興趣點類匹配單元,首先判斷是否包含該興趣點名稱,若包含,判斷該興趣點所在道路名稱是否與本地坐標庫中的一致,若一致,匹配本地坐標庫中的WGS84坐標,若不包含興趣點名稱或包含興趣點名稱但所在道路名稱與庫中不一致,不匹配。最后將匹配到的經緯度坐標進行修正,按“東”、“南”、“西”、“北”四個方向及描述距離修正,從而可以達到米級別精度。
高精度坐標解析完成之后按優先級別從高到低,以50米為閾值,通過計算兩點之間的距離,首先判斷距離該坐標50米范圍內是否有poi興趣點存在,若有,則關聯poi興趣點作為相關交通對象;若沒有,再判斷距離該坐標50米范圍內是否有道路交叉口存在,若包含,則關聯該道路交叉口作為交通管理對象;若不包含,通過計算點到直線的距離,判斷距離該坐標點50米范圍內是否有相關路段,若有,則關聯該路段對象,若沒有,則不關聯。通過以上交通對象關聯方法,實現將解析出的高精度經緯度坐標關聯三類交通對象。同時,根據坐標結果及轄區管理區域圖定位關聯中隊、大隊轄區。
高速高架數據按照描述方式分為帶“km”的描述,如“外環高速外側18km約200米”、帶里程樁號的描述,如“華夏高架路北側BWP0444約10米”、帶立交匝道的描述,如“龍東大道外環高速龍東立交西向南上匝道西約5米”、以及其他描述。其中前三類為帶關鍵字類描述,最后一類為其他描述。這幾類描述在高架類數據中都屬于規范化描述。根據描述方式的不同,帶關鍵字類描述通過“高架起、終點方向配置”、“里程樁號配置”、“POI庫配置”進行坐標解析,并將解析結果關聯交通對象。其他類描述通過“高架與地面交叉口庫配置”配置匹配從而定位坐標結果。同時,將帶“km”的描述、帶里程樁號的描述及其他文字描述關聯至高架上3km路段,帶立交匝道的描述關聯至POI興趣點交通對象。由分類規則得到的高速高架類數據可直接關聯至高速高架管轄區域。
在針對某地建立的大數據研判系統中,應用本方法用于對110警情上報地址,以及違法和事故上報地址進行解析并關聯定位達到了很好的效果。
在對110警情地址解析中,針對5年警情的3142553條警情地址數據,能解析出2799073條,并關聯到道路交叉口及路段上,解析率達90%。針對事故上報的971506條地址數據總量,解析量為878858條,解析率達90.5%。針對違法數據總量7091593條,解析量為5815309,解析率達到82%。
其中將警情地址解析到經緯度實現定位的效果如圖5所示:

▲圖5 經緯度定位實現效果圖
高效、精確的對非結構化語義地理信息進行解析是大數據時代對空間信息挖掘分析的基礎,空間數據與非空間數據的交叉分析能全方位定位交通態勢。本文針對多類語義地理信息提出了多源語義地理信息坐標解析方法,通過構建高精度、標準化離線地址坐標庫,對各類語義地理信息進行分類解析,從而將空間地理信息無縫轉化為非空間統計數據,為后續統計挖掘奠定了基礎。后續研究中應更加完善各類配置模塊,提高離線地址庫的準確度,提升高架高速類數據的解析精度,從而提高匹配度及關聯精度,更好地為關聯分析提供基礎。