臧英斐,王 斌,瞿曉雯
(1.重慶交通大學 土木建筑學院,重慶400074;2.重慶市地理信息中心,重慶 401121)
重慶市中文語義地址模型構建方法探討
臧英斐1,王 斌2,瞿曉雯2
(1.重慶交通大學 土木建筑學院,重慶400074;2.重慶市地理信息中心,重慶 401121)

現有重慶市地址模型存在地址不完整、歧義、口語化等弊端。以南岸為例,針對現有數據特點,圍繞地址數據庫建設及地理編碼的需求,歸納非結構化中文地址的特點,優化現有地址要素結構。提出了基于中文語義的地址模型構建方法,建立要素間拓撲關系,增加上下文約束力,引入支持向量機,有效避免中文自然語言表達歧義,提高地址解析的準確度和效率。
支持向量機;地址模型;中文語義;重慶市
地理編碼技術是指將已存在的中文地址轉化為地理坐標,利用空間分析等手段,完成對經濟社會信息的分析、管理、統計、可視化表示[1]。美國是地址模型研究技術最成熟的國家,目前采用的是“拓撲集成的地址編碼與參照系統(TIGER)”,該系統改進了DIME英文屬性存儲的方式,以關系數據庫和文件系統為基礎[2]。隨著空間地理信息資源的開發和地理信息系統技術的研究與應用,我國各級各地政府部門已經開始逐步規范地名、地址的管理和使用。目前國內普遍認為,基于層次關系的地址要素排列模型較適合中文地址[3]。另外也有人提出,地址要素之間是一種帶有固定包含指向的網狀結構關系[4]。北大方正數碼公司也曾推出過Map Searcher,通過人工歸納提取了近20種地址模型,但由于缺乏完備、準確的地址數據庫支撐,并未形成有效的服務能力。
重慶市現有地址模型采用了傳統的層次關系模型,由于人文環境和歷史沿革的特殊性,存在地址命名隨意無序、虛擬地址數量多、歧義現象較為嚴重等弊端,難以有效滿足日益增長的社會經濟數據空間定位需求。因此,研究基于語義的中文地址模型構建方法,具有重要的理論價值和現實意義。
1.1 重慶市地址數據現狀及特點
與歐美國家相比,中國現有的地名、地址體系異常復雜,缺乏規律性和統一性,導致我國在地址模型構建方面的研究受到諸多限制[5]。以南岸區為例,其地址數據存在以下特點:
1)地址類型難以區分。例如“沈家塆、東坡池”等,無法通過建立“棟、樓、村”等關鍵詞庫進行分類,從名字上難以判斷其地址類型。
2)標準地址的普及度不夠,習慣性、口語化地址十分普遍,如“重慶交通大學”雖然早已更名,但現在很多重慶人依舊使用“交院”。
3)街路巷、門牌號比較混亂,存在有路無號、有號無建筑物等問題,這使得我們無法借鑒TIGER模型建立主地址數據庫(MAF)與建筑物地理位置間一一對應的關系。
1.2 重慶市現有地址模型分析
重慶現有地址模型通過人工歸納的方法對地址要素進行分類,將地址分為市、區縣、街道(鄉、鎮)、社區(自然村)、限定物1、限定物2、門牌號(主號附號幢號單元號),其中限定物包括地片、街巷、組、社、集貿市場、名勝古跡等,通過人工歸納的方式確定其層次關系。導致地址種類繁多,各等級地址數據相差懸殊,層次關系復雜。又由于地址本身不規范導致標準地址數據庫中的地址并不“標準”。分析南岸區地址后得到重慶市現有地址模型的主要地址層次關系如表1所示。
通過對現有分類體系研究可以發現,其存在以下問題:
1)行政區劃信息不完整,致使地址歧義。該分類方法中,涉及街路巷的數據行政區劃等級只到區縣,如作為街路巷的“正街”,在葛蘭鎮、洪湖鎮、渡舟街道、鳳城街道等都存在,缺少鄉鎮級的行政區劃,顯然會造成歧義。
2)地片概念模糊,致使分詞歧義。在現有數據庫中對地片的界定為:除可確定為街路巷、自然村等的其他地址都為地片,如觀音橋、兩路口、李家沱等。這種界定很容易將地片與行政村混淆,如長生橋,從名字判斷是地片,但其實長生橋是渡舟街道下的一個社區。
3)層次關系歸納不規范,致使解析分歧。根據《地名地址數據規范》(2010),組社級別前面應該是社區村級別,表1顯然不符合要求。重慶市部分社區以道路命名,而在進行地址表達時并不會帶上“社區”二字,如“鳳嶺路1組”是指“鳳嶺路社區1組”,而真正的鳳嶺路在白石村。

表1 主要地址層次關系
2.1 中文語義地址模型的優勢
不同于國外地址的規則表達,中文地址沒有分隔符,缺少結構形態,是由一組不特定類地址單元組成的,并在描述過程中多有冗余或缺省現象,很難建立結構化的地址模型。然而,從自然語言處理的角度考慮,根據現有地址特點建立規則,在對地址進行分詞、標注、句法分析和語義解析等環節后,中文地址亦可以看作一串語義塊的特定排列。
傳統的地址模型如關系模型、層次模型等都是面向記錄的模型,需要遵循嚴格的邏輯結構,如層次模型中分詞結構必須與已有的層次關系一一對應。但事實上,中文地址的多樣化及復雜性致使其數據模型需突破現有的結構限制。如果根據現有地址表達習慣及特點,設計一種新的數據模型,能更準確地表達地址數據間的關系。
語義地址模型是語義與普通數據模型的有機結合,能幫助計算機在不同的抽象層次上更好地理解地址結構,從而提高建模能力。因此根據中文地址的特點建立中文語義地址模型更有利于中文地址的抽象表達。
2.2 重慶市中文地址要素標注
語義地址模型應由語義塊及句式共同構成,語義塊通過地址分割獲得,句式即語義塊構成地址的規則,通過句法分析及語義解析獲得,其中句法分析可幫助進行語義塊標注,語義解析可推理各語義塊間的空間關系與銜接順序。
若忽略句法模式,則語義地址模型由一系列語義塊組成,即地址要素,故重慶市中文語義地址模型的扁平化表達為:
地址= [地址元素](1~N)式中,N為該地址可以達到的粒度。
單獨的地址要素是沒有意義的,經過句法分析后得到的具有類型標識的地址要素才可用于語義解析。《地名地址數據規范》(2010)[6]規定地址要素應包括行政區劃、地址、子地址[7],充分考慮了地址的通用性及擴展性。在此基礎上,結合重慶市地址的特點,可將地址要素分為以下幾類,如表2。

表2 地址要素分類
經過對重慶市地址數據的分析,同名街路巷問題并不會出現在同一行政村內,所以行政區劃等級由原來的4層擴展到5層。詳細的行政區劃有利于根據區劃界線消除語義上的歧義;將行政村與自然村分開,自然村與自然地名(原地片概念)都歸類為限定物1,可以有效避免將行政區劃與地片混淆的問題;基本地址為地址的主要構成部分,從地址要素等級的角度考慮,自然村與自然地名、街路巷的輻射范圍相近,故可放在該級別。重慶市地址大多為“村社+組社”結構,而非街路巷,因此設置子地址部分,將組社、住宅小區及與其具有相似輻射范圍的集貿市場、名勝古跡等判定為子地址。
2.3 重慶市中文地址句法分析
標注后的地址要素通過一定的排列順序構成了一條地址,但此時的排列規則是隨意的,并不受句法約束。句法分析即根據已有地址的特點規定地址要素的排列順序,對于較規范的地址,一般采用詞尾關鍵詞統計法來進行識別,即對分析地址的末尾字符進行統計以確定各類型地址要素的關鍵詞,人工歸納相應的分詞規則,如街路巷中的“大道、街、路、巷”等。但重慶市很多不規則地址表達較為隨意,不含通名,缺乏可統計的關鍵詞,如“拗口坡、曾家巖”等,因此人工歸納在這類地址處理中存在一定局限性。基于支持向量機的處理方式可以將線性不可分的地址映射到高維空間,借助地址要素相對位置的約束,簡化其處理過程。
2.4 重慶市中文地址語義解析
理論上,地址所描述的位置應與某個地理實體重疊,而地址要素與地理實體之間存在著包含、隸屬等復雜的嵌套關系,所以普通的層次分析并不能滿足中文地址表達的需求。通過對重慶市地址數據的分析可得,地址要素間存在一定的拓撲關系,大致可分為5種:①區域間的包含關系,如重慶市包含南岸區;②區域間的相鄰關系,如花園路街道與南坪鎮相鄰;③道路間的鄰接關系,如江南大道與學府大道鄰接;④方位關系,點位之間的相對方向;⑤距離關系,點位之間的相對距離關系,其中后兩種涉及較少。拓撲關系與地址要素類別有密切聯系,根據表2的地址要素分類可得到如圖1所示的地址要素拓撲關系。

圖1 地址要素空間關系
支持向量機(SVM)是數據挖掘中的一項新技術,是借助于最優化方法來解決機器學習問題的新工具[8]。給定訓練集:
T={(x1,y1),(x2,y2),…,(xl,yl) }∈(X×Y)l
式中,xi∈X=Rn;X稱為輸入空間,輸入空間中的每一個點xi由n個屬性特征組成,yi∈Y={-1,1},i=1,2,…,l。
在地址模型中,輸入空間X為地址串,xi即地址中第i個字。則有:

SVM是一種典型的兩類分類器,即“是”或“不是”,通過f(xi)地址的句法分析問題就可以轉化為對一條自然語言描述的中文地址的每一項進行標注的分類問題。將其映射到高維空間的訓練集不能被線性劃分時,選擇合適的核函數及其參數,可以加強特征空間中兩類樣本集“線性可分”的程度,提高分類精度。
特征模板長度是指當前待判斷字符及其左右可能相關的2個字符所組成的窗體長度,用于結合上下文判斷該字符屬性。經分析,重慶市中文地址中大部分地址要素的最大長度不大于5個字,故假設特征模板長度C為5,在地址模型中,如圖2所示。

圖2 特征模板窗口
傳統的分詞并不考慮語義解析,即忽略了地址要素間的空間關系對分詞的影響,但事實上地址要素的相對位置可以輔助判斷該地址要素的類別。因此一條地址應包括特征模板窗口、上下文約束規則、類別標記3個部分。以圖2地址為例,其模型構建過程如圖3所示。

圖3 中文地址模型建立過程舉例
SVM是以數字為特征的分類方法,因此可以將所有地址作為語料庫進行編號,以每一個字符在地址要素中出現的頻率為權重,通過對語料庫的訓練,可提高對模型建立中不可預期情況的判斷能力。一般而言,不同的核函數對SVM性能影響并不大,而核函數的參數及特征模板C才是影響SVM性能的關鍵因素[9]。故本文僅考慮核函數參數及特征模板對地址模型構建效果的影響。
本文采用僅有一個參數g的RBF核函數,默認值為1/k,其中k為類別數,由表2得k=15,不包括門址類信息。將南岸區現有地址作為訓練語料,從中分別抽取500、1 000、2 000、4 000條地址,并依次設定不同的g值來觀察,結果如表3所示。

表3 不同核函數參數下的地址解析準確度/%
由此可得,g值的選取對結果影響很大,當g=0.08時準確度最高,即采用RBF核函數作為SVM的核函數時,當g=0.08時,地址解析效果最佳。
以南岸區原始地址為例,采用中文語義模型和傳統人工歸納層級模型分別對500、1 000、2 000、4 000條地址數據進行解析,兩者解析的準確度及效率如圖4、圖5所示。

圖4 地址解析準確度對比

圖5 不同模型建立地址庫所需時間對比
本文在分析重慶市地址結構及其規律的基礎上,結合行業標準,總結出適合的地址要素分類方式,引入地址要素間空間拓撲關系,增加地址上下文結構約束力。在地址模型構建中,分析人工歸納層級模型的局限性,發現非結構化中文地址解析的關鍵在于解決歧義問題,提出利用SVM將復雜層級模型映射到高維空間構造判別函數,以提高地址解析準確度和解析效率的技術方法,并通過實驗得到驗證。后續還可以重點研究模型動態構建方法,進一步提高對標準地址數據建設及地址匹配的應用支撐能力。
[1] 蘭小機,彭濤,王飛. 贛州市地理編碼系統及其關鍵技術[J].測繪科學,2009(2):231-232
[2] Dueker K J. Ubran Geocoding[J]. Annals of the Association of American Gepgraphers, 1974,64(2): 318-325
[3] 李軍,李琦,毛東軍,等.北京市地理編碼數據庫的研究[J].計算機工程與應用,2004,40(2):1-3
[4] 黃頌. 中文地址編碼技術的研究[D].北京:北京大學,2005
[5] 于濱. 面向全國經濟普查需求的專家系統地理編碼方法[D].長沙:中南大學,2010
[6] GB/T 18521-2001. 地名分類與類別代碼編制規則 [S].
[7] 肖振強. 城市地址信息空間化的原理及方法研究[D].青島:山東科技大學,2011
[8] 王靜. SVM在參數選擇上的優化[D]. 蘭州:蘭州理工大學,2008
[9] 周奇. 對支持向量機幾種常用核函數和參數選擇的比較研究[J].福建電腦,2009(6):42-43
[10] 于濱. 面向經濟普查項目需求的模糊中文地址匹配方法研究[D].長沙:中南大學,2010
[11] 柳賀. 省級地理信息公共服務平臺框架建設與應用研究[D].贛州:江西理工大學,2012
[12] 楊麗. “數字湖北”中文地理編碼數據庫建設與服務共享[J].地理空間信息,2013(增刊):37-39
[13] 王斌,程雪洋,林娜,等. 廣域范圍建筑物信息普查關鍵技術探討[J]. 地理空間信息,2014,12(2):32-34
P208
B
1672-4623(2015)03-0122-04
10.3969/j.issn.1672-4623.2015.03.043
臧英斐,碩士,研究方向為地理信息技術應用。
2015-01-28。
項目來源:測繪遙感信息工程國家重點實驗室開放基金資助項目(13R03);重慶市教委科技資助項目(KJ1400325);重慶交通大學博士基金資助項目(2012kjc2-011)。