閆夢宇,鐘志農,景 寧,吳 燁
(國防科技大學電子科學學院,湖南 長沙 410073)
海量新聞及社交媒體消息以不同形式涉及大量地理內容,這一特征使得更多非結構化文本可服務于傳統GIS。同時,多樣的信息檢索用戶對以地理位置為導向的檢索需求,將進一步推動地理信息檢索(GIR)領域發展,以探索具有空間位置感知的檢索系統。因此,文本信息與現實地理位置關聯是任何GIR系統的核心。解決這一問題的關鍵即文本地理編碼,又稱地理解析[1]、地理標記[2],是將文本映射到某一經緯度坐標等唯一編碼的過程。隨著各領域對地理信息需求的不斷增長,文本地理編碼作為溝通抽象文本數據與真實空間的橋梁,在各行各業的技術支撐作用日益突出,如新聞地圖、基于地域信息的推薦系統、輿情及自然災害監測分析等。
本文通過綜合國內外研究現狀,對文本地理編碼關鍵技術進行分類總結分析,提出該領域未來的研究工作和面臨的挑戰,為文本地理編碼進一步相關研究提供了新的思路。
文本地理編碼系統化研究源于1994年的GIPSY[3],利用地名辭典及一系列啟發式手段解析文本地名等地理信息。典型的地理信息檢索系統如Web-a-Where[4]、SPIRIT[5]、NewsStand[6]等主要針對新聞或網頁文本進行地理編碼。而社交媒體因時效性強、內容具體,在地理編碼問題上也逐漸引起學者們的關注。總體上,當前的文本地理編碼主要分為兩種方式:傳統的基于文本分析的地理編碼和基于語言模型的地理編碼。基本方法框架如圖1所示。
由于互聯網中大多文本不具有地理標記,需要通過對具體內容的解析判斷文本位置。因此,長期以來基于文本分析的地理編碼成為解決文本與地理信息關聯的主要手段。經典的基于文本分析的地理編碼系統Web-a-Where采用一種適用于大規模網頁文本的地理編碼方法,主要有3個步驟:地理實體識別、地理實體消歧和文本位置聚焦。系統基于地名辭典實現網頁中地名實體識別,結合語境及缺省信息對候選地理實體集合進行歧義消除,并利用地名詞頻與隸屬關系進一步實現網頁位置聚焦。此后的國內外學者大多由這3個步驟出發嘗試不同改進策略。
1.1.1 地理實體識別
目前,地理實體識別對象多為地名,根據不同應用需求,也有學者對其進行擴展,如文獻[7]將地理實體識別的內容擴展到對空間關系描述短語的解釋。地理實體識別主要包括3種方法:基于地名辭典的方法、基于規則的方法、基于機器學習的方法。
基于地名辭典的方法即采用字符串匹配思想識別地名。地名辭典通常包含地區名稱、行政區劃類別及空間坐標或空間范圍,常用地名辭典有:GeoName、OSM、GNS、GINS等。基于地名辭典的準確率在很大程度上取決于辭典完備性,因此很多學者結合相似性度量[8]或實體識別工具[9]等其他方法。目前,較為成熟的地理實體識別工具包括在線地理標記工具OpenCalais、CLAVIN,以及一些自然語言處理工具包OpenNLP、GATE、LingPipe、ICTCLAS等。
基于規則的方法選用特征包括統計信息、標點符號、指示詞等,通過對每個規則賦予權重,由權值判斷命名實體是否為地理實體。但地名往往具有模糊性、多樣性和動態性,而且規則制定依賴具體語言、領域和文本風格,難以覆蓋所有語言現象。因此,基于規則的方式仍存在較大技術難點及潛在漏洞,通常作為輔助手段配合其他技術方法使用。
基于機器學習的方法利用一組地名標注文本構造地名識別模型。其中,條件隨機場(CRF)因具有良好的識別率而被廣泛使用。文獻[10]基于CRF和篇章地名關系識別地名,準確率達96.31%;針對目前已有地名識別方法未充分考慮地名構成和使用習慣等特征的問題,文獻[11]分析了中文地名用字特征,并融入條件隨機場方法中,召回率、準確率分別達到92.69%、96.73%。
3種地理實體識別方法比較分析見表1。由于以上3種方法存在各自優缺點,許多學者開始探索結合不同方式的地理實體識別。主要通過:①方法技術整體融合,如文獻[12]顧及語言特征,提出了基于CRFs和規則模型的地名信息抽取方法。②模型、算法分步累加,如文獻[13]使用雙層CRF模型后,利用規則對識別結果進行過濾修剪和補召。

表1 3種地理實體識別方法比較分析
1.1.2 地理實體消歧
由于人類認知的逐層抽象和表達方式的多樣化,地理實體定位多存在歧義,主要有geo/non-geo歧義,即地名同時具有非地理含義,如人名;geo/geo歧義,即同一地名指稱多個地理實體。消歧方法可分為:基于數據驅動的方法,文獻[14]將多種特征融入地理實體識別訓練模型消除geo/non-geo歧義;基于外部資源和規則的方法,利用地名庫和文本語境線索規則消歧,與實際人們理解文本空間語義策略一致,是目前的主流方法,包括利用共現地名之間地理語義關聯消歧[15]、地圖和語義相結合[16]、基于認知顯著度[10]。其他消歧方法如文獻[17]提出的垂直geo/non-geo歧義消除方法,利用語境中非地理特征描述確定未出現在文本中的細粒度地名;文獻[18]針對微博文本內容存在的表達不規范問題,提出了模糊匹配方式,有效提高召回率。隨著網絡文本不斷涌現,互聯網作為海量語料庫,提供了表達豐富、覆蓋廣泛的背景知識,多源知識融合將為地理實體消歧提供新的方向。
1.1.3 文本位置聚焦
位置聚焦是利用語境知識對已確定地理實體的進一步去噪過程,優化信息提取質量以提高可用性。主要由衡量地理實體在文本中重要性的因素決定,包括詞頻、分布位置和共現實體之間隸屬關系,也可綜合多種因素:文獻[6]兼顧詞頻與分布位置;文獻[4]融合頻次和隸屬關系,解決了不同細粒度上的聚焦問題;文獻[17]利用樹結構表示地名行政隸屬關系,結合覆蓋率和信息熵量化各實體節點在文中的重要性。位置聚焦相比消歧更具主觀性,當前方法多從語義層面考慮,仍存在片面性和局限性,下一步可將語境知識與地圖數據相結合,集成多種判斷方法以提升位置聚焦的準確性和普適性。
自2009年Twitter提出簽到理念后,越來越多社交媒體為用戶提供了位置標記功能。及時、廣泛的社交媒體消息將人們所處空間與其相應認知相結合,成為空間位置特征的直接表達,為文本地理編碼提供了全新發展機遇。為減少對顯式地理信息的依賴,人們提出數據驅動方法,通過構建語言模型對文本進行地理編碼。其思想是將帶有位置標記的文本作為訓練集構建不同區域語言特征模型,結合文本分類技術實現未標記文本位置估計。
基于語言模型的經典方法如文獻[19],作者采用規則正方形格網進行區域劃分,根據地理標記將文本關聯至相應單元格;計算各格網中詞匯分布模型,從而將地理編碼轉化為文本相似度計算問題;通過尋找與待編碼文本最相似的分布確定文本所在網格,以單元格中心坐標表示文本位置。隨后很多學者從以下3個方面進行改進:①模型構建方面,包括區域語言特征表現形式:利用更復雜的主題模型作為文本及區域的表示[20];訓練數據去噪:利用詞語地理分布空間變化模型[21-22]或基于特征選擇[23-24]篩除訓練文本中非地理指示詞,構造更具地域特征的語言模型,提高模型穩健性和編碼準確性。②格網劃分方面,主要有多級網格相結合的判斷方法[25],通過捕獲不同粒度下語言特征模型,提高地理編碼可靠性;動態格網劃分[26-27],解決固定格網劃分造成的數據分布不均問題;基于多邊形劃分格網的方法[28]。③坐標選取方面,利用區域質心[29]、文本相似度加權平均的區域重心[23]等。
基于語言模型的地理編碼始終面臨著模型對訓練數據依賴性較強的問題。為提高模型可擴展性,利用多源數據、融合多方面語言表達特征構建語言模型[30]成為下一步發展趨勢。當前基于語言模型的地理編碼大多以詞袋模型作為假設,未顧及上下文語境,隨著信息檢索領域不斷出現新技術,各種語言模型的相繼提出[31]為解決這一問題提供了更多借鑒。
地名數據庫是研究基于文本分析地理編碼的基礎,而已有地名庫存在的細粒度地名匱乏、地名屬性等地理語義信息不完善等問題亟待解決。傳統地名庫更新維護依靠人工測繪完成,無法滿足時效性需求。隨著網絡資源日益豐富,利用互聯網采集數據為地名庫更新維護提供了新思路。一些學者嘗試基于網絡爬蟲[32]獲取網頁文本中新地名與地名空間位置信息;眾包與移動互聯結合,發動更多公眾參與到地理數據獲取上來,為地名庫提供更翔實的數據來源[33]。另外,網絡中開源地名數據質量參差不齊、規范不統一,因此多源地理數據一致性處理是利用互聯網技術更新維護地名數據庫的重點研究問題。
當前文本地理編碼多由單一數據源出發研究,方法之間難以相互擴展。大數據時代下,多源異構知識融合作為重要研究領域,為研究者從眾多分散、異構數據源和知識源中挖掘出更多隱含、有價值的信息和知識提供了有效手段。一些學者綜合分析用戶在不同社交媒體上發布的文本信息[27],有效提高了地理編碼的準確性。與此同時,隨著近些年多媒體信息技術多元化、網絡化、智能化的發展,已有很多學者在其他多媒體資源如視頻[34]、圖像[35]等地理編碼工作上取得了一定進展,為下一步文本地理編碼提供了更為豐富的可用資源及借鑒方法。
目前,人們對自然語言多樣性、模糊性缺乏深刻認識,地理語義利用尚不完善。盡管越來越多文本地理編碼采用機器學習完成,但大數據的復雜性使機器學習在學習效率等方面遇到新的挑戰。深度學習是當前大數據分析處理的研究熱點,已有學者將其應用到文本地理編碼中[36-37],取得了不錯的效果。但大量標注樣本不可避免,如何基于更少樣本訓練模型令人期待。而對于特定領域,文本采取簡單的規則或利用地名辭典就可以取得較為滿意的結果。因此,應將這些技術方法集成應用實現互補,提高文本地理編碼效率使之在實用性上取得更大突破。
文本地理編碼是地理信息檢索的重要環節,本文對當前文本地理編碼相關研究進行了全面分析總結,對存在問題提出了研究建議。在互聯網高度發達的今天,文本信息中的地理位置成為檢索關注點,文本地理編碼也由傳統的基于地名數據庫和規則的方法逐步擴展至機器學習甚至深度學習領域。根據語境的地理檢索驅動著地理信息檢索走向智能化、高效化和適用化,也為地理編碼研究工作提供了一個導向。文本中潛藏的地理位置信息的價值是巨大的,相信經過研究者不斷的實踐和探索,文本地理編碼技術會逐步趨于成熟和完善,從而更好地為我國社會和國民經濟建設服務。