張瑞潔 田原,? 劉思葉 王雯夫
?
即時通信文本中地理信息提取——以微信為例
張瑞潔1,2田原1,2,?劉思葉1,2王雯夫1,2
1. 北京大學遙感與地理信息系統研究所, 北京100871; 2. 空間信息集成與3S工程應用北京市重點實驗室, 北京 100871; ? 通信作者, E-mail: tianyuanpku@pku.edu.cn
提出一套面向即時通信文本中地理信息提取的技術方案, 綜合使用文本分詞、空間分析匹配與圖文一體服務等技術, 實現即時文本中地理信息的分析獲取和同步地圖服務, 可以在即時通信交流中提供同步的空間信息分析和主動的網絡地圖服務。以微信為例, 對上述技術方案進行實例驗證。驗證結果表明, 所提的技術方案正確、合理、可行。研究成果拓寬了 WebGIS/LBS 的應用領域, 增強了即時通信軟件的服務能力, 可為相關研究和實踐提供有力支持。
即時通信軟件; WebGIS/LBS; 中文文本分詞; 空間信息服務模式匹配; 圖文一體服務
本世紀以來, 基于移動設備的應用迅速普及, 其中即時通信應用獲得迅猛發展[1]。即時通信應用指通過互聯網即時發送和接收消息的應用軟件, 為人們日常交流提供方便快捷的工具, 如 QQ、微信和飛信等。即時通信中產生大量與空間相關的信息, 例如文本中出現的地名信息以及空間關系信息。在信息交互過程中, 用戶的空間行為規劃對這些空間信息存在強烈的依賴, 例如選擇出行路線、方式及時間等[2]。目前, 運行在移動端的WebGIS/ LBS軟件已經普及, 可以為用戶提供高精度的、在線的空間行為規劃服務[3]。但是, 當前主流的基于移動設備的即時通信軟件與 WebGIS/LBS 軟件相互獨立, 即時通信軟件無法直接理解即時通信文本中的地理信息, 需要用戶進行理解分析后, 再跳轉到移動WebGIS/LBS應用, 將空間信息和服務需求重新輸入, 才能獲得相符的空間信息服務。人工跳轉和信息轉錄過程非常繁瑣, 當存在復雜地名和空間分析需求時, 容易出現操作和錄入失誤, 大大降低了即時通信用戶的交流效率[4-5]。如果能夠直接提取即時通信文本中的地理信息, 并將同時運行在移動端的即時通信軟件與WebGIS/LBS服務相結合, 使用戶在進行常規信息交流的同時獲得同步的空間信息服務, 可以大大提升交流信息的直觀程度以及用戶的交流感受和決策效率。
基于此, 本文針對即時通信文本中地理信息提取技術展開研究, 以期提供一套切實可行的技術方案, 使用戶在即時通信中享受到同步的空間信息顯示及查詢分析服務。為驗證相關技術方案的合理性、可行性和服務效率, 選取微信和百度地圖作為即時通信和WebGIS/LBS服務平臺, 基于實際的即時通信文本樣本開展實例驗證工作。
針對上述現存問題和應用需求, 本文提出一套即時通信文本中地理信息提取方案, 以實現即時通信服務與地理服務集成的目標, 為即時通信用戶提供即時的、一體化的空間信息服務。
即時通信文本包含大量的地理信息及服務需求信息, 如地名信息、POI (Point of Interest, 興趣點)、空間關系查詢和路徑分析需求信息等。以“晚上去西直門吃飯”為例, 用戶接收到該信息后會對其進行具體解析: 其中包含的地名信息(即目的地)是“西直門”; 出發地是用戶的當前位置, 可由移動設備直接獲得; “去”表達了路徑分析需求, 即查找一條從當前位置到“西直門”的路徑; 時間信息是“晚上”, 需根據晚間的路況信息對路徑進行合理的規劃; “吃飯”是專題信息檢索條件, 需要對西直門周邊的餐飲信息進行檢索, 以專題地圖的形式提供合適的餐廳信息。
本文提出的即時通信文本中地理信息提取方案是對上述自然過程的數字化模擬, 其總體架構如圖1所示。在該方案中, 首先對即時通信文本進行語法結構分析, 完整的即時通信文本被分割成基本的語義單元, 以提取其中空間和專題信息關鍵詞, 包括時間、地點和查詢分析關鍵字等; 然后基于語法分析得到的空間分析關鍵詞, 對信息中的空間分析需求進行模式分析和匹配, 確定符合即時通信語義的地理服務信息方案; 最后在電子地圖軟件中調用并實現對應的地理信息服務, 并將分析結果即時或同步地展示給用戶。
本文提出的即時通信文本地理信息提取技術方案涉及的關鍵技術如下: 針對信息文本語法結構分解需求, 采用中文文本分詞技術, 將整個通信文本切割成基本的文本語義單元; 針對空間分析模式匹配需求, 基于既有的空間分析模式結果, 對各類空間分析的語法模式進行研究, 然后結合即時通信中常用查詢分析關鍵字, 實現通信文本中空間分析模式的匹配; 針對圖文一體服務需求, 選用主流的電子地圖軟件, 將得到的空間查詢分析模式和關鍵字實現為具體的功能調用, 并以圖文一體的方式將結果呈現給即時通信用戶。
2.1 中文文本分詞
中文文本分詞指將一個漢字序列切分成單獨的詞, 其算法主要包括基于規則的分詞方法、基于統計的分詞方法和基于理解的分詞方法[6]。基于規則的分詞方法中, 最常見的是最長詞優先匹配法, Guo[7]對該算法的工作原理給予嚴格的形式解釋, 劉源等[8]將其大規模應用到漢語自動分詞系統中。基于統計的分詞方法主要包括基于期望最大值(expectation maximization)的方法和變長分詞方法, 李家福等[9]提出一種根據詞語出現概率和基于極大似然原則構建的漢語自動分詞的零階馬爾可夫模型。基于理解的分詞算法是在分詞的同時進行句法和語義分析, 并利用語義和句法信息處理歧義現象, 尹鋒[10]和何嘉等[11]分別以BP算法為基礎提出改進算法。
提取即時通信文本中的地理信息時, 中文文本分詞能夠對通信文本進行準確的語義分割, 得到詞組集合(即相互獨立的關鍵詞信息), 其中包括地理位置和空間分析需求信息以及在空間分析中可能用到的其他輔助信息, 是后續分析的前提和基礎。
目前, 既有的很多中文分詞系統都能滿足即時通信文本中文分詞需求。我們認為ICTCIAS分詞系統具有較高的效率和準確率, 同時由于其開源特性, 便于集成開發。本文選用ICTCIAS作為中文文本分詞的基礎算法, 并結合即時通信文本的具體特點對其進行調整和完善。
2.2 查詢分析模式識別
查詢分析模式識別指對中文文本分詞輸出的詞組單元進行模式分析, 提取其中的空間地物信息和空間查詢分析需求, 確定其對應的 GIS 分析方法和對應的分析要素。相關學者對于 GIS 空間分析的類別和內容開展了大量研究[12-16]。Unwin[15]將空間分析局限于點、線、面、曲面地圖要素的參數描述和圖形表述。郭仁忠[16]認為空間分析是基于地理對象的位置和形態特征的空間數據分析技術從空間信息內容出發, 提出將空間分析分為5類: 空間位置、空間分布、空間形態、空間距離, 以及空間相關(表 1), 此分類方法詳細完整, 與 GIS 系統結合緊密。本文的查詢分析模式識別基于此分類方法展開。

表1 文本語義空間分析模式識別(據郭仁忠[16]擴展)
根據郭仁忠[16]提出的空間分析類別、含義和特點, 本文依次分析并設定各類空間分析的文本語法、形式化描述以及對應的GIS操作, 表1給出分析結果和對應的示例。在技術實現中, 需要基于中文文本分詞輸出的關鍵詞信息, 對關鍵詞的詞性及語法進行分類。將關鍵詞中的空間地物信息、查詢分析關鍵詞及其組合模式依次與表 1 中形式化描述進行匹配, 將得到的最佳匹配方案作為此文本對應的空間查詢模式。將文本中的地物、時間等信息作為查詢的要素信息, 得到對應的 GIS 操作。由于即時通信文本常常是語法不規范的語言斷片, 在分析中需要給出必要的補充。例如“晚飯時候到北京大學東門集合吧”顯然對應一個路徑查詢, 但實際上并未給出起點, 需要利用即時通信軟件的自定位功能予以補充, 或者要求用戶交互確認。
2.3 圖文一體服務
圖文一體服務指將空間查詢分析得到的基于地圖的空間查詢分析結果, 在即時通信軟件中與通信文本進行準實時的同步展示。圖文一體的服務方式, 可以為用戶呈現與當前交流語義高度相關、豐富且直觀的地圖服務, 大大提升用戶交流體驗。
目前, 大量網絡地圖服務提供了 API 函數接口, 用戶可以在線提交查詢分析需求, 并得到對應的結果[17-18], 為實現即時通信中的圖文一體服務提供了直接而有力的支持。本文基于主流網絡地圖服務系統, 將查詢分析模式識別中得到的GIS操作直接轉化為網絡地圖服務對應的API函數, 并將返回的結果以圖片的方式與即時通信文本進行同步顯示。在網絡地圖服務系統的支持下, 用戶也可以通過點擊圖片進入地圖系統, 在既有分析結果的基礎上執行更復雜或深入的查詢分析操作。
為了驗證本文提出的即時通信文本地理信息提取技術方案的正確性、可行性以及運行效率, 我們設計了相應算法, 采用 C#和 JavaScript, 在 Visual Studio 2012 平臺上開發了驗證系統, 其中集成了ICTCIAS 分詞系統組件以及百度地圖開發組件, 實現對 ICTCIAS 分詞系統以及百度地圖服務的調用。驗證系統的總體界面采用典型的即時通信軟件風格, 以便模擬和驗證在即時通信環境下提供圖文一體服務的效果。
首先進行中文分詞, 輸出即時通信文本的分詞信息, 提取其中出現的關鍵詞, 包括動詞、空間地物信息、時間和其他限定詞等; 利用查詢分析模式識別對分詞信息進行正確的解析, 形成地圖服務調用方案; 將地圖服務調用方案提交百度地圖服務進行查詢分析, 得到圖片格式的返回結果, 在系統界面中實現圖文同步服務。
實驗中采用帶有地理信息的微信文本216例, 均來自北京大學地球與空間科學學院GIS班30位同學的實際微信數據。研究發現, 實例數據完全涵蓋了表1給出的5類空間分析模式。其中, 空間位置關系 186 例, 主要表現為單獨的地理實體或由“的”連接的兩個地理實體; 空間分布關系 23 例, 多包含“沿著、附近”等關鍵詞; 空間形態關系 5 例, 文本中存在“多大、多長”等關鍵詞; 空間距離關系17例, 文本中存在表示距離的關鍵詞, 如“多遠”等; 空間方位、拓撲、相似和相關關系 31 例, 文本中存在表示“以東、南側”及“里/外/旁邊”等關鍵詞。
實驗中根據微信群的具體特點, 對部分群落方言進行翻譯, 比如“搓飯”等價于“吃飯”, 單獨出現的“學校”等價于“北京大學”, 保證了相關分析和模式匹配的正確進行。
經本文所有作者人工驗證, 所有實例數據均得到正確處理, 相關的分詞結果、查詢分析模式匹配和網絡地圖函數調用方案均與其語義相匹配。在北京大學校園網環境下, 整體運行時間均在秒級, 可以實現與即時文本通信的準實時同步。
我們選取部分典型用例來說明實例驗證效果, 如圖2所示。可以明顯看出, 在即時通信中加入地理信息同步服務, 將通信信息中文字的地理信息和分析需求以圖片形式同步顯示, 大大提升了交流用戶的直觀體驗, 方便了交流、查詢和決策。
圖 2(a)中, 通信文本為“北京大學的食堂好吃嘛?”。該例屬于空間位置分析, 關鍵詞“北京大學”和“食堂”都為地理名詞, 根據地名庫匹配為地圖中地理實體的位置, 返回的圖片顯示北京大學校園內食堂的具體位置。
圖 2(b)中, 通信文本為“想回去了…北大附近的車站有哪些呢”。該例屬于空間分布分析, 包含的關鍵詞是“北大”、“附近”和“車站”, 其中“北大”使用別名信息解析為“北京大學”, 車站圖層與北京大學緩沖區圖層進行疊加, 得到北京大學附近的車站信息, 以圖片形式返回用戶查看。
圖 2(c)中, 通信文本為“頤和園好大呀^_^”, 該例屬于空間形態分析, 句中的關鍵詞是“頤和園”, 地圖中高亮顯示“頤和園”的邊界范圍, 并返回其面積信息。
圖 2(d)中, 通信文本為“離北大最近的華聯商廈在北京大學東門 500 m 遠處…”, 該例屬于空間距離類別, 關鍵詞是“離”、“北大”、“華聯商廈”、“北京大學東門”和“500 m”, 地圖查詢標注了距離北京大學東門約500 m遠的華聯商廈。
圖 2(e)中, 通信文本為“想找一下北大里的教學樓…”。該例屬于空間拓撲分析, 關鍵詞是“北大”、“里”和“教學樓”, 地圖查詢返回北大內部的教學樓信息。
圖 2(f)中, 通信文本為“okay。那就去頤和園好啦”。該例屬于空間距離分析, 關鍵詞是“去”和“頤和園”, 空間分析返回從當前位置去頤和園的路徑和乘車信息。
上述實例研究說明, 本文提出的面向即時通信文本的地理信息提取技術方案可以順利地予以編程實現, 說明該方案具有良好的可行性。針對實例數據中的各類空間分析需求, 輸出結果全部通過人工驗證, 證明了該技術方案的正確性。在校園網環境下, 驗證系統秒級的反應速度符合即時通信軟件的界面交互需求, 運行效率符合實際需求。
針對當前移動終端即時通信與地圖服務軟件相互隔絕的問題, 本文提出一套綜合使用文本分詞、空間分析模式識別與圖文一體服務等技術的即時通信文本地理信息提取技術方案, 以實現即時通信與地圖服務軟件的集成應用, 為移動用戶提供更為智能、直觀和便捷的應用服務。以微信和百度地圖為例展開實例驗證, 實驗結果證明該技術方案是合理、正確和可行的。本文成果進一步拓寬 GIS 應用領域, 實現 WebGIS/LBS 地圖服務增值, 也增強了即時通信軟件的空間服務能力。目前, 基于移動設備的語音識別技術正在逐漸得到重視, 如果將本文提出的技術方案與語音通信結合, 可以為移動用戶提供更好的應用體驗, 這也是我們下一步的研究方向。
[1]朱和平. 即時通信研究綜述. 現代計算機: 專業版, 2006(12): 55–58
[2]李德仁. 論地球空間信息技術與通信技術的集成. 武漢大學學報: 信息科學版, 2001, 26(1): 1–7
[3]Fritz J M. Provides intelligence in web-based tutors // North American Web Developers Conference. Frederiction, 1998: 10
[4]霍艷艷, 沈靖瑞. 即時通信軟件的發展及現狀研究. 河南科技, 2014(1): 8
[5]毛昕影. 基于GIS的智能手機旅游信息服務系統的研究與實現[D]. 成都: 電子科技大學, 2012
[6]劉涌泉. 再讀詞的問題. 中文信息學報, 1988, 2(2): 47–50
[7]Guo J. Critical tokenization and its properties. Computational Linguistics, 1997, 23(4): 569–596
[8]劉源, 梁南元. 漢語處理的基礎工程: 現代漢語詞頻統計. 中文信息學報, 1986, 1(1): 17–25
[9]李家福, 張亞非. 基于EM算法的漢語自動分詞方法. 情報學報, 2002, 21(3): 269–272
[10]尹鋒. 基于神經網絡的漢語自動分詞系統的設計與分析. 情報學報, 1998, 17(1): 41–50
[11]何嘉, 陳琳. 基于神經網絡漢語分詞模型的優化. 成都信息工程學院學報, 2006, 21(6): 812–815
[12]Mark M D, Comas D, Egenhofer M J, et al.Evaluating and refining computational models of spatial relations through cross-linguistic human-subjects testing // Frank A U, Kuhn W. Spatial information theory: a theoretical basis for GIS. Berlin: Springer-Verlag, 1995: 553–568
[13]杜世宏, 王橋, 李治江. GIS中自然語言空間關系定義. 武漢大學學報: 信息科學版, 2005, 30(6): 533–538
[14]朱少楠, 張雪英, 張春菊. 地理空間關系描述的句法模式識別 // Proceedings of 2010 International Conference on Broadcast Technology and Multimedia Communication. Hong Kong, 2010: 355–357
[15]Unwin D J. Introductory spatial analysis. London: Methuen, 1981
[16]郭仁忠. 空間分析. 武漢: 武漢測繪科技大學出版社, 1997
[17]王丹. 基于 Web 2.0 的信息服務研究[D]. 武漢: 華中師范大學, 2007
[18]李艷, 高揚. 基于地圖API的Web地圖服務及應用研究. 地理信息世界, 2010, 8(2): 54–57
Geographical Information Extraction from Instant Communication Messages: A Case Study of WeChat
ZHANG Ruijie1,2, TIAN Yuan1,2,?, LIU Siye1,2, WANG Wenfu1,2
1. Institute of Remote Sensing and Geographical Information System, Peking University, Beijing 100871; 2. Beijing Key Laboratory of Spatial Information Integration and Its Applications, Beijing 100871; ? Corresponding author, E-mail: tianyuanpku@pku.edu.cn
In order to provide synchronous map service based on message semantics in instant communication software, this paper proposes a technical solution, basically a comprehensive combination of Chinese text segmentation, pattern recognition, and image-text integrated service. A case study based on actual WeChat communication messages is carried out to verify the technical solution, which shows that the proposed solution is both feasible and practically effective. The synchronous message semantics-based image-text integrated service provided by the case study improves the user experience very well.
instant communication message; WebGIS/LBS; Chinese text segmentation; spatial analysis pattern recognition; image-text integrated service
10.13209/j.0479-8023.2015.136
P208
國家自然科學基金(41271385)資助
2015-05-15;
2015-06-30;
網絡出版日期: 2016-04-07