■邊正寧,陳 偉,李永鵬 ■江西省地質礦產勘查開發局贛西地質調查大隊,江西 南昌 330201
地圖上的文字和數字統稱為地圖注記(Map Label)[1-2]。地圖注記作為地圖不可或缺的內容之一,具備豐富地圖信息以及增強地圖認知的功能。隨著互聯網技術的不斷發展,刺激用戶對地圖產生新的要求,用戶需求不在局限于單一、傳統的地圖注記,于是具有專有性和寬泛性的地圖標注應運而生[3-4]。地圖標注(Map Annotation)是指以地理要素的信息內容對地物進行注記。地圖標注以地圖為框架,通過用戶將地理要素信息標注到電子地圖中。因此,地圖標注可以視為深化的地圖注記。快速發展的地圖標注逐漸取代地圖注記成為關注焦點。例如百度地圖和大眾點評網等電商鼓勵用戶進行地圖標注,并逐步產生了產品描述性質的地圖標注。
地圖標注在滿足用戶需求和促進地圖服務發展的同時,也給地圖標注帶來了更深層次的思考。由于地圖標注的用戶廣泛參與性,眾多地圖標注存在一定不安全因素,給地圖服務帶來了新的危機。例如危害地區安全信息、違反社會道德等異常地圖標注危害著地圖安全。然而目前人們對異常地圖標注的識別研究較少,因此從促進地圖服務健康發展而言,如何自動識別提取異常地圖標注信息成為亟需解決的問題。
首先建立異常詞詞庫,包含社會事件和器材廣告類等異常地圖標注內容,然后提取地圖標注內容,即分詞處理形成數據集,然后利用AC-BM 算法構建模式樹、計算字符跳躍函數、匹配數據集,對地圖標注的異常信息進行識別與提取,并對識別結果進行分析和討論。工作流程如圖2.1 所示:

圖2.1 地圖標注異常識別流程圖
(1)異常詞詞庫構建:詞庫是把中文信息以詞為基本單位存儲在計算機中,為信息處理以及詞加工提供規范,是詞表的計算機化顯示[5]。結合網絡規范以及地理特征,建立地圖標注異常詞詞庫,異常詞詞庫涉及以下11 個內容:社會歷史事件、彩民生活、器材廣告、醫藥廣告、女性詞匯、色情服務、隱私詞匯、反動事件、軍事安全、政府政治、其它。
(2)地圖標注內容提取:對地圖標注內容進行分詞處理是異常地圖標注識別的重要前提,異常地圖標注識別的結果取決于分詞處理的準確性。由于本次實驗地圖標注內容主要為中文,中文多為雙詞語表達,為此選用雙哈希結構的最大逆向分詞法對地圖標注分詞。
(3)ACBM 多模式算法匹配:模式匹配算法是異常地圖標識的高效識別的關鍵技術。在目前使用的算法中,AC 多模式算法的時間復雜度O(n)最小,但是產生多余比較,甚至導致數據膨脹;就效率而言,跳躍思想的BM 單模式匹配算法效率最高[6-7]。為此結合兩者優缺點,采用基于BM 跳躍思想的AC-BM 多模式匹配算法。主要過程如下:①模式樹構建(AC 自動機);②計算模型樹的字符跳轉規則移位函數(BM跳躍思想);③使用AC 自動機和跳轉規則掃描待匹配字符集。
實驗地理注記對象為從美食評論網與百度搜集來的云南省昆明市一環內657 個地圖標注,文本漢字個數為[15,52],平均長度為34。
2.2.1 總體標注異常識別效果
按照上述工作流程對實驗對象進行處理,識別117 個異常地圖標注,如下圖所示。圖中,餅圖面積代表地圖標注內容異常信息的含量,餅圖面積越大,該地圖標注包含的異常詞越多,表示該地圖標注存在異常性,需要進一步處理;反之亦然。對于多種顏色餅圖,其代表該標注存在多種類別的異常信息。

2.2 異常詞識別結果Fig 2.2 Abnormal word detection result
2.2.2 單標注異常發現與表達
以“3 月1 日晚9 點的昆明火車站發生暴動事件”標注為例,使用改進AC-BM 算法,識別出該標注包含異常詞“發生暴動”,匹配的模型為“發生暴動|0”,開始位置為13。由于該事件定性為恐怖事件,地圖標注為“暴動”,與事實不符,屬于異常標注,如圖2.3 所示(紅色高亮為識別的異常詞)。

圖2.3 異常信息查找定位
2.2.3 分類識別結果
根據異常詞詞庫中對詞庫的分類,檢測各詞類的異常標注分布情況,發現分類結果較為滿意。從本次匹配算法的結果而言,對657 個標注檢測結果分析,標注中共檢測到117 個異常標注,而其中,含有敏感信息的標注總共含有128 個,準確率W 為91.4%,體現出極高的準確率。我們對觀察未能正確檢測標注,發現存在大量變異敏感詞條,即多數為填寫人故意插入特殊符號以逃避算法的檢測,或者將橫向的字條采用特殊字符排版,使出現縱向排列,逃避算法的檢測。針對此類型的敏感信息,本文未能進行近一步討論。對于其他非變異敏感詞,通過建立完善的敏感詞庫,其敏感信息都能夠被正確檢測。
本文以昆明地理標注為例,采用ACBM 多模式算法識別提取地圖標注內容中的異常信息,得出總體標注異常識別、單標注異常識別以及分類識別結果,通過實驗結果表明,本文的地圖標注異常識別方法能以較高效率準確發現異常地圖標注,構建和諧綠色地圖,滿足用戶不同的應用需求。
由于本文從詞義上進行對異常地圖標注進行識別,未涉及到空間位置的適宜性。然而,地圖標注在空間上也存在異常,即地圖標注是否適宜出現在該位置。在地圖中,標注與地物相同,相同類型的標注在空間上聚集,基于此特點的標注空間適宜性評價是有待進一步完善的內容。
[1]馬耀峰,胡文亮,張安定,等.地圖學原理[M].北京:科學出版社,2004.
[2]樊紅,張祖勛.地圖線狀要素自動注記的算法設計與實現[J].測繪學報,1999:86-89.
[3]喬占明,閆浩文.地圖標注和地圖注記的探討[J].測繪與空間地理信息,2011(1):205-207.
[4]何麗華,徐之俊.地圖注記設計若干問題的探討[J].地理空間信息,2011,9(6).
[5]劉耕,方勇,劉嘉勇.基于關聯詞和擴展規則的敏感詞庫設計[J].四川大學學報:自然科學版,2009,46(3):667-667.
[6]BOYER R S,MOORE J S.A fast string searching algorithm[J].Communications of the ACM,1977,20(10):762-772.
[7]Aho A V,Corasick M J.Efficient string matching:an aid to bibliographic search[J].Communications of the ACM,1975,18(6):333-340.