吳 越,張 翎,2*,龍 毅,2
(1.南京師范大學地理科學學院/虛擬地理環境教育部重點實驗室,江蘇 南京 210023;2.江蘇省地理信息資源開發與利用協同創新中心,江蘇 南京 210023)
自然語言利用文字組合表述地理實體、要素及其相互聯系[1],隨著大數據時代的到來,基于自然語言的地理信息技術研究的重心逐漸從地理實體、位置等空間信息的提取[2,3]轉向地理空間特征、語義特征的挖掘[4-6],而地理實體的重要性評價(即顯著性排序)正是面向自然語言層次化空間認知研究[7]的重要內容之一。景區導游詞是對特定景區的環境、景點與重要資源(自然與人文資源)進行系統描述的自然語言形式,除統計及信息特征[8-11],導游詞還包含大量實體相關的地理空間特征。因此,從景區導游詞出發,探討景區地理實體的顯著性程度及其排序,有助于進一步了解景區的資源分布、合理布局游覽線路和實現層次化空間認知。
目前,實體排序方法相關研究主要關注兩個問題:1)如何精確選擇和提取相關實體特征。對于非結構化和半結構化文本地理空間特征的提取,核心在于如何從自然語言中有效識別地理實體并提取其空間關系,但多數研究[12-15]集中于建立提取框架及特征表示,用于區分顯著性的地理實體特征,缺乏適用于實體排序的量化表達。2)如何建立合適的模型融合上述特征,并提升模型性能。通過關鍵詞提取實體(詞項)特征并訓練相應的學習排序模型是常見的實體排序方法。例如:Mihalcea等考慮詞項間的共現關系,基于Google的PageRank[16]提出對主題敏感的改進排序模型TextRank[17],Liu等通過衡量不同主題下詞項重要性,提出基于詞圖主題的PageRank算法[18],兩者著重分析了實體間特征、實體與文本主題的聯系,但導游詞中地理實體間特征不僅體現在文本的統計情況上,更突出表現在地理場景空間位置與結構的關系中。同時,傳統實體排序方法[19-21]忽視了地理空間信息在地理實體顯著性排序中的重要作用,導致特征提取缺乏針對性,丟失了排序模型的關鍵信息;且基于結構化知識庫訓練得到的模型通常無法處理非結構化或半結構化的地理空間特征,導致模型訓練過擬合,泛化性能下降。
綜上,地理實體顯著性排序問題的難點在于如何通過學習器提升不同地理實體間的可區分性,而針對文本中非結構化或半結構化地理空間特征,很難獲得預測精度較高的強學習算法[22]。Boosting方法通過集成排序性能高于隨機預測的弱學習器,可生成更精確的集成排序模型[23],然后利用集成學習即可實現弱學習算法和強學習算法的轉換[24]。鑒于此,本文將Boosting方法引入景區地理實體的顯著性排序,研究兼顧文本信息與地理空間信息的實體特征提取方法,構建相應的弱學習器,并結合具體排序目標選取合適的損失函數,進而通過結合(combining)與剪枝(pruning)進行集成優化,以期實現面向導游詞的地理實體顯著性排序模型構建,最后以中文導游詞文本為案例,對模型的可靠性和有效性進行實驗與分析。
面向導游詞的地理實體顯著性排序是將導游詞中相對顯著的景區地理實體盡可能排在邊緣實體之前的過程,主要包含文本預處理、實體特征提取和排序模型構建3個部分(圖1)。

圖1 景區地理實體顯著性排序方法流程Fig.1 Flowchart of geographic entity significance ranking for scenic spots
基于現有地理命名實體標注語料庫及相關匹配規則,通過人工校正輔助提取景區地理實體,并將實體劃分為顯著程度較高的正例實體和顯著程度較低的負例實體進行標注。
在導游詞文本中,景區地理實體通常以表示景點或重要資源的地名詞項出現。在數量上,通常顯著程度較高的地理實體(如參照物、核心景點等)在導游詞中多次出現;在分布上,地名詞項的集聚現象越明顯,用以描述的篇幅越長,地理實體與文本的相關性也越高[25],顯著程度也較高;此外,有些地理實體數量不多且分布較分散,但與其他實體因人文、歷史相關的語義聯系出現在同一篇章、段落或句子中,且共現次數越多,顯著程度越高。上述特征僅反映了實體作為詞項的統計與結構特征,沒有考慮地理實體在現實世界中的空間位置及其延伸關系。
實體順序關系與導游詞文本序列的描述順序基本一致,可被共現關系捕捉,而導游詞通常缺乏對空間距離的具體刻畫,無法建立實體群關系及結構的精確度量。導游詞中的地理實體同屬于一個旅游景區,在空間分布上具有連續性,因而地理實體間具有明確的空間拓撲關系,導游詞對空間拓撲關系的描述反映了地理實體對的結構層次,暗含了景區空間結構上的顯著性差異;同時,不同人使用不同語言表達方式所造成的模糊性程度也不同[26],導游對旅游景區內地物的介紹各有側重,因而地理實體顯著性越高,導游對其描述越全面、具體。導游詞對地理實體自身特點的描述可以看作文本驅動的形態描述,“形”刻畫了景區地理實體的空間尺度,“態”展現了實體當前的狀態或態勢,因此,形態描述的模糊性程度可以體現地理實體在語言刻畫層面的顯著程度。
綜上,本文選擇出現頻率、聚集系數、共現關系、空間拓撲關系和模糊形態描述五方面特征刻畫導游詞中景區地理實體的顯著性(表1)。

表1 景區地理實體顯著性特征Table 1 Features of geographic entity significance for scenic spots



圖2 頤和園空間拓撲關系示意Fig.2 Spatial topological relations of the Summer Palace
(1)
式中:TS(ei﹤﹤)為當前結點ei的父結點的權重;Bcount(ei)為當前結點ei的兄弟結點數量。


表2 形狀描述、顏色描述、尺寸描述和方向描述的模糊性程度劃分及得分區間Table 2 Ambiguity levels and scores of shape description,size description,color description,and direction description
VS(ei)=S(ei)+M(ei)+C(ei)+D(ei)
(2)
式中:S(ei)、M(ei)、C(ei)、D(ei)分別為各類形態描述的模糊性程度得分。
在特征提取階段,景區地理實體顯著性排序不同于一般文本的關鍵詞提取,需重點考慮導游詞文本中蘊含的空間拓撲關系和形態描述,并選取合適的結構與量化函數進行特征表示,綜合地理實體在文本序列中的統計與結構特征,形成特征矩陣X。以綜合文本信息的實體特征矩陣作為輸入,正負例結果作為輸出,從而構建排序模型的弱學習器。
景區地理實體顯著性排序問題可定義如下:對于任意給定的導游詞文本d,自動對地理實體集合E(d)中的地理實體進行顯著性排序,使正例實體集合P中地理實體盡可能地排在負例實體集合N中地理實體的前面,即將復雜的排序問題看作簡單的二分類問題。為將分類問題還原為排序問題,本文提出一種基于Boosting的景區地理實體顯著性排序(Geographic Entity Significance Ranking,GESR)模型。GESR模型借鑒了Boosting方法中Adaboost算法[30]的思想,通過每次只訓練一個弱學習器不斷優化模型,不僅可以得到高性能的集成模型H(X),還降低了優化問題的復雜度;對于每輪迭代學習,只訓練一個弱學習器,并根據樣本權重分布調整樣本中不同實例的訓練強度,最終對弱學習器進行集成以獲得更好性能。串行集成方法可以對學習器進行合法性檢查,但耗時長、效果差,本文采用降誤差剪枝(reduced-error pruning)[31]獲取獨立學習器的子集,使用更小規模可得到更好的集成結果。首先依次選取使該輪集成驗證誤差最小的弱學習器加入集成,然后通過回填(backfitting)尋找可以降低集成驗證誤差的弱學習器替換已有學習器,直到集成中所有弱學習器均不能被替換為止(圖3)。對于每個弱學習器,利用Logistic函數融合表1中5個特征,構建線性加權形式的排序函數,將損失函數定義為ROC曲線線下面積(Area Under Curve,AUC)的形式,并使用Sigmoid函數代替AUC公式中的指示函數,然后采用隨機梯度下降法(Stochastic Gradient Descent,SGD)最小化損失函數,以求解每一個弱學習器的最優參數。此外,同一導游詞文本中的不同地理實體之間存在一定程度的語義關聯,雖然樣本的權重分布針對訓練集中不同的導游詞文本,但必須對同一導游詞中的所有地理實體進行一輪獨立的訓練。

圖3 降誤差剪枝流程Fig.3 Flowchart of reduced-error pruning
本文中地理實體及其所屬的導游詞文本不可分割,因此將原有對樣本采用的重加權方法(re-weighting)改為重采樣方法(re-sampling),樣本的權重分布將決定某一輪中部分樣本被訓練的可能性,困難樣本的權值更高,在下一輪弱學習器的訓練中更有可能被采樣。本文中X為地理實體的特征矩陣,Y為地理實體的排序結果,且可以被分為正例實體集合與負例實體集合,具體實驗過程見算法1。
算法1 GESR模型算法
輸入:
標注導游詞文檔集合DL={dl1(X1,Y1),dl2,…,dlm(Xm,Ym)}
訓練的迭代次數T,采樣比例r,學習率lr
輸出:
(1)D1(dl)=1/m% 初始化樣本的權重分布
(2)fort=1,…,T:
(3)DLt=S(DL,r,Dt(dl)) % 重采樣


(6)ifEt>0.5: % 篩選弱學習器



本文使用從互聯網篩選的30篇中文導游詞文本進行實驗,包括頤和園、故宮、寶塔山等熱門景區。考慮到不同景區類型、文本長度等因素對模型訓練可能產生影響,數據集在篩選時主要從景區類型、文本長度和地理實體數量3個方面控制樣本分布均衡:1)從資源景觀的角度將樣本劃分為數量相近的兩類,自然景觀類樣本包括黃山、九寨溝和玄武湖等景區,人文景觀類樣本包括夫子廟、頤和園和總統府等景區;2)不同長度的導游詞文本對地理實體描述的粒度不一致,根據字數將樣本劃分為數量相近的兩個區間,即500~1 000字的短文本和1 000~3 000 字的長文本;3)景區類型和文本長度相同的情況下,導游詞文本中的景區地理實體數量相近。
由于根據得分對地理實體進行排序不利于驗證排序模型的效果,無法反映單個地理實體在導游詞文本中的顯著性程度。本文參考Trani等[32]對實體的劃分,根據地理實體在導游詞文本中的顯著程度,將地理實體劃分為4個顯著性等級(表3),并依據各等級的描述對數據集進行四分類標注,生成正例(等級為3、4)、負例(等級為1、2)的二分類標簽。二分類數據適用于模型訓練中損失函數構建,而四分類數據中明確的顯著性程度劃分有利于模型驗證。

表3 地理實體顯著性等級劃分Table 3 Levels of significance of geographic entities
本文依據四分類和二分類的劃分標準,對篩選后的30篇中文導游詞文本進行人工標注,并將樣本信息、序位、四分類和二分類標簽按照一定的格式進行存儲,圖4為以頤和園導游詞為例的數據集標注格式。

圖4 數據集標注格式示意Fig.4 Schematic diagram of annotation format of dataset
相比MRR(Mean Reciprocal Rank)等排序評價指標,AUC可以更精確、簡便地計算出GESR模型對地理實體顯著性排序的擬合優度值,AUC值越大,排序模型越有可能將正例樣本置于負例樣本前,即模型的有效性越好。本文使用AUC值和歸一化折損累積增益(Normalized Discounted Cumulative Gain,NDCG)(式(3))[33]兩個指標對模型排序結果進行評價。其中,AUC值可以直觀展現模型對顯著實體和邊緣實體的區分度,NDCG則主要基于地理實體顯著性程度和序位的正相關對排序效果進行綜合評估。經過模型排序后,依據式(3)可以獲得有序地理實體列表的折損累積增益DCG,并將人工標注的地理實體排序結果作為理想排序,計算得到IDCG。
(3)
式中:log2(1+i)為第i位地理實體按實際排序結果的位置折損;r(i)為實際情況下第i位地理實體的顯著性等級;log2(1+j)為第j位地理實體按理想排序結果的位置折損;r(j)為理想情況下第j位地理實體的顯著性等級。
不同特征反映地理實體顯著性的能力不同,本文分別移除表1各個特征,評價模型在缺少該特征情況下的性能(圖5)。可以看出,缺少前3個統計與結構特征的情況下,模型性能表現平穩,缺少特征四、五時,NDCG和AUC值出現明顯波動,模型性能皆存在明顯下降,因此特征五(模糊形態描述特征)對于模型的影響最大,其次是特征四(空間拓撲關系特征),結果驗證了地理空間特征在導游詞地理實體顯著性排序中的重要作用。

圖5 不同特征對GESR模型的影響Fig.5 Influence of different features on the GESR model
本文分別在訓練過程中逐漸提高訓練樣本數量比例和集成中弱學習器數量,分析預測精度隨兩者的變化情況。如圖6a所示,線性擬合的擬合優度較好,數據點圍繞趨勢線分布緊湊,預測精度與訓練集數量比例呈顯著正相關,說明GESR模型對數據量的增加十分敏感;由圖6b可知,當學習器數量小于9時,隨著學習器數量的增加,驗證集的預測精度不斷提高,而當學習器數量為10時,驗證集的預測精度趨于平穩。因此,GESR模型在一定范圍內對學習器數量較敏感,而后趨于平穩,且學習器的最佳數量約為9。

圖6 訓練集樣本數量、學習器數量與驗證集預測精度關系Fig.6 Relationships between number of training samples,number of learners and prediction accuracy of validation sets
本文選取基于地理實體出現頻率、聚集系數和實體共現關系的統計方法作為基線方法,與GESR模型進行性能對比(表4)。可以看出,基于實體共現關系統計方法的NDCG值相比另外兩種基線方法更高,說明相比單獨的實體頻率統計,應用共現頻率統計效果顯著提升;GESR模型的AUC值最大,比基于實體共現關系的統計方法平均提升了14.6%,說明集成融合特征的弱學習器效果更好。

表4 GESR模型與其他基線方法的NDCG值和AUC值對比Table 4 Comparison of NDCG and AUC between the GESR model and other baseline methods
游客在計劃旅行時通常會利用互聯網搜索并了解目的地的相關情況,知名度越高的景點客流量越大,關注度很大程度上反映了人群的偏向。2018年百度搜索在中國PC搜索各平臺中流量份額最高[34],因此,本文選取網絡獲取的“頤和園”導游詞,采用2011年1月1日至2020年1月1日的日均搜索量反映人群關注度,分析模型排序結果與人群關注度之間的差異性(表5)。從顯著性排序趨勢看,兩個排序結果中的序位差相對較小,同一序位地理實體的顯著性等級基本相同,排序結果的相似度較高,但排序模型中結構層次較高的地理實體(如昆明湖、萬壽山)關注度排名有較大下滑,而一些結構層次較低的地理實體(如十七孔橋、銅牛)關注度有很大提升。結構層次的高低取決于現實世界中客觀的空間拓撲關系,而人群關注度受到游客偏好、景區宣傳和景點觀賞性等多方面主觀因素影響,例如,昆明湖在頤和園中屬于大面積景觀,近在眼前卻容易被忽視,而銅牛、十七孔橋作為旅游網站的對外宣傳景點易受大眾關注。因此,人群的關注度很難反映地理實體的空間特征,更多體現了社會人文方面的受關注程度。對于描述特定地理場景的導游詞文本,其地理空間方面特征的研究是不可或缺的,直接影響著景區場景的構建與還原,本文提出的模型正是在嘗試彌補這種不足。

表5 關注度與GESR模型排序結果對比Table 5 Comparison of popular attention and results of the GESR model
本文提出一種面向導游詞的基于Boosting的景區地理實體顯著性排序(GESR)模型,綜合景區地理實體特有的地理空間特征構建目標排序函數,基于樣本誤差分布與隨機梯度下降法迭代生成弱學習器,并通過加權平均法和降誤差剪枝集成獲得用于排序的強學習器。以30篇不同主題的導游詞為樣本進行模型的驗證與分析,結論如下:1)與3種基線方法相比,GESR模型的NDCG達0.8841,AUC值達0.7579,排序性能明顯優于基線方法;2)通過分別移除各特征,驗證了地理空間特征在GESR模型中的重要作用;3)數據量與學習器數量的敏感性分析表明,訓練數據量與模型性能呈現正相關,學習器的最佳數量約為9個;4)通過與搜索關注度進行實例對比分析,發現關注度缺乏對客觀空間結構的表達作用,驗證了本文方法對地理空間特征的反映能力。
盡管本文模型及實驗取得了一定效果,但除拓撲關系外,空間關系包含的方位關系和距離關系仍存在可以深入挖掘的內容;此外,盡管地理實體的語義特征很難描述,但不容忽視,未來需要引入更多類似的空間特征與語義特征進行研究。