宗宇,方朝陽,吳波
(1.江西師范大學地理與環境學院,南昌330000;2.鄱陽湖濕地與流域研究教育部重點實驗室,南昌330000)
近年來,隨著鄉村振興戰略的貫徹實施,鄉村旅游發展總體呈現為“快、高、多、聚”的趨勢。而互聯網隨著這些年來高速的發展,已經成為鄉村旅游的重要信息載體。攜程、馬蜂窩、途牛等OTA網站已經可以充分滿足游客出行一條龍服務所需的數據及完備的評價系統[1]。眾多旅游愛好者利用智能終端進行預定旅游產品、編寫游記點評及相互交流等活動。但由于信息渠道的不對稱性,使得游客容易對旅游體驗的好壞缺乏安全感,進而影響消費者的購買決策。因而,如何通過在線評論分析游客情感體驗,改善自身服務水平以獲取更多的旅游者信任,已經成為旅游景區管理者亟需考慮的重要問題之一[2]。
傳統旅游目的地的相關評價主要是依靠定量模型,問卷調查和統計的方式來獲取數據[3-4]。在當前大數據背景下,地理學者使用GIS和GPS技術將游客的時空行為信息可視化,從而獲得群體性的空間規律和綜合評價[5]。但是如何利用游客在互聯網中產生的海量數據來精準捕捉游客的愛好、愉悅度和滿意程度等情感信息,繼而獲得游客對旅游目的地的整體評價,仍然是現階段專家學者亟需解決的問題。雖然目前旅游的不少領域已經有了相關的研究,如:大數據下旅游目的地評價[6]、酒店顧客在線評論[7]、山岳型景區情感詞典的構建[2],等等。但是基于鄉村旅游型情感詞典的構建,從而進一步對鄉村型旅游景區展開綜合評價,這方面的工作國內相關研究較少且研究方法較不成熟。
本文通過已有的一些構建領域型情感詞典的方法,構建了面向鄉村景點的鄉村型褒貶情感詞典,通過與一般情感詞典對比,取得了良好的效果。研究有利于更好地揭示鄉村型旅游景區的情感空間規律,并可為旅游目的地綜合評價工作提供更精準的情感詞庫,為鄉村旅游情感分析研究提供更科學的參考方法。
婺源縣,地處江西省東北部,隸屬于江西上饒市,與安徽、浙江兩省交界。全縣多是丘陵地帶,素有“八分半山一分田,半分水路和莊園”的地理特征。全縣土地面積2967km2,截至2019年末婺源常駐人口34.6萬人,其中鄉村人口約17.3萬人,占總人口的49.8%。婺源古時一直為的古徽州一府六縣之一。民國23年劃至江西,民國36年劃歸安徽,新中國建國后重新劃歸江西省。
婺源旅游產業萌芽于上世紀90年代,香港攝影家陳復禮舉辦了以“中國最美的農村——婺源”為主題的攝影展[8],這也吸引了無數人的驚嘆,更為婺源鄉村旅游產業走向世界打下了基石。婺源被譽為“中國最美鄉村”,也是全國唯一一個以整個縣命名的國家3A級景區。婺源的旅游資源以徽派建筑、田園風光及生態資源為主,經過近年來的大力發展,品牌效應日益凸顯,且先后獲得國家多項榮譽稱號。2019年度婺源縣全年全地區生產總值131.5億元,其中第三產業增加值91.08億元,約占生產總值的69.3%,全年共接待游客數達2463萬人次[9]。因此選取婺源為研究區具有很好的代表性。
以微博漫游功能中提供的接口,設定爬取位置的經緯度并且限制獲取范圍為5公里。這是由于通過漫游接口返回的數據極有可能超出研究區域,同時為了采集范圍盡可能覆蓋整個研究區域,故設置采集半徑為5公里。獲取了2019年包含國慶節在內的9月24日至10月22日的婺源縣的帶有模糊地理位置的微博數據。
通過對微博接口進行解析,最后可以得到評論ID、用戶姓名、發布內容、發布時間、城市編碼、位置距離等信息,其數據結構見表1。評論ID用以識別重復的微博評論、去除數據冗余,發布內容用以進行后續的分詞、領域型情感詞典構建的工作,城市編碼與空間距離可以過濾掉非婺源微博,保證數據的位置準確性。微博評論的樣例數據如表2。

表1 數據結構說明

表2 微博評論樣例數據
通過以上手段獲取到的原始數據存在數據重復、未知字符過多、JS代碼未去除干凈、位置不準確等問題,直接使用會導致實驗結果出現偏差。因此,需要將原始數據進行預處理以方便下一步使用[10]。由于使用漫游接口設置爬取半徑可能覆蓋到其他地市,故獲取到的數據存在爬取到其他區域數據的情況,所以需要剔除非婺源數據。并且微博評論數據大量存在重復次數較多的詞,如:分享圖片、全文、地點、超話、話題等,也需要進行去除處理。具體預處理步驟如圖1。

圖1 數據預處理流程
(1)提取地點標簽,并判斷其位置是否在婺源縣境內,對于非婺源數據統一剔除;
(2)去除“**的微博視頻/**的秒拍視頻”等標簽;
(3)去除“**超話/#**#”等話題標簽;
(4)去除“分享圖片/分享視頻/..全文等”無意義詞語。
(5)最后通過人工識別,去除明顯與旅游無關的微博評論。
之所以去除這些標簽是由于其出現頻率極高且重復次數多,而且這些標簽對于下一步篩選詞頻較高的情感種子詞和候選情感詞具有較大的干擾作用。預處理后的結果如表3所示。

表3 語料預處理后
種子詞集的選取必須滿足兩個條件:①表達的情感強烈,②經常被使用[11]。由NTUSD中文情感極性詞庫、情感詞匯本體庫、HowNet情感詞典庫三種情感詞庫進行匯總,并人工判別選取若干感情強烈的情感詞[12]。對語料庫文本進行分詞及去停用詞,再利用詞頻統計工具,對詞語出現的次數理解為是該單詞的詞語頻率,即詞頻。根據詞頻進行排序,選取詞頻最高的前x個詞語作為候選種子詞,這里的x根據高頻詞語的數量而定,高頻詞語的數量越多x的數目也越多。再從x個候選種子詞中通過人工識別選取表達情感最為強烈且常用的y個詞語,此即為情感種子詞集。一般y的數目約占x的15%為最佳[12]。
詞義相似度是指兩個詞在語境文章中可以互相替換但不改變文章句法語義的程度[13]。目前,詞語之間相似度的計算已經廣泛運用于主題抽取、文本分類、信息檢索等研究領域。而度量兩個詞之間的關系很重要的指標就是詞語間的距離,其計算公式如下。

其中W1和W2分別代表兩個詞語,Sim(W1,W2)記為;詞語W1和W2間的相似度,Dis(W1,W2)為W1和W2詞語間的距離。α是一個可調節的參數,表示相似度為0.5時W1和W2兩個詞語在義原樹中的長度, 值一般設為1.6[10]。
若W1和W2義原數目存在一對多、多對一乃至多對多的情況,則選取其中Sim(W1,W2)最大的一組義原作為W1和W2的義原相似度[14],其計算公式如下。

其中m代表W1的義原有m個,n代表W2的義原有n個。
N-Gram算法的核心思想是將文本內容按照字節流進行字節長度為N的滑窗操作,形成長度為N的字節片段列表,每個長度為N的片段稱為gram,對全部的gram出現頻率進行統計,設置閾值過濾頻率較低的gram,形成包含一個或多個關鍵片段的列表[15]。N-Gram算法由于其無視語言差別、容錯率強、無需詞典規則等特性。而廣受信賴。但是這種算法的缺點也尤為明顯,對于長度大于或小于N的詞語很容易因字節限制而導致語義上的偏差。姜如霞、黃水源等人[16]提出了一種基于N-Gram的改進算法,其基本思想是:在進行bigram切分字符串時,在統計gram出現頻率的同時,也統計相鄰gram并記錄。最后全部處理完后,對其中經常出現的詞合并為新的特征詞。
本文中為了處理未登錄詞問題,采用了這種基于N-Gram的改進算法。從表4樣例數據中可以看到,隨著N的增大組成的詞語個數也隨之增多。根據文獻中所述,常用的N參數一般為1、2、3、4。本文中設置N=3,并過濾其中詞頻較低的gram,從而得出常用的未登錄詞,為后面進行情感詞典構建提供扎實的語料基礎。

表4 進行N-Gram處理后樣例數據
目前廣為人知的比較成熟的五大情感詞典分別是情感本體詞庫、李軍中文褒貶詞典、臺灣大學NTUSD、知網HowNet等。但鄉村旅游的在線評論顯然不同于其他領域的評論,部分詞語很少在其他領域使用,例如較有地域特色的淳樸、雕梁畫棟、錯落有致、生機勃勃、繁花似錦等詞語就凸顯了婺源徽派的建筑風格、鄉土人情及油菜花開的秀麗風景。因此使用傳統型情感詞典或其他領域情感詞典難以有效捕捉鄉村旅游游客的情感傾向。在2019年嚴仲培提出的面向在線評論的構建山岳型旅游景區情感詞典的方法[2],經實踐證明其有效地解決了這個問題。本文在鄉村型褒貶情感詞典構建借鑒了嚴仲培構建山岳型領域情感詞典的方法的同時,通過增加N-Gram語言模型提升未登錄詞識別的精準度,以此構建了如下鄉村旅游情感詞典。實驗步驟詳見圖2。

圖2 鄉村型褒貶情感詞典構建流程
具體實驗步驟如下:
(1)將微博文本語料進行分詞和去噪處理,組成原始詞語庫。
(2)將得到的原始詞語庫進行詞頻統計后,取出詞頻最高的x個單詞組成候選種子詞庫。同時將NTUSD中文情感極性詞庫、情感詞匯本體庫、HowNet情感詞典庫匯總,并與候選種子詞庫進行對比取交集,并通過人工識別得到最常用且感情最為強烈的y個詞語,組成鄉村旅游種子情感詞集。
(3)對原始詞語庫統計詞頻,提取高頻詞并去除非情感詞。從而與情感種子詞庫中種子詞進行詞義相似度計算,公式如上述公式(2)。其中相似度大于等于0.75即被認為可以進入鄉村旅游情感詞庫。并將其中詞語相似度大于等于0.25小于0.75的定義為不確定詞集,需要進一步人工判別是否入庫。至于詞語相似度小于0.25則認為該詞語不屬于情感詞,故舍棄[17]。
為了驗證上述領域型情感詞典構建方法的可用性及效果,本文研究進行如下實驗。首先利用本文中第2節提供的數據采集及文本整理方法完成語料數據的收集與預處理工作,通過上述第3節中構建鄉村型情感詞典的方法,最終篩選到了11785條情感詞。其中積極情感詞6139條,負面情感詞5646條。鄉村型褒貶情感詞典的部分情感詞如表5所示。

表5 鄉村型褒貶情感詞典部分內容
本文隨機選取500條測試集,通過人工判別標記測試集的情感傾向分別為:1代表積極傾向評論,0無情感傾向評論,-1消極傾向評論。針對不同兩種不同的情感詞典①鄉村型褒貶情感詞典,②具有一定知名度的知網HowNet情感詞典,根據文獻[18]中提供的情感傾向分類方法,分別計算測試集中每條測試集的情感傾向。以人工判別的測試集為基準,采用精確率(P)、召回率(R)、F值三個評估指標評估兩種詞典的性能。經計算得出如表6所示結果。

表6 兩種類型情感詞典的性能評估
表6結果表明,利用本文構建情感詞典完成的情感傾向判別算法比利用知網HowNet情感詞典評測結果的精確率略高。精確率略高的原因有二:一是由于語料使用的是微博評論,微博評論中經常會使用到不在知網HowNet詞典中的同音字;二是由于網絡發展日新月異,網民常用詞也不斷發生著變化,如:稀飯、high、鉆石王老五,等等。本文中由于引進了N-Gram語言模型,對語料中常出現的網絡用語進行捕捉,有效地減少了上述二者原因導致的誤差。從精確率、召回率及F值中可以看出鄉村型褒貶情感詞典略優于知網HowNet情感詞典,因此在婺源鄉村旅游的情感分析上具有較高的準確性和可利用性。
本文研究提出了一種基于在線評論的鄉村型褒貶情感詞典的構建方法,以N-Gram語言模型和義原相似度分析為基礎,通過N-Gram語言模型篩選出語料中詞頻較高的未登錄的潛在情感詞,并與情感種子詞的進行義原相似度計算,從而初步得出鄉村型褒貶情感詞典。整個情感詞典的生成可由計算機自動進行,并結合必要的人工判別,使得新構建的詞庫具有較高的準確性。并且整個領域型情感詞典的構建過程具有較高的可復制性,完全可以適用于其他領域的文本特征分類。
最后,研究嘗試構建了基于鄉村型褒貶情感詞典的方法,但該方法仍存在一定的不足。未來可進一步對詞庫進行細粒,因此下一步將對鄉村旅游領域型細粒度情感詞典進行研究,并力求進一步提高文本特征分類的準確率。