林 靜 Nadezda Sorokina
又松大學旅游管理學院,韓國大田 34606
隨著互聯網的快速發展和智能手機的廣泛使用,社交媒體成為人們獲取信息和分享經驗的主要來源。在旅行前,社交媒體上的旅游評論對潛在游客感知旅游目的地和制定旅游決策至關重要。大型旅游推薦網站,如貓途鷹(TripAdvisor)、繽客(Booking)、攜程(Ctrip)等,通過呈現數以萬計的評論,創造了大量價值信息,為游客提供了一個分享和比較旅游產品和服務的平臺。這些在線信息對學術界和旅游從業者都是極具價值的,首先,旅游評論是游客體驗的自發呈現,未受其他因素干擾,數據真實度高,游客更傾向于信任網絡評論,勝于商家宣傳;其次,專業人士可以通過處理評論數據來系統預測游客意圖和滿意度,為游客提供情報,或幫助旅游主管部門提高客戶關系質量和產品體驗。
現有旅游文獻中很少有通過數據挖掘方法比較相似遺產地景區的研究,并且游客評論的特征可視化在商業應用中仍處于起步階段。本研究試圖使用數據可視化工具來梳理兩個長城景區在國外游客評論中的顯著特征和特征關系來揭示兩者呈現的具體差異,服務游客及從業者。
在本研究中使用的主要理論是計劃行為理論(Theory of Planned Behavior)。計劃行為理論認為人們是以社區(Community)為導向的,人們的行為意圖受到他人、群體和主觀規范的影響。主觀規范指個人對于是否采取某項特定行為所感受到的社會壓力,且一個人的可能行為取決于他/她的可用資源。由此我們可以歸納出:對同一行為已采取行動者態度的分析可以預測潛在個體行為。例如,在社交媒體上發表評論是同伴影響的一種形式。網絡話語具有引領性、傳播性和影響性。網絡上對一個事物整體積極評論使個體也具有積極的評價傾向。據此在旅游層面上,過往游客對景區的正面評價可以正向影響潛在旅行者的行為意圖。但是由此我們發現,過去相關領域學者對用戶生成內容的研究大多集中在其因果關系上。
利用詞向量模型來進行內容分析是近年來隨計算機技術進步而出現的一種探究詞義聯系的研究方法,其研究手段多樣。詞向量模型首先在高維空間中將單詞之間的連續相似性編碼為單詞向量之間的距離或角度,再進一步依托非監督向量建模,可捕獲并可視化詞語、句意關系,提供洞見。在其他領域,較多詞向量模型被開發出來以促進語法關聯、機器翻譯、視覺交互比較和圖像描述。在旅游領域的相關具體應用主要有:Stepchenkova等和Govers等使用CATPAC和WORDER分析程序,通過因子分析了解游客對目的地形象的認知。Serna等利用詞向量技術通過用戶網絡生成內容動態描述巴斯克地區的認知目的地形象。Sánchez Franco等將Pathfinder應用到Booking.com的在線評論分析中,得出揭示最常見術語組織結構,并準確指出客戶的核心關注。Banerjee和Chua運用AntConc 3.2.2文本分析工具包進行了雙向因子方差分析,從TripAdvisor.com的酒店評論中生成評級模式。但如前所述,運用詞向量模型對相似遺產地景區進行具體特征比較的論文還很少。本文的新可視化模型有助于進一步推進游客評價研究中的對比分析。
本文在查閱大量歷史文獻的基礎上,嘗試通過一種新的數據可視化工具來對網絡評論內容進行分析,找出群體影響個體的語義組群,采取定量和定性分析,實現內容概括,進而指導旅游出行。本研究旨在解決以下研究問題:第一,識別國外旅游者在兩個長城景區評論中的關注點;第二,通過MST探索相應焦點及彼此語義關系;第三,關注評論中形容詞術語如何在ThemeRiver中流動并從中提取含義;第四,內容文本化以利于提供旅游情報,改善旅游服務。
本文作者使用Python爬蟲軟件爬取長城2009年11月到2019年10月TripAdvisor.com中的共計2.1萬篇英文評論。本文采用TripAdvisor.com旅游評論的主要原因是此網站評論可信度高,其內部算法已過濾欺詐評論,通過歪曲事實來影響民意的可能性很低。
首先本文使用一個自然語言處理的Java開源工具包(LingPipe)進行語言數據處理,可實現以下功能:主題分類(Top Classification)、命名實體識別(Named Entity Recognition)、句題檢測(Sentence Detection)、查詢拼寫檢查(Query Spell Checking)、興趣短語檢測、聚類、字符語言建模、數據庫文本挖掘、分詞、情感分析、語言辨別等。然后,本研究采用一種用于信息檢索與數據挖掘的常用加權技術(TF-IDF)將得分最高的前50個詞保存至excel文檔中,進而采用Word2vec對文本進行“向量化”,依托MST和ThemeRiver技術使用D3.js可視化圖庫進行統計計算和繪圖。在實現MST、MSF和ThemeRiver的可視化描述后,作者再次檢索相關評論,進行概括內容的狹義內容分析,確定觀點歸納的準確性。結合上述成果,本研究將這兩個長城遺址景區的MST、MSFs和ThemeRiver轉化為摘要,此摘要被認為是外國游客對景區的整體畫像,且更具可讀性、整體性。
這兩個景區的MST節點的大小代表詞頻。它們之間的關系由它們邊的長度來表示,關系越緊密,邊緣越短。這些文字、線條和MSF揭示了游客的關切。筆者依據八達嶺長城MST、MSF做出以下描繪:第一,【左塔或山頂】的【攀爬】是【陡峭而困難的】;第二,【火車、公共汽車或纜車】是主要交通方式;第三,【天氣和水】是【冷的】;第四,與【導游】一起【參觀或體驗】【中國北京】,并【欣賞】【中國歷史】的【驚人和美麗】是值得【推薦】的;第五,【長城】是一個【值得推薦】但【擁擠和繁忙】的景區;第六,【人們或游客】愛【拍照】。
筆者依據慕天峪長城MST、MST做出以下描繪:第一,【八達嶺和慕天峪】【人或游客】是【擁擠的】;第二,從【旅館】到【入口處】需要長【時間】的【公共汽車】;第三,【訪問或體驗】【中國北京】了解【中國歷史】是【開心、驚人和美麗的】;第四,【攀登】【陡峭的臺階】是【值得】和【推薦】的;第五,【坐抬椅、纜車】到【山頂或左塔】,【乘坐雪橇】【下滑】是有【樂趣】的。
ThemeRiver可視化效果展示出以下兩個方面內容:第一,“梨形流”是由當月評閱次數形成的。它清楚地表明,4月(北京的春天)和9月(北京的秋天)是游覽長城的最佳月份,這源于長城屬于北溫帶半濕潤大陸性季風氣候,夏熱冬冷;作為戶外文化遺產,長城景區的游覽受季節影響很大。第二,八達嶺長城評論中提到的【險峻、擁擠】和【震驚】最多,慕田峪長城評論中提到的【險峻、擁擠】和【值得】最多。
本研究試圖擴展現有的知識,運用MST,ThemeRiver和內容概括分析從英語游客的評論中考察兩個長城景區的評論關注點異同。總的來說,我們發現兩個景區都“擁擠”和“陡峭”,但“震驚”和“值得”,最好的旅游季節是春天和秋天。長城天氣呈現出“夏熱”“冬冷”的特征。游客將參觀長城作為了解中國歷史和文化的一種方式。進一步歸納這兩個景區的MST可以發現二者之間的區別:在八達嶺長城,游客更有可能選擇導游來提供旅游服務。在慕田峪長城,游客們對交通、抬椅、旱橇、纜車等設施都很滿意,這對他們登山很有幫助。進一步的內容分析我們可以得到,雖然兩個景區都“繁忙”“擁擠”“陡峭”,但八達嶺長城比慕田峪長城“更陡峭”“更擁擠”。八達嶺長城對游客體力有更高的要求。根據上述發現,可以為每個景區寫一個總結。與TripAdvisor網頁上的“Popular Mentioned”相比,本文總結可以更好地揭示游客關注和體驗感受。它還具有可靠性和可讀性的優點,內容概括方式更優化(見表 1、表 2)。

表1 基于本文研究的八達嶺長城概述

表2 基于本文研究的慕田峪長城概述
對于這兩處遺址景區來說,八達嶺長城和慕田峪長城在營銷推廣上都可以得到高度贊揚。長城游客在評價景區時傾向于著墨有形特征,如物理設施、景觀、交通和人員的外貌。雖然這兩個遺址景區相似,但它們在特色和服務上呈現的差異可以相互借鑒和補充。仔細研究這些概述內容的共性,可以洞察游客的行為意圖,促進管理和市場營銷。
針對評價里談及的旅游旺季擁擠問題,管理部門可以針對游客數量提前預警和給出提示,并采取“限流”的措施來緩解。在如今的互聯網時代,游客可以通過APP提前訂票,管理者也可以通過APP系統,提醒消費者準備登山用品,提醒游客在慕天峪長城登山時要多帶些飲用水,夏天注意防曬防暑,冬天注意低溫影響,通過發送相關短信,可以顯著提高游客滿意度。我們從總結中仔細研究它們的差異發現,慕田峪長城因纜車和旱橇提供的極大便利而深受游客歡迎。事實上,八達嶺長城比慕田峪長城更陡峭,優化類似服務,一定會增加游客的便利,提高他們的體驗滿意度。八達嶺長城的導游服務讓游客非常滿意。游客喜歡在導游的幫助下拍照和學習中國歷史。慕田峪長城管理者可以借鑒這一經驗,積極完善自己的導游隊伍。此外,關于景區暴露的缺點,景區瓶裝飲用水水價過高,也需要引起管理者注意,適當采取行動。
本文也存在一些局限性。首先,本文研究重點是最高頻詞匯,忽略了短語、句意分析。因此,這篇文章的相關術語與TripAdvisor“Popular mentioned”(熱門提及)存在一些差異。一些重要的景區特征或評價沒有顯示出來,將來的研究可以通過增加短語的方式來改進。狹義的內容分析可以應用到MST的每個分支,以獲得更準確的綜述,使總結更具描述性和文學性,本文并沒有展開討論。