張亞平,彭武良
(煙臺大學 經濟管理學院,山東 煙臺 264000)
隨著互聯網的飛速發展,在線旅游平臺得到了廣泛應用。人們利用在線旅游平臺進行旅游目的地信息查詢、查看門票價格以及瀏覽在線評論等已逐漸成為旅游出行的習慣。去過旅游目的地的游客根據自己的感受和旅行經歷在平臺上發布評論,其他潛在游客分析這些在線評論信息確定旅游意向。來自在線旅游平臺的旅游信息最終促成了游客的旅程安排。隨著中國文旅產業線上化進程的加快,構建線上內容資產,已經成為文旅產業為消費者和產業鏈上下游提供優質服務的重要方式,網絡評論成為研究熱點。分析旅游網絡數據對于深入了解旅游地的發展狀況和促進旅游健康發展具有重要意義。文章對國內外有關在線評論在旅游行業應用的相關論文做了整理,以更清晰系統地認識當前旅游行業在線評論的研究現狀、研究方法。
當前,國內外學者對旅游行業在線評論的研究都有了一定成果。學者對在線評論的瀏覽和了解來自在線旅游平臺。當前國外常用的OTA 平臺有Book.com、Trivago.com、TripAdvisor等,國內研究主要圍繞攜程、去哪兒網、馬蜂窩等網站展開。Fazzolari 指出,在線評論中蘊含著潛在的可利用信息,旅游平臺可以通過挖掘這些信息找到促進自身發展的突破口[1]。對于當前在線評論在旅游行業中的應用來說,學者研究的角度多圍繞游客滿意度、酒店銷售、民宿居住、旅游目的地形象以及旅游服務質量等[2-5]。在研究角度中,當前對旅游影響因素和酒店銷售的研究較多,相比之下,對旅游目的地的研究較少。
對于在線評論文本的獲取,多數學者是運用八爪魚或者Python 爬取評論,也有少數學者選擇直接復制文本的方式。獲取數據后,對所獲取的文本首先要進行文本預處理,文本預處理的工作完成后就是通過文本分析探究學者所要研究的主題。學者對文本的處理所采用的方法多種多樣,總結起來大致分為以下幾種情況。首先是對文本基本特征的分析,文本基本特征分析主要包括高頻詞分析和語義網絡分析,劉佳林等以桂林興安靈渠景區為例,通過詞頻分析、語義網絡分析和情感分析來探究游客滿意度[6]。對于文本主題的提取,學者多采用LDA主題模型,也有學者利用詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)或者聚類分析進行特征提?。?-8]。學者利用構建情感詞典或機器學習的方式分析游客情感傾向。除了文本分析法,也有學者采用線上評論和線下調查問卷結合的方式來獲取數據,并利用實證分析驗證。也有少數學者基于扎根理論進行研究,如鄔超等以磧口古鎮為例,利用扎根理論和因子分析等方法對磧口古鎮旅游形象進行了探究[9]。
文章對國內外文獻整理總結,將現有研究的思路和角度等多方面內容進行匯總,如圖1 所示。
由圖1 可知,在線評論在旅游管理中的研究路線主要包括以下幾個步驟。

圖1 在線評論研究路線
(1)理論研究。理論研究是展開研究的基礎,理論研究可以明確已有的研究角度,發現研究中的不足,有利于更好地開展研究工作。
(2)在線評論文本信息的獲取。多通過數據爬蟲的方式獲得評論,網絡爬蟲借助Python 或者八爪魚采集器完成,也有少數學者選擇人工復制評論。有些研究以線下問卷或訪談的形式收集游客對旅游地的評價,再與線上評論相結合,以獲得更加全面的數據。
(3)文本預處理。文本預處理為下一步文本挖掘奠定基礎。文本的預處理主要包括以下方面:刪除無意義或者重復的評論、中文分詞和去除停用詞等。所謂無意義評論,指一些與旅游無關的評論。中文分詞多采用Jieba 分詞。關于去除停用詞,可借鑒哈爾濱工業大學停用詞庫、百度停用表等停用詞詞庫,結合研究文本信息的實際情況構建停用詞庫。
(4)文本分析。通過文本分析挖掘評論文本中的有效信息,探究研究主題。文本分析主要包括以下幾種情況:文本基本特征的認識、主題提取、情感傾向分析、實證分析驗證變量之間的關系、基于扎根理論的研究等。文本基本特征的認識多借助于Rost Content Mining 軟件做高頻詞分析和語義網絡分析,提取文本中高頻出現的詞語,這些高頻詞語反映了游客的關注度,通過制作詞云形象明了地展示高頻詞的做法也不在少數。語義網絡分析可以構建詞語之間的聯系,此軟件也可以做情感傾向分析,也有學者利用Python 的SnowNLP 第三方庫計算評論文本的情感得分,把評論分為積極、消極和中性評論。多數學者采用構建情感詞典的方式計算情感得分,把文本型數據轉化為數值型數據以進行更深層次的分析。除此之外,也有基于機器學習探究文本情感傾向的研究,比如,利用樸素貝葉斯和支持向量機的方法。當然,構建情感詞典和機器學習相結合的方法也未嘗不可。文本主題的提取是為了快速了解評論的主題,三層貝葉斯概率模型(Latent Dirichlet Allocation,LDA)通過詞與詞之間的共現率提取語料庫的主題,是最常用的文本主題提取模型之一。實證分析的運用主要是通過相關分析和回歸分析等驗證變量之間的關系。
雖然每個研究都有所不同,但是現有文獻的研究技術路線圖大都包括理論研究、數據獲取、文本預處理、文本分析4 個階段。
文章通過梳理總結國內外旅游行業在線評論的研究成果,介紹了當前學者主要的研究角度和研究思路。隨著當前在線旅游平臺的逐漸完善,在線評論數據不斷增多,對在線評論進行深度挖掘,可以了解游客的偏好和態度傾向,對旅游目的地的形象改善、快速發展以及酒店銷售等方面起著重要作用,對旅游行業的在線評論進行研究具有重要價值。