■ 楊崇美(山東外事職業大學)
目前旅客們更趨向于使用移動網絡來預定自己旅游所需要的用品、并在體驗產品之后抒發自己的真實感受、發表不同的觀點來進行評價交流活動。這些大規模的碎片化語言也因此逐漸的成為了研究方面的“大數據”。關于這方面的數據的旅游研究總共三個主題。第一方面是對網絡上面的評價進行直接的數據分析,由此便可以將重點旅游區域或旅客的感知特性與用戶體驗的互相關聯了解清楚。第二方面是利用語言學中有關文本的特殊分析方法和計算機技能結合為一體,而后進行大數據研究分析,如用自然語言處理工具,按照詞頻統計、有關詞語的匯聚,提出網站內容中包含的問題。第三方面是通過聚集制定專屬數據,構建出數學模型,由此來分析游客的出行和消費特征與愛好。從事與旅游業相關的人員即可通過挖掘這一方面的數據,來掌握旅客滿意度和預估市場的主要需求,進而跟進服務提升和營銷策略改造。但是,目前的研究基礎在市場管理、市場營銷等方面的研究領域,重點在于優化旅游企業,而還未實現從企業層面上升到空間層面,因此將此次研究數據作為旅游目的地方面的整體評價。本文將從這里啟程,探索如何將旅游大數據應用于開啟創新的方法,由此來構建旅游目的地的整體評價模型。那么對旅游研究的情感分析分類的初步擬定,需要收集大量的旅客在社交媒體與旅游網站上發表的相關旅游評論,盡可能的來剖析旅客的情感基本征象,因此獲得更先進的關于旅游目的地測評的方法。在此基礎上,利用第三方有關的數據,對其使用的模型進行初步驗證,以此強化該模型的說服力與可信度。
之前的旅游調查慣用訪談還有調查問卷等形式進行研究,盡管獲得的信息精確,但是信息的豐富程度以及數量均非常有限。并且,因為涉及到所受訪者的個人詳細信息,所以調查的過程中存在著私密性不足的問題,這一點的存在非常重要。因此可信度也會受到影響,反而顯得很局限。而與之相比,旅客在體驗旅游的過程中發表的切身體驗的評論,恰恰很新鮮、真實,所以逐漸成了測評旅客們滿意度和旅游服務質量的最佳新鮮素材。尤其是旅客在旅游結束時由內心發出的對景區以及服務質量的簡短網絡評論,不僅短小精煉、數量多、準確度高,而且許多人在進行網絡評論的同時附帶了評分。這些個頗具特色的大數據,漸漸地成了咨詢和旅游服務研究領域重點關注的可觀的信息源。但是并不能以此判來斷線上網站的旅游評分是真實地反映游客心理的最佳評判依據。如何從大量的旅客評論中發現旅客情緒特征的信息,是當下有關于旅游大數據評價研究的新挑戰。欲做到這些,還需從心理學的情感理論研究開始,利用語言學中在線文本分析方面的技術,共同來構建屬于旅客情感評價的分析模型。現在主要對游客情感研究、線文本分析和情緒理論研究這三者進行論述,進而探索研究制定的切入點。
經多次情緒體驗的疊加后,人會對某一事物形成較為理性的、有組織的、較為穩定的體驗態度,稱為情感。情緒是人對外界事物感知過程中產生的即時的、感性的心理反應。經文字語言發表的旅游評論,是介于情緒、情感中的心理態度的表達,更接近情感,但因體驗時間較短,并不能完全替代情感。研究的目的是利用海量網絡數據來探求旅游目的地的測評方法,因此分析邏輯與研究LIWC大體上是一致的,均是提前擬定出更加需要分析的情緒分類,而后在進行詞匯捕獲。
基于當面的大數據庫應用于旅客情感研究領域,這些研究并不成熟,必須基于現存的數據挖掘技術以及旅游學科、文本分析的特征進行特定的改進。目前缺乏足夠的理論基礎,來開展對演變機制和旅客情緒產生變化的研究。在此基礎上,三個關鍵問題需要解決。第一,現有大數據的游客情感分析研究缺乏證實,大多數都會利用機器學習技術,以網絡的評分作為評價的參照標準。但是網上評分極有可能因為大眾“社交積極傾向”的影響,而出現過度樂觀的評價。同時,若這些網絡評論與評分均來自于一個旅客,必定存在著某種程度上的循環論證。并且,有關機器的學習法非常局限,其建模方式全依賴計算機自動編譯算法來構建分型,但這樣的結果只能用來進行整體判斷,其內在邏輯是伸手不見五指的黑洞。第二,深受人們鐘愛的情感詞庫是較為完整的詞庫,對應用于旅游的專屬詞庫還未完善,不能精確捕捉在“非慣常環境下”行為的情感特征征象,其游客情感和其他的情感分型方法效果是相似的,并不能突出體現旅游活動的特異性。在普通詞庫中,“刺激”一詞常與“驚訝”相關聯,但在旅游相關的活動中,“刺激”則是“興奮”的表達。第三,基于現在對文本情感以及情緒分類方面的研究極多,但是,研究并未加入語義邏輯和情感強度的分析,實際上未考慮關于語言表述中副詞、連詞等系列的虛詞對于情感表達方面的影響,因此就容易導致錯誤判斷,對情感強度控制不夠精準。
在數據來源方面,選擇目前國內旅游評論較為豐富的旅游電子商務門戶網站。通過研究組織對數據的選擇性,選取了三個評論最豐富、知名度較高的旅游網站:攜程網和百度旅游網、去哪兒網。如果對比著來看,縱使阿里旅游擁有海量的騰訊用戶,單單就以其入市場時間短、用戶評論不夠活躍、而窮游等知名旅游網站又長游記為主,在用戶整體評價和開展情感分析上加大了難度,也不能入選。
因為大眾在社交網絡上的評論大多都具有選擇性,社會比較容易認同積極的情緒,積極的人,致使人們有選擇性的在社交網絡上只顯示積極向上的一面。因此,直接計算正負面詞語的數量,去判斷整體評價的情感特點缺乏科學性,將會增加正面評論,影響結果,因此要對正負面詞匯的比例進行系數矯正。本研究所獲得的初步詞頻統計的結果也證實了此觀點。這8個旅游監測點的評價統計,正面詞語總量為負面詞語總量的7.19倍。假設直接把詞匯總數當做評價的標準,結果會夸大正面情緒感。本文從實驗的角度來判定誤差的頻度,擬定三個情感系數,分3倍、4倍、5倍,即當評論中的正面評價比負面評價的3倍、4倍、5倍多時,才可以將此條評論作為正面評論。
根據游客在那些旅游剛剛結束后,在網站上進行評論,還有對旅游目的地的打分,操作者即進行的直接來判斷。不同網站的評分模式與方法基本上一致,分值界定為1~5。其中1為最低分,表明游客極為不滿意;5為最高分,表明游客十分滿意。此次研究將中間值3分作為分界線,獲得4分或5分的評論被判定為正面評論,獲得3分的為中性評論,獲得1分或2分的為負面評論。這個數據可以直接對網站上面的結果進行分析,以此來建立分析模型。
本研究最大的價值是為旅游目的地評價研究選定了新的道路,并且旅游大數據的可用性也得到了很好的證實,為理論推進、實踐踐行提供了相關方面的科學依據。本研究不僅為后面的研究奠定了基礎,并且修正了此情感分析模型,而且在情感邏輯和語義方面也進行了探索,此模型比傳統方法更加準確地。能夠更好地掌握游客對旅游目的地的整體評價,成為了旅游分析大數據研究的大突破。