李佩镅 陳 松(通訊作者)
(海南經貿職業技術學院旅游管理學院,海南 海口 571127)
隨著計算機科學和互聯網技術的飛速發展,大規模的結構化和非結構化數據不斷地產生、記錄、存儲和積累,形成了大數據,開啟了一個全新的時代。在這樣的大數據時代,各種大數據已經被廣泛應用于科學、工程、醫療、管理、商業、旅游等領域(Hashem 等, 2015),幫助決策者在評價績效、設定目標和預測未來情景等方面起到不可忽視的作用(Volo,2019),得到了學者們的廣泛認可。
就旅游領域而言,大數據的應用極大地改變了基于傳統數據的傳統旅游研究。例如:戢曉峰等(2019)以云南省為例,分析公路交通流大數據特征,為該省節假日旅游管理提供啟示;李春曉等(2020)對七萬多條游客在線評論進行挖掘分析,揭示了這些入境游客的體驗感知差異,為旅游目的地管理實踐提供了建議。然而,即使已經有不少學者和業內人士開始關注“大數據+旅游”,并且將大數據樣本用于分析旅游者行為(Pomfret等,2016)、旅游需求(Goh 等,2011)、具體類型的旅游活動如志愿者旅游(Wearing 等,2013)等,但是學術界對大數據在旅游研究中的應用尚缺乏系統的文獻綜述(Li Jingjing 等,2018)。為此,本文將嘗試從多個視角回顧旅游研究中大數據類型的應用,并從研究重點(旅游問題)、數據特征、分析技術、挑戰和進一步發展方向等方面對每種類型進行系統分析。
依據現有的文獻,大數據在旅游行業的研究應用可以從兩個視角出發。第一,消費者的角度,主要表現為用戶原創內容(User Generated Content,UGC),即消費者主動地在旅游網絡平臺上提供相關的在線文本數據和在線照片數據。第二,運營商(設備)的角度,即在線用戶的操作數據被旅游運營商進行記錄與分析,例如消費者在網頁瀏覽、搜索、預訂以及購買等相關交易數據;同時,消費者訪問的數據會在如傳感器等對應的設備上得以留存,為運營商的分析決策提供依據。依據以上的簡單分類,本文將從消費者和運營商兩個角度對大數據在旅游行業的應用做對應的研究述評。
在數字時代,網絡和社交媒體的繁榮發展極大地促進了人們的旅行分享,用戶原創內容的數據作為旅游分享大數據的主要類別,被廣泛應用于旅游研究,主要包括兩類:(1)產品評論、社交媒體博客等在線文本數據;(2)照片分享網站發布的在線圖片數據。
(1)在線文本數據
社交媒體和在線旅游網站為游客傳播各種旅游相關信息、發表旅游體驗等提供了一個交流的平臺。游客可以表達他們對旅游產品的態度,也可以在Twitter 和新浪微博等博客上分享他們的旅游觀點和經歷,提供給潛在游客有價值的信息。這些以文本形式呈現的網絡評論數據、博客數據等相關數據構成了旅游研究中的一種特殊類型的大數據(Li Jingjing 等,2018)。以下將從數據特征以及分析技術兩方面進行述評。
從數據特征來看,旅游行業的在線文本數據主要來源于在線旅游平臺和社交媒體。一方面,學者們通常從TripAdvisor(國外最大且最受歡迎的旅游社交媒體之一)、去哪兒網、攜程、馬蜂窩、大眾點評等獲取相應的數據資源。例如,Lv Xingyang等(2020)通過爬取攜程網上某酒店的評論數據,進行文本分析后得出含有觸覺線索的在線評論將顯著影響消費者在線預訂酒店客房的意愿。另一方面,對于社交媒體的平臺數據,Twitter 和新浪微博是兩個主要來源。例如:Chua 等(2016)使用Twitter 數據挖掘旅游地理信息,捕捉游客情緒;Cheng等(2015)利用新浪微博來探索潛在的客源區、旅游新聞的生命周期以及游客對旅游政策變化的態度。
為了提取和利用在線文本數據中隱藏的有用信息,多種文本挖掘技術被廣泛應用于旅游研究,包括三個典型的階段,即數據收集、數據挖掘以及結果展示,其中最重要的數據挖掘過程又包含數據預處理和數據建模兩個子步驟。第一步是采用網絡爬取技術從相關社交媒體網站(包括旅游相關評論和博客)收集在線文本數據。例如Lv Xingyang 等(2020)使用Python編程語言的網頁爬蟲來獲得酒店相關的評論。第二步是數據挖掘,通過數據預處理和數據建模兩個階段,對收集到的在線文本數據進行分析,提取旅游研究有用的內容。其中,在數據預處理方面,針對不同的研究目的學者們采用了不同的技術,其中比較流行的操作是利用在線文本數據對現有旅游文獻進行數據清洗整理、數據特征提取(包括詞干提取和詞性標注)、數據降維等。例如,圖1 展示了攜程在線旅游平臺的酒店評論數據,通過預處理中的數據特征提取,學者可能對這一評論中的星級/分數、評論者特征、評論時間等數據感興趣。接下來,進行數據建模是文本數據挖掘的另一個關鍵階段,旨在挖掘文本中有趣的信息,現有旅游研究的典型技術有情感分析、聚類分類、關聯模型以及三層貝葉斯概率模型(LDA)等分析手段。最后一步為結果展示,即根據前兩步采集與挖掘的結果,學者們依據各自的研究目標,對分析結論進行可視化的展示,為旅游實踐提供可借鑒的建議。文本挖掘與分析的一般步驟展示詳見圖2。

圖1 攜程在線旅游平臺某一酒店的用戶評論數據樣本

圖2 文本挖掘與分析的一般步驟展示
(2)在線圖片數據
除了在線文本數據,其他用戶原創內容數據,例如在線圖片數據也在社交媒體上發布和傳播。旅游者上傳的照片包含了用戶相關信息(如照片ID 或用戶ID)、時間信息(拍攝/上傳日期)、地理信息(具體定位)和文本信息(標題、描述和標簽)等有用信息(見圖3),為研究旅游者行為、旅游推薦(如旅游景點、旅游計劃等)和旅游營銷提供了新的視角。因此,非結構化的在線圖片數據在旅游研究中引起了越來越大的關注。

圖3 微博旅行欄目某用戶上傳的圖片數據樣本
為了發掘旅游研究中隱藏的有價值信息,學者們采用多種照片數據挖掘技術構建旅游推薦系統,包括數據預處理、元數據聚類和軌跡發現三個主要步驟(Li Jingjing 等, 2018)。例如,徐敏等(2020)基于地理標記照片數據,采用照片數據挖掘技術中的多種分析方法如GIS 空間分析、多元回歸等,對蘇州游客的流動數據進行了實時分析。圖4 展示了旅游研究中使用在線照片數據分析的典型過程。
首先,從照片共享網站收集的原始數據進行數據清理、形成和文本挖掘等預處理,提取出照片中有價值的元數據,探究游客的興趣和動機,為接下來的兩個步驟做好鋪墊。其次,從三個主要角度對提取的元數據進行聚類分析:旅游景點的空間維度、旅游者出發地的用戶維度、旅游持續時間的時間維度。最后,研究旅游軌跡,即旅游景點的順序和時間間隔,以幫助決策者制定合適的旅游計劃。

圖4 文旅游研究中使用在線照片數據分析的典型過程
旅游行業的運營商(設備)的交易數據是旅游研究中另一種有價值的大數據類型,記錄與旅游相關的運營(或旅游市場中的交易、活動和事件),如網頁搜索、網頁訪問、在線預訂和購買等。相應的交易數據已經被廣泛用于優化搜索引擎(SEO)、預測旅游行為和促進 旅游營銷。
以旅游在線網頁的訪問、預訂和購買的操作數據為例,網頁訪問(或瀏覽)數據幫助運營商訪問者的在線瀏覽行為,即潛在游客是如何發現網站、如何與網站互動,從而在調整網站的內容和設計方面改善網絡營銷。Plaza(2011)基于回歸模型,研究了從相關鏈接的參考網站、搜索引擎網站來的潛在游客回訪該網站的影響因素。在線預訂數據,即旅游網站記錄了關于在線預訂操作的重要信息,這些信息已被證明對酒店管理者和投資者都有用。Ghose 等(2012)利用美國酒店預訂數據集(銷售價格和數量),結合社交媒體數據,通過隨機系數混合結構模型,推斷出酒店位置和服務特征的重要性。景點銷售數據,即通過分析景點門票銷售數據以改善目的地管理。例如,Shih 等(2009)基于回歸模型,估計了每天的天氣變化對密歇根州兩個滑雪勝地纜車票銷售的影響。酒店設施的消費數據,比如連鎖酒店中單個酒店每月用電量和用水量的大數據,Kahn 等(2016)通過分析酒店用電數據,揭示了酒店能源使用的低效性。
從以上已有的研究來看,旅游行業的運營商(設備)數據已經被引入到旅游研究中,并顯現出各自的優勢,但相關的文獻仍較為缺乏。可能的原因在于這類大數據主要掌握在少部分的旅游組織和政府部門,學者們由于隱私問題而難以獲得。在這樣的背景下,學術界和產業界的互惠合作不僅可以極大地推動這一新興研究(即在旅游研究中使用交易數據的探討),而且可以有效地解決旅游業的實際問題。
經過以上的述評,我們發現,盡管大數據旅游研究有了一定程度上的改進和創新,但仍有很大的發展空間,特別是在研究領域的拓展以及數據統計的分析兩個角度。
首先,旅游需求預測、游客情緒分析、旅游行為分析和旅游推薦是旅游大數據研究的熱點問題。然而,利用有價值的大數據也可以很好地解決其他一些重要問題,如旅游網絡營銷、景點規劃、旅游產品設計和旅游承載能力估算等。此外,除了旅游研究的這些傳統方面,使用更智能的方法進行在線營銷和數據驅動營銷也是一個很有趣的話題,并且非常具有實際意義,未來的研究可以在類似的話題上有所拓展。
其次,目前旅游統計分析的發展較為緩慢,而旅游業界人士對數據指標,尤其是對數據指標背后造成的原因及影響這一話題感興趣的人日趨增多,這為學術界探討旅游大數據留下了空間。然而,除了機遇還有不少挑戰,例如如何將這些數據的使用從“大”轉向“智能”,增加信息層次,促進實時使用和適當傳播。在傳統測量方法的舊時期,旅游業的私人和公共利益相關者應該預見到,將游客數字軌跡獲得的信息與旅游公司的數據庫和信息系統實時結合起來的巨大機會。游客的行為數字足跡與行業數據、數據分析師的能力和旅游學者的理論優勢經過充分融合,將引導旅游景觀重新設計、完善目的地建設與管理等諸多現實問題(Volo,2019)。數據共享、數據提取和數據分析的挑戰已經被探索,盡管是以一種不完整和碎片化的方式。因此,Mariani 等(2018)呼吁學者建立概念框架,以確保理論建設、增強定制和智能服務供應。基于概念框架的數據分析將使旅游大數據不僅可以用于旅游在線營銷、設計和建議,還可以用于需求預測、預防和應急研究(Li Jingjing 等,2018),一個完整的旅游數據系統(統計、指標和大數據)仍將是學者和從業者優先考慮的問題。