宋瀟瀟 李云鵬 李勇



[摘 要]大數據為旅游研究提供了廣泛的數據來源,拓展了旅游研究的廣度和深度。然而,對基于中國本土旅游大數據應用而形成的學術研究成果及其研究趨勢卻缺乏系統性的認識和評判。文章以中國知網(CNKI)為數據來源,系統性地總結了發表在中文學術期刊上的旅游大數據的學術研究進展,并在此基礎上提出未來的研究方向。研究發現:年度發文量總體上呈增長趨勢,2018年為顯著增長點。在數據類型上,主要分為用戶生成內容數據、設備數據和運營數據三大基本類型,其中,用戶生成內容數據已被廣泛應用于旅游研究,設備數據和運營數據的使用仍需深入挖掘。在數據來源上,主要為攜程旅行、馬蜂窩旅游網和新浪微博等社交媒體,并且大多數研究依靠單一的數據來源。在研究方法上,計量經濟模型等傳統定量方法仍是主流分析方法;定性分析和混合研究方法,尤其是文本分析和機器學習等跨學科方法使用較少。在研究主題上,研究內容呈多元化和碎片化特點,包括旅游感知與體驗、旅游者行為、旅游流、旅游預測、評論管理、網絡關注度、旅游資源分布和模型構建與改進等多主題。未來研究應從數據、方法和理論多視角深化旅游大數據研究,包括加強產學研合作和多源數據的協同共享、文本分析和機器學習等跨學科方法的使用、交叉學科研究和理論構建等。
[關鍵詞]旅游;大數據;數據類型;數據來源;分析方法;應用領域
[中圖分類號] F592.7 [文獻標識碼] A [文章編號] 1674-3784(2023)04-0123-13
大數據作為知識經濟時代的重要資源,是社會生產和生活過程中產生的海量、多源數據的集合。大數據具有體量大(Volume)、類型多(Variety)、速度快(Velocity)和價值密度低(Value)的4V 特征[1],是對傳統數據的有力補充,能夠為增強決策過程提供有價值的見解,已經被廣泛應用于金融、教育、醫療和交通等多個領域。大數據在旅游領域中的應用也越來越普遍和深入,為旅游研究提供了重要的數據來源,拓展了旅游研究的廣度和深度。近年來,旅游大數據研究成果頗為豐富[2-3],并呈現鮮明的跨學科、多元化與碎片化特征。鑒于此,對大數據在旅游研究中的應用這一研究主題進行全面、系統的文獻回顧,具有梳理性、整合性和指導性的學術價值和實踐價值。
已有學者對現有研究成果進行了系統性回顧與總結,并進行了綜述,這些綜述文章大致可以分為兩類:一類是梳理大數據在旅游研究中的應用,主要從數據來源、數據類型、研究方法和研究主題等方面進行系統性綜述,并提出未來的研究方向[4][5]301,[6]168,[7];另一類是對單一的旅游大數據類型或應用領域進行梳理與總結[8-9][10]37。上述綜述文章為理解旅游大數據的學術研究進展提供了重要方向,但仍存在一定的局限性。這種局限主要體現在,學界在對旅游大數據研究進行分析和綜述時,大多基于英文旅游大數據學術研究,在客觀反映中國本土旅游大數據發展特色方面還不足。盡管少數學者已經嘗試對中國旅游大數據的實踐與應用研究進行評述,但尚難以形成系統性和指導性的知識體系。事實上,基于對大數據實踐的豐富經驗和多維應用,中國旅游大數據學術領域已經取得了豐富的成果。因此,本研究遵循“研究概況→旅游大數據基本類型及其來源→旅游大數據分析方法→大數據在國內旅游研究中的應用領域”的分析框架,對發布在中文學術期刊上的旅游大數據(以下簡稱“中文旅游大數據”)的學術研究進展進行系統性梳理,并在此基礎上提出未來的研究方向。
1 數據來源與研究方法
本研究采用系統性文獻回顧方法,以2007年(國內最早出現旅游大數據學術研究的時間)至2021年發表在中文學術期刊上的旅游大數據代表性文獻為研究對象,系統梳理了國內旅游大數據研究現狀。文獻檢索與篩選過程主要包括以下步驟:第一,選擇中國知網(CNKI)為數據獲取來源。第二,期刊來源類別同時選擇“核心期刊”“CSSCI”①“CSCD”② ,不包括著作專題章節、會議論文集、學位論文等,時間跨度為2021年及其之前的所有年份。第三,使用多個關鍵詞組合進行高級搜索,主要包括“旅游/酒店/共享住宿/民宿/Airbnb③ + 大數據”“旅游/酒店/共享住宿/民宿/Airbnb+ 在線評論”“旅游/酒店/共享住宿/民宿/Airbnb+ 社交媒體”“旅游/酒店/共享住宿/民宿/Airbnb+ 百度指數”“旅游/酒店/共享住宿/民宿/Airbnb+POI④ ”(檢索時間為2021年4月)。第四,為了避免遺漏重要文獻,筆者分別于2021年8月、2022年1月和2022年4月重復上述步驟進行補充檢索。此外,在閱讀文獻的過程中采用滾雪球的方法補充相關重要文獻。需要指出的是,《旅游論壇》和《旅游導刊》兩本期刊不在以上期刊篩選規則中,但是鑒于它們被國內部分高校及學者們作為中文旅游研究成果發表的推薦期刊,本研究將《旅游論壇》和《旅游導刊》上發表的旅游大數據研究也納入研究對象。經過上述檢索和篩選,共得到702篇文獻。對于這些文獻,通過閱讀題名、摘要、關鍵詞和正文內容來剔除重復的、相關程度低的以及非學術研究類(期刊短篇評論性文章、筆談文章等)的文獻,共保留了311篇發表于中文學術期刊的旅游大數據實證文章和文獻綜述類文章作為最終的研究樣本。
2 研究概況
2.1 時間分布
圖1為中文旅游大數據學術研究的年度發文量曲線。整體上,中文旅游大數據學術研究的年度發文量呈增長趨勢,這表明旅游大數據這一研究領域越來越受到學者的關注。第1篇關于中文旅游大數據的研究論文,2007年發表于《旅游科學》,其作者李君軼和楊敏利用Web數據挖掘技術對旅游需求進行了分析和預測[11]。根據Li等學者的研究[5]303,英文旅游大數據研究的最早發表時間為2007年,這表明國內外旅游大數據研究的起步時間是一致的。此外,中文旅游大數據研究的發文數量自2018年起顯著增長,之后每年的發文數量保持較為穩定的水平。
2.2 期刊來源
研究樣本共包括101個期刊的311篇學術研究,涵蓋經濟、管理、地理、計算機、統計等不同學科,呈現跨學科特點。從圖2可以看出,旅游大數據研究載文量排名前十的期刊為《旅游學刊》(29篇)、《經濟地理》(22篇)、《旅游論壇》(16篇)、《地域研究與開發》(14篇)、《資源開發與市場》(12篇)、《地理與地理信息科學》(11篇)、《地理科學》(10篇)、《數據分析與知識發現》(9篇)、《南開管理評論》(8篇)、《旅游導刊》(8篇),總刊文量為139篇。在排名前十的期刊中,人文經濟地理類期刊包括《旅游學刊》《經濟地理》《旅游論壇》《地域研究與開發》《地理科學》《旅游導刊》,說明大數據對國內人文經濟地理學研究產生了深刻影響。同時,人文經濟地理類學術期刊在刊發旅游大數據研究上也具有較高的影響力⑤ 。
2.3 研究場景
大數據在旅游領域具有非常廣泛的應用場景,包括旅游景區、酒店、共享住宿和餐飲等。國內旅游大數據研究中,旅游景區是最常使用的研究場景,這主要是因為旅游景區是旅游業的核心要素,是旅游產品的主體成分,尤其是智慧景區的建設離不開大數據的支撐。其次為酒店、共享住宿和餐飲場景。部分文章未區分具體的旅游場景,而是以整個旅游目的地或多種旅游資源為研究對象。
3 旅游大數據類型
Li等學者將旅游大數據分為用戶生成內容(user-generated content,UGC)數據、設備數據和交易數據3 種類型,分別由用戶、設備和運營產生[5]305。鄧寧等學者將常見的大數據類型劃分為移動通信運營商數據、在線旅游平臺數據、用戶生成數據、交通數據、消費數據、搜索引擎數據和旅游供應商的內部數據[12]3-4。Sivarajah等學者指出,大數據包括文本內容(即結構化、半結構化以及非結構化)和多媒體內容(視頻、圖像、音頻)[13]。基于上述文獻,本研究將旅游大數據的基本類型分為UGC數據、設備數據和運營數據,從而構建了一個更具概括性與完整性的旅游大數據分類標準體系(圖3)。
其中,UGC數據主要包括文本數據、圖像數據、數值數據、音頻數據和視頻數據;設備數據主要包括手機基站定位數據、興趣點(point of interest,POI)數據、基于位置的服務(location based services,LBS)簽到數據、GPS數據和遙感數據;運營數據主要包括網絡搜索數據、在線預訂數據、網站瀏覽數據、客流量數據和平臺描述性運營數據。這一劃分標準與現有分類相比,涵蓋類別更為全面且劃分更為清晰簡潔。比如,相較于Li等學者的分類[5]305,本研究在UGC數據中新增了數值數據、音頻數據和視頻數據。與鄧寧等學者的分類[12]3-4 相比,本研究將網絡搜索數據、在線預訂數據、網站瀏覽數據、客流量數據和平臺描述性運營數據等統一歸入運營數據,劃分更為清晰簡潔。
結合本研究所劃分的旅游大數據的基本類型,進一步地梳理了它們的主要來源(圖4),可以歸納為社交媒體(UGC數據和運營數據主要來源)、通信運營商(設備數據主要來源)、地圖服務商(設備數據主要來源)、搜索引擎(運營數據主要來源)、旅游企業(運營數據主要來源)和大數據平臺(設備數據和運營數據主要來源)。社交媒體包括在線旅游服務平臺、旅游社交分享平臺和在線生活服務平臺,通信運營商包括中國移動、中國聯通和中國電信,兩大地圖服務商為百度地圖與高德地圖,搜索引擎主要包括百度與谷歌,旅游企業包括旅游景區、酒店和旅游科研機構等,大數據平臺包括地理空間數據云、騰訊位置大數據等。
3.1 用戶生成內容(UGC)數據
UGC數據包括不同終端用戶生成的數據,可以分為文本數據、圖像數據、數值數據、音頻數據和視頻數據。總體上,文本數據是使用最為廣泛的大數據類型之一,包括在線評論、網絡游記和游記攻略等,具有時效性強、樣本量足和信息量大等特點,能夠反映旅游者的需求與偏好[14]1092。近年來,圖像數據也越來越引起學者們的重視,旅游者拍攝的照片具有內在主觀性,是旅游者表達對旅游目的地偏好和旅游體驗的另一種重要體現。圖像數據能夠印證文本數據的合理性,增強結論的可信度。此外,被分析的數據還包括評論數量和分數等。音頻數據和視頻數據尚未被廣泛使用。雖然UGC數據具有內容豐富、可獲得性高等優點,但也存在一些缺點。一方面,文本、音頻和視頻等UGC數據多為非結構化數據,具有格式多樣化和處理流程復雜等特征,因而具有較高的處理難度;另一方面,信息過載可能會造成數據質量難以衡量,比如在線評論中會摻雜虛假信息和廣告等,需要建立過濾和監管機制以便有效識別這些無效信息。
UGC數據主要來源于各大社交媒體,包括在線旅游服務平臺、旅游社交分享平臺和在線生活服務平臺等。在線旅游服務平臺是獲取UGC數據的最主要來源。其中,攜程旅行是旅游者預訂旅游服務和搜索信息的重要途徑,能夠保證樣本的數量和質量,因此是當前旅游研究使用最多的數據來源平臺。其他在線旅游服務平臺包括去哪兒旅行、TripAdvisor(貓途鷹)、同程旅行、途牛旅游網、Airbnb(愛彼迎)、小豬民宿、途家民宿、螞蟻短租網、Booking.com(繽客網)等。旅游社交分享平臺和在線生活服務平臺也是重要的數據來源。社交分享平臺中,新浪微博能夠生產大量的旅游內容,已經成為社會化旅游的重要生態節點,越來越多的研究使用新浪微博大數據。馬蜂窩旅游網擁有豐富、全面的旅游攻略信息和網絡游記數據,常被用于旅游研究。還有的研究是通過博客和六只腳社區等途徑獲取數據。在圖像數據的獲取上,許多研究使用圖片分享網站Flicker和Panoramio。主要的在線生活服務平臺包括美團網和大眾點評網,可以借此獲取在線評論數據和POI等地理位置數據。
3.2 設備數據
設備數據包括手機基站定位數據、POI數據、LBS簽到數據、GPS數據和遙感數據。手機基站定位數據可分為信令數據(位置變換信息)、話單數據(通話詳細記錄)和話務量數據(匯總性手機通話或上網流量數據)[10]39,[15],具有信息實時性、真實性、準確性、連續性和全覆蓋性等特點。中國移動、中國聯通和中國電信三大通信運營商是手機基站定位數據的主要來源。手機基站定位數據在旅游研究中的應用處于探索階段,現有研究中使用最多的是手機信令數據和脫敏通信記錄數據。手機基站定位數據對于旅游研究具有重要價值,但是在獲取和使用過程中也面臨諸多挑戰,如獲取難度大、獲取成本高、個人隱私泄露等問題。使用此類數據時需做好數據脫敏工作,保護個人隱私。如何有效辨別手機用戶是否為旅游者是關鍵也是最困難的問題。POI數據包括地理數據點的名稱、經緯度、地址和分類等信息,具有地理信息精度較高、數據量豐富等特征,近年來使用POI數據的研究逐漸增多。高德地圖與百度地圖這兩大地圖服務商是POI數據的主要獲取來源。LBS簽到數據也是基于位置服務的核心數據之一,簽到數據能夠映射用戶的旅游意向與偏好,為旅游流和旅游者時空行為研究提供新的數據源[16]。目前,應用最為廣泛的是新浪微博簽到數據。GPS數據可以通過手持GPS追蹤設備和支持GPS的移動應用程序獲取,具有精細度高和連續性等優點,在揭示旅游者時空行為特征方面具有優勢,因此常被用于旅游行為研究。也有研究使用遙感數據,其遙感數據大多來自地理空間數據云等大數據平臺。
3.3 運營數據
運營數據主要包括網絡搜索數據、在線預訂數據、網站瀏覽數據、客流量數據和平臺描述性運營數據。大部分運營數據獲取難度大,在旅游研究中的應用有限。這可能是因為大多數運營數據由旅游經營者(酒店、旅行社和景區管理者)和政府部門控制,可獲得性較低[5]317,數據壁壘造成的“信息孤島”現象已經成為大數據應用面臨的主要問題。作為運營數據的一部分,基于搜索引擎的網絡搜索數據獲取門檻相對較低。主流的網絡搜索數據來自百度指數和谷歌趨勢,國外研究主要使用谷歌趨勢,國內研究主要使用百度指數。百度指數依托百度搜索引擎,是以百度海量網民的搜索行為數據為基礎的數據分享平臺。通過計算各個搜索關鍵詞在百度搜索引擎中的加權頻次,百度指數可以一定程度上反映搜索者的潛在需求和關注度。因此,百度指數被學者們廣泛使用。在研究旅游需求與網絡搜索之間的關系時,選取恰當的網絡搜索關鍵詞至關重要。當前關鍵詞的選取方法主要有技術取詞法、直接取詞法和范圍取詞法[17]94。在線預訂數據、網站瀏覽數據、客流量數據和平臺描述性運營數據也是重要的運營數據,主要來源于旅游景區、酒店和旅游科研機構等旅游企業。地理空間數據云和騰訊位置大數據等大數據平臺是設備數據和運營數據的來源之一。現有研究中涉及的旅游企業和大數據平臺包括各地監測平臺、政府官方網站、景區管理部門、美國地質勘探局、康奈爾大學、InsideAirbnb、地理空間數據云、騰訊位置大數據、聚數力(dataju)平臺和Glovis網站等。
4 旅游大數據分析方法
旅游大數據的處理與分析遵循“數據獲取→數據預處理→數據分析”三步驟(圖5)。第一步,關于旅游大數據的獲取,不同來源的大數據對應不同的獲取方式。比如,社交媒體和地圖服務商提供的數據主要通過各自開放的API接口或者網絡爬蟲的方式獲取。手機基站定位數據主要由通信運營商或與之合作的監測平臺提供。總體而言,現有文獻對數據獲取部分的介紹不夠規范,部分文獻并沒有在文中明確說明所使用數據的獲取方法。第二步,在正式分析數據之前,需要進行數據預處理。對于數值數據,通常需要進行數據類型轉換、數據修正、重復數據刪除、數據分類和數據驗證等處理步驟。對于非數值型數據,比如文本數據,則需要遵循重復文本刪除、文本分詞、詞性標注和停用詞刪除等處理步驟。圖像數據的處理流程主要包括重復圖片刪除、圖片元數據和圖片評論清洗等步驟。第三步,對數據進行正式分析。目前使用的分析方法包括定量分析法、定性分析法、文本分析法、機器學習方法和社會網絡分析方法等。其中,定量分析法在國內旅游大數據研究中占主導地位,社會網絡分析方法經常被用于分析旅游流網絡結構特征,而定性分析法、混合研究方法以及文本分析法和機器學習方法等跨學科方法的使用仍有待加強。
4.1 定量分析法
傳統定量分析法仍然是目前主流的分析方法,包括各種計量經濟模型和GIS與空間分析法等。現有研究中使用的計量經濟模型與方法包括多元線性回歸、負二項回歸、有序概率單位(Probit)回歸、分位數回歸、向量自回歸(vector autoregression,VAR)、自回歸求和移動平均模型(autoregressiveintegrated moving average model,ARIMA)和方差分析等。GIS和空間分析法可實現空間數據分析,經常與數理統計結合分析,包括最近鄰指數、核密度估計(kernel density estimation,KDS)、 熱點分析(Getis-Ord G i* )、莫蘭指數(Moran's I)、LISA 集聚圖、柵格計算、緩沖區分析、標準差橢圓和地理探測器等空間分析算法。主要使用的分析工具包括SPSS、Stata、Eviews、ArcGIS、Geoda和Arcmap等。
4.2 定性分析法
在旅游大數據研究中,定性分析法主要指基于扎根理論的編碼方法。僅有少量研究使用單一的定性分析法,比如使用NVivo定性研究軟件進行編碼分析。另外一些研究將基于扎根理論的編碼與文本分析法或社會網絡分析方法相結合。
4.3 文本分析法
文本分析法是分析文本大數據的重要方法,包括詞頻分析、詞頻-逆文檔率(term frequency-inversedocument frequency,TF-IDF)、產生詞向量的相關模型(Word2Vec)、主題模型、情感分析和語義網絡分析等。由于旅游平臺上有大量評論、攻略、社交數據,文本數據是使用最多的旅游大數據類型,因此文本分析法在旅游大數據研究中的應用也較為普遍。具體而言,詞頻分析是文本挖掘的重要手段,是最基礎也是目前使用最為廣泛的文本分析法。主題模型在主題識別、語義挖掘方面具有顯著的優勢。
現有研究主要運用隱含狄利克雷分布(latentdirichlet allocation,LDA)主題模式從文本中挖掘用戶信息,對詞語進行主題聚類,從而實現主題識別和分類。目前,主流的文本情感分析方法包括基于情感詞典的情感分析、基于機器學習的情感分析和混合方法[18]179。語義網絡分析主要以詞頻分析為基礎,關注的焦點不是詞語本身,而是詞與詞之間的關系模式[19],也是研究中經常使用的分析方法之一。現有研究多使用Stanford POS tagger軟件對文本信息進行預處理,在此基礎上使用Leximancer、ROST CM、百度AI開放平臺中的情感傾向分析API、Textblob、KH Coder、SentiWordNet、R 軟件和Protégé等軟件進行正式的文本分析。其中,ROST CM 是最常使用的文本分析工具。
4.4 機器學習方法
機器學習模型主要被用于分類和預測任務,在旅游大數據研究中的應用處于初步階段,尤其是預測模型的使用較為缺乏。支持向量機(support vectormachine,SVM)是一種有監督學習的分類器,是目前應用于旅游文本分類任務最常見的分類算法,K-means聚類和樸素貝葉斯也是使用較多的分類算法。其他機器學習分類模型包括深度神經網絡(deep neural networks,DNN)、人工神經網絡(artificialneural network,ANN)、卷積神經網絡(convolutionalneural networks,CNN)、文本卷積神經網絡(text convolutional neural network,TextCNN)、雙向長短時記憶循環神經網絡(bi-directional longshort-term memory recurrent neural networks,bidirectionalLSTM RNN)、基于景點知識的多任務聯合學習的分類模型(knowledge-based multi-taskjoint learning classification model,KB-MJLCM)等。用于預測的機器學習模型包括Lasso 回歸、XGBoost模型、BP(back propagation)神經網絡模型和基于相似用戶(similarity)、景點熱度(popular)、時間(time)的SPT 景點推薦算法等。常用的分析軟件包括Python和圖片深度學習分析工具DeepSenti Bank等。
4.5 社會網絡分析方法
社會網絡方法主要分析行動者之間的相互關系及其在整個網絡中所處的地位。學者們經常將社會網絡分析方法與旅游地理學中的GIS和空間分析方法結合使用,用于旅游流網絡結構整體特征與節點特征分析。常用的分析軟件包括Ucinet和Netdraw軟件、Gephi和DataViz可視化數據分析軟件等。
5 大數據在國內旅游研究中的應用領域
旅游大數據研究內容呈多元化特征。大數據在國內旅游研究中的九大應用領域分別為旅游感知與體驗、旅游者行為、旅游流、旅游預測、評論管理、網絡關注度、旅游資源分布、模型構建與改進和其他應用領域。
5.1 旅游感知與體驗研究
旅游的本質是為旅游者提供難忘、愉快和身臨其境的體驗,了解旅游者的旅游感知與體驗對提高目的地管理水平和聲譽、改善旅游者體驗起到重要作用。以往研究大多采用問卷或訪談等“小數據”的方式探討旅游體驗,存在研究主體主觀性和結論缺乏普適性等問題[20]。相比之下,在線評論、游記和旅游攻略等UGC數據更能夠客觀反映旅游者的旅游感知與體驗,是此類研究的重要數據源。關于大數據的旅游感知與體驗研究可大致分為3個子主題:(1)旅游景區等旅游目的地形象感知研究,主要集中在感知形象要素構成和影響因素兩個方面[21-22]。在研究目的地形象感知時,“認知-情感”三維模型,即認知形象、情感形象和整體形象已經得到了學界的基本認同[23-24]。(2)情感體驗研究,包括積極和消極情感挖掘以及影響因素等方面[25-27]。旅游情感一直是國內外旅游領域的重要研究話題,能夠深入反映旅游者的旅游體驗,并進一步影響滿意度、忠誠度、行為意向等[28]。(3)滿意度研究,主要探討滿意度評價水平以及影響因素[29-31]。
5.2 旅游者行為研究
旅游者行為是旅游領域的主流研究內容之一。信息技術的快速發展改變了旅游者的行為模式,也為旅游者行為研究提供了新的數據源。基于大數據的旅游者行為研究主要包括旅游者時空行為、旅游者偏好和旅游者行為意向等。旅游者時空行為是旅游者行為研究的重要分支,反映了旅游者在旅行過程中的時間和空間行為。基于UGC數據和設備數據的旅游者時空行為模式研究已經取得了豐碩成果。相比之下,現有研究對其影響因素的探討尚不充分。郭旸等學者的研究表明,旅游者時空行為模式特征受旅游者的客源地、旅游停留時間、景點開放時間和同伴類型等因素的影響[32]。梁嘉祺等學者發現,空間特征、時間預算和人際互動等時空環境因素能夠影響游客時空行為[33]。也有研究探討了旅游者偏好和旅游者行為意向等問題。比如,王紅麗等學者探討了房東自我展示信息主題對房客預訂行為的影響,并驗證了信任的中介機制作用[34]。
5.3 旅游流研究
旅游流有狹義和廣義之分,廣義的旅游流包括游客流、物質流、能量流和文化流等,狹義的旅游流僅指游客流[35]。大多數研究采用狹義的旅游流,即在旅游空間區域內,旅游者基于相似的旅游需求而引起的集體性空間移動現象。旅游流是大數據在旅游研究中應用的主要領域,設備數據和UGC 數據是使用的主要數據類型。旅游流的研究內容多樣,主要包括以下5個子主題:(1)旅游流時空分布特征及演化模式研究;(2)旅游流網絡結構特征及演化模式研究,這也是旅游流研究成果最為豐富的子主題;(3)影響因素與作用機制研究,現有大多數研究停留在討論旅游流特征和分布規律的層面,缺乏對影響因素的深入剖析;(4)旅游流預測研究;(5)旅游流空間效應研究。在研究尺度上,涵蓋宏觀到微觀各級尺度,包括國家、省際、城市和景區等,現有研究主要以城市尺度為主。
5.4 旅游預測研究
準確的需求預測可以幫助旅游從業者作出商業決策,也可以幫助旅游目的地決策者制定旅游發展政策[36]。基于大數據的旅游需求預測包括游客出行預測、旅游地到達人數預測、酒店需求預測、游客偏好預測等,主要的數據來源是游客出行前在互聯網上的檢索數據[6]167。國內有關旅游預測的大數據研究相對有限,現有研究主要對旅游客流量進行預測[17]98,[37],也有少許研究關注酒店客房需求預測、酒店價格預測和用戶偏好預測等。比如,曹睿等學者基于XGBoost機器學習模型,對共享住宿房源價格進行了預測[38]。
5.5 評論管理研究
從評論者和評論內容等視角研究評論有用性和商家評論管理策略也是重要話題之一。評論有用性能夠減少消費者搜索成本,幫助消費者及時獲取有效信息,并影響其消費決策[39]。評論特征(負面評論、低評論星級、評分一致性和評論長度)和評論者特征對評論有用性有顯著影響[40-41]。商家評論管理策略是該研究主題下的另一重要研究內容。及時和準確的評論管理策略能夠促進服務提供者和消費者的在線互動。尤其在服務失敗的情境下,作為一種有效的服務補救策略,評論管理能夠彌補服務失敗帶來的不利影響,減少損失,恢復商家聲譽。研究表明,管理者在線管理反饋策略會影響評論有用性和顧客滿意度[42-43]。但是,管理者回復并不總是產生積極影響,機械式回復反而會適得其反[44]。
5.6 網絡關注度研究
國內旅游網絡關注度研究已經取得了豐富的成果。在數據來源上,百度指數是重要的數據渠道。在研究主題上,基于大數據的旅游網絡關注度研究主要集中在以下兩個方面:(1)旅游網絡關注度時空分布特征及影響因素,這是目前國內旅游網絡關注度的主要研究方向;(2)旅游網絡關注度與旅游需求(主要體現在旅游目的地客流量和旅游流)的關系研究,該主題在前期相關研究中已經引起學者們的關注。大部分研究認為,網絡關注度與旅游目的地客流量或旅游流之間是正相關關系[45]。值得注意的是,方葉林等學者指出,網絡關注度只是影響客流量的眾多因素之一,而非決定性因素,網絡關注度與游客量之間可能表現為“名副其實”“名小于實”“名不副實”3種“錯位關系”[46]。在研究視角上,目前研究主要聚焦城市和旅游景區等旅游目的地的網絡關注度,也有研究關注旅游細分市場(如體育旅游、溫泉旅游)、旅游輿情、旅游安全、旅游滿意度和旅游要素等視角。
5.7 旅游資源分布研究
旅游資源是旅游業的基礎,可分為自然風景和人文景觀旅游資源。在本研究中,旅游資源的范圍相對廣泛,既包括旅游景區、酒店等服務基礎設施,也涵蓋學校、公交站點等地理實體。借助POI等地理位置數據探討旅游資源的分布特征以及影響因素是目前的主要研究內容;一方面,部分研究關注旅游景區的空間分布及影響因素,研究尺度多為省域和市域尺度;另一方面,部分學者聚焦某種具體的旅游資源類型的空間分布,如鄉村旅游和森林休閑旅游資源等。
5.8 模型構建與改進研究
部分研究側重利用大數據特征改進現有算法或提出新的算法,提高算法效率和擴大算法適用度,以提高現有模型的質量。通過融入文本和圖片等不同類型的大數據特征和構建特定領域的專屬詞庫等途徑,都可以實現算法和模型質量的改進。劉逸等學者通過界定旅游專屬詞庫、語義邏輯規則和情感乘數3個旅游文本情感分析的過濾參數,構建了基于網絡文本大數據的旅游目的地情感評價模型[14]1101,為旅游情感分析模型的改進作出了重要貢獻。此類研究的主要內容包括情感分析模型的對比與改進、評論有用性識別/虛假評論識別、旅游景點或酒店推薦模型優化和大數據旅游統計模型構建等。
5.9 其他主題研究
除了上述主要應用領域,也有文獻研究旅游危機管理、平臺定價機制、企業績效、旅游目的地品牌營銷和旅游線路設計與規劃等主題。比如,楊帥等學者基于Airbnb在線房源數據,探究了共享住宿定價的重要影響因素,并從國家文化價值觀的視角解釋了各個影響因素在不同國家之間的作用差異[47]。徐峰等學者檢驗了基于認知、情感和制度的3種信任構建機制對共享住宿預訂量的影響[48]。
6 結論與展望
本文從研究概況、旅游大數據基本類型及其來源、旅游大數據分析方法和大數據在國內旅游研究中的應用領域等方面對國內旅游大數據的學術研究進展進行了全面系統的梳理與分析,并在此基礎上提出未來研究的方向。圖6為旅游大數據研究的分析框架圖。
6.1 研究結論
(1)從研究概況來看,中文旅游大數據研究的發文量總體上呈增長趨勢,2018年為顯著增長點,之后保持較為穩定的發表水平;中文旅游大數據研究的來源期刊涵蓋經濟、管理、地理、計算機、統計等不同學科,呈現鮮明的跨學科特點;大數據已被廣泛應用于旅游景區、酒店、共享住宿和餐飲等多旅游場景;國內外旅游大數據研究的起步時間保持同步,且研究熱度持續升溫。
(2)從數據類型來看,國內旅游大數據可分為UGC數據、設備數據和運營數據3種基本類型。通過對比可以發現,國內外學術研究對旅游大數據的類型劃分大致相同。具體而言,UGC數據,尤其是文本數據,是使用最多的旅游大數據類型,圖像數據、音頻數據和視頻數據的使用仍有待深入挖掘;設備數據私密性強,獲取門檻和成本高,在旅游研究中的應用處于探索階段;運營數據可獲得性低,在旅游領域的運用有限;多類型大數據的融合使用有待充分挖掘。
(3)從數據來源來看,攜程旅行、馬蜂窩旅游網等社交媒體是最主要的旅游大數據來源,網絡爬蟲技術的日益成熟使得此類數據的可獲得性較高,獲取成本較低,但是從通信運營商和旅游企業等途徑獲取數據仍較為困難;大多數研究使用單一來源數據,多源數據的使用雖然受限但已經引起學者的重視,目前多源數據融合主要為在線評論或游記等文本數據的融合;國內外旅游大數據研究最主要的數據來源都是社交媒體,不同的是,在網絡搜索數據的使用上中文研究大多使用百度指數、英文研究主要使用谷歌趨勢。
(4)從分析方法來看,計量經濟模型和GIS空間分析法等傳統定量方法是主流研究方法,其中GIS和大數據的結合適用于大尺度的空間行為研究,這說明不同的研究方法適用于不同的研究問題;定性分析法和混合方法的使用不夠廣泛;文本分析和機器學習等跨學科方法和工具的使用不夠深入。現有研究中使用的文本分析工具相對單一,最常用的分析工具為ROST CM 軟件。在機器學習方法的使用上,學者們大多使用分類模型,機器學習預測模型的使用非常缺乏。相比之下,國外研究對機器學習方法的使用更為深入。
(5)從研究內容來看,旅游大數據的研究主題比較豐富且呈現多元化趨勢,包括旅游感知與體驗、旅游者行為、旅游流、旅游預測、評論管理、網絡關注度、旅游資源分布、模型構建與改進和其他主題等九大主題;國內外旅游大數據研究在旅游感知與體驗、旅游者行為等主流研究方向上保持一致,其差異之處是國外旅游預測的研究成果已經比較豐富,而國內旅游預測的研究成果相對較少;旅游大數據的研究內容具有跨學科屬性,用于分析的樣本文獻涵蓋經濟、管理、地理、計算機、統計等不同學科,體現了旅游大數據研究的跨學科性;在研究類型上,現有旅游大數據文章多為大數據驅動的應用型研究,理論型的旅游大數據研究發展受限,即以實證研究為主,文獻綜述和理論構建研究較為缺乏,其中中英文研究基本保持一致,相對而言國外綜述文章多于國內;旅游大數據的研究深度有待進一步挖掘,如現有旅游流研究主要聚焦旅游流時空演化特征和旅游流空間網絡結構特征,即只停留在分析事物特征層面,缺乏對內在機理的研究;旅游大數據的研究視角較為單一,現有研究主要基于旅游者的微觀視角展開研究,對當地居民、旅游企業和政策制定與管理者等其他利益相關者的關注不夠。
6.2 研究展望
(1)在數據類型上,未來研究應進一步挖掘并使用圖像數據、音頻數據和視頻數據等不同類型的UGC數據。UGC數據是國內旅游大數據研究中使用最多的數據類型,使用在線評論數據的研究占據“半壁江山”[49],而不同類型的UGC數據具有不同的數據屬性,在處理方法以及內容映射上均存在差異性[50],能夠從不同視角反映研究問題,對旅游研究具有潛在的應用價值;注重設備數據和運營數據的深入挖掘,并與其他類型的數據融合使用,如設備數據與網絡搜索數據的融合、文本數據與網絡搜索數據的融合。多類型的大數據能夠互相補充驗證研究結果,增強研究可靠性。大數據與傳統數據(實地調研數據)之間也可以相互驗證數據質量,兩者的一致性可以增強研究結果的科學性和準確性。
(2)在數據來源上,未來研究應更加注重多源數據的挖掘與使用。多源數據之間可以互相補充和交叉驗證,在增加研究內容豐富性的同時,可以提高研究結果的準確性和科學性,因此是未來重要的研究趨勢之一。比如,與基于單一搜索引擎大數據的旅游需求預測相比,基于搜索引擎和在線評論的多源大數據對旅游需求具有更好的短期預測效果[51]。因此,加強產學研合作,實現多源數據協同共享將成為推動旅游大數據研究進一步發展的關鍵。
(3)在研究方法上,多媒體數據帶來的機遇之一是方法創新,綜合使用經濟學、管理學、地理學、計算機科學和統計學等多學科的方法和工具是未來重要趨勢之一。第一,未來研究應更多地使用混合研究方法,比如通過傳統問卷調查方法輔助驗證文本分析或扎根理論編碼。第二,未來研究應深化文本分析法和機器學習模型的使用。一方面,拓寬文本分析法和機器學習模型的應用“寬度”;另一方面,挖掘文本分析法和機器學習模型的應用“深度”,即要重視算法和模型的優化改進。第三,未來研究也要借助更多新的分析工具。比如,探索文本分析和視頻數據處理新軟件。
(4)在研究內容上,旅游預測是國外旅游大數據研究的熱點之一,近年來的研究重點關注短期高頻的預測和新預測模型的應用,未來研究應重視旅游預測這一研究內容;未來研究應結合哲學、倫理、管理、經濟、心理和計算機等多學科視角進行研究,如深入探討大數據背景下旅游者的隱私和倫理問題、加強情感分析研究等;未來研究需要堅持理論驅動和數據驅動“雙驅并進”,推動旅游大數據研究進入新的發展階段;應用大數據挖掘與分析技術研究旅游流的演化特征和旅游者行為特征,并在此基礎上分析其影響機制已經成為研究的重要方向,旅游流和旅游者時空行為與其他主題的交叉研究可能是未來新的方向;未來研究應關注多元視角,從旅游者、社區居民、旅游企業和政策制定與管理者等多利益相關者視角展開研究。旅游業的可持續發展離不開利益相關者之間的協同合作,未來研究可以借助大數據區分和揭示旅游者和當地居民的時空行為;探討5G數字經濟背景下政府和平臺企業對大數據隱私安全的保護問題;從管理者的視角研究評論管理策略和旅游危機管理等主題。
注釋
①CSSCI:Chinese Social Sciences Citation Index,中文社會科學引文索引,是由南京大學中國社會科學研究評價中心開發研制的數據庫,用來檢索中文社會科學領域的論文收錄和文獻被引用情況。
②CSCD:Chinese Science Citation Database,中國科學引文數據庫,由中國科學院文獻情報中心創建。
③Airbnb:AirBed and Breakfast,愛彼迎。
④POI:Point of Interest,興趣點。
⑤感興趣的讀者可來函索取詳細的期刊名稱、學科分布和載文量等具體數據。
參考文獻
[1] 維克托·邁爾·舍恩伯格,肯尼思·庫克耶.大數據時代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.
[2] LI X,LAW R.Network analysis of big data research intourism[J].Tourism management perspectives,2020,33:100608.
[3] MARIANI M,BAGGIO R.Big data and analytics inhospitality and tourism:a systematic literature review[J].International journal of contemporary hospitalitymanagement,2022(1):231-278.
[4] 陸保一,韋俊峰,明慶忠,等.基于知識圖譜的中國旅游大數據應用研究進展[J].經濟地理,2022(1):230-240.
[5] LI J J,XU L Z,TANG L,et al.Big data in tourism research:a literature review[J].Tourism management,2018,68:301-323.
[6] 曾忠祿,王興.大數據在旅游研究中的運用:國際文獻研究[J].情報雜志,2020(10):165-168.
[7] 吳開軍.旅游大數據研究熱點及特征探析:基于國外文獻的分析[J].統計與信息論壇,2019(4):105-113.
[8] 陳雪,張宏磊,徐一帆,等.旅游研究中的圖像研究進展與展望[J].旅游學刊,2021(3):127-140.
[9] LI X,LAW R,XIE G,et al.Review of tourism forecastingresearch with internet data[J].Tourism management,2021,83:104245.
[10] 鄭偉民,李夢玲,莊歆怡,等.手機基站定位數據在旅游領域的應用綜述[J].旅游導刊,2021(4):37-57.
[11] 李君軼,楊敏.基于Web數據挖掘的旅游需求分析與預測[J].旅游科學,2007(6):47-52.
[12] 鄧寧,曲玉潔.我國旅游大數據的產業實踐:現狀、問題及未來[J].旅游導刊,2021(4):1-15.
[13] SIVARAJAH U,KAMAL M M,IRANI Z,et al.Critical analysis of Big Data challenges and analyticalmethods[J].Journal of business research,2017,70:263-286.
[14] 劉逸,保繼剛,朱毅玲.基于大數據的旅游目的地情感評價方法探究[J].地理研究,2017(6):1091-1105.
[15] 趙瑩,張朝枝,金鈺涵.基于手機數據可靠性分析的旅游城市功能空間識別研究[J].人文地理,2018(3):137-144.
[16] 王錄倉,嚴翠霞,李巍.基于新浪微博大數據的旅游流時空特征研究以蘭州市為例[J].旅游學刊,2017(5):94-105.
[17] 黃先開,張麗峰,丁于思.百度指數與旅游景區游客量的關系及預測研究以北京故宮為例[J].旅游學刊, 2013(11):93-100.
[18] ALAEI A R,BECKEN S,STANTIC B.Sentiment analysisin tourism:capitalizing on big data[J].Journalof travel research,2019(2):175-191.
[19] 孫曉東,倪榮鑫.中國郵輪游客的產品認知、情感表達與品牌形象感知基于在線點評的內容分析[J].地理研究,2018(6):1159-1180.
[20] 李春曉,李輝,劉艷箏,等.多彩華夏:大數據視角的入境游客體驗感知差異深描[J].南開管理評論, 2020(1):28-39.
[21] 春雨童,王傳生,計衛星,等.基于網絡文本分析的重游意向旅游形象感知研究以廈門鼓浪嶼風景名勝區及北京故宮博物院為例[J].地域研究與開發,2021(4):96-101.
[22] 李婷,武剛,梁麗芳,等.基于網絡評論的五臺山旅游目的地游后形象感知研究[J].干旱區資源與環境,2021(8):192-198.
[23] 鄧寧,劉耀芳,牛宇,等.不同來源地旅游者對北京目的地形象感知差異基于深度學習的Flickr圖片分析[J].資源科學,2019(3):416-429.
[24] 陸利軍,廖小平.基于UGC數據的南岳衡山旅游目的地形象感知研究[J].經濟地理,2019(12):221-229.
[25] 叢麗,何繼紅.野生動物旅游景區游客情感特征研究以長隆野生動物世界為例[J].旅游學刊,2020(2):53-64.
[26] 劉逸,保繼剛,陳凱琪.中國赴澳大利亞游客的情感特征研究基于大數據的文本分析[J].旅游學刊, 2017(5):46-58.
[27] 史達,王志敏.綠色飯店用戶體驗基于在線評論的深度學習研究[J].旅游科學,2019(6):62-76.
[28] 陳鋼華,李萌.旅游者情感研究進展:歷程、主題、理論與方法[J].旅游學刊,2020(7):99-116.
[29] 郭曉姝,葉強,祁阿瑩,等.解釋駁斥管理反饋策略對消費者滿意度的影響[J].管理科學,2020(5):58-71.
[30] 謝秋逸,周年興,軒源,等.基于百度AI開放平臺的北京市共享住宿顧客滿意度及需求層次研究[J].南京師大學報(自然科學版),2021(1):64-70.
[31] 何瓊峰.基于扎根理論的文化遺產景區游客滿意度影響因素研究以大眾點評網北京5A 景區的游客評論為例[J].經濟地理,2014(1):168-173.
[32] 郭旸,胡雅靜,林玥.基于手機信令和網絡游記數據的游客時空行為分析:以上海迪士尼樂園外地游客為例[J].旅游論壇,2020(1):13-22.
[33] 梁嘉祺,姜珊,陶犁.基于網絡游記語義分析和GIS可視化的游客時空行為與情緒關系實證研究以北京市為例[J].人文地理,2020(2):152-160.
[34] 王紅麗,周夢楠.Airbnb房東自我展示的信息分類及其對房客信任與預訂行為的影響研究[J].管理學報,2021(9):1307-1316.
[35] 馬斌斌,陳興鵬,陳芳婷.基于社交大數據的敦煌旅游流多尺度時空分異特征[J].經濟地理,2021(3):202-212.
[36] WEN L,LIU C,SONG H Y,et al.Forecastingtourism demand with an improved mixed data samplingmodel[J].Journal of travel research,2021(2):336-353.
[37] 周曉麗,唐承財.基于網絡搜索大數據的5A 級景區客流量預測分析[J].干旱區資源與環境,2020(3):204-208.
[38] 曹睿,廖彬,李敏,等.基于XGBoost的在線短租市場價格預測及特征分析模型[J].數據分析與知識發現,2021(6):51-65.
[39] LEUNG D.Unraveling the interplay of review depth,review breadth,and review language style on reviewusefulness and review adoption[J].International journalof hospitality management,2021,97:102989.
[40] 徐峰,張新,馬良,等.在線評論動態性偏差對評論有用性影響研究[J].管理學報,2020(9):1383-1390.
[41] 史達,王樂樂,衣博文.在線評論有用性的深度數據挖掘基于TripAdvisor的酒店評論數據[J].南開管理評論,2020(5):64-75.
[42] 陳遠高,應夢茜,畢然,等.管理者回復對在線評論與有用性關系的調節效應:基于TripAdvisor的實證研究[J].管理工程學報,2021(5):110-116.
[43] 郭曉姝,張焱,徐健.道歉承諾類管理反饋策略對顧客二次滿意度的影響基于顧客多樣情緒調節效應[J].中國管理科學,2021(2):217-227.
[44] LIU S,WANG N,GAO B Z,et al.To be similar or tobe different? The effect of hotel managers'rote responseon subsequent reviews[J].Tourism management,2021,86:104346.
[45] 王碩,曾克峰,童潔,等.黃金周風景名勝區旅游客流量與網絡關注度相關性分析:以廬山、華山、八達嶺長城風景名勝區為例[J].經濟地理,2013(11):182-186.
[46] 方葉林,程雪蘭,黃震方,等.國家重點風景名勝區網絡關注度與游客量的錯位特征及機理[J].經濟地理,2020(4):204-213.
[47] 楊帥,陳建宏,柯丹,等.共享住宿定價策略的跨國差異:國家文化價值觀在共享經濟中的調節作用[J].南開管理評論,2021(3):60-73.
[48] 徐峰,張新,梁乙凱,等.信任構建機制對共享民宿預訂量的影響基于Airbnb的實證研究[J].旅游學刊,2021(12):127-139.
[49] 江帆,林珊珊,應天煜,等.中國旅游大數據研究:二十年回顧與展望[J].旅游導刊,2022(4):68-104.
[50] GREWAL R,GUPTA S,HAMILTON R.Marketinginsights from multimedia data:text,image,audio,andvideo[J].Journal of marketing research,2021(6):1025-1033.
[51] LI H Y,HU M M,LI G.Forecasting tourism demandwith multisource big data[J].Annals of tourism research,2020,83:102912.
[責任編輯:連云凱]