時萍萍,胡姚剛,孟繼東
(1.重慶理工大學a.管理學院;b.電氣與電子工程學院,重慶 400054;2.重慶大學 重慶旅游人才發展研究院,重慶 400044;3.重慶銀行 博士后科研工作站,重慶 400024)
2021年6 月,國家文化和旅游部在介紹《“十四五”文化和旅游發展規劃》關于“完善現代旅游業體系”時指出,旅游業是幸福產業,是人民生活水平提高的重要標志,旅游業已發展成為傳承弘揚中華文化的重要載體,對穩增長、穩投資、穩就業、促消費、調結構等方面的綜合帶動作用日益凸出。然而,在旅游業快速發展同時也伴隨著問題出現,特別是因游客量的急劇增長和休假制度導致的節假日旅游需求集中,極易造成區域交通擁堵或景區超載、游客安全事故等現象,嚴重影響游客旅行體驗,不利于旅游消費和旅游業的可持續發展,給旅游管理和調控帶來了巨大挑戰。因此,深入研究精準有效的游客量預測模型,及早掌握區域或景區游客量預測數據,對提升游客旅游體驗,科學配置旅游資源和推動旅游業高質量發展有重要意義。
國家文化和旅游部在2020 年發布的《關于深化“互聯網+旅游”推動旅游業高質量發展的意見》指出,堅定不移建設網絡強國、數字強國,持續深化“互聯網+旅游”,推動旅游業高質量發展。在旅游活動過程中,通過搜索引擎、博客、微博、社交網絡、移動APP等互聯網在線平臺,游客可獲取包括景點、交通、天氣、旅游體驗等信息,預定行程或購買旅游產品并反饋旅游體驗評論信息。旅游出行前的搜索、交易、評論等數據被互聯網記錄、儲存和積累,形成反映游客行為的互聯網旅游數據[1,2]。互聯網旅游數據是對傳統統計數據在深度與廣度上的重要補充和擴展,通過對互聯網旅游數據提取、整理、分析、建模和可視化,掌握游客行為特征和偏好,及早獲得游客量預測結果[3,4],為旅游管理部門配置旅游服務資源和提供高質量的旅游服務提供重要技術支撐。
互聯網旅游數據具有多元異構、高頻、海量、價值密度低的大數據特征,如何從旅游大數據中挖掘關鍵特征信息和構建有效的游客量預測模型,已經成為近年來國內外相關科研機構研究共識和熱點[1]。目前,已有學者對旅游預測模型或互聯網旅游數據研究現狀進行了評述。如:Song 等[5]總結了1968—2018 年旅游預測模型發展,但利用互聯網旅游數據開展游客量預測的現狀和演變仍然不清楚;Li等[2]對不同類型的互聯網數據旅游預測研究進行了整理,但卻過于注重數據類型的分類,忽略了預測模型的演進趨勢。因此,本文擬通過檢索和梳理國內外重要核心期刊的相關研究,對互聯網旅游數據特征、處理方法和游客量預測模型研究現狀進行評述,并從關鍵詞智能提取、非結構化數據轉化、多源旅游數據融合、高維非線性混頻數據處理4 個方面展望未來的研究要點及趨勢。
互聯網旅游數據是虛擬網絡中游客搜索、交易、評論、照片等被互聯網記錄、儲存和積累的數據,可反映游客的注意力、興趣和行為,具有數據量大、時效性高等特點[1,2]。但同時存在數據非平衡問題,獲取的數據通常多而雜,只有極少部分具有預測使用價值,提取大量有較高價值的預測數據困難。目前,游客量預測建模一般需要的互聯網旅游數據主要包括搜索引擎數據、社交媒體數據兩類[6](表1)。

表1 互聯網旅游數據特征Table 1 Characteristics of Internet tourism data
谷歌、百度等大型搜索引擎實時記錄用戶的搜索內容、搜索頻率及位置等信息,生成谷歌趨勢或百度指數結構化數據,用戶在搜索引擎輸入的關鍵詞數量、內容、次數等信息,間接呈現了用戶對旅游需求、興趣和旅游目的地的關注程度。當前,在旅游預測研究中,谷歌趨勢和百度指數數據應用較多,如Li等[1]對谷歌趨勢和百度指數數據的特征進行了總結,結果如表2 所示。目前,谷歌搜索在全球占主導地位,而百度在中國擁有廣大的用戶規模,百度指數更適用于中國旅游預測[7]。基于搜索引擎數據的旅游預測過程(圖1)主要包括搜索數據獲取、搜索數據處理和構建預測模型3 部分。

圖1 基于搜索引擎數據的游客量預測過程Figure 1 Tourist volume prediction process based on search engine data

表2 谷歌趨勢與百度指數特征比較Table 2 Comparison of Google trend and Baidu index
搜索數據獲取主要包括初始關鍵詞選取和擴展關鍵詞兩個方面。①初始關鍵詞選取。經驗選擇法是常用的初始關鍵詞選取方法,該方法依據研究人員的知識和經驗確定關鍵詞。例如,Li 等[3]在開展四姑娘山游客量預測時,直接采用了四姑娘山攻略、四姑娘山天氣、四姑娘山海拔、四姑娘山在哪里、四姑娘山景區、四姑娘山門票、四姑娘山旅游、四姑娘山住宿8 個關鍵詞的搜索指數作為預測變量。經驗選擇法雖然簡單易行,但是與研究人員的知識、能力等因素相關,主觀性較強,不具有推廣意義。且該方法極易忽略重要關鍵詞,也有可能選擇不正確的關鍵詞,無法準確預測游客量。②擴展關鍵詞。旅游是一種非常復雜的活動行為,決策過程中涉及諸多階段。少數關鍵字無法涵蓋游客決策整個過程,導致具有預測功能的重要關鍵詞遺漏。一些關鍵詞挖掘工具,如站長工具、愛站網、需求圖譜功能、搜索推薦,可對相關關鍵詞進行擴展。李曉炫等[8]在對九寨溝游客量進行預測時,以九寨溝、九寨溝天氣、九寨溝酒店、九寨溝機場為核心關鍵詞,利用百度搜索推薦相關關鍵詞的功能,共擴展出146 個關鍵詞。相比經驗選擇法,關鍵詞擴展法能捕捉到更多與出行有關的關鍵詞,但部分關鍵詞與預測因素相關性較弱甚至出現不相關現象,易產生數據噪音,難以提高預測精度。
搜索數據處理包括關鍵詞確定和指數合成兩個方面。①關鍵詞確定。鑒于搜索引擎數據量龐大且包含豐富的信息,研究人員通過選擇和減少關鍵詞的方法提取有效信息進行準確預測。常用的時差相關法兼具領先性和相關性特點,通過計算每個關鍵詞提前幾期的搜索量與預測指標之間的皮爾森相關系數,再確定關鍵詞的選擇閾值,選擇出具有預測能力的關鍵詞。如,李曉炫等[8]選取至少提前1 期的關鍵詞搜索量與景區游客量的皮爾遜相關系數大于0.8 的關鍵詞作為最終關鍵詞;Yang 等[7]采用了同樣的方法確定預測關鍵詞,但Google 趨勢關鍵詞選取條件為皮爾遜相關系數大于0.76,而百度指數關鍵詞選取條件為皮爾遜相關系數大于0.8。可見,相關系數閾值的選擇多是根據研究者自身經驗,閾值過低導致選擇條件過于寬泛,較多的噪音降低搜索指數與預測量的相關性;而閾值過高導致關鍵詞較苛刻,有可能遺漏影響預測的重要因素[8]。②指數合成。為有效反映游客對目的地的整體關注趨勢,可將搜索關鍵詞合成一個指數或幾個搜索指數[1,7,8],常 用 搜 索 指 數 合 成 方 法 有 直 接 合 成 法 和 降維合成法。直接合成法是將所有搜索關鍵詞搜索量直接相加,合成搜索指數。如李曉炫等[8]、Yang等[7]直接把通過時差相關法篩選出來的關鍵詞搜索量進行相加,合成預測因子。直接合成法直接、簡單、易操作,但難以明確各搜索關鍵詞對景區游客量的不同貢獻。降維合成法可分為聚類分析、主成分分析(Principal Component Analysis,PCA)和廣義動態因子(Generalized Dynamic Factor Model,GDFM)3 類:第一類,聚類分析是對研究對象按照一定的規則進行類或簇的劃分方法。其目標是將特征屬性相似或信息相關的對象劃分為一類,而類之間的對象特征屬性是不相似或相關度較低的。如張玲玲等[9]采用K-均值聚類分析方法將海南、三亞、海南旅游等17個關鍵詞分成3 類,并驗證了第二類關鍵詞指數變量對海南游客量具有預測能力。但當數據量較大時,K值較難確定,影響初始聚類中心的選擇,分類效果不好。第二類,PCA在損失很少信息前提下,將少數幾個集中了原始變量的大部分信息的綜合變量(主成分)代替原始多個變量,各個主成分之間互不相關。如Li等[10]對北京旅游進行預測時,采用PCA將北京小吃、北京經典、北京特產、北京風景名勝區、北京飯店等15 個搜索關鍵詞提取為6 個主成分。但當PCA主成分出現負值時,PCA 的含義解釋較模糊,不如原始變量的含義明確。第三類,GDFM 以因子分析理論為基礎,以高維經濟變量為分析對象,引入更多的指標信息,采用基于頻域分析的非參數估計方法,處理無限多的樣本,更為全面反映指標信息,無需事先確定指標間的先行或滯后關系,直接用滯后算子多項式來刻畫指標間的動態時序關系。Li等[11]采用GDFM 方法將搜索到與北京旅游相關的關鍵詞整合成一個因子,與采用PCA 方法合成因子相比,GDFM合成的因子具有更好的預測能力。
旅游研究社交媒體數據主要來源于TripAdvisor、Expedia、Booking、攜程、去哪兒、點評等網站[1,2],這些社交媒體通過論壇、博客、社交網絡、照片和視頻分享等方式為游客提供反饋旅游體驗信息渠道。目前,社交媒體數據分為結構化數據和非結構化數據兩類。①結構化數據主要包括用戶轉發數、用戶回復數、評分數、旅游管理組織轉發數等,可直接作為游客量的預測變量。②非結構化數據主要包括新聞、評論內容、照片、圖像、視頻等,需將非結構化數據轉化為結構化數據后,再作為預測變量。與基于搜索引擎數據的游客量預測過程類似,基于社交媒體數據的旅游預測過程也包括搜索數據獲取、數據處理和構建預測模型3 部分,但由于社交媒體數據多是非結構化數據,在獲取與處理環節與搜索引擎數據有較大不同。
當前,社交媒體數據一般需要開發網絡爬蟲軟件采集原始數據。通過網絡爬蟲技術從相關社交媒體網站收集在線文本數據(包括旅游相關評論和博客)[12,13]。利用網絡爬蟲在一個程序或一套程序方面實現迭代和自動下載網頁,從超文本標記語言(HTML)提取統一的資源鏈接(URL)[14]。如,Xiang等[12]使用Python 和Java 編程語言中的網絡爬蟲獲得酒店相關評論;Guo等[15]開發了一個網絡爬蟲,定期從TripAdvisor收集評論數據。
對于非結構化旅游數據,將非結構化社交媒體數據轉化為結構化的時間序列數據是研究中的關鍵環節。社交媒體中的評論反映了消費者的情感傾向,通過機器學習、文本分析等方法,情感指數可將在線情感表示為一個時間序列,預測旅游需求。梅梅等[16]針對中文微博數據非結構化特點,從相關維、狀態維、主題維、情緒維4 個維度提出了一套標準的微博情緒挖掘方法,通過K-近鄰算法(KNN)、貝葉斯(NB)和支持向量機(SVM)進行傾向性分析,形成量化的情緒指標;Colladon 等[17]采用Condor 軟件中的機器學習方法,將在TripAdvisor中收集的266萬多篇帖子合成消費者情感指數,納入國際機場抵達人數預測模型中,具有消費者情感指數的預測模型比基于Google趨勢數據的預測模型表現出更好的性能;Starosta 等[6]采用人工神經網絡方法,將媒體正面和負面新聞表示為時間序列的游客情緒指數,發現游客對旅游目的地的態度與游客量之間具有很強的相關性。
基于互聯網旅游數據的游客量預測模型主要包括時間序列模型、計量經濟模型、機器學習模型、組合模型,與上述預測模型研究的相關研究現狀分析結果如圖2 所示。

圖2 基于互聯網旅游數據的游客量預測模型分析框架Figure 2 Analysis framework of tourist volume prediction model based on Internet big data
時間序列模型主要通過識別周期性歷史數據(每天、每月、每季度或每年)的變化趨勢確定模型,進而實現預測游客量[18]。互聯網旅游數據為旅游預測模型引入了“互聯網旅游數據”外生變量數據,早期的時間序列自回歸(AR)模型、天真模型、自回歸滑動平均(ARMA)模型、差分整合移動平均自回歸(ARIMA)模型、季節性差分自回歸移動平均(SARIMA)模型已成為互聯網數據預測游客量的基礎對比模型。目前,基于互聯網旅游數據的時間序列模型可分為帶有外生變量的一般時間序列模型和基于混頻數據的時間序列模型兩類。
帶有外生變量的一般時間序列模型:考慮到互聯網旅游數據的引入為游客量預測帶來了新變量,帶有外生變量的時間序列模型最早被應用于游客量預測中,以檢驗互聯網旅游數據是否具有預測能力。如Choi等[19]采用ARX模型預測了美國、加拿大、英國、德國、法國、意大利、澳大利亞、日本和印度9 個國家到香港的游客量,發現關鍵詞“香港”的Google搜索趨勢與游客量正相關。考慮到互聯網多源數據對游客量預測的重要價值,Li 等[3]采用ARMAX 模型對四姑娘山游客量預測時發現,與基于搜索引擎單一來源大數據的游客量預測相比,采用搜索引擎和多個在線評論平臺的多源大數據對游客量預測具有更好的預測性能。在模型預測性能方面,Pan[20]發現ARMAX 模型不僅優于ARMA 模型,而且比一般的計量經濟模型自回歸分布滯后模型(ADL)、時變參數(TVP)模型和向量自回歸(VAR)效果都好。由于互聯網數據和游客量呈現非平穩的時間序列特征,建模之前通常采用差分運算對數據進行平穩化處理,通過消除趨勢項和周期項來建立ARIMAX 模型。如Artola等[21]在預測英國、德國和法國到西班牙旅游游客量時發現,ARIMAX 模型精度明顯提高。此外,考慮到游客量會因季節變動引起典型淡旺季周期性時間序列變化,須對Google 趨勢或百度指數提供的互聯網數據和游客量增加擬合時間序列周期性相關關系的差分處理,即構建SARIMAX 模型,SARIMAX模型不僅比一般的ARIMA、SARIMA、HW模型泛化能力強,且預測集的預測性能優于測試集的預測性能[22,23]。
基于混頻數據的改進時間序列模型:宏觀的旅游數據通常每月或每季度進行采集,而搜索數據或評論數據的生成頻率是每天一次或更高頻率。通常情況下,采用互聯網數據開展的游客量預測研究面臨多頻率或混合頻率問題。如果使用平均加權法將所有變量聚合到相同低頻率上,將導致高頻數據中可用信息丟失,從而導致無效或有偏差估計[24]。混頻數據采樣(MIDAS)可通過加權方案將高頻過程投射到低頻過程中,從而較大程度地保留高頻數據信息;與基礎時間序列模型結合,可提高預測精度。Bangwayo-Skeete等[25]采用周度Google 數據預測加勒比地區的月度游客量時,將MIDAS 與AR 的簡化形式相結合組成“AR - MIDAS”預測方法,通過對比12 個月預測結果顯示,多數情況下AR - MIDAS 模型優于SARIMA、AR模型。高頻率搜索數據對景點和目的地規劃至關重要,但混頻模型的預測精度并不一直表現優越。Volchek 等[26]在預測倫敦5 家博物館的參觀人數時發現,復活節假期日期的變化導致了同期入境人數的顯著波動,使得SARMX- MIDAS模型的RMSE比季節性天真模型差。
計量經濟預測模型有助于探索經濟因素與游客量之間的關系,其重點是建立長期因果關系,或確定各種解釋變量對未來需求的影響程度。計量經濟模型在游客量預測研究和實踐中發揮重要作用,目前利用互聯網旅游數據預測游客量的計量經濟模型主要有VAR和ADL模型。
VAR模型是計量經濟學中最常用的方法之一,一般不區分內、外生變量,把系統中每一個內生變量作為系統中所有內生變量的滯后值的函數來構造模型,通常用于多變量時間序列系統的預測和描述隨機擾動對變量系統的動態影響[27]。其優點是易于估計,能夠較好擬合數據,靈活性和實用性強,特別適合描述小變量集合的數據生成過程,已被用來分析不同語言搜索平臺數據或多類型大數據對游客量的預測作用。如,Dergiades 等[28]對語言偏向和平臺偏向進行定義,對多語言的源市場及不同的主流搜索引擎平臺數據進行聚合,采用VAR 模型對塞浦路斯月度國際游客量進行預測發現,經過調整聚合后的數據表現出更好的預測效果;Liu 等[29]采用VAR模型檢驗天氣、溫度、周末和公共假日、網絡搜索量多類型數據與游客量的關系時發現,網絡搜索量與游客量之間存在長期關系。根據不同省市對天目湖的搜索指數值,Liu 等[30]采用VAR 中的脈沖相應函數檢驗了日游客量與搜索量指數之間的時空相關關系,發現日游客量、搜索指標與距離成反比關系,而旅游信息需求與距離成正比。但一般的VAR 模型受參數估計多,存在過度參數化問題。貝葉斯向量自回歸模型(BVAR)是VAR 的一種擴展模型,其原則是當參數被斷定在某一值時,使模型參數趨近于這一取向而不是鎖定確定值,只要有充足的數據支持,就可以得到更為精確的估計,降低參數不確定性并顯 著 增 強 預 測 性 能[31]。Gunter 等[32]使 用10 個 谷歌分析網站流量指標(平均會話持續時間、平均頁面時間、跳出率、新會話、頁面瀏覽量、返程訪客、社交網絡推薦、總會話、獨特頁面瀏覽量和用戶),采用BVAR、因子增強向量自回歸(FAVAR)和兩者融合的貝葉斯因子增強向量自回歸(BFAVAR)預測維也納旅游人數,發現在短期1—2 個月內,單變量基準MA模型預測性能好,而對于較難的長期3、6、12 個月,BFAVAR預測性能比基準模型更優越。
ADL模型能解釋游客量與各種影響因素之間的滯后跨期關系,除了評估影響因素的滯后影響外,還整合了滯后需求變量的影響,能夠估計變量之間長期穩定關系。Huang 等[33]通過構建ADL 模型采用百度指數,對2007 年1 月1 日到2009 年12 月31 的北京故宮的參觀人數進行預測,發現百度關鍵詞指數與游客數據之間存在長期均衡關系和格蘭杰因果關系,關鍵詞“北京故宮”滯后2 期,“故宮”滯后1期,“故宮門票”當期,故宮實際游客量滯后1 期和2期均對故宮實際游客有正向影響,且融合百度指數的ADL 模型比ARIMA 模型的預測精度提高12.4%。但ADL模型并不總是能表現出較好的預測性能,?nder[34]在國家或城市的游客量預測時發現,ADL對城市(維也納)預測效果好,但在對國家(奧地利)的游客量預測中HW模型反而效果更好。
雖然時間序列模型與計量經濟具有模型簡單、計算復雜度低、處理速度快的優點,能夠反映互聯網旅游數據與游客量之間的長期線性關系,但是存在預測精度不高、性能不穩定等問題。互聯網旅游數據與實際游客量數據均存在非線性、周期性和自相似性等特點,僅采用線性模型較難對其準確擬合。因此,非線性機器學習模型逐漸被用于互聯網旅游數據的游客量預測中,根據機器學習模型結構的深度,分為淺層學習網絡和深度學習網絡兩類(圖2)。其中:淺層學習網絡主要包括支持向量回歸(SVR)模型和神經網絡兩類;深層學習網絡主要包括長短期記憶網絡(LSTM)和SAEN學習網絡兩類。
SVR是基于統計學習理論和結構風險最小原理,能夠在有限信息的基礎上,對發展趨勢和最優解進行推廣,該模型適用于分析小樣本和多維化數據[35]。基于SVR的旅游預測方法研究主要思路是:利用在互聯網搜索引擎中獲得的搜索數據和游客量數據訓練支持向量模型,并確定模型參數,基于訓練后的SVR 模型對游客量進行預測。直接采用SVR進行預測會遇到3 個障礙:不恰當的模型自由參數選擇對預測結果產生不利影響;核函數必須滿足Mercer條件;模型訓練復雜,速度慢[36]。①為了解決參數設置問題,灰狼算法(GWO)、蝙蝠算法(BA)因具有收斂速度快、易于實現、結構簡單、易獲得局部最優解和魯棒性能好等優點,被引入優化SVR 模型參數,形成BA- SVR、GWO- SVR 模型預測游客量。與基于粒子群算法的SVR、ANN 模型相比,其預測精度得到明顯提高。BA - SVR 的預測流程如圖3所示[37,38]。②為了克服SVR 模型核函數的局限性,Tipping 提出相關向量機(RVM)對SVR 進行改進,RVM能夠獲得概率輸出,最大程度地減少核函數的計算量,所選核函數不必滿足Mercer 條件,能較好擬合小樣本非線性數據。張斌儒等[39]的研究表明,RVM和SVM在預測海南游客量時表現出優異的預測性能和良好的泛化能力,但RVM訓練過程更為簡單,在小樣本數據集中表現出更強的預測能力。③為應對SVR訓練速度慢、儲存量大的難題,最小二乘支持向量回歸(LSSVR)將求解二次規劃問題轉化為求解高維空間線性最小二乘問題,簡化了計算過程,提高了訓練速度。Xie 等[40]采用LSSVR 搜索數據與經濟指標預測郵輪游客量,并引入引力搜索算法(GSA),通過種群的粒子位置移動來尋找最優解,發現與傳統模型相比,LSSVR - GSA 具有較高的預測精度和泛化能力。

圖3 BA- SVR流程Figure 3 Flow chart of BA- SVR
神經網絡包括BP和極限學習機(ELMs)神經網絡兩類。①BP。由于BP 有非線性映射能力強、網絡結構柔性大等特點,在解決復雜的非線性預測問題具有突出優勢,目前已經被廣泛應用到游客量預測中[41]。Hu等[42]基于人工神經網絡(ANN)框架預測香港至澳門的短途旅行游客量,將168 個觀測數據采用BP測試,實證結果表明,具有搜索引擎數據BP模型優于ARIMA、ADL基準模型。考慮到搜索引擎數據與旅游歷史數據受隨機因素的影響產生噪音,陸利軍等[43]提出了基于網絡搜索的EMD 去噪與BP 神經網絡結合預測方法。具體為:先利用EMD對原序列進行分解,再使用對BP 神經網絡對IMF分量進擬合,預測誤差均顯著低于BP 和Elman神經網絡基準模型。由于在訓練過程中,BP 神經網絡會面臨陷入局部最優、收斂速度慢等問題,通常采用優化算法對BP 神經網絡進行改進,以提高旅游預測的精確性。針對BP 神經網絡的預測結果易受初始連接權值和閾值的影響,Li 等[44]利用果蠅優化算法(FOA)改進BP 神經網絡,實現BP 神經網絡初始連接權值和閾值的自適應最優選擇,并采用FOA-BP模型預測黃山每日游客量,發現FOA - BP 比“遺傳算法+BP”和“粒子群算法+BP”表現出更高的預測性能。針對BP 神經網絡的部分重要參數容易陷入局部最優問題,Li 等[10]引入自適應差分進化算法(ADE)對BP 神經網絡權值和閾值進行全局優化。②ELMs是一種單隱含層前饋神經網絡,有著學習速度快、泛化能力強等特點。ELMs僅有一個隱含層,隱含層內神經元直接決定了預測模型的性能。為了避免隱含層神經元的數目選擇問題,Sun 等[45]根據Mercer條件,選擇用核函數代替隱藏層的激活函數,輸出權重更穩定,構建核極限學習機(KELM)采用百度與Google數據預測中國熱門旅游目的地游客量,與基準模型ARIMA、ANN、SVR、LSSVR 相比,KELM模型具有更高的預測精度和穩健性。與采用BP神經網絡的旅游預測相比,KELMs 具有一定的優勢:預測僅包含一個隱含層,能夠實現快速游客量預測,減少了模型訓練時間,避免了采用梯度下降、學習參數選擇敏感和易陷入局部極值的問題。
LSTM學習網絡是RNN在隱藏層加入長短期記憶單元后形成的一種新神經網絡模型,包含遺忘門、輸入門、輸出門3 個控制門,LSTM 獨特的門結構能夠在最優條件下確定所通過信息特征[46]。考慮日流量預測數據有非線性,同時受多個解釋變量和環境變化影響,解釋變量與實際游客量的滯后性3 個特點,傳統的計量經濟模型不能完全挖掘解釋變量與實際旅游量之間的復雜關系。Bi等[47]將LSTM模型(圖4)應用于景點的日流量預測中,基于搜索引擎數據和天氣數據對九寨溝和黃山兩個不同景點的日游客量進行預測,預測效果明顯優于傳統的天真模型、ARIMAX、ANN和SVR模型。在對海南省游客量預測時,Zhang等[48]指出LSTM模型有3 方面的優點:①額外的存儲單元和特殊的網絡結構使LSTM能夠在較大的樣本下學習客流時間序列的復雜動態信息,能夠有效學習游客量的特征信息,明顯提高了模型的預測能力;②網絡搜索指標的引入使得LSTM模型更好地擬合了旅游飯店的過夜客流動態,顯著提高了LSTM網絡的預測性能;③優化算法的不同和網絡結構設計的特殊使得LSTM 的學習能力和預測能力明顯高于BP 神經網絡。雖然LSTM 能在一定程度上解決梯度消失和預先人工設定閾值問題,但是當序列超過一定限制后,梯度還是會出現消失現象。

圖4 日游客量預測的LSTM結構Figure 4 The LSTM architecture for daily tourist volume prediction
SAEN是一種組合堆疊自編碼神經網絡(SAE)和回聲狀態網絡(ESN)的網絡集成預測模型,利用SAE提取高維、非線性、動態變化的網絡搜索指數特征,再結合ESN對網絡搜索指數特征和游客量進行建模,提升預測模型效能。Lü 等[49]采用SAEN 模型預測了美國到加拿大的月度出境游客量、國外到北京旅游的月度入境游客量、國內到海南的月度游客量、國內到九寨溝的周游客量4 個案例,發現與傳統統計方法和淺層機器學習方法相比,SAEN具有良好的時序擬合能力,預測準確度提升了40%。預測體系結構如圖5 所示。與采用梯度下降算法的LSTM相比,SAEN采用最小二乘擬合法訓練,具有計算速度快,節省計算成本的優勢,但也會面臨兩個問題:初始參數的隨機設置,可能導致SAEN 網絡不穩定;SAEN運用最小二乘法一次性擬合訓練數據,如果網絡內部儲備池不具備相當規模的神經元,可能會導致未知數據的過度擬合。

圖5 SAEN游客量預測體系結構Figure 5 SAEN tourist volume prediction architecture
在游客量預測中,不同模型對游客量長短期預測精度是不同的[26,50,51],沒有一種模型在任何情況下都優于其他模型。由于旅游數據具有線性和非線性特征,采用線性和非線性組合模型預測游客量,可兼顧各模型的優勢,提高預測精度。目前,采用線性和非線性組合模型預測的研究主要有兩類:①采用線性或非線性模型擬合原預測模型殘差的組合模型。如Wen等[52]將ARIMAX 模型的殘差和前一步預測結果作為非線性自回歸與外生變量(NARX)模型的輸入,預測我國31 個省份到香港特區游客量,與基礎模型相比,具有較強魯棒性與泛化能力。Yao等[53]在預測九寨溝游客量時,首先引入自適應粒子群算法(APSO)自動更新權值,克服了粒子群算法的振蕩和早期收斂問題,對SVR 的參數進行優化,再采用ARIMA模型擬合SVR 模型預測的殘差時間序列,構建的SVR-ARIMA 模型取得了較好的預測效果。②對不同頻數據采用線性和非線性模型組合預測。如李曉炫等[8]、陸利軍[54]考慮網絡搜索數據與旅游歷史數據易受隨機因素的影響產生噪音,提出了基于網絡搜索的EMD去噪與BP神經網絡結合預測方法,具體為:先利用EMD 將高頻噪聲從原序列中分離,再對低頻和高頻數據分別采用計量回歸和BP神經網絡進行擬合,預測誤差均顯著低于基準模型。
為了推進旅游產業穩定可持續化發展,旅游管理部門應更加重視科學優化配置旅游資源,推動互聯網旅游數據在游客量預測的快速發展和應用。本文在對互聯網旅游數據的游客量預測方法研究現狀和存在不足進行綜述的基礎上,提出未來應重點關注以下4 個研究方向:①智能化提取預測能力搜索關鍵詞的研究。準確預測游客量的前提是從海量的互聯網旅游數據中盡可能多地提取有效信息。對復雜多變的互聯網旅游數據而言,僅依靠手動提取出具有預測能力搜索關鍵詞的方法,存在工作量大、噪聲干擾等問題。深度學習能在一定程度上克服此類問題,如DBN 和CNN 均具有在多引擎數據中智能化提取預測關鍵詞的能力,可降低搜索引擎數據的噪聲和無關信息,但有關智能化提取關鍵詞的研究仍較少,有待進一步深入研究。②非結構化社交媒體數據轉化為結構化時間序列數據的方法研究。在進行旅游預測時,需將社交媒體數據中出現的文本、圖像和視頻等非結構化數據轉換為結構化時間序列數據。現有采用自然語言處理、文本挖掘、深度學習和情感分析處理的方法已經在文本數據對目的地形象感知的研究得到廣泛應用,后續研究中,經自然語言處理、文本挖掘等方法處理后的非結構化文本數據是否具有預測游客量的能力,以及圖像和視頻數據的結構化轉換方法研究也應得到重點關注。③融合互聯網多源大數據預測游客量研究。搜索引擎數據蘊含有反映預測游客量的重要信息,在基于互聯網數據的游客量預測研究領域有一定的普適性,但無法得到游客的情緒指標因素,難以應用于旅游目的地資源配置實踐中;社交媒體數據可采用文本分析的相關方法構建游客情緒指標,但社交媒體數據獲取較復雜,且預測精度受所選非結構化數據處理方法影響較大。雖然已有文獻[3]綜合搜索引擎數據與社交媒體結構化數據開展了游客量預測研究,但是由于沒有充分分析社交媒體中非結構化數據的影響,難以全面反映游客偏好。在后續研究中,需要考慮將互聯網多源大數據納入游客量預測模型中,研究多類型、多特征數據的組合預測模型,以獲取更準確的預測結果。④高維非線性混頻數據的處理方法研究。互聯網旅游數據呈現出高頻性、高維化、非線性三大主要特征,在對游客量預測過程中,既要充分保留高頻數據信息,又要從高維變量中剔除噪音數據、識別重要預測數據,同時對變量間的潛在非線性關系進行識別與探究。雖然基于高維非線性混頻數據游客量預測研究方法還較少見,但是在經濟金融領域已經開展了研究。綜合混頻數據分析方法、高維變量選擇方法和機器學習方法開展游客量預測更加符合實際,有待進一步深入研究。