□文/馮 瀟 范樂瑤
(電子科技大學成都學院 四川·成都)
[提要] 通過爬蟲程序獲取百度指數平臺上2012~2021 年成渝經濟圈5A 級旅游景區月搜索指數數據,分析各景區網絡關注度的年度和月度趨勢特征;利用Python3 對2012~2019 年月度數據構建SARlMA 模型,并運用網格搜索法對模型進行參數尋優;利用最優模型SARlMA(0,1,1)(0,1,1)12 對2020~2021 年月網絡關注度進行預測,并將預測結果與ARlMA 模型的預測結果進行對比分析。研究表明:(1)成渝經濟圈各5A 級旅游景區的網絡關注度存在較大差異,其中成都市和樂山市的5A 級旅游景區網絡關注度較高;(2)成渝經濟圈5A 級旅游景區網絡關注度時間分布具有顯著的季節性和假期性特征;(3)SARlMA 模型比ARlMA 模型預測精度更高,更能反映成渝經濟圈5A 級旅游景區網絡關注度的趨勢特征。
游客在進行旅游活動之前,通常會通過互聯網對旅游景區進行搜索,而這種網絡關注情況被認為是旅游目的地客流量的前兆。因此,研究旅游景區網絡關注度變化趨勢,對把握游客旅游意向、分析未來潛在客流量、促進旅游持續發展等具有重要意義。
基于百度指數的旅游景區網絡關注度研究主要分為以下四類:第一,探究景區網絡關注度的時空特征,該類研究側重于使用季節性集中指數、地理集中指數等,或通過GIS 空間分析法分析網絡關注度的時空特征。如,杜夢珽等(2020)利用洪崖洞百度指數搜索數據,研究洪崖洞網絡關注度時空分布及變化特征;朱豆豆等(2021)分析新疆8 個熱門景區網絡關注度的時空差異特征,并運用回歸和相關性分析法探究其影響因素。第二,利用景區網絡關注度的時空特征提出相應的營銷策略。如,周曉麗(2019)基于五臺山日網絡搜索數據構建五臺山客源市場的“重要性-發展潛力”矩陣,并提出相應的營銷策略。第三,探究景區網絡關注度和實際客流量的相關關系。如,馬莉等(2018)研究發現長三角地區40 個城市的每日實際游客量與網絡關注度之間存在因果關系,即網絡關注度是游客量變動的前兆。第四,利用景區網絡關注度對未來游客量趨勢進行預測。如,康俊鋒等(2020)基于上海市的百度搜索數據和旅游人數數據構建ARIMA 旅游趨勢預測模型。
本文以成渝經濟圈5A 旅游景區的月百度搜索指數為研究對象,分析2012 年1 月~2021 年12 月5A 級旅游景區網絡關注度的時間變化特征,建立SARIMA 模型對各景區網絡關注度進行預測,以把握未來旅游網絡關注度變化情況,為成渝經濟圈5A 旅游景區及旅游管理相關部門提供決策依據。
(一)季節性集中指數。季節性集中指數(R)用于反映一年內旅游網絡關注度的季節性變化:

其中,xi為第i 月的網絡關注度。R 值越大,表明年內每月網絡關注度差異越大,即關注度受季節性影響較大,淡旺季較明顯;R 值越接近于0,表明年內每月網絡關注度分布較均勻,即關注度受季節性影響較小,淡旺季不明顯。
(二)ARlMA 模型。ARIMA 模型,即差分自回歸滑動平均模型,是由Box 和Jenkins(1970)提出的時間序列預測方法,該方法通過差分處理將時間序列轉化為平穩時間序列,利用其過去值預測未來值,并將誤差項累加以消除預測中的隨機波動。ARIMA 模型構建的基礎為ARMA(p,q)模型:

其中,p 和q 分別為自回歸階數和移動平均階數。若原序列在d 次差分之后得到平穩時間序列wt,并對wt建立ARMA(p,q)模型,即得到ARIMA(p,d,q)模型。
(三)SARlMA 模型。SARIMA 模型,即季節性差分自回歸滑動平均模型,是在ARIMA 模型的基礎上進行了季節性調節,對具有季節性波動的時間序列有較高的預測精度。該模型可以表示為ARIMA(p,d,q)×(P,D,Q)S,其中,(p,d,q)為模型非季節性部分,與ARIMA(p,d,q)模型參數的含義相同,(P,D,Q)S為模型季節性部分,P 為季節性自回歸階數,D 為季節性差分階數,Q 為季節性移動平均階數,S 為季節性周期長度。
(一)數據來源。百度指數是以網民海量搜索數據形成的數據分享平臺,提供了2011 年至今各關鍵詞的每日搜索量數據。基于百度指數平臺,本文將景區關鍵詞檢索到的移動端搜索指數和PC 端搜索指數之和稱作“網絡關注度”,反映游客在互聯網上對成渝經濟圈5A 級旅游景區的關注程度。將成渝經濟圈中所有5A 級景區的代表性關鍵詞進行搜索,發現重慶市黔江區濯水景區沒有被百度指數收錄,故本文以成渝經濟圈的11個5A 級景區為研究對象,其中四川省7 個、重慶市4 個,如表1 所示。本文通過Python 爬蟲程序搜索景區關鍵詞,獲取了2012 年1 月~2021 年12 月11 個景區每月百度移動端和PC端搜索指數數據。(表1)

表1 成渝經濟圈5A 級旅游景區地域分布與搜索關鍵詞一覽表
(二)成渝經濟圈5A 級旅游景區網絡關注度時間分布特征
1、景區網絡關注度年度分布特征。分類匯總求出11 個5A
級旅游景區的年度網絡關注度,并繪制圖1。從整體來看,2012~2017 年游客對成渝經濟圈內5A 級旅游景區的網絡關注度呈逐年上升趨勢,而2018~2021 年的關注度均較2017 年有不同程度的下降,其中2020~2021 年受新冠肺炎疫情的影響,游客出行受到一定限制,故11 個景區整體關注度下降較明顯。從各旅游景區網絡關注度數量上看,11 個景區的網絡關注度存在明顯差異,受網絡關注最高的5A 級旅游景區是成都市青城山-都江堰旅游景區,其次是樂山市樂山大佛景區和峨眉山景區。2012~2021 年3 個景區的網絡關注度遠高于其他8 個景區,表明3 個景區的知名度較高,游客出游意愿更強。而受網絡關注最低的兩個景區是鄧小平故里旅游區和朱德故里景區。與其他9 個景區不同,鄧小平故里旅游區和朱德故里景區屬于紅色文化型旅游景區,而游客對兩個景區網絡關注度較低,表明這兩個景區的紅色文化影響力和知名度有待進一步的提升。(圖1)

圖1 成渝經濟圈5A 旅游景區網絡關注度年度變化圖
2、景區網絡關注度月度分布特征。圖2 顯示了每年成渝經濟圈5A 級旅游景區網絡關注度月度分布情況。從平均值變化趨勢上看,平均值曲線表現為倒“V”型,其中7~8 月是成渝經濟圈旅游備受關注的高峰時期,說明成渝地區能夠吸引更多的學生和家長,暑假期間該地區親子游、畢業游等市場火爆。此外,4 月和10 月也是受關注較高的時間段,說明清明節、“五一”節和國慶節成渝地區氣候較為適宜,同樣是旅游、登山的熱點時段。而11 月~次年1 月成渝經濟圈5A 級旅游景區關注度為全年最低,說明成渝地區冬季氣溫較寒冷,游客出游意愿不強。對比每年網絡關注度月度變化趨勢,發現2012~2019 年的成渝經濟圈5A 級旅游景區網絡關注度月度變化趨勢近似,而受疫情因素影響,2020 年2 月和2021 年8 月的關注度走勢與其他年份差異較大。計算2012~2021 年成渝經濟圈5A 級旅游景區的季節性強度指數,結果見表2。表2 顯示,每年的季節性集中指數均大于1,表明成渝經濟圈5A 級旅游景區網絡關注度的季節性差異顯著,存在明顯的淡季和旺季。(圖2、表2)

表2 成渝經濟圈5A 級旅游景區網絡關注度季節性強度指數一覽表

圖2 成渝經濟圈5A 級旅游景區網絡關注度月度變化圖
(三)實證分析。選取2012~2019 年成渝經濟圈5A 級旅游景區的月網絡關注度數據為訓練集,基于Python3 建立SARIMA 模型,對2020~2021 年月網絡關注度進行預測,同時建立ARIMA 模型進行對比分析。
1、平穩性檢驗。圖3 顯示,2012~2019 年成渝經濟圈5A 級旅游景區的網絡關注度變化情況與趨勢,從圖中可識別出該序列為非平穩時間序列,且具有周期性,故需要對原始序列數據進行差分處理,使其變為平穩時間序列。根據單位根(ADF)檢驗結果,1 階差分后的檢驗統計量的值為-3.0657,小于顯著性水平5%的臨界值,即1 階差分后的序列是平穩的,無需進行2階差分,因此確定非季節性差分階數d=1。(圖3、表3)

圖3 2012~2021 年成渝經濟圈5A 級旅游景區網絡關注度月時序圖

表3 序列差分ADF 檢驗結果一覽表
2、SARlMA 模型與ARlMA 模型構建。對1 階差分后的序列數據繪制自相關函數(ACF)與偏自相關函數(PACF)圖。圖4顯示ACF 和PACF 在12 階、24 階位置出現尖峰,表明序列有周期為12 個月的波動,故SARIMA 模型中季節性周期長度S為12。為更準確地確定SARIMA(p,1,q)(P,D,Q)12模型的其余參數,本文通過網格搜索法進行遍歷尋參,選擇貝葉斯信息準則BIC 作為模型的評估指標,并繪制熱力圖5 所示。圖5 顯示,當非季節性自回歸階數p 和移動平均階數q 分別取0、1,且季節性自回歸階數P、差分階數D 和移動平均階數Q 分別取0、1、1 時,SARIMA 模型的BIC 有最小值485.0,此時模型最優。(圖4、圖5)

圖4 成渝經濟圈5A 級旅游景區網絡關注度月度數據的ACF 與PACF 圖

圖5 不同參數下SARIMA 模型BIC 值熱力圖
繪制圖6,對SARIMA(0,1,1)(0,1,1)12模型的殘差序列進行診斷,可知該模型殘差序列基本穩定,無趨勢或季節項,且殘差服從正態分布,不存在自相關,故可判定該模型殘差序列為白噪聲序列,說明SARIMA(0,1,1)(0,1,1)12模型提取序列信息較充分,擬合效果較好。同理,基于網格搜索法對ARIMA(p,1,q)模型進行遍歷尋參,如圖7 所示,此時最優模型為ARIMA(1,1,1)。(圖6、圖7)

圖6 SARIMA(0,1,1)(0,1,1)12 模型殘差診斷圖
3、模型預測與對比分析。運用建立的SARIMA(0,1,1)(0,1,1)12模型和ARIMA(1,1,1)模型對2020 年1 月~2021 年12 月成渝經濟圈5A 級旅游景區網絡關注度進行預測,并采用均方根誤差(RMSE)作為模型的評估指標:

其中,y^i為預測值;yi為真實值。模型的擬合結果和預測結果如圖8 所示,可看出SARIMA(0,1,1)(0,1,1)12模型的擬合效果優于ARIMA(1,1,1)模型,且SARIMA(0,1,1)(0,1,1)12模型更能夠預測后疫情時代游客對成渝經濟圈5A 級旅游景區網絡關注度的趨勢變化。根據表4 中的RMSE 計算結果可以得知,SARIMA(0,1,1)(0,1,1)12模型在訓練集和測試集上的誤差均小于ARIMA(1,1,1)模型,表明利用SARIMA(0,1,1)(0,1,1)12預測成渝經濟圈5A 級旅游景區網絡關注度的準確度更高,實用性更強。(圖8、表4)

表4 SARIMA 模型和ARIMA 模型預測誤差對比一覽表

?

圖8 SARIMA 模型和ARIMA 模型擬合預測對比圖
本文基于2012 年1 月~2021 年12 月百度指數平臺的月搜索數據,對成渝經濟圈5A 級旅游景區網絡關注度的年度、月度變化趨勢進行統計分析,利用SARIMA 模型對景區網絡關注度月度變化趨勢進行預測,并與ARIMA 模型進行對比分析。
總地來看:(一)受疫情因素影響,2020~2021 年游客對成渝經濟圈5A 級旅游景區整體關注度呈下降趨勢。2012~2021年11 個5A 級旅游景區的網絡關注度之間存在較大差異,游客對青城山-都江堰、峨眉山和樂山大佛關注度較高,出游意愿更強。(二)成渝經濟圈5A 級旅游景區網絡關注度的季節性差異顯著,存在旺季和淡季之分,即7~8 月暑假期間通常是成渝經濟圈地區旅游備受關注的旺季時期,而寒冷的冬季則是旅游網絡關注度的淡季時期。(三)SARIMA 模型比ARIMA 模型更能夠擬合并預測成渝經濟圈5A 旅游景區的趨勢特征,具有較好的實用性。但該模型完全依賴于數據本身,沒有考慮疫情等其他影響因素,因此研究過程具有一定的局限性,未來可引入網絡關注度的影響因素,并組合其他時間序列模型對網絡關注度進行預測研究。