王文祎 徐健 陳玉金 劉佳瀅 謝佳寧 袁露露 童路琳
摘 要:隨著互聯網及大數據技術的飛速發展,網絡數據成為現代旅游業旅游需求精準分析及預測的重要數據基礎。旅游需求分析迫切需要實時準確的數據,因此本文以北京為例,結合百度指數及資訊指數,對北京游客旅游需求的時空特征進行深入研究,首先闡述國內外學者對互聯網搜索數據應用于旅游需求分析的研究情況,其次基于百度指數進行旅游需求的時間特征研究,再次基于百度指數進行空間特征研究,最后綜合大數據分析結果,旨在為當前時代旅游目的地的建設和發展提供參考。
關鍵詞:網絡數據;旅游需求;時空特征;北京
中圖分類號:F592.7 文獻標識碼:A
改革開放以來,隨著人民物質生活水平的提高,人們現在越來越追求精神生活的充盈,旅游成為人們日常生活的重要部分,人們對旅游的需求也日益高漲。旅游的重要意義在于,一方面,能夠開闊視野,增長見識,提升自己;另一方面,旅游也可以增強自身的自主性,更有動力追求美好生活,旅游還能讓人心情愉悅,放松自我,調節情緒。旅游已經成為一項重要的產業,也成為一門專業的學科,現階段對于旅游需求的研究也非常豐富,對旅游需求進行及時和準確的分析,一直是旅游管理專業的重要研究課題。研究旅游需求的時空特征,有助于旅游管理部門建立對旅游目的地承載量及游客流量的預期判斷,根據分析結果及時制定相應的政策,從而為旅游目的地的管理提供支持。
北京作為中國的首都,有著悠久的革命歷史傳統,擁有豐富的旅游資源,長期有著旺盛的旅游市場需求。傳統的旅游管理研究以定性研究為主,而以數據為基礎的定量分析較少,并且旅游需求相關的數據一直是以調研統計為主,數據不夠及時,難以產生市場效益。隨著互聯網技術的飛速發展,基于互聯網產生的大數據已經成為研究旅游需求時空特征的重要數據來源,這些大數據產生于搜索引擎、社交媒體、論壇、新聞等不同的互聯網平臺,具有數據量大、數據類型豐富、生成速度快等特點,具有較高的經濟價值,并且互聯網數據能夠有效反映游客真實的特征及偏好,能夠在時間和空間維度上進行統計分析,從而真實及時地反映旅游需求情況。本文的結論對幫助旅游管理部門、旅游企業以及旅游目的地等主體把握游客的需求走向具有現實意義。旅游行業應抓住細節,根據游客旅游需求的時空響應設計更加符合當前市場的旅游產品,促進旅游業加快恢復發展,為當前時代旅游目的地的建設和發展提供參考。
旅游產業已經是成熟的產業,國內已經有豐富的旅游需求方面的研究,以往的研究主要是基于統計調研數據為主,利用計量經濟模型進行建模分析,近些年大數據技術發展突飛猛進,也有很多學者運用大數據建模及機器學習算法來研究旅游需求,預測精度已經大有提升。其中最具有代表性的一類大數據是互聯網搜索數據,搜索引擎指數在觀測旅游需求方面有著廣泛應用,國外學者利用谷歌搜索數據預測美國、英國等的旅游流量,利用谷歌指數預測入境游客數量、目的地游客流量及行為,利用天巡網(Skyscanner)的旅客搜索研究航空旅客需求變化等;國內學者利用百度搜索數據預測海南游客流量,證明搜索數據在提高旅游預測精度的表現,通過提取百度搜索數據構建綜合指數建立廣義動態多因子模型預測北京旅游需求,利用百度搜索數據建立計量經濟模型,預測未來旅游流量,并取得了較高的預測精度[1-2]。作為搜索引擎的數據源之一,百度指數提供從2006年至2015年的百度查詢量數據,而且在預測中國旅游需求時有著比谷歌數據更高的準確性[3]。
與旅游需求相關的旅游業動態發展受到廣大學者的密切關注,多數文獻基于問卷調查和理論研究,網絡數據的應用已經有豐富的成果,但是仍然有巨大的發展空間。因此,本文意圖引入百度指數數據,以北京旅游為案例宏觀分析旅游需求的時空特征,微觀解析游客在不同時空特征環境下的情緒變化,對其進行更深度的數據挖掘,就游客響應給出更具準確性和針對性的答案。
(一)研究背景
北京人口密度大、人員流動性強,旅游業發達,旅游資源豐富。北京有世界遺產共7處,是全球擁有世界遺產最多的城市,也是全球首個擁有世界地質公園的首都城市。北京對外開放的旅游景點達200多處,有世界上最大的皇宮紫禁城、祭天神廟天壇、皇家園林北海公園、頤和園和圓明園,還有八達嶺長城、慕田峪長城以及世界上最大的四合院恭王府等名勝古跡。北京市共有文物古跡7 309項,99處全國重點文物保護單位(含長城和京杭大運河的北京段)、326處市級文物保護單位、5處國家地質公園、15處國家森林公園[4]。本文選用反映不同關鍵詞在過去一段時間里的“用戶關注度”和“媒體關注度”兩個指標進行統計分析,對北京的旅游需求在時間、空間上的特征研究提供合理依據,利用百度指數探討不同層面對旅游需求的時空特征,從而更好地對旅游目的地進行管理。
(二)數據處理
從北京文旅局發布的開放景區名單(截至2021年6月26日)中挑選了所有的5A及4A景點,以景點名稱為關鍵詞在百度指數庫中搜索,獲得了55個景點的2019年和2020年的百度指數數據。首先利用SPSS統計分析軟件,分析旅游需求的時間分布,接著將所得的逗號分隔值(Comma-Separated Values,CSV,有時也稱為字符分隔值,因為分隔字符也可以不是逗號)格式數據導入ArcMap中,依據經緯度進行空間插值,對各時段內搜索指數增減進行分析,探究旅游需求的空間分布格局。
研究選取百度搜索的初始數據,利用Python(計算機編程語言)提取出所需要的數據并存儲,通過數據分析來得到所需的結論,如圖1所示。

(一)基于百度指數的時間特征研究
為了更加直觀地觀察北京市游客的旅游需求狀態,本文基于百度指數,運用SPSS進行描述性分析、方差分析和回歸分析,探索北京市游客旅游需求的時間響應。研究近十年(2011年8月至2021年9月)北京旅游關鍵詞百度指數變化,揭示百度搜索與北京市游客旅游需求的特征狀況和相關關系(見表1)。
1.結構特征
利用Python獲取基于北京市旅游關鍵詞的百度搜索指數,由于百度指數的標準差較大,為避免異方差,對百度指數取自然對數作為分析數據:
對2011年8月至2021年9月十年的北京旅游關鍵詞百度搜索指數作折線圖進行分析(見圖2),得出以下結論:第一,百度搜索指數總體呈現明顯的周期特征,呈現峰谷震蕩形態,大高峰出現在小長假期間,分別是清明節、勞動節、端午節、暑假開始和國慶節,搜索數據序列的小高峰主要出現在周五,搜索數據的低谷出現在周日,搜索數據所呈現的特點正呼應了北京游客周末旅游為主,工作日游客數量較少的特點,旅游需求符合北京春天和秋天的天氣較為適合出行的基本規律;第二,2011年至2016年這五年,北京旅游的百度指數較活躍維持在高位,游客的旅游需求旺盛,旅游業發展繁榮,2019年至2021年這三年,北京旅游的百度指數較活躍,維持在高位,2020年以來一直低于平均線,旅游需求明顯降低;第三,資訊指數是以百度智能分發和推薦內容數據為基礎,將網民的閱讀、評論、轉發、點贊、不喜歡等行為的數量加權求和得出,由2019年至2020年北京旅游關鍵詞的百度資訊指數圖分析可知(見圖3),2019年初資訊指數較高,說明該階段旅游需求旺盛,此后大幅降低,一直在低位震蕩,到2021年初稍有恢復。
2.差異性特征
影響旅游需求的一個重要因素是季節,為了解不同季節對于百度指數的不同影響程度,對百度指數進行方差分析。


數據顯示,不同時期樣本對于ln百度指數均呈現為顯著性(P<0.05)。以上結果證明,季節對北京游客旅游需求百度指數存在顯著的影響,即夏天和冬天氣候條件不夠好,使得民眾降低了旅游意愿,旅游需求低;春天和秋天氣候條件好,使得民眾提高了旅游意愿,旅游需求高。具體影響程度為:春天>秋天>夏天>冬天。
3.影響因素
為進一步了解天氣舒適等級、景區類型等變量對百度指數的影響程度,研究用以上因子作為自變量,ln百度指數作為因變量進行多元線性回歸分析,結果表明,回歸模型具有顯著的統計學意義(F=734.659,P<0.001)

由表3分析可得,天氣舒適等級、人文景觀類景區均會對ln百度指數產生顯著的正向影響關系。娛樂休閑類景區對ln百度指數產生顯著的負向影響關系。由此可知,人們在外出旅游時會充分考慮天氣舒適程度,人文景觀類景區較自娛樂休閑類景區對百度指數有促進作用。
(二)基于百度指數的空間特征研究
為了研究從空間分布上的全國游客對北京旅游關鍵詞的搜索指數特征,根據百度用戶對北京旅游的搜索數據,采用數據挖掘方法,對關鍵詞的人群屬性進行聚類分析,給出2013年7月至2021年9月用戶所屬的省份、城市,以及城市級別的分布與排名。北京旅游關鍵詞搜索排名前三的省份或城市依次是北京市、河北省、廣東省,北京人口眾多,對于北京本地的旅游需求更旺盛,對于北京本地的景點更加關注,因此搜索指數最高;此外,由于河北省毗鄰北京,對于北京的旅游資源更感興趣,搜索指數排第二;廣東省經濟發達且人口眾多,當地居民有更多的金錢和精力可以用于旅游,提升生活品質,因此對于北京旅游的搜索也非常關注。2013年7月至2021年9月的北京旅游關鍵詞的搜索指數在華北區域占比最高,華東區占比第二,而西北區占比最低,西南區占比次低,究其原因,距離因素是影響北京旅游需求空間特征分布的主要原因,距離較近的區域對于北京旅游需求更旺盛;次要原因是與所在區域的經濟發展水平相關,經濟發展水平高的區域對于北京旅游的需求更旺盛;此外,與區域文化差異水平、人口數量、當地旅游資源、當地旅游業發展水平等因素也息息相關。
選取北京市作為研究區域,搜集2011年8月至2021年9月的百度搜索指數以及資訊指數,探索基于網絡數據分析旅游需求的時空特征研究,以更好地把握游客的需求走向,為今后北京乃至全國旅游業的建設和發展提供參考依據。 通過時間特征分析可知:一是旅游需求呈現明顯的周期特征,隨著假期峰谷波動,二是2011年起的5年內,旅游需求旺盛,旅游業發展繁榮,近3年因外界因素旅游需求低迷,三是近3年北京旅游百度咨詢指數初期高末期低,具有明顯的時間差異,春天和秋天旅游需求旺盛,夏天和冬天旅游需求較低,受季節影響因素顯著。在空間響應方面,研究運用地理信息系統(Geographic Information System,GIS)進行反距離空間插值,對北京景區的百度指數關注度做可視化處理,對各景點進行熱點分析,得出以下結論。一是對于北京旅游的需求,北京市、河北省、廣東省三個省市排名前三;二是對于北京旅游的需求華北區域占比最高,華東區占比第二,而西北區占比最低,西南區占比次低,北京旅游需求與北京的距離、區域經濟發展水平、區域文化差異水平、人口數量、當地旅游資源、當地旅游業發展水平等因素息息相關[5]。
除了時空特征對游客的影響之外,還有很多其他的復雜影響因素,本文限于篇幅未能詳細闡述分析,仍存在許多問題與不足。由于數據來源的局限,本文僅選取了北京旅游這一關鍵詞的百度指數,然而與北京旅游相關的關鍵詞還有很多,未來可結合調查問卷等方法獲取更多樣化的數據,選取更大的研究范圍,進行更加全面、更加具有代表性的時空響應分析。
[1] 李曉炫,呂本富,曾鵬志,等.基于網絡搜索和CLSIEMD-BP的旅游客流量預測研究[J].系統工程理論與實踐,2017(1):106-118.
[2] 中國互聯網信息中心.第43次《中國互聯網絡發展狀況統計報告》[R],北京:國家圖書館研究院,2019.
[3] 張曉梅,程紹文,劉曉蕾,等.古城旅游地網絡關注度時空特征及其影響因素:以平遙古城為例[J].經濟地理,2016(7):196-202.
[4] 李山,邱榮旭,陳玲.基于百度指數的旅游景區網絡空間關注度:時間分布及其前兆效應[J].地理與地理信息科學,2008(6):102-107.
[5] 李新,張珣.互聯網搜索指數構建新方法及國際油價實證研究[J].系統工程理論與實踐,2016(2):319-325.