

現有的旅游統計方式存在一些缺陷,如數據采集不全面、數據分析深度不足、數據質量不高等問題。而大數據統計具有的如數據來源廣、數據量大、數據覆蓋面全、數據類型多、分析深度和精度高等特點正好可以有效地彌補傳統旅游統計的缺陷,提高旅游統計的客觀性、科學性和準確性。
大數據技術整合和利用包括信令數據、消費數據、OTA(online travel agency)數據、政務數據等在內的海量數據,建立旅游數據分析模型,可從多個角度來理解和分析游客的需求和行為,為旅游統計打開新局面。
一、大數據技術如何應用于旅游統計
本文從大數據的數據來源、數據處理方式以及數據安全3個部分來進行探討。
1. 數據來源
旅游統計主要關注旅游目的地的游客量、旅游消費這兩大類,基于這兩大類,可以進一步延伸包括游客客源地、游客出行方式、游客畫像,以及旅游六要素消費、消費偏好等。基于這些旅游統計需求,可以用運營商信令數據+銀聯消費作為主要數據源,其他數據源作為輔助數據源的旅游大數據分析數據源模式。
運營商信令數據具有覆蓋面廣、可去重的特點,根據工業和信息化部2023年6月底統計,中國移動、中國聯通、中國電信3家運營商移動用戶數合計達到了17.1億,基本覆蓋了所有人口。由于手機號碼不會頻繁改變,可以作為游客的唯一標識,通過技術手段對干擾數據進行識別清洗后,不會對同一個游客重復統計。通過建立大數據分析模型,可以準確、快速地獲取各類旅游設施興趣點(point of interest,POI)的游客量,實時監測旅游設施數據動態,這也是數據時效性的保障。
中國銀聯數據中包含商家所屬行業的行業分類編碼(merchant category code,MCC)、時間、交易金額、付款方等信息,通過采集商家交易流水,結合旅游食、住、行、游、購、娛六要素的行業分類,就可以統計出旅游收入,實現對旅游消費的數據分析。
其他還包括OTA數據、交通樞紐客流、酒店住宿等數據源,可以作為大數據分析模型的校準數據,用于提升大數據識別的精準度。
2. 數據處理方式
目前,大數據技術已經相對成熟,廣泛應用于數據處理、數據挖掘、可視化等方面。隨著大數據技術和算力的不斷發展,大數據提供了強大的算法框架、計算和存儲能力。然而,要在旅游統計領域應用大數據技術,還需要滿足兩個條件:匹配傳統旅游統計口徑和排除數據干擾誤差。
上述提到的數據來源中,數據本身是不具備屬性以及口徑的。但通過傳統的旅游統計口徑融合不同的數據源,建立相應的數據模型,可以為大數據在旅游統計中的具體應用提供可能性。以游客定義為例,目前文化和旅游部給出的游客定義為:報告期內在國內觀光游覽、度假、探親訪友、就醫療養、購物、參加會議或從事經濟、文化、體育、宗教活動的本國居民,其出游的目的不是通過所從事的活動謀取報酬。而游客中又包括本地游客、外地游客、國內一日游游客和國內過夜游客。在建立大數據模型時,根據以上定義,利用職住地點分析與行動軌跡分析等,實現對于“離開慣常環境10 km,并停留6小時”的游客定義精準識別;同時結合各類旅游POI的電子圍欄及游客停留時間,確認游客出行目的,從而實現本地游客、外地游客、一日游游客、過夜游客的精準識別,基本符合傳統旅游游客定義口徑的旅游統計需要。
在建立大數據分析模型時,由于數據定義和其本身的特性,需要相關技術手段進行數據修正,實現更為精確、精準的統計,包括去除過路旅客,避免雙機雙卡游客被重復計算,合并3家運營商數據,去除智能終端的SIM卡數據,去除跨行政區非游客數據等。
3. 數據安全保障
雖然大數據技術具備更高效的數據處理和分析能力,但在使用過程中也涉及隱私和安全問題。因此,需要采取有效的隱私保護和安全管理措施,確保數據的合法性和安全性。基于現有的安全沙箱運行機制,通過安全沙箱保障源數據在安全可控的范圍下,實現源數據可用不可見,并遵循數據安全原則、數據不離場原則和群體分析原則。
二、旅游大數據分析模型在旅游統計中的應用
旅游大數據分析模型是通過收集包括手機信令數據、旅游設施坐標數據、旅游設施邊界坐標數據、基站坐標數據和POS機等數據,利用數據挖掘、機器學習等算法建立的數據分析模型。
1. 基于大數據技術游客量統計
大數據技術游客統計方法,是以“人天”作為單位進行統計。理論上,只要在信號基站范圍內,游客攜帶手機,就會產生信令數據,包括手機號、接入時間和連接時長。經過數據清洗后,結合大數據分析模型,即可統計得出游客數量。
表1為傳統旅游統計方法和大數據統計方法對廣西2023年前三季度國內旅游游客人數統計結果對比情況。
兩種統計口徑下國內游客數量存在一定差異,但各市游客量排名基本一致。
2. 基于大數據技術游客消費統計
大數據技術的游客消費統計方法,是以銀聯消費數據為基礎,按照POS機種子定位算法,結合商戶類型和大數據分析模型進行關聯統計分析,商戶按照食、住、行、游、購、娛六要素進行分類數據統計,獲得旅游收入數據。
表2為傳統旅游統計方法和大數據統計方法對廣西2023年前三季度國內旅游消費統計結果對比情況。
兩種統計口徑下國內旅游收入存在較大差異,但各市旅游收入排名基本一致。
三、結論和建議
通過分析當前旅游統計工作中的問題和大數據技術在旅游統計中應用的潛在優勢與可行性,并對比兩種統計方式下得出的數據,可以發現,傳統統計存在的數據來源單一、覆蓋率低、采集難度大、處理效率低等問題,可以通過大數據技術得以解決。大數據技術注重業務場合與數據全景,集合多維度資源,對數據以“全域、全時、全量”進行分析處理,提高了旅游統計數據的時效性、客觀性、科學性和準確性。
實際應用過程中,統計的范圍、尺度、計量單位及多源數據匯聚等細節問題上仍有待完善,因此,仍需要管理部門進一步明確指標定義,完善數據統計口徑,并加大跨區域數據的融合力度,大數據技術人員應該完善數據篩選機制,優化數據分析模型,多方合作挖掘旅游大數據更深層次的價值。
(作者系該公司總經理;收稿日期:2023-12-28)
[責任編輯:吳巧紅;責任校對:宋志偉]