錢澤昊,劉 瑾,張佳樂
(上海立信會計金融學院 上海 201209)
近年來,隨著社會經濟的高速增長,我國旅游產業發展迅猛,由于生活水平的穩步提高,旅游業已成為全世界人民休閑和生活方式的重要組成部分。根據世界旅行旅游理事會發布的數據,2019 年旅游業是世界上國內生產總值(GDP)增長率的第三大產業。據報道,旅游業的增長率為3.5%,明顯高于全球經濟GDP 的增長率2.5%。特別是,旅游業在中國創造了近8 000 萬個就業機會,占全國總勞動力的10.3%。同時,其產值估計為10.9 萬億元,占中國經濟的11.3%。世界旅游業的快速發展,促進了中國自身旅游業的蓬勃發展。中國的旅游業已經進入“大眾旅游”階段,人們的旅游意愿不斷提高??梢灶A見,即使在后疫情時代,國內旅游市場也將繼續蓬勃發展。然而,游客數量的大幅上升導致了景點游玩體驗下降與安全事故的增多,對旅游場所造成了巨大的負面影響,目前人流量過載已經成了各大旅游景點重點關注的問題。為應對潛在風險,有關部門提出了加強人流量檢測和管控的要求。傳統檢測人流量的工作方式是采用過往經驗判斷法,這種方法往往存在時效性弱以及準確率低等問題,如何對人流量的預測更加快速與精準便成了管理工作中至關重要的部分。本項目的研究是為了深化全域旅游、提升游客游玩體驗、避免大規模游客滯留,在保障游客生命財產安全的同時提升對游客的服務質量,更加有效地將游客分流到更廣闊的全域旅游,有利于旅游業態的拓展和全域旅游的深化推進。
隨著數據預測在學術界的廣泛部署和如今數據獲取的便利性,出現了如何正確有效地使用數據的問題。時間序列是預測未來數據最廣泛使用的方法之一,被廣泛用于經濟和商業領域。從20 年紀50 年代起,相關研究人員利用其他領域的一些預測模型對人流時間序列預測進行了分析和處理,并在此基礎上進行了持續改進?!稁追N時間序列模型在客流量的比較》一文中提到[1]:數據預測是目前學術界的一個熱門話題。幾十年來,它吸引了許多學者來研究天氣預報、食品生產、商場交通等。隨著大數據時代的到來,對數據的獲取變得更加容易,我們現在可以方便地獲取各種數據,如何明智地使用這些數據并使其作用最大化是大數據時代面臨的挑戰之一。一些相關領域的專業人士根據自己的個人經驗預測和分析本領域的最新趨勢[2-5]?;谶@樣的分析,大部分時間都花在相關領域背景知識的研究上。由于時間序列在預測領域對背景知識的需求較低,吸引了更多的研究學者,在很大程度上促進了時間序列的發展。
國外的研究人員很早就開始了對人流量分析的研究,預測城市流量對于交通管理、土地使用、公共安全等具有重要的戰略意義。對于城市管理者來說,他們可以預先發現城市中可能發生的交通擁堵,提前部署交通,緩解交通擁堵。對于公眾來說,他們可以提前完善自己的出行計劃,錯開出行高峰,選擇更便捷的出行方式。從人的出行方式來看,城市交通流包括人流、交通流和公共交通流等[6-8]。旅游業是世界上任何國家發展的一個非常重要的經濟活動領域。對許多國家來說,這是一個最優先的預算創收部門,因此有必要盡可能準確地預測主要指標,特別是游客流量,以規劃發展戰略。李艾玲等[9-10]指出:傳統上,城市人口流量是根據調查數據采用四步法進行估算的,這是勞動密集型和資本密集型的,而且更新頻率也很低。一些研究處理從單個或多個閉路電視(CCTV)攝像機采集的視頻數據,這些攝像機實時提供高精度的人流。然而,由于很少安裝監控攝像機,這種方法不適用于大型網絡。其他一些使用被動數據收集方法的研究包括GPS、藍牙或社交媒體網絡。然而,由于樣本量的限制和用戶屬性的偏差,這些方法無法有效部署[11-13]。
目前,我國的旅游產業發展勢頭迅猛,人流量過載一直是各大景點難以解決的問題,而景區的人流量數據符合時間序列數據的特征。綜上所述,為了旅游業態的拓展和全域旅游的深化推進,本項目將研究如何利用時間序列模型并優化算法,從而準確地預測各大景點的游玩人數。
人流量數據涉及高低峰期、進出口人數,人流量整體分布情況等多種因素,而時間序列的研究必須保證數據的精確性并且考慮到研究內容的多維度,因此本項目將研究如何準確獲取所有按時間序列排列的相關人流量數據的因素,并對數據進行綜合分析,提取其中有利于時間序列預測研究的成分。如今整個社會進入互聯網時代,手機已成為人人必備的通信工具,IMSI 號被稱為國際移動用戶識別碼,是區別移動用戶的唯一標志,而IMSI 號的采集與時間和地點有一定的對應關系,將采集的數據按照時間序列分段進行統計,使得采用IMSI 數據模擬人流量數據并對之預測成為可能,而IMSI 數據的采集原理主要依據LTE的小區重選原理和手機終端與基站之間鑒權過程。采集系統見圖1。
經典時間序列對數據的要求較高,受制于數據采集的精度,景區的人流量數據無法具有很高的明確性和準確性,本項目將研究如何構建模糊時間序列算法實現景區人流量預測。算法的架構見圖2。
論域:合理的論域獲取會在很大程度上影響算法的精確性。
模糊集定義:現實生活中有很多帶有模糊現象的案例,例如“長得高”“長得矮”,還有“大風”“大雪”等,諸如此類的概念均可被定義為模糊概念。這些概念的特點是無法精準地量化事務,主觀特質相對較強[6-8]。由于這些概念描述了一個不準確的量,無法確切地用數字以及類別來表達,用傳統集合概念來描述該類元素顯得十分不合理。因此,本項目將建立模糊集來表達“亦此亦彼”的模糊性現象。
模糊關系的建立:自然界的萬物之間夾雜著許多關系,相對比較簡單的關系可以用有或無來對其進行描述,然而還存在著一種界限相對于前者比較模糊的關系,這種類型的關系很難用決定性的回答,例如“是”或“否”來表達,只能用一種描述關系的程度概念來表達,即模糊關系。
去模糊化:為了使結果變為可觀測的,需要進行去模糊化處理,通過使用反模糊矩陣得出最后的預測結果。
通過模糊均值聚類算法獲得論域:
步驟1:初始化設樣本集X,樣本數N,聚類數為C(2 ≤C≤N),K=1?,F在要將樣本集劃分為C類,記為X1,X2,...,Xc。
步驟2:選定C 個初始聚類中心,記為m1(k),m2(k),...,mc(k)。
步驟3:計算所有樣本與各聚類中心的距離,按最小距離原則將樣本進行聚類。
步驟4:重新計算聚類中心。
步驟5:若i∈{1,2,3,...,C},有mi(k+1)≠m1(k),則K=K+1,轉步驟3;否則算法結束。
算法流程見圖3。
在進行初步的對于人流量聚類之后,數據仍然可能展現出不平穩的特性,為了解決這個問題,需要對聚類后的數據進行差分處理并套用粒子濾波模型進行處理。
2.3.1 差分時間序列
Crammer 分解定理指出,任何一個時間序列{xt}都可以視為兩部分的疊加,其中,一部分是由時間t 的多項式決定的確定性成分,另一部分是由白噪聲序列決定的隨機性成分,即
式中,d <∞;β1,....,βd為常數系數;{at}為一個零均值白噪聲序列;B 為延遲算子。
根據Crammer 分解定理,非平穩序列都可以分解為如下形式:
式中,{at}為零均值白噪聲序列。
2.3.2 基于重抽樣粒子濾波的時間序列預測方法
基于重抽樣粒子濾波的時間序列預測方法的思想是采用貝葉斯濾波法來更新粒子濾波密度和采用重要采樣法來計算積分。將選取的指標作為粒子xk,核心企業指標的狀態方程粒子作為zk,濾波密度p(xk|z1:k)用粒子和粒子權值來表示:;權值表達式為,在使建議密度分布等于先驗密度分布的前提下,重抽樣粒子濾波時間序列預測方法的步驟如下:
計算權值:
算法流程見圖4。
經典時間序列對數據的要求較高,它對歷史數據的依賴大,要求數據較為完整,對于不具有完整性、準確性和明確性的歷史數據無法進行預測,這在現實生活中是非常苛刻的條件。受制于數據采集的精度,景區的人流量數據無法具有很高的明確性和準確性,本項目中使用的模糊時間序列模型通過結合模糊數學與時間序列很好地解決了這一問題。時間序列模型見圖5。
許多熱門景點經常出現人口容量超出承載量的現象,直接導致游客的游玩體驗下降,并且可能會導致一些公共安全事故。如果能準確預測景點人流量,能夠避免大規模游客滯留的現象,使游客錯峰出行,提升各大景點游客的游玩體驗。
精準預測景點人流量將有利于相關工作人員安排各類資源和公共服務的有效再配置,實現區域內部資源的有機整合、產業的整合與發展、社會的共建與共享,帶動和促進經濟社會與旅游業的協調發展,重新定位新階段我國的旅游發展戰略,即全域旅游的深化推進有重大幫助。
本文通過使用IMSI 號完成了人流量數據的采集,從而準確地獲取了所有按時間序列排列的相關人流量數據的因素,并對數據進行綜合分析,提取了其中有利于時間序列預測研究的成分。此外通過運用模糊時間序列分析算法完成了景區人流量預測算法構建,本文通過結合模糊數學與時間序列很好地解決了數據采集產生的精度誤差。