范琴
摘要:在疫情常態化防控的當下,各景區的安全運營都離不開對景區人流的實時監控,運營商的信令數據具備規模大、實時性高、覆蓋面廣的優點,可快速為景區提供實時的人流監控,但由于運營商數據的定位原理依賴基站工參、出于成本考慮采集的信令字段有限、運營商用戶的市場占比動態波動等原因導致景區客流統計不準確,同時由于游客統計口徑的差異、景區類型的不同以及景區邊界圈選等問題,加深了基于運營商數據實現客流統計時的誤差。本文詳細闡述了當前各種景區客流監控方式的優缺點,深入分析了基于運營商數據實現客流統計的主客觀原因,基于可實操的層面提出了采用運營商數據實現客流精準統計的改進方案以及每種方案的優缺點,以期為景區提供更便捷可靠、低成本的精準客流實時監控,助力景區實現數智劃轉型。
關鍵詞:人流統計、信令數據、運營商、景區
一、研究背景
景區作為大型的人流量聚集地之一,體現著一省服務業的發展水平,加強景區營運管理,利用數據實現對景區的監管,對提升旅游行業服務整體品質是非常必要的。建立景區人流量監測系統目標在于解決景區游客流量的監控分析,為景區的規劃發展、營銷決策提供了科學的數據依據。
利用運營商基站定位技術,對游客數量、游客屬性、景區粘度等維度的數據進行統計分析,實現景區客流負荷實時監控預警、景區游客各類統計分析等功能,為各級旅游監管部門的日常管理及公眾安全提供科學的決策依據[1]。由于基站統計方法的局限性,部分景區存在地理邊界不匹配、周邊環境復雜等原因,導致統計數據和實際情況存在偏差。
二、現狀分析
1. 監控方式
當前部分景區還沒有開始智慧景區建設,客流統計的主要方式還是以閘機為主,開放式景區則沒有客流統計的手段。閘機統計方式數據精準,能夠準確反映出景區接待量,但是只能反映景區范圍內的游客總數,無法分地段進行統計,同時也不能對游客進行大數據挖掘,無法分析游客的年齡、性別、客源地等信息[2]。
相較于傳統的閘機計數方式,部分景區著眼于建設智慧旅游平臺,在客流監控模塊采用的主要是具有前置統計功能的攝像頭監控和運營商基站監控。
此外,還有一些景區會和互聯網公司進行合作,利用游客在景區使用開啟了GPS定位功能的APP應用來進行游客統計。此種方案利用游客終端設備的GPS定位數據,準確性高,但是同樣無法獲取較為全面的游客屬性信息,而且數據獲取成本和后期系統運維成本較高,不推薦景區使用。
四種監控方式優劣勢如下:
2.誤差情況
但是由于客觀原因,運營商數據對于景區的監控預測和實際數值仍有一定差距,下面以安徽省黃山風景區為例:
如圖所示,系統摘取了2019年6月28日至7月7日黃山景區累計游客數據,與對應的黃山景區閘機數據進行對比,可以看出,雙方系統數據差距較大,趨勢基本相同,比例基本相同。
(注:移動數據暫未考慮運營商三方占比的問題,數據來源于互聯網公布數據)
三、誤差原因分析
針對以上事例不難發現,單獨使用運營商的數據很難實現對景區游客的精確統計,這其中的誤差原因包含了各類分析算法本身的精度原因、也有運營商數據定位的主觀原因等。
1.客觀原因分析
1.1運營商數據及定位算法的原理導致數據統計的不準確性
首先,用來實現游客統計的運營商數據均來自于運營商網絡側用戶與基站發生通信時的交互數據中所攜帶的位置信息,實際上定位到的是用戶所連接的基站的位置而非用戶實際準確的GPS位置。
1.2運營商數據采集不全
運營商本質上作為通信服務的提供商,其目標是保證網絡的穩定和高速,所以其采集的數據以能夠達到分析網絡質量為基礎目標。雖然某些通信數據、路測數據等所產生的附加價值可以被用來做人流統計與分析,但如果采集和存儲這些數據需要付出較大的成本(如MDT數據),則不在運營商數據采集的考慮范圍內。
1.3運營商數據的片面性
目前國內通信服務市場下,三家運營商各自瓜分了一部分市場,即使作為4G市場占有率最高的移動,其用戶占比大概在60%~75%,這個數值在各個地市區縣都有一定的區別,使用運營商數據來統計的游客數也只是能一部分,并且很難單純地通過一個比例來還原真實的游客數。
其次,三家運營商的數據很難做到融合。如雙卡雙待終端插入了兩張異網卡時,會在兩邊運營商處重復統計。
2.主觀原因分析
2.1游客識別算法的精準度
目前通用的方法是以駐留時間來識別游客。但不同景區游客的駐留時間不同,無法完備地枚舉各類景區的游客特征[3],導致了游客統計的不準確。
2.2景區及游客的類型、行為會影響準確度
某些景區的類型和游客的行為也會影響統計的精準度[3]。如內含酒店或民宿的景區,游客跨天旅游時,閘機或者門票只會在當天記錄進去有這名游客,而第二天則不會記錄,但是運營商的數據仍然會在第二天將該名游客作為一名游客進行統計,從而導致運營商統計的游客和景區門票統計的游客在某些情況下對不上。
2.3無法準確圈定出景區邊界導致統計不準
運營商網絡管理部門在監測到網絡質量波動后,經過綜合分析,確定需要調整哪些基站的功率大小、方向角等參數,而且各地市區縣在執行調整策略的時候,很有可能存在“先干活再記錄”的方式,即先進行基站參數的調整,再在系統上修正基站的工參信息。工餐的實際情況與記錄內容不符導致景區包含的基站信息胡準確,影響統計結果。
四、解決方案探討
為更好地挖掘運營商數據價值,為文旅委、旅游局、景區提供更加準確的游客流量統計數據,輔助政府單位規劃省內旅游資源,布局全域旅游戰略,實現智慧旅游的全面轉型,可以從以下三個方面著手,優化提供的數據接口,逐步提供游客流量統計精度:
方案一:提升運營商數據位置解析精度:運用運營商基于信令的解析能力以及大數據實時計算技術的發展,提升回填經緯度的準確性,從而提高區域人口統計、區域人員畫像的準確性;深入地圖類APP解析,輔助精準定位。
方案二:硬件輔助優化:依靠具有前置算法的高清攝像頭、室內小基站及其他傳感設備捕獲更精確的數據,用于運營商數據擬合和糾偏。
方案三:數據建模分析:將區域進行細類劃分,根據不同區域的特征進行建模優化,提升區域人數統計的精準度;運用多種大數據算法和模型,擬合人員軌跡,補充人員畫像,優化統計算法。
下面將對三類方案進行細化,并初步估算了實施計劃及完成時間。
1.提升解析精度
1.1E-CID(TA+AOA)定位技術
適用場景:室外地區定位較準;
定位精度:誤差在100m~200m;
定位原理:根據TA估算基站和移動臺(手機)之間的距離,再根據AOA的角度信息獲取終端的位置信息;
數據需求:全面的基站工參數據、信令數據;
實現難度:現有部分基站工參數據不全,計算復雜度較高、對資源開銷較大,定位非實時,有2h以上的延遲(具體視投入資源情況而定);
實施方案:
(1)估算基站和手機之間的距離:主要是根據測量接收信號在基站和移動臺之間的到達時間,然后轉換為距離,從而進行定位。該方法至少需要三個基站,才能計算目標的位置。三個基站測的與 MS 的距離分別為R1、R2、R3,以各自基站為圓心測量距離為半徑,繪制三個圓,其交點即為 MS 的位置。當三個基站都是 LOS 基站時,一般可以根據最小二乘(LS)算法計算 MS 的估計位置[4]。
(2)測量信號移動臺和基站之間的到達角度:以基站為起點形成的射線必經過移動臺,兩條射線的交點即為移動臺的位置。該方法只需兩個基站就可以確定 MS 的估計位置。當基站裝有天線陣列時,天線陣列根據移動臺發送的信號來確定入射角度。兩個基站的入射角分別為a1、a2,以各基站為起點,入射角方向構造直線的交點,即為 MS 的位置。
(3)結合前兩步得出的數據,利用矩陣計算的方式,得出最終MS(手機)的位置。
1.2RF fingerprint定位技術:基于指紋庫的定位方法
適用場景:更適合復雜的室內環境,能夠較準確地區分室內外用戶,并實現室內分層的定位;
定位精度:誤差在25m~200m,受室內信號強度影響較大;
定位原理:通過本小區及鄰小區的信號質量特征與覆蓋地圖特征庫進行指紋特征匹配實現定位;
數據需求:MR數據、基站工參數據;
實現難度:數據量較大,資源開銷較大,目前MR數據的采集是以月為單位,實時性較差;
實施方案:
(1)數據采集,形成指紋庫:室內定位中的位置指紋法,就是事先把各個位置上的信號特征(各Wi-Fi的信號強度)測量一遍,存入指紋數據庫。定位的時候,將當前的信號特征與指紋庫中的進行匹配,從而確定位置。
(2)指紋匹配:是通過實際采集的數據與數組庫中保存的位置指紋進行匹配,算出距離,比較常用的算法有 k階類聚算法,加權k階類聚算法,神經網絡算法[5]。
1.3采用技術手段實時更新景區基站靜態數據
適用場景:較為通用;
定位精度:誤差在25m~3km,受基站覆蓋范圍影響較大;
定位原理:通過圈定更準確的景點范圍,篩選出更精確的基站列表,從而統計游客綁定到更精確基站的數據進行游客定位,進而實現統計;
數據需求:信令數據、基站工參數據;
實現難度:已實現;
實施方案:
建立省運營商級別的位置庫平臺,平臺與省運營商的網絡優化部門工單系統打通,盡量保證景區所對應的基站工參信息更新能夠及時。
方案優勢:靜態數據刷新流程簡化,方便快捷,通常從實施層面預估,在提出需求后三個工作日內即可刷新數據接口中基站數據。
方案劣勢:無法判斷景區周邊及景區內部基站分布情況;目前技術尚不能剔除周邊基站部分覆蓋情況,也無法判斷部分覆蓋的比例。
2.硬件輔助優化
對接景區已建設的視頻監控系統,利用深度學習算法對視頻內容進行解碼,提供靜態、動態兩種人流統計的手段,輔助景區進行特定場所的人數統計工作,實現智慧景區管理。
靜態人流統計:對攝像頭監控的視頻內容進行拍照記錄,對照片進行人臉識別,從而實現人流統計。
動態人流統計:將攝像頭動態視頻數據接入現有的AI分析平臺,實時識別視頻監控區域內走過的人群從而實現人數統計。
采用輔助硬件手段提供客流參考數據,其結果可直接反饋給景區使用,也可作為校準數據,進入基于信令數據進行客流分析的模型[6],提升運營商信令數據統計的準確性。
3. 數據建模優化
通過大數據分析的方法,在現有數據質量的情況,以最少的硬件及額外資源投入,持續優化客流量統計算法[7]。
(1)區分常駐、流動:常駐人口定義口徑:用戶當前時間往前推15天,在這15天內出現7天以上即定義為常駐人口。應用場景:在最終統計景區游客數量時,剔除常駐人口。
(2)參考停留時長:在統計景區游客數量時,將停留半個小時以上的人群作為游客,去除那些偶然路過的人群因素。
(3)用戶軌跡擬合:底層基于位置拉鏈數據結構,存儲用戶行動的軌跡;
基于隱馬爾科夫(HMM)模型,維特比(Viterbi)動態規劃算法實現用戶道路軌跡的匹配,從而推測用戶在景區的駐留情況,輔助優化基站定位的結果。
(4)第三方數據校準:參考閘機口售票類數據、定義為游客的在景區附近基站旅游類app(景區相關app)啟動次數數據、地圖類app解析出來的GPS數據以及可以調用的其他數據資源,對運營商定位數據進行優化。
3.1第三方數據校準
采用相關性分析方法,結合各景區門票數據或經驗數據,一次擬合或二次擬合得出基站數據與門票數據的相關性公式(相關性指數0.95以上),后期基站數據通過相關性公式計算后輸出,基本可貼合景區門票數據。
方案優勢:通過簡單線下計算即可大幅提高景區監控準確性,開發工作量較小;只要能收集到基礎數據的景區,都可通過個性化相關性公式調增或調減景區人數,而且公式還可根據不同時間段調整。
方案劣勢:所有數據的計算都要基于原始景區數據的準確性,風險較大;前期需要收集大量景區統計數據,數據越多,計算公式越準確,但收集工作量越大;計算過程的調增或調減無法通過實際影響因素解釋,只能體現準確性提高,但無法找到影響景區人數的原因。
五、結束語
基于運營商信令數據來實現景區客流監控,具備投入低、見效快的優點,可快速幫助景區在疫情常態化防控的社會背景下實現景區安全生產經營。但結合信令數據在各種不同情況下的統計誤差,需結合不同的方法加以改進,根據景區類型,采用合適的誤差修正辦法,提高景區客流監控的準確性,助力景區實現數智化運營。
參考文獻:
[1]中國移動MDT技術應用指導意見
[2]謝堅.客流量統計在旅游行業的應用[J].信息系統工程,2015,000(009):86-87.
[3]項譯.基于手機信令數據的旅游交通客流特征分析研究[D].東南大學,2017.
[4]柴滿,劉坤杰.一種基于信號強度分析的移動端三角定位修正方法和裝置:,CN109089214A[P].2018.
[5]常建萍,楊大成,張健明.蜂窩無線網絡中移動臺定位算法Fingerprint的研究[J].2013.
[6]吳秋琴.基于大數據的景區客流量統計評估系統及方法:,CN111369394A[P].2020.
[7]趙新波.基于基站位置定位的客源分析系統的研究[J].信息系統工程,2015,000(012):16-17.