趙麗 魏仁干
摘要:進店維修的客戶流量是卡車維修店鋪運營的關鍵,對客戶身份的識別是統計客流量的前提。本文以某商用車維修服務站為研究對象,參考基于手機信令數據的職住空間識別思路,設計層次化數據清洗流程,最終從多類型人群中篩選出了進店維修目標群體(卡車司機)的手機信令數據,為下一步統計分析維修店鋪客流量提供依據。
關鍵詞:維修服務站;手機信令數據;數據清洗;卡車司機
2019年度中國汽車售后服務滿意度調查報告結果顯示重卡用戶去往維修點的分流比例中品牌授權特約維修站占77%,非授權修理廠、路邊店等占23%,此滿意度調查覆蓋全國23省,10大重卡品牌[1]。近些年隨著商用車技術的不斷發展,卡車車型也隨之更新換代,路邊店已無法勝任一些專業維修工作。因此對維修店的評價顯得尤為必要,評價的基礎就要對其客流量進行評價,利用手機信令數據識別卡車司機軌跡是解決這一問題的關鍵。
一、數據來源
原始手機信令數據的基本格式包含手機用戶唯一識別碼IMSI號、時間戳、信令數據所屬基站位置區編號LAC、基站小區編號CeLL-ID、事件類型等幾個字段。每個字段的說明如下:
(1)IMSI?(International?Mobile?Subscriber?Identity),國際移動用戶識別碼,存儲于手機SIM卡,和手機號對應,具有唯一性,類似于手機卡的“身份證號”,用以標識和區別用戶。
(2)LAC(位置區碼)和CI(小區識別碼):LAC(location?area?code?),移動通信系統中的位置區碼,記錄的是某個基站所覆蓋的一片區域,也叫一個大區或基站區。一個基站區可包含一個或多個小區,而一個小區又對應一個小區標識,就是基站小區號,即CI(Cell?Identity),可以通過LAC和CI確定較為準確的用戶位置信息。一般而言,基站密度越大,覆蓋范圍越小,定位精度越高。用戶密集的市區,通信業務量大,基站也多,基站間距為300?m左右[2],覆蓋半徑一般在100-200米左右;郊區、縣城的基站間距為600?m左右,單個基站覆蓋距離300?m左右。理想的小區形狀是正六邊形的蜂窩網狀。
(3)位置更新和周期性更新:當手機用戶因為位置不斷變化而從一個基站小區移動到另一個基站小區時,用戶的通信鏈路就會因為接收信號的強度從原基站切換到當前基站進行通信聯系。當手機獲悉自己當前的位置區有所變化時,會主動與無線網絡聯系,廣播自己的位置;當位置區長時間沒有變化時(長時間停留在某處、手機關機等),網絡會要求手機周期性(按一定時間)報告自己當前所處的位置信息。周期性位置更新事件可以提高用戶信令數據產生的頻率,提高其行為軌跡的定位精度。
(4)時間戳:記錄了用戶每個移動軌跡點的發生時間,也是觸發某種信令事件的時間,精確到秒。
(5)信令事件類型:記錄了觸發手機信令數據的用戶手機業務類型,如開關機、收發短信、主叫被叫、正常位置更新、周期性位置更新、訪問網絡等。
(6)用戶基本屬性信息:手機號、年齡、性別、號碼歸屬地等信息,這些數據會做脫敏處理后用于模型計算。
本研究使用的手機信令數據由中國聯通公司提供,首先要對研究的維修站進行空間位置和邊界的明確[3],建立基站和維修點的映射關系,用于將手機用戶的位置匹配至實際區域。本文選取某商用車維修服務站所在園區中心為圓心,以能覆蓋住整個園區的半徑350米畫圓,此圓的覆蓋范圍即為電子圍欄研究區,研究此區域內基站產生的信令數據。
二、數據處理
要實現基于手機信令數據的卡車維修店鋪客流量統計,核心前提是利用運營商的信令數據分析完成對進店維修人群的識別,去除非修車司機數據。文章在充分分析不同時段內職住地用戶活動行為特征和各種噪聲數據特點后設計了層次化的數據清洗思路,具體如下:
定義在設定的研究時間段內獲取的研究區域基站產生的手機信令數據為數據集N1。
第一步:輸入N1,輸出20-60歲男性數據集N2。據統計,卡車司機群體中的男性比例大概占99%,只有極少數的女性。同時,《機動車駕駛證申領和使用規定》要求A1、A2、B2駕駛證的申請和使用年限在20周歲以上,60周歲以下。所以第一步剔除女性數據和<20歲,>60歲的人口。
第二步:輸入N2,去掉缺失數據、錯誤數據和觸發事件失敗數據后輸出數據集N3。因為網絡連接不暢、設備故障等原因造成某些屬性值缺失的數據叫缺失數據,在一定程度上會影響結果的有效性,但此部分數據總量較小,直接將關鍵字段(如IMSI、LAC、ID)缺失及字段有誤的對象進行刪除對整個分析結果影響不大;錯誤數據是指不在研究范圍內的數據,如日期不對或者超出研究區域的信令數據,此部分數據比較容易將其刪除;觸發信令數據失敗的事件類型主要有:呼叫失敗(主叫、被叫)、收發短信失敗和位置更新失敗(正常位置更新、周期性位置更新),因為觸發事件失敗原因不明,信令數據中的表征的地理經緯度可能并非用戶的真實位置反映[4],為了減小誤差,也將此類型數據進行刪除。
第三步:輸入N3,去掉重復數據后輸出數據集N4。重復數據的產生一方面是因為手機用戶在同一個位置區域頻繁發生上網、通話或收發短信等通信活動,在短時間內產生連續位置相同的信令數據;另一方面是周期性位置更新,當手機長時間處于某個基站覆蓋范圍內又沒有發生其他通信活動或跨區移動現象觸發信令數據時,網絡會要求手機每隔1個小時[5]左右上報自己的位置信息以便掌握手機當前狀態,所以當卡車司機進入維修站大修、居民白天夜里在家和職員在公司上班時,用戶手機都有可能產生多條字段完全相同的重復數據,此類數據增加了無效樣本量和計算工作量,因此予以排除。