馬宗澤 趙濤 劉海濤 蒲雪松
(云南中煙工業有限責任公司營銷中心 云南省昆明市 650000)
LBS 又被稱為移動位置服務,是一種依托于GPS、Wi-Fi、基站等定位技術,并結合移動終端內置的加速度計、陀螺儀和芯片等用戶采集用戶位置信息的新型技術,其英文通用表達方式為“Location Based Services”。
LBS 定位技術在時間和空間的商業化配置中起到了高價值信息提供方的角色,能夠為企業提供精準營銷數據,能夠將散落在時空中的歷史消費者關聯起來,為企業提供物理空間中識別和跟蹤的各種對象和庫存。因此,本文的研究課題“區域用戶價值模型研究與LBS 數據應用”是非常具有商業價值的。
人群畫像標簽的數據基礎包括如以下標簽:性別、年齡、學歷、常住地省份、常住地城市、常住地區縣、家鄉地省份、家鄉地城市、子女年齡、人生階段、是否有車、消費水平、居住社區價格等級、居住社區房價、通勤方式、差旅常客、旅游距離、出國游、旅游目的地(中國、內地、境外)、到訪偏好(購物、娛樂休閑、運動健身、汽車、醫療保健、酒店賓館、教育學校、美食、基礎設施)、APP 偏好(健康、出行、辦公、娛樂、工具、攝影、教育、旅游、游戲、理財、生活、社交、系統、美化、視頻、購物、通訊、閱讀、音樂),手機品牌、手機價格。
區域內位置數據采集包括基站定位、GPS 定位、WIFI 定位等方式。在移動終端GPS 芯片、加速度計、陀螺儀等功能模塊的輔助下實現定位數據的采集。
以GPS 定位數據采集為例,借助定位芯片模塊,LBS 定位可以實現出行時間、位置坐標、出行速度等數據的采集;在GPS 定位的輔助下,商業化的出行數據的定位精度一般在10-20m 之間,有的商業化軟件可以提供3-5m 的定位精度服務。
為了便于區域人群分析,標簽數據采集的主要內容包括常駐人口結構數據、人群分布熱力數據、人口居住地數據等等。這些數據往往都是與智慧城市相關聯,依靠第三方進行提供的。與此同時,還需要采集小時級區域人群分布熱力、人口城市級空間分布熱力等相關數據。這些數據一般是通過APP 等提供的定位服務數據。在此類數據采集的過程中,需要依法依規在用戶同意的前提下合理采集。
由于目前“人群畫像”在智慧城市中的應用還沒有一個完整的、成熟的、大眾認可的案例,因此,現在的“人群畫像”還在探索與可行性分析階段。人群畫像的基礎就是白起數據的采集。在LBS數據的輔助下,人群行為科學、合法的采集首先就是一個難關。其次,如何在全周期內采集到完整的人群數據,并依靠智慧城市等相關平臺進行空間數據的清洗也是比較困難的。此外,對于時空行為來說,可測度性毋庸置疑,但是它們的數據特征還具有異化特征。因此如何將人群行為與時空數據進行異化特征的匹配也還在探索階段。綜合上述三大難點,可以知道,標簽數據的采集要充分認識到時空數據異化特征,并顧全人群行為異化特征,充分將標簽數據采集,并集中表達在城市的空間效益之上。唯有如此,才能采集到有效的標簽數據,進而進行人群畫像。

表1:基于時間節奏的數據預處理

表2:基于時間節奏的數據預處理
時空行為本身包含了時間、空間、行為三個層次的內容。本文以2020年的一個選定的時間窗口(9月3日-12月3日),JY 企業APP 用戶在WH 市的CBD 及周邊地區的定位數據為依據,構建模型如下。
時間節奏是指城市人群在時間維度下的明顯行為變化的度量,如表1 所示。
在表1 中,需要說明的是,從時間上,本文將“居住行為”定義為夜間定位集中的地點活動時間大于6 小時。
從WH 市的實際情況出發,為了簡化本文的討論,本文將研究區域控制在WH 市CBD 及周邊,并以CBD 為中心劃分為四個區域(表2)。出于討論的需要,將四個區的范圍,以距離為依據進行細分:0-3km 為金融中心區,3-6km 為配套服務區、6-10km 為生活區、>10km 為運動休閑區,如表2 所示。

表3:行為模式數據預處理

表4:區域內人群譜系
在本文的實際數據中匯總發現,存在13 種較為典型的生活和工作方式,分別為家庭生活型、單一經濟來源型、單一生活方式型、潮汐生活型、雙份經濟來源型(上午)、兩點一線生活服務型、雙份經濟來源型、雙份經濟來源型(下午)、夜生活休閑型、雙份經濟來源型(中午)、單一經濟來源型(上午)、夜班工作型、單一經濟來源型(中午不休)等等,如表3 所示。
通過以上的數據預處理,為了便于對WH 市的人群畫像,結合空間分布、時間節奏和行為三維度,本文將WH 市的人群畫像譜系進行分解。金融中心區-足不出戶-家庭生活型;近郊-足不出戶-家庭生活型;配套服務區-足不出戶-家庭生活型;遠郊-朝九晚五-單一經濟來源型;近郊-朝九晚五-單一經濟來源型;近郊-早出晚歸-單一經濟來源型;遠郊-早出晚歸-兩點一線型;配套服務區-朝九晚五-單一經濟來源型;金融中心區-朝九晚五-單一經濟來源型;金融中心區-足不出戶-單一生活方式型;遠郊-早歸晚出-單一經濟來源型;金融中心區-足不出戶-單一經濟來源型;配套服務區-早出晚歸-單一經濟來源型。從中不難看出,雙份經濟來源型、家庭生活型和單一經濟來源型占比較多。
如表4 所示,人群譜系的構建可以對城市人群進行標簽劃分,進而實現人群在三維度上的畫像,以有利于評估用戶價值算法模型的構造。與此同時,通過譜系的刻畫,WH 城市被何種人群使用,人群到底是趨于異化還是趨于同化,從業者的行為規律與職業規劃等問題均可以得到印證。
本次研究使用選用ST-DBSCAN 聚類算法進行WH 市LBS 數據停留點的識別,其中控制因素為時間和空間兩個因素。
ST-DBSCAN 算法的邏輯如下:
(1)將距離閾值設置為S 米,最小時間定位M 秒;
(2)在時間序列中,依據距離閾值判斷對軌跡點On 與下一個軌跡點On+1 是否滿足閾值限制;
(3)將步驟(2)得到的所有軌跡點On 到On+m 依據經典DBSCAN 算法步驟進行聚類。
(4)從軌跡點On+m+1 開始,重復步驟(2)與步驟(3),遍歷所有軌跡點,識別出所有的行為點。
在綜合分析相關文獻的基礎上,本文發現“區域用戶價值模型研究與LBS 數據應用”的相關研究還很薄弱,缺乏相關的理論探索。鑒于此,本文依據移動終端LBS 定位技術的特點,綜合分析JY 企業APP 用戶在WH 市的CBD 及周邊地區的定位數據特征,提出了基于區域用戶畫像并可用于評估用戶價值的算法模型,并解決了如何科學地評估用戶價值的問題。