汪洋 姚偉娜 沈廣才 楊明



摘要:手機信號中包含實時定位時空信息,這些移動時空數(shù)據(jù)中包含了豐富的時空特征和行為信息,通過對時空數(shù)據(jù)進行分析和處理,可有效挖掘人類活動規(guī)律與行為特征,實現(xiàn)用戶畫像,為個性化推薦、突發(fā)事件預防、城市計算提供必要基礎(chǔ)。本文提出了基于手機移動時空信息的用戶畫像框架,著重介紹了對于關(guān)鍵技術(shù)如停留點與停留區(qū)檢測、重要位置識別、位置語義分析、用戶行為分析等的實現(xiàn)方法,對系統(tǒng)中的隱私保護問題、數(shù)據(jù)精度與識別準確性等問題也給出了進一步的意見。
關(guān)鍵詞:時空數(shù)據(jù)處理;停留點;停留點聚類;軌跡模式;重要地點識別;行為分析
中圖分類號:TP18? ? ? ?文獻標識碼:A
文章編號:1009-3044(2021)26-0098-03
開放科學(資源服務)標識碼(OSID):
1 引言
隨著移動互聯(lián)網(wǎng)、位置服務等技術(shù)的高速發(fā)展以及移動設(shè)備的普及,產(chǎn)生了海量的時空數(shù)據(jù)。在用戶時空數(shù)據(jù)中包含了豐富的時空特征和行為信息,通過對時空數(shù)據(jù)語義的處理和分析,可以挖掘人類活動規(guī)律與行為特征、城市車輛移動特征、用戶行為喜好特征等有用信息,對于提升社會工作效率、提前預測并防范突發(fā)事件有著關(guān)鍵作用。基于時空數(shù)據(jù)的用戶畫像已經(jīng)在許多領(lǐng)域得到了應用,用戶畫像方法不僅應用于電子商務和內(nèi)容推送領(lǐng)域,在人才評價、旅游服務[3]、在線評價[4]、社交[5]甚至于刑偵等多個領(lǐng)域發(fā)揮著重大作用。
移動通信網(wǎng)絡能夠定期或不定期地主動或被動地記錄手機用戶時間線的基站編號,手機等移動終端收集到的定位數(shù)據(jù)可以來自移動通信網(wǎng)絡、Wi-Fi接入點位置信息等,記錄了移動對象的位置、時間、速度和方向等行為特征。移動終端通過對不同基站下行導頻信號(電信網(wǎng)內(nèi)為測量或監(jiān)控的目的而發(fā)送的信號)進行測量,得到不同基站下行導頻的參考信號強度和到達時間。依據(jù)該測量結(jié)果以及基站的坐標,便能計算出移動終端所在的位置信息。此外,OTT 定位指基于App軟件獲取用戶的位置信息,依托互聯(lián)網(wǎng)應用向海量用戶提供的定位服務。通過 LTE網(wǎng)絡S1-U 接口(即基站與分組核心網(wǎng)之間的通訊接口)中的數(shù)據(jù)解析提取出用戶位置服務的經(jīng)緯度信息,并利用用戶標識以及此時刻的MR(移動通信)數(shù)據(jù)進行關(guān)聯(lián),并利用特定算法實現(xiàn)MR(移動通信)數(shù)據(jù)更高精度的定位。
時空數(shù)據(jù)一般來都具有時空序列性、異頻采樣性、數(shù)據(jù)質(zhì)量較差等的特點。汪倩等人對用戶畫像實現(xiàn)流程和用戶畫像應用進行了綜述。用戶畫像實現(xiàn)除了簡單通過統(tǒng)計數(shù)據(jù)的方法實現(xiàn)外,還常運用基于向量空間模型的方法、基于潛在Dirichlet 主題模型的方法、基于貝葉斯網(wǎng)絡的方法、基于本體(Ontology)的方法、基于神經(jīng)網(wǎng)絡的方法等來建模。高強等人[7]對于軌跡數(shù)據(jù)預處理方法以及噪音濾波、軌跡壓縮等方法進行了歸納和總結(jié),介紹了目前軌跡數(shù)據(jù)處理中所使用的核心算法。
基于手機時空數(shù)據(jù)的用戶畫像構(gòu)建方法是通過對用戶所產(chǎn)生的移動時空數(shù)據(jù)進行深度挖掘和剖析,通過檢測算法實現(xiàn)停留點的檢測再對用戶停留點語義進行理解和發(fā)掘并尋找用戶停留點間語義聯(lián)系,從而達到對用戶潛在屬性(交通工具、頻繁模式、周期模式等行為分析)和行為模式的發(fā)掘。實現(xiàn)用戶重要地點識別(家,單位,其他重要場所),實現(xiàn)推薦服務、位置服務和用戶畫像分析的應用。
2 畫像構(gòu)建框架和基本步驟
用戶畫像是通過借用已經(jīng)分析出的用戶日軌跡、重要停留點、用戶個性化行為和行為規(guī)律等重要信息的分析,來實現(xiàn)對用戶屬性、偏好、行為和生活規(guī)律的分析,形成對用戶的基礎(chǔ)認識。要刻畫一個人物畫像,要了解其的生活規(guī)律,習慣,愛好,性格,而這些可以通過對用戶停留點語義的分析實現(xiàn)。
基于時空數(shù)據(jù)的畫像構(gòu)建思想和框架如圖1,基本步驟包括動時空數(shù)據(jù)預處理、停留點檢測、停留區(qū)識別、重要位置識別與語義理解、用戶行為分析等。保證數(shù)據(jù)的準確性、完整性、可信性和可解釋性,是后續(xù)處理的基礎(chǔ)。經(jīng)過預處理的時空信息是按時間序列組成的位置序列,這些時空信息包含用戶的運動和停留軌跡,其中的停留點具有豐富的信息,因此需要將時空數(shù)據(jù)中的停留點檢測出來。用戶的停留點并不局限一個點,有些停留點彼此靠近,形成停留區(qū)域,停留區(qū)不僅可合并停留點數(shù)目,減少處理信息,還能提高位置語義理解精確度。許多停留區(qū)如家、工作單位具有很明顯的時空特征,很容易借助算法從停留區(qū)中識別出來。識別出的位置信息通常只是具體的地理位置信息,還需要結(jié)合地圖或?qū)Ш竭M行具體位置語義解析和翻譯,通過語義信息分析可以獲取用戶的相關(guān)信息。在用戶行為分析中,還可以借助時空數(shù)據(jù)中的時間信息獲得用戶的活動軌跡圖,利用日期信息獲得用戶獲得的頻率和周期信息,利用合適的數(shù)據(jù)挖掘方法獲得用戶的行為信息,從而構(gòu)建出用戶畫像。
3 關(guān)鍵步驟的處理與算法實現(xiàn)
3.1 數(shù)據(jù)預處理
數(shù)據(jù)預處理階段主要完成對數(shù)據(jù)進行缺失值填補、噪點消除和分類提取。將缺失值以其他同類型的特定字符進行替代。
預處理后的數(shù)據(jù)主要包括用戶編號、時間、經(jīng)度、維度等有價值信息。并將數(shù)據(jù)按照用戶和日期進行劃分和提取,將同一用戶同一天的數(shù)據(jù)單獨提取和存儲,以便于在停留點檢測時不會因為數(shù)據(jù)的原因而無法達到預期效果。預處理后數(shù)據(jù)效果如圖2。
3.2停留點檢測算法
由于時空數(shù)據(jù)包含著該數(shù)據(jù)點采集的時間和數(shù)據(jù)點的經(jīng)緯度信息等,所以我們可以通過對數(shù)據(jù)點間的距離和時間差的限制來實現(xiàn)停留點的檢測和初步篩選。基本方法是通過定義一段時間內(nèi)移動距離不超過特定值的點即為停留點。
停留點算法思想,參數(shù)含義以及參數(shù)設(shè)置及影響。
輸入:預處理后的數(shù)據(jù)集,停留點時間限,停留點距離限
輸出:停留點集合 sp={s}
i=0,pointNumber=len(G),sp_ID = 0