









摘要:為了實現(xiàn)對管控人員的監(jiān)督,提高管控效率,提出基于軌跡數(shù)據(jù)的特定用戶行為分析方法.通過智能設備對管控人員的位置和狀態(tài)信息進行采集,然后根據(jù)坐標點之間相關系數(shù)挖掘軌跡中的停留點,根據(jù)距離和時間閾值篩選停留區(qū)域.停留區(qū)域相互連接形成管控人員的行動軌跡,為了便于管控人員行為分析,將長軌跡進行二次切割,建立DBSCAN聚類模型,挖掘用戶頻繁路徑并減少其缺失,從而為特定人群的監(jiān)管提供支持.
關鍵詞:軌跡分析;聚類算法;用戶行為分析
中圖分類號:TP301.6"" 文獻標志碼:A
Specific User Behavior Analysis Method Based on Trajectory Data
GAO Xiang
(School of Digital Media, Lanzhou University of Arts and Science , Lanzhou 730000, China)
Abstract:In order to realize the supervision of management personnel and improve the efficiency of management and control, a specific user behavior analysis method based on trajectory data is proposed. The location and status information of the control personnel is collected through intelligent equipment, and then the stay points in the trajectory are mined based on the correlation coefficient between coordinate points, and then the distance and time thresholds are set to filter the stay areas among the stay points. The stay areas are connected to each other to form the action track of the controller. In order to facilitate the behavior analysis of the controller, the long track is cut twice and the DBSCAN clustering model is established to mine the frequent paths of users and reduce the absence of frequent paths, thus providing support for the supervision of specific groups.
Key words:trajectory analysis; clustering algorithm; user behavior analysis
0 引言
社區(qū)矯正是指將符合條件的罪犯置于社區(qū)內,由專門國家機關在相關社會團體、民間組織及社會志愿者的協(xié)助下,在判決、裁定或決定確定的期限內,矯正其犯罪心理和行為惡習,并促進其順利回歸社會的非監(jiān)禁刑罰執(zhí)行活動[1].當前,司法行政系統(tǒng)及類似職能部門主要通過腕帶、智能機等設備利用GPS、基站定位技術實時或準實時采集管控對象的行為軌跡數(shù)據(jù).然而軌跡數(shù)據(jù)采集頻率較高且數(shù)據(jù)量龐大,基層管控人員易產生信息疲勞,進而造成告警信息遺漏或響應滯后.同時,對特定人群軌跡信息缺少可視化角度,難以直觀準確的呈現(xiàn)信息含義[2].另外,行為軌跡數(shù)據(jù)應用層次較淺,管理層不能有效評估和預測特定人群持續(xù)和長期行為模式,無法基于軌跡數(shù)據(jù)特征提前做出預防措施.
為解決上述問題,本文提出一種基于軌跡數(shù)據(jù)的特定用戶行為分析方法,通過多層次數(shù)據(jù)挖掘和聚類分析,精確識別用戶行為模式[3].首先,利用智能腕帶等設備實時采集管控對象的行為軌跡數(shù)據(jù),這些數(shù)據(jù)包含了用戶在不同時間及地點的詳細行動信息.在此基礎上,針對傳統(tǒng)停留點挖掘算法的局限性,提出基于軌跡點間皮爾遜相關性的改進算法[4].這種改進能夠更有效地挖掘用戶的候選停留點,通過分析不同軌跡點之間的相關性,進一步增強停留點的識別準確度.通過設置距離和時間的閾值篩選停留點,以此獲取用戶的長期停留區(qū)域,幫助識別用戶在特定區(qū)域的常駐行為,為后續(xù)的行為模式分析提供基礎.同時,引入偏好矩陣對用戶的日程進行速度建模,更準確地模擬其日常活動規(guī)律[5].在獲取用戶完整日常運行軌跡后,通過建立DBSCAN聚類模型進一步挖掘用戶的頻繁路徑[6].此方法有效減少頻繁路徑信息缺失,提升了行為模式捕捉的準確性.該分析方法可為特定人群的社區(qū)矯正和監(jiān)管提供技術支持,不僅有助于行為預測,還提升了精準監(jiān)管效果.
1 基于軌跡數(shù)據(jù)的管控對象行為分析
1.1 管控對象行為軌跡處理
通過腕帶或者智能機等設備利用GPS,基站定位技術實時或者準實時采集管控對象的行為軌跡信息,采集的信息主要包括:管控對象編號、經(jīng)緯度坐標及數(shù)據(jù)采集時間等,數(shù)據(jù)具體格式如表1所列.
管控人員的行動受限,其行動軌跡相對簡單,為便于對管控對象的軌跡進行分析,需提取軌跡數(shù)據(jù)的行為特征,并進行聚類分析.管控對象的行動軌跡通常具有規(guī)律性,如日常路線、不同地點停留時長及日常接觸對象等.
由于軌跡數(shù)據(jù)采集頻率較高、數(shù)據(jù)量龐大,且存在缺失、重復或錯誤等情況,需要對數(shù)據(jù)進行處理隨后分析數(shù)據(jù)特征.數(shù)據(jù)清洗主要包括刪除定位漂移、重復及異常數(shù)據(jù)等.如果數(shù)據(jù)處理中出現(xiàn)管控人員數(shù)據(jù)稀疏問題,可直接認定該人員存在嫌疑,對于數(shù)據(jù)中的缺失點可使用均值濾波[7]或卡爾曼濾波[8]等方法進行補全.
1.2 停留點挖掘
停留點可以在一定程度上反映管控人員的生活習慣,停留點的挖掘可以為軌跡識別與異常行為監(jiān)控提供重要的參考依據(jù).假設管控人員行動軌跡的位置點序列為P={P1,P2,…,PN},其中每個點的狀態(tài)信息包括管控對象編號、采集時間、管控對象的經(jīng)緯度、高度及速度等.根據(jù)時間順序將各個位置點連接形成一條軌跡,其中停留時間較長的點即為停留點(如居住地、飯店及公共場所等).傳統(tǒng)停留點挖掘算法[9]主要以距離和時間為依據(jù)設置一定范圍的閾值,超過閾值則認為停留點存在,但這些算法存在挖掘不完整或準確率低的問題.一般情況下,管控人員在停留點周圍活動時,其運行軌跡變化頻率可近似表達該軌跡段中心點的方向變化(如圖1所示的P2和P5即為停留點).
本文利用軌跡點之間的相關性改進傳統(tǒng)停留點挖掘算法,通過設定距離閾值以確定軌跡路線方向變化頻率標準,為此選擇皮爾遜相關系數(shù),其主要用來衡量各點之間是否具備線性關系.相關系數(shù)絕對值越小方向變化越頻繁,若絕對值接近1表示軌跡方向基本無變化.在上述模型中,設置(Lon,Lat)={(Loni,Lati)}ni=1表示一個軌跡序列,皮爾遜相關系數(shù)計算如式(1)所示:
rp(Lon,Lat)=
∑ni=1(Loni-Lon)(Lati-Lat)∑ni=1(Loni-Lon)2*∑ni=1(Lati-Lat)2.(1)
在停留點和拐彎處的軌跡方向會發(fā)生明顯變化,因此可選擇相關系數(shù)最小點作為候選停留點.停留點挖掘算法如圖2所示.
圖2 停留點挖掘算法流程
1.3 軌跡數(shù)據(jù)切割
管控人員的軌跡數(shù)據(jù)按時間排序形成完整的軌跡信息(含停留點和移動路線信息),為實現(xiàn)不同類型屬性分析,需對軌跡數(shù)據(jù)進行分割.為便于后續(xù)管控人員行為分析需添加相關參數(shù),如表2所列.
添加參數(shù)后,以停留點為切割點對軌跡進行拆分,生成按照時間排序的一系列點位信息,每個位置點包括管控對象編號、經(jīng)度、緯度、時間及每條子軌跡的唯一ID,進而可依據(jù)停留點地點數(shù)據(jù)及運動自軌跡數(shù)據(jù)對管控人員行為進行分析.
假設管控人員數(shù)據(jù)集規(guī)模為n,數(shù)據(jù)清洗包括去重與異常數(shù)據(jù)處理,時間復雜度為O(n),停留點挖掘需對數(shù)據(jù)進行兩次遍歷,同理數(shù)據(jù)切割與分析各需進行一次遍歷,因此算法整體時間復雜度為O(n).
2 基于軌跡數(shù)據(jù)的行為分析
2.1 軌跡聚類
前文講述了軌跡切分的方法,但管控人員的活動軌跡常存在重合,若對切分的軌跡段進行整體挖掘,會導致細節(jié)特征無法體現(xiàn),為此,需要對這些軌跡段進行二次分割.為更大程度保留軌跡的屬性變化特征,通過設置角度和長度兩個閾值,對軌跡進行二次切分[10].
設A、B、C為軌跡上的3個采樣點,a、b、c分別表示其長度,根據(jù)余弦定理,兩軌跡段間夾角計算如式(2)所示:
α=arccosa2+b2+c22ab.(2)
夾角越小表示軌跡變化越大,選點越合理.若軌跡段長度小于限定閾值,可忽略該點.
2.2 子軌跡聚類算法
子軌跡聚類采用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法.在該算法中,設定兩個參數(shù):鄰域半徑ε(Eps)和鄰域半徑內樣本數(shù)據(jù)的最少個數(shù)MinPts.若某個點的ε鄰域中至少有MinPts個點(包括自己),則該點是核心點.若某個點的ε鄰域中點的數(shù)量不足MinPts,但它位于一個核心點的ε鄰域內,則該點為邊界點.若某個點既不是核心點,也不是邊界點,則為噪聲點.軌跡聚類算法具體過程如圖3所示:
在圖3中,初始化階段所有數(shù)據(jù)點都被標記為“未訪問”; 隨機選擇一個未訪問點,若它已被標記為噪聲點或屬于某個簇,則跳過;否則計算該點周圍ε距離內的點數(shù).若鄰域內點數(shù)量≥MinPts,則將該點標記為核心點并繼續(xù)進行聚類.在擴展簇階段,若該點是核心點則創(chuàng)建一個新簇.將鄰域中所有點加入該簇并標記為“已訪問”; 對于每個加入簇中的點,檢查其ε鄰域.若其鄰域點數(shù)≥MinPts,則將這些點的鄰域也并入簇中(即簇會不斷擴展);若鄰域點是邊界點(非核心點),則將其添加到當前簇中但不擴展.
DBSCAN算法無需指定簇數(shù)量,基于點的密度聚類,可對任意形狀簇進行分類,并通過識別低密度區(qū)域的噪聲點有效處理含噪數(shù)據(jù).
2.3 管控人員行為分析
管控人員行為分析采用Apriori算法[11]發(fā)現(xiàn)軌跡中出現(xiàn)頻率較高的行為模式或路徑,幫助理解人員的常規(guī)行為;結合時間與空間因素分析人員在特定時間段的行為規(guī)律.例如,某一時段頻繁出現(xiàn)在特定地點可能預示某種行為習慣;通過檢測軌跡中的停留點分析人員高頻訪問區(qū)域,并根據(jù)停留時間判斷其行為目的.
識別異常行為是管控人員行為分析的重要功能,基于預先定義規(guī)則(如進入禁區(qū)、違反規(guī)定路線等),對軌跡進行實時或批量檢測,識別異常行為.針對子軌跡的歷史數(shù)據(jù)進行分析,識別與正常行為有顯著差異的異常軌跡,也可采用監(jiān)督或無監(jiān)督的機器學習算法來檢測異常軌跡.
分析了管控人員的具體行為路徑,可對其未來行為提供預警,具體包括:分析軌跡中的時間特征,如某個人在特定時間段的行為模式,建立時間序列預測模型[12],預測未來行為趨勢;建立狀態(tài)轉移模型用于建模人員行為的狀態(tài)轉移過程,預測下一個可能的行為或位置;基于歷史軌跡數(shù)據(jù),使用馬爾科夫鏈等模型預測下一個位置或未來路徑,幫助提前部署應對措施等.
3 實驗與結果分析
為測試本文算法的有效性,以表1中管控對象NB21390為例,其運動軌跡數(shù)據(jù)如表3所列.
具體到地圖上,其軌跡如圖4所示.
從圖4可知,該管控人員的軌跡數(shù)據(jù)較為清晰,在A、B、C、D 4個區(qū)域存在大量重復數(shù)據(jù)及部分異常數(shù)據(jù),因此,在對該數(shù)據(jù)處理之前需要進行清洗.由常識知,該管控人員在A點等待公交,途經(jīng)B、C點路口時公交車等待紅綠燈,最終到D點附近下車,后步行到D點并長時間活動.停留點挖掘過程中設定距離閾值為5 m,計算各個軌跡點之間的皮爾遜相關系數(shù),得A、D點為管控人員停留點,而B、C點作為候選停留區(qū)域因停留時間過短而被排除.
對該管控人員行動軌跡進行切割,可劃分為5段(即0→A,A→B,B→C,C→D’,D’→D).因B、C點為非停留點,最終劃分為0→A,A→D’,D’→D 3段,對管控人員的行為分析可從3段軌跡開始.
對多個管控人員的軌跡數(shù)據(jù)采用子軌跡聚類算法,將相似子軌跡進行聚類,可對管控人員的日常行為和活動區(qū)域進行推測,一旦出現(xiàn)異于常規(guī)區(qū)域訪問行為即對該管控人員進行重點監(jiān)控.結合行為習慣進行分析,即可劃分禁區(qū)或規(guī)定活動路線.
4 結語
大數(shù)據(jù)時代背景下,司法行政系統(tǒng)社區(qū)矯正領域積累了大量數(shù)據(jù)資源,如何充分挖掘數(shù)據(jù)價值,高效利用數(shù)據(jù)信息解決實際業(yè)務問題已成為同類需求機構遇到的共性問題.基于軌跡數(shù)據(jù)的特定用戶行為分析方法,旨在通過多層次數(shù)據(jù)挖掘和聚類分析,精確識別用戶行為模式.基于軌跡點間皮爾遜相關性的改進算法可分析不同軌跡點間的相關性,進一步增強停留點識別準確度.通過設置距離和時間閾值對候選停留點進行篩選,以此獲取用戶長期停留區(qū)域.通過建立DBSCAN聚類模型挖掘用戶的頻繁路徑,有效減少了頻繁路徑信息缺失,更準確地捕捉用戶的行為模式.最終,該分析方法為特定人群的社區(qū)矯正和監(jiān)管提供了技術支撐,不僅有助于行為預測且提升了精準監(jiān)管效果.
參考文獻:
[1] 賈鵬虎,田東陽.智慧矯正強監(jiān)管“板橋助矯促新生”[N].河南法制報,2024-09-30(6).
[2] 鄧志鋼,郭仁忠,陳業(yè)濱,等.面向軌跡可視化的泛地圖表達維度關聯(lián)方法及應用[J].測繪通報,2024,(11):56-60,96.
[3] 譚雨晴.基于數(shù)據(jù)挖掘的用戶行為分析及睡眠分期研究[D].大連:大連海事大學,2023.
[4] 王博文.基于深度學習的交通流量時空預測分析方法研究[D].北京:中國人民公安大學,2023.
[5] 張瑾木子,徐海燕,陳璐.基于圖模型的不確定偏好下沖突決策共識模型[J].系統(tǒng)工程與電子技術,2025,47(1):191-201.
[6] 單云霄.面向復雜數(shù)據(jù)的密度峰值聚類與聚類集成算法研究[D].哈爾濱:哈爾濱理工大學,2024.
[7] 王熙來,鄧曉燕,郭曉婷.基于改進卡爾曼濾波的移動機器人目標識別與定位研究[J].機床與液壓,2024,52(16):26-31.
[8] 李隆,安毅,謝麗蓉,等.基于深度學習與卡爾曼濾波的多模態(tài)融合里程計[J].激光與光電子學進展,2024,61(18):1-12.
[9] 鄧惠文.出租車GPS軌跡的頻繁模式挖掘研究[D].成都:西南財經(jīng)大學,2023.
[10] 王梓旭,李攀,王冰,等.傾轉旋翼飛行器運動穩(wěn)定性變化規(guī)律及其影響機理[J/OL].航空動力學報,1-15[2024-10-20].https://doi.org/10.13224/j.cnki.jasp.20230755.
[11] 余舒鵬,吳春雨,趙斌,等.面向時空軌跡流的共同運動模式分布式挖掘算法[J].數(shù)據(jù)采集與處理,2024,39(5):1163-1181.
[12] 郭書君,任衛(wèi)軍,陳倩倩,等.基于聚類多變量時間序列模型的交通流狀態(tài)實時預測[J/OL].計算機應用,1-10[2024-10-20].http://kns.cnki.net/kcms/detail/51.1307.TP.20241012.1732.004.html.
[責任編輯:李嵐 杜佳]