王仲妮 靳濤

摘? 要:群體事件預測對群體事件管理具有重要作用。文章通過分析時空軌跡數據的特點,首先確定使用頻繁模式對多維度時空軌跡進行數據挖掘,其次對時空軌跡數據進行預處理,最后通過優化Apriori算法,提出一種MapReduce框架下基于Apriori算法的時空軌跡數據挖掘算法,實現在并行運算環境下對時空軌跡數據進行關聯規則挖掘。實驗表明:該算法可以找出經濟群體事件發生的關鍵因素特征,這些特征值符合不同類型經濟事件的特點,為公安行業經濟群體事件管理提供決策部署依據。
關鍵詞:群體事件;時空軌跡;Apriori算法;并行運算;數據挖掘
中圖分類號:TP311.13? ? ? 文獻標識碼:A 文章編號:2096-4706(2019)01-0078-03
Application of Spatio-Temporal Trajectory Data Mining in the Police Management
of Economic Group Events
WANG Zhongni1,JIN Tao2
(1. Public Security Department of Shanxi Province,Taiyuan? 030006,China;2.Taiyuan Fire Brigade,Taiyuan? 030006,China)
Abstract:Group event prediction plays an important role in the management of group events. This paper analyzes the characteristics of spatio-temporal trajectory data. Firstly,by comparison,the frequent patterns are the optimal methods for the multi-dimensional spatio-temporal trajectory data mining. Secondly,the trajectory data was pre-processed. Finally,this paper proposes a new spatio-temporal trajectory data mining algorithm based on MapReduce framework. The experiment proves that the new algorithm can find out the key factors which affect the occurrence of economic group events. And the factors are consistent with the characteristics of different types of economic events. It can provide decision-making basis for the management of economic group events.
Keywords:group event;spatial-temporal trajectory;Apriori algorithm;parallel computing;data mining
0? 引? 言
隨著信息化的快速發展,社會治理過程中積累了海量的時空軌跡數據。通過挖掘時空軌跡數據中目標群體的活動規律和特點,實現對經濟群體事件的預防和預測,成為公安領域中打擊犯罪,減少社會危害的重要工作內容[1]。
Apriori算法是經典的數據挖掘算法[2]。近年來,國內外Apriori算法優化取得了很大的進展[3],但在時空數據挖掘應用方面還不是很理想。本文針對社會治理時空軌跡數據規模龐大、數據種類繁多、數據空間跨度大等特點,首先預處理時空軌跡數據,作為Apriori算法的輸入數據,然后利用Map/Reduce方法優化Apriori算法,通過并行運算方式改善Apriori算法運行效率,最后挖掘出經濟群體事件中相關因素之間的規律,如參與群體的年齡、所在區域、行為特征之間的規律。實驗結果表明,這些規律符合不同類型經濟事件的特點,可以有效實現對經濟群體事件預測和預防,為公安行業的群體事件管理提供服務。
1? 時空軌跡數據特點及數據挖掘模式
時空軌跡數據蘊含著豐富的信息,通過獲取目標對象的時間、地點、行為及對象間關系,挖掘目標對象或某類群體的活動規律及活動特點,預測下一步可能出現的群體事件,可以有效地幫助公安部門進行決策和部署。
1.1? 時空軌跡數據特點分析
時空軌跡數據是采集機、專業系統等電子設備產生的時空數據,記錄了目標對象的時間、地點、行為等方面的特征[4]。目前,對時空軌跡數據進行分析和挖掘已經成為相關研究的熱點和難點[5]。
時空軌跡數據具備以下特點:一是數據規模龐大。由于采集設備種類多、采集周期長,能夠獲取到的軌跡數據量非常大。二是數據質量不高,數據運算難度較大。不同時空軌跡數據存在數據冗余、格式差異、精度不一致等問題,增加了同時處理多維度時空軌跡數據的難度。
社會治理時空軌跡數據主要有以下幾個特點,一是數據規模大,軌跡數據采集范圍廣,采集周期長,每日產生的數據量以億條計算。二是數據質量參差不齊,數據來源于不同行業的信息系統,這些信息系統建設缺乏統一的標準和規范,數據質量參差不齊。三是空間跨度較大,從地理經緯度來說,記錄下來的數據包含同一個對象在不同時間不同地點發生的多個行為,空間上可能跨越多個省市。
1.2? 社會治理時空軌跡數據挖掘模式
時空軌跡數據挖掘有多種模式,例如,頻繁模式、關聯模式等[4]。頻繁模式是指從時空軌跡數據中找出頻繁重復出現的序列,對目標對象進行分析和預測等。關聯模式是尋找空間對象隨時間發生變化的規律。社會治理時空軌跡數據涉及社會生活領域多、數據規模大、空間跨度大,通過有效挖掘這些時空軌跡數據中頻繁出現的序列或者項集,有助于理解目標對象的活動方式和活動規律,預測可能出現的群體性事件,為公安部門對群體事件的決策部署提供幫助,對減少特殊群體事件帶來的社會影響和危害,保障人民群眾的生命和財產安全具有重要意義。本文主要利用時空軌跡數據挖掘的頻繁模式對社會治理時空軌跡數據進行處理。
2? 基于改進Apriori算法的時空軌跡數據挖掘
Apriori算法是最有影響的數據挖掘算法,本文針對時空軌跡數據量大,傳統Apriori算法耗用計算資源多的特點,提出一種基于Hadoop框架,利用Map/Reduce方法改進Apriori算法的時空軌跡數據挖掘算法,實驗結果表明,該算法可以很好地處理社會治理時空軌跡數據。
2.1? 關聯規則Apriori算法
Apriori算法是一種挖掘布爾關聯規則頻繁項集的算法。他是基于兩個階段的遞推算法,一是根據支持度,生成頻繁項集。二是根據可信度,生成關聯規則。
2.2? Hadoop框架下基于Apriori算法的時空軌跡數據挖掘
傳統Apriori算法需要多次反復讀取數據庫,耗用較多計算資源[2],因而不適于處理規模較大的時空軌跡數據。基于Hadoop框架的Map/Reduce方法是由Google實驗室提出的。為加快數據處理速度,本文利用Map/Reduce并行運算方法提高Apriori算法的效率。具體算法步驟見圖1。
第一,將不同類型軌跡數據合成一個輸入文件,通過Map函數將數據項集以
3? 實驗結果及分析
本文通過對獲取到的移動對象時空軌跡數據進行處理,找出了群體事件發生的規律,并通過專家經驗去理解群體事件發生的規律和特點。
3.1? 數據預處理
對社會治理時空軌跡數據預處理主要包括兩個步驟:一是屬性選擇,由于時空軌跡種類多樣,不同軌跡的屬性差異較大,因而需要在不影響預測結果的前提下選擇相關屬性;二是數據轉換,由于Apriori算法只適合處理分類變量,不適合處理數值型變量。因而,需將數值型的軌跡變量轉換為分類變量。
3.1.1? 屬性選擇
由于多種時空軌跡來源于不同的系統,屬性名稱不同,屬性類型不同,因此需要在不影響預測結果前提下,保證屬性名稱一致。如不同系統的姓名類的屬性可能分別為“姓名”、“乘客”、“學生”,為保證屬性名稱一致,都將其修改為“姓名”。同時有些屬性對預測沒有實際意義,增加這些屬性反而會耗用運算資源,因此需選擇相關屬性。如“備注信息”這一屬性對群體事件預測沒有實際意義,因而這一屬性不選入相關屬性集中。本文選擇的相關屬性包含:性別、軌跡類型、年齡段、行政區劃、軌跡發生時間段、軌跡數、經濟群體事件編號。
3.1.2? 數據轉換
由于Apriori算法不適合處理數值變量,因而屬性選擇之后,還需要將數據轉換為分類變量。
3.2? 涉眾案件影響因素預測分析
本文使用的數據來源于某省近三年經濟群體事件中全部人員的時空數據,數據規模為177441條。通過使用Hadoop框架優化Apriori算法進行數據挖掘,發現了很多關聯規則。舉例如下:
3.2.1? A2^B7^C5^D1^E1^F2->G1
這個規則說明參與G1經濟群體事件的人群集中在該省省會市,且多為50歲以上的女性。這些人群的主要特征為經常上午在銀行辦理業務。專家依據經驗知識,分析這一現象產生的原因如下:第一,經濟群體事件G1需要投資人具備一定的經濟收入水平;第二,經濟群體事件G1主要集中在該省城市1,說明該市居民可支配收入較高,且具備一定的理財需求;第三,50歲以上的部分女性缺乏投資渠道且經濟知識相對匱乏。因而具有以上人群特征的對象參與該類經濟事件的可能性上升。基于這種情況,群體事件管理部門可以在該省省會針對來銀行業辦理業務的50歲以上女性群體開展經濟常識普及,降低該類群體事件發生的可能性。
3.2.2? A1^B3^C2^D10^E1^F3->G2
這個規則說明參與G2經濟群體事件的人群集中在該省D10城市,且多為20歲至30歲年齡段間的男性,這些人群的行為特征為經常下午上網。專家依據經驗知識,分析這一現象產生的原因如下:第一,經濟群體事件G2的主要特征是依靠互聯網吸收儲戶資金,入門門檻較低;第二,該區域中,20歲至30歲年齡段間的男性青年就業率較低,這部分青年通常花費較長時間上網,因而通過網絡接觸到該類經濟事件的概率增加,參與該類經濟事件的可能性上升。基于這種情況,群體事件管理部門可以在該省D10城市針對上網的30歲以下男性青年群體,開展經濟常識和網絡安全知識普及,降低該類群體事件發生的可能性。
4? 結? 論
群體事件預測是政府部門對群體事件進行管理的重要依據。本文提出了一種Hadoop框架下利用Apriori算法挖掘時空軌跡數據的方法。通過采用Map/Reduce方法計算出頻繁項集,優化了Apriori算法的計算效率。實驗表明:該算法可以挖掘出群體事件發生的關聯因素特征,如參與群體所在區域、年齡段、活動時間、行為特征等。這些特征值符合不同類型經濟事件的特點,為公安行業經濟群體事件管理提供了決策部署依據。
參考文獻:
[1] 陳鵬,趙鵬凱,瞿珂.基于時間序列模型的110警情數據預測研究 [J].信息系統工程,2015(9):128-131.
[2] 張圣.一種基于云計算的關聯規則Apriori算法 [J].通信技術,2011,44(6):141-143.
[3] 邱昕,甘超,江雄心,等.基于云計算環境下Apriori算法的設備故障診斷技術研究 [J].組合機床與自動化加工技術,2014(4):45-48.
[4] 吉根林,趙斌.時空軌跡大數據模式挖掘研究進展 [J].數據采集與處理,2015,30(1):47-58.
[5] 彭曲,丁治明,郭黎敏.基于馬爾可夫鏈的軌跡預測 [J].計算機科學,2010,37(8):189-193.