張盼盼



摘要:在信息爆炸的時代,隨著數據信息的不管累積,如何從大量的數據信息中找到有用的信息變得越來越關鍵。從犯罪數據的特點出發,將大規模人群的行為屬性數字化。在此基礎上,基于粗糙集來建立屬性約減模型。通過刪除冗余特征屬性得到關鍵屬性,從而有效地幫助警察處理案件。
關鍵詞:數字化;粗糙集;屬性約減
中圖分類號:TP391 文獻標識碼:A
0 引言
時下,人們的物質生活獲得了極大提高與改善,社會也在逐步和諧有序地朝前發展。但同時也要看到,由于我國人口基數較大以及人口流動相對頻繁,各種違法犯罪行為仍時有發生。而且,目前的警力配備仍屬有限,尤其對于小型的案件就難以投入足夠的警力去偵測排查。那么,如何利用已有的犯罪信息來幫助警察處理案件,即已成為公安部門的焦點課題之一。近年來,數據挖掘[1]這一技術已經廣泛地應用在信息處理領域中,如數據庫營銷、客戶關系管理、顧客行為預測及市場趨勢預測等[2]。
在現有的一些案件處理相關文獻中,數據挖掘技術也已進入普及應用。文獻[3]是依據不同案件的特點,構建了自組織特征的神經網絡,對相同或類似的案件進行分類,提高案件執行效率。夏穎等人[2]利用犯罪信息的特點,使用聚類分析提取具有相似犯罪特征的案件或者涉案人員單獨成類,再分析每類中的共性特征,依據這些特征去處理相似的其他案件,為按鍵偵破提高效率。
本文采用基于粗糙集的屬性約簡算法建立模型,刪除決策表中的冗余對象信息,在得到的初步精簡的決策表上,設計啟用屬性約簡算法,對決策表中的各個行為屬性進行篩選,刪除冗余屬性,最終求得關鍵屬性,來提升案件偵測過程的處理效率。
1 粗糙集理論概述
粗糙集是1982年波蘭數學家Z. Pawlak提出的一種數據特征分析識別理論,廣泛用于不完整數據和不精確知識的表達、學習與歸納的研究開展[4-5]。在粗糙集理論中,通常用信息系統表示知識,而信息系統可視為是一張二維數據表。其中,行對應于研究對象本身,稱為元組,列對應于對象的屬性,屬性又可以分為條件屬性和決策屬性。
假設用 表示一個信息系統,如式(1)所示:
(1)
式中, 是對象的集合, 即論域; 是屬性的集合; 是總函數,使得 ,并且, 是集合 中的對象元素。屬性集劃分為條件屬性集 和決策屬性集 ,即 ,把這樣的信息系統稱為決策信息系統或者決策表,而決策屬性集 一般只包含一個屬性。這里,用 表示條件屬性集合 中的第 個屬性, 的取值為1,2,3,…, 。
2 屬性約簡模型實例
2.1 建立決策表
本文選取性別、年齡、婚姻狀況、人口來源、文化程度、收入狀況、有無穩定工作、有無犯罪前科、有無犯罪動機、是否精神正常等10個行為屬性[6]構成屬性決策表,并且在屬性決策表中,不存在重復的屬性列。將人群的行為屬性數字化,如表1所示。根據表1,構建原始決策表,具體如表2。所示。
2.2 屬性約簡算法
文獻[7]的研究提出,在描述同一現象的各種信息中,有些是相近的,有些是重復的。針對這些信息進行約簡處理,找到描述現象的關鍵屬性,從而盡可能真實揭示現象本質。在決策表中,如果某條件屬性去掉之后,決策表仍能夠保持相容,不影響決策結果,則該屬性是冗余的,可以約簡。因此,關于信息決策表中屬性約簡的實現步驟如下:
1)在決策信息表中,一行為一個對象。對條件屬性和決策屬性都相同的多個對象,只保留其中一個,其余刪除,得到精簡后的信息表;
2)將每個對象的屬性進行冗余分析,去除非關鍵行為屬性。冗余分析過程可做如下描述:
輸入:
輸出:約簡后的
主要步驟:對于屬性集合 ,其中 ,如果不存在 ,且 , ,則去掉冗余屬性 。
3)在1)和2)的基礎上,求出最小約簡的信息表,得到警方需要的關鍵屬性。
2.3 求解過程
首先,對表2中的20個案例對象進行篩選。因為這些案例是隨機選取而得,沒有一定的規律,就需要對冗余信息實現篩選,排除重復出現的案例對象。通過比較不同對象間的各個行為屬性值,包括決策屬性,如果對象的各個行為屬性完全相同,則需要刪除一個對象信息,得到一個精簡的案例對象信息表,如表3所示。
然后,再對各個行為屬性進行篩選。通過考慮不同行為屬性對決策的影響程度,刪除對決策作用很小的行為屬性。例如,在分析行為屬性性別時,先把行為屬性刪除,在保證決策屬性不同的情況下,通過比較不同對象之間的其他行為屬性是否相同。如果不同對象之間的各個行為屬性值完全相同,則說明行為屬性為冗余行為屬性,可以刪除;否則,行為屬性為關鍵行為屬性,必須保留。依次循環考慮10個行為屬性,篩選出關鍵行為屬性為:婚姻狀況、收入、有無穩定工作、有無犯罪前科和有無犯罪動機。如表4所示。
2.4 結果分析
1)在原始決策表中,選取的20個對象各不相同,因此,通過冗余分析,在刪除冗余行之后的決策表3和原始決策表2相比較,并沒有出現實質性的變化。
2)當刪除冗余行之后,對每個屬性進行冗余分析。研究發現,在刪除冗余屬性之后的決策表中,明顯減少了無效屬性。這對案件的處理發揮了良好的推動作用。
3 結束語
本文利用基于粗糙集的約簡模型,對信息進行了篩選處理,大量減少了無效屬性。通過數據挖掘,可以從海量已有信息中歸類出有用的知識,對未知事件的研究發揮了積極作用,可以為案件的處理提供有效指導。但是在實際運用過程中,依然存在一定不足,如對這種大規模人群的行為屬性進行統計,需要的工作量也跡近龐大,那么在人口流動性較強的地區,如何隨時關注人群的關鍵屬性等,也仍是一個值得進一步探討的重要問題。
參考文獻
[1] HAN J W , KAMBER M. 數據挖掘:概念與技術[M]. 范明,孟小峰,譯. 北京:機械工業出版社,2008.
[2] 夏穎,王哲,程琳. 聚類分析在犯罪數據分析中的應用[J].合肥工業大學學報(自然科學版),2009,32(12): 1924-1927.
[3] 程琳. SOM網絡模型在刑事案件并案偵查中的應用[J].計算機數字與工程,2009,37(11):95-99,151.
[4] ZDZISLAW P. Rough Set theory and its application to data analysis [J]. Cybernetics and Systems, 1998, 29(7):661-688.
[5] 張文修, 吳偉志,梁吉業,等. 粗糙集理論與方法[M ] . 北京: 科學出版社, 2001.
[6] 中國年鑒信息網.刑事法治發展研究報告[EB/OL].[2013-05-19].http://www.chinayearbook.com/yearbook/.
[7] 王智君.粗糙集規則簡約的方法在模式識別中的應用[J]. 微計算機應用,2009,30(5): 1-4.