胡杰明
摘 要:簡單介紹利用決策樹對一個犯罪嫌疑人的犯罪行為程度進行分析,挖掘相應數據,理出一個較可行的方式和模型,實現對犯罪風險程度的預測。
關鍵詞:決策樹;數據整合與挖掘;犯罪預測
中圖分類號:TP18
1 緒論
隨著信息化時代的到來,大數據、云計算、機器學習等科學技術不斷得到發展與完善,各個行業的技術均離不開信息化建設的支持。在信息化社會背景下,公安應用也在不斷改革。這一新的趨勢促使公安工作在大數據的環境下不斷挖掘、不斷運用。為提高公安情報工作,公安部門應加強數據的整合與挖掘。傳統的警情研判、對犯罪人的預測,是通過人力隊海量數據進行整合分析,這樣耗費了大量警力資源。所以,警務改革應針對情報分析方向的技術加以深層次的研究,打造一個良好的、有效率的、適應當下環境的綜合運用系統。目前在該領域,相關部門已經建設相應的信息數據平臺,但對信息的處理僅僅還停留在查詢、統計、更新,對處理完的案件進行更新儲存,便于以后查詢,分析層次極其欠缺。好比基層公安機關的警情分析系統都是基于C/S模式,得出的結果大多是復雜的報表數據,警綜平臺就是一個鮮明的例子。但這些復雜的數據中,隱含著許多未被利用且被忽略的數據信息,所以需要結合公安多方面的應用,將數據進行整合和挖掘,基于決策樹進行數據分析,建立數據倉庫,總和數據記錄,好比大量的犯罪行為記錄,發現其犯罪規律、趨勢、犯罪行為之間的聯系以及誘發狀態,從而實現對犯罪程度的預測。
2 犯罪行為
決犯罪行為是犯罪人所實施的違反刑法規定構成犯罪的行為。是刑法學中犯罪構成的基礎和行為人承擔刑事責任的根據。它是一個犯罪心理演變的過程,最主要的就是犯罪嫌疑人的犯罪動機。如果能提前準確地對其進行預測,就能在犯罪嫌疑人將要進行犯罪前阻止其一切行動。
3 決策樹
決策樹(decision tree)是一類常見的機器學習方法,目的是為了產生一棵泛化能力強,即處理未見示例能力強的決策樹。決策樹的生成是一個遞歸的過程。
(1)決策樹算法。決策樹算法是數據挖掘技術中用來分類、預測的一種算法。在決策樹的基本算法中,有三種情況會導致遞歸返回:①當前節點包含的樣本全屬于同一類別,無需劃分;②當前屬性集為空,或是所有樣本在所有屬性上取值相同,無法劃分;③當前節點包含的樣本集為空,不能劃分。它的樹形結構模型,在分類問題中,表示基于特征隊數據進行分類的過程,可以認為是if-then規則的集合,每個內部節點表示在屬性上的一個測試,每個分支代表一個測試輸出,每個葉節點代表一種類別。
4 決策樹下犯罪風險中的應用
(1)模擬信息表。為了有效說明問題,我們給出少許的虛擬數據,進行綜合處理得出一個數據表。首先進行數據預處理:可將已知信息,按有年齡、文化程度、經濟情況、有無固定職業、有無犯罪記錄、違法次數、犯罪程度等分類,進行標記,生成枝葉,將每個節點數據綜合整理,形成模擬信息表。
(2)基于ID3的決策樹模型。由于虛擬數據內容不夠詳細,分析程度和分類知識的獲取仍然未達到理想狀態。如果項目和記錄次數較多,則決策樹的分枝和層次將非常龐大。當然,在實際應用中,分析的數據和項目越多,得出的挖掘知識就更可信,更具有價值。這只是一個簡單的粗層次分類模型,想做到良好的、可靠的分析模型,我們應在大數據基礎上,采集并挖掘更多的有效數據,并結合犯罪分析的專業知識,從作案對象、手段特點、作案工具、作案時間、作案場所、專長等特征具體加以分析,這將會是一個很有意義的分析模型,采用的是ID3算法生成的決策樹模型,這個算法的特點是使用信息增益來選擇特征。
(3)分支順序。我們依然可以采用一種遞歸生成算法,依據的是分支順序。算法基本流程是:創建一個新的節點N,如果虛擬數據樣本在其它的同類,就使算法中的N標位葉節點,如果樣本其他的分枝為空值,并標位普通類,選擇樣本分枝中具有最高信息增益屬性,為其對應已知的數值,再從節點N選出其分枝,在幾何中進行增加葉節點與節點,最后得出最終值。在決策樹每個節點上用信息增益熵來進行選擇,簡稱分枝優選。這一種遞歸算法可以通過在樣本中的,選擇最大熵的列作為當前節點的決策,進行層層篩選而得出最小屬性值。該屬性值就能判斷測犯罪嫌疑人的犯罪程度大小,從而預測犯罪風險程度,如此構造了一個相對比較簡單的樹和模型。
5 結語
利用決策樹算法的技術形成時間并不長遠,在我國內各方面領域上,能使用的并不占多數,僅僅局限在商業服務中,而且能成功運用的少之又少。如果放在犯罪風險預測上,那是一個非常有意義的應用。基于決策樹的犯罪風險預測模型對于公安系統的運用中,能夠以最快速度的、高效率的提前預測犯罪嫌疑人的犯罪行為以及犯罪風險程度,這樣能夠在警綜平臺上有效地減少人工成本,對于信息化作戰中提供了良好的作戰準備及保護措施。無法預測到犯罪風險的大小,民警們就很難保護公民們的安全,更難處理意外之事。本文通過對虛擬數據的挖掘,提供了一個較為合理的決策模式,采取這種最低級別的模式,得出一些具有參考價值的的分析結論,能夠對公安業務起到推進作用,提供了一個良好的發展方向。
參考文獻:
[1]劉美玲.基于數據挖掘的決策樹算法研究及應用探討[D].上海:華東理工大學,2009.
[2]盧東標.基于決策樹挖掘算法研究與應用[D].武漢:武漢理工大學,2008.
[3]莊卿卿.一種改進的ID3算法[J].現代計算機(專業版),2009,32(3):37-41.
[4]陸秋.基于決策樹ID3算法的數據挖掘技術研究與應用.桂林:桂林工學院 桂林理工大學,2007.
[5]王珊.數據倉庫技術與聯機分析處理.科學出版社,1998.
[6]Han Jiawei,Kamber M.Data Mining Concepts and Techniques.Morgan Kaufmann Publishers,Inc.,2001.