楊歡
(甘肅警察職業學院,甘肅 蘭州 730046)
伴隨科學技術的飛速發展以及人口的持續擴增,犯罪行為也不斷增加。而公安部門在分析犯罪行為的時候一直處在被動狀態[1]。而近些年,為了有效處理這種現狀,國內外的專家、學者開始對數據挖掘技術進行深入分析。只不過在公安情報分析中采取數據挖掘技術還處在早期階段,公安的數據挖掘是在各種各樣的信息案件中,將有用的信息進一步提取出來,然后在公安情報分析中合理使用數據挖掘技術。
決策樹算法的含義是借助于樹形結構來充分表示決策集合,這些決策集合經過對數據集的有效分類進一步形成規則[2]。樹的各個分枝表示一個測試輸出,各個內部節點表示在一個屬性方面的測試,而各個樹葉節點進一步代表類或者類分布。在樹構造(歸納)的時候,需要通過剪枝來有效檢測以及剪去訓練數據里面的噪聲以及孤立點,進而提升對未知數據實施分類的精準性。
其主要是指數據庫里面兩個或者若干個變量的取值之間蘊藏的某種規律性。支持度與置信度分別是對關聯規則重要性、準確度的有效衡量。挖掘過程通常都涵蓋兩個階段,首先,一定要從資料集合里面找出全部的高頻項目組,就是找到那些項目組,相較于全部記錄來說,它們產生的頻率超過所設定的最小支持度。其次,再由這些高頻項目組里面進一步產生關聯規則,確保使用這個規則所獲取的結果能夠達到最小的置信度。
數據挖掘包含了多樣化的算法,每種算法都會進一步適應某種數據類型,可還沒有能夠適應全部數據類型的算法。在現實運用中,因為數據類型很豐富,需要我們按照詳細情況開展全面考慮,借助于若干種算法來挖掘數據[3]。算法是數據挖掘的靈魂,唯有適合的算法才可以使挖掘效果達到最好,為了追求挖掘目標的可靠性以及正確性,我們能夠優化現有算法,乃至創造新型的算法。一般情況下,如今在公安情報中一般使用決策樹算法以及關聯規則算法。
在公安情報分析中使用決策樹算法可以有效研究群體性事件。借助于決策樹算法對群體性事件進一步實施分類以及預測,我們能夠分為三個環節開展:決策樹分析、構造決策樹以及數據預處理。數據預處理就是數據挖掘前的相關準備工作,在此詳細是指從公安信息系統中取得有關數據,并且選擇記錄中的敏感屬性,進一步產生數據源[4]。數據能夠只涵蓋用來對群體性事件進行描述的一些項目內容,如此構造出來的決策樹很直觀以及簡單。
給定0<a<1,a的詳細取值由相關專家按照工作經驗的持續總結來明確。a的詳細值還不明確,它僅僅是在相關工作中由經驗豐富的人在具體實踐里面總結的先驗知識,涵蓋專家建議以及領域知識,在學習決策樹的時候能夠進一步理解成在決策樹訓練時除了用來產生以及修改決策樹的實例集以外的全部影響決策樹規則產生以及選擇的因素,比如規則與實例的表示,還有轉換語言、規則產生以及修改所采取的噪音處理、數據冗余與方法等。假如實例集空間非常大,那么采取系數a能夠有效縮小搜索空間,使學習效率獲得充分提升。
在公安情報分析中使用關聯規則可以充分挖掘犯罪行為的規律性[5]。挖掘過程能夠將全國違法犯罪信息數據庫以及偵查情報資料數據庫當作挖掘對象,把挖掘任務充分結合起來,對挖掘算法進行不斷優化,極有可能進一步發現犯罪活動中受害對象、地點、時間以及作案手法等方面的關聯規律性,進而將犯罪活動的相關規律揭示出來,為未來制定有效的偵查措施以及防范犯罪活動進一步提供重要指導。
關聯規則還能夠普遍運用于預警機制中,特別是預測新型犯罪的核心發展趨勢。伴隨社會的飛速發展,各類新型犯罪持續產生,盡管新型犯罪不用于傳統犯罪,可犯罪手法和犯罪領域不一樣,兩者在案發趨勢方面依舊存在一定的類似性。我們能夠把傳統的犯罪趨勢當作研究對象,借助于數據挖掘技術,有效發現其內在的相關規律,事先遏制或制定對應的防控體制,對新型犯罪的增長進行有效抑制。
經過充分挖掘以及研究最新的犯罪行為,能夠從動態信息入手,第一時間發現苗頭,進而明確打防重點。任何犯罪趨勢以及社會治安問題的產生都有先期的苗頭,經過Apriori優化算法的關聯挖掘,能夠第一時間反映出犯罪的核心發展趨勢,可以幫助公安機關借助于情報分析有效把握先機。同時針對目前犯罪速度變化很快的形勢,能夠加快改革犯罪控制的應對策略。
2.2.1 頻繁項集算法的明確提出
頻繁項集算法的明確提出,充分考慮了公安情報分析中數據挖掘效率提升以及新項目敏感性的需求。數據挖掘技術的使用,比如在線服務以及Web應用都應該從日新月異的數據中進一步獲取準確的信息,在這種形勢下,偶爾或頻繁的數據更新都會使得原來發現的關聯規則出現變化。在挖掘關聯規則的時候,需要搜集越來越多的信息,使用戶可以獲取關鍵的以及完整的信息。數據挖掘經常訪問數據庫不利于數據挖掘效率的提升,關聯規則挖掘的情況也是這樣。每次數據庫里面擴增全新的數據,數據庫的規模會逐漸擴大,假如每次都對整個數據庫進行挖掘算法,那么會不斷降低挖掘的綜合效率。在擴增全新的數據后,假如可以充分、有效使用從前挖掘的知識,則就會有效提升挖掘的綜合效率。在此我們提出一個新型的關聯規則算法,這個算法重點是對頻繁項目集進行優化的發現過程,它是按照從前發現的頻繁項目集以及數據庫里面新增的數據對原來的頻繁項目集進行動態更新。數據庫一直是按照時間先后順序持續地累積,在新型的算法中將數據按照時間先后順序實施劃分,新型的關聯規則算法是借助于如今擴增的數據集以及以前發現的頻繁項目集來獲得的,而無需考慮在這之前的全部數據集,提升了對新項目的挖掘效率以及敏感性。
2.2.2 頻繁項目集算法的優化
導入參數c(1≤c≤∞),在以前的數據集中進一步發現頻繁項集的整個過程中,將那些支持度等于或者大于(最小支持度/c)的頻繁項目集保留下來,每次數據庫中擴增全新的數據集的時候,僅考慮如今擴增的數據集以及從前產生的支持度等于或者大于最小支持度/c的頻繁項集,因為數據庫規模的持續擴大,而項目卻在相對比較穩定地增加,掃描支持度等于或者大于(最小支持度/c)的頻繁項目集的時間要進一步短于掃描整個舊數據集的時間,如此可以更及時、有效地發現頻繁項目集。
為了以后在公安情報分析工作中大力推廣這些數據挖掘的相關方法,一定要創建一個“公安情報分析數據挖掘系統”,借助于這個系統選取適合充分挖掘數據類型的有關算法,直接開展數據分析。然后人工優化以及補充數據,深入優化算法,就可以確保整個系統的有效性以及平穩性,可以借助于數據挖掘技術來不斷挖掘犯罪信息,可以對我們的情報分析進行持續優化,使偵破案件的綜合速度以及效率獲得提升,有效降低人力資源的耗損。
總而言之,社會經濟正在飛速發展,信息化時代全面來臨。公安機關作為政府部門的核心管理單位,進一步影響以及制約了社會的每個層面。公安工作要跟上時代發展的步伐,創建以及完善情報分析信息機構,借助于數據挖掘技術,使公安的信息化水平獲得充分提高,承擔起公安機關在社會主義建設中的核心責任。