李俊磊


摘要:在大數據時代,如何從容量大、虛擬化存儲的大數據中獲取電子證據是電子取證急需解決的大難題。該文結合數據挖掘的優勢,將其處于大數據環境下在電子取證中的應用進行了分析。
關鍵詞:大數據;數據挖掘;電子取證
中圖分類號:TP311 文獻標識碼:A
文章編號:1009-3044(2019)33-0001-02
大數據時代的網絡背景下,數據呈現出5V特點,即數據量大(volume)、形式多元化(Variety)、時效快(Velocity)、真實性高(Veracity)和價值大(value)。網絡犯罪呈現樣式多元化、智能化、網絡化,案件偵破困難重重,傳統單一的電子取證已無法滿足當前勢態的發展。將數據挖掘技術應用到電子取證中,不但能夠快速獲取網絡犯罪行為的原始數據進行分析并挖掘出有價值的信息,同時也可以獲得可靠的犯罪證據,呈現犯罪嫌疑人的犯罪事實。有效地提高電子取證的效率,加快了犯罪案件的偵破,打擊網絡犯罪活動,維護社會安全穩定。
1大數據時代下的犯罪行為
隨著信息技術的發展,全球的電子信息數量成指數遞增,互聯網上每天都有大量的視頻、日志、圖片、文件多樣化的信息產生,海量的數據為人們帶來便利和財富的同時,也讓讓犯罪分子趁機而人,一系列互聯網犯罪事件在我國逐年涌現,從山東臨沂準大學生徐玉玉被電信詐騙郁結于心離世,到廣州“1101-黑客”銀行卡盜竊案、江蘇徐州“神馬”網絡盜竊案涉案金額2000余萬元等這一宗宗觸目驚心,在公安部開展的“凈網2018”專項行動蹤,破獲刑事案件22000余起,抓獲嫌疑人33000余名,網絡犯罪行為不斷蔓延,給社會造成了極大的損失和危害。
在大數據時代的新形勢下,互聯網的安全性面臨巨大挑戰。網名的個人隱私信息在不知情的情況下被收集造成信息泄露,容易誘發不法分子竊取個人信息從事電信詐騙、盜取商業秘密和個人財產等犯罪行為。同時電商時代,人們習慣通過電商平臺瀏覽和購買商品和其他網絡交易,在用戶安全意識不高的情況下,容易進入不法分子設計的陷阱,造成虛擬財產的流失等現象。大數據時代你網絡犯罪日益增長,不僅擾亂了人們正常工作和生活、危害了人們的生命和財產安全,同時也破壞了社會的穩定。
大數據環境下的犯罪類型復雜多樣化:
1)通過非法手段,針對網絡漏洞對網絡進行技術入侵,侵入網絡后,主要以偷窺、竊取、更改或刪除計算機信息為目的的習巳罪行為。
2)通過信息交換和軟件的傳遞過程,將破壞性病毒附帶在信息中進行傳播、在部分免費輔助軟件中附帶木馬和后門等攻擊程序。
3)利用公用信息網絡侵吞公共財物,以網絡為傳播媒體在網上傳播反動言語或實施詐騙和教唆犯罪。
4)利用現代網絡實施色情影視資料、淫穢物品的傳播犯罪。
2大數據環境下電子證據面臨的挑戰
電子取證就是執法人員按照符合法律法規的方式利用技術手段進行收集、識別、提取、保存和分析電子數據的執法行為。電子取證的過程可分為5步:保護現場、現場收集初始電子證據、固定并驗證電子證據、電子證據分析、歸檔以及最終呈堂。電子取證的對象包括電子郵件、聊天記錄、視頻、音頻等一切能夠有助于辦案的電子數據。
大數據環境下,數據龐大、來源不同、結構不同、形式不同,如何高效地搜集和整理電子證據是一個極具挑戰性的問題。大數據具有以下特征:
1)數據量巨大:取證分析需要大量的計算和存儲資源,傳統取證工具難以在可接受范圍內完成取證分析;
2)數據類型復雜:由于大量結構化、非結構化的異構數據并存,傳統取證工具的數據處理能力難以適應;特別要求在秒級時間范圍內進行運算處理,并得出對應的結果。
3)數據價值密度低:需要從海量混雜數據中發掘出少部分真正有效的線索證據;在數億的網民中,不法分子只是滄海一粟,在海量的數據中僅有一小部分是不法分子進行不法行為所遺留的信息,大多數是分散的、不集中的。特別大部分不法分子具有反偵查能力,對上網痕跡進行清除、存儲資源給予破壞等,需要通過技術手段找出相關聯的信息,電子證據在數據中所占密度極低。
4)數據存儲空間時間跨度大:由于不法分子利用網絡環境實施犯罪行為,在大數據時代,借助的網絡平臺繁多,存儲地點跨區域性較大,方式多樣化,數據的搜集難度大。目前的犯罪逐漸將傳統犯罪手法和互聯網技術進行高度融合,這種以虛擬空間為犯罪發生地的犯罪行為,犯罪人員的虛擬化、空間虛擬化、時間的虛擬化等,使得案件偵破難度大。
正是因為大數據環境的復雜性,在網絡犯罪案件的偵查中困難重重,不容易取得電子證據,因此,急需能夠應對大數據的電子取證技術來對大數據中的犯罪線索和證據進行取證和分析。
3簡析數據挖掘技術
海量的數據分析中常用的技術是數據挖掘技術,在海量的、不規則的、復雜多樣的數據中挖掘出潛在有價值的信息。數據挖掘的對象是多樣性的,可以包括關系數據庫、面向對象數據庫、數據倉庫、文本數據源、多媒體數據庫、空間數據、時態數據庫、異質數據庫和WEB數據庫等多中信息存儲格式,數據挖掘的流程包括:定義問題(數據采集)、數據準備傲據清洗、數據處理)、數據挖掘、結果分析。其中數據挖掘階段可以使用的技術有關聯分析、聚類分析、分類、預測、時序模式、偏差分析等方法。通過數據挖掘可以做到自動預測趨勢和行為、個體之間的關聯分析、異常孤立點的分析等。
關聯分析就是找出兩個或兩個以上變量的取值之間存在的規律,關聯可分為簡單關聯、時序關聯和因果關聯。通過調整支持度和可信度兩個閥值來度量關聯規則的相關性,使得挖掘結果符合需求。
聚類分析是把數據按照相似性歸納成若干個類別,同一類中的數據間是相似的,不同類間的數據是相異的。在沒有任何模式和先驗知識的參考下進行分類。聚類分析的目標是在相似的基礎上收集數據來分類。
分類就是利用訓練數據集按照分類算法得到分類規則,利用規則建立分類模型,并通過該模型對未來數據的種類和特征進行預測。
4數據挖掘技術在大數據環境下電子取證中的應用
數據挖掘能從海量數據中挖掘出潛在的有價值的信息,所以將數據挖掘技術應用到大數據環境下的電子取證是非常有意義的。電子取證工作的關鍵問題之一是對取證獲得的海量數據進行分析,從中審查判斷出與案件相關的、反映案件客觀事實的電子證據。
將數據挖掘技術融合到電子取證分析的應用框架結構模型如圖1所示:
在電子取證中的數據挖掘的流程跟其數據挖掘本身流程類似,只不過多了對法律法規的匹配和建立犯罪信息數據庫兩部分。在原始數據獲取時需要采用一定的技術從大數據中采集。在數據挖掘階段采用不同的技術提取出有關的行為特征和規則,通過對數據的挖掘,查找出有關聯的數據,并對數據進行關聯性分析、分類分析、聚類分析、時序分析和異常分析。能夠呈現犯罪事實,同時也能預防犯罪行為的發生,做到打擊和預防犯罪。
在網絡犯罪的電子取證中,數據挖掘技術常用的有:關聯分析、演變分析、分類分析等。關聯分析用于采取罪犯的犯罪信息,通過利用Apriori算法、FP-Growth算法等關聯規則算法對數據處理后的特征進行關聯分析,挖掘出罪犯的相關有用信息,不同犯罪形式之間的聯系,如罪犯的行為特征、犯罪時間、犯罪的心理情況和犯罪動機等;通過分類分析建立模型,對異常數據進行分類預測,利用當前的大數據中的犯罪數據,進行訓練建立犯罪行為模型,然后對數據進行監測和對比,有利于對案情的預測,能夠發現異常行為,盡快抓獲犯罪嫌疑人,減少犯罪事件發生。另外在通過數據挖掘在電子取證應用的模型偵破的案件,可以輸入到犯罪信息系統中,擴展犯罪信息數據庫的數量,建立計算機犯罪信息知識庫。不斷完善和評估該取證系統的機制,使得準確性和高效性越來越好,做到電子證據的可靠性。
5結束語
在信息成指數增長的時代,不法犯罪分子越來越凸顯,技術手段越來越多元化,并且反偵查能力也越來越強,在大數據環境下,應該數據挖掘技術對海量數據進行分析挖掘出犯罪線索,促進案件偵破和犯罪預防,保障人民群眾的生命財產安全,為平安中國增添色彩。