張席瑞 朱容宇 鄒林
摘要:信息時代的高速發展,雖然極大地方便了人們的生活,但也催生出各式各樣依托于計算機、網絡的新型犯罪。在大數據背景下,電子數據司法取證面臨著取證難、數據篩選效率低下等問題。本文以圖像數據的篩選處理為例,介紹了如何利用深度學習技術針對性的篩選電子證據,提高司法取證的數據篩選效率。
關鍵詞:深度學習;司法取證;圖像識別
中圖分類號:TP311 文獻標識碼:A
文章編號:1009-3044(2019)30-0284-02
1深度學習簡介
1.1深度學習的概念
機器學習是一種實現人工智能的方法,而深度學習是機器學習中的一個分支,是一種讓多層神經網絡能夠運行、訓練的一系列新的結構和方法。
深度學習是機器學習研究中的一個新的領域,其目的在于建立模擬人腦進行分析學習的神經網絡,模仿人腦的機制來解釋數據,例如圖像、聲音和文本。
1.2優勢
深度學習和傳統機器學習相比有以下三個優點:
(1)高效性
例如前幾年大熱的AlphaGO,以深度學習技術為基礎,輕松擊敗了頂級的人類棋手。這就是因為以人類的方式去評估、計算棋局的優劣,需要專業的棋手花費大量的時間進行計算,但影響棋局的因素數量多且復雜,即使花費了大量時間,也不一定準確。但利用深度學習技術,只要設計、搭建合適的框架,就可以節省大量的特征提取的時間,在較短時間內完成分析和預測。
(2)可塑性
與深度學習相比,傳統算法也需要訓練模型,但在針對不同需求進行模型調整時,兩者的代價大不相同,傳統算法的模型要調整很可能要對代碼進行大改,甚至重寫,成本極高;而深度學習模型只需要調整參數就能有效的改變模型,這使得它能以低成本的方式對模型進行細節和功能的調整。
(3)通用性
傳統算法通常是針對某一類特定問題設計,針對性較強,但同時通用性很低;而深度學習可以通過學習來解決問題,同一個算法,對于不同的問題可以按照類似的方式做特征提取和學習,生成不同的模型,以滿足多種需求。
1.3現狀
深度學習極大地促進了機器學習的發展,受到世界各國相關領域研究人員和高科技公司的重視,語音、圖像和自然語言處理是深度學習算法應用最廣泛的三個主要研究領域。
以圖像識別為例,深度神經網絡的構建、計算機計算能力的提升、GPU技術的發展,使得訓練數據的速度大幅增加,促進了圖像識別技術的發展?,F在的深度學習網絡模型已經能夠識別一般的自然圖像。深度學習模型不僅大幅提高了圖像識別的精度,同時也避免了需要消耗大量時間進行人工特征的提取,使得在線運行效率大大提升。
信息技術的高速發展雖然給大眾帶來許多便利,但也促使了不法分子違法犯罪的手段花樣百出,為了打擊犯罪、維護社會穩定,必須對違法案件進行司法取證,獲取犯罪證據。
2司法取證簡介
2.1司法取證的概念
司法取證是指有調查取證權的組織或個人為了查明案件事實的需要,向有關單位、個人進行調查、收集司法證據。具有調查取證權的國家機關有公安、檢察院等。
司法證據包括書證、物證、證人證言、當事人的陳述、視聽資料、鑒定意見、現場筆錄、勘驗、檢查、辨認偵查實驗筆錄、電子數據等。其中電子數據在當今信息技術高速發展的社會背景下,重要性逐年提高。
2.2司法取證中的電子數據取證
電子數據取證的取證主體是具備計算機知識背景的偵查技術人員,取證對象是計算機系統或網絡設備中的電子數據,取證環境是由電子設備所創設的虛擬空間。電子數據取證是指從電子數據中分析、提取出能夠為法庭接受的、足夠可靠和有說服力的電子證據的過程。電子取證包含各種電子數據,只要是以電子手段、儀器等方式獲取到證據,都可以叫作電子取證。
電子數據取證不僅可以發生在虛擬空間,也可以發生在現實空間。計算機取證的對象包括計算機和依托于計算機系統的網絡,還可以借助于各種電子儀器、設備,通過電子的方式進行取證。
2.3面臨的問題
早期的取證工作面臨取證軟件單一,取證硬件落后,多依賴于人工操作的問題。電子數據的取證工作人員消耗了大量的時間對計算機進行人工分析,如查看涉案計算機的注冊表,文件訪問記錄,網絡鏈接的IP,手工進行相關數據的篩選等。
現階段雖然取證設備軟硬件配置和功能有較大提升,但在電子數據篩選方面效率低下仍是比較突出的問題。為了提升取證效率,加快案件偵破效率,必須對取證技術進行改進;而深度學習技術有著效率高、普適性強的特點,如果將其應用于電子數據取證,可以預見,能極大地提升電子數據取證的數據篩選效率。
3深度學習在司法取證中的應用
3.1電子數據取證中的圖像識別需求
3.1.1工作模式
要明確電子數據取證中的具體需求,首先要了解電子數據取證的工作模式。以公安部門電子數據取證的工作模式為例。首先,公安部門在案件辦理過程中發現需要進行電子數據取證時,將待檢測的檢材進行封存,然后向技術部門或有資質的取證實驗室進行委托,將待檢測的檢材移交給技術部門或取證實驗室。接收委托后相關部門或實驗室對檢材進行預檢,如果發現檢材存在損壞、故障、內容有誤等不符合電子數據取證要求的情況時,就將檢材退還給委托部門。若符合要求,則對相關的檢材在只讀狀態下制作鏡像或磁盤復制,然后對制作的鏡像或復制磁盤進行取證分析,通常是進行相應的關鍵詞搜索、數據恢復、相關電子郵件、圖片、聊天記錄等數據的篩選提取。最后,生成相應的取證報告提交給委托部門。
3.1.2需求分析
在上述過程中,最為困難的顯然是對檢材鏡像的分析,目前市面上眾多的取證分析軟件大多通過數據分類、關鍵詞查找等方式進行自動化數據篩選,但這些處理方式難以篩選圖像數據,因此目前仍然使用大量人工方式進行篩選,這不僅效率低下,同時也越來越無法適應數據量大幅膨脹的當前犯罪形勢。
電子數據取證的圖像處理功能需求較為簡單,就是在從嫌疑人處獲取的證據源中找出含有相應違法證據的圖像;以涉毒案件舉例,辦案人員需找出的涉案圖像證據包括:含有毒品的圖片、吸毒圖片等,而需處理的圖像數據少則數千,多則數萬甚至數十萬,以人力進行數據篩選顯然效率不高,尋求自動化的數據篩選方式成為重要的需求。
深度學習在圖像識別等領域已經有很多的應用,如果能將其應用到取證領域中,必將大幅減少取證操作中數據篩選的工作量。
3.2利用深度學習實現圖像識別
圖像識別是人工智能領域的一項重要研究,它以圖像的主要特征為基礎,對圖像進行處理、分析和理解,使其可以識別同一類的不同圖像。而深度學習旨在研究如何從大數據中學習知識并自動完成特征的提取與分類任務。它可以從原始的圖像數據中提取出包含不同層級、語義的特征。
深度學習因其提取特征能力強、應用范圍廣等優點,在圖像識別中得到廣泛的應用,并提出了許多深度網絡模型,例如:卷積神經網絡(cNN)、循環神經網絡(RNN)、深度置信網絡(DBN)等。其中卷積神經網絡(cNN)應用在物體檢測、人臉識別、動作識別等圖像識別領域效果顯著。
本文選取了物體檢測算法Faster R-CNN來實現自動化圖像分類,它的基本原理是預先提取一系列較可能是目標物體的候選區域,之后在這些候選區域上進行特征提取、分類、位置精修,并訓練,生成模型。
3.3基本流程
本方法是一種基于深度學習較高識別率的圖像分析方法,用于生成圖像分析系統,包括以下步驟:
(1)收集數據,建立常見物體數據集,將常見物體數據集按照物體類別分類成不同的分類常見樣本,對各個分類常見樣本再具體劃分成不同的具體常見樣本;
(2)對具體常見樣本的子樣本進行物體標注;
(3)針對特定的物體,建立特定物體數據集,將特定物體數據集按照物體類別分類成不同的分類樣本,對各個分類樣本再具體劃分成不同的具體特定樣本;
(4)對具體特定樣本的子樣本進行物體標注;
(5)對每一個具體樣本結合目標檢測算法進行模型訓練得到物體專用模型;
(6)輸入待識別圖像樣本,按識別方法使用上述模型對數據進行自動分類并輸出結果。
3.4技術分析
上述的基于深度學習的圖像分析方法,模型訓練的基礎是圖像樣本數據集,其構建的樣本數據集包含常用物體樣本集和特定物體樣本集。
常用物體樣本集即為常見物體分類,例如杯子、狗、背包、人類等類別;特定物體樣本集即為此模型需識別的目標物體類別,例如毒品、香煙等;每個類別下有含有對應類別物體的圖像樣本,數量在數百至數千左右。將這兩種數據集結合起來,即可生成針對特定物體的原始數據集,其中常用物體樣本集的作用在于提高對非目標物體的識別率,減少誤識率;特定物體樣本集作用在于確定目標物體,即決定該數據集可以用來識別何種物體,例如特定物體數據集中包含:毒品、吸毒用具、制毒用具這三種類別的樣本,那么該模型則可用于識別涉毒案件的圖像。
模型訓練與物體檢測算法以算法封裝的形式提供API接口給前端調用,模型訓練完成后即可輸入待檢測圖片進行物體檢測并輸出結果,其中圖片中被找出來的物體即為該模型需要識別的目標物體。
4展望
國際文獻資料中心IDC研究表明,數字領域存在著1.8萬億GB的數據。企業數據正在以55%的速度逐年增長。數據規模越大,處理的難度也就越大。在大數據環境下,想對海量數據做精確的篩選處理已經變得極為困難,有時不得不以部分精確度為代價換取數據處理速度的大幅提升。
許多案件中,電子數據證據的收集須耗費極大的時間、人力及物力,甚至不具有人工處理的可行性。如何在大數據時代下利用人工智能技術提高電子數據取證的效率是當下電子數據取證需要研究的重要課題。
隨著人工智能技術的發展和司法取證技術的升級換代,兩個領域的跨界融合必將更加迅速和全面,未來,人工智能必將成為司法取證領域的提升取證效率的關鍵技術,而對其進行前沿的研究和應用,則是各大取證裝備研發廠商不可忽視的重點。