劉志軍 王寧
【摘 要】大數據時代的到來,電子數據取證對象由獨立物理實體轉換為云端應用、虛擬主機、IOT等,其給電子數據取證帶來了極大的挑戰。文章首先闡述了電子數據取證的概念和歷史發展;然后分析了大數據環境下電子數據取證面臨的挑戰,并結合大數據的特點以及電子數據取證特點,探討了大數據環境下開展電子數據取證技術研究的若干建議。
【關鍵字】大數據;電子數據;云計算;計算機取證
中圖分類號: D63 文獻標識碼: A 文章編號: 2095-2457(2019)36-0024-003
DOI:10.19694/j.cnki.issn2095-2457.2019.36.011
1 電子數據取證概述
從取證技術的發展來看,有計算機取證技術(ComputerForensic)、數字取證技術(Digital Forensics)、電子取證技術(Electric Forensics)、網絡取證技術(Network Forensics)、計算機網絡取證技術(Computer Network Forensics)、Internet取證技術(Internet Forensics)、云取證技術(Cloud Forensics)等術語,其定義的角度各不相同。
2013年修訂后的《刑事訴訟法》第48條首次將電子數據納入法定證據,其后修訂的《民事訴訟法》、《行政訴訟法》也依次將電子數據作為獨立的證據形態,于是電子數據取證就成了當前學術界和司法實務部門普遍接受和高頻使用的技術性名詞。何謂電子數據取證呢,通俗點講,電子數據取證可以看作是使用合法、合理、規范的技術或手段,從計算機或其他數字設備進行電子數據的獲取、保存、分析和出示。
電子數據取證成立于20世紀70年代,其發展階段可以分為:嬰兒期(1985-1995年),兒童期(1995-2005年),青春期(2005-2010年),新時期(2010—現在)。在嬰兒期階段,隨著個人電腦的普及和Internet網的出現帶來了大量的計算機犯罪,在此階段參與取證的人員缺乏比較系統的專業取證工具,多是自行開發取證工具并經驗性地開展取證工作,取證目標主要是大型機、個人計算機、公司的數據記錄和計算機輔助欺詐。與此同時,針對參與取證的人所涉及的專業訓練較少等問題,諸如計算機調查專家國際協會(ICAIS)、國際計算機證據組織(IOCE)、美國國防計算機取證實驗室(DCFL)、計算機技術專家取證協會(FACT)、在英國警察協會(ACPO)主持下的取證計算組織(FCG)、高科技犯罪調查協會等機構和組織相繼成立,為取證從業人員提供經驗分享、職業技能培訓等[1]。
在兒童期階段,技術爆炸和internet網的普及應用以及隨之而來的犯罪高速發展,取證目標從獨立的個人計算機擴大到網絡入侵、數據解密等專業化領域,電子數據取證也開始成為專業技術領域,取證工具出現了基于Windows界面取證工具,如Expert Witness、Encase、FTK、iLook、ACES等,基于Linux取證工具,如TSK、SMART、HELEX等,與此同時網絡取證技術研究和內存取證的技術研究得到了發展。
在青春期,取證目標更加多樣化,取證的對象不僅包括文件系統、網絡、也包括手機、MP3、PDA、以及網絡社交系統、手機游戲平臺、電子郵件、商業業務記錄系統等。新時期階段,云計算、大數據和物聯網等為代表的新一代技術擴大了取證對象。許多國家在立法上強調網絡隱私的保護,學術界也進行了積極的響應,如相關學術課程的不斷涌現,關于電子數據取證技術研究的行業會議不斷舉辦等。
2 大數據環境對電子數據取證的挑戰
2.1 大數據環境下電子數據取證框架
圖1 大數據環境下的電子數據取證框架
根據數據處理領域和應用場景的不同,大數據處理框架有傳統大數據架構、流式架構、Lambda架構、Kappa架構、Unifield架構之分。從管理層次來看,大數據分為存儲層、處理層和應用層,其中處理層是對存儲層的數據進行數據采集、數據處理、數據分析和數據訪問,大數據系統可以看作是在現有主流操作系統環境內,與虛擬化技術相結合的一個數據處理集群,給不同用戶提供決策等支持服務的數據系統[2]。基于此,大數據環境下的電子數據取證可以分為應用層取證、系統層取證和物理資源層取證,如圖1所示。
2.2 大數據環境下電子數據取證的挑戰
計算機、手機、如移動硬盤、U盤、存儲卡等移動存儲介質一般都是傳統電子數據取證對象。在大數據環境下,電子數據取證對象包括云客戶端操作、云備份、大數據系統本身、客戶端虛擬主機、大數據宿主計算機等,取證對象和取證目標的變化也為電子數據取證帶來極大的挑戰。從圖1的大數據環境下電子數據取證層次框架看,大數據環境下電子數據取證面臨著許多挑戰,包括但不限于:
2.2.1 應用層取證中面臨取證對象的定位和提取難
大數據環境下,很多記錄著涉網的操作行為數據從終端設備向云端遷移,例如,涉案人員登陸云端并進行數據操作,或者將數據存儲在云端或者網盤中。大數據環境下,用戶使用互聯網載體習慣也在改變,例如,涉案人員將手機中的聊天信息、圖片等數據通過云存儲方式備份到網絡上等。在應用層取證中,電子數據取證對象也轉換為基于大數據架構的各種網盤、云存儲和云端操作系統等。
網盤技術、云存儲技術是基于虛擬化的,數據存儲于不同的數據中心,甚至跨司法管轄范圍,在應用層取證中要定位數據和提取電子數據較為困難,電子數據取證調查人員一般需要云服務提供商協助,否則其難以定位到具體物理機器進行取證。在云環境下,由于用戶著共享云基礎設施或應用,數據存在著混雜存儲狀況,分離用戶數據困難,在收集證據時可能會摻雜無關用戶的數據,如何保障無關用戶數據的機密性,如何在電子數據提取中僅提取用于事件重構的數據對于電子數據取證人員是一個挑戰。
2.2.2 系統層取證中面臨數據分析的困難
系統層取證的取證對象主要有系統訪問日志、大數據分布式文件系統等。日志是系統層取證中最重要的證據來源之一,但是云服務提供商提供的日志文件數據格式不同,也缺乏統一的日志文件數據格式規范。現有的日志通常也是多用戶數據混雜,包含大量與取證無關的冗余或敏感信息[3]。
大數據分布式文件系統中如一些DFS、 HDFS將分割后的塊文件以數據塊編號命名,僅從文件名是無法判斷文件的類型和歸屬關系,這就為電子數據取證人員追溯涉案人員與案件的分析判定帶來困擾。其次,結構化數據、半結構化數據和非結構化數據并存,有些云計算有著自身特有的數據格式;再次是數據體量大,電子數據取證的數據體量常達到10TB 甚至PB級別,對于傳統的電子數據取證分析而言,勢必成為不可能完成的任務。
2.2.3 物理資源層取證面臨取證對象多樣化
大數據時代,一方面隨著用戶使用互聯網載體習慣的改變,取證對象由計算機系統延伸到云端、智能手機、可穿戴設備等多終端設備。另一方面大數據、云計算、嵌入式技術以及傳感器技術的發展,IoT中如紅外感應器、全球定位系統、射頻識別裝置等各種信息傳感設備,暗網,智能汽車以及其他智能設備的種類和數量不斷增多,由于其含有豐富的電子數據,也不斷出現新的取證需求。
現有的取證工具產品能較好地提取和分析宿主計算機上殘留的用戶session、cookie、下載歷史、瀏覽歷史、緩存數據等;也能較好地提取移動設備如手機中刪除的通信錄、短信、SIM卡信息、圖片、Webchat和QQ等聊天信息等;甚至提取和分析一些可穿戴電子設備中的電子數據。但是面對無所不在的各類物聯網傳感器,汽車、攝像頭、洗衣機、烤箱等在內的智能設備時,現有的取證工具產品在提取和分析其電子數據顯得力不從心。其次,大數據環境中普遍使用虛擬化技術(VM),當用戶釋放VM后,VM 占用的空間將被收回,資源回收和再分配較為頻繁,這種虛擬化技術特性使得平臺或節點中的數據成為易失性數據,現有的取證工具產品較難以提取與恢復這塊數據。
3 大數據環境下電子數據取證技術研究
DFRWS 組織根據取證過程將電子數據取證技術分成如下六大類:識別類(identification)、保存類(preservation)、收集類(collection)、檢查類(examination)、分析類(analysis)、呈堂類(presentation)。根據DFRWS提出的技術框架分類,電子數據取證涉及的具體取證技術有電子數據識別發現技術、電子數據提取收集技術、電子數據分析檢驗技術、電子數據呈堂技術[4]。結合大數據的特點以及電子數據取證過程中的技術分類,大數據環境下電子數據取證技術需要展開如下研究。
3.1 云取證模型的研究
云計算充分利用物理設施的彈性來處理快速增長的大數據,云計算能為大數據提供存儲空間和訪問渠道[5-6],因此大數據必須以云作為基礎架構,云計算是大數據的基礎架構平臺。由于各種云存儲、云端操作和云備份等中包含重要的潛在證據源,近年來關于云取證模型的研究也成為學術界探索的熱點。現有的云取證模型研究集中在兩類:普適性解決方案和特定類型性解決方案[7]。普適性解決方案是分析電子數據取證各個階段在云環境中可能會遇到的問題,提出一個通用性、普適性的解決思路,而特定類型性解決方案是針對某個特定類型的云模型或云產品如OpenStack云計算平臺、Amazon s3,Drop box,Google Does,EverNote等提出一套具針對性的取證解決思路。
當前理論研究中存在著很多云取證模型,但是具有綜合性和整體性取證策略與實施方法的云取證模型仍然缺乏[8],不足以指導大數據應用層取證中云環境下的取證工作。從電子數據識別發現技術的研究看,云取證模型的研究一是要解決電子數據的識別和定位問題,針對云環境的特點指導取證人員識別和定位電子數據所在虛擬機的物理位置,并研究可行的數據收集方法和數據分析方法,二是在云環境中針對存在著混雜存儲的用戶數據,一方面從保護用戶的隱私角度,要研究如何判斷哪些電子數據是合法的,哪些用戶數據是不應觸及的,另一方面也要保障電子數據的真實性和關聯性。
3.2 綜合性多樣性取證工具產品的研究
在大數據時代,人們交流方式多樣化,信息分享便捷化,數據已成為人類生產生活的重要基礎資源,計算機不再是生產數據的主力軍,大量的取證數據源將來自各類物聯網傳感器、汽車、攝像頭、洗衣機、烤箱等在內的智能設備等。比如在皮膚上可以監測運動時健康狀況的電子紋身,汽車的行駛數據、智慧城市傳感數據、家用電器操作指令、各類共享出行設備的信息記錄等,這些信息來源包括智能設備、控制智能設備的移動APP、智能設備與云端的通信信息。
大數據環境下電子數據的形式將更多樣化,非結構化、半結構化的數據會越來越多,來源不同的非結構化、半結構化數據可能記錄著嫌疑人涉嫌犯罪的痕跡,這些異構多源數據是相互關聯的,單獨分析每個來源數據,是難以給案件偵查提供有效地辦案線索和證據來源,當前傳統單一型的電子數據單兵工具無法統一處理案件過程中各個階段異構多源的電子數據取證要求。雖然目前可以采用分層思想開展電子數據取證,例如,整合傳統取證工具提取實時證據,虛擬機電子數據采用自動化提取技術,客戶端本地緩存數據提取等,但是由于云計算具有分布性和虛擬性等特性,傳統的基于單機的電子數據提取存在諸多局限,在落地實施方面普遍存在存儲開銷和性能負載過高、運維困難等問題[7]。因此,從電子數據提取收集技術角度看,針對無所不在的各類物聯網傳感器、智能設備,綜合性多樣性取證工具產品、基于大數據架構取證平臺的研究是未來大數據環境下電子數據取證領域的一個研究重點。
3.3 電子數據分析檢驗技術研究
電子數據分析檢驗技術指的是在電子數據收集的基礎上,對所提取的電子數據結合案件進行合理解釋后所涉及的技術,具體包括數據復制技術、數據恢復技術、關鍵字搜索技術等。
大數據環境下,面對巨大的數據量,在電子數據分析檢驗技術的研究中,一是在取證思路上要建立從“分析所有數據以確保不遺漏任何內容”到更多地依賴于智能方法研究的轉變,二是要在數據源的分析、文件搜索等方面開展大數據智能取證檢索技術研究,研究和開發智能檢索引擎,滿足全面、準確、快速的取證檢索,三是要在事件重構等方面,展開將雜亂無章的、分散的數據變成有條理的、集中的檔案化數據基礎上,強化大數據挖掘算法的研究,結合公安辦案工作實際需求,強化由案到人、由案到物、由案到案的案件串并等關聯模型的算法研究。
3.4 電子數據取證的可視化技術研究
由于銀行柜臺、網上銀行、手機銀行等各種交易系統中會留下犯罪的蛛絲馬跡,在偵查實踐中,通過核查這些數據,可以展開以“資金流”引導“犯罪流”的偵查。例如,經濟犯罪中的查賬分析在現階段可以通過順查和逆查分析賬表,采用抽查法開展數據抽樣分析,或者采用數據查詢方法、盤查法、統計分析等數據分析技術,能夠得到大量可靠的線索和證據來源。在大數據環境下,這些賬戶的交易進出賬頻率、金額特征、資金流向等數據不僅數據量巨大,而且資金關系互相交織顯得異常復雜,依靠人工梳理根本不可能完成復雜的資金數據分析。
可視化是指把數據轉換成圖形,通過可視化圖形界面,幫助分析人員洞察出數據背后隱藏的潛在信息,數據可視化有助于海量復雜數據的分析[6]。可視化可以提供取證人員對電子數據的直觀感受,取證人員通過交互式圖形界面,結合自身的取證背景知識,可以對收集和提取的電子數據進行不同方面的分析和理解,“洞察” 收集提取的電子數據其內在因素的模式和關聯,快速從中發現問題。另一方面,隨著《電子數據司法鑒定通用實施規范(SF/ZJD0400001)》、《公安機關鑒定規則》、《關于建立司法鑒定管理與使用銜接機制的意見》等相關規定和指導意見的出臺,電子數據鑒定人依法出庭將成為常態,如何在法庭上將抽象的、異構多源的電子數據以直觀可視的方式展示,如何讓電子數據分析結果成為有利的呈堂證供,電子數據取證的可視化技術研究可以解決此類問題。
4 結束語
電子數據取證技術支撐電子數據的識別,貫穿于整個電子數據取證過程中,電子數據取證技術之于整個電子數據取證工作的重要性不言而喻。大數據時代背景下,傳統的電子數據取證技術及其技術方法應用在大數據環境下存在很大的局限性。在電子數據取證技術發展中,要充分利用大數據技術其帶來的發展優勢,回避大數據技術帶來的風險,讓大數據變成活數據、有價值的數據,成為案件偵查的線索來源和法庭采納的證據,才能發揮出電子數據取證的最大實效。
【參考文獻】
[1]李毅.電子數據取證發展概況[J].中國信息安全,2019,(05):44-47.
[2]張其前,尤俊生,高云飛.大數據取證技術綜述[J].信息安全研究,2017,(9):795-802.
[3]高元照,李學娟,李炳龍,吳熙曦.云計算取證模型[J].網絡與信息安全學報,2017,(9):13-23.
[4]杜春鵬.電子證據取證和鑒定[M].中國政法大學出版社,2014年版,82-84.
[5]肖伊涵,石天唯.基于大數據環境下的電子數據審計機遇、挑戰與方法[J].納稅,2018,(02):194-195.
[6]陳偉.SMIELIAUSKAS Wally.大數據環境下的電子數據審計:機遇、挑戰與方法[J].計算機科學,2016(01):8-13.
[7]高運,伏曉,駱斌.云取證綜述[J].計算機應用研究,2016,(1):1-6.
[8]丁麗萍,劉雪花.云環境下的電子數據取證技術研究[J].中國信息安全,2019,(05):59-60.