摘 要:本文從海關緝私辦案實戰角度介紹了例如電子取證數據及其他業務數據等多源數據關聯分析在走私犯罪案件偵辦過程中日益凸顯的作用,探討數據分析軟件在案件偵辦中的應用現狀,分析海關緝私部門在辦案過程中開展涉案數據分析所面臨的問題和挑戰,并結合云計算技術和大數據應用的發展提出相關建議。
關鍵詞:走私犯罪;電子取證;數據關聯分析;云計算
中圖分類號:D917;F752.5文獻標識碼:A文章編號:2095-4379-(2019)05-0176-02
作者簡介:孔慧峰(1980-),男,浙江寧波人,寧波海關緝私局,工程師,從事計算機科技應用管理與研究。
隨著互聯網、智能手機、電子商務、電子金融、物聯網、人工智能等技術的飛速發展和使用成本降低,智能手機、平板電腦、新型汽車、智能家居、各類數碼設備乃至機器人等存儲和通信網絡終端多樣化發展,以及即時消息、電子郵件、微博、朋友圈、論壇貼吧、交通租車、購物平臺、網絡云盤等通信和應用服務軟件大量涌現,人們的生活方式隨之發生了深刻的變化,人們對互聯網和智能手機的依賴程度增加,數據記錄形式日趨電子化,在走私犯罪案件辦理過程中,越來越多的電子數據也成為客觀證實犯罪行為的重要證據,電子數據已當仁不讓成為新的“證據之王”[1],大量關聯涉案物證所存儲的多形式數據就如同未探明的玉石礦,在其單獨價值被發掘之后,仍可能通過多源數據關聯分析不斷挖掘產生價值。
一、多源數據關聯分析應用發展的背景
在走私犯罪案件中,電子取證數據往往對案件的定性、批捕、起訴、判決起到非常關鍵的作用。不同類型的走私犯罪案件中電子取證數據及案件所涉的公安、海關、銀行、通訊等相關多源數據,往往具備大數據的多樣化、海量、快速、靈活和復雜“4V+1C”特點[2],針對多源數據關聯分析能力的建設是緊跟時代發展和法治發展,適應“智慧緝私”發展需要的。
當前,走私犯罪呈現團伙化、專業化、網絡化特征,每個行為主體之間的聯系方式多種多樣,行為軌跡分散,海量信息以片段形式存在,而這些以片段形式存儲的數據和信息可能是案件重要信息、線索甚至案件突破的關鍵,在越來越多的走私案件中,需要對大量片段化、碎片化的涉案數據或信息進行高效搜索、挖掘和分析。
二、多源數據關聯分析在走私犯罪案件偵辦中的應用現狀
近年來,在公安系統的信息化建設中,已系統建成多個案件數據庫,公安部構建了公安數據云平臺,并有數個省市的公安機關將電子數據檢索分析系統接入云數據平臺,以大數據為支撐,將多源數據關聯分析投入實戰應用并發揮了巨大的效用。
海關緝私部門歷經數年電子取證實驗室和電子取證裝備軟硬件建設,多數直屬海關緝私局建立了電子取證實驗室,系統地裝備了電子取證、現場勘查、綜合采集、數據分析等軟硬件。在多數走私犯罪案件偵辦過程中,可能綜合獲取到大量數據,如私貨物流、單證記錄、人員通訊、運動軌跡、資金流向、聲音影像、費用記賬等各類結構化和非結構化數據,在依法規范取證的前提下,這些數據因其真實、客觀、有效,是認定走私犯罪的重要證據組成部分。緝私部門也已采用了一些數據分析輔助工具,以求將犯罪嫌疑人身份信息、行蹤軌跡、關系網絡、性格特征等情況進行分析展示,輔助為案件偵查提供方向,提升破案效率。
隨著犯罪分子反偵查意識不斷增強,走私犯罪團伙呈網絡結構復雜化、犯罪手法隱蔽化發展,僅僅依靠對個別物證取證,將越來越難以實現全面有效的證據獲取和挖掘,要高效開展海量電子數據取證及多源數據關聯分析,對于后臺數據支撐、戰法模型構建、分析人員能力等多方面都提出了非常大的挑戰。
三、多源數據關聯分析的難點和解決路徑探討
(一)多源異構數據的整合
大量案件涉及電子取證數據、涉案主體信息、手機通聯數據、海關業務數據、銀行資金記錄等多源數據,而各類數據往往以分散形式存在,辦案干警需要人工對大量數據進行查詢、調取、篩選、分析,從浩如煙海的數據中尋找線索,不僅效率低下,差錯遺漏也很難避免。
各級政府、公安、海關、銀行、電訊機構等經長年累積已形成巨大數據庫,如何對分散異構數據進行整合,構建業務數據倉庫,是多源數據關聯分析的一大挑戰。對分散異構數據庫需要進行無縫鏈接,在邏輯上形成一個新的有機整體,這種整合方式不是簡單的“數據庫相加”,而是剔除多個數據庫內的重復信息后形成新的虛擬性數據資源體系,讓不同系統的數據和信息或整合存儲、或鏈接運行在同一個平臺上,進而通過快速檢索與分析,大大提升數據分析功效。
(二)業務數據云析平臺的支撐
傳統的功能相對單一、支持數據格式受限的數據分析應用軟件,已不能適應當前海量多源數據關聯分析的業務需求。
而云計算可以為存儲和分析海量數據提供高效的存儲和計算平臺[3],通過建設緝私電子數據存儲及關聯分析云平臺,可以將緝私辦案電子取證數據、圖文音視頻多媒體信息、電子郵件信息、銀行資金數據、通訊聯絡數據、公安大數據,甚至各類物聯網終端數據等加以匯聚,形成集成化、智能化的聯網快速搜索和關聯分析系統,通過數據清洗、數據挖掘、大數據關聯、智能識別轉化等相關技術對電子數據進行關聯分析,運用云計算的分布式計算模式,可以將計算任務分配到不同計算節點上,根據業務需求動態形成相適應的計算和存儲服務能力,高效支撐海量數據的快速查詢和關聯分析。
(三)契合業務特點模型的建立
現有的數據關聯分析工具多基于公安行業特定警種的需求進行設計和應用建設,少有深度結合緝私業務的應用,源于不同數據庫的數據結構定義不一致,文檔、圖片、視頻等非結構化數據導入不完整,語義分析、模糊查詢、模型建設[4]也尚待發展。
數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的應用數據中提取隱藏在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程[5]。多源數據關聯分析是一個需要長期積累和衍生的過程,我們不但需要在實戰工作中逐步積累數據,對業務數據進行加工整合,更需要不斷的完善新的業務模型,組織數據模型,契合緝私業務特性建立多維度分析主題,不斷豐富方法在多源大數據中挖掘出涉案關鍵小數據,辨識不同形式走私犯罪活動的共同點和差異點,將多源數據關聯分析配以形象、直觀的展示,并與豐富的偵查辦案手段相結合,助力構建完整的證據鏈條。
(四)數據關聯分析隊伍的建設
涉案數據關聯分析涉及法學、偵查學、計算機科學、統計學等多學科理論,這要求數據分析人員需要具備很高的綜合素質。隨著時代和技術的發展,新的走私犯罪手段、途徑不斷涌現,案件偵辦和數據分析的難度不斷加大,辦案人員不僅需要豐富的取證和分析經驗,還需要學習新技能、掌握新方法,不斷提高運用數據關聯分析工具的能力。需要加強專業建設,完善培養模式,積極引進專業人才,健全考核和激勵機制,對涉及特定專業領域的走私大案要案,還可以聯合相關領域甚至跨行業的專家,借助第三方專業機構運用“外腦”共同開展涉案數據的分析挖掘。
多源數據關聯分析的應用在國內正進入加速發展階段,在海關緝私業務中的應用也處于關鍵發展階段。技術創新和業務應用是一個相輔相成的發展過程,我們需要積極嘗試新技術、新思路,根據緝私業務實際情況,主要從數據提取轉化導入、綜合數據倉庫建設、可視化功能模塊建設、數據關聯挖掘分析四大層面開展多源數據關聯分析平臺建設,不斷改進完善,從量變到質變,探索和開創緊密契合緝私業務的數據分析有效手段,以取得良好的實戰效果。
[ 參 考 文 獻 ]
[1]劉品新.中國電子證據立法研究[M].北京:人民大學出版社,2005.9.
[2]中國電子科學研究院學報編輯部.大數據時代[J].北京:中國電子科學研究院學報,2013,6(1):27-31.
[3]王軼,達新宇.分布式并行數據挖掘計算框架及其算法研究[J].微電子學與計算機,2006,23(9):223-225.
[4]韓瑛.大數據在信息系統設計與推廣中的思考[J].天津:中國管理信息化,2015,24(2):166-167.
[5]毛同君,段立娟,王實,等.數據挖掘原理與算法[M].北京:清華大學出版社,2005:64-205.