文/阿碧
“大數據”破案
Detect by Big Data
文/阿碧
據英國《衛報》和美國《華盛頓郵報》2013年6月6日報道,美國國家安全局和聯邦調查局于2007年啟動了一個代號為“棱鏡”(PRISM)的秘密監控項目。該項目使得他們可以直接進入網絡公司的中心服務器里挖掘數據、收集情報。美國安全局前雇員愛德華·斯諾登向媒體透露了這個秘密項目,引起了國際社會的高度關注。現在人們關注的焦點,除了斯諾登最終的去向和命運外,還有“棱鏡門”涉及的核心技術——數據挖掘。

在互聯網時代,警察破案除了用到傳統的檔案、走訪資料、電話記錄等資料外,還會用到互聯網上出現的信息。所有的這些信息匯集成海量的數據,這些數據如今有了一個更加時髦的身份,那就是“大數據”(Big Data)。當然,大數據不僅僅是傳統的數據資料換了一個“馬甲”那么簡單。大數據指的是資料量規模巨大的資訊,往往在一個較大地域范圍內出現,這些資訊無法在短時間內通過傳統的方法被人們所利用。
現在,一個犯罪分子要想銷聲匿跡,除非把自己完全絕緣起來。這樣司法機關掌握的大數據無論有多大,都難以查找到犯罪分子的個人電子信息了。但是,在如今這個信息技術已經滲透到生活方方面面的時代,犯罪分子要想不留下任何電子信息,已經是幾乎不可能的事情了。比如,就算犯罪分子不上網、不使用手機、不看電視等,總之不和任何信息設備發生關聯,也可能逃脫不了大數據的追蹤。因為犯罪分子不可能長期出現在道路、商店、碼頭、車站等公共場所,一旦出現,就可能被公共或私人的電子設備拍攝到。即使犯罪分子長期蝸居在某個偏遠地區的某幢房屋內,他也可能被谷歌的街景車拍攝到他從窗口探出的腦袋。
近期,利用大數據成功偵破的有名案例是波士頓連續爆炸案。2013年4月15日,美國波士頓在舉辦馬拉松賽的過程中發生連續炸彈爆炸案,結果導致3人死亡、183人受傷。在案件發生后,警方保留了案發現場附近的所有監控錄像以供比對、查找,波士頓警察局的官員稱“仔細查看了所有錄像的每一幀畫面”。然后,警察走訪了事發地點附近12個街區的居民,收集可能存在的各種私人錄像和照片,無論他們來自攝像機還是私人的手機。警方還大量收集網上信息,包括像Twitter、Facebook、Youtube等社交媒體上出現的相關相片、錄像等,而且在這些受眾面廣泛的網站上提出了收集相關信息的請求。最終,警方從馬拉松賽事沿途錄像中尋覓到嫌疑人的蹤跡,并從錄像中截取出嫌疑人照片,其中包括嫌疑人正面的清晰影像,并結合其他信息,宣布嫌疑犯為兄弟倆,分別是26歲的塔米爾南·沙尼耶夫和19歲的喬卡·沙尼耶夫。4月19日凌晨,嫌疑人在水鎮(Watertown)與警方發生槍戰,塔米爾南·沙尼耶夫在過程受重傷經送醫不治,喬卡·沙尼耶夫趁亂逃脫。當日晚間,警方利用公共場所的紅外線攝像機,準確定位了嫌疑人的位置,并且迅速包圍。在與警方對峙數小時后,喬卡·沙尼耶夫投降,追捕行動結束。
波士頓連續爆炸案的偵破工作符合了大數據技術中著名的4V原則:(1)來自各方的巨大的數據量(Volume);(2)各種數據源(Variety),特別是來自各種社交媒體上的圖像、影像類的非結構化數據非常豐富;(3)快速的反應(Velocity),在事件發生數分鐘之內,已經有大量信息發布在各種社交媒體上;(4)這些數據對偵破工作也很有價值(Value),其社會價值是無法簡單估量的。當然,大數據也給偵破工作帶來挑戰,如何處理從各個數據源收集來的信息就是個難題,包括對信息的真偽進行鑒定,對同一地點不同距離、不同視角、不同清晰度、不同時間的有用信息的綜合利用。
目前,獲取大數據的渠道主要有兩個,一個是電話公司,一個是互聯網公司。美國安全局就長期從電話運營商處獲取到通話數據庫,其中包含大量通話數據記錄,例如通話時間與通話時長、相關電話號碼以及移動設備本地數據等等。這套數據庫建立于2001年“911”恐怖襲擊事件后不久,而且得到了多家電信運營商的支持。2006年,《今日美國》稱這套通話數據庫是“世界上規模最大的數據庫”。該數據庫處理著數以十億計的電話記錄數據,有大量的計算機和數據分析師處理這些數據。
美國還長期從互聯網信息中獲取大數據。然而,他們目前無法真正捕捉并保存用戶們所產生的全部數據。隨著信息技術的發展,這兩項艱巨任務逐漸變得可能起來。由于全球互聯網的IP地址都由美國的服務商來提供,這給美國監控全世界提供了便利。美國安全局已經在海底互聯網光纖主干上安裝了智能流量分析器,這是一種原理類似于“水龍頭”的分流裝置,可以獲取全球互聯網上的信息。
然而,比獲取信息更難的是存儲信息。根據思科公司的統計,2012年全球互聯網流量每天達11億GB,這需要110萬個容量為1000GB的硬盤來容納這些數據。目前世界上90%以上的數據是最近幾年才產生的,而在未來一段時期內,互聯網上的數據每年將增長50%,從存儲物質來看,目前要將互聯網上的所有信息存儲下來就已經無法實現,更不要說實際使用這些信息了。當然,從技術發展的角度來看,將來是有希望做到把所有的信息都存儲下來,這就是未來的DNA計算機所能做的事情。DNA計算機將利用人工合成的DNA作為存儲介質。DNA由4個堿基組成,它們的排列順序千變萬化,儲存信息的容量相當大。最近,哈佛大學研究人員將一本大約有5.34萬個單詞的書籍編碼進不到億萬分之一克的DNA微芯片,然后成功利用 DNA 測序裝置來閱讀這本書。這是迄今為止人類使用DNA遺傳物質儲存數據量最大的一次實驗。
由于目前DNA存儲還沒有進入實用階段,安全部門和司法部門都只能從相對有限的大數據中獲取線索。美國安全局每天所捕捉并保留的數據總量,也僅占每天全球互聯網流量和通話記錄中的一小部分,即那些通過關鍵詞、關鍵圖像、關鍵數據等篩選過后的信息。從互聯網獲取信息還遭遇另外一個難題,那就是密碼問題。往往安全部門希望獲得的信息卻是經過加密的,比如恐怖組織和一些黑客會采取很先進的加密技術來傳輸自己的信息。要破譯這些信息,不僅需要更好的技術,而且投入十分巨大。而且,破譯這些信息需要一定時間,恐怖組織或犯罪分子會利用這個時間差,在相關部門破譯信息之前,恐怖襲擊或犯罪活動已經發生了。因此,大數據時代警方所能利用的線索雖然很多,但是需要警方不斷更新技術,讓自己更好且快速地從這些數據中挖掘出有用信息。這些技術被統稱為“數據挖掘”。

在偵破過程中,刑偵人員會對來源不同的各種證據和線索進行梳理,找出對偵破最有用的證據和線索。這些對已有資料的梳理、統計、分析工作,就是數據挖掘技術。在司法領域,數據挖掘是一項比較古老的方法。在一百多年前,多國司法機構就知道建立違法犯罪檔案。一旦某地出現新的違法犯罪活動時,偵破人員會搜索已有的檔案,從中發現破案的線索。而犯罪學專家則研究這些檔案,總結違法犯罪的動機、方式、工具等特征,為預防犯罪和偵破提供依據。這些都是較為古老的人工數據挖掘方法。到了信息科技時代,數據挖掘則以計算機挖掘為主。
數據挖掘的英語名稱是Data Mining,又譯為資料探勘、數據采礦。所謂數據挖掘,是指從大量不完全、有噪聲、模糊、隨機的數據中,通過設置一定的學習算法,提取那些隱含在其中的,然而人們事先不知道卻有潛在用途信息的過程。它是根據數據的微觀特征,發現其表征的、帶有普遍性的、較高層次概念的知識,是信息優勢成為知識優勢的基礎工程。數據挖掘萌芽于“情報深加工”,其實質就是發現情報背后的情報。在大數據時代,數據挖掘就是從海量數據中尋找到自己需要的信息,我們常用的百度、谷歌等搜索引擎完成的工作也屬于數據挖掘的范疇。
隨著計算機和互聯網技術的迅速崛起與普及,人們(當然包括犯罪分子和恐怖分子)已經離不開手機、電腦、智能電視等智能終端設備,不少日常活動基本上都可以數字化地表示。幾點幾分從家出門,坐什么車花了多長時間到了工作地點。這期間,無論是誰,每發一次微博和打一次電話,包括經緯度在內的精確地理位置信息都被記錄在案,而通話記錄在許多年之后仍可以被調閱查詢。總之,在通信技術無孔不入的時代,人們的一舉一動都產生了大量的數據。而在很多時候,這些原始數據就會成為司法部門破案時所需要分析的材料。
數據挖掘是通過分析每個數據,從大量數據中尋找其規律的技術,主要有數據準備、規律尋找和規律表示三個步驟。數據準備是從相關的數據源中選取所需的數據并整合成用于數據挖掘的數據集;規律尋找是用某種方法將數據集所含的規律找出來;規律表示是盡可能以可理解的方式(如可視化)將找出的規律表示出來。由于人類從來沒有像今天這樣如此依賴網絡和電子設備,因此,信息時代眾多的電子蹤跡讓研究每個人、每個群體,甚至整個人類的習慣成為了可能。
目前,美國安全局已經開始利用數據挖掘技術追蹤恐怖分子和監控社會情緒。比如,美國安全局和交通安全局曾經基于數據挖掘技術,開發出計算機輔助乘客篩選系統。該系統為美國本土各個機場提供接口,當乘客購買機票時,系統利用乘客提供的信息確定乘客是否是需要額外安全篩選的人員。該系統將乘客購買機票時提供的信息輸入到商用數據提供商提供的數據庫,這些信息包括全名、地址、電話號碼以及出生日期。商用數據庫然后將隱含特殊危險等級的數字分值傳送給交通安全局。帶有“綠色”分值的乘客將接受“正常篩選”,帶有“黃色”分值的乘客將接受“額外篩選”,而帶有“紅色”分值的乘客將被禁止登機而且還將接受“法律強制性的關照”。在利用商用數據庫信息時,交通安全局聲稱工作人員不會看到用于計算分值的實際信息,也不會保留乘客的信息,以此保障乘客的隱私。
目前,數據挖掘技術已經被用在刑事偵破領域,為破獲一些疑難雜案、保障老百姓的人身和財產安全提供了新的技術支持。比如,尋找犯罪嫌疑人的人臉識別方法就需要用到數據挖掘技術。警方先通過計算機對嫌疑人進行畫像,然后自動在目標人員數據庫中搜索犯罪嫌疑人。不過,人臉識別技術要高效發揮破案的作用,前提就是要建立有大級別的人像數據庫系統。也就是說,人臉識別的數據挖掘是需要建立在大數據的基礎之上的。同樣,指紋識別、虹膜識別、掌紋識別、步態識別等生物識別技術,也需要逐步完善的數據庫給予支撐。
在司法領域,數據挖掘技術分析的對象一般分為兩大類:一類是基于監控對象的系統,它能夠幫助分析專家跟蹤某個犯罪嫌疑人;另一類是基于行為模式的系統,它可以在多種活動方式中搜尋可疑的可能涉及犯罪的行為,或者可能是犯罪分子才會產生的行為。基于監控對象的數據挖掘技術又稱作關聯分析法,是司法機構重點開發的技術。這種方法能利用相關數據,在表面上沒有關系的人或事件之間建立關聯。比如,如果某人是犯罪嫌疑人,那么就可以使用關聯軟件發現嫌疑人可能正在影響的其他人,從相關人那里獲取破案線索。

重大的案件會用到超級計算機進行數據分析
英國牛津大學網絡學院的維克托·爾耶·舍恩伯格教授在其新書《大數據時代》書的引言中說:“大數據開啟了一次重大的時代轉型。就像望遠鏡讓我們能夠感受宇宙,顯微鏡讓我們觀測微生物一樣,大數據正在改變我們的生活以及理解世界的方式,成為新發明和新服務的源泉,而更多的改變正蓄勢待發…… ”
美國政府已將大數據視為“未來的新石油”,并將對大數據的研究上升為國家意志。在美國的推動下,未來大數據之戰的腳步聲也似乎越來越近。
舍恩伯格在新書中還表示,在大數據時代,人們時刻都暴露在“第三只眼”之下:亞馬遜監視著我們的購物習慣;谷歌監視著我們的網頁瀏覽習慣;而微博似乎什么都知道,不僅竊聽到了我們的心思,還能描繪我們的社交關系網。
因此,不僅司法機構可以利用大數據來破案和預測潛在的犯罪,犯罪分子和犯罪團伙也可以利用大數據尋找到可以侵害的對象并實施犯罪。以前不少盜竊大案的犯罪分子往往要實地勘察幾個月甚至數年,以此來分析某人或某機構的習慣規律以實施犯罪行為。在大數據時代,人們只需要一臺電腦和簡單的黑客手段就可以完成這樣的分析。
目前,已經有不少犯罪團伙通過互聯網上的海量數據,利用搜索引擎和密碼破譯等手段挖掘出人們的私人信息和社交關系,以此實施盜竊、詐騙、敲詐勒索、拐賣兒童等犯罪行為。
除了可能被犯罪分子偷窺外,政府也可能正在利用大數據監視我們,黑客也可能侵入到政府的服務器查看所監控到的信息。如果沒有合理的控制和防范措施,人們的隱私和行為模式很可能被政府監控人員或網絡黑客所散布。這正是“棱鏡”項目被泄漏之后,美國國內和國際社會反對聲較大的一個重要原因。如果個人網絡信息保護問題得不到很好的解決,未來因大數據和數據挖掘引發的社會矛盾將會越來越多,且會越來越激烈。
欄目主持人:劉雨濛 lymjcfy@163.com