小說里的神探,不管是福爾摩斯還是柯南,都有一個共同的特點,那就是有一個具備強大分析能力的大腦,能夠觀察到細小的證據,并把這些證據關聯起來,從而分析出犯罪事實。
但在現實中,神探不容易出現,罪犯卻天天在行動。
幸運的是,在大數據時代,普通警察都有可能變成神探,甚至能預測犯罪。如果福爾摩斯穿越到現代,他將不必在現場頻繁擺弄他的放大鏡,也許他只要坐在電腦前,看看電腦屏幕,一個個奇案就可告破!

犯罪分子無處遁形
在互聯網時代,警察破案除了用到傳統的檔案、走訪資料、電話記錄等信息外,還會用到互聯網上出現的信息。所有的這些信息匯集成海量的數據,這些數據如今有了一個更加時髦的身份,那就是“大數據”。當然,大數據不僅僅是換了“馬甲”的資訊,它與傳統的資訊還是有區別的。大數據指的是資料量規模巨大的資訊,往往是在一個較大地域范圍內所出現的所有或某類資訊,它們無法在短時間內利用傳統的方法被人們所利用。
在信息時代,一個犯罪分子要想銷聲匿跡,除非把自己完全絕緣起來,這樣無論警察掌握的大數據有多大,都難以查找到犯罪分子的個人電子信息了。但是,在如今這個信息技術已經滲透到生活方方面面的時代,犯罪分子要想不留下任何電子信息,已經是幾乎不可能的事情了。就算犯罪分子不上網、不使用手機、不看電視等,總之不和任何信息設備發生關聯,也可能逃不脫大數據的追蹤。因為犯罪分子不可能長期遠離道路、商店、碼頭、車站等公共場所,一旦出現,就可能被公共的或他人的電子設備拍攝到。
近來,利用大數據成功偵破的有名案例是波士頓連續爆炸案。2013年4月15日,美國波士頓在舉辦馬拉松比賽的過程中發生連續炸彈爆炸案,結果導致3人死亡、183人受傷。在案件發生后,警方保留了案發現場附近的所有監控錄像以供比對、查找,波士頓警察局的官員稱“仔細查看了所有錄像的每一幀畫面”。然后,警察走訪了事發地點附近12個街區的居民,收集可能存在的各種私人錄像、照片,無論它們來自攝像機還是手機。警方還大量收集網上信息,包括像Twitter、Facebook、 Youtube等社交媒體上出現的相關照片、錄像等,而且在這些流量巨大的網站上向公眾提出了收集相關信息的請求。
結果,警方從馬拉松賽事沿途錄像中尋覓到嫌疑人的蹤跡,并從錄像中截取出嫌疑人照片,其中包括嫌疑人正面的清晰影像,并結合其他信息,宣布犯罪嫌疑人為兄弟倆,分別是26歲的塔米爾南·沙尼耶夫和19歲的喬卡·沙尼耶夫。4月19日凌晨,嫌疑人與警方發生槍戰,塔米爾南在槍戰中受重傷,送到醫院后不治身亡,喬卡趁亂逃脫。當日晚間,警方利用公共場所的紅外線攝像機搜集到的數據,準確定位了喬卡的位置,并且迅速包圍。在與警方對峙數小時后,喬卡投降,追捕行動結束。
困惑“現代福爾摩斯”的是如何存儲這些大數據
目前,獲取大數據的渠道主要有兩個:一個是電話公司,一個是互聯網公司。美國國家安全局就長期從電話運營商處獲取通話數據庫,其中包含大量通話數據記錄,例如通話時間與通話時長、相關電話號碼以及移動設備的本地數據等。這套數據庫建立于2001年“9·11”恐怖襲擊事件后不久,而且得到了多家運營商的支持。2006年,《今日美國》雜志發表文章稱,這套通話數據庫是“世界上規模最大的數據庫”。該數據庫處理著數以十億計的電話記錄數據,有超級計算機和數據分析師專門處理這些數據。
美國還長期從互聯網信息中獲取大數據。然而,他們目前無法真正捕捉并保存用戶們所產生的全部數據,更無法將其無限期加以留存。隨著信息技術的發展,這兩項艱巨任務逐漸變得可能起來。由于全球互聯網的I P地址都由美國的服務商來提供,這給美國監控全世界提供了便利。美國國家安全局已經在海底互聯網光纖主干上安裝了智能流量分析器,這是一種原理類似于“水龍頭”的分流裝置,可以獲取全球互聯網上的信息。
然而,比獲取信息更難的是存儲信息。根據思科公司的統計,2012年全球互聯網流量每天達11億GB,這需要110萬個容量為1 000GB的硬盤來容納這些數據。目前世界上90%以上的數據是最近幾年才產生的,而在未來一段時期內,互聯網上的數據每年將增長50%,從存儲介質來講,目前要將互聯網上的所有信息存儲下來就已經無法實現,更不要說實際使用這些信息了。當然,從技術發展的角度來看,將來是有希望做到把所有的信息都存儲下來,這就是未來的DNA存儲技術所能做的事情。
由于目前DNA存儲還沒有進入實用階段,人們只能從相對有限的大數據中獲取線索。美國國家安全局每天所捕捉并保留的數據總量,也僅占每天全球互聯網流量和通話記錄中的一小部分,那都是通過關鍵詞、關鍵圖像、關鍵數據等篩選過后的信息。

從互聯網獲取信息還遭遇另外一個難題,那就是密碼問題。安全部門希望獲得的信息往往是經過加密的,比如恐怖組織和一些黑客會采取很先進的加密技術來傳輸自己的信息。要破譯這些信息,不僅需要更好的技術,而且投入十分巨大。更重要的是,破譯這些信息需要一定時間,恐怖組織或犯罪分子會利用這個時間差,有時在安全部門或司法部門破譯信息之前,恐怖襲擊或犯罪活動已經發生了。因此,大數據時代警方所能利用的線索雖然很多,但是需要警方不斷更新技術,讓自己更好更快地從那些數據中挖掘出有用信息。這些技術被統稱為“數據挖掘”。
福爾摩斯的筆記本變成了數據挖掘技術
在偵破過程中,刑偵人員會對來源不同的各種證據和線索進行梳理,找出對偵破最有用的證據和線索。這些對已有資料的梳理、統計、分析工作,就是數據挖掘技術。

在100多年前,多國司法機構就知道建立違法犯罪檔案。一旦某地出現新的違法犯罪活動時,刑偵人員會搜索已有的檔案,從中發現破案的線索。而犯罪學專家則研究這些檔案,總結違法犯罪的動機、方式、工具等特征,為預防犯罪和偵破案件提供依據。這些都是較為古老的數據挖掘方法。福爾摩斯就有一本筆記本,里面記載著自己編制的犯罪記錄檔案,在辦案遇到瓶頸時,他也會掏出那本子翻一翻,看看能不能從中找到什么線索。
到了信息科技時代,福爾摩斯的筆記本就不夠看了,數據挖掘則以人工挖掘為主轉變為計算機挖掘為主。
數據挖掘又被稱為資料探勘、數據采礦,是指從大量、不完全、有噪聲、模糊、隨機的數據中,通過設置一定的學習算法,提取隱含在其中的、人們事先不知道但又是潛在有用的信息。它是根據數據的微觀特征,發現其表征的、帶有普遍性的、較高層次概念的知識,是信息優勢成為知識優勢的基礎工程。數據挖掘萌芽于“情報深加工”,其實質就是發現情報背后的情報。在大數據時代,數據挖掘就是從海量數據中尋找到自己需要的信息,我們常用百度、谷歌等搜索引擎去搜索各種答案,這也屬于數據挖掘的范疇。
數據挖掘技術已經被廣泛用在刑事偵破領域,為破獲一些疑難雜案、保障公民的人身和財產安全提供了新的技術支持。比如,尋找犯罪嫌疑人的人臉識別方法就需要用到數據挖掘技術。警方先通過計算機對嫌疑人進行畫像,然后自動在目標人員數據庫中搜索犯罪嫌疑人。不過,人臉識別技術要高效發揮破案的作用,前提就是要建立有大級別的人像數據庫系統。也就是說,人臉識別的數據挖掘是需要建立在大數據的基礎之上的。同樣,指紋識別、虹膜識別、掌紋識別、步態識別等生物識別技術,也需要逐步完善的數據庫給予支撐。
美國國家安全局和交通安全局曾經基于數據挖掘技術,開發出計算機輔助乘客篩選系統。該系統為美國本土各個機場提供接口,當乘客購買機票時,系統利用乘客提供的信息,確定乘客是不是需要額外安全篩選的人員。該系統將乘客購買機票時提供的信息輸入到商用數據提供商提供的數據庫,這些信息包括全名、地址、電話號碼以及出生日期。然后,商用數據庫將隱含特殊危險等級的數字分值傳送給交通安全局。“綠色”分值的乘客將接受“正常篩選”,“黃色”分值的乘客將接受“額外篩選”,“紅色”分值的乘客將被禁止登機,而且還將接受“法律強制性的關照”。

大數據時代的隱憂
英國牛津大學網絡學院的維克托·爾耶·舍恩伯格教授在其新書《大數據時代》的引言中說:“大數據開啟了一次重大的時代轉型。就像望遠鏡讓我們能夠感受宇宙、顯微鏡讓我們觀測微生物一樣,大數據正在改變我們的生活以及理解世界的方式,成為新發明和新服務的源泉,而更多的改變正蓄勢待發……”美國政府已將大數據視為“未來的新石油”,并將對大數據的研究上升到國家高度。在美國的推動下,未來大數據之戰的腳步聲也似乎越來越近。大數據是一股不可阻擋的時代潮流,它不僅可以幫助政府機關和司法機構提高辦事效率,而且會影響到普通人日常生活的方方面面。
舍恩伯格在新書中還表示,在大數據時代,人們時刻都暴露在“第三只眼”之下:亞馬遜監視著我們的購物習慣;谷歌監視著我們的網頁瀏覽習慣;而微博似乎什么都知道,不僅竊聽到了我們的心思,還能描繪我們的社交關系網。因此,不僅司法機構可以利用大數據來破案和預測潛在的犯罪,犯罪分子和犯罪團伙也可以利用大數據尋找到可以侵害的對象并實施犯罪。以前不少盜竊大案的犯罪分子往往要實地勘察幾個月甚至數年,以此來分析某人或某機構的習慣規律以實施犯罪行為。在大數據時代,只需要一臺電腦和簡單的黑客手段就可以完成這樣的分析。目前,已經有不少犯罪團伙通過互聯網上的海量數據,利用搜索引擎和密碼破譯等手段,挖掘出人們的私人信息和社交關系,以此實施盜竊、詐騙、敲詐勒索、拐賣兒童等犯罪行為。
除了可能被犯罪分子偷窺外,黑客也可能侵入到政府的服務器查看所監控到的信息。如果個人網絡信息保護問題得不到很好的解決,未來因大數據和數據挖掘引發的社會矛盾將會越來越多,且會越來越激烈。