摘要:隨著互聯網技術的發展,當今世界已經進入了大數據時代。因為其強大的數據分析和前瞻性的數據預測功能,對實現犯罪預防技術的進一步發展似乎帶來了新的希望。但是大數據不是以往所了解的數據的簡單集合,潛在的巨大風險如影隨形,正確認識并合理應用才是大數據時代的應有之義。
關鍵詞:犯罪預防;數據錯誤;數據隱私;數據監控
中圖分類號:D924.393;D917.6文獻標識碼:A文章編號:2095-4379-(2017)05-0080-03
作者簡介:劉藝坤(1991-),女,漢族,甘肅人,華南理工大學法學院,訴訟法專業碩士研究生,研究方向:刑事訴訟。
一、大數據與犯罪預防
電影《少數派報告》講述了人們如何利用“先知”抓捕可能犯罪的人從而預防犯罪的故事。電影的主角某一天受到了抓捕,然而他并沒有任何犯罪的意圖、沒有任何犯罪的行為趨勢,他因為被抓捕反而去思考他可能的犯罪動機,然后真正的實施了犯罪。這里不知道是因為犯罪去預防還是由于被預防才導致犯罪。我們應用大數據也是為了預防,大數據有一個強大的預測功能。
運用數據進行預防早已有之,美國警方的“CompStat”(數據驅動的警務管理系統)以及布蘭代斯訴訟方法都是數據在法律適用中的極好典例。大數據形成的預防有兩種:首次犯罪識別和再次犯罪懲戒。首次犯罪識別就是通過預測分析技術審查系統所發現的可疑交易、申請,發現、識別和跟蹤犯罪。再次犯罪懲戒出現在審判和執行階段。審判時考慮人身危險性會考慮被告人的各種情況,大數據因為它的全面性和綜合預測性優勢將會提供一個非常龐雜的個人情況,包括他的瀏覽習慣、購物清單、閱讀傾向、還款信用率等。相類似的還有假釋、緩刑和減刑的考慮,對犯罪人本人我們將了解的更多更深入,以決定罪犯是否有再犯可能性。但這兩種犯罪預防都要面臨的一個重大質疑是:如果你說自己阻止了某事的發生,那么你如何證明,如果不去阻止,你所擔心的的事情就必定會發生呢?
二、犯罪預防相關問題
既然傳統的犯罪預防就是建立在犯罪數據和一定的風險評估上,那么為什么不能接受一個更為廣泛系統的數據作為參考呢?這里可能產生兩方面的問題:1、犯罪模型,因為數據龐雜,怎么建立一個準確的模型來綜合應用這些數據成為重中之重,當系統做出不準確或者錯誤的描述,實際上你則完全是無辜的,這件事更沒有發生,怎么證明?另外給每個因素事前確定一個固定的比例也是不科學的,個人的風格和傾向性以及社會的偶然性等等都會導致誤判的發生;2、數據的過度依賴。審判員可能會因為體系而考慮的更加全面審慎,但系統也可能會讓他忽視自己的主動觀察和思考,讓他形成某種技術依賴,尤其是對上級或外界權威推薦的他不甚了解的系統。
此外,有以下幾個問題不得不去重視:
(一)數據錯誤
要擁有巨大的數據資源,必然要拋棄對數據精確性的絕對追求,大數據之父舍恩伯格認為執迷于精確性是信息缺失時代和模擬時代的產物,如果不接受混亂,95%以上的數據都無法被利用,只有接受不精確性,我們才能打開一扇從未涉足世界的窗戶。就個人來說,我們可能會謹慎認真的發布一條消息,但是我們也會不專注的時候寫下錯別字,混亂也是生活的一種狀態,大數據對此并不排斥,甚至樂意之至。谷歌將這種錯誤應用在搜索和翻譯中,即使打下錯誤的指令也能找到你可能找到你需要的內容。這種思維方式上的自信當然也是因為當數據規模足夠大的時候,數據錯誤就可以忽略不計。實驗規律就是如此,當試驗次數增加到一定程度,其結果就會越來越趨于一個穩定的數值。
但是作為大數據應用的經典案例:谷歌搜索準確預言流感,于2014年在《科學》上受到文章質疑,該文認為谷歌的流感預防并不那么準確,普遍存在高估情況。大數據原先為什么準確?現在為什么不準確?沒有人能回答,谷歌也不知(一開始就沒法知道)搜索關鍵字和流感傳播能夠產生緊密的聯系,大數據的分析思維就是相關關系,而不是因果關系,就像沃爾瑪也不知道尿布和啤酒的銷售為什么會聯系在一起。這種單純特征上的相關性研究,不知道它背后的產生機制也將不能明白它的消失時間。
大數據的錯誤的原因還有數據太大必然有大量的無關信息,雖然當數據規模足夠大時,錯誤信息可以接近忽視,但是若因為特殊原因導致無關錯誤信息占據大多數,縱使數據模型和推理足夠高超也不能避免失敗的命運。
實際上我們很容易接受數據這種理性的蠱惑,實行國家大數據戰略則完全可能將人們對數據的依賴上升到受其統治的地步,我們必須時刻謹記大量的數據實質上并不可靠:質量差、不客觀、毫無聯系、沒有邏輯……如此多的問題,還無法解釋、無法證明,我們對其的信任可以走到哪里?無疑要打一個大大的問號。現實的是,這些亂七八糟的數據最后進入個人的相關系統,并用來預測、確定個人的一切。
(二)數據歧視
數據歧視表現在兩個方面,一是傳統的偏見,比如說種族、宗教、膚色、區域歧視。人們總是會受到自己信仰和偏見的制約,心理上叫做“你看到的就是你想看到的”,又叫做“吸引力法則”,這與我們的注意力和精力的有限相關。世界上會同時發生很多事情,一件事情可以用不同的角度去思考,但是你只會用你慣用的角度去看去想,更為重要的是,偏見會隨著經驗的增多具有周期性和自我強化的功能。如果你能用數據來替換主觀信仰和偏見,毫無疑問在這種擁有偏見色彩數據之上的預測分析技術應用將更加強化這樣的輪回。比如說,執法部門在給犯罪嫌疑人制作資料和檔案的時候就會特別強調是否為少數族裔,有時還會有區號、宗教等,這類特別被“關注”的群體犯罪率也會格外的上升。雖然并不能說是因為犯罪記錄顯示了種族的區別,但我們會更主動的審查這類群體是否犯罪,這類群體的被抓率肯定就會高于其他較少關注的群體。二是消費者偏見。一個典型的營銷案例是目標超市會根據你的消費記錄來判斷你是否懷孕。雖然你可能并沒有點擊任何的母嬰產品,但是因為數據預測的相關性分析而非因果關系會讓一些企業知道更多,成為你“最親密的陌生人”。在技術領域這叫作“個性化技術”,包括個性化排序和個性化推薦,如網絡搜索鏈接的自動排序,購物網站的優化推薦,交友軟件的推薦好友。阿里巴巴阿里貸款就是借助分析自家電子商務平臺淘寶、天貓、支付寶等的客戶行為及信用數據運作的,它比較傳統銀行貸款無抵押、純信用貸款,不需要您提供房產、設備抵押或擔保人擔保,僅僅依靠交易行為和信用足以,全程由大數據技術自動分析判定,不會出現任何人工干預,而且壞賬率曾達到1%以下,現在雖有所上升,但是也遠低于銀行水平。這些也許方便了消費者的生活,但是顯然也屬被動而非主動的接受所要面對的信息,如果一個人是家庭主婦,那么她將永遠陷于鋪天蓋地、五花八門的娛樂緋聞、電視預告或者購物信息中而不自覺。而你的購物傾向和消費習慣都會影響你的信用水平,進而錄入個人的數據檔案中。
(三)遺忘權
大數據的存在使一種權利走到了人們的視野之中:“被遺忘的權利”。2012年,歐盟出臺了一項有關個人信息保護的改革方案,主張民眾有權要求相關機構刪除有關他們的個人數據。2014年歐盟最高法院通過判決的形式承認了“遺忘權”,個人可以就某件具體事宜要求網站管理者刪除錯誤、不恰當、不相關、過時的信息。2016年3月谷歌宣布把“被遺忘權”政策的法律適用范圍擴展到歐盟以外的主域名,2016年2月日本一家法院也判決承認了“被遺忘權”,但是作為中國首例“被遺忘權”案件任某訴百度案受到了兩級法院的駁回,法官認為其利益并不具有正當性和受法律保護的必要性。
當今世界的存儲能力和存儲成本有了顯著的變化,云計算的出現讓無限存儲不再是夢想。科學家這樣形容云計算:它就像一個總的自來水庫,我們使用存儲就像自來水一樣,當需要的時候我們就打開水龍頭,想要存儲量大一點的時候放大水龍頭即可。所以當空間無限且邊際成本永為零的時候,每一個電子數據可以肆無忌憚的留在網絡空間不怕填滿也將永不會消失。被譽為“大數據時代的預言家”舍恩伯格在《刪除:大數據的取舍之道》寫道:“在數字時代,或許人類發生的最根本的改變,就是記憶和遺忘的平衡已經反轉了。將信息提交給數字存儲器已經成為默認狀態,而遺忘則成了例外。”例如在網絡上發布信息,要全部清理掉是非常困難的,即使你刪除了內容,但是個人網頁已經被搜索引擎編錄了,并被網絡爬蟲程序存檔,還可以通過快照之類的方式讀取。更嚴重的是,這種一時的沖動所產生的陰影會一直籠罩著余生,甚至比我們的壽命更長。所以我們不得不極力遏制分享和評論的欲望,謹言慎行。然而搜索引擎所記住的,要比網頁上發布的信息多的多,我們每一個搜索請求、隨意點擊的網頁……足夠準確的預測到我們傾向什么信息,這些被我們遺忘的細節和挖掘技術,可以毫不夸張的說,搜索引擎對我們的了解比我們自己能夠記住的還要多。
另外,完善的記憶模式也將影響整個社會到個人的思考和決策方式,越來越注重個人的過去,迷失在過去的瑣碎細節中,束縛于記憶,也意味著一旦犯錯便永無寧日,再也沒有了重返正常生活的機會。
(四)數據監控
喬治·奧威爾早在1948年就著《一九八四》一書就描述了完全監視下零隱私的恐懼:“不論是睡著還是醒著,在工作還是在吃飯,在室內還是在戶外,在澡盆里還是在床上—沒有躲避的地方。除了你腦殼里的幾個立方厘米以外,沒有東西是屬于你自己的。現實中“老大哥”并沒有出現,但是通過大數據可以實現了無處不在的監控,而永久數據庫和數據挖掘技術的存在,腦殼里的思想也將無可避免。
震驚世界的斯諾登事件以及相關的“棱鏡計劃”就是美國政府的一個數據監控策略。這種被監視的恐慌,讓人們想起了《一九八四》里的“電幕”,美國領導人就是那個“老大哥”。對自由意志和平等地位的追求已經成為當今民主國家的潮流,面對世界各國強烈的譴責和抵制,這種行為總會冠上許多冠冕堂皇的理由,比如反恐與國家安全。美國雖然早在1974年頒布了《隱私法》、1967年頒布《信息自由法》,但是2001年作為應對“9·11”反恐策略,布什總統簽訂了《愛國者法案》,根據該法案警察和情報機構不需要法院的核準,就有權竊聽公民的電話,檢查電子郵件等。美國也曾有幾次公開的數據庫計劃,最早是1966年的“中央數據銀行”,即在聯邦政府成立一個統一的“數據中心”,把政府部門所有的數據庫連接、集中、整合起來,建立一個大型的數據庫。最終,每一個公民將有一個數據檔案,里面包括每一個人的教育、醫療、福利、犯罪和納稅等等一切數據記錄。這種統一管理不僅能節省運營成本、提高數據的準確性和查詢的效率,也有利于保障數據的安全,但是它因無法保證公民的隱私不受到侵害而被無限擱置。“9·11”以后,新面孔加新技術的“萬維信息觸角計劃”卷土重來。它是利用恐怖分子在計劃執行活動時的任何信息記錄,如通訊、出入境、醫療等,通過數據挖掘,發現和追蹤恐怖分子。雖然該項目后更名為“反恐信息觸角”,并反復強調專為反恐服務,不適用任何的商業產生的數據,依然迫于壓力被叫停。2006年同樣以反恐為名美國國土安全局提出“建言”計劃,在前者之上,預先設計了種種技術方案進行隱私保護。大型數據庫計劃一再因為隱私的原因被叫停,因為它不僅能夠監視恐怖分子更能監控任何人,況且誰能夠確保真正擁有這個能力而不濫用。
(五)數據隱私
數字化和互聯網給了我們很多便利的同時,也帶來痛苦。這個超乎尋常的平臺將世界連在了一起,人們意識到互聯網不僅僅是一個接受信息、知識的工具,還可以自己發動智慧生成和共享。一種新的技術和創造理論形成:眾包(利用互聯網將工作打包分配出去),典型如維基百科,百度百科等。人肉搜索就是基于這種力量,也利用了諸如六度空間等人際關系理論,接包人可能并不是為了報酬,為了興趣、公益或者幫助他人的滿足感,甚至是自己也沒有意識到,就在不知不覺把任務完成了。數據化時代會帶來更多,享有數據的集團或個人無需驚動任何人,自己就能完成搜索追蹤的工作。
數據應用的監管一般來說都寄希望于行業自律,為數據所有者所承擔,當數據所有者同時為數據監督者的時候,權力濫用的危險很難避免。身份識別的攻擊、不準確的數據與模型、不公平的使用敏感信息、影響公眾的個人行為、增加政府控制公民的能力、大規模的數據破壞等等,而公民個人很難獨立的意識到,我們擁有便利的同時遭到了不公正的對待。另一方面,我國沒有“數據權”這項法定權利,即使發現也缺乏保護機制和對應的及時挽救方法。
三、結語
數據的理性似乎更符合法律的客觀性,但是這些限制自由、生死攸關的重大決策,我們能否把信任托付在冰冷的機器和亂起八糟可能缺乏真實性的數據上,也是個極難理清的倫理難題。但是大數據時代已經來臨,臨陣退縮不如正確善待、更好的應用,才是決定新技術影響好壞的關鍵。
[參考文獻]
[1]西格爾.大數據預測:告訴你誰會點擊、購買、死去或撒謊[M].袁杰譯.北京:中信出版社,2014.
[2]維克托·邁爾-舍恩伯格.刪除:大數據的取舍之道[M].袁杰譯.杭州:浙江人民出版社,2013.
[3]喬治·奧威爾.一九八四[M].董樂山譯.上海:上海譯文出版社,2011.
[4]徐子沛.大數據:正在到來的數據革命,以及它如何改變政府、商業與我們的生活[M].林市:廣西師范大學出版社,2012.7.
[5]徐子沛.數據之巔:大數據革命,歷史、現實與未來[M].北京:中信出版社,2014.