馬迪
似乎所有政府部門的臨時工都習慣惹事兒。
最近,因為一位“臨時工”愛德華·斯諾登的爆料,美國政府攤上了大事。一個代號為“棱鏡”的秘密項目在過去6年間,從多家知名互聯網公司獲取電子郵件、在線聊天內容、照片、文檔、視頻等網絡私人數據,用以監控恐怖主義犯罪活動。
獲取海量數據,利用信息分析技術找出具有相關關系的因素,為行動提供指導,這是典型的大數據應用,但這個過程中卻隱藏著魔鬼——那就是數據的所有權和隱私權的保護問題。
數據多≠大數據
數據其實是一座“金礦”。絕大多數人都沒有意識到自己每天制造了多少數據,以及時數據的利用已經發展到了怎樣的地步c
舉個最簡單的例子,人們到超市買東西,結賬時會收到一張購物小票,包含當次購買的所有商品信息。你也許會隨手將它丟棄,但像沃爾瑪這樣的全球連鎖超市巨頭卻不會放過這些蛛絲馬跡。
通過對數以億計的購物清單進行分析,商家就可以推斷出當地當季,什么商品和什么商品擺在一起最好賣。在一般人看來,尿不濕和啤酒實在沒什么共同處,但大量數據顯示它們其實是一對“好搭檔”——年輕的爸爸在買尿不濕時,常常會忍不住買點啤酒犒勞自己。
這種精準營銷,得益于利用數據的合理分析。這個過程堪比“淘金”——在瑣碎而龐大的數據庫中“挖掘”、“篩選”和“鍛煉”,最終得出意想不到的結論。
這種做法由來已久,跟如今炙手可熱的“大數據”有什么不同呢?數據累積得多了,就可以叫“大數據”嗎?
所謂大數據,不單單是指數量龐大,還在于其種類繁多、產生快而更新更快。它不僅來自于特定領域,也產生于我們每天的日常生活中。大數據的爆發要歸功于社交網絡、電子商務和物聯網的快速發展。以前,人們只是將E網當作一種娛樂方式,而現在,人們更多地“生活”在網絡平臺上。互聯網上的數據洪流正在呈現幾何級增長之勢,每18個月就會翻一番。
所以,真正的大數據,是從不同維度、不同途徑獲取的各種格式的數據碎片之和,它包含且不限于文字、圖片、視頻、聲音、位置——可以說,它包羅萬象。
大數據能做什么
世界正在進入一個“大數據”時代。數據規模越大,處理的難度也越大,但對其進行挖掘可能得到的價值更大,這就是大數據熱的原因。
全世界的搜索記錄、網頁瀏覽記錄、社交關系、購物清單、閱讀書目、行車記錄、旅游經歷、醫療記錄……不同維度的數據放在一起分析,得出的結果才更真實準確。大數據挖掘的重點對象之一,就是人的行為規律。
雖然我們總以為自己是基于經驗和直覺而做出種種行為,但放在全人類范圍里,你會發現自己并沒有那么與眾不同。也就是說,基于數據和分析,每個人的決策在很大程度上都是可以被預測的。(你百思不得其解,為什么豆瓣網個人主頁上的推薦總是那么對你的胃口?其實就是這個道理。)
商人們率先從中看到了商業價值。他們將客戶的個人信息與行為特征結合起來,預測客戶需求,以提供更有針對性的個性化服務。比起被淹沒在海量信息中且被迫要做出選擇,能輕松地享受個性化服務確實不錯。大數據時代,商家可能比親人朋友更懂你,甚至能夠預測出你接下來可能要做什么。
這真是一幅既美好又可怕的前景。
這種技術的前沿領域還演變出一種人工智能,即讓計算機以類似人類的方式來學習。用戶提供的數據越多,計算機就越能預測用戶想要什么,例如:在你拼錯字的時候猜測到你實際想搜索的關鍵詞。計算機的“大腦”在大數據的支持下'會越來越聰明。
匿名的隱私
“大數據”概念從誕生起便伴隨著巨大的爭議。不論是企業還是個人,都會因為大數據的爆發而獲益匪淺,但同時,個人隱私也無處遁形。毫無疑問,它是一把雙刃劍。
當你在網上登記自己的個人信息時,無形中就是把隱私托付給了陌生人;視頻監控帶來安全感的同時,別忘了你也是被監控的一分子;你用手機通話時,運營商不僅知道你打給誰,打了多久,還知道你是在哪里進行的通話……
以前,這些記錄幾乎不會對普通人造成影響,因為它的數量如此巨大——我們把自己隱藏在茫茫人海中,以獲得一定程度上的安全感。但是,隨著大數據技術的不斷進步,對某個個體的行為進行放大分杭越來越容易了。這也就是為什么“棱鏡門”擾動全球的原因。
大數據的發展潮流如此勢不可擋,被裹抉于其中的人們只能妥協,接受匿名的隱私泄露。但在過去的幾年中,計算機專家一再表示,即使是匿名的數據也可以被重新定位,歸屬到具體個人身上。
哈佛大學教授斯威尼的研究顯示,只要知道年齡、性別和郵編,并與公開的數據庫交叉對比,便可識別出87%的人的身份。這意味著人們隱私權的最后一道防線同樣脆弱得不堪一擊。
很多人已經意識到,制定數據應用的相關法律法規已經刻不容緩。作為用戶,我們需要明確界定自己在數據的使用方面具有什么權利和義務;作為企業和政府,需要法律的清晰規定其可以在多大程度上、用什么樣的方式來使用用戶的數據。總之,不應假定消費者在使用產品時如主動透露了自己的隱私,就意味他們授權企業使用這些隱私。
“棱鏡計劃”在水下進行了6年。大數據時代早已拉開序幕,是時候構建一張更完善的安全網了。