


免費(fèi)獲取信息、貨比三家地購(gòu)物,還有各種形式的通信和娛樂(lè)服務(wù),互聯(lián)網(wǎng)的好處實(shí)在太多,絕對(duì)不容錯(cuò)過(guò),而且這些服務(wù)幾乎都是免費(fèi)的。不過(guò),為什么免費(fèi)的服務(wù)能夠讓Google這樣的互聯(lián)網(wǎng)公司最終盈利數(shù)十億呢?這是因?yàn)樗鼈儷@取了我們的數(shù)據(jù),這些數(shù)據(jù)經(jīng)過(guò)處理和分析之后,最終將產(chǎn)生利潤(rùn),例如有針對(duì)性的商業(yè)廣告。其次,所有的數(shù)據(jù)還可能被作為情報(bào)來(lái)收集,例如一個(gè)眾所周知的秘密計(jì)劃:棱鏡。
網(wǎng)站運(yùn)營(yíng)商收集數(shù)據(jù)的方法最為簡(jiǎn)單,訪問(wèn)網(wǎng)站的用戶,產(chǎn)生的每次點(diǎn)擊、每次文本輸入,瀏覽器都會(huì)將大量相關(guān)的數(shù)據(jù)(元數(shù)據(jù))提交到網(wǎng)站上。其次,在Google+、亞馬遜和Facebook之類的大型社交網(wǎng)站上,供應(yīng)商可以通過(guò)用戶填寫(xiě)的個(gè)人信息以及使用過(guò)程中泄漏的更多信息,結(jié)合元數(shù)據(jù)創(chuàng)建一個(gè)更全面的用戶配置文件。此外,數(shù)據(jù)分銷商還將收集離線數(shù)據(jù),例如姓名、住址,并出售這些數(shù)據(jù)給商業(yè)廣告公司之類的機(jī)構(gòu)。軟件提供商也同樣會(huì)收集我們的數(shù)據(jù),除了收集其他相關(guān)軟件的信息外,還可能收集我們使用軟件的時(shí)長(zhǎng)信息以及定位數(shù)據(jù)之類的內(nèi)容。
對(duì)于用戶來(lái)說(shuō),要弄清楚是誰(shuí)收集了數(shù)據(jù)、收集了什么樣數(shù)據(jù)以及這些數(shù)據(jù)如何被利用是非常困難的。IT巨頭通常都將自己塑造成用戶的朋友,但是當(dāng)我們對(duì)它們?nèi)绾问占屠脭?shù)據(jù)心存疑慮時(shí),它們通常都會(huì)說(shuō)數(shù)據(jù)只會(huì)用于為用戶提供更好的服務(wù),并信誓旦旦地表示它們將嚴(yán)格遵守隱私政策。但實(shí)際上隱私政策是企業(yè)自己制定的,并且除了專業(yè)的律師以外,這些政策中的法規(guī)部分普通用戶基本無(wú)法理解,涉及到重要問(wèn)題的部分,巨頭們通常也都是含糊其詞。如果IT巨頭最終不得不承認(rèn)自己將用戶的數(shù)據(jù)提供給了第三方,那么經(jīng)典的說(shuō)辭會(huì)是:“我們只向我們的附屬機(jī)構(gòu)和其他值得信賴的公司與個(gè)人提供用戶的個(gè)人資料……”。不過(guò),這樣的慷慨陳詞一點(diǎn)意義都沒(méi)有,究竟提供給什么公司和個(gè)人?這樣的說(shuō)辭和“我們想給誰(shuí)就給誰(shuí)”,實(shí)際上并沒(méi)有什么不同。
事實(shí)上,Google、Facebook等許多IT巨頭對(duì)于用戶個(gè)人隱私的處理方法已經(jīng)被許多國(guó)家、地區(qū)判定為違法,但是通常IT巨頭最多也只會(huì)針對(duì)這一國(guó)家或者地區(qū)的用戶修改相關(guān)的法律條文,其他國(guó)家和地區(qū)的用戶仍然無(wú)法得到保護(hù)。目前,圍繞數(shù)據(jù)收集與利用的法律糾紛不斷,但是仍然沒(méi)有一個(gè)有效的方法對(duì)相關(guān)的企業(yè)進(jìn)行約束。因而,對(duì)于用戶來(lái)說(shuō),更有必要學(xué)習(xí)相關(guān)的知識(shí),并學(xué)會(huì)如何保護(hù)自己。
先收集再分析
對(duì)于一個(gè)沒(méi)有邊界的互聯(lián)網(wǎng)來(lái)說(shuō),通過(guò)法律約束難度極大。信息的全球流動(dòng),每天數(shù)百萬(wàn)GB的數(shù)據(jù)通過(guò)粗粗的光纖和電纜流入巨大的數(shù)據(jù)中心,要了解這些數(shù)據(jù),就必須先收集,之后再進(jìn)行分析。大型互聯(lián)網(wǎng)公司在多年前就已經(jīng)開(kāi)始了這一工作,Google公司分析搜索請(qǐng)求,在用戶輸入搜索關(guān)鍵字的過(guò)程中給出最可能符合用戶需要的關(guān)鍵字建議。亞馬遜則分析我們一直以來(lái)的購(gòu)物行為,因而,總是能夠給出精確的采購(gòu)建議。而警察通過(guò)數(shù)據(jù)的分析致力于預(yù)測(cè)罪犯的行為,這種技術(shù)已經(jīng)在洛杉磯、西雅圖和其他幾個(gè)城市使用了很長(zhǎng)的一段時(shí)間。至于情報(bào)部門和反恐單位,則更是依賴大量的數(shù)據(jù)分析,以求能夠盡早發(fā)現(xiàn)潛在的恐怖分子。
然而,如果需要做出預(yù)測(cè),不僅需要個(gè)人的數(shù)據(jù),還必須結(jié)合用戶的配置文件。為了識(shí)別用戶,通常需要較長(zhǎng)的一段時(shí)間匯總數(shù)據(jù)和創(chuàng)建用戶配置文件。通過(guò)網(wǎng)站保存在用戶電腦上的Cookie,可以跟蹤用戶并收集用戶點(diǎn)擊哪個(gè)鏈接之類的數(shù)據(jù),結(jié)合瀏覽器訪問(wèn)網(wǎng)站時(shí)提供的軟件版本、插件等相關(guān)的元數(shù)據(jù),創(chuàng)建用戶的配置文件,這就好像是在產(chǎn)生一個(gè)用戶獨(dú)有的指紋。
在離線世界中使用的數(shù)據(jù)收集方法技術(shù)含量較低,但這并不會(huì)影響其效果。除了一些政府機(jī)構(gòu)公開(kāi)地販賣所掌握的資料外,數(shù)據(jù)經(jīng)銷商也收集數(shù)據(jù)并將它們賣給保險(xiǎn)經(jīng)紀(jì)人、房地產(chǎn)中介。這些批量銷售的數(shù)據(jù)集,除了包含吸引購(gòu)買者關(guān)注的特定“線索”外,通常還會(huì)包含用戶的姓名、地址、電子郵件信息或者電話號(hào)碼。另外還會(huì)包含一些其他的細(xì)節(jié),例如大概的收入,是否是動(dòng)物愛(ài)好者等。在美國(guó),這種數(shù)據(jù)批發(fā)生意正在蓬勃發(fā)展,而在其他隱私保護(hù)法律相當(dāng)薄弱的國(guó)家自然就更不在話下了。以美國(guó)為例,美國(guó)LeadsPlease公司銷售的郵件地址價(jià)格最為低廉,1 000個(gè)地址僅售85美元,并且購(gòu)買超過(guò)50 000個(gè)地址的可以獲得超過(guò)40%的折扣。
在線和離線數(shù)據(jù)
對(duì)于用戶來(lái)說(shuō),在線和離線個(gè)人數(shù)據(jù)的結(jié)合是一件非常令人擔(dān)心的事情,不過(guò),對(duì)于利用數(shù)據(jù)的人來(lái)說(shuō),這自然是一件非常令人興奮的事情。結(jié)合在線和離線數(shù)據(jù)的公司,最有名的是美國(guó)的Acxiom。根據(jù)該公司自己的聲明,Acxiom公司擁有全世界5億多人、每人約1 500個(gè)數(shù)據(jù)項(xiàng)的龐大數(shù)據(jù)池。該公司使用超過(guò)75 000個(gè)網(wǎng)站收集在線數(shù)據(jù),并結(jié)合運(yùn)作數(shù)十年之久的離線數(shù)據(jù)庫(kù),建成了一個(gè)令人難以置信的巨大數(shù)據(jù)池。
Acxiom公司在德國(guó)的歷史,可以追溯到1962年,首先建立起的是醫(yī)療公司和出版社的地址池,電話營(yíng)銷的運(yùn)作始于1982年,2005年開(kāi)始電子郵件營(yíng)銷。盡管在德國(guó)禁止將在線和離線數(shù)據(jù)建立關(guān)聯(lián),但是該公司仍然掌握著許多德國(guó)用戶的資料。根據(jù)Acxiom公司德國(guó)總經(jīng)理卡斯滕的介紹,該公司掌握4 000多萬(wàn)個(gè)德國(guó)用戶的個(gè)人資料,其中包括姓名、郵政地址及大概的收入等信息,其中部分?jǐn)?shù)據(jù)來(lái)自聯(lián)邦統(tǒng)計(jì)局、國(guó)家統(tǒng)計(jì)局辦公室直接公布的數(shù)據(jù)。不過(guò),Acxiom公司強(qiáng)調(diào),這一部分的數(shù)字并不指向個(gè)人,而是5戶、1 000戶,甚至是整個(gè)地區(qū)的統(tǒng)計(jì)數(shù)字,這意味著Acxiom公司可以向其客戶提供統(tǒng)計(jì)概率,告訴他們,在目標(biāo)地區(qū)他們應(yīng)該銷售什么產(chǎn)品。
情報(bào)機(jī)構(gòu)的數(shù)據(jù)收集
美國(guó)國(guó)家安全局和其他情報(bào)機(jī)構(gòu)也試圖將網(wǎng)上收集的數(shù)據(jù)和離線數(shù)據(jù)合并,并將數(shù)據(jù)與具體的人聯(lián)系起來(lái)。2013年6月初以來(lái),前國(guó)家安全局分析師愛(ài)德華·斯諾登披露的數(shù)據(jù)顯示,美國(guó)當(dāng)局以反恐戰(zhàn)爭(zhēng)為借口進(jìn)行了大范圍的深度數(shù)據(jù)收集,電話和互聯(lián)網(wǎng)服務(wù)供應(yīng)商都是數(shù)據(jù)收集的目標(biāo)。在當(dāng)局認(rèn)為涉及刑事起訴的情況下,電話和互聯(lián)網(wǎng)供應(yīng)商必須提供相關(guān)的數(shù)據(jù),并允許調(diào)查人員監(jiān)控個(gè)人通信。而且,情報(bào)機(jī)構(gòu)不僅收集犯罪嫌疑人的數(shù)據(jù),還通過(guò)網(wǎng)絡(luò)接口進(jìn)行深層的數(shù)據(jù)包檢測(cè),例如對(duì)數(shù)據(jù)進(jìn)行過(guò)濾,去除流媒體數(shù)據(jù)和文件共享服務(wù)的數(shù)據(jù),捕獲電子郵件。據(jù)介紹,德國(guó)聯(lián)邦情報(bào)局同樣使用類似的方法過(guò)濾并檢索特定的內(nèi)容,例如檢索用于制造炸彈的材料。不過(guò),根據(jù)德國(guó)的相關(guān)法律,聯(lián)邦情報(bào)局必須向德國(guó)聯(lián)邦議會(huì)G10委員會(huì)提出關(guān)鍵詞申請(qǐng),在聯(lián)邦議會(huì)監(jiān)控委員會(huì)委員認(rèn)可的情況下,才可以執(zhí)行為期3個(gè)月的數(shù)據(jù)過(guò)濾分析。但是僅在2011年,聯(lián)邦情報(bào)局已經(jīng)對(duì)約300萬(wàn)人的電子郵件和電話交談進(jìn)行了分析。
供應(yīng)商并不是數(shù)據(jù)的唯一來(lái)源。事實(shí)上,情報(bào)機(jī)構(gòu)直接在網(wǎng)絡(luò)節(jié)點(diǎn)和水下電纜連接點(diǎn)上截取數(shù)據(jù),世界上最大的節(jié)點(diǎn)DE-CIX在法蘭克福,其運(yùn)營(yíng)商斷言外部無(wú)法訪問(wèn)該設(shè)施,但是世界各地還有約340個(gè)類似的節(jié)點(diǎn),其中80個(gè)位于北美,是否外部也是無(wú)法訪問(wèn),就不得而知了。據(jù)英國(guó)“衛(wèi)報(bào)”報(bào)道,英國(guó)的監(jiān)控程序“TEMPORA”有能力直接訪問(wèn)大西洋的光纖電纜,這是歐洲和美國(guó)之間的互聯(lián)網(wǎng)數(shù)據(jù)大動(dòng)脈。據(jù)報(bào)道,“TEMPORA”可以監(jiān)控200多條光纖,同一時(shí)間能夠并行捕獲高達(dá)46條光纖的數(shù)據(jù),捕獲的數(shù)據(jù)存儲(chǔ)時(shí)間長(zhǎng)達(dá)30天。由于情報(bào)機(jī)構(gòu)截取數(shù)據(jù)的海底電纜是各國(guó)互聯(lián)網(wǎng)提供商的轉(zhuǎn)接點(diǎn),因而,這將會(huì)影響到全世界的互聯(lián)網(wǎng)用戶。
互聯(lián)網(wǎng)服務(wù)供應(yīng)商本身是第三個(gè)數(shù)據(jù)源,據(jù)愛(ài)德華·斯諾登所說(shuō),美國(guó)棱鏡電子監(jiān)聽(tīng)計(jì)劃的程序能夠直接訪問(wèn)Google、Facebook、微軟、蘋(píng)果、雅虎、Dropbox、AOL、Paltalk等網(wǎng)絡(luò)服務(wù)提供商的服務(wù)器。2013年7月中旬,斯諾登詳細(xì)介紹了棱鏡電子監(jiān)聽(tīng)計(jì)劃的具體操作情況。據(jù)他介紹,盡管微軟公司此前曾否認(rèn)這一說(shuō)法,但微軟確實(shí)給國(guó)家安全局提供了直接訪問(wèn)的接口,國(guó)家安全局除了可以對(duì)數(shù)據(jù)進(jìn)行深度挖掘之外,甚至還可以訪問(wèn)加密的數(shù)據(jù)。而對(duì)于微軟下屬的VoIP服務(wù)商Skype,國(guó)家安全局可以通過(guò)其服務(wù)產(chǎn)品錄制音頻和視頻,美國(guó)國(guó)家安全局有一個(gè)接口可以采集數(shù)據(jù)。然而,微軟和美國(guó)國(guó)家安全局則說(shuō),這種數(shù)據(jù)訪問(wèn)方式,只發(fā)生在法院批準(zhǔn)的情況下。
通過(guò)不同來(lái)源收集的大量數(shù)據(jù)如何處理,情報(bào)部門面臨著和Google相同的問(wèn)題。這些非結(jié)構(gòu)化數(shù)據(jù)中包含大量的信息,并且以不同的格式存儲(chǔ),處理和分析這些數(shù)據(jù)是相當(dāng)復(fù)雜的事情。在幾年前,這些數(shù)據(jù)的處理有時(shí)會(huì)需要花費(fèi)幾個(gè)星期。不過(guò),使用現(xiàn)有的“大數(shù)據(jù)”挖掘處理工具,這種數(shù)據(jù)的處理和分析可以實(shí)時(shí)地進(jìn)行。
過(guò)濾大數(shù)據(jù)的算法
在過(guò)濾、分析數(shù)據(jù)的過(guò)程中,首先需要將非結(jié)構(gòu)化的語(yǔ)音輸入、連接數(shù)據(jù)、文本和其他各種類型的信息進(jìn)行處理,生成結(jié)構(gòu)化的數(shù)據(jù)庫(kù)。這樣才可以通過(guò)簡(jiǎn)單的查詢,例如誰(shuí)和誰(shuí)溝通?他們說(shuō)什么?表達(dá)什么樣的心情?獲得可視化的搜索結(jié)果,這類似于Facebook新的搜索工具,我們可以輸入一些像“3月在慕尼黑出生的朋友”的語(yǔ)句來(lái)進(jìn)行查詢,對(duì)Facebook的數(shù)據(jù)進(jìn)行搜索和排序。
大數(shù)據(jù)處理最常用的工具是Hadoop,這是一個(gè)支持?jǐn)?shù)據(jù)密集型分布式應(yīng)用的軟件框架,在此框架的支持下可以對(duì)分布式計(jì)算網(wǎng)絡(luò)中PB級(jí)的數(shù)據(jù)進(jìn)行分析,這個(gè)分析過(guò)程基于Google開(kāi)發(fā)的MapReduce算法,Hadoop會(huì)將數(shù)據(jù)劃分為塊,其中每個(gè)都包含大約64MB的數(shù)據(jù),然后將這些塊單獨(dú)排序。這種經(jīng)過(guò)劃分的數(shù)據(jù)對(duì)于接下來(lái)的步驟非常有幫助。數(shù)據(jù)集中的數(shù)據(jù)將被分發(fā)給分布式計(jì)算網(wǎng)絡(luò)上的節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)會(huì)周期性地把完成的工作和狀態(tài)的更新報(bào)告到中央收集點(diǎn)。在Hadoop的框架下,這個(gè)過(guò)程只需幾分之一秒。
分析處理過(guò)程的第二個(gè)步驟將創(chuàng)建預(yù)測(cè)模型,根據(jù)目的的不同,該過(guò)程的具體方法有一定差異,通常是檢測(cè)異常數(shù)據(jù),并根據(jù)數(shù)據(jù)的特點(diǎn)或者關(guān)聯(lián),對(duì)數(shù)據(jù)流進(jìn)行聚類分析,目標(biāo)是將對(duì)象根據(jù)某些共同的或者相似之處劃分成組(群),例如根據(jù)人們的電話或者電子郵件,獲得一個(gè)可視化的社交網(wǎng)絡(luò)。情報(bào)部門通過(guò)這種方法識(shí)別不同的人之間存在的關(guān)系,他們的方法跨越國(guó)界并且經(jīng)過(guò)多年的時(shí)間積累。而我們則可以通過(guò)在線工具Immersion(immersion.media.mit.edu),檢索自己的Google電子郵箱,以類似的方法標(biāo)識(shí)自己的家人、朋友和同事。
根據(jù)國(guó)家安全局主任助理約翰·英格利斯的說(shuō)法,監(jiān)測(cè)范圍大約是2個(gè)或3個(gè)層級(jí)的聯(lián)系人。如果每個(gè)人的社交圈人數(shù)是100人,那么這個(gè)人的第三個(gè)層級(jí)的聯(lián)系人就多達(dá)百萬(wàn)人(100×100×100),這意味著,在監(jiān)控一個(gè)嫌疑人時(shí),情報(bào)部門的分析師將收集百萬(wàn)人的信息,通過(guò)這些信息發(fā)現(xiàn)和調(diào)查某人。
數(shù)據(jù)收集的是與非
從數(shù)據(jù)分析的角度來(lái)看,關(guān)鍵的問(wèn)題是能從數(shù)據(jù)中推斷出什么。有一些積極的應(yīng)用可以為人們帶來(lái)巨大的價(jià)值,確實(shí)是必須通過(guò)數(shù)據(jù)收集分析實(shí)現(xiàn)的。例如信用卡公司通過(guò)分析用戶的行為模式,可以更快地發(fā)現(xiàn)用戶的信用卡被盜等問(wèn)題。Google通過(guò)分析搜索查詢的數(shù)據(jù),甚至可以預(yù)測(cè)流感疫情。研究人員分析人類基因組,同樣也需要收集大量的數(shù)據(jù)并加以分析。
然而,即使是積極的應(yīng)用也可能會(huì)有危險(xiǎn),例如Google可能會(huì)顯示錯(cuò)誤的搜索建議;亞馬遜可能會(huì)推薦我們不感興趣的商品;最壞的情況下,問(wèn)題可能會(huì)很嚴(yán)重,例如情報(bào)機(jī)構(gòu)可能由于一個(gè)無(wú)辜的人在社交網(wǎng)絡(luò)的觀點(diǎn)而懷疑他,甚至和穆拉特·庫(kù)納茨一樣,在錯(cuò)誤的行為分析基礎(chǔ)下被關(guān)押在關(guān)塔那摩灣,這從社會(huì)的角度看是絕對(duì)不能容忍的。
在兩個(gè)極端之間存在一個(gè)廣闊的灰色區(qū)域,對(duì)于大部分用戶來(lái)說(shuō),身邊的這些數(shù)據(jù)具體發(fā)生了什么,基本上是一無(wú)所知。而事實(shí)上別人將利用這些數(shù)據(jù)賺錢,例如從廣告業(yè)的角度來(lái)看,有關(guān)病歷、家庭狀態(tài)和即將建立一個(gè)新家的個(gè)人資料與信息是非常有價(jià)值的。而對(duì)于網(wǎng)絡(luò)犯罪分子來(lái)說(shuō),個(gè)人數(shù)據(jù)是非常重要的。從他們的角度來(lái)看,最有價(jià)值的是個(gè)人的完整記錄,即所謂的“Fullz”,這一般包括個(gè)人的姓名、銀行卡或者信用卡信息和電話號(hào)碼、電子郵件等個(gè)人信息。利用這些信息可以偽造信用卡或駕駛執(zhí)照,轉(zhuǎn)手販賣給其他人也同樣價(jià)值不菲。根據(jù)戴爾SecureWorks公司的介紹,個(gè)人信息的價(jià)值可以高達(dá)1 000多美元,其中所謂的“Fullz”約值550美元。
然而,當(dāng)我們清楚自己每一個(gè)點(diǎn)擊的數(shù)據(jù)都將被收集起來(lái)、每一個(gè)操作及輸入的每一個(gè)字符都可能有人在窺探時(shí),我們完全可以有意識(shí)地決定給他們留下些什么,例如犧牲一點(diǎn)時(shí)間和精力采取一些小措施等。
大數(shù)據(jù)分析
實(shí)時(shí):處理數(shù)個(gè)PB量級(jí)的數(shù)據(jù)
在線公司和情報(bào)機(jī)構(gòu)需要解決一個(gè)相同的問(wèn)題,那就是他們必須使用自己的數(shù)據(jù)中心實(shí)時(shí)處理巨大的數(shù)據(jù)量。通過(guò)復(fù)雜的算法,例如Google開(kāi)發(fā)的MapReduce算法,就可以有效地解決這一問(wèn)題。
數(shù)據(jù)分析的結(jié)果
群集分析方法,可以通過(guò)電子郵件提供商的數(shù)據(jù)可視化用戶的社會(huì)關(guān)系。
數(shù)據(jù)銷售
我們的數(shù)據(jù)為什么那么寶貴
有關(guān)疾病的信息,從廣告業(yè)的角度來(lái)看,是最有價(jià)值的信息點(diǎn),因?yàn)樗梢詭椭嚓P(guān)的行業(yè)投放有針對(duì)性的藥品廣告。
我們?nèi)绾伪Wo(hù)自己
對(duì)我們的通信進(jìn)行加密
使用Gpg4win(gpg4win.de/index.html)加密我們?cè)贠utlook、Thunderbird等郵件客戶端處理的郵件。
隱藏我們的IP地址
使用Tor(www.torproject.org)客戶端連接到Tor網(wǎng)絡(luò),我們可以匿名上網(wǎng)沖浪,不留痕跡。
處理好我們的隱私
使用Privacyfix(www.privacyfix.com)檢測(cè)并學(xué)習(xí)如何處理好自己的隱私問(wèn)題。