
沃爾瑪?shù)臍v史交易記錄是個非常龐大的數(shù)據(jù)庫,這個數(shù)據(jù)庫不僅記錄了顧客的購物清單,還包括購物籃中的物品、具體購買時間甚至購買當(dāng)日的天氣。2004年,沃爾瑪?shù)膯T工通過對這個數(shù)據(jù)庫的研究,發(fā)現(xiàn)每當(dāng)季節(jié)性颶風(fēng)來臨之前,手電筒的銷量當(dāng)然會增加,但居然蛋撻的銷量也大為增加。因此,颶風(fēng)來臨前,沃爾瑪?shù)膯T工會把庫存的蛋撻放在靠近颶風(fēng)用品的位置,方便行色匆匆的顧客取用,從而賣出了無數(shù)蛋撻。
那么,接著你肯定要問“為什么颶風(fēng)期間待在家里的人最想吃蛋撻”了。事實(shí)上,你需要改變你的想法—在大數(shù)據(jù)時代,愛問“為什么”可不是什么好表現(xiàn)。
因?yàn)椋髷?shù)據(jù)只能告訴你誰和誰有關(guān),卻不能告訴你為什么。這種建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測正是大數(shù)據(jù)的核心。正如亞馬遜最有效的個性化推薦一樣,機(jī)器在梳理了所有數(shù)據(jù)之后,會向購買了海明威作品的顧客推薦菲茨杰拉德的書,沒有人知道海明威和菲茨杰拉德的受眾為何相對一致,但這并不重要,重要的是銷量。如今,據(jù)說亞馬遜銷售額的1/3都來自于它的個性化推薦系統(tǒng)。
當(dāng)你適應(yīng)了大數(shù)據(jù)式的思維方式以后,就能拋棄尋找因果關(guān)系的“假設(shè)—實(shí)驗(yàn)—因?yàn)橄扔屑僭O(shè),可能會有偏見—證實(shí)或者推翻假設(shè)”這樣的麻煩過程,直接尋找相關(guān)關(guān)系,而不再問“為什么”。
維克托·邁爾-舍恩伯格的《大數(shù)據(jù)時代》還講了另一個沒有“為什么”的故事。紐約每年都有很多沙井蓋會因?yàn)閮?nèi)部失火而發(fā)生爆炸—重達(dá)300磅的沙井蓋沖出幾層樓高,非常危險。但紐約的地下電纜就有15萬公里長,光是曼哈頓就有大約51000個沙井蓋和服務(wù)設(shè)施,所以,愛迪生電力公司每年只能對沙井蓋進(jìn)行抽樣檢查和維修。但事實(shí)上,每一個沙井蓋都有爆炸的可能,抽樣檢查并不可靠。
負(fù)責(zé)這個項(xiàng)目的統(tǒng)計(jì)學(xué)家辛西婭·魯丁抱怨,關(guān)于沙井蓋的數(shù)據(jù)庫非常巨大且雜亂,你要從這海量數(shù)據(jù)中找出“為什么沙井蓋會內(nèi)部失火從而爆炸”,這是完全不可能的。
但相比“為什么”,魯丁更關(guān)心“是什么”。她不再尋找原因,而是總結(jié)出了沙井蓋爆炸的106種預(yù)警情況,也就是爆炸的“相關(guān)物”—在沙井蓋爆炸之前,會出現(xiàn)什么情況,然后找到了出現(xiàn)這些情況的沙井蓋。這種做法很有效,在統(tǒng)計(jì)學(xué)家列出的高危沙井蓋中,有將近一半的確發(fā)生了嚴(yán)重的問題。