大數據:還是大錯誤?

五年前,谷歌的一個研究小組在全球頂級的科學雜志《自然》上宣布了一個令人矚目的成果。該小組可以追蹤美國境內流感的傳播趨勢,而這一結果不依賴于任何醫療檢查。他們的追蹤速度甚至比美國疾控中心(CDC)要快得多。谷歌的追蹤結果只有一天的延時,而CDC則需要匯總大量醫師的診斷結果才能得到一張傳播趨勢圖,延時超過一周。谷歌能算得這么快,是因為他們發現當人們出現流感癥狀的時候,往往會跑到網絡上搜索一些相關的內容。
“谷歌流感趨勢”不僅快捷、準確、成本低廉,而且沒有使用什么理論。谷歌流感趨勢的成功,很快就成為了商業、技術和科學領域中最新趨勢的象征。興奮的媒體記者們不停地在問,谷歌給我們帶來了什么新的科技?
然而在“大數據”里,大多數公司感興趣的是所謂的“現實數據”,諸如網頁搜索記錄、信用卡消費記錄和移動電話與附近基站的通信記錄等。谷歌流感趨勢就是基于這樣的現實數據。甚至這類數據比對撞機的數據規模還要大(如Facebook),更重要的是雖然這類數據的規模很大,但卻相對容易采集。它們往往是由于不同的用途被搜集起來并雜亂地堆積在一起,而且可以實時地更新。人們的通信、娛樂以及商務活動都已經轉移到互聯網上,互聯網也已經進入我們的手機、汽車甚至是眼鏡。因此人們的整個生活都可以被記錄和數字化,這些在十年前都是無法想象的。
大數據的鼓吹者們提出了4個令人興奮的論斷,每一個都能從谷歌流感趨勢的成功中印證: 第一,數據分析可以生成驚人準確的結果;第二,因為每一個數據點都可以被捕捉到,所以可以徹底淘汰過去那種抽樣統計的方法;第三,不用再尋找現象背后的原因,我們只需要知道兩者之間有統計相關性就行了;第四, 不再需要科學的或者統計的模型。
不幸的是,上述信條都是極端樂觀和過于簡化了。在谷歌、Facebook和亞馬遜這些公司不斷通過人們所產生的數據來理解我們生活的過程中,現實數據支撐起了新互聯網經濟。愛德華·斯諾登揭露了美國政府數據監聽的規模和范圍,很顯然安全部門同樣癡迷從我們的日常數據中挖掘點什么東西出來。
雖然大數據在科學家、企業家和政府眼里看起來充滿希望,但如果忽略了一些以前所熟知的統計學中的教訓,大數據可能注定會讓我們失望。 劍橋大學Spiegelhalter教授曾說到:“大數據中有大量的小數據問題。這些問題不會隨著數據量的增大而消失,它們只會更加突出。”
在那篇關于谷歌流感趨勢預測的文章發表4年以后,新的一期《自然雜志消息》報道了一則壞消息:在最近的一次流感爆發中谷歌流感趨勢不起作用了。這個工具曾經可靠地運作了十幾個冬天,在海量數據分析和不需要理論模型的條件下提供了快速和準確的流感爆發趨勢。然而這一次它迷路了,谷歌的模型顯示這一次的流感爆發非常嚴重,疾控中心在慢慢匯總各地數據以后,卻發現谷歌的預測結果比實際情況夸大了幾乎一倍。
這種不需要任何理論的純粹的相關性分析方法,其結果難免是脆弱的。谷歌將使用新的數據再次校準流感趨勢這個產品,重新來過。
我們再回頭來看看大數據的4個基礎信條。其一,如果簡單地忽略掉那些反面的數據,比如Target的懷孕預測算法,那么很容易就會過高地估計算法的精確度。其二,如果在一個固定不變的環境里做預測,可以認為因果關系不再重要。而當我們處在一個變化的世界中,或者是我們自己就想要改變這個環境,這種想法就很危險了。其三,“N=所有”,以及采樣偏差無關緊要,這些前提在絕大多數的實際情況下都是不成立的。最后,當數據里的假象遠遠超過真相的時候,還持有“數據足夠大的時候,就可以自己說出結論了”這種觀點就顯得太過天真。
大數據已經到來,但它并沒有帶來新的真理。現在的挑戰是要吸取統計學中老的教訓,在比以前大得多的數據規模下去解決新的問題、獲取新的答案。
(來源:FT Magazine 編譯:紀元)