費文緒/編譯
?
大數據如何產生虛假的信心
費文緒/編譯
● 如果我聲稱美國人最近變得更加以自我為中心,你可能會把我視為一個愛發牢騷愛懷舊的倔老頭,但是如果我說通過分析1 500億個文本詞匯,我能支持這個斷言,你又會怎么看我呢?請看卡耐基梅隆大學計算機科學博士研究生杰西·杜尼艾茨(Jesse Dunietz)的分析。
幾十年前,這種規模的證據只是一個白日夢。而現在,1 500億個數據點實際上已經過時了。一股對“大數據”分析的熱潮席卷了生物學、語言學、金融學以及它們之間的每個領域。
盡管對于如何定義“大數據”尚未達成完全的共識,不過一般的觀點認為,數據集龐大,以致能揭示傳統數據查詢見不到的模式,這就是大數據。數據通常由數百萬現實世界中的用戶行為產生,比如Twitter文章或信用卡購買記錄,需要利用成千上萬臺計算機收集、儲存和分析這些大數據。不過,對很多公司和研究者而言,對大數據的投入是值得的,因為其模式能破譯關于任何事物的信息——從遺傳病到明天的股票價格。
但是有一個問題:人們想當然地以為擁有如此海量的數據作為支撐、依賴于大數據的研究不會出錯。但是,數據量的巨大可能會為研究結果灌注一種虛假的確定性。很多基于大數據的研究很可能是虛假的——而其中的原因應該讓我們對任何盲目相信大數據的研究有所質疑。
在語言和文化研究方面,大數據于2011年大大露臉,當時谷歌推出全球書籍詞頻統計工具Ngrams。在《科學》雜志上大張旗鼓地發布后,Google Ngrams允許用戶在谷歌圖書數據庫中檢索短語 (谷歌掃描的圖書數量大約占到現代印刷術發明以來人類已出版圖書總量的4%),然后看看這些短語出現的頻率是如何隨著時間變化的。這篇論文的作者們預示了“文化組學”(culturomics)的問世——這是一種基于大量數據的文化研究,從那以后,Google Ngrams很大程度上成為了娛樂的無盡源泉,同時也成為語言學家、心理學家和社會學家的金礦。他們遍覽數百萬冊書籍,最終得出一個研究結論,比如說,美國人確實變得越來越個人主義,“我們年復一年越來越快地忘記我們的過去,道德理想正從我們的文化自覺中消失。”
問題開始于Ngrams語料庫建立的方式。去年10月發表的一項研究中,佛蒙特大學的三位研究者指出,總體而言,谷歌書籍數據庫(Google Books)包括了每本書的一個副本。這對它創建的初衷而言非常有意義,那就是把這些書的內容暴露于谷歌強大的搜索技術。但是,從社會學研究的角度而言,這使得語料庫被危險地歪曲了。
更逃避不了的事實是,Ngrams并不是正在出版書籍的一致而均衡的切片。同樣是佛蒙特大學的上述研究表明,在書籍結構的變化中,尤為突出的是從20世紀60年代開始科學文章的顯著增長。所有這些因素都讓我們很難相信,谷歌Ngrams準確反映出詞匯的文化流行度隨著時間的變化。
即便你不考慮數據來源,在解釋上仍然存在很多棘手的問題。的確,像“character”(性格)和“dignity”(尊嚴)這樣的詞匯出現的頻率隨著時間在降低,但是這就意味著人們對道德的關注減少了嗎?不會這么快減少的,伊利諾伊大學厄巴納-香檳分校的英語教授泰德·安德伍德(Ted Underwood)提醒研究者下結論要慎重。20世紀末的道德概念很可能與我們現在的道德概念有很大的不同,他指出,“尊嚴”這個詞可能出于并非道德方面的原因而流行。所以,我們通過把現有的聯系映射到過去所得出的任何結論都是可疑的。
當然,所有這些問題對于統計學家和語言學家而言,都算不上新鮮事。他們天天跟數據和解釋打交道,就像每天吃的面包和黃油,不過,谷歌Ngrams的不同之處在于,純粹的數據會產生一種誘惑,讓我們變得盲目,可能會讓我們誤入歧途。
這種數據的誘惑并不是Ngrams研究所獨有的,類似的錯誤也會損害所有類型的大數據研究項目。比如,我們看看谷歌流感趨勢(GFT)的案例。2008年發布的GFT研究在數以百萬計的谷歌搜索查詢中,統計了諸如“發燒”和“咳嗽”這樣的詞匯出現的頻度,用它們來映射到現在有多少人得了流感。如果采信GFT研究的估計,可能在疾病控制中心 (CDC)從醫生的報告中計算出真實數據之前兩周,公共衛生官員們就會采取行動。
最初,GFT研究結果聲稱具有97%的準確度,但是一項對美國東北大學文獻的研究表明,GFT研究的準確度不過是僥幸。首先,GFT研究完全忽視了2009年春季和夏季爆發的“豬流感”。(原來GFT研究大部分預測的是冬季流感。)其次,該研究體系開始高估了流感案例。實際上,它夸大了2013年流感高峰期的數據,比真實數據夸大了驚人的140%。最后,谷歌只好整體解散GFT研究項目。
那么,到底是哪里出錯了呢?對于Ngrams,人們并沒有認真考慮其數據來源和解釋。數據來源——谷歌搜索,并不是一個靜態的野獸。當谷歌開始自動完成查詢,用戶就開始接受建議的關鍵詞,而扭曲了GFT研究看到的搜索。在解釋方面,GFT研究的工程師們最初讓GFT采用了表面價值的數據,幾乎任何搜索詞都被視為一個潛在的流感指示詞。采用數以百萬計的搜索詞,實際上保證了GFT過度解釋了具有季節性的詞匯,比如“雪”,將其視為流感證據。

我們正在失去希望:上圖是“希望”(hope)這個詞的Ngrams詞頻統計圖,這是xkcd網絡漫畫的創作者蘭德爾·門羅(Randall Munroe)發現的很多有趣的情節之一。如果Ngrams真的反映了我們的文化,那么我們將走向一個黑暗的地方
但是當人們不把大數據視為萬能藥時,大數據就可能起到變革作用。有幾個研究團隊,比如哥倫比亞大學杰弗里·沙曼(Jeffrey Shaman)研究團隊,通過利用疾病控制中心的研究結果彌補GFT研究的偏差,得到了比兩者都更為準確的流感預測。據CDC說,“沙曼的研究團隊對該季節中已經發生的實際的流感疫情測試了他們的模型。”通過把剛剛發生的流感疫情考慮在內,沙曼及其研究團隊精密調校了他們的數學模型,以更好地預測未來的流感疫情。研究團隊們所需做的就是嚴格評估他們對數據的假設。
為了避免我看起來像是谷歌的冤家對頭,我會趕緊補充說,谷歌遠不是唯一的罪魁禍首。我的妻子是一個經濟學家,過去曾為一家公司工作,那家公司搜刮整個互聯網上的招聘信息,然后匯總成統計數據報告給國家勞動機構。這家公司的經理們鼓吹說他們分析了美國80%的工作,但是再一次,數據的數量讓他們變得盲目而誤入歧途。例如,當地的沃爾瑪超市可能會發布一個與銷售相關的職位招聘信息,而實際上它可能想要招聘10個人,或是在招到人以后,讓招聘信息依然掛在網上數周不拿下來。
所以,與其屈服于“大數據的狂妄自大”,剩下的我們還不如保持質疑態度,即便有人拿出數十億的詞頻分析作為結論支撐。
[資料來源:Nautilus][責任編輯:彥 隱]