陳一帆/編譯

戈登·摩爾(Gordon Moore,上圖)有一個新的信念,他認為大數據終將造就大科學。戈登-貝蒂·摩爾基金會計劃對15位科學家給予150萬美元的津貼(每年20萬美元至30萬美元分期發放)。基金會對這15位科學家的期望是有能力對新算法、機器學習的方法,以及其他數據密集型科學技巧進行跨學科的開發和使用,能把巨大數據量變成驚人的科學發現。根據基金會的說法,這“可能是對那些推動數據驅動以及用統計和計算機科學等多學科交叉的新方法,研究自然科學前沿的科學家的最大私人投資了”。
摩爾的基金會似乎認為,現如今已經有足夠多的數據了,或者正在產生足夠多的數據,這些數據足以取得重大的發現。所以他們覺得,這筆新注入的津貼不應用于構建大型設備或運行實驗獲得新的數據組,而是應該花費在新的分析方式的研究上。
基金會的想法可能是正確的。像美國的“腦計劃”這樣的大項目或是歐洲的大型強子對撞機這樣的大儀器已經生成了超出科學家可以運用的更多數據。最能說明問題的例子就是在遺傳學里,基因組測序的成本下降了如此之多,下降得如此之快,而分析的進度卻遠遠落后于數據的生成,所謂科學被淹沒在了大數據里。
海量數據泛濫問題在十年前已經很明顯了。那時網絡先鋒John Hopfield就告訴《IEEE綜覽》,他已經感覺到了盡管科學家們追求新數據是解決問題相對簡單的方式,但深入探究現有數據的內在信息才會避免數據泛濫的問題。他向神經網絡的愛好者們發起了挑戰,他和一個同事聯合起來,只用一個小數據集去弄清楚虛擬鼠標的作業區(事實上是一個模擬神經元的集合)。雖然比賽是贏了,但這也不能消減人們對單純收集更多數據的熱情。
當然有趣新鮮的科學數據源也是非常重要的,而且這些數據的生成甚至可能不需要先進的新儀器。所謂公眾科學,也就是我們普通人作為環境、地理空間、醫療的傳感器,或遠程科研設備的訪問終端,它已經發展了許多年。公眾科學也造就了一些了不起的成果,比如做出日本福島核泄漏事故后輻射地圖這樣的的事情。
但摩爾對那些善于采集大量數據的科學家慷慨資助也可能是非常有益的事,他們甚至能夠促生比收集器期望還要多的數據。數據密集型科學總有其生存之道。此外,《哈佛商業評論》認為數據科學家們是性感的,所以獲得基金會資助的科學家們將會兼具性感和財富。