鄭渝川

一提到大數據,很多人就會想到谷歌的“流感趨勢”預測系統。2008年起,谷歌就在監控跟流感相關的搜索項,這一項目由數據驅動,最終成為一項效率上遠超美國官方衛生部門及醫療行業監控效能的公共衛生預警系統。
然而,2012—2013年的流感高發期,谷歌的預測系統,準確性卻發生了下滑,預測數據稱11%的美國人將在高峰期患上流感,實際情況卻只有6%。這樣的誤判并非個例。
谷歌的流感趨勢系統經常被看做是大數據方法獲得勝利的證據。誤判的存在,卻也說明,依托于對實時數據及其相關性的算法進行識別分析,很可能遺漏語境,產生高估或低估。流感趨勢系統曾被證明其預測準確,贏得公共衛生部門及醫療行業的信任。如果這種信任延續,公共衛生部門顯然會根據大數據預測調撥應急物資,通知企業生產疫苗,并適時啟動應急預案——這種情況下,要是出現誤判,不僅會造成資源浪費,還可能因資源錯配使得疫病傳播等緊急情況變得更為突出。
金融行業更早引入數據挖掘分析的理念和工具,甚至因此形成對數據分析及預測的盲目崇拜。2008年美國金融危機及之后引發的歐債危機表明,數據分析不能僅僅依托于相關性分析。金融行業、商業領域,戰略與政策制定既需要積極借助數據挖掘分析來提高精準度,同樣也需要融合反映因果關系的理論、假設、觀念。而這本身正是大數據時代需要進一步深化提升的重要目標。
普利策獎獲獎團隊成員史蒂夫·洛爾所著的《大數據主義》,向讀者展現了一幅仍在野蠻生長、不斷優化完善的大數據進化圖景。很多人可能因為大數據已經體現的分析威力和應用效益,而忽略大數據的發展與應用。大數據的未來應用前景、理論上應當實現的作用,目前還沒有得到比較完美的積極呈現,包括數據科學家在內的各界學者、企業家、公司人、消費者,都還在路上。
《大數據主義》這本書不同于之前以大數據為主題的許多商業暢銷書,作者為了說明大數據的演進特點,選取了大數據主義思想的典型代表、雅虎的前數據工程師杰夫·哈梅巴赫,以及數據時代最為成功的標桿企業之一的IBM公司,分別以這樣一個數據科學家和數據企業為樣本,深入介紹了大數據時代是如何隨著數據理念、技術和方法的不斷發展而前進。作者并不諱言在大數據時代的各階段,數據理念、技術和方法都存在相應的局限性甚至缺陷,包括在起步階段早期對相關性、可測量性的過度推崇,但強調數據科學具有很強的開放性,將積極融合其他學科領域的成果,增強對于醫藥、能源、農藥等行業運作情況的把握。
大數據主義的基本內核,是要求猜測和基于經驗的推理,服從于基于數據分析的科學判斷。這并不是說經驗與直覺就毫無意義,事實上,“好的直覺其實就是大量數據的綜合,只不過這些數據難以量化為數字罷了”。大數據時代的演進,通過計量與數據水平的提升,人類的直覺與經驗不僅有望更為清晰的具象化,轉化為數據,而且還能反過來為科學、藝術、醫學及其他方面的擁有豐富經驗、良好直覺的天才進一步提高自己的判斷能力服務。
借助大數據,更多企業和公共部門將原本雜亂無章的信息,梳理得井然有序,為構建人類行為模型提供助力,依據各方面翔實準確的數據,算法可以精確量化人的性格特征,精準預測人的行為不再只是空想。當然,這也因此引發倫理爭議,人們擔憂受到更多操縱,會因為隱私的更多外泄遭遇更多風險。
(《大數據主義》, [美]史蒂夫·洛爾 著,中信出版社2015年9月版)
新書推薦
《胡耀邦文選》
中共中央文獻編輯委員會 編
人民出版社
2015年11月版
這部文選,收入了胡耀邦同志1952年5月至1986年10月這段時間內的重要著作77篇,約49萬字,包括文章、講話、報告、談話、批示、書信、題詞等,相當一部分是第一次公開發表。
《頹廢與沉默:透視犬儒文化》
徐 賁 著
東方出版社
2015年7月版
犬儒原指古希臘犬儒學派的哲學家。他們提出絕對的個人精神自由,輕視一切社會虛套、習俗和文化規范,過著禁欲的簡陋生活,被當時人譏為窮犬,故稱。后亦泛指具有這些特點的人。面對中國現階段知識分子的犬儒心態、社會的犬儒主義狀態,作者針砭時弊,鼓勵人們思考和反思,共同尋求解救之道。
《宮崎市定中國史》
[日]宮崎市定 著
浙江人民出版社
2015年11月版
日本歷史學家、漢學家宮崎市定畢生致力于中國史的研究與教學。本書是他積40年研究與教學經驗、面向普通讀者的結晶之作,以世界史眼光和社會經濟史視角把精致的實證研究與大氣恢弘的通史敘述緊密結合,集中體現了他的研究成果和特色。
《權力與選擇:政治科學導論》
[美]W.菲利普斯·夏夫利 著
世界圖書出版公司·后浪出版公司
2015年9月版
本書最大的特點在于,從“權力”與“選擇”兩個角度來剖析解讀政治,通過這條主線,將零碎的知識組合成完備的政治學體系。作者從政治的概念、國家與公共政策、公民與政體、國家機器、國際政治這五方面入手,引導讀者全面詳盡地理解政治學的知識領域。