安替
現(xiàn)在,上到高官,下到推銷員,左一句“新媒體”,右一句“大數(shù)據(jù)”,預示著從美國傳來的“大數(shù)據(jù)”浪潮也會和微博一樣,很快就要進入中國的主流話語。既然從美國的推特(Twitter)到中國的微博,有太多重大變化,那么“大數(shù)據(jù)”這樣的美國產物,在進入中國之后,會發(fā)生什么樣的嬗變?
要理解大數(shù)據(jù)浪潮,有兩個樣板。一個是幻想項目,美國正在熱播的電視連續(xù)劇《疑犯追蹤》(Person of Interest),講述了美國國安局有一臺記錄全球監(jiān)控畫面和通訊信息的大“機器”,能根據(jù)擁有的海量數(shù)據(jù)預測犯罪相關人。另一個是現(xiàn)實工程,奧巴馬兩次大選的成功,就是背后科技團隊對大數(shù)據(jù)的挖掘和整理,所以能得出和主流媒體不同但更準確的預測。大數(shù)據(jù)的魔力就在于,它能預測未來,掌握這樣的未來信息,就能控制商業(yè)和政治。
但無論是幻想的“機器”還是奧巴馬大選團隊,大數(shù)據(jù)魔術得以實現(xiàn)的關鍵是,這些數(shù)據(jù)是基本準確和真實的。幻想的美國國安局“機器”收集的是監(jiān)控視頻、電話記錄、銀行轉賬、稅單、網絡言論,如果要準確預測出一個行為不合理的反社會人物,這些數(shù)據(jù)必須真實可靠。而大選大數(shù)據(jù)戰(zhàn)略,更是完全要依賴包含選民具體信息所謂“電話銀行”的準確性。因此,在催票過程中,兩黨選舉團隊和盟友,必須派出海量的志愿者,挨家挨戶在選區(qū)敲門(Canvass),除了提高投票率,更重要的是更正“電話銀行”住戶各類信息的錯誤。筆者前年11月就在弗吉尼亞州一個選區(qū)參與了這種Canvass活動,親身感受到“大數(shù)據(jù)”背后是繁重的確認工作。
當大數(shù)據(jù)引入中國時,立刻會遇到數(shù)據(jù)的中國陷阱——失真。美國著名統(tǒng)計學者、《紐約時報》博主Nate Silver利用各州民調數(shù)據(jù),得出奧巴馬會大幅度贏得第二次大選的預測,擊敗蓋洛普全國民調,但想想他如果用的是中國各省民調,能得出什么樣的結論?在中國做有關社科方面的研究,第一要則就是別相信任何現(xiàn)成的調查數(shù)據(jù),必須想辦法親自動手另起爐灶。很難想象,依賴各種編造、浮夸、以應付為前提的“大數(shù)據(jù)”,這項技術在美國會達到正面的戰(zhàn)略效果。
數(shù)據(jù)失真的背后必有深刻的政治社會原因。在數(shù)據(jù)收集方面,必須有最基本的隱私保護、言論保護和人權保護制度,公民才敢于向有關機構公布個人信息,已發(fā)表的信息才可長久存在。另外,政府也按照法律公開各種信息,以回報公民對政府的信任,減少公民因隱私被獲取而產生的恐懼感。這在各種觀點性數(shù)據(jù)的收集方面尤為重要。目前各種基于社會媒體的輿論分析,在很多方面是個笑話:因為各種原因刪帖,或經大力“引導”后的“輿論”分析,能當真嗎?這就是過去幾年大部分對微博的數(shù)量分析都不能看的原因,逼得哈佛教授Gary King需要自己建一個社交網站才能獲得真實數(shù)據(jù)。
目前在中國有前途的大數(shù)據(jù)分析,大多是對商業(yè)行為的分析,因為數(shù)據(jù)來自真實的購買記錄,失實率低。但這種分析無外乎就是數(shù)據(jù)庫運算加一部分的外來數(shù)據(jù)挖掘,與我們所說的“大數(shù)據(jù)”的功能與意義相去甚遠。
即便解決了收集數(shù)據(jù)的真實性問題——比如直接調用服務器,進行更加深度的挖掘和人工確認等等,中國大數(shù)據(jù)的發(fā)展也會遇到另一個問題:大數(shù)據(jù)得出的結論,是自下而上的,這和中國普遍的自上而下決策過程相沖突。大數(shù)據(jù)其實是決策微民主化過程:重大決策必須參考甚至取決于每個個體決策的總和趨勢,如果只講“頂層設計”,一定會水土不服。
這樣的數(shù)據(jù)決策民主是不是有缺點,那是另外一個問題。例如喬布斯的Apple和iPhone,可不是從任何數(shù)據(jù)得出的決策,他的做法甚至是反數(shù)據(jù)決策民主的。如果真的要實施大數(shù)據(jù)戰(zhàn)略,必然包含著決策民主化的過程。
在這種情況下,除了純粹商業(yè)大數(shù)據(jù)分析,任何結論需要提交給非商業(yè)的決策者,就會出現(xiàn)一個典型的中國問題:調查報告如果不符合領導思路怎么會存在?本身是展現(xiàn)技術獨立決策魔力的大數(shù)據(jù),在中國,很容易會淪為“大忽悠”,為了領導和客戶的喜愛,而故意修改數(shù)據(jù)模型甚至結論本身。
“大數(shù)據(jù)”其實是公開社會條件下數(shù)字化治理的決策智能版,而中國的數(shù)字化治理也只有在一些已經或者努力在海外上市的公司,才在西方大環(huán)境的壓力之下被迫實現(xiàn)。因此,幾乎成為“機器神祇”的美國大數(shù)據(jù),進入中國之后,也只能強化商業(yè)購買上的預測力,卻很難發(fā)揮其社會魔力。
(摘自《財新新世紀周刊》)endprint