頭一回在美國上統計課,在國內政府部門做過近10年數據統計工作的涂子沛覺得“眼前一亮”。這一講的內容是統計學的意義。印度裔教授一本正經地對學生們說:“除了上帝,任何人都必須用數據來說話。”
教授的觀點一下子震撼了涂子沛。在他的印象中,數據往往被當成論證工具,更像是一種“證明領導意圖的手段”。但在這里,“數據”似乎有另外的含義。
2007年底,奧巴馬訪問谷歌總部并做了演講:
“人民知道的越多,政府官員才可能更加負責任……我將把聯邦政府的相關數據用通用的格式推上互聯網。我要讓公民可以跟蹤、查詢政府的資金、合同、專門款項和游說人員的信息。”
涂子沛記得,演講在此時被熱烈的掌聲所打斷。
這是涂子沛第一次將“公民權利”這樣的大詞與“數據”聯系起來。也正是從那時起,這個從卡內基·梅隆大學畢業,并已經在一家美國公司就職的數據庫程序員萌生了一個系統的寫作計劃。2012年7月,他的《大數據》一書出版,扉頁上的題記別具一格:“一個真正的信息社會,首先是一個公民社會。”
大數據時代
涂子沛在美國匹茲堡市一家聯邦政府的合同商公司做程序員,每天面對的東西就是數據、代碼以及大大小小的表格。
二十世紀70年代初,涂子沛出生在一個法官家庭。因為從小看父親斷案,他很早就開始思考什么是“正義”這樣的大問題。90年代中期,他進入華中理工大學讀書。學校里有“人文講堂”的講座活動,這個計算機專業的學生是其最忠實的擁躉之一。時任中國人民大學副校長的謝韜也來講過,當時他給涂子沛簽名并留下這樣一句贈語:“要做新世紀國家的建設者。”如今年已不惑的涂子沛仍然保留著這份情懷。當看到“7·21”北京暴雨的新聞后,他連夜寫了一篇介紹美國如何發布氣象災害信息的文章。
“沒有有效的預警,再準確的數據預報也是一個零。”涂子沛介紹,美國國家天氣服務局不僅開通了推特、臉譜等社交媒體賬號,還推出了一個叫做“天氣收音機”的預警產品,一旦發出氣象預警,平時沉默不語的“收音機”會立刻變為“鬧鐘”。
涂子沛慢慢意識到,原來自己一直關心的“公平正義”,竟然與每天朝夕相處的數據有著如此緊密的聯系。
在此之前,和大部分人一樣,涂子沛更愿意從技術層面去關注什么是“大數據”——這是對信息爆炸時代的嶄新描述,它的基本單位是“太”(TB),而1000個“太”則等于一“拍”(PB)。打個直觀的比方,美國國會圖書館是世界上最大的圖書館之一,它所有印刷品的信息量加起來只有15太,而全美國僅在2010年一年的新增數據量就足足有3500拍。
麥肯錫咨詢公司曾做出估測,未來數據仍會以每年50%的速度增長,需要大量擁有“深度分析數據”專長的工作者。涂子沛便是其中之一。他會在自己的專欄中記錄那些數據改變商業的故事:沃爾瑪的研究人員通過數據挖掘,發現四成左右的年輕爸爸在購買嬰兒尿布時會順手買點啤酒犒勞自己,便對這兩種商品進行了捆綁銷售,結果銷售量雙雙增加。更夸張的事例是,一個高中女孩某天突然收到了超市寄來的嬰兒服廣告,其父大為光火,但就在超市公開道歉幾天后,這位父親發現自己的女兒真的懷孕了。原來,超市已經可以通過顧客的食品消費數據做出趨勢判斷。
但當涂子沛開始寫作《大數據》時,商業已經不再重要,他想講述一個數據與正義的故事。
信息之于民主
就如貨幣之于經濟
2009年1月17日,美國新任總統奧巴馬簽署了他的首份總統備忘錄《透明和開放的政府》。
120天后,一個叫做Data.gov的網站正式上線,這是一個數據開放的門戶網站,旨在全面開放美國聯邦政府擁有的數據。
項目的負責人是維偉克·昆德拉——美國歷史上的第一位首席信息官,他說:“這是一場數據民主化的運動,我們正在把信息的力量放到美國人民手中。”
起初,這個數據開放網站有點名不副實,即使包括地理數據在內,這個新生網站也僅僅只有47組數據和27個數據分析工具。要知道,年輕的首席信息官要面對的,“是一種沿襲了上百年的行政文化。面對龐大的公共信息,政府官員的第一反應往往是安全第一、保密為上”。盡管早在建國之初,《獨立宣言》的起草人之一、美國第3任總統托馬斯·杰斐遜就曾說:“信息之于民主,就如貨幣之于經濟。”但事實上,在美國200多年的歷史中,開放政府信息的雄心并不多見。
1789年,美國國會制定了《管家法》,規定了行政機關必須在統一的出版物上公開政務信息,但對于公開的內容,行政長官有自由裁定權。進入二十世紀后,政府規模不斷膨脹,國會先后通過了《聯邦登記法》和《行政程序法》,規定公眾可以向政府提出信息公開的要求,但如果危及公共利益,政府有權拒絕。
簡言之,信息是否公開,還是政府說了算。到了1951年,在當時的冷戰格局下,“保密”之風蔓延一時。
同一時期,哥倫比亞大學的新聞學教授克勞斯對當時的信息管理情況進行了調研,并出版了《人民的知情權》一書。他在書中明確提出:只有擁有信息自由,人民才能真正擁有對公共事務的發言權。后來,這本書被譽為美國信息自由運動的“圣經”。
書出版的那一年,一個叫約翰·摩斯的新任國會議員提出了《信息自由法》草案。摩斯任職25年,經歷了數任總統,然而即使以開明著稱的肯尼迪,也對這個草案避猶不及。約翰遜在聽到這個草案后的第一反應則是:“摩斯想干什么?他想搞砸我這屆政府嗎?”
直到1964年,摩斯的提案才進入辯論階段。那時候的聯邦政府有27個部門,無一例外地在聽證會上大聲反對。
1966年,由于參眾兩院對該法案的支持率都高于2/3,無法動用否決權的總統約翰遜在家中簽署了這份法案。
多年后,被稱為“《信息自由法》之父”的摩斯回顧說:“我們所做的,只是一個開始。那最好的仗,我已經打過。”
Data.gov的出現則為信息公開的發展注入了新的活力。昆德拉在演講中表示,政府數據作為一項公共資源,應該像天氣預報、體育賽事和股票信息一樣實時公開。充滿了挑戰性的新事物同樣引發了聯邦政府各部門頭頭腦腦的憂慮。有人擔心,萬一民間機構根據原始數據分析出的結論與政府不一樣,豈不是“搬起石頭砸自己的腳”?還有人認為,這場面對全世界的數據開放運動,會在不知不覺間讓國家利益受到損害。
但改革并沒有止步。截至2009年底,這個網站收到了社會各界約900項開放數據的申請。聯邦政府最后回復:16%的數據立即開放、26%的將在短期內開放、36%的將計劃開放,還有22%因為國家安全、個人隱私以及技術方面的限制無法開放。
在Data.gov上線發布一周年的時候,聯邦政府開放的數據總數已經達到了27萬項。
因為這些創新型的應用
數據的能量將層層放大
在涂子沛看來,創建Data.gov的價值并不僅僅在于滿足民眾的知情權。
2009年1月,美國聯邦政府跨部門工作組曾將一份報告提供給總統科學技術委員會:一組數據,可能會得到數據收集人難以想像的應用,也可能會在另一個看起來毫不相關的領域得到應用,而因為這些創新型的應用,數據的能量將層層放大。
某種程度上,Data.gov的確掀起了社會創新的浪潮。截至2011年12月,在這個政府主導的數據開放網站上,匯集了1140個應用程序、軟件工具和85個手機插件,其中有近300個應用程序由民間的程序員、公益組織自發開發。
就在Data.gov上線不到一個月的時候,民間的一位程序員便利用美國交通部開放的數據,開發了一個航班延誤的免費查詢系統。如2010年波士頓至紐約的航線情況:
這一年總共有6735次航班,其中62%準點或提前到達,14%有20分鐘以內的延誤,20%有20分鐘以上的延誤,還有4%的航班最終取消。
就“打飛的”而言,出行的時間至關重要。通常星期六有78%的最高準點率,而不幸趕上星期一坐飛機的人則要承受30%的最高延誤率。在一天之內,每天早晨5時到6時起飛的航班有83%的最高準點率,而晚上9時到10時的準點率則低至53%。
當然,這個應用程序最有力度的數據還是所有航班的延誤大排名,“Delta1807”以平均延誤26分鐘成了最不靠譜的航班。
這樣的數據挖掘,直接給那些落后的航空公司敲響了警鐘。
類似的事例并不鮮見。不少人習慣于在購物前,先到Data.gov上查詢該商品是否存在因質量問題而被召回的記錄。而在2010年發生的一起礦難中,網民們通過Data.gov上的煤老板捐款記錄發現,接收款項最多的個人居然是地方上訴法庭的法官。后來,最高法院依此認定這名法官存在“重大偏袒”的可能。
“數據權”是信息時代每一個
公民都應擁有的一項基本權利
推動數據開放運動的國家并不只有美國。
2006年3月,英國《衛報》刊登了一篇名為《把皇冠上的明珠還給我們》的文章,這被視為英國數據開放運動的序幕。
設計了全世界第一個網站的蒂姆·伯納斯·李曾被評選為“最偉大的英國人”。2009年2月,他受邀在TED(技術、娛樂、設計)大會上發表演講。
“你想像不出政府會找出多少個借口來拒絕開放數據。”這一天,一向以內向聞名的伯納斯·李一改往日作風,甚至在講臺上帶領聽眾喊起了口號:
“原始數據,現在就要!”
此后不久,他和時任英國首相的戈登·布朗一同出席一次頒獎典禮。布朗問他:“英國政府應該如何利用互聯網?”伯納斯·李立即回答說:“把政府的數據推上互聯網。”
2010年1月,英國政府的Data.gov.uk正式上線發布,第一天就公布了3000多項民生數據。而卡梅倫出任首相后,更是率先提出了“數據權”的概念,并將其視為信息時代每一個公民都應擁有的一項基本權利。
2011年,這場“美麗的競賽”擴展到了全世界。9月20日,由8個國家發起的“開放政府聯盟”在紐約成立。幾個月后,開放政府聯盟又迅速收到了加拿大、意大利、韓國等42個國家和地區的加盟申請。
這個聯盟里,最引人矚目的國家并非美、英,而是來自非洲大陸的肯尼亞。
2010年8月,肯尼亞通過了新的《憲法》,其中第35條規定:“每一個公民都有權獲得政府擁有的信息……每一個公民都有權修改、刪除(政府保存的)不真實、有誤導傾向的錯誤信息。”
一個真正的信息社會
是一個信息自由流動
而不受操縱的社會
2011年,麥肯錫咨詢公司曾以2010年度各國新增的存儲器為基準,對全世界大數據的分布做了一個調查,結果發現,中國這一年的新增數據量約為250拍,與日本的400拍、歐盟的2000拍和美國的3500拍比,相去甚遠。與此相對應的另一個數據是,中國擁有4.8億互聯網用戶,幾乎是美國的兩倍;擁有近9億部手機,是美國的3倍,而互聯網和手機正是數據的重要來源。
在涂子沛看來,這意味著中國并不缺乏可供收集的數據,而是缺乏收集、挖掘數據的意識。
他回憶起在卡內基·梅隆大學讀書時,有一回師門聚會,大家相約每個人貢獻一個拿手菜。一位來自中國的博士以一道鹵牛肉贏得滿堂彩,但當他公布自己的烹飪配方時,卻令一位美國教授不知所措。原來,這位教授不太能理解“鹽少許”“酒若干”“醋一勺”這樣的表述到底是什么意思。
涂子沛記得,在國內做程序員的時候,要是做一個數據系統供本單位使用,那么上級和下級單位一般都無法登錄這個系統。還有人告訴他,國內有些城市會把環境監測點刻意設在人工湖畔的樹林中或湖中心的亭子里。
這些都讓他想起美國《數據質量法》中的嚴苛規定:任何聯邦政府部門收集的數據,必須無償與其他部門共享。而在發布數據時,必須同時發布一系列的文檔,說明數據的來源、采集的方法以及用戶復制過程當中可能出現的問題和錯誤。
涂子沛把他的這些思考都寫進了書的尾聲,題為“挑戰中國,摘下‘差不多先生’的標簽”。他在文中提到胡適對于中國人“凡事差不多、凡事只講大致如此”的判斷,也引用了史學家黃仁宇認為中國在歷史上缺乏“數目字管理”這種現代治國手段的觀點,說明“數據不是任人打扮的小姑娘,漠視精確就是不尊重事實”。
前不久,國內一位學者針對一項社會調查,得出“科學主義一定會導致嚴重的偏頗,其具體弊端就是迷信數據”的觀點。
涂子沛反駁道:中國社會治理領域的問題恰恰不是數據迷信,相反,現實情況往往是,決策者沒有合理使用數據,同時又受制于錯綜復雜的理念和利益之爭,導致數據意識形態化,在中國缺乏公信力。
他的觀點是,收集數據,使用數據,開放數據,“如果前兩者是文化和習慣,那后者則是一種態度。”涂子沛強調,一個真正的信息社會是一個信息自由流動而不受操縱的社會,這種開放意味著信息與每一個公民之間都是等距的,當然,也意味著公平與正義。