
在人類歷史上,從來沒有哪個時代出現過如此規模巨大的數據爆炸。如同互聯網初生時的景象,大數據(Big Data)浪潮如今洶涌來襲,已成為在全球范圍啟動透明政府、加速企業創新、引領社會變革的利器。
今年初,美國總統奧巴馬宣布以2 億美元投資大數據領域,美國政府將數據定義為“未來的新石油”。
從各種各樣類型的數據中,快速獲得有價值信息的能力,就是大數據技術。掌握這一技術已經成為一種新的競爭優勢,一類新的經濟資產。之于商業,它就如企業巨輪遠航的一片藍海,而它又不只是企業的“專利”;之于政府,應用好大數據,是構建高效服務型政府的關鍵。
“統計學在最近幾年發展非常快,今后也將更多地應用于社會的各個領域,大數據時代即將來臨。”胡善慶告訴《支點》記者。目前在美國喬治華盛頓大學擔任客座教授的胡善慶,曾于2004 年到2012 年間擔任美國統計局和商務部的高級顧問。
小時候跟隨父母移民美國的胡善慶,對于統計學有著天生愛好。在喬治華盛頓大學取得數理統計學博士學位后,他便進入美國政府部門工作。2000年,他被任命為能源部首任國家申訴專員,此前還曾擔任聯邦農業部民權司副司長,負責管理信息科技以及申訴等事務。如今,身為著名統計學家的胡善慶,同時也是美國“百人會”調研委員會主席。
作為一個快速成長的經濟大國,中國的統計數字也日益受到重視,并對世界具有重大影響力。“我是希望能有機會到中國多走走,增長見識。興趣所在是利用學歷經驗,為社團學術界提供扶助創新機會。”胡善慶說,中國有非常廣闊的大數據應用市場。
以下,是《支點》記者與胡善慶博士的對話。
傳統數據統計模式的終結
《支點》:如今在數據大爆炸時代,傳統的統計方法存在哪些局限性?
胡善慶:上個世紀,各國人口和經濟的測量與推論主要采用的是傳統的普查以及隨機抽樣調查的方式,這兩種數據統計方法對各國政策制定和信息傳遞都是非常重要的。
但就普查而言,雖然過去許多世紀都證明了它的重要性,不過它確實存在一些眾所周知的實際弱點。因為,人類活動是連續和動態的,但普查只能為一個指定的普查日子或短暫時期提供一個比較全面的速映,更多的時間被花費在數據處理、分析及報告結果上。通常普查結果在被宣布時,它們已經過時了。
在中國進行人口調查,其復雜程度難以想象。抽樣數據的獲得需要同31 個省市區、4800 個村莊、4420 個鎮區和2133 個城區中的150 萬人面談才行。
同時,大部分國家,甚至發達國家,都面對嚴格的財政預算限制。現在的高費用、低回收的普查和調查辦法否定了它們新引進或擴張一貫做法的可能性。全球普查和調查反應率下降亦把問題搞得復雜。比如,在美國,盡管多方計劃和努力,其2010年的普查參與率僅僅達到2000 年的74%。到了個人面談的地步,普查平均費用升到每戶56 美元,超過最初的郵寄費用的100 倍。
在數據大爆炸時代,國家統計局面對的真實挑戰是令人畏懼的,20 世紀的統計系統不能滿足21世紀的需求。應用政府統計的網民正在快速地在數字和廣度方面增加。他們需要更廣泛、更動態、更及時的數據,并能容易地存取和了解,但現有方法必需的資源和時間都不可得或不能負擔。
《支點》:與之前相比,21 世紀的統計系統發生了怎樣的變化?“大數據”對政府工作和企業生產帶來了哪些改變?
胡善慶:根據南加州大學的一項研究,世界電子儲藏數量在2002 年第一次超越了非電子儲藏數量。在2007 年,地球上至少94% 的所有資訊都以電子形式儲藏。于是,數據可以沒有抽取樣品的需要或考慮,可將其完整地電子化直接輸入機器處理和計算。
電子儲藏的快速發展也帶來了21 世紀統計系統和方法的改變,縱向數據的研究成為可能。所謂縱向數據,是對同一單位( 例如一個工人、一位學生、一個家庭、一門生意、一所學校或一座醫院) 在時間上重復觀察所得的數據。它能在個體水平提供獨特的底線和變化計量。
大數據是一個有關非常大量電子數據的新用詞,它很可能不是根據傳統統計系統的結構和概率原則而進行收集的。行政記錄、社會媒體、條碼和電波掃描儀、運輸感應器、能源和環境監視器、在線交易、流影像和人造衛星圖像,這些都是大數據來源和爆發生長的因素。
私營企業在生產大數據已領先起步,組合政府的統計,發展數據挖掘技術和方法來識別潛在的消費者、擴張市場、測試新產品、并抽取新訊息以作其他市場及客戶研究。有些情況下,他們甚至可向傳統的政府功能挑戰。例如,一些社會媒體搜索的言詞被用來做感冒的指標,它的表現不比公共衛生機關的指標差,在及時方面也更勝一籌。
盡管政府統計在大數據汪洋中的分量逐漸減少,但它仍然擁有其支持全球化的經濟體制及解決不斷擴張的社會需求的獨特重要。然而,當我們活在可以數秒鐘內上網搜索展示百萬計的結果和國際股票市場日夜即時報道成交數據的時代,要等多月甚至多年才可收集、處理、發放在地理、企業與人口都有限制的靜態結果將失去它的意義。
大數據改變國家管理方式
《支點》:在大數據應用方面,國外有哪些成功的先例?
胡善慶:一些國家已開始建造有關就業、教育和公共衛生的公眾縱向數據計劃。這些計劃雖在不同的發展階段,但提供了在大數據時代建造和維持廣泛、詳細動態統計系統是可行的令人鼓舞消息,雖然它們仍然有許多挑戰存在。
在美國,聯邦政府已經和所有54 個州、直轄市和地區政府簽訂協議,保障每州每季不斷提供工人和雇主的失業保險記錄。這個數據系統是設計來跟蹤和每三個月更新超過1.4 億工人的就業狀態與薪資,和超過1000 萬雇主( 包括自我雇用的) 的狀態,同時仍然繼續嚴格地利用法律、政策、隔離、技術各種方法保護每一個工人和雇主的隱私。
這個縱向數據系統已經成功地鼓勵建造創新、實際的在線應用來推進新數據的使用, 例如時間序列指標用前所未有的人口和地理細節來描述美國勞動人口的動態變化。
在比利時,2011 年發起了一項“比利時縱向健康資訊系統計劃”,把有關健康數據定義為“所有個人資料有關過去、現在及未來的身體及精神健康情況”。研究重心集中在健康的縱觀并參考其他國際計劃包括加拿大、丹麥和英國。
《支點》:國外在大數據的應用方面存在哪些問題,對我們有哪些啟示?
胡善慶:舉例來說,美國人口普查局和勞工統計局維持二個分隔的商務登記系統。每個登記系統應該包括所有美國企業,因為它們都是框架用來替普查和調查抽取樣本,構成包括國家經濟指標的重要信息。然而,由于他們的獨立來源和自然的動態,這二個登記系統在公司數字和他們的薪資賬冊和就業人口有可觀的出入。雖然過去十年有進步,但一個來源的商務登記系統還沒有在美國浮現。
白宮在2012 年3 月宣布“大數據研究和發展計劃”開始,提供2 億美元新的研究和發展投資,改進從龐大、復雜的電子數據中提取知識和洞察力的能力。因此聯邦政府繼續努力把大數據引導集中到美國各個統計局內。世界各國包括中國亦需要同樣的高層政府資金、承諾和領導,特別是有關數據透明與公開的政策。
同時,大數據時代的隱私也變得異常敏感和重要。組集和維持廣泛、動態的統計系統需要大量的敏感個人的和商務數據。然而,以統計摘要的形式分析結果,又必須消除任何暴露個人和企業身份的可能性。個人和企業理所當然地應該關心和了解他們的隱私是如何受到保護,并絕對防止無意誤用或惡意濫用他們的數據。數據安全亦要有最嚴格的保護,防止任何對系統數據及發布統計的干預和變更。
中國有非常廣闊的大數據應用市場
支點:對于近期中國關于大數據議題的爆發性熱議,您怎么看?
胡善慶:其實中國關于大數據的應用也早有先例。中國自2009 年開始進行公共衛生健康改革,它的基本體系包括建造一個含13 億民眾的縱向電子健康記錄系統。據報道,它的主要政策已經成立,基本記錄內容正準備起步。
值得注意的一個案例,是阿里巴巴集團付出的研究努力,它每天有數以百萬計的公司使用它的網站和數以十億元計的電子商務交易,這些海量數據能夠幫助阿里巴巴對商業市場進行多維度的分析和預測。
中國對頂端質量統計的需要少不了大數據的參與。中國第十二個五年計劃的許多主要目標都是以數量定義。當中國正在從一個出口國家轉型到一個消費型國家,每個目標的狀態和進展都要被可信、可靠和及時的統計量和指標測量評估。
當中國經濟成長最近降溫,了解最新趨勢和幫助中途更正或改航都需要深入的數據。中國崛起成為經濟大國,它的統計量和指標對全球經濟有巨大影響。諺語有說,中國打噴嚏,其他國家都感冒了。
《支點》:如何看待大數據未來的應用前景?
胡善慶:大數據不只是反映現代科技進步對改善統計計算的需求,它是向傳統統計專業的一場挑戰,并要鼓舞創新思維和發展的一場大革命,這相似于隨機抽樣方法在1895 年被介紹時那樣。
使用大數據革命性和創新性地建造21 世紀的統計系統需要跨學科的專業知識,包括統計學、計算機科學、地理學和經濟、教育、能源、環境、醫療和運輸等專業。學術界具有培育未來的“數據科學家”、并發展理論支持的重任。
它也需要學者民眾和私企的合作。如有適當分享數據意愿,私營企業會是21 世紀統計系統的數據主要供應商之一。在美國,麻省理工學院和多家私營企業最近在某些領域的合作,共同朝這個方向走出了第一