劉興遠
(江蘇省統計局,江蘇 南京 210013)
美國有諺云:除了上帝,任何人都必須用數據說話。對肩負著向社會發布和傳播數據使命的政府統計部門而言,數據就是重要資源和“說話”的資本。面對滾滾而來的大數據浪潮,正視大數據帶來的挑戰和沖擊,利用大數據所提供的全新理念和思考方式,挖掘價值堪比黃金、石油和貨幣的龐大數據資源,藉以改進和完善既有官方數據發布模式,對提升統計工作價值無疑具有重大意義。
隨著大數據時代的到來,無處不在的信息感知和采集終端為我們積累了海量數據,一個更加開放、便捷的社會正在形成。在大數據改變人們生活和思維方式的同時,政府統計數據發布所處的環境也正悄然發生歷史性變化。
1.社會公眾獲取數據信息的來源呈現多樣化。大數據時代,互聯網文本和文件、搜索、移動電話、微博、微信和電商每天都產生海量的數據。美國互聯網數據中心指出,互聯網上的數據每年將增長50%,每兩年翻一番。IDC和EMC估計,到2020年的數字世界將擁有40ZB的容量,是全世界所有海灘全部沙粒數的57倍。有資料表明,1秒鐘內,互聯網產生的數據量比20年前整個互聯網儲存的數據還多;1分鐘內,微博、Twitter上新發布的數據量超過10萬,社交網站Facebook的瀏覽量超過600萬;1天內,百度要處理幾十PB數據??梢哉f,大數據的應用已經滲透到人們的日常生活和工作中。如阿里研究中心基于淘寶和天貓銷售平臺匯聚和即時產生的海量網絡零售價格信息,采用鏈式加權指數法計算的網絡零售價格指數(ISPI),2010年以來的數據走勢與官方CPI環比指數呈現出聯動關系。這表明,一方面在大數據時代政府統計部門不再是唯一的數據擁有者,也不是唯一的發布者和傳播者;另一方面,人們獲取公共信息的渠道可以并能夠越來越多樣化,不必再過分依賴政府部門發布的統計數據信息,從而對政府統計數據發布形成“擠出效應”。
2.人們的主觀感受與官方統計之間存在差異化。大數據時代,是一個人們在不知不覺間被數據裹挾和深陷其中的時代。每個人都是數據的創造者和傳播者,每個人也是數據的接收者和分享者。IDC指出,個人在日常生活中的“數字足跡”大大刺激了數字宇宙的快速增長。通過手機、電腦、數字電視、智能電視、傳感器、衛星定位系統等終端設備,每個人的日常生活都在被數字化,海量數據由此源源不斷地產生。數據增長催生了新的數據處理技術和應用,繼而又產生了新數據的積累和存儲,如此周而復始迭代發展,形成了令人嘆為觀止的大數據浪潮。但正如《大數據時代》作者維克托·邁爾-舍恩伯格所說,大數據往往是凌亂和質量參差不齊的。數據價值密度的高低與數據總量的大小往往成反比。例如,一部數小時連續不間斷的視頻監控過程中,可能有用的數據僅僅只有數秒。而一般的數據使用者,不可能通過采用強大的機器算法來迅速地完成數據的價值“提純”,無法辨別出數據的“噪音”,同時自身也不斷制造著數據的碎片化、歧義化。近年來,社會上對官方數據的質疑,諸如收入“被增長”、CPI“被下降”等,主要就緣于老百姓的主觀感受與官方統計數據之間的差異,這一差異再在大數據環境下被不斷放大、拉伸,客觀上影響了政府統計數據發布的權威性。
3.民眾要求政府公開數據信息的訴求日趨復雜化。大數據時代,各類數據載體為公眾參與開辟了新路徑,民眾要求政府公開信息的訴求也愈發強烈,并且隨著利益主體多元化格局的形成,不同社會階層與利益群體對官方統計數據發布的形式、內容、數量等各有不同。這種新變化,要求政府部門必須打造大數據的公共平臺,掌握群眾心理、熟悉群眾語言,在采集分析數據后及時、有針對性的公開數據,讓公民可以看到并共享,以保障公民行使自己的知情權、監督權。2009年1月17日,新任美國總統奧巴馬主持內閣的宣誓儀式并發表講話:“為了引領一個開放政府的新時代,面對信息,政府機關的第一反應必須是公開。這意味著我們必須堅定地公開信息,而不是等待公眾查詢。所有的政府機關都應該利用最新的技術推進信息公開,這種公開,應該是及時的”。同一天,奧巴馬用標志性的左手姿勢伏案簽署了首份總統備忘案《透明和開放的政府》。120天后,一個數據開放的門戶網站Data.gov正式上線發布,旨在全面開放美國政府擁有的數據。歐盟和歐洲各國的立法也在向這個方向推進,如荷蘭,除了涉及國家安全和個人隱私的公共信息外,大部分信息都已經實現了公開。“大數據”成為政府信息公開的動力源,也對官方數據發布構成現實挑戰。
大數據環境下,官方統計數據發布面臨著用戶的新需求劇增、現行統計發布體系不夠完善、統計數據發布的效用度有待提高等諸多挑戰。具體而言,“大數據”對官方統計數據發布方式、內容和頻率及時效都形成強力沖擊。
現行的官方統計數據發布形式主要有三種:一是對于能夠集中統一公布的統計數據一般通過新聞發布會在第一時間公布;二是對于未納入新聞發布會的進度統計數據,按照統計數據發布日程表在官方網站上發布;三是相對全面和完整的統計數據,一般通過統計公報、統計年鑒公布。發布手段主要借助文字和數據表格進行。這些相對固定的數據發布形式和手段既必要也有效,但放在大數據環境下觀察,這種發布方式和手段就顯得相對刻板單調,可讀性、可視性、交互性和生動性較差。大數據時代,人們制造、獲取和復制的所有1和0組成了數字世界,引致數字世界急劇膨脹。與此相適應,在揚棄傳統的發布方式基礎上,利用現代信息技術改進數據發布方式和手段,用更加自然、可變的方式發布信息,就顯得十分緊迫。荷蘭統計局利用Google Map、Google Earth等手段,以地圖的形式進行地理數據的網絡發布,可以直觀地看到荷蘭的地理情況。國家統計局充分意識到現代信息技術在數據發布中的重要性,近年來通過打造和擴展國家數據庫、開發數據查詢客戶端、建立統計官方微信平臺、創建網絡溝通交流平臺等舉措,正在更快捷、更方便地向用戶提供各類統計信息。
大數據環境下,人們會更加關注有獨特視角的官方數據新聞,以及對數據內容的全面精準的解讀。一是人們對微觀數據的關注度將高于宏觀數據。不斷產生的海量數據越來越影響企業生產、居民生活的各個方面,企業正確利用大數據,洞察出大數據蘊藏的商業價值,能夠改善其業務計劃,更好地開發新產品、服務和業務模式;居民家庭正確利用大數據,能夠更好地進行理性消費,改善其投資方向。因此,政府統計部門發布的GDP、規上工業增加值、投資、消費、CPI等宏觀上的數據就可能滿足不了公眾的需求,受眾的興趣度就可能會降低。二是人們對個性化數據的關注度將高于總體數據。大數據時代和以前工業革命不同的是,其特征是個性化的。目前,官方發布的統計數據以總體數據和基礎性分類數據為主,個性化、細化詳盡的數據偏少。三是人們既關注結構化數據也關注非結構化數據。大數據既包括結構化數據,也包括非結構化數據,并且目前95%以上的數字信息都是非結構性數據。如何超越傳統的數據分析方法,對文字、圖表、圖片、視頻等半結構化或非結構化數據進行深度挖掘,生產出高質量的統計數據產品為公眾服務,成為政府統計部門必須研究解決的新課題。
大數據區分于傳統數據最顯著的特征之一,就是數據存入系統、進行處理的速度非常之快。由于數據源增加,數據通訊的吞吐量提高,數據設備的計算能力增強,使得大數據生成的規模和速度異常驚人。大數據的即時性特點,對傳統統計發布數據的時效性和頻率提出了挑戰,官方發布的權威性、公允性等功能將被削弱甚至替代。新媒體的誕生帶來了“時空壓縮”現象,人們對于數據事件的關注不再以年月日計算,而是開始以時分秒計算,同時空間概念上的阻隔也被破除,數據傳播的無界性凸顯,“事后發布”模式顯然不能適應大數據時代的要求。而政府統計充分利用大數據挖掘技術,從大量結構化和非結構化數據中獲取有價值的信息,并努力發現數據中所隱含的現象和規律,則能夠有效提高統計數據發布的時效性。提高官方數據發布的時效性還在于信息技術的進步讓現代社會輿論的形成機制、傳播機制發生了深刻變化,社會開始進入“傳媒聚光燈和大眾麥克風”時代,越來越多元化的新媒體為人們提供了更多、更便利的發聲管道,各種真假莫測、虛實難辨、泥沙俱下的信息快速自由流動,這也對官方統計的輿論引導能力提出了新的挑戰。
“得數據者得天下”。毋庸置疑,大數據時代在給官方統計數據發布帶來挑戰的同時也帶來了契機。在大數據生態系統中,政府統計既是數據采集者、匯總者,也是使用者、消費者,積極利用大數據杠桿撬動統計發展新支點,將成為提升統計價值的利器。這是政府統計在擁抱大數據、與大數據共舞中,樹立大數據的理念、思維和意識,改進和完善官方統計數據發布的邏輯起點與基本要求。
數據倉庫是一個面向主題的、集成的、不可更新的(穩定性)、隨時間不斷變化的數據集合,是數據挖掘技術的關鍵,也是改進數據發布的重要前提。政府統計部門生產的數據是典型的大數據,它不僅表現在數量上的“大”,而且同樣具有大數據意義上的“4V”特性。建設統計數據倉庫,以現有統計業務系統和大量業務數據的積累為基礎,整合來自于不同部門的數據源、各種結構化和非結構化數據,有利于支持統計決策分析處理,探索數據背后潛在的價值。同時,把這些數據加以整理歸納、重組和使用,有針對性地開發各類公共服務產品(如黨政領導數據查詢系統),并及時提供給有特定需求的統計用戶,有助于改善政府決策和企業業務經營。整個統計數據倉庫系統由數據源(包括統計系統內部數據信息和外部數據信息)、數據的存儲與管理、服務器、前端工具等四個層次的體系組成。建設數據倉庫,由傳統的簡單計算和查詢轉變為對大量復雜、非結構化數據的挖掘,將大大提升政府統計部門的數據分析和發布能力。
現代的數據可視化技術是指運用計算機圖形學和圖像處理技術,將數據轉換為圖形或圖像在屏幕上顯示出來,并進行交互處理的理論、方法和技術。簡而言之,數據可視化就是將數據用可視化的方式展現出來。大數據時代,數據量變得非常大和繁雜,根據IDC(國際數據公司)資料,僅在2011年,全球被創建和被復制的數據總量就達1.8ZB(1.8萬億GB),到2020年將增長到35ZB。要想探索和理解這些大型的數據集,單純用文字分析或表格是很難洞悉的,可視化則為行之有效的途徑之一。通過數據可視化技術,根據數據的時間和空間信息等特性,利用圖表、圖、地圖等方式,就能將數據直觀的展現出來,并找出其中隱含的規律和知識。《鮮活的數據:數據可視化指南》中有一個例子,是講2009年美國的失業率攀升至9.8%,但這個平均數字只概括了美國失業率的總體狀況。有哪些地區的失業率高于其他地區?又有哪些地區未受到很大波及?用一系列美國地圖就能完整地說明情況,只需略掃一眼即可獲得答案。政府數據發布借助豐富的具有互動性的可視化手段,對GDP、居民收入、物價、房價等一系列老百姓關心的指標進行可視化發布,可以挖掘和展示數據背后的關聯與模式,更好地幫助公眾理解數據的涵義以及這些數據對人們生活的影響。
大數據生產主體正日趨呈現多元化的特點,互聯網商品交易信息、企業電子化經營記錄、電子化部門行政記錄等大數據,為政府統計數據采集和發布提供了海量原始資料。政府統計作為經濟社會信息的搜集、加工和利用中樞,應整合各類數據源,匯聚與對接不同大數據平臺與通道的大數據,實現大數據的大統一格局。大數據利用的關鍵在于分享。應打破政府、企業與社會組織間的信息壁壘,特別是要改變政府部門之間數據割裂的“信息孤島”現象,打造大數據公共平臺,實現數據共享,使數據在政府內部流暢協同,大幅縮短數據獲取、處理及分析響應時間,深度挖掘數據的經濟價值。據麥肯錫估計,歐洲發達經濟體政府利用大數據可以節省超過1000億歐元的政府開支。就政府統計發布來講,對大數據的整合與融合,能夠極大拓展統計數據發布內容,增加數據發布頻率,更加有效地對數據間的關聯性、匹配性進行解讀,提高數據發布的客觀性、及時性和權威性,提升官方統計數據的公信力。
以互聯網、社交網站、微博、微信等為代表的新媒體正深刻地改變著輿論生成方式。日益龐大的受眾群體,實時更新的海量信息,及時交流的互動功能,使受眾接受信息的反饋行為更加及時,提升了虛擬空間與現實世界的互動性。新媒體時代,政府統計不是旁觀者,必須善借新媒體之力,與新媒體實現高度融合,增強輿論引導力和數據傳播力。一是拓寬數據信息傳播渠道。利用已開通的統計政務微博,提高微博運營效率,并逐步深化統計官方微博的集群功能,形成統計官方微博群,在開展重大統計宣傳活動、重大統計輿論引導等方面發聲發力,形成強大合力,凝聚正能量。與主流門戶網站合作,建立網絡統計專題,通過網絡公開數據生產過程和統計工作情況,并與網友交流互動,讓更多公眾參與到統計開放過程中。不斷拓展微信、博客等其他新興傳播渠道,實現傳播效果的疊加,使數據信息一次生成、多次傳播。二是打造大數據領域的民意主導者。在對新媒體輿論的引導方面,要改變“大而全”、遍地開花的策略,著力打造大數據領域的民意主導者,利用其權威和專業知識,發揮其意見領袖功能,解疑釋惑,澄清事實。三是健全統計輿情監測與預警常態工作機制。深入分析新媒體時代輿論危機的特點及傳播路徑,建立由政府統計并涵蓋其他大數據生產者的綜合輿情監測體系,更有針對性地對統計輿情實施監測,提高統計輿情的科學應對能力。