潘厲
摘要:“本文是浙江調查總隊聯合課題《大數據時代政府統計體制改革研究》”階段性成果。闡述了大數據的相關概念、原則,特別是大數據對政府統計發展帶來的機遇和挑戰以及有關方面所做的理論探索和有益嘗試。通過綜述,深刻認識和把握大數據時代這一發展契機并提出政府統計改革路徑,為推進統計大數據化的進一步研究打下基礎
在當前大數據背景下,數據已經成為最重要的一種資源,成為各個社會主體乃至國家競爭的前沿和創新的載體。根據“CNKI中國知網”,檢索途徑為“篇名”,來源類別為“期刊”,檢索2008年以來(至2014年12月30日),檢索詞為“大數據”的文獻有4453篇。其中,來自核心期刊有892篇。另外,增加檢索詞為“政府統計”的文獻分別有23篇。本文重點對近5年來大數據背景下我國政府統計調查體系改革的代表性研究成果進行綜述,并進行簡要評述,從中得出有價值的結論,以推動政府統計制度改革的進一步深化。
一、大數據時代政府統計面臨的挑戰
(一)、大數據核心特征的挑戰
當前,對大數據的表述雖有不同,但一個普遍的觀點是,大數據與“海量數據”和“大規模數據”的概念一脈相承。如John Rauser提出“大數據指任何超過了一臺計算機處理能力的數據”;Merv Adrian認為大數據超出了常用硬件環境和軟件工具在可接受的時間內為其用戶收集管理和處理數據的能力;Grobelink.M歸納出大數據的3V特征:多樣性(Variety) 、大量性(Volume)、高速性(Veloctity);Brian Hopkins在Grobelink.M的基礎上加上“易變性(Variability)”的特征,即4V特征;劉念真則認為大數據除了3V特征外,還包括真實性(Veracity)和價值性(Value)在內的5V 特征。姜澍在劉念真的5V特征上再增加了靈活性(Vender),將大數據特征拓展為“6V”。
大數據的這些新特征,使大數據區別于傳統的統計學方法,但大數據基于數據關系的內在本質卻又決定了其與統計學的內在必然聯系,專家學者們普遍認為政府統計的大數據化不可避免,但同時也面臨著不小的挑戰。一是大量。游士兵等認為現行統計制度以“>30”為大樣本標準,面對存在多源異構、高噪聲等特征的大數據資源,不足以篩除干擾信息的影響,更新大樣本標準勢在必行。二是多樣。程開明認為傳統統計學依賴于結構化數據,難以處理文本、圖片、XML、HTML、各類報表、圖像和音頻、視頻等非結構化數據。三是高速。大數據的增長速度極快,尤其是電子商務實時交互數據、傳感器實時采集數據鋪天蓋地,大量的實時數據需要快速處理。傳統的統計調查是自上而下層層布置、自下而上逐級上報,這種調查方式效率低時效差,難以適應市場經濟條件下快速多變的特點。四是價值。許筱靜指出:在大數據時代,需要政府統計部門刪除冗余數據,篩選出對公眾有用的,具備相關性的數據,以形成精準的報告公諸于眾。
(二)、統計外部環境改變的挑戰
隨著信息技術的快速發展,特別是新興商業模式的創新,大數據的商業化應用不斷擴展,不但電信、金融等傳統行業進入“數據就是業務本身”的發展階段,而且國內不少商務企業已經在開發、挖掘和利用這些數據資源,為用戶提供信息咨詢服務,例如,2011年沃爾瑪以3億美元高價收購了一家專長分類社群網站Kosmix。Kosmix不僅能收集、分析網絡上的大數據給企業,還能將這些資訊個人化,提供采購建議給終端消費者。而另一方面,近年來統計數據真實性和代表性頻頻受到社會公眾的質疑。例如,有國際組織質疑我國2009年首季GDP增速與電力需求不吻合,網友熱議CPI、房價、工資增速與公眾感受背離,地方GDP加和總量增速遠超國家數……隨著物聯網等網絡經濟的發展,使得工業生產、 運輸物流、 最終消費、 服務等各種交易生成直接可用的數據。例如外貿景氣指數、上證深證指數、期貨指數、1號店指數等數據,在相當程度上不必再經過統計機構專門采集處理,就已能夠滿足宏觀分析、行業研究、微觀決策的需要,相比之下政府統計的權威性受到了巨大沖擊。
二、大數據時代的政府統計改革的理論探索
(一)、統計思維變革
米子川認為大數據時代的統計首先要適應三個重大的思維轉變,分析抽樣數據向分析對象總體轉變,追求精確數據向接受紛繁數據轉變,探求事物因果聯系向關注事物相關關系轉變。彭小年基于多年的基層統計實踐,提出“管理- 采集”型的統計管理理念,強化整合共享意識,改變統計機構過去“單打獨斗”的封閉性思維。
(二)、統計業務流程再造
許小樂嘗試改良傳統統計業務流程,提出制度設計多樣化、數據采集職能化、統計分析專業化、統計發布透明化,推行“聯網直報”等四大工程,對接工商、質檢等部門的行政記錄以及企業數據跟蹤體系,實現統計業務數據化,以適應數據時代要求。胡雪梅選取 Hedonic法對CPI指數數據質量變化偏差進行調整,提出運用掃描數據進行 Hedonic 質量調整的途徑。朱建平等認為大數據具有流動性,會隨著時間的日積月累而不斷“壯大”,為了更全面、深入地了解研究對象,往往需要對數據進行整合。曾鴻等認為在大數據時代,需要將各種多媒體數據降維后利用上下文關聯進行語義分析,從大量動態而且可能是模棱兩可的數據中綜合信息,并導出可理解的內容。楊少浪以GDP核算方法改革為例,通過圖形、圖像、地圖、動畫等更為生動易懂的方式來展現數據的大小,詮釋數據之間的關系和發展趨勢,為人們提供易于理解、便于使用的結果。
(三)、統計信息化建設
專家學者對統計信息化建設的研究主要集中三大領域:數據采集技術創新,統計云計算和應用,數據挖掘算法。一是數據采集技術創新方面:劉震東強調對感知式統計工具的研發,通過制造多功能多用途的帶有統計處理采集功能的傳感器,并將之廣泛地布置于社會的各個角落,社會進行統計監測,如視頻監測、視覺識別、無人機、移動統計數據采集遙感車等。二是統計云計算和應用方面:潘蕾提出了統計工作中應用云技術的核心思想,即采用虛擬化的技術實現服務器整合,在滿足現有應用橫向擴展的同時,依托核心業務系統,打造適應未來信息化發展的“統計云”。辛金國等構建了基于云計算的網絡直報系統模型,將整個系統分為數據分割、并行查詢、數據建模、前臺展現四大功能模塊。三是數據挖掘算法方面:劉玲認為數據挖掘不但可以處理統計學中主要研究的結構型數據,還可以處理文本型、聲音型、圖像型,從根本上緩解大數據“大量性”、“多樣化”、“低價值密度”等特征帶來的數據處理壓力。
三、大數據時代的政府統計改革的有益實踐
(一)、國家層面:主動擁抱“大數據時代”
2006年,國家 863 計劃“國家統計遙感業務系統關鍵技術研究與應用”面向政府統計在農業、人口、經濟、投資等業務的重大需求,開展了基于以“遙感”為代表的空間信息技術在統計中應用的關鍵技術研究。2010年,全國統計工作會議上,國家統計局提出了四大工程建設目標。即建設一個真實完整、及時更新的統一的單位名錄庫,建立統一規范、方便企業填報的企業統計報表制度,建設功能完善、統一兼容的統一數據采集處理軟件系統,建立統一高效的統計聯網直報系統。2011年,國家統計局在部分地區試點智能手機中預裝CPI數據采集系統,實現了CPI數據現場錄入、審核以及上報,推動統計大數據化再上新臺階。2012年,在舉行的全國統計工作會議上,國家統計局局長馬建堂首次對“大數據時代”進行解讀,并就政府統計部門如何應對“大數據時代”的機遇和挑戰提出明確的要求。2013年,國家統計局針對大數據的探索與應用,又邁出了里程碑式的堅實一步。與阿里、百度等11家企業簽署了大數據戰略合作框架協議,共同在分享、開發、利用大數據方面進行合作。2014年,“三經普”首次全面推廣PDA采集數據,采用手持電子終端設備和電子地圖,實現普查數據的采集、報送、處理等手段的自動化、電子化。
(二)、地方層面:因地制宜開展嘗試性實踐
劉震東在研究總結先行地區實踐經驗的基礎上,提出地方統計大數據化的三個典型特點:適應性服務、小平臺戰略和自由組合。
南通市統計局于2012年就以全市綜合數據管理平臺建設為突破口,依托政府的強力支持,集中財政、國稅、地稅等部門的業務優勢,協調了48家成員單位規范項目操作,嚴格項目管理,探索出“以數據標準為基礎,以信息共享為目標,以挖掘應用為導向”的部門信息歸集運用新模式。廈門市統計局于2013年為解決目前“企業一套表”制度配套系統存在的復用程度不高、共享難度較大等問題,結合多維數據庫的設計理念,提出元數據驅動的面向服務架構(SOA)“企業一套表”。溫州市統計局于2013年建立了GDP聯席會議制度,運用“大數據”檢驗地方政府統計數據及統計對象的源頭數據,按季度召集30多個部門進行分析論證部門數據與GDP數據之間的關系。上海市統計局于2014年依托本地大數據資源,積極對接1號店、上海鋼聯等企業,正式對社會發布“1號店快速消費品價格指數”(簡稱“1號店指數”)。
四、總結與思考:探索大數據背景下政府統計改革路徑
本文從大數據背景下政府統計面臨的挑戰、理論探索和現實實踐三個方面回顧了近六年來我國政府統計大數據化改革研究的代表性文獻,梳理出一個基本清晰的脈絡:“大數據”是一把“雙刃劍”,盡管對傳統政府統計沖擊巨大,但對于統計業務的再造、信息化建設的推進以及統計權威性的提高都有幫助。但是,對于大數據的開發運用絕非易事,開發大數據不只是政府統計部門的事情,需要國家把大數據開發挖掘問題上升為國家戰略的層面,進行統一規劃、制定統一標準、協調有關企業和部門通力合作、創造適宜的氛圍,才能有條不紊地深入推進。
參考文獻:
[1].Mckinsey Global Institute.Big Data:The next frontier for innovation,Competition and productivity. .2011
[2]Grobelink M.Big-data computing:Creating revolutionary breakthroughs in commerce,science and society[N/OL]. . 2012
[3]Agrawal D,Bernstein P,Bertino E,et al.Challenges and Opportunities with Big Data-A community white paper developed by leading researchers across the United States[R/OL]. . 2012
[4] Hopkins Brian,Evelson Boris.Expand Your Digital Horizon With Big Data. . 2011
[5]韋博成. 漫談統計學的應用與發展(1)[J]. 數理統計與管理. 2011(01)
[6]姜澍. 大數據時代下的政府統計[J]. 調研世界,2014,04:62-64.
[7]游士兵,張佩,姚雪梅. 大數據對統計學的挑戰和機遇[J]. 珞珈管理評論,2013,02:165-171.
[8]程開明,莊燕杰. 大數據背景下的統計——第十七次全國統計科學討論會綜述[J]. 統計研究,2014,01:106-112.
[9]許筱靜. “大數據”現象對政府統計工作影響分析[J]. 統計科學與實踐,2013,12:54-55.
[10]米子川,趙麗琴. 函數型數據分析的研究進展和技術框架[J]. 統計與信息論壇,2012,06:13-20.
[11]彭小年,倪進. “大數據和政府統計”研討會論文觀點綜述[J]. 統計科學與實踐,2014,02:4-6.
[12]許小樂. “大數據”與政府統計改革[J]. 調研世界,2013,05:42-45.
[13]胡雪梅. 掃描數據在CPI編制中的應用研究[D].東北財經大學,2012.
[14]楊少浪. “大數據”背景下的GDP[J]. 中國統計,2013,10:27-28.
[15]朱建平,章貴軍,劉曉葳. 大數據時代下數據分析理念的辨析[J]. 統計研究,2014,02:10-19.
[16]曾鴻,豐敏軒. 大數據與統計變革[J]. 中國統計,2013,09:49-50.
[17]潘蕾,徐汀榮. 基于Web服務的SQL數據庫訪問中間件的設計與實現[J]. 計算機與現代化,2006,03:67-69.
[18]辛金國,龔愷. 基于云計算技術的政府統計平臺設計的研究[J]. 統計科學與實踐,2014,01:23-25.
[19]劉玲,肖嶸. 連續屬性離散化算法SHD及其改進[J]. 計算機工程與應用,2001,09:97-99+116.