□褚英國 阮圣健
本文闡述了大數據在統計工作中應用的歷史機遇,總結了大數據在統計工作中的應用實踐,分析了大數據統計應用面臨的困難,提出了樹立大數據思維,實現理念創新;健全工作機制,加強人才培養;上下多管齊下,跨越數據鴻溝;推進模型研究,明確應用方向;建立統一平臺,全省統籌協調;突破傳統模式,完善統計體系等推進大數據統計應用的具體建議。
大數據時代的到來,為統計工作現代化建設提供了新的技術和思維方式,對推進統計工作轉型,提升統計數據生產和服務水平帶來了機遇。研究大數據在統計中的應用成為統計應對社會變革和創新的重要途徑,如何利用好大數據服務統計改革發展,推動統計工作數字化轉型,是擺在統計部門面前的新課題、新機遇,也是新挑戰。
2010年,歐盟發起“歐洲數字化議程”,開放最原始數據,鼓勵數據開發與應用。2012年,美國推出大數據國家發展計劃,鼓勵多方合作推進技術創新,為大數據提供最根本的支持。同年,聯合國推出“數據脈動”計劃。2013年,日本推出以大數據為核心的新IT國家戰略。2015年,國務院發布《促進大數據發展行動綱要》,提出全面推進大數據發展和應用,加快建設數據強國。2018年政府工作報告明確指出要深入推動大數據廣泛應用。隨著國內外大數據基礎設施建設的完善,大數據技術架構的成熟,以人工智能、智慧城市等為代表應用的落地,DT時代已來臨,大數據技術應用必然迎來井噴之勢。
據IDC預測,2020年全球擁有的數據量將比2011年增長近20倍,近2年產生的數據總量相當于人類有史以來所有數據量的總和。在此背景下引發的問題復雜性與不確定性使得政府治理難以再單純依靠經驗解決,從問題的界定、原因分析、政策制定與執行,都需要大數據來支撐,要用數據說話。習總書記在中央政治局國家大數據戰略第二次集體學習會上指出:要運用大數據提升國家治理現代化水平,要建立健全大數據輔助科學決策和社會治理的機制,推進政府管理和社會治理模式創新,實現政府決策科學化、社會治理精準化、公共服務高效化,提高對風險的感知、預測、防范能力。
統計是經濟社會發展重要的基礎性工作,是宏觀調控的重要依據。近年來,統計數據質量問題層出不窮,十九大報告明確指出要完善統計體制,黨和國家領導同志多次對統計工作作出重要指示:要順應時代潮流,以更加開放的態度擁抱大數據,積極推動大數據技術與現代統計的深度融合,運用大數據思維實現統計業務流程再造,提升統計數據生產效率,提高數據資源開發利用水平,豐富統計產品和成果,為宏觀調控和科學決策提供更加及時優質的統計服務。《統計法實施條例》明確提出“推進大數據在統計工作中的應用,滿足經濟社會發展需要”。國家統計局落實黨的十九大關于完善統計體制重要部署工作方案中提出“加快建立基于大數據云計算廣泛應用的統計生產方式”。
2016年初,浙江省統計局成立促進大數據發展實施計劃領導小組及辦公室,正式部署大數據統計應用工作。與浙江移動合作開展人口及就業移動大數據合作,研究全省及各市縣(區、市)人口、都市區及其核心城區八大產業就業人口的變化趨勢、性別比例、年齡結構。與省商務廳、中津研究院合作,利用爬蟲技術探索獲取全國主要電子商務交易數據,反映全省電子商務總量規模、結構、發展趨勢。與阿里巴巴合作,測算全省及分市縣未在庫賣家零售額。依托省政府公共數據交換平臺,啟動《浙江統計數字化應用平臺》建設,形成省市縣三級跨專業、跨部門數據共享機制,推進內部數據跨專業利用、外部數據跨部門利用。利用省政府“多證合一”平臺數據審核企業基礎信息,讓“數據跑路”代替“群眾跑腿”,為“一套表”調查單位審核提供更為準確的基礎庫。獲取稅務部門基層數據進行統計數據質量評估。
近年來,各市統計局積極開展大數據統計應用探索,并取得一定效果。杭州積極利用稅務部門數據評估統計數據質量,開展跨境電子商務統計。寧波市縣兩級利用電力數據進行經濟形勢和耗能情況比對分析,利用稅務數據進行相關單位營業收入核查。溫州研發行業分類智能編碼系統,實現行業代碼智能編碼和編碼詞條庫實時學習更新,應用于全國基本單位名錄庫管理、四經普單位清查比對與普查,顯著提高了全國行業編碼的效率和準確性。嘉興與阿里學院、高校開展合作,調查企業、住戶等電子商務活動參與者的基本特征與發展態勢。衢州與移動公司合作開展城鎮化人口動態監測。義烏建設了電子商務大數據應用統計平臺,利用爬蟲技術抓取電商成交額,分析解讀義烏市電子商務成交額、主要銷售產品類型。
2017年,國家統計局與貴州省簽署《共辦大數據統計學院戰略合作協議》,2018年舉辦以“大數據新統計”為主題的大數據統計論壇,并成立大數據統計學院,培養大數據統計創新型高端人才,促進大數據與統計深度融合。2018年,國家統計局成立“人口統計大數據實驗室”,利用大數據探索開展人口統計。全面推進部門數據在全國第四次經濟普查中的應用。制定《大數據應用工作方案》,強化大數據在統計工作中的運用。2016年,青海省統計局成立旅游大數據研究課題組,制定《大數據在旅游人次數統計中的應用方案》,推進旅游大數據統計工作。2017年,四川省統計局成立大數據中心,推進統計大數據分析利用。2018年,北京市統計局與北京騰云天下科技有限公司合作,推進利用智能終端大數據進行人口動態監測,實現北京市及京津冀人口的流動情況分析,為北京市疏解非首都功能、京津冀協同發展提供參考。2018年,海南省統計局正式啟動海南“統計大數據”建設,充分挖掘數據資源,打造海南統計大數據平臺。
傳統統計思維主要體現在自上而下實證統計理論為基礎的統計理論制度,以層層匯總上報的全面統計和局部樣本來描述與推測總體的抽樣調查方法為主,數據采集基本靠人為采集。大數據技術通過各種客觀設備與系統直接、無意識地獲取全面數據,更加準確、客觀、全面反映社會經濟發展情況。這是一種科學認識現實世界和分析判斷事物發展規律的全新方法,必然導致統計制度的顛覆性改革。而統計系統長期實施實證統計理論的普查、全面統計、抽樣調查,思維上很難快速發生轉變,最終體現在制度方法、業務流程、管理機制等改革上舉步維艱。
一方面,隨著互聯網和移動互聯網的快速發展,阿里巴巴、騰訊、百度、京東等國內大型互聯網公司擁有大量的社會化大數據資源,這些公司都將數據作為其核心資產加以保護,在國家沒有相關法律法規明確約束的前提下,省及以下統計部門很難取得全量數據并加以分析利用。利用網絡爬蟲技術抓取數據存在法律風險并且易受反爬蟲技術干擾。這些都制約社會化大數據的獲取與利用。另一方面,其他政府部門的電子政務數據,統計部門主要依靠各地政府主導的數據資源共享機制獲取,目前尚處起步階段,政府統一歸集的數據資源還不足以完全滿足統計工作的需要。
模型是能否讓大數據在統計工作中真正落地發揮作用的關鍵。不考慮以傳統數據分析為主的廣義大數據統計應用,由于大數據資源有限,真正意義上的大數據統計應用模型主要集中在利用通信運營商的移動信令數據建模進行人口、旅游、交通等方面的監測,利用電商平臺數據建模進行電子商務監測,以及利用其他政府部門數據建模進行數據質量評估。同時,受統計制度限制,針對特定對象制定的統計報表中有許多指標無法從其他大數據中取得,限制了大數據在統計工作應用的范圍,即使有了一些大數據應用的成果,也只是作為驗證傳統調查結果準確性的輔助手段,未能發揮大數據真正的內在價值。
大數據統計應用的本質是數據分析和挖掘數據價值,這就需要大量的數據分析師。不僅需要掌握數學、計算機等知識,而且也需要掌握統計、經濟、政府治理、公共服務等知識。當前社會上具備單一知識結構的人才相對不少,但具備復合知識結構的人才不多,在統計部門工作的復合型人才更少。統計部門針對各級統計干部進行大數據相關知識的系統培訓較少,統計干部的知識結構和綜合素質還難以適應大數據時代統計改革發展的要求。
大數據的本質不在于大,而在于其蘊含的大數據思維,核心是全面思維和相關性思維。全面思維就是從樣本分析掌握全局轉向分析相關的、幾乎所有的數據來掌握全局,統計數據從少量、靜態、單一的樣本數據轉變為海量、動態、多樣的“全體數據”,從而更全面分析經濟形勢。相關性思維是系統而非孤立分析數據、分析事物間的內在聯系。樹立大數據思維之于統計工作,就是要突破原有做法,將全面思維、相關性思維運用到統計方法制度設計、業務流程再造、管理機制完善等方面。
進一步完善業務部門主導、技術部門保障的工作格局,定期開展大數據統計應用工作交流,建立大數據統計應用模型研究專班機制。對已明確的應用方向,建立項目專班,投入力量推進應用落地。注重培養與引進具有大數據思維、統計專業知識、信息技術技能、經濟知識、數據分析能力等復合型人才。加強跨專業、跨領域間干部的交流,組織數據分析、深度挖掘等大數據相關的知識培訓,組織CDA數據分析師認證培訓考試,打造一支大數據統計應用的專門隊伍。
法律法規層面上,建議國家統計局協調相關部門盡快完善相關法律法規,在保證數據安全、個人隱私、商業秘密的前提下,明確大數據公司有義務向國家提供其所擁有的所有數據資源。全國性社會化大數據層面上,建議國家統計局協調國家部委和行業主管部門或直接與BAT、通信運營商、物流平臺、網銀公司等大數據公司開展大數據合作,及時獲取大數據公司的數據并返回各省使用。政府部門大數據層面上,充分依托各地政府統一建立的公共數據交換平臺,推動跨部門的數據共享,鼓勵各專業根據業務需要申請使用平臺已有其他部門數據資源,建議政府加快拓展平臺數據廣度和深度。
開展利用大數據推進統計調查和統計分析現代化的大數據統計應用模型研究,充分利用統計系統、高校、社會科研機構、大數據企業等力量,探索確定可落地操作的應用模型,厘清大數據內容、大數據頻率、大數據來源等關鍵要素。應用模型成熟后,探索建立具體大數據統計制度,使用大數據直接進行統計數據生產。充分利用稅務、市場監管等部門以及大數據企業數據,對工業、能源、投資、貿易、服務業、人口就業、社會科技等專業數據進行核實、比對和評估,提高統計數據質量。基于大數據應用的智能化、精準化統計分析服務,提高統計服務黨委政府決策的精準度。積極推進各級統計部門創新思路、試點試驗,在實踐中探索、積累、總結、推廣。
構建全省統一的、數據深度挖掘的統計監測分析系統為核心的《浙江統計數字化應用平臺》,部署全省統一的R、SPSS等專業數據分析軟件,充分利用平臺歸集的數據,定制大數據統計應用分析模型,加強經濟運行實時分析、經濟發展質量評價、經濟指標預測和分析研判,實現大數據統計應用模型的積累與分享以及低門檻可視化操作。堅持“平臺上移、服務下延”的理念,全省一盤棋,統一規劃、統籌推進、整體協調,杜絕重復建設、無序發展,鼓勵各地在統一框架下積極探索大數據統計應用建設。
在大數據統計應用發展到一定程度,應積極推進完善統計體系。一是統計方法完善。逐步取消層層上報的全面統計報表制度,依托大數據改進周期性普查和抽樣調查制度,建立大數據統計制度,重構統計內容、對象等制度內涵。二是統計流程完善。統計數據處理流程從以層層上報的“調查對象->統計部門”模式為主向“調查對象->大數據企業->統計部門”、“調查對象->部門統計->統計部門”等模式與其并重轉變。三是統計職能完善。大數據時代,大數據企業、各行業主管部門都是大數據的主要直接生產者,統計部門要強化在數據管理、發布、使用上的職能,加強對大數據企業、部門統計的統計管理職能,真正實現從做統計到既做又管統計的轉變。