茹艷娜
隨著社會生產力的不斷發展,特別是進入IT時代以來,人類積累了海量的數據。互聯網上一天的數據告訴我們,一天之中互聯網產生的全部內容可以刻滿1.68億張DVD;發出的郵件有2940億封之多;200萬篇博客文章在網上發布,相當于《時代》雜志刊發770年的總量……更重要的是,數據已經不僅僅是數據本身了,已變成了一種業務。毋庸置疑,大數據時代已經來臨。面對日新月異的形勢,作為生產和管理數據的政府統計部門,面對大數據帶來的新形勢和新變化,更是機遇和挑戰并存,動力與壓力同在。而近幾年來,中國政府統計系統積極推進以一套表為核心的統計“四大工程”,極大地提升了政府統計工作的信息化水平,也為大數據的應用奠定了相對較好的基礎。我們要高度重視大數據對政府統計工作正在帶來和將要帶來的各種影響,充分認識推進大數據應用的必要性和緊迫性,加強頂層設計,分專業分步驟實施,以推動統計生產方式的變革和統計生產力水平的提升。
一、“大數據”對統計的沖擊
(一)對統計理念的沖擊
“大數據”改變了人們對數據的需求層次。過去,人類的認知能力有限,受數據獲取技術的制約,想要獲取大范圍的情況比較困難,只能感知身邊的個體數據乃至群體(中觀)數據,人們對世界的認識不夠全面客觀。另一方面,統計數據反映的是總體趨勢,往往無法對應到具體的個體情況。但“大數據”時代的來臨使人類第一次有機會和條件在非常多的領域和非常深入的層次獲得和使用全面數據、完整數據和系統數據。在此基礎上形成的數據可以更加偏向個體情況,更加符合個體的感知,產生宏觀數據無法實現的價值。
(二)對統計生產流程的沖擊
(1)制度設計多樣化
傳統的統計設計是根據統計研究的目的和研究對象的特點,設定統計指標、統計報表以及調查、匯總方法等制度,通過調查、訪問將生產行為轉化為可以量化的數據。“大數據”下的制度設計面對的是已經存在的或通過一定手段可以獲取的大量數據,需要解決數據從哪里來的問題。弄清楚已經存在的相關數據是通過什么方式產生的,從哪些領域產生的,會對研究目的產生哪些影響,進而確定采用什么樣的數據來反映統計目標。此外,“大數據”客觀上為傳統的統計提供了更多的方法,并且可在一定程度上免除調查過程中的人為因素干擾。
(2)數據采集智能化
傳統統計是通過結構化的報表和統一的計量方式將被調查對象的行為轉化為可用的數據,這其中需要被調查者的參與,統計數據的質量難以控制,并且矯正這些調查誤差的成本很高。但在大數據時代,數據來源于信息技術記錄下的原始數據,這些數據的參與僅僅依賴于測量方法(如GPS定位測量、超市收銀管理系統),而不需要調查對象長期、認真的配合。同時互聯網、云計算等技術將大大提高數據采集的智能化水平,這種智能化的數據采集方式是傳統統計調查難以相比的。
(3)數據分析專業化
傳統的統計分析是根據統計制度設計的要求以及對研究對象的認知,對采集上來的結構化統計數據進行計算分析,重點描述過去的這段時間發生的變化,對未來的發展情況進行統計意義上的預測。“大數據”背景下的數據分析,面臨的是大量存儲于各處的非結構化或半結構化數據環境,要將這些無法識別和運算的信息轉化為結構化的數據,還需洞察出語義、態度、情感、社會關系、效果等傳統統計難以解決的問題。即使針對結構化的海量數據,所要做的更為重要的是分析挖掘數據之間的內在關系,尋找更多有價值的信息。在這種背景下,數據分析變成統計部門一個關鍵性的環節,需要專業化的數據挖掘與處理技術。
(4)統計發布透明化
“大數據”的背景下,數據的獲取分析將全社會共享,而非統計部門一家獨享。統計數據的產品屬性會更加突出,面臨的市場競爭壓力會更大。在發布結果上,僅僅告訴別人一個結果是遠遠不夠的,還需要通過可視化、交互等方式給予用戶更加方便、高效的使用方式提供更為詳盡的“意義”信息。也正是由于數據的大量存儲和共享,統計數據發布的公開透明程度將會極高,沒有公開詳細、公允計算方法的數據將會被其他數據替代。
(三)對政府統計職能的沖擊
從中國經濟發展與政府統計的關系上看,統計的重要性往往是與傳統的經濟模式連接在一起的。統計數據為經濟管理者提供了依據。隨著市場化的深入,市場內部的自我調節機制逐步替代了政府對經濟的干預。經濟發展的主導力量由宏觀逐漸走向了微觀,統計數據的價值發生了變化。從現已發生的變革上來看,包括進出口、貨幣供給、財政等數據已經不需要專門進行統計了,在各項相應的行政記錄里均可查詢。而物聯網等網絡經濟的發展,使得工業生產、運輸物流、最終消費、服務等各種交易生成直接可用的數據,而不需要再經過專門的統計采集。因此,“大數據”背景下,政府統計的地位和職能將受到極大的挑戰。
二、借力“大數據”加速統計改革
大數據不僅是產業,也是資源。同時,它也是一種科學,有非常重要的值得我們關注的發展空間。統計部門應當借助于“大數據”所帶來的有利條件,主動順應數據社會化的趨勢,加快推進政府統計的改革。
(一)統一統計標準。對政府統計部門應用大數據的統計標準進行統一規范,要特別重視和研究如何對非結構化數據進行標準化處理。
(二)規范統計指標。分析大數據的指標數據與政府統計指標在口徑、范圍、內涵、定義等方面的差異,以對政府統計應用大數據的統計指標進行設計、調整、規范和完善。
(三)改革調查方法。改進和完善大型周期性普查、抽樣調查等傳統調查方法,研究在“全樣本”基礎上進行抽樣或計算的方法,研究利用行政記錄、商業交易記錄和網上搜索信息進行測算的方法。
(四)完善采集方式。研究對非結構化數據進行采集的方式,開辟新的采集渠道,應用新的采集技術,探索如何通過搜索、購買、合作等其他方式,采集重要的基礎數據。
(五)改進數據處理。積極推動數據處理方式從簡單匯總向數據挖掘方向轉變,加強對數據的預處理,提高數據處理的智能化程度,要豐富分析手段,提高統計分析的時效性、趨勢性和直觀性,提升統計工作的分析水平和預警預測能力。
(六)完善數據發布。增加統計數據發布的內容,豐富數據發布的形式,提高數據發布的頻率和時效性,加強對數據的解讀,更好地滿足社會各界對統計數據的多樣化需求。
(七)要加強橫向合作。既要加強與其他政府職能部門的合作,也要加強與各種類型的大數據生產企業的合作,以研究和推動商業交易記錄、網上搜索信息的搜集、處理和轉換。
“大數據”的本質實際上是數據生產的社會化,其對統計尤其是政府統計的沖擊是重大的,可以大膽預測,未來政府統計的政府角色會被統計專業性取代,經濟分析的職能會被更為專業的經濟分析部門取代,宏觀數據的重要性會讓位于更有信息價值的微觀數據。統計部門需要正視這種變革,順應這種潮流,并借助于“大數據”的變革的有利形勢,加快提高統計能力,使其在大變革中處于優勢地位。