徐延軍 左宇曉 王茹川/ 文
人類文明的每一次進步都以科學技術革新為標志。從19世紀的“蒸汽機時代”,20 世紀的“信息技術”到21 世紀“大數據時代”的變革,現如今大數據與數字經濟正在全球范圍內掀起一陣顛覆傳統的熱潮,成為各國重塑競爭優勢的共同選擇。黨中央國務院高度重視大數據在經濟社會發展中的作用,黨的十八屆五中全會提出“實施國家大數據戰略”,國務院印發《促進大數據發展行動綱要》,全面推進大數據發展,加快建設數據強國。據《2018 全球大數據發展分析報告》顯示,隨著全球海量數據的增長,無論是中國還是世界,大數據能否轉化為決策力都面臨著數據結構化以及系統建模分析等諸多難題。由此可見,數據已經成為重要的基礎性戰略資源,而且取之不盡用之不竭,越用越豐富,是21 世紀的“鉆石礦”。大數據時代數據資源豐盈的同時,數據分析顯得更加重要,數據分析的核心是統計。大數據時代統計思維不再束縛于傳統的統計方式,尤其是數據采集和分析的方法,不論是政府統計還是民間統計,都必須順應大數據時代的變革,未來的統計將是傳統統計和大數據的高度融合,構造多數據源的大統計。
統計源于國家管理需要而產生,比如最早的人口統計。統計有三方面的含義:統計工作、統計資料和統計學。一般來說,統計來源于實踐,通過統計工作獲取統計資料,進而隨著認識的不斷深入,統計學上升為一門學科。統計學作為一門學科已有三百多年的歷史。通常可以將統計學的發展史分為三個階段:古典統計學、近代統計學和現代統計學。
古典統計學時期(17 世紀中葉到18 世紀)以政治算術學派和國勢學派為代表,二者相互滲透和借鑒。其中政治算術學派以威廉·配第(Willian Petty,1623—1687 年)和約翰·格朗特(John Graunt,1620—1674 年)為代表,國勢學派以海爾曼·康令(Hermann Conring,1606—1681 年)為代表,統計主要為國家管理和社會福利改善提供服務和指導。
近代統計學時期(18 世紀末—19 世紀末)以數理統計和社會統計為代表。源于歐洲各國的工業革命和科學技術的迅猛發展,天文、氣象、社會人口等領域的數據資料積累到一定規模,國家層面對統計的需求開始擴展至社會科學各個領域。社會統計學派主要代表人物是恩格爾(C.L.E.Engel,1821—1896 年)和梅爾(C.G.V.Mayer,1841—1925 年),他們認為統計學的研究對象是社會經濟現象。對事物現象的靜態描述也不能滿足社會需求,數理統計學派創始人凱特勒(A.J.Quetelet,1796—1874 年)率先將概率論引進古典統計學,提出了大數定律思想,使得統計學逐步成為揭示事物內在規律的一般性研究方法,由此凱特勒被歐美統計學界譽為“近代統計學之父”。
現代統計學時期(20 世紀以來)以凱特勒的數理統計學為基礎,經過高爾頓(F.Galton,1822—1921 年)、皮爾遜(K.Pearson,1857—1936 年)、鮑萊(A.L.Bowley,1869—1957 年)和費歇爾(R.A.Fisher,1880—1962 年)等統計學家的不斷豐富和完善,主要成果是數理統計在隨機抽樣基礎上建立起來的推斷統計學。隨著計算機技術的發展,一系列統計方法技術被開發出來,如MCMC 模擬計算、Jackknife、Bootstrap 等。21 世紀大數據時代的到來,以互聯網為中心的云計算技術為大數據提供了存儲、訪問的場所和渠道,由此而來的一系列面向大數據的抽樣、分類、聚類、關聯分析方法應運而生。例如,社交網絡的發展直接促進了基于網絡的統計方法的產生,大數據流環境促進了數據流算法的產生等。因此,計算機技術可以說是大數據發展的基礎,同時計算機對統計學的發展起到了很大的促進作用。
縱觀統計學發展史,作為統計研究對象的數據的產生,尤其是大數據的產生和存儲,離不開計算機技術的迅猛發展。現在已經進入計算機、大數據和統計方法相互融合的時代,統計分析也經歷了簡單的計數分析、簡單描述統計分析、抽樣分布特征分析、估計檢驗推算分析、動態預測分析、評價判定分析、變量關聯關系分析、數據挖掘分析等階段,相應的產生了不同的統計分析方法,包括大量觀察法、統計分組法、綜合指標法、模型方程法、數據挖掘等方法,并且對計算機和軟件的利用程度也越來越深。
如何從海量數據中進行數據的清洗,并提煉有用的信息,是大數據時代統計學面臨的重大挑戰。
Viktor 和Kenneth(2013)認為大數據時代將開啟全部數據的分析模式,不再需要隨機抽樣推斷分析的統計方法。統計是動態的歷史,歷史是靜態的統計。著名統計學家、哈佛大學終身教授劉軍則指出,全數據的概念經不起推敲,而且“在大數據時代,統計學依然是數據分析的靈魂”。如果將大數據比喻成“海洋”,那么統計學必定是匯入“大數據海洋”的主干河流之一。大數據時代的統計從數據采集、數據分析到數據的發布等都將對統計學產生重要影響。接下來我們從三個方面探討大數據環境下的統計問題進行辨析。
討論一:大數據是總體還是樣本呢?面對海量數據的產生,有人認為大數據是全部所有的數據,因此不需要隨機抽樣,將大數據定義為總體的研究對象。另一說法是大數據再大也只是相對的,隨著時間的推演,大數據還在源源不斷地產生,而且由于時空的交錯,我們很難采集到所有的數據。互聯網外還有大魚,數據再大也是相對的,今天的大數據相對而言只是明天的小數據,我們不可能窮盡獲取所有數據,而且對數據的掌控也是有限的。北京大學耿直教授給的定義為:“大數據是一個大樣本和高維變量的數據集合。”
這里以居民消費價格指數(consumer price index,簡稱CPI)為例。國家統計局編制CPI,一些電商也在編制CPI。國家統計局編制的CPI 包括8 大類商品,260 多個基本分類,700 多種代表商品,調查范圍涵蓋全國31 個省(市、區)500 多個市縣4000多個調查網點。可是,全國2000 多個縣,市場上有數以億計的商品和服務,而且數以萬計的商業網點和電商的數據沒有全部包括進去。那么我們是否能在全國范圍內編制總體的CPI 呢?答案是不可以也不可取。從目前全國實施情況來看,小范圍可以實現,如某個行業,或某個電商平臺。現在一些電商也在編制自己的網購價格指數,如阿里巴巴的網購價格指數。
因此,總的來說大數據等于總體說法是不準確的,也是不可取的。在某些特定的場合,大數據約等于總體,例如小范圍大數據近似等于小總體,直接就可以對總體進行分析。但在很多場合,大數據表現出來的是一個海量的樣本,可以通過再抽樣減少樣本量,大數據如何再抽樣,達到估計的精度。
討論二:大數據時代還需要傳統的抽樣嗎?因為大數據的稀疏性,它需要清洗掉80%以上的垃圾信息,如果按照隨機抽樣的原則,對清洗后的數據進行抽樣實施,那么總體分布將是有偏的,抽取的樣本也存在偏倚。傳統的數據采集方式是主動獲取的數據,大數據時代數據如潮水般涌來進而被囤積下來,兩種數據源如何實現有效融合是統計學面臨的重要問題。針對大數據流環境,耿直(2014)提出需要探究如何抽取足以滿足統計調查目的和精度的樣本,需要研究新的適應性,序慣性和動態的抽樣方法。例如,對政府的宏觀經濟統計而言,如何從原來的政府統計(以抽樣調查為主)到將來的政府大數據統計(微觀個體和企業),將各種來源的數據庫實現有效的融合和對接至關重要。對于企業而言,可以從原來的用戶滿意度抽樣調查上升到借助大數據挖掘用戶的消費畫像,從而實現用戶的精準營銷。對于家庭或個人而言,大數據時代電子支付手段的使用,所有的消費行為都會被記錄下來,可以更加清晰地發現家庭的消費支出特征,為進一步優化消費結構提供依據。
討論三:在大數據環境下,統計學的經典分析方法會被淘汰嗎?有人認為如果大數據包含了所有的數據,抽樣誤差將消失,模型顯得不重要了,被統計學視為經典的回歸模型分析法等將被淘汰。大數據時代思維的改變是更關注數據的相關關系,舍恩伯格等提道:“相關關系比因果關系能更好地了解這個世界”。例如,某些電商平臺的推薦系統,基于數據的抓取、挖掘和可視化呈現的數據新聞等。這些通過數據挖掘實現了從數據到價值的轉變,創造出很好地經濟利潤和社會效益,更好地實現精準營銷。但是對象之間相關關系越強也可能并不存在本質上的關聯性,而且相關分析不能進一步的解釋現象之間的因果關系。因此,大數據時代依然需要借助傳統的統計分析方法,而致力于因果關系研究的回歸分析或實驗設計等方法在大數據時代依然重要,比如說人工智能核心領域的機器學習,回歸分析是有監督學習的主要方法之一,而且和統計密不可分。因此,傳統的統計經典分析方法不會被淘汰,相反依托于大數據,可以實現現代和傳統統計分析技術的有機結合。

伴隨著大數據時代統計分析技術的提高,從大數據采集到數據存儲、數據處理、數據挖掘與分析、數據可視化與決策這樣一個完整的大數據資源價值才能得到完整的利用。隨著非結構化數據的井噴式增長,語音信息處理、數據挖掘、機器學習成為大數據統計分析的重要領域,我們的目標是建立面向大數據的宏觀統計核算體系,充分利用各種信息技術和手段,運用統計理論方法實現大數據資源的價值提升,把統計測度與數據清洗、數據分析模型、計算方法相結合,努力建立融自動搜索、動態演化和自主優選統計測度為一體的大數據統計測度方法體系。在政府國民核算方面,將新興經濟核算作為拓展核算納入國民經濟核算體系,而新興經濟中很大一部分屬于數字經濟。為了準確核算數字經濟發展規模及其對宏觀經濟的貢獻,數據的獲取非常重要。除了完善數字平臺相關數據,開展專項調查之外,還需要充分挖掘大數據技術記錄存儲基礎數據,充分挖掘網絡來源數據等。將這些大數據與各部門行政、稅收、商業等數據互補結合,采取傳統調查為主、網絡記錄數據為輔的原則。因此,伴隨著數字經濟的快速發展,亟須構建數字經濟核算體系。大數據時代表現出來的數字經濟離不開大數據和云計算技術,通過新型技術實現對傳統業務和模式的數據改變,從而推動政府、企業、消費者多層次多目標數據源的發展,提高大數據質量,加快建設數字中國。
從統計的發展歷程可以看出,隨著計算機和大數據的出現,統計已經發生了翻天覆地的變化。統計思維方式也將發生變革,如何將不同數據源的數據整合,大數據與小數據的對接,主動獲取的數據和被動囤積的數據相銜接。未來的統計將融合計算機、大數據為一體,呈現出大統計百花爭艷的局面,在數字全球化背景下如何構造宏觀大數據統計體系,在此基礎上構建數字經濟核算體系,進而為提高大數據質量,加快數字中國建設建言獻策。