魏 瑤/ 文
數據是統計分析的基礎,而隨著現代信息技術的快速發展,數據驅動的大數據時代,以及與大數據相關的數據分析理念也發生了新的變化。2012 年由國家統計局統計科學研究所召開的大數據應用座談會,將建立統計云架構的現代數據統計研究目標作為未來重要新興戰略規劃。怎樣深刻理解大數據時代?怎樣依托統計科學來重新審視統計工作?大數據體現了數據科學研究對象的變革。當下,互聯網、物聯網、云計算等網絡化數據呈現指數級增長趨勢,數據資料可謂是“秒新分異”。據相關機構統計,互聯網一日所產生的全部數據可以刻滿1.68 億張DVD。哈佛大學教授加里·金提出“大數據引發的是一場數據革命,龐大的數據庫資源將成為各個領域量化進程的標志。”由此可見,面對紛繁蕪雜的大數據,如何從中提取有價值的知識,才是數據統計分析創造價值的關鍵所在。
對于大數據,眾說紛紜。字面意義中,其特征為大,而對于大,又是仁者見仁,智者見智。大數據是大數據時代的顯著特質,數據是引領社會、生活、商業、科技創新發展的動力。大數據時代下的數據本身,其結構及內容也發生了變化。狹義來講,大數據可以解釋為數據的結構形式和規模獲得了多樣化發展;廣義來講,大數據除了數據結構、規模外,還涵蓋數據分析處理的各類技術及方法。從數據維度來分析,橫向的大數據,延伸為數據的規模,即海量數據;縱向的大數據,延伸為數據的結構形式,如結構化數據、半結構化數據、非結構化數據等。在統計學領域,對大數據的定義,可以將之界定為超越傳統數據處理能力、超越傳統統計思想、無法用主流軟件工具或技術來進行復雜數據統計分析的數據集合。可見,大數據在現有數據處理技術基礎上,還要融入網絡媒介,引入創新統計學方法來進行挖掘、提取、管理、分析隱藏于大數據中的有價值知識。
了解大數據及其時代屬性,對于大數據,其特征表現在四個方面。一是大量性。大數據時代下的數據,其數量規模是巨大的,尤其是在當下高速發展的網絡平臺,各類承載數據資料的網絡化工具、終端設備等的普及,數據資料來源的廣泛性,使得各類數據資料呈現指數級增長。二是多樣性。單就大數據的數據類型,其種類繁多。如文本類數據,表現為結構化特征;網絡化日志、音視頻、地理位置等半結構化、非結構化數據類型等。由于數據資料來源的廣泛性,數據的多樣性就必然存在。越來越多非結構化數據資料的增長,需要我們優化數據統計分析方法和技術,從中提取有價值的數據知識。三是價值性。大數據時代下的數據統計分析,其價值也是巨大的。大數據不僅反映了社會、商業、生產、生活等方面信息,同樣這些有價值的信息可能會轉瞬即逝。通常,價值密度與數據規模成反比。以視頻數據為例,一小時的連續不間斷視頻,其有價值信息可能僅有一秒。由此,對于數據的接收、處理思想和方法,都需要轉變,從而更好地從大數據中提純有價值的數據信息。四是高速性。面對大數據,傳統的數據統計方法或工具,顯然是無法快速、高效處理大數據的,藉于大數據統計分析的時效性,需要我們能夠轉變統計分析理念,從海量數據統計分析中獲得高效統計目標。
對于大數據時代下的數據統計分析理念,顯然傳統的分析思想是需要轉變的,如何轉變?從數據統計研究視角,需要從三個方面來轉變。
在統計學領域,抽樣調查是進行數據統計分析、推斷,了解數據總體規律性的重要方法。但面對大數據,顯然,抽樣調查的數據對象更加復雜、多樣,傳統的抽樣調查方法對大數據的數據收集、處理能力有限,抽樣調查中樣本的數量、質量與總體大數據相比,顯得片面,無法真實反映總體數據規律性。也就是說,在大數據背景下,利用傳統的抽樣調查方法是行不通的。原因歸結為:一是傳統抽樣調查中,面對大數據中數據規模快速增長、數據結構類型多樣,隨機取樣困難等問題。現代網絡技術環境下,對于信息數據的獲取途徑更多、更便捷,加之外出旅游、學習、更換工作崗位的次數增多,人口流動性加快,使得數據統計信息出現更多的不規律性。同樣,面對商業領域,各企業經營狀況不穩定,對市場機會的把握不力,導致企業經營風險更大,從這些企業數據信息進行抽樣調查,無法真實反映企業實際狀況。二是事先設定的調查目標反而局限了調查范圍及內容。通常,抽樣調查需要先確定目標,然后根據調查對象、調查經費選擇適當的調查樣本量。但對于大數據背景下的海量數據,前期所設定的調查目標,不能全面反映總體要求,反而限制調查范圍。三是調查樣本量局限,抽樣結果經不起細分。以傳統抽樣調查為例,在一定經費條件下進行樣本量設定,如果進行細分內容調查,則會因樣本量太少而不具備代表性;同樣,在隨機抽樣調查中,也經不起細分,導致調查結果錯誤率增大。我們以某地企業抽樣調查為例,最初以服裝企業展開抽樣調查,之后,如果想具體了解小型服裝企業經營狀況,可能在抽樣樣本中滿足該條件的企業很少甚至沒有。回到大數據背景下的數據抽樣調查實際,這些規模、結構繁復的數據,更難以從樣本量中把握整體情況。四是糾偏成本高。在傳統抽樣統計調查中,抽樣框不穩定情況多有發生,而一旦出現偏誤,調查結果與預計結構相差巨大。面對大數據下瞬息萬變的數據,糾偏調整統計調查方案,其成本更大。
統計工作的目標在于從數據分析中獲得完整性、精確性、可比性、一致性調查結果。這種要求,也是以往單一數據結構下的數據分析結果。不過,面對大數據時代,數據來源的廣泛性、數據結構的復雜性、數據處理技術的多樣性,使得“精確性”數據統計結果是難以獲得的。也就是說,在大數據統計調查分析中,盲目追求精確性統計結果是不可取的。傳統調查統計中,數據量有限,數據來源單一,從統計分析中可以獲得反映總體數據特征的精確信息。但對于大數據下,“不精確數據”并非無益,也是我們認識總體的重要參考數據。數據的“不精確性”,不會破壞數據的完整性,也有助于我們了解總體數據的真實狀況。如在“小數據”統計分析中,假設某人身高1.8 米,統計了兩次,得到一次1.8 米,一次1.6 米,則在精確性統計結果中會取平均值,即1.7 米;在大數據統計分析中,對于該身高可能測得10 萬次,其中有20 次為1.6 米,其余為1.8 米,則在統計結果中,就會將1.6 米的測量數據看作“異常值”予以剔除,但卻很可能認定該人身高為1.8 米,反而更接近真實情況。所以說,大數據時代下對總體信息的統計分析,樣本量的增加,反而更接近總體實際值。“不精確性”是大數據時代下數據統計分析處理允許的,是偶然產生的,但在實際統計調查分析中,還要加強數據分析方法的優化,降低“不精確性”。
傳統的數據統計分析,往往假定事物間存在某種因果關系,并據此構建統計模型,驗證假設。大數據時代下,數據結構、數據量的劇增,使得數據關系更趨復雜。因此,在大數據統計分析時,將不再關注“因果關系”,轉而關注事物間的關聯性。需要強調的是,在事物關聯關系分析中,需要注意三點:一是大數據統計分析思路不同于傳統統計方法。傳統統計分析,以假設關系為參照,探究變量間的相互關系,這是藉于“先假設,后關系”的分析思路。相反,大數據統計分析,往往直接分析計算現象之間的相依性,即存在關聯又存在關系。二是大數據統計分析中的關系形式不同于傳統統計分析關系形式。在小數據時代,數據統計中的相關關系多為線性關系,而在大數據時代,相互關聯的信息現象多而復雜,其關系既可以是線性關系,也可以是非線性關系。如在一些半結構化數據、非結構化數據統計分析中,變量之間的關聯關系是無法直接進行表示的。三是大數據統計分析的關系目的不同于傳統數據統計變量之間的關聯關系。在傳統統計分析中,往往探求變量之間的親疏程度,了解其因果關系,并試圖構建回歸方程對因變量進行預測。在大數據時代,數據統計分析的目的,主要體現在變量或現象之間的關聯性,實現由此及彼的關聯預測。也就是說,在大數據統計分析中,一般不做原因分析。同時,考慮到大數據之間價值密度低,流式數據變化快,變量間的關聯關系具有時效性特征。
大數據時代下對統計數據分析理念的變革,為統計學理論、實踐帶來了發展契機。如依托現代云計算、大數據統計分析方法,來拓展數據統計研究的工作范疇,增強統計學的生命力。