李增
慈溪市觀海衛鎮人民政府 浙江慈溪 315300
大數據是互聯網時代快速發展下的階段性成果之一,大到國家戰略、小到民間商業,尤其是電子商務等領域早已率先應用大數據技術。鑒于此,以數據為研究對象、具有專業嚴謹特點的統計學,應該積極面對大數據潮流,促進其長足發展。
大數據的內涵不僅包含在數據內容上,還體現在大上面,因此大數據的內涵與傳統的數據不同,不僅在數據的記錄和存儲比以往的數據空間大,同時也是運用現代信息技術,促使記錄數據的手段不斷更新,能記錄更多的數據,幫助企業或者有需要的人們,在社會不斷發展的今天,人們需要的則是隨時可以記錄、記錄類型多樣的數據體系,因此在統計分析的層面看,大數據就比以往的傳統數據的利用價值更多,更大,因為傳統的數據屬于樣本數據,記錄的方式和容量是有限的,而大數據不同,它是可以多角度,全方位的記錄的數據,而大數據對于做數據研究還能夠提供依據,具有動態性,因此大數據是一切人們可以利用記錄的符號的組合,也是具有無限的空間的,滿足多種記錄的要求的數據庫。
大數據相比于傳統數據,在類型、量化方式和數據來源上都發成了巨大變化。傳統數據收集目的性強,可以確定數據來源,即數據提供者的信息和身份,在數據分析后還可以進行修改校對。而大數據很難從微觀層面追溯來源,因為大數據基本來源于互聯網,數據產生并不以收集為目的。傳統數據的數據類型具有一定的結構性,基本上是定量和定性數據,標準和格式也是固定的,最終通過統計圖標等方式呈現出來。而大數據沒有結構性或者具有半結構性特點,包括一切可以記錄的符號。傳統數據在數據量化方面來說是非常成熟的。量化之后,數據可以直接用來做分析和計算。而大數據在數據量化方面則面臨一個巨大的挑戰。因為大數據背景下,不同系統對數據的分析都是不同的。因此,大數據的非結構性特征改變了傳統的數據結構和數據量化方式[1]。
傳統思維下的收集數據是以目的為導向進行針對性的收集,但大數據的到來使得數據來源和體量無限擴大,因此在收集數據前不需要進行專門調查。但是,由于大數據的豐富性和無限擴充性,導致必須考慮如何進行數據甄別、提煉、利用,以及如何加大數據的存儲。因此,新的思維應該是把收集數據看作一個識別、整理、提煉、汲取、分配和存儲數據的過程。
信息時代,計算機技術的儲存和分析技術不斷提升。統計工作可以利用現代信息技術或者各種軟件,主動從大數據中發掘有用的信息。傳統的定量分析慢慢變得簡單化,而統計工作僅僅需要從定量回應中挖出數量關系,為最終決策提供數據依據和支撐。傳統統計是根據樣本的特征推斷出總體特征,這就決定了樣本的質量決定結論質量。大數據的統計分析是針對總體數據進行的,將不再受分布理論的制約。大數據下的統計遵循著嚴格的思維邏輯,即,從實際分布到總體特征再到概率判斷。
正確認識統計新思維,必須主動轉變觀念,達到思想和行動的統一。傳統數據首先有總體,然后是樣本和數據。對大數據來說,數據在前,總體在后,歸根結底是因為大數據的個體處在不斷變化中,很難用傳統的名錄庫做歸納和總結。大數據具有變動流通性,一個個體有多個表達方式,不同網絡體系中同樣的表達方式代表的卻不是同一個個體[2]。
傳統數據分析可以按照預定方案進行,而對于大數據而言,受到大數據先有個體后有總體的影響,傳統的數據分析方法將不再適用。大數據中存在的各種信息內容、網絡流行語等,我們很難對各種信息進行有效地分類,也很難對信息個體的對應關系加以劃分和控制,我們只能從超大容量數據本身入手,觀察數據的分布特征,加強非結構化數據的研究。
在自然現象和社會生活中,個體存在差異,可以通過目標對象的不確定性發現其中規律。而要研究不確定性時,首要就是收集數據。因此大數據的不確定性不再是傳統的獲取樣本,推斷總體,而是來源于數據多樣性,數據來源混雜性。改變對不確定性的認識,有助于我們適應統計的新思維,新常態。
傳統的統計技術在數據的收集和分析過程中發揮出了既定的價值,但大數據的到來使得原本的統計技術顯得單一和過時,不能有效解決計算能力上的不足,因此需要及時做出改變,最可取的方法是依靠現代信息技術的協助,比如:云計算。云計算是指將計算任務分布在大量計算機構成的資源池上,使各種應用系統能夠根據需要獲取計算力、存儲空間和各種軟件服務。借助云計算技術的強大計算處理能力,可以彌補傳統統計技術的缺陷,從而在數據分析中體現統計思想以應對大數據。
傳統思維下的數據收集極其依賴抽樣調查,其功能就是通過樣本來推斷總體特征。盡管抽樣調查存在數據信息有限、抽樣范圍封閉、前期準備工作難等問題,但大數據的到來可以將樣本數據無限擴充到整體,從而有效掩蓋這些問題。可即便如此,考慮到成本、效率、大數據覆蓋不全面等因素,在很多時候仍需要通過抽樣調查來獲取信息并進行分析。這樣一來,抽樣調查的功能就變為:作為大數據分析的驗證依據并用于對照,以及快速從混雜的數據中進行挖掘和探測分析[3]。
總之,大數據時代,信息化技術的沖擊,需要我們用新思維引領統計,主動構建數據化大格局。在正確認識大數據的前提下,轉變觀念,主動去適應和改變統計思維。