李秀麗
摘 要:大數據時代的到來給我們的社會和生活帶來了強烈沖擊,它從方方面面影響著我們的行為特征和思維方式,對于以數據為研究對象的統計學而言,為了適應大數據時代的發展就必須調整思維,在認識數據、收集數據和分析數據三個方面作出創新突破,并且從多個角度對統計工作進行改進,以積極應對大數據帶來的變化。本文從大數據的認識和統計思維的變化入手,探究了統計工作應如何應對大數據。
關鍵詞:大數據 統計新思維 國家戰略
中圖分類號:F204 文獻標識碼:A 文章編號:2096-0298(2018)02(b)-005-02
大數據是互聯網時代快速發展下的階段性成果之一,大到國家戰略、小到民間商業,尤其是電子商務等領域早已率先應用大數據技術。鑒于此,以數據為研究對象、具有專業嚴謹特點的統計學,應該積極面對大數據潮流,促進其長足發展。
1 正確認識大數據
大數據是一個整體概念,它的“大”指的不是數量大小,而是意味著“整體、全體”。站在統計學的角度,大數據是以信息為單位,借助現代信息技術和計算機工具,對所有類型的數據進行記錄和存儲。大數據將傳統統計學中刻意收集的、有一定限度的、結構化的樣本數據,擴充成任意類型、沒有上限、數字化數據。大數據對傳統統計學造成的最大影響就是:以大數據的大體量和多樣性覆蓋了樣本數據的不可擴充性和局限性,從而使得統計學所需要的研究數據包含了所有信息,相關的分析研究也更加準確。從另一個角度來說,統計學是研究數據的學科,那么既然作為研究對象的數據發生了變化,相應的統計思維也要發生變化,所以就需要適應大數據時代的統計新思維。
2 適應大數據時代的統計新思維
統計新思維的誕生需要以傳統統計思維為基礎,結合大數據的優勢進行合理改變而形成。所謂傳統統計思維是指通過數據分析來研究事物的生存、聯系和發展規律,而大數據恰恰為數據分析的過程增加了難度,因此,統計新思維就應該從認識數據、收集數據和分析數據三方面作出改變[1],具體變化如下。
2.1 認識數據的思維變化
大數據不同于傳統數據,在數據來源、數據類型和數據量化方式上都有明顯區別,應對其有正確認識:從來源上來看,傳統數據來自于身份確定的、目的明確的人或事物,而大數據來自于物聯網中一切可記錄的信號,因此大數據是發散且難以追蹤的;從類型上來看,傳統數據有專門的格式標準,常以統計指標或圖標的形式來體現,而大數據形式多樣且無標準,也不適用傳統數據的表現形式,因此大數據是非結構型的;從量化方式上來看,傳統數據依賴固定的、程序化的方式進行量化分析,而大數據由于其非結構性導致難以量化。基于以上認識,新的思維應該是從數據的定義和分類入手來擴大統計研究的對象,即擴大看待數據的角度和眼界。
2.2 收集數據的思維變化
傳統思維下的收集數據是以目的為導向進行針對性的收集,但大數據的到來使得數據來源和體量無限擴大,因此在收集數據前不需要進行專門調查。但是,由于大數據的豐富性和無限擴充性,導致必須考慮如何進行數據甄別、提煉、利用,以及如何加大數據的存儲。因此,新的思維應該是把收集數據看作一個識別、整理、提煉、汲取(刪除)、分配和存儲數據的過程 [2]。
2.3 分析數據的思維變化
傳統思維下的分析數據經歷三個階段:首先是依靠經驗判斷來找準定量分析的方向以便作出定性結論,其次是按照“假設——驗證”的思路進行統計分析,最后是基于概率來以樣本數據的好壞推斷總體特征。然而,大數據時代不存在數據短缺和分析運算手段有限的情況,因此可以簡化定量分析過程;并且,大數據的全面性彌補了“假設——驗證”過程中的漏洞與不合理情況;同時,大數據下的樣本即為總體,因此在推斷分析過程不需要依據概率。新的思維應該結合大數據的特征,從統計分析過程、實證分析思路、推斷分析邏輯、統計分析評價的標準等角度作出相應調整。
3 基于大數據與統計新思維下的變化
根據上述有關“統計新思維”的探討可以看出,基于大數據與統計新思維下的變化主要體現在數據認識、數據收集和數據分析的新思維中,具體來說,需要作出以下改變來應對大數據。
3.1 改變對個體、總體和樣本的定義方式
傳統思維下的統計分析是先確定總體范圍再收集個體數據,但大數據的到來使得個體數據處于變化狀態,因而無法事先確定總體。另外,傳統思維下的個體由于符號或稱謂的重疊異位,導致數據識別過程難以確定身份,因此必須改變總體與個體、以及樣本的定義方式,即基于大數據的起源無序性和流動變化性,可以把任意時點的總體當作一個截面樣本[3]。
3.2 改變統計學的研究目標
統計學的研究目標是事物的不確定性,通過量化事物的不確定性來總結背后的規律,要實現這一目標就需要收集數據,并通過對數據的抽樣觀察來推斷總體。但是,大數據在保留個體差異性的前提下,使得個體無限趨近于總體,因此樣本的抽取不再具有隨機性。如此一來,統計學的研究目標就應該是研究大數據的不確定性,即研究大數據來源的多樣性與混雜性,以及由于個體差異性所引起的總體差異性。
3.3 改變數據梳理與分類方法
傳統思維下的數據梳理與分類需要預先設定方案,并考慮到標志、指標、分類標識、分組規則等內容,對具有特定目的的收集數據進行加工。而大數據從來源、內容、表現形式上都具有不可預測性,因此只能從事后完善的角度進行梳理與分類。可通過觀察數據的分布特征來選擇差異化的數據梳理與分類方法,這一過程可以借助建模來實現自動化。
3.4 改變對結構化數據和非結構化數據的認識
結構化數據是指傳統思維下不依賴公共網絡系統,而是通過專門的方式進行收集的數據;非結構化數據其實就是大數據,因為它來源復雜、表現形式多樣、難以用傳統統計指標或圖標進行量化。一般我們都認為結構化數據和非結構化數據之間涇渭分明,但隨著大數據時代的發展,發現很多時候既需要針對性的收集結構化數據,又需要從非結構化數據中挖掘有價值信息。因此,必須要改變對結構化數據和非結構化數據的認識,將兩者視為相輔相成,并通過增強對各類型數據的描述能力來實現兩者之間的轉化與對接。
3.5 改變抽樣調查的功能
傳統思維下的數據收集極其依賴抽樣調查,其功能就是通過樣本來推斷總體特征。盡管抽樣調查存在數據信息有限、抽樣范圍封閉、前期準備工作難等問題,但大數據的到來可以將樣本數據無限擴充到整體,從而有效掩蓋這些問題。可即便如此,考慮到成本、效率、大數據覆蓋不全面等因素,在很多時候仍需要通過抽樣調查來獲取信息并進行分析。這樣一來,抽樣調查的功能就變為:作為大數據分析的驗證依據并用于對照,以及快速從混雜的數據中進行挖掘和探測分析。
3.6 改變統計研究方法
傳統的統計研究方法主要是歸納推斷法,即從樣本數據中歸納出樣本特征,再由此推斷總體特征。但大數據淡化了樣本數據的功能,所以僅靠一般特征的歸納推斷是不夠的,還需要對其子類、個體,甚至特殊化、異常化的信息進行分析研究,從而發現更深層次的關聯并找出更具體的規律或結論,這就需要演繹推理法。因此,必須改變單一的統計研究方法,將歸納推斷法和演繹推理法進行有機結合,從而了解大數據的必然性并掌握其偶然性。
3.7 改變數據分析目的
大數據的內容豐富、覆蓋面廣等特點導致在進行數據分析時很容易陷入思維上的誤區,只重視“是什么”,而忽略了“為什么”。但研究數據不能只停留在表面,還需要探究事物之間的聯系,把握數據的背景和產生原因。鑒于此,必須要改變數據分析目的,以相關分析為基礎進行因果分析,通過互補并用來挖掘數據的最大價值。
3.8 改變單一、過時的統計技術
傳統的統計技術在數據的收集和分析過程中發揮出了既定的價值,但大數據的到來使得原本的統計技術顯得單一和過時,不能有效解決計算能力上的不足,因此需要及時作出改變,最可取的方法是依靠現代信息技術的協助,比如:云計算。云計算是指將計算任務分布在大量計算機構成的資源池上,使各種應用系統能夠根據需要獲取計算力、存儲空間和各種軟件服務。借助云計算技術的強大計算處理能力,可以彌補傳統統計技術的缺陷,從而在數據分析中體現統計思想以應對大數據。
4 結語
大數據的到來迫使統計學作出相應調整改變,且這種改變是積極正面的、有助于統計學發展的、適應社會變化的。本文通過對基于大數據與統計新思維下應該作出的變化進行詳細分析,希望能為統計學的長久發展提供方向。
參考文獻
[1] 柴世琿.試論大數據統計的新思維[J].中國高新技術企業, 2015(09).
[2] 劉晨燕.大數據時代統計新思維[J].知識經濟,2015(07).
[3] 李金昌.大數據與統計新思維[J].統計研究,2014(01).