孫溪
【摘要】大數據的時代早已到來,它正在悄悄影響著人們的思維與習慣,它是一場新的革命。以數據為研究對象的統計學也逐漸出現了新動向,但是統計學以數據為研究對象這一點未變、它的性質和任務也未變,改變的是數據自身的內涵、特征和分析思路等,本文從幾個方面來對大數據思維背景下統計學的若干理論問題進行了簡要分析。
【關鍵詞】大數據思維;統計學;理論問題
大數據指的是不限量的數據,它包含了一切可以記錄的全體數據,因此這里的“大”指的是“全體”的意思。大數據相對于傳統樣本數據來說具有更大的數據選擇空間,可以進行多角度、多層次的數據分析。一直以數據為研究對象的統計學歷經了幾百年的發展,為人類的文明進步做出了巨大的貢獻,統計學的發展與人類的發展息息相關。
一、大數據思維下的統計學的三個本質
統計學已有近400年的發展歷史,從起初的簡單算術一直發展到現代最先進的數據科學,在這一漫長的發展歷程中,統計學在期間的每一個發展階段都有其不同的特征,但是統計學的三大本質在這一發展歷程中卻始終未曾發生過變化。
(一)研究對象未變
統計學起源于17世紀的歐洲,在這幾百年的發展歷程中,其所面對的外界大環境一直在發生變化,但是統計學一直基于以現象數據作為研究對象這一本質卻未曾發生過變化。現象數據是統計學必不可少的一部分,它主要囊括了五大方面,分別是:數量關系、數量大小、數量分布特征、數量變化規律以及數量界限。統訓學就是以這五種數量形式作為基礎,運用具體的分析方法來進一步整合研究,從而清晰明了的反映出某種現象的主要特征規律,這種漫長的現象數據研究過程在無形中促進了統計學的不斷發展。
現今,大數據時代已經來臨,在這一時代來臨之前,統計學經歷了從最開始的“只能收集少量數據”到現在“科學收集大數據”這一艱難過程。統計學不僅在收集數據方面取得了巨大進展,其統計方法也變得更加豐富、更加科學。比如在起初進行統計方面的研究時只能使用一些簡單數字進行運算,到如今大數據思維進入人們的世界,統計學領域隨即產生了歸納分析法、大量觀察法等更加新穎科學的分析方法。顯然,數據很好的推動了統計學的進步發展,數據與統計學是相互依存,互利互助的關系,從某種層面上來說,可以把數據比作統訓學的營養供給物,統訓學離不開數據的支撐,以各種現象數據作為研究對象是統計學的必然選擇。
(二)性質未變
統計學是一門通用又獨立的方法論科學,它是通過研究某一種現象的數據關系與特征來反映出這種現象的本質。統計學作為方法論科學的性質從未發生改變,但其實長久以來,學術界對于統計學是方法論科學還是實質性科學一直存在著爭議。但是事實是統計學的確是通過其特定的收集和分析數據的方法來發揮作用的,十七世紀末期威廉·配第的《政治算術》一書也印證了統計學是方法論科學這一觀點。書中大量運用了統計學與推理方法相結合的定量分析方法,作者在書中主要使用了三種數字形式,第一種是將社會經濟現象進行統計調查與觀察得到的數字,第二種是運用特定的數據推算方法推算出的數字,第三種是為了理論推理而使用的示例性數字。此書將統計學與理論分析方法很好的結合在一起,這種方法直到現在仍被廣泛的使用。
其實,單純使用現象數據來表現某一種現象特征十分困難,因此需要一種能夠專門將數據與分析方法相結合的科學,那就是所謂的統計學。在當今這個大數據時代,統計學的方法論科.學的性質更不會輕易改變,大數據時代,統計學所面臨的環境只會更復雜,數據也充滿了不確定性,通過數據看現象本質的歷程會越來越艱難,但是統計學的存在為人類提供了平臺,事實證明,如何解讀數據,最需要的還是方法。
(三)根本任務未變
統計學一直以探求真理、追求真相為根本任務,在近400年漫長的發展歷程中,統計學的這一根本任務從未改變,改變的只是外界環境和分析方法。統計學是通過具體的數據來探求某個現象的本質,長久以來,人們探求真理的過程復雜又艱辛,常常因為沒有合適的渠道去獲取有用的信息,即使得到了足夠的信息,也沒有能力去解讀信息所傳達的真相。統計學是以現象數據為基礎,運用其特有的分析方式來獲取事物的真相,從而幫助人們更好的認知事物真相。
統計學的一些作用更是印證了其以探求事物真相為根本任務這一說法。如統計學可以根據其所依存的大數據信息去推斷未知的數據規律與特征,它包括用樣本數據推算大數據(整體數據),或用現存的數據去推算未來的數據及發展趨勢。推斷未知數據是人類探索事物真相的必要條件,誰能更精準的推算,誰就更占優勢。統計學始終將推斷未知與追求真理作為根本任務,但是由于外界環境的不確定因素的影響,其推斷未知的準確度概率會稍微降低,尤其是在當今的大數據思維背景下,數據每天的更新換代,意味著統計學面臨著更大的挑戰。統計學的分析方法隨著時代一直在改變,但是其追求真理、探求真相的任務初衷卻從未發生變化。
二、大數據思維下統計學的新動向
(一)統計學的數據特征發生改變
大數據與傳統數據最明顯的差距就是數據量更多,除此以外,這兩者之間的數據來源和特征也有較大的差異。以往統計學所收集到的數據量較少,比較結構化,而且數據的類型比較單一,數據處理起來速度較慢,但是傳統統計學統計出的數據往往準確度比較高。而大數據包含了一切可以記錄下來的數據,它所涉及的范圍較廣,數據的來源多樣化,內部結構更加復雜,這些特點導致數據在傳輸或計算的過程中極易丟失,導致發生結果誤差,并且一旦出現數據故障很難通過人工去修復。
(二)統計學的數據分析思路發生改變
統計學在最早進行數據分析時,分析過程一般都是先假設再進行驗證,即以概率們為保證,再根據所統計到的樣本數據推斷出事物的總體特征。而如今在大數據思維背景下,統計學的數據分析思路變為先以收集到的全部數據作為基礎,然后再總結出數據的特征或規律,最后再進行概率判斷。總而言之,大數據思維下的數據分析方法是摒棄假設直接去尋找數據規律,而傳統數據分析方法是先假設再找規律。
傳統統計數據的分析方式較為標準、嚴密,嚴格依附于事物的因果關系,雖然其分析效率較低,但是準確度很高。而大數據思維下統計學的數據分析摒棄了傳統意義上的因果邏輯關系,走的是從數據直接到結果的捷徑,這種分析方法雖然準確度稍低,但是非常適用于現今的大數據統訓學,因為當今這個大數據時代下,三大處理數據的新理念分別是:要效率不要絕對精確、要整體不要樣本、要關聯不要因果邏輯,統計學的數據分析方法要與所處的時代相適應,才能最大程度的發揮出效能。
(三)統計學的數據分析技術改變
在起初,統計學進行數據分析時,所使用的僅是簡單算術法,在當時,接觸過少量數學知識的人即可勝任。再到統計學發展中期,統計學的數據分析開始需要一定的數據庫進行處理分析,相關技術人員通過特定的訓練才可勝任。而如今的大數據時代,數據更新的速度更快,結構更加復雜,統計學的數據分析人員既需要充分了解數據分析的工具,又需要具有較為專業的知識,所面臨的工作挑戰難度更大。
對大數據進行處理分析時要充分考慮到其數據的復雜和價值密度低的特點,因為大數據所涉及的數據范圍很廣,相對來說垃圾信息很多,如何過濾掉垃圾信息保留有用信息十分重要,并巨在篩選的過程中還要保證不能對正常數據造成影響。針對這種情況,Apache基金會發明了一種特殊的編程模型(MapReduce),它具有強大的過濾功能,處理數據的過程很精密,不會對有用數據產生影響,這個模型在如今大數據的處理中得到了廣泛的應用。
(四)數據的質量內涵發生變化
高質量的數據是統計學進行數據分析的必要條件,傳統的統計學數據具有因果關系明確、邏輯性強的質量特征,而當今的大數據是以數據的不確定性作為主要的質量特征。從數據采集過程中來說,傳統統計學數據的量比較小,一般情況下通過人工查找即可實現,而大數據思維下的統計學數據量多且復雜,收集過程中極易發生混亂,在獲取數據時必須采用特定的技術來保證做采集的大數據質量。
數據質量內涵還包含一個方面就是數據存儲,數據的存儲也是實現高水平數據質量的必要保障,只有將所有收集到的數據完整、清晰的存儲起來,才能夠保證數據的質量。傳統統計學所采集的數據具有結構化的特征,因此采用結構化存儲方式即可進行簡單的數據儲存,而當今的大數據結構復雜、數量龐大,必須要用到專門的大型數據庫來進行分類存儲,以保證大數據的有效性。大數據時代下的數據質量內涵有別于傳統數據,為了更好的保證大數據的質量安全,不管是在大數據收集還是存儲的過程中都需要更加的專業、謹慎。
三、小結
大數據思維下,傳統的統計學方法已經不能有效地處理大數據問題,這就需要我們突破傳統的統計學去探尋更適合大數據的統訓方法。大數據思維下的統計學地位不容忽視它是處理分析大數據的唯一途徑,大數據與統計學相互依存、不可分離。
參考文獻:
[1]李金昌.從政治算術到大數據分析[J].統計研究,2014(11):13-14.
[2]趙民德.統計是數據科學(下)[J].中國統計,2004(9):56-57.
[3]宗威,吳鋒.大數據時代下數據質量的挑戰[J].西安交通大學學報:社會科學版,2013(5):38-43.