張娟
摘要:統計實踐活動在誕生之初只是單純的計數與描述,其研究方法和理論是與相關的數學理論相結合的,也就是形成了一門邏輯構架嚴密的學科——統計學。概率論與數理統計,各種統計推斷模型與方法,以及近幾十年來計算機與網絡技術的普及,給數據采集與處理帶來的巨大進步,對統計學的萌芽與發展發揮了重要作用,使統計方法在各個領域得到廣泛應用。通過統計員和有關專家的不懈努力,統計方法不斷完善。從大數據時代統計方法的發展趨勢,應用及拓展談起,不僅能夠加深對統計學方法的認識和理解,也為未來的統計學研究發展方向提供借鑒和啟發。
關鍵詞:統計方法;發展;大數據;應用
引言:當前,大數據浪潮已經逐漸沖擊了世界,對人類社會產生了巨大沖擊,同時也影響了世界的發展進程。大數據的強烈沖擊對應用統計學研究也產生了深遠的影響。本論文主要探討和研究統計方法從萌芽到發展的過程中與大數據、并對其在大數據中的應用進行了探討。
一、不同階段統計方法發展概述
(一)統計學方法的萌芽
初期統計工作僅限于實際工作階段,調查、登記、核實一件事。1671年誕生了政治算術學派和國術學派。就統計學研究的內容而言,國力學派注重國力在不同國家之間的比較,而政治算術學派則注重人口學和生活經濟指標的比較。伴隨著政治算術學派和國家權力學派的出現,統計開始發揮著超越計數的作用。將大量的統計實踐歸納為統計理論,使統計知識系統化和綜合化。從那以后,政治算術學派與國家權力學派爭論了二百多年。最終,這一分歧的解決為今后的統計發展奠定了基礎[1]。
(二)統計學方法的關鍵發展
1.概率論—統計學的基石
早期概率論,數學學派與國力學派爭論不休的時期,數學家通過解答大量的博弈問題,創造了一種新的學科概率理論。結合式,遞推式,條件概率式,全概率式,期望式的概念,使得概率計算由簡單計數階段發展到更加精確階段。在早期,由于概率論本身還不夠成熟,概率論和統計學的交叉并沒有迅速展開。但隨著數學分析等數學理論的發展,概率論在數學上有了很好的基礎,大大提高了它的嚴謹性和通用性,為它在統計上的擴展提供了依據。
2.隨機過程,十九世紀,概率論的發展由相對靜態變量研究發展到隨機變量時間序列即隨機過程研究。隨機性的產生大大拓展了概率論的應用和研究領域,使隨機變量的研究由靜態向動態發展,取得了很大進展。時間序列分析的理論基礎是隨機過程描述和研究變量隨時間變化的運動過程,并將相關結果應用于實際預測和決策。隨機性和實踐性的特點使其在數學和非數學領域有著廣泛的應用和發展。
3.大數定律,約在1685年,英國著名數學家伯努利完成了他的學術巨作《推測術》,但這本書1713年才出版,在書中他用數學把賭博中的現象理論化,并提出了伯努利定理。伯努利定理是“大數定律”的最初形式,而許多統計方法和理論都建立在大數定律的基礎上。
(三)數理統計的提出與發展—統計學和實踐相結合的開始
隨著大數定律和中心極限定理的提出,二項分布概率P的“逆概率”問題作為新的問題產生了。“逆概率”指的是結果推原因,即為數理統計。關于如何做統計推斷問題,統計學家的觀點主要分為兩種:一種是頻率學派,認為參數 E是固定的、未知的常數,而樣本 x是隨機的,其焦點是樣本空間。二是貝葉斯學派,它與頻率學派相對立。把參量 E看作是一個隨機變量,樣本x看作是一個固定變量,關注參數空間。源于十九世紀六十年代貝葉斯統計理論的貝葉斯學派,用概率論的方法來解決“反概率”問題。對于一些參數模型和小樣本情況,貝葉斯方法較頻率法更為方便,因為它可以避免求樣本分布的麻煩。非參量模型不易設定先驗分布,采用頻度校合法更為方便。所以,兩者是互補的。數學統計的出現,使得將統計的概率論和實際得到的數據結合起來,實現對統計參數的逆向推導成為可能,是統計學發展的一個重大突破。由此,統計數據能夠從樣本中獲得總體概率估計,為以后的統計預測、控制和實證分析奠定了堅實的基礎[2]。
二、統計學方法在大數據時代的應用
過去,對資料的收集整理主要是通過人工,主要包括試驗調查資料和一些二級資料等渠道進行。資料稀少且昂貴。主要依據抽樣數據進行統計分析。這種方法是以因果關系為基礎的統計分析,是一門綜合學科,它以一定的數據推論整體,進而得出事物的總體分布。隨著計算機技術和互聯網、物聯網的發展,數據的取得、記錄和儲存和過去相比變得更加容易,可以用于分析的數據呈幾何級增長。統計是以數據為基礎的,在此意義上,大數據的產生對統計工作具有劃時代的意義。海量數據具有多樣性、海量性和高速性的特點,這與高統計成本、大誤差相對應。但這并不意味著統計數字時代的終結。大數據的搜索,聚類和分類仍需要依賴于統計方法。機器學習是大數據時代統計學中最不可分割的部分。機器學習專家 MichelleJordan和 TomMitchell認為,機器學習是計算機科學和統計學的交叉學科,是人工智能和數據科學的核心。如今,機器學習已成為統計學的發展方向,擴大了統計學可研究問題的范圍。與此同時,機器學習也離不開統計。有很多可以用于機器學習項目的統計方法,它們都很有價值[3]。
結語:
總的來說,只要有數據,就有統計數據。統計學從17世紀國力學派、算術學派的論戰,到今天與大數據、計算機技術的互動,其內容不斷更新和完善,應用領域不斷拓展,統計方法也不斷創新。伴隨著大數據時代的到來,統計學研究開始從小樣本的統計推斷分析轉向大樣本挖掘。今后的趨勢是把現有的統計方法和數據思維結合起來,產生新的統計方法,或者更廣泛地應用大數據算法。未來我國統計方法的發展應充分考慮實際需要,積極適應時代的變化。目前,隨著大數據時代的全面到來,大數據技術已在我國廣泛應用,并在實際應用過程中取得了令人滿意的效果。大數據與統計方法相結合,能夠更好地反映統計方法的作用,使統計方法不斷發展壯大,它的功能在大數據背景下得到了更加充分的體現。
參考文獻:
[1]"大數據中的統計方法"課題組,馬雙鴿.大數據時代統計學發展的若干問題[J].統計研究,2017,34(01):5-11.
[2]李金昌.基于大數據思維的統計學若干理論問題[J].統計研究,2016,33(11):3-10.
[3]邱東.大數據時代對統計學的挑戰[J].統計研究,2014,31(01):16-22.