中國人民大學 孫乙丹
最初的統計學知識對各類數據按照信息需求者的要求整合并描述,統計學經過發展,已經融合了相關數理理論,逐步成為具備一定理論價值和獨特研究方法的統計學科。統計學距今已經有三百多年歷史,邏輯框架極為嚴謹。隨著近年來計算機和互聯網的普及,給統計學帶來了顛覆性進展,各種統計推斷模型和方法以及數理統計等對統計學發展具有推動作用,統計學隨著大數據的發展,逐步滲透到各領域。
在之前的統計實踐中,僅僅局限于實物階段,對事物簡單記錄和統計。統計學研究的內容上分為政治算數和國術兩個學派。這兩大統計學派的誕生,促使統計學除了計數功能外,增加了更多的實用功能。同時它們還對統計學理論有了更深一層的概括,將不同的統計實踐概括成了比較成熟的理論。可以說,這兩大學派使得統計知識更加系統和完備。在這之后的很長一段時間,兩大學派互相爭論,兩大理論互相碰撞,也是傳統統計學的雛形。
1.概率論—統計學的基石
(1)初期概率論
上文提到的在政治算術學派和國勢學派的爭論時期,有的數學家通過博彩業中出現的大量問題,提出概率論。隨著時代的發展,逐步衍生了組合、遞推、條件概率等,這些公式、理念的提出促使概率計算從最原始的技術進入較為高精的階段。概率論最初與統計學關聯度并不高,隨著數學分析等數學理論融合概率論,概率論具備了數學的嚴謹性,提高了適用性,進一步擴大了與統計學的關聯程度,也擴大了應用范圍。
(2)大數定律
英國數學家將賭博中的現象理論化并提出伯努利定理,也是大數定律的最初模型,初期的統計學方法和理論都是建立在該理論基礎上而形成的。
(3)中心極限理論
中心極限定理于17世紀30年代被提出,歷經了200年,于上世紀30年代才完成,論證了獨立變量和中心極限理論。概率論中的中心極限定理在樣本量為N→∞時,極限分布呈現正態方式,也是數理統計學中的大樣本方法基礎。
(4)隨機過程
概率論從最初的靜態變量發展為隨機變量時間序列,在發展到隨機變量過程中還不斷深入研究概率論的應用范圍,隨機變量實現了靜態到動態的重大研究發現。隨機變量描述了時間推進過程中變量運動情況,并對結果進行判斷和決策,促進了數學和非數學領域得以延展,具有一定的突破性和實用性。
2.數理統計的提出與發展
“逆概率”是二項分布概率P的新問題,也是大數據定律和中心極限定理衍生出的數理統計,統計推斷包括頻率和貝葉斯兩個學派。頻率學派是將所推斷的參數θ假設為固定的未知常數,樣本χ屬于隨機任意數,重心放在樣本空間。貝葉斯學派則將θ假設為隨機變量,樣本χ為固定常數,重心放在參數空間。貝葉斯學派是貝式統計理論發展而來的,以概率為基礎研究“逆概率”理論。在樣本量較少,參數模型不多的前提下,貝葉斯較頻率方法更加便捷,因為可省去抽樣分布工作步驟。如果先驗分布設定存在困難,在沒有參數模型的前提下,則頻率方法更加便捷。統計學中的概率理論和實踐過程中的各類數據在數理統計作用下可以結合,可反向推導統計參數,為統計學樣本的概率作出預測、控制和分析而夯實基礎。
傳統統計方法需要人工收集數據并按照數據要求進行整合,數據主要來源于實地調查或者其他渠道獲得,數據獲取難度較大,統計過程中多以抽樣為主,且統計分析方法基于因果關系,是通過部分數據推測整體的事物分布的統計學科。隨著大數據的發展和計算機互聯網的普及,數據獲取、儲存更加便捷,統計數據實現云計算,實現大數據智能分析。統計學仍以數據為基礎,大數據提高了統計學的統計效率。大數據為背景的數據具有高效性、大量性和多樣性特點,彌補了傳統統計的高成本和高誤差的不足。但大數據的一些聚類、搜索以及分類離不開統計學的理論方法。大數據背景下統計學可以實現機器學習,也是計算機和統計方法的融合,彰顯人工智能對數據的處理能力。機器學習是基于統計學概念和理論的,拓展了統計學范圍,提高了統計學的應用價值。
1.概率論方法的應用
統計學在人工智能發展中主要應用自然語言處理,使機器具備人的思維能力,來完成自然語言處理,統計學運用于自然語言處理打破了傳統思想禁錮。隨著大數據的應用,數據量加大,計算能力有所提高,統計學中的語言模型已經演變為自然語言處理,一些語音識別、手寫體識別、漢字輸入等技術被廣泛應用。統計學中的語言模型是根據語料庫對單詞出現概率進行估計,系統會自動選取出現的概率大的當做輸出對象。因此,統計語言模型是自然語言處理方法中最有效的一種。
2.貝葉斯統計理論方法的應用
貝葉斯統計理論衍生了樸素貝葉斯分類器,可以對條件概率分布作出獨立性假設。樸素貝葉斯法進一步對自變量、因變量進行估計,貝葉斯公式對給定的輸入χ,對條件概率分布和先驗概率模型作出后驗概率分布,假設后驗概率確定為χ類,通過貝葉斯定理可以得出模型的估計。樸素貝葉斯模型在分類問題中對結果概率評估具有一定優勢,隨著貝葉斯統計理論的發展,其分類模型以及衍生的領域在醫療診斷和文本分類領域應用廣泛。
3.回歸分析方法的應用
首先是線性模型法,是對變量之間存在的線性關系進行預測,?(χ)=w1χ1+w2χ2+……+wdxd+b,模型在小二乘法w1,w2……wd,b后證實確定。回歸分析模型中,線性模型是機器學習所有回歸問題的基礎,具有易于掌握的特點,因此,w的分量大小在預測中突出了屬性的影響力。機器學習中,變量間的關系用線性無法表達時,可選用核函數變量補充處理,回歸問題中線性模型是應用中最廣泛的一種方式。回歸問題中還能對線性判別模型進行分析,運用降維方法在監督學習中運用。
其次,邏輯斯蒂回歸模型回歸問題中,線性回歸模型可以在分類過程中將分類作出標記,運用可導函數γ與預測出的回歸模型相聯系,促使回歸模型轉化為分類模型。邏輯斯蒂函數y=1/1+е-Χ作為替代函數,并用預測結果估計對數概率。同時可以實現預測類別,對近似概率實現預測,在輔助決策的事物中可以應用近似概率。
4.多元統計分析方法的應用
主成分分析在多元統計分析中最為常見,是機器學習中一種比較常見的降維方法。在一些超大量數據處理的場景中,太多變量出現容易影響和擾亂模型運行效率和準確率。這種情況需要減少變量個數,在此基礎上得到最全面的信息,這是主成分分析領域的基礎思想。因此通常根據最大方差思想來處理變量中最關鍵、最重要的信息。一般情況,在面對海量數據時,尤其這些數據還呈現出比較典型的特征時,這種思想能起到化繁為簡的重要作用,同時也會降低模型后期的運算消耗。
多元統計分析衍生出的聚類分析處于初期階段,該分析方法主要是根據一種分類方法把沒有分類的變量根據一定規律使其相似部分歸為一類。具體包括系統、圖論、有序樣品、模糊等方法,根據度量法劃分為多個類別數據集,在多元統計分析中,具有一定相似性的數據歸為一個類別,而類別之間的數據具有存異性特點,在數據處理和提取中有一定分析優勢,也是多元統計的一大特點。
根據CIKI數據庫有關機器學習、統計方法、大數據領域等文獻發表,可以證實,10年前有關機器學習領域的論文不多見,2016年,統計方法領域的論文數量攀升至最高點。大數據領域的相關文獻數量增長,并且增長速度一直居高不下。從文獻內容上可以看出當前我國大數據發展勢態,更為明顯的是,增長速度已經超越了傳統統計方法,進入了全新時期。
從WOS核心分析機器學習、大數據以及統計方法研究相關文獻數量來看,2012年以來相關文獻發表較多。值得注意的是,機器學習領域論文數量從2016年開始超出統計方法數量,這兩個領域的論文數量一直高于大數據領域。在我國,這兩個領域的論文相關觀點和理論闡述與國際先進水平相比仍有上升空間,表明我國該領域還需不斷創新研發,提高各項技術水平。
為了進一步證實統計學方法以及大數據領域發展防線,通過CNKI數據庫搜索引擎對該領域有關的關鍵詞進行查找分析,運用專用圖譜軟件,結果顯示,統計方法領域“統計分析”“主成分分析”等詞匯出現頻率較高,而大數據領域“數據時代”“云計算”等關鍵詞匯出現頻率較高。通過上述關鍵詞中不難發現當前國內統計和大數據領域的研究特點,可以判斷出兩種統計方向有部分重合的區域,大數據需要統計學方法作輔助,統計學方法需要大數據作為數據支撐。
可以說,世界上有數據的地方就有統計學的存在。統計學從17世紀發展到今天,經歷了諸多變革,內容和理論也在不斷更新完善,應用的領域也在不斷擴大。大數據時代已經來臨,大數據和統計學具有互補性,大數據背景下統計學應具備智能化特點,借助當前信息發展不斷創新統計學方法。我國統計學和大數據技術與國際相關領域對比,都傾向于數據分析和發掘方向。因此,應鼓勵統計方法與新技術進行融合,促進統計方法在大數據背景下發揮作用。