彭志發
摘 要:卡爾·皮爾遜(KralPearson)是近代統計學史土最負盛名的統計學家之一。他在統計理論及統計方法上都做出了極大的貢獻。皮爾遜于1900年提出了卡方檢驗,他不僅導出了測度,而且給出了它的分布,使其成為可計算的。卡方分布 (χ2分布)是概率論與統計學中常用的一種概率分布。k 個獨立的標準正態分布變量的平方和服從自由度為k 的卡方分布。卡方分布常用于假設檢驗和置信區間的計算。統計學的發展表明,對于一系列應用來說,卡方的檢驗是一項極其有用的方法,其作用遠遠超過了皮爾遜提出這一概念時所想要解決的特殊問題,在現代統計理論中有著重要的地位。本文對卡方分布的起源進行探索,系統梳理卡方分布的發展歷程。
關鍵詞:卡方分布; 統計學; 卡爾·皮爾遜
1 引言
目前國際上統計界流行的觀點是將統計學分為三大派:經典學派、貝葉斯學派和信任學派。經典學派是指由皮爾遜、奈曼等人從本世紀初到四十年代發展的一套理論和方法,它以概率的頻率解釋為基礎,以有抽樣資料為前提,因此又被稱作頻率學派或抽樣學派。目前國內常見的概率統計教材,大都是講這一學派的觀點和方法的,所以大家都比較熟悉。而關于經典學派的皮爾遜,他的一大貢獻就是卡方分布,統計學一直發展至今,卡方分布仍然起著非常重要的作用,所以本文對卡方分布的起源進行分析也具有重要的現實意義。
2 卡方分布的產生
正當皮爾遜作為一位應用數學教師和科學哲學家受到人們的尊敬時,有兩件事改變了他的專業研究方向。其一是高爾頓的《自然遺傳》在1889年出版,其二是1890年任命韋爾登為大學學院動物學喬德雷爾教席教授[1]。
2.1 相關和回歸概念的產生
《自然遺傳》概括了高爾頓關于遺傳的相關和回歸概念以及技巧方面的工作,明確思考了它們在研究生命形式中的可用性和價值。在該書出版那年,皮爾遜在前面提到的那個小俱樂部讀了一篇評論此書的論文,他了解到相關和回歸的數學問題并未弄清。他對高爾頓的相關概念的含義十分著迷,看到這是一個比因果性更為廣泛的范疇,因果性只是它的極限。它把心理學、人類學、醫學和社會問題引入數學處理的領域。皮爾遜立即決定全力為統計學這一新學科奠定基礎,他在接著的15年內幾乎是單槍匹馬地奮戰在這一前沿領域。韋爾登在1891年初受命后,開始應用、拓展、改善高爾頓的測量變異和相關的方法,以尋求支持達爾文自然選擇理論的論據。這些工作不久使他在經典誤差理論外碰到了一系列難題,這位劍橋動物學家的數學能力是難以解決它們的[2],韋爾登請求皮爾遜幫助。
皮爾遜結合準備格雷沙姆講座和大學學院統計理論的兩門課程(1891一1896),對來自生物學、物理學和社會科學的統計資料作了圖示的、綜合性的處理,討論了概率理論和相關概念,并用擲硬幣、抽紙牌和觀察自然現象來證明它們。他引人“標準離差”術語代替麻煩的均方根誤差,并論述了法曲線、斜曲線、復合曲線。他關于變差和相關的四篇材料發表在《哲學學報》上。他創造出3個、4個乃至n個變數的正態相關的一般理論,揭示出早先探索的斜相關和非線性回歸的一般理論。
在之后的日子里,皮爾遜一直在對統計學進行研究,發表了上百篇的論文,將統計學的理論和應用更加深入,更加具體化了。皮爾遜發展了矩量法,又定義了曲線的類型,并討論了曲線的應用。在隨后的幾十年中,生物學家和社會科學家廣泛應用皮爾遜曲線來處理觀察數據,結果消除了人們把正態分布作為生物、物理和社會現象的變差的唯一數學模型的信仰。該曲線系在統計理論和實踐中取得了未曾料到的重要性。
2.2 皮爾遜相關系數的產生
皮爾遜還在高爾頓和韋爾登等人關于相關和回歸統計概念和技巧的基礎上,建立了極大似然方法,可以稱為“皮爾遜相關系數”。隨后,皮爾遜發表的論文中將多元正態相關的理論幾乎發展成為一種實用的工具。皮爾遜之后又創造了斜相關理論和非線性回歸,到了1926年,皮爾遜證明樣本回歸系數的分布分別是關于相關總數回歸系數對稱的類型VII分布。盡管相關和回歸分析的步驟今天不同于皮爾遜和他的同事原先提出的步驟,但是前者是建立在后者的基礎上。皮爾遜在世紀之交采取的步驟無論如何在當時來說是開拓性的、富有獨創精神的[3]。
2.3 卡方分布的產生
對于用來估計總體參數的樣本函數在大樣本中的標準誤差問題的第一個普遍探討,是由皮爾遜和年輕的法國數學證明者菲爾翁在“論頻率常數的可能誤差及隨機選擇對變異性和相關的影響”一文中給出的。皮爾遜后來發表了一組文章用來答復讀者的詢問。哲學雜志》1900年6月刊載了皮爾遜一篇有名的論文,他在文中引人了一個準則χ2=Σ[(fi-Fi)2/fi] ,它是觀察和假設之間一致性的量度,用來作為確定概率的基礎。其中差fi-fiχ2 fi-Fi(i=1,2,k) (i=1,.2..,k)以這樣的概率共同地起因于隨機取樣的不可避免的漲落,fi表示在k個互斥范疇第i個中觀察到的頻率,Fi 是對應的理論頻率。他導出χ2 在大樣本中的取樣分布是k的函數,發現它是類型三分布的特化形式,現稱為“關于k一1自由度的χ2 分布”。 χ2 準則開創了統計決策的新紀元,它無疑是皮爾遜在統計理論和實踐方面的最偉大貢獻之一。1904年和1911年,皮爾遜又兩次把他的χ2 準則加以推廣,用來檢驗統計學的一些問題。
3.卡方分布的應用
皮爾遜從他1896年關于相關和回歸的第一篇基礎論文起就卷入到遺傳和進化的研究中,他充分證明了他的新數學工具在解決這些問題中的價值。在“史前人種身高的再建”(1898)和“論親族遺傳定律”中(1898),他導出了各種親族回歸和相關系數的理論值,檢驗了高爾頓的身高資料,并提出推廣了的高爾頓親族遺傳定律。他宣稱:“……把全部復雜的遺傳影響的跡象納人簡單的描述性的陳述中是十分可能的。如果達爾文的進化是與遺傳結合的自然選擇的話,那么必然可以證明,囊括整個遺傳領域的單一陳述對生物學來說就象引力定律對天文學家一樣是劃時代的。”盡管后來,孟德爾學說牢固確立起來了,但并沒有消除生物統計方法的用途和意義。皮爾遜的卡方分布在生物統計領域還起著重要的作用。
4.結論
皮爾遜對于統計學領域的作用是不容小覷的,其卡方分布作用也是不可小覷的,其在數學領域、統計學領域,甚至是生物基因領域等等方面,都起著非常重要的作用。通過對卡方分布的起源進行系統的梳理分析,對皮爾遜創作過程的了解熟悉,讓我們了解了數學方法的奧妙之處,卡方分布可以從數學領域發展到生物領域,進而發展到其他領域,這是非常偉大的舉措,是值得我們學習的。對于卡方分布的研究還任重而道遠,卡方分布的作用之大,是無法想象的,其應用的領域是否還可以擴展是不可知的,還需要學者們進行進一步的努力和研究。
參考文獻:
[1]姚存峰. 卡爾·皮爾遜──數理統計學的奠基者[J]. 數理統計與管理, 2011(4):37-38+65.
[2]丁海勇, 史文中. 利用卡方分布改進N-FINDR端元提取算法[J]. 遙感學報, 2013, 17(1):122-137.
[3]朱祖銳, 陳守全. 卡方分布序列最大值的收斂速度[J]. 西南大學學報(自然科學版), 2016, 38(9):137-142.