徐傳勝
大千世界充滿著不確定性:明天晴否?成年后你身高多少?下次數學考試成績如何?將來從事何種職業?和誰結婚生子?等等。從遠古時代起,估計各種可能性就是人類的一件要事。為研究不確定性。人們開始了數據統計以及數據分析,以求對自然和社會現象作出較為客觀的近似估計。原始數據的提煉應盡可能抓住事物的本質特征。這就有了統計量。反映研究對象集中程度的統計量主要有平均數、中位數和眾數。它們都已有較長的歷史。
一、平均數
平均數的應用很多,不過它最早是用來估計較大的數據。約公元4世紀。印度有棵枝葉茂盛的大樹,某人想估計其果實的數目。他首先計算了根部一條細枝上果實的數目,再數出整棵大數的細枝的數目,然后將兩數相乘得到估計值為2095。盡管不能確定他如何選擇那條細枝,但猜測他應該是選擇了一條具有平均大小的細枝。類似地。我們可以估計某市某街道一天通過的車輛數。也可以估計我們掌握的英文單詞數量。
天文學的發展促進了統計學的發展。也使得平均數更有用武之地。1585年,荷蘭數學家斯蒂文(1548-1620)系統地探討了十進制記數法,并發明了小數。這就為平均數推廣到n個數的情形提供了便利。當時,天文學家需要計算多個觀測值的平均數。以便把誤差降低到較小的程度。最為典型的是,丹麥天文學家第谷(1546-1601)把對觀察數據分組的技巧引入了天文學。1572年11月11口,第谷發現了仙后座中的一顆新星。后來。他受丹麥國王的邀請,在汶島建造了天文觀象臺。經過20年的天文觀測,第谷發現了許多天文現象,其觀測精度之高,令同時代的學者望塵莫及。比如,為獲得某天文學數值的估計量,他先從1582年的天文觀察數值中。挑選了3個數據;又把1582年至1588年的24個數據,兩兩任意分組,分別求出其平均數,得到12個數據;最后求出所得的15個數據的平均數,作為真值估計。第谷所編制的恒星表相當準確,至今仍有學術價值。開普勒(1571~1630)就是在第谷天文觀測數據的基礎上。發現了行星運動的三大定律。
英國科學家、數學家哈雷(1656-1743)的名字永遠和哈雷彗星聯系在一起。1705年,他根據天文觀測數據。發現了一個彗星的運動周期,預言其將于1758年返同地球。雖然哈雷沒能親眼看到預言實現,但1758年彗星再次照亮了夜空!哈雷在處理數據方面也有特色才能。他根據統計數據得出布雷斯勞市一些人口方面的結論:平均每年出生1238人,其中平均有348個嬰兒不到1歲就夭折,平均有692人的壽命為70歲;平均每年有1174人去世等。
英國天文學家、數學家辛普森(1710-1761)是個自學成才者。他試圖推廣天文學界計算平均數的方法,但并不為人們所接受。辛普森證得。若以觀測值的平均數去估計真值。誤差將比單個觀測值要小。而且隨著觀測次數的增加誤差會進一步減小。同學們不妨考察投擲硬幣的情形,就會理解這是一個很了小起的研究成果。
1809年,高斯(1777-1855)在、《天體運動州論》中指出:在相同條件下,對研究對象通過幾次直接觀測,則觀測值的平均數提供了其最可靠的取值,即使不太嚴格。但至少十分接近真值。現在,高斯的這個觀點幾乎被看作公理。廣泛應用于自然現象和現實社會之中。
二、中位數
據史料記載,中位數的第一次應用是應用于航海。大海航行中指南針是個重要工具,其用來確定輪船在海上的位置。由于海浪的影響,指南針觀察數據會有很大的差異。而盡可能保證數據的準確性則很重要。1599年。愛德華·賴特描述了他確定指南針位置的方法。他把所有指南針觀察值列成一個表格。在各個不同的數據中。位于最中間位置者最可能接近真實值。
中位數幾乎是作為平均數的替代品而出現的。1924年。費希爾(1890-1962)借助于天文學的方法,應用中位數來描述社會和心理現象。他1912年畢業于劍橋大學。是英同統計學家、生物進化學家、數學家、遺傳學家和優生學家,被譽為現代進化論的首席設計師。他創立了雌雄雙方生物性狀互相促進的進化理論,是達爾文(1809-1882)之后最偉大的生物進化學家。
1882年,高爾頓(1822-1911)第一次他用“中位數”術語,取得了統計觀念上的突破。但其研究對象幾乎都是對稱的,故中位數和平均數沒有太大的區別。高爾頓是達爾義的表弟,深受其進化論思想的影響。他從遺傳角度研究個別差異的形成原因。開了優生學的先河。1889年,高爾頓在研究祖先與后代身高之間的關系時發現了有趣的“回歸現象”。高爾頓搜集了1078對父與子的身高數據。他發現,當父親高于平均身高時。其兒了比父親矮的可能性大;父親矮于平均身高時,其兒子比父親高的可能性大。可見神秘的人自然具有一種約束力,使人類身高相對穩定而不致于產生兩極分化。類似的“回歸現象”還有很多。如期中考試得高分的一組同學在期末考試中的平均分會有所降低。而期中考試分數低的一組同學期末考試的平均分會有所提高。
與高爾頓同時代的艾德沃斯(1845- 1926)發現平均數對極端值具有敏感性,因此選擇以中位數代替平均數。這可能源于艾德沃斯對經濟學的研究,因為其中大多是一些不規則的數據。中位數對極端值不敏感。比如,目前我國高收入者較少,低收入者較多,若按平均數計算,平均收入會低于中間收入。隨著統計學越來越涉及不規則的數據,中位數的應用已日趨廣泛。
三、眾數
眾數是具有集中趨勢特點的一個數值,是一組數據中出現次數最多的數據。眾數一般用M表示。緣于其英文第一個字母。
同學們是否知道戰爭也能促進數學的發展?第一次眾數應用的實例就出現在古希臘的伯羅奔尼撒戰爭之中。這是以雅典為首的提洛同盟與以斯巴達為首的伯羅奔尼撒聯盟之間的戰爭。戰爭從公元前431年一直持續到公元前404年,雙方曾幾度停戰,最后斯巴達獲勝。公元前428年冬。普拉鐵阿人被伯羅奔尼撒人和皮奧夏人包圍了。前者很快出現了糧食短缺,此時雅典人的援助已經無望,也沒有安全突圍的方法。無奈之下,普拉鐵阿人計劃冒險突圍,他們打算做梯子,然后翻過城墻。這就要求梯子的高度須與城墻高度一樣。為此可以通過數城墻上上磚塊的層數來計算城墻的高度。在那段時間里,小少人數出了磚塊的層數,但有些人可能數錯了,不過大多數人可能得到了一個真實的數日。他們選取這些數據中的眾數。從而設計出梯子的高度。最后成功突圍。
現在投票選舉已司空見慣。如同學們選舉班干部、優秀學生等。民主選舉的規范形式是差額選舉。讓選民擇優選擇。易見當一組數據呈現明顯集中的趨勢時,宜采用眾數作為代表,并且眾數還是一個衡量非數字類型數據的統計量。
我們現在處于大數據時代。人人都淹沒在數據的海洋之中。當分析一組數據時,可獲得大量的信息。人們期望據此來了解和推斷總體的特性。不過,從樣本數據推斷總體的性質時可能會出現一些錯誤。比如在19世紀,有些科學家對罪犯頭顱的大小進行了研究,試圖找出其頭顱大小或形狀與常人的差異。再如過去100多年間。智力測驗成為了一項專題研究,人們期望由此發現天才學生。這些以偏概全的做法,現在都已被淘汰。