摘要:平均數與每一個數據都有關,其中任何數據的變動都會相應引起平均數的變動,在很多情況下易受極端值的影響,從而使平均數被抬高或降低,導致其代表性的削弱。為了克服它的弊端和不足,應引入中位數和眾數來補充和加強它的代表性和權威性。
關鍵詞:平均數;存在的問題;選擇應用
中圖分類號:- 文獻標志碼:A文章編號:1673-291X(2010)11-0202-02
說到平均數大家都不陌生,它包括算術平均數、幾何平均數、調和平均數等,而算術平均數是使用最廣泛的指標,通常所說的平均數就是指算術平均數。它既可以用來比較兩個總體水平的高低,也可以用來判斷一個總體單位的地位。比如,兩個班的《經濟學》平均分數分別是84分和85分,據此就可以認為后者的成績優于前者;同樣,一個學生的考試成績如果高于全班平均分數的話,也可以認為這個學生的學習成績不錯。民間有“不怕不識貨,就怕貨比貨”的說法,喜歡比較是我們的愛好,也是市場競爭使然。人們熟悉平均數,更是用它來作為比較、判斷的常用標準,所以,在這里就平均數的學問進行分析和探究。
一、平均數的含義
1.平均數的概念
平均數是所有數據的總和除以總頻數所得的商,簡稱平均數或均數、均值,用表示。
設變量X1,X2,X3,… Xn表示對隨機變量X進行觀察所獲得的n個觀察值,n為觀察值個數(樣本容量),則算術平均數計算公式[1]如下:=
可概括為:= (i從1 ~ n) 。
2.平均數的計算方法
(1)根據原始數據計算的方法
當一組原始數據數目不多時,可以把原始數據直接代入上面的公式進行計算。
(2)根據頻數分布表計算的方法
當一組數據數目較多時,可以把這些數據先分組編制成頻數分布表,然后利用頻數分布表來計算平均數的近似值。計算方法是:把各組組中值乘以各組頻數,求其總和,再除以總頻數,即為這組數據的平均數的近似值。計算公式[2]如下:
==
在這里,X1,X2,X3,… Xk表示第1組到第k組的組中值;f1,f2,…,fk表示第1組到第k組的頻數;Σf=n 。
二、平均數應用中存在的主要問題
平均數的大小與一組數據中的每個數據均有關系,其中任何數據的變動都會相應引起平均數的變動;計算平均數時要用到每個數據,所以它對數據的變化比較敏感,通過它能夠獲得更多的信息,可以說它是一組數據的重心。在現實社會經濟生活中被廣泛運用,但若應用不當可能會達不到預期目的。
1.平均數的抽象抹殺了現實的差異性
平均數是一個抽象的概念,在平均的過程中它抹殺了大千世界的千差萬別。如2008年5月份,國家統計局、人力資源和社會保障部聯合發布的中國《2007年勞動和社會保障事業發展統計公報》,其中披露2007年全年全國城鎮單位在崗職工平均工資為24 932元,比上年增長18.7%,扣除物價因素,實際增長13.6%[3]。對此在社會上引起了強烈的反映:媒體有報道、網上有討論,許多人都認為有關部門在粉飾太平,質疑數據的真實性。其實,這個數據無疑是真實的,它是依法統計和依法發布的,具有很強的權威性,社會公眾之所以不接受的原因出在“平均”上。在面對收入水平差異懸殊的情況下,只給一個平均數,其差異就在這樣的平均過程中被抹殺掉了,很可能一個高收入者會填補幾個、幾十個、甚至幾百個低收入者工資水平的缺口。現在的國有企業高管人員的工資動輒幾十萬、幾百萬、甚至幾千萬,他們一人工資的變動就會影響到很多的普通老百姓。
2.只說平均數所能提供的信息可能很有限
平均是一個模糊的概念,它可能會掩蓋少數極端值對結果的影響。在個別的數據過大或過小的情況下,“平均數”代表數據整體水平是有局限性的,也就是說個別極端數據是會對平均數產生較大的影響。如有一家高考補習班,學員只有5人。開班一個月后,其中一位學員的模擬高考考分,從原來的360分上升到460分;而另外4位原來考分在450分左右的學員成績幾乎沒有什么提高,有的成績甚至還略有下降。結果該高考補習班開始大打廣告,說“全體學員平均每人一個月提高20分”。廣告說的完全是實話,但它卻掩蓋了大部分學員的考分提高不多的事實。
又如,有一個考生在數學考試中考了55分,回家稟告父母時說“這次數學考試全班平均才47分,而我考了55分,比全班平均分高出8分”,這樣既避免了被父母責怪,又做了一回“誠實”的孩子。在這里完全回避了“全班及格人數超過一半、最高分的同學考了99分,以及有幾位考鴨蛋的同學”的事實真相。
3.特殊情況下的平均數可能會得出錯誤的結論
平均數的大小與一組數據里的每個數據均有關系,其中任何數據的變動都會相應引起平均數的變動。如果一組數據中各個數據的變動方向相反、幅度相同,其結果可能是被認為該組數據沒有發生變動。
例如:質量檢驗部門檢驗某廠生產的手表質量時,檢查人員隨機抽取了10只手表,在下表中記下了每只手表的走時誤差(注:正數表示比標準時間快,負數表示比標準時間慢),若用這10只手表誤差的平均數來衡量這10只手表的精度,得出的結論可能是錯誤的。
解:[(-2)+0+2+1+(-3)+(-1)+0+2+4+(-3)]÷10=0÷10=0
從這個平均數看,仿佛這10只手表走時非常精確,沒有誤差,但實際上有8只手表存在著誤差,使用平均數掩蓋了該批手表存在誤差的事實。
在統計上要用一個數值代表總體的一般水平,通常只能用平均的方法,而平均又必然會掩蓋差異。從理論上解決這個問題并不復雜,可以沿用統計的方法,在計算均值的同時計算方差,用前者反映一般水平,用后者反映差異程度,但這樣的計算是應該出現在論文或分析報告中的做法,而不適合面對社會公眾使用。為此,有人提出采用中位數、眾數替代均值來反映平均水平。
三、平均數、中位數、眾數的選擇
在個體水平大致平衡或差異不太大時,平均數往往最能說明問題;若在個體水平差異很大時,用中位數或眾數更能說明問題。因為在個別的數據過大或過小的情況下,平均數代表數據整體水平是有局限性的,也就是說個別極端數據會對平均數產生較大的影響,而對中位數和眾數的影響則不那么明顯。所以,這時用中位數或眾數來代表整體數據更合適。即:如果在一組相差較大的數據中,用中位數或眾數作為表示這組數據特征的統計量往往更有意義。
1.用平均數評比先進集體或先進個人
為了鼓勵學生在校勤奮學習,形成班級與班級之間比學趕幫超的氣氛,許多學校都在期末考試后開展優秀班級評比和優秀學生獎學金評定活動。通常都是計算出各班級所有考試科目的平均分數,將平均分靠前的班級評為“優秀班級”、 平均分靠前的學生評為“一、二、三等獎學金”獲得者。以平均成績作為優秀班級評比和獎學金評定標準得到了很多學校和學生的贊同和肯定,因為總平均成績比單科成績更能全面的反映一個班級、一個學生學習成績的優劣,也能更好的體現一個班級的整體水平和一個學生的綜合素質。
2.用平均數給運動員評分
在很多體育比賽中,如體操、跳水、花樣滑冰等項目,通常都是把多個裁判員打的分數進行平均,用平均分數作為獲獎名次的依據。當然,有些時候還在“掐頭去尾”之后才進行平均,這種方法也叫做“裁減平均數” [4]。裁減掉兩頭,也就是通常所說的扣除一個最高分、扣除一個最低分,再用剩下的數進行平均,可以排除少數極端值的影響,保障評分的公正。
3.用中位數更能說明收入水平
在物價漲幅攀升的時候,對職工的收入水平,只提供一個“平均數”會掩蓋很多的問題,不久前網友創作了這樣的打油詩:“張村有個張千萬,隔壁九個窮光蛋,平均起來算一算,人人都是張百萬。”對于這樣的問題,不是“平均數”的錯,也不是統計學的錯,統計學中就有現成解決的辦法,就是計算“中位數”。以一個101人的企業為例,把所有人員年收入從大到小排列,正中間的一位,即第51位的年收入就是這家企業年收入的中位數。打油詩里的“張村”個人財產中位數是“零”。這個時候平均數不能說明的問題,中位數就說清楚了。在現實生活中,像身高、體重之類的數據,基本滿足的是正態分布,也就是說差不多一半的人是“平均數”以上,一半的人在“平均數”以下,“平均數”基本上就等于“中位數”。但是對于收入之類的情況,由于有一部分人特別富有,是億萬富翁,是千萬富翁,是金領,是高級白領,他們的收入比普通人多得多。導致了收入如果從平均數上看的話,肯定有一半以上的人會在“平均數”以下。在這里,中位數往往更能說明問題的本質。
4.用眾數來選擇方案
在現實生活中,往往會出現由多數人從眾多答案中選擇一個的情形,一般都利用“舉手表決”的方式來解決問題。即在統計出所有提議及相應票數的情況下,看各票數的眾數是否超過總票數的一半,如果眾數超過了總票數的一半,選擇的最終答案就是這個眾數。但由于眾數不是唯一的,如果出現了雙眾數(兩個眾數),可對這兩個眾數采用抓鬮、抽簽或投擲硬幣等辦法選出最終的答案。
又如,為籌備班級的聯誼會,班長想通過對全班同學愛吃哪幾種水果作民意調查來最終決定買什么水果,那就只能由調查數據中的眾數來決定了,因為各種水果喜好人數的中位數或平均數都沒有什么意義。
平均數在日常的工作、學習和生活中被廣泛應用,甚至習以為常。但我們平常并沒能仔細研究它究竟給我們提供了怎樣的信息,一經認真評味,便會覺得它大有學問。
參考文獻:
[1][2] 陶靖軒,劉春雨,等.應用統計學[M].北京:中國計量出版社,2007.
[3] 2007年勞動和社會保障事業發展統計公報[DB/OL].中國社會保障網http//www.cnss.cn/xwzx/jdxw/200805/t20080521.
[4] 鄭惟厚.平均也有大學問[J].中國統計,2008,(1).