張青云
在進行數據統計時,有時需要列出數據的頻數分布表,或是以條形統計圖直觀地呈現頻數分布情況,這些都涉及對數據進行分組的問題.數據分組的實質就是將數據分類,關鍵在于不重不漏.出于降低問題難度的目的,有時對數據已預先確定好組距及組數,但這個組距及組數是如何確定出來的,很多同學仍認識模糊.下面以蘇教版教材八年級下冊第24頁習題第2題為例,對此進行分析說明.
問題:小麗調查了她所在班級50名同學的身高,結果如下(單位:cm):
141、154、149、154、162、165、168、150、155、163、144、168、150、157、155、171、155、160、145、163、145、155、152、160、148、145、169、152、160、163、158、157、159、160、168、150、157、152、158、155、157、157、159、162、145、150、158、144、155、172
一、 分組的第一步:計算數據的極差
找出樣本數據中的最大值與最小值,求它們的差.比如該問題的極差是:172-141=31.
二、 第二步:決定組距與組數
組距是指各組的邊界值之差.比如有一組顯示為4.0≤x<4.3,則組距就是0.3. 通常在研究頻數分布時,采用的都是等距分組,即每一組的邊界值之差相等,其原因也是為了使后面畫的頻數分布直方圖更直觀.在頻數分布直方圖中,每一小組對應一個長方形,并以小長方形面積的大小來表示各小組內取值的頻率.容易知道,條形長方形的面積=組距×條形的高,所以,在組距相同的情況下,條形的高可以直接與小組的頻數相對應.頻數越大,條形越高;頻數越小,條形越低.
組距如何定?組距×組數≥極差.通常一組樣本容量在100左右的數據,其組數適宜在7~12.比如:如果組距定為3,31÷3,那組數就定為11組;如果組距定為4,31÷4,那組數就定為8組;如果組距定為5,31÷5,那組數就定為7.具體選哪一種,要依問題的實際要求來定.本題樣本容量是50,組距可以為4或5.
三、 分組確定各組的邊界值
有兩種確定方法:一是直接從最小(或最大)值開始,每一組以a≤x
另一種方式,是以比樣本數據精確度更高一位的a
也可以以組距為4,采用上述兩種方式來列頻數分布表,讀者可自行完成.當頻數分布表完成后,畫頻數分布直方圖就很容易了.
在教材第28頁第2題,已經給定組距為5,教材第34頁第8題要求更高,需要自行決定組數與組距,通過閱讀本文,大家可以再次研究這兩道題目.
(作者單位:廣東省東莞市東莞中學松山湖學校)