趙曉進,趙曉芳,邵立杰,胡李裔
(鄭州工商學院 商學院經濟系,河南 鄭州 451400)
SPSS 是一個非常權威的、世界公認的著名統計軟件,近十年來以令人驚訝的速度在國內得到了迅速普及[1,2]。SPSS 箱圖是利用5 個基本統計量和極端值來描述樣本數據分布的一種統計學方法,描述定量變量的數據分布[3]。箱圖圖示簡單,既可以直觀地識別數據中的極端值,又可以通過觀察四分位數的對稱情況來初步判斷數據的偏態情況,還可以比較幾組數據之間的分布差異等[4]。目前,在許多高等院校的社會統計學教材中,很少有SPSS 箱圖繪制的詳細介紹。教學實踐中,學生很難根據教材上的公式繪制出箱圖,使得箱圖應用受到限制。另外,不同教材中給出的四分位數計算公式也不完全一致,使用頻率最高的四分位數的計算公式[5]見(1)和(2):

當樣本數量較大時,可以用上述公式計算四分位數;但當樣本數量較小時,使用上述公式計算四分位數的結果與SPSS 統計軟件上的計算結果有差異。本文提出一種新的計算四分位數的方法,計算結果與從SPSS 統計軟件繪制的箱圖中讀取的結果一致。
典型的箱圖的基本構成包括極端值、奇異值、本體最小值、下四分位數(Q1)、中位數(Q2)、上四分位數(Q3)和本體最大值。箱圖的主體是中間的矩形框,Q1、Q2、Q3三條線分別表示相對應的變量值第P25、P50、P75 的百分位數,變量50%的觀測值落在這一區域。箱圖中間的縱向直線構成箱體的上下兩條端線,端線的兩端分別是本體最小值和本體最大值。
首先用全距計算出Q2,然后以Q2為中心再計算出Q1和Q3。由于奇數個數據和偶數個數據的計算公式不同,下面分別描述。
2.1.1 偶數個數據計算公式
當處理的數據是偶數個時,使用下列公式:
Q2=(n+1)/2
Q1=(Q2+0.5)/2
Q3=(Q2-0.5)+Q1
2.1.2 奇數個數據計算公式
當處理的數據是奇數個時,使用下列公式:
Q2=(n+1)/2
Q1=(Q2+1)/2
Q3=(Q2-1)+Q1
(1)將原始數據從小到大進行排序。
(2)根據2.1 公式分別計算出描述四分位數位置的Q1、Q2和Q3的位置。
(3)根據Q1、Q2和Q3的位置分別計算出相對應的四分位數的變量值,即P25、P50 和P75。
(4)根據四分位數的變量值(P25、P50 和P75)計算出內距(QR)。然后根據內距計算出1.5 倍QR 和3.0 倍QR。在1.5 倍QR 與3.0 倍QR 之間的區域為奇異值區域,大于3.0 倍QR 的區域為極端值區域。一般情況下,在箱圖的上下方都會有奇異值和極端值分布。但是,有些情況下奇異值和極端值只分布在箱圖的一端或者兩端都沒有[3]。
(5)最后根據四分位數、奇異值和極端值的分布繪制出箱圖。
案例1 某城市隨機抽取了10 個家庭,每個家庭人均月收入數據見表1,試計算出相關的四分位數及變量值并繪制箱圖。
該案例中數據個數為偶數,根據上述偶數個數據計算公式分別計算出繪制箱圖的主要數據,見表2。根據表2 數據繪制箱圖,見圖1。
結合表1、表2 和圖1 可以看出,該案例中最小值為3 100,下四分位數為3 400,中位數為3 700,上四分位數為4 500,最大值為7 000。從圖1 可看出,箱圖上端的第10 個數據是7 000 元,該數據大于1.5 倍QR 的上界值6 150,小于3.0倍QR 的上界值7 800,落在箱圖上端的奇異值區內,所以構成箱圖上端的奇異值,用圓圈表示。從圖1 還可看出,該案例中箱圖下端沒有的奇異值和極端值。

表1 某城市10 戶家庭人均月收入資料

表2 案例1 主要計算結果

圖1 案例1 資料繪制的箱圖
案例2 某工廠某班組11 名工人日生產產品的零件數資料見表3,計算出相關的四分位數及變量值并繪制箱圖。

表3 某工廠某班組11 名工人日生產產品零件數資料
該案例中數據個數為奇數,根據上述奇數個數據計算公式分別計算出繪制箱圖的主要數據,見表4。

表4 案例2 的主要計算結果
根據表4 數據繪制箱圖,見圖2。

圖2 案例2 數據繪制的箱圖(圖中的數據表示資料排序后的位置序號)
結合表3 表4 和圖2,可以看出該案例中最小值為6,下四分位數為19.5,中位數為24,上四分位數為27.5,最大值為60。第1 個數據是6,小于1.5倍QR下界值7.5,大于3倍QR下界值-4.5,落在下端的奇異值區內,構成箱圖下端的奇異值,用圓圈表示。第10 個數據是40,大于1.5 倍QR的上界值39.5,小于3.0 倍QR 的上界值51.5,構成箱圖上端的奇異值,用圓圈表示。第11 個數據是60,大于3 倍QR 的上界值51.5,所以落在箱圖極端值區內,構成箱圖上端的極端值,用星號表示(見圖2)。
提出了一種計算四分位數的新公式,利用該公式計算結果,繪制了奇數個數據和偶數個數據兩種情況下的箱圖。解決了現存統計學教材中四分位數計算與統計軟件脫鉤的現象。