王佃來 宿愛霞



摘? ?要 以箱線圖為基礎,對某班期末數據結構成績進行分析,并將結果與直方圖分析結果進行對比,探討兩者的相同和區別,指出箱線圖在計算量大小和直觀展示數據分布方面有優勢。
關鍵詞 箱線圖;成績分析;直方圖;數據結構成績
中圖分類號:G642? ? 文獻標識碼:B
文章編號:1671-489X(2019)06-0098-03
Analysis of Student抯 Score based on Box Plot//WANG Dianlai, SU Aixia
Abstract The score of the data structure course is analyzed by using
the box plot and histogram, and two results is also compared and dis-
cussed. The experimental results show that the box plot has the ad-
vantage of showing the distribution of the data and less of calculation.
Key words box plot; analysis of score; histogram; data structure score
1 前言
箱線圖是一種統計圖,其在數據異常值檢測、數據偏態與尾態檢測和多組數據對比方面有優勢,可宏觀展示數據是否具有對稱性和數據分散程度,被廣泛用于質量控制和數據分析中。箱線圖是一種利用最小值、下四分位數、中位數、上四分位數和最大值來描述數據的一種統計圖。該圖被廣泛地應用于數據分析和質量控制中,例如:2010
年,孫向東等使用箱線圖對動物衛生數據的異常值進行了檢驗[1];2014年,朱紅霞等利用箱線圖對中國典型城市主要大氣污染物的濃度水平及分布展開研究[2]。其他學者對該內容的研究成果請參閱文獻[3-6]。本文對箱線圖的概念和畫圖步驟進行了詳細闡述,并結合某班數據結構成績給出應用實例,最后對比箱線圖與直方圖的區別和不足,指出應用箱線圖的主要方向。
2 研究方法與研究數據
箱線圖? 箱線圖(BOXPLOT)可用于歸納數據的分布信息。箱線圖并不繪制實際的數值,而是顯示出分布的統計概況。與直方圖相比,箱線圖的一個最大優點是大致呈現數據的分布信息,可從宏觀上展現總體樣本的整體分布信息,并能發現異常點。箱線圖利用數據中的最小值、下四分位數、中位數、上四分位數和最大值等五個統計量來描述數據,可粗略地看出數據是否具有對稱性、分布的分散程度等信息。箱線圖的示例如圖1所示。
畫箱線圖一般包含以下步驟。
1)對n個樣本數據x(1),x(2),...,x(i),...,x(n)進行排序,一般采取從小到大的方式。
2)找出排序樣本的中位數,計算公式見公式(1):
其中x(1),x(2),...,x(i),...,x(n)為有序樣本。
3)計算下四分位數Q1和上四分位數Q3。
4)計算箱體長度為Q3-Q1。
5)計算下限和上限,計算公式分別為(2)和(3):
下限= Q1-1.5(Q3- Q1)? ? ? ? ? ? ?(2)
上限=Q3+1.5(Q3- Q1)? ? ? ? ? ? ? (3)
6)畫出上限、下限、箱體、須觸線,并標出中位數、上四分位數和下四分位數,最終畫出箱線圖。
直方圖? 直方圖主要用于分析數據的分布情況,是一組數據的圖形表示,可直觀地呈現數據的分散程度和中心趨勢。一般來說,直方圖需要計算機輔助生成,也可使用Excel制作直方圖。
直方圖的構造步驟及要求如下。
1)從n個樣本中找出最大值和最小值,并計算極差。
2)對樣本進行分組,決定數據k和組距d。一般將樣本分為7~15組為宜。
3)調整確定分組的區間端點a1,a1+d=a2,a1+2d=a3,
……,形成區間:[a1,a2],(a2,a3],(a3,a4],...,(an-1,an]。
4)統計樣本落在每個區間中的頻數ni 及頻率fi=ni/n。
5)畫出直方圖。
研究數據? 本文使用軟件技術專業某班數據結構成績進行數據分析,考慮到計算復雜度和文章篇幅等問題,數據樣本控制在40個以內。詳細數據見表1。
3 數據分析結果與討論
為了比較箱線圖和直方圖在成績分析方面的不同,本文針對表1數據使用兩種方法分別進行數據分析。
基于箱線圖的數據分析? 分析表1中的數據,求出箱線圖的統計量。最小值:20。下四分位數:43。中位數:(67+68)/2=67.5。上四分位數:81。最大值:95。下邊界:
20-1.5*(67.5-43)=-16.75。上邊界:81+1.5*(67.5-43)=
117.75。詳細過程見圖2。
通過對圖2的分析,可直觀地看出中位數不在下四分位數和上四分位數中間,而是偏向上四分位數,說明數據出現偏態現象。結合表1數據可以看出,分數集中在[70,90]的人數較多,占總人數的32.5%。
箱式圖還有一個作用,就是可直觀地顯示異常值。結合數據的上下界可知,數據沒有異常值出現,集中在區間[20,95]。
基于直方圖的數據分析? 為了與箱線圖進行對比,本文引入直方圖對表1數據進行分析。首先求出該班學生成績的最大值和最小值,分別為95和20,極差為75;將數據分為八組,組間距為10,詳細統計數據見表2?;诒?畫出直方圖,見圖3。
從圖3可直觀地看出,成績在區間(60,70]最多,占總人數的20%。直方圖可以比較直觀地顯示成績分布狀況,并且各區間的數據一目了然,是一種非常有價值的成績分析工具。
從教學的角度來說,應該注重基礎薄弱學生的教學,因為不及格人數達到37.5%,花一些精力對基礎較差的學生實行集中輔導,使班級的整體成績得到更好的提高。90分以上人數相對較少,只占總人數的10%,可以適當針有潛力學生個別輔導,提高高分率。此外,從上述數據可以看出,學習成績中等和優秀學生比例合理,應繼續保持。
討論? 本文對一個班內成績進行分析,可看出箱線圖在異常數據檢測和數據偏態方面顯示比較直觀,可做到一目了然。但是,箱線圖的不足之處在于它無法提供數據分布偏態的精確度量;對于大批量數據,它反映的形狀信息更加模糊;中位數在代表總體樣本平均水平方面有一定的局限性,因為其只利用了部分樣本的信息。箱線圖只能從宏觀展現數據的分布,如果要得到確切的數據值,需要借助于直方圖或其他統計量。所以,箱線圖最好能結合均值、標準差、偏度和分布函數等統計量來描述批量數據的分布形狀。
箱線圖的計算和繪制步驟比直方圖簡單,可使用Excel來完成制作,具體詳細做法可參閱文獻[4]。
此外,應該指出的是,本文只是給出箱線圖在一個班級內的成績分析,而箱線圖可直觀地對比兩個以上班級的成績,并且簡單好用,請參看相關文獻。
4 結語
箱線圖是數理統計中進行數據分析的一種方法,它計算相對簡單,能從宏觀上展示數據分布特征,在異常值檢測和偏態分析方面有優勢。但是,箱線圖無法提供精確的度量值,在實際應用中如果能與其他統計量結合,則可達到更好的數據分析效果。最后,箱線圖應用到單班或兩個班級的成績評估與對比中,可直觀展示班級成績的差異,是一種不錯的多班成績分析工具,可幫助教師對學生成績做出科學評價,為教師和教學管理部門提供一種簡便易行的教學質量評估方法?!?/p>
參考文獻
[1]孫向東,劉擁軍,等.箱線圖法在動物衛生數據異常值檢驗中的運用[J].中國動物檢疫,2010,27(7):66-68.
[2]朱紅霞,等.中國典型城市主要大氣污染物的濃度水平及分布的比較研究[J].生態環境學報,2014,23(5):791-796.
[3]莊作欽.BOX PLOT:描述統計的一個簡便工具[J].統計與預測,2003(2):34-35.
[4]雍紅月.運用EXCEL進行經濟指標的箱線圖分析[J].統計教育,2007(2):35-36.
[5]查如琴.簡談幾種“箱線圖繪制”的描述[J].讀與寫:教育教學刊,2012,9(7):54,63.
[6]郭德清,廖祥文.基于箱線圖的微博客熱點話題發現[J].山西大學學報:自然科學版,2014,37(1):19-25.