【摘要】《義務教育數學課程標準(2022年版)》新增了“箱線圖與百分位數”內容,“箱線圖”首次出現在課標中,這給教師和學生都帶來了新的挑戰.首先從時代發展需要、數學課程需要、學生發展需要三方面論述了箱線圖與百分位數的教育價值;其次闡明了百分位數的定義和算法、箱線圖的定義和畫法;隨后通過《義務教育數學課程標準(2022年版)》中的例86對箱線圖與百分位數加以應用說明,發現按照定義繪制的箱線圖與借助統計軟件繪制的箱線圖存在上邊緣下邊緣取值不一的問題,而相同統計軟件中繪制的箱線圖也存在不同表示形式.
【關鍵詞】統計與概率;箱線圖;百分位數
數據分析是高中數學六大核心素養之一,無論是義務教育階段還是高中階段均對學生數據分析能力有了新要求,《義務教育數學課程標準(2022年版)》(以下簡稱《課標(2022年版)》)在第四學段“統計與概率”領域中新增內容要求“會計算四分位數,了解四分位數與箱線圖的關系,感悟百分位數的意義”,《普通高中數學課程標準(2017年版2020年修訂)》(以下簡稱《高中課標》)在“概率與統計”主題中要求“結合實例,能用樣本估計百分位數,理解百分位數的統計含義”.顯然高中階段對百分位數的要求由初中階段的了解提升至理解、能夠,學生在義務教育階段對“箱線圖與百分位數”的理解程度必然會直接影響高中階段“百分位數”的學習.那什么是百分位數?箱線圖又是什么?為什么要在義務教育階段引入“箱線圖與百分位數”的學習?如何計算百分位數、繪制箱線圖?如何利用箱線圖與百分位數分析數據?
1箱線圖與百分位數的教育價值
1.1時代發展需要
進入21世紀以來,隨著信息技術的飛速發展和廣泛應用,世界各國越來越重視統計的學習.從商業決策到科學研究,都需要對大量數據進行分析和處理,大數據、云計算、人工智能等領域更是依賴數據分析的觀念與技術,人們對統計學習的關注度也逐漸提升.箱線圖和百分位數作為數據分析的基礎工具,在金融分析、醫學研究、質量檢測等方面有著廣泛應用,能夠解決不同領域的實際問題.
1.2數學課程需要
2001年,“統計與概率”就作為獨立領域設置在課標中,并且第一次在小學和初中階段增加了概率的內容[1].《課標(2022年版)》和《高中課標》新增了“百分位數”的內容,《課標(2022年版)》更是在附錄部分以一個實例(例86)讓學生感悟箱線圖的學習價值,這反映了教育部門對于統計學教育的重視,也顯示了這些知識在數學課程中的必要性[2].箱線圖和百分位數作為統計與概率領域下的重要知識,它的引入不僅能夠豐富數學課程內容,使數學內容更完善,還能使數學內容更貼近學生生活實際,讓學生體會數學來源于生活又應用于生活.
1.3學生發展需要
社會的飛速發展對我國的人才培養提出了新要求,數學教育的目標不僅僅局限于傳授數學知識和技能,更在于通過數學學科培養學生的綜合素質和能力.百分位數和箱線圖作為統計分析的重要工具,不僅能夠有效地幫助學生把握數據特征[3]、掌握數據分析的基本技能、提升數學素養和綜合應用能力,還能為他們將來職業生涯和社會生活中遇到的各類數據問題提供處理工具和方法,從而做出更加合理的決策和分析,這對他們未來在數據驅動的世界中取得成功至關重要.
2箱線圖與百分位數
2.1百分位數
在了解箱線圖之前,我們要了解什么是百分位數.人教A版普通高中教科書數學必修第二冊給出了百分位數的概念:一般地,一組數據的第p百分位數是這樣一個值,它使得這組數據中至少有p%的數據小于或等于這個值,且至少有(100-p)%的數據大于或等于這個值.
因此,初中所學中位數,相當于第50百分位數;除中位數外,常用的分位數還有第25百分位數,第75百分位數.這三個分位數把一組由小到大排列后的數據分成四等份,因此稱為四分位數.其中第25百分位數也稱為第一四分位數或下四分為數,第75百分位數也稱為第三四分位數或上四分位數[4].
百分位數在統計學中有著十分重要的計數地位,是表達統計量、刻畫數據信息的重要形式[5].百分位數的主要意義在于其能提供有關數據分布狀況的重要信息.通過了解一個值處于數據集的什么位置,能夠對整個數據集的分布有一個直觀的認識,能夠快速識別數據的集中趨勢與離散程度,而無需查看整個數據集.百分位數還具有識別異常值的作用.在數據分析中,異常值可能對分析結果產生重大影響,特別是在計算平均值、標準差等統計量時,而百分位數可以幫我們確定哪些值是極端值,應當被排除在進一步的分析之外,使得分析更加準確和穩定.
對于百分位數的計算,我們可以通過下面的步驟計算一組n個數據的第p百分位數:
第1步:按從小到大排列原始數據.
第2步:計算i=n×p%
第3步:若i不是整數,而大于i的比鄰整數為j,則第p百分位數為第j項數據;若i是整數,則第p百分位數為第i項與第(i+1)項數據的平均數.
2.2箱線圖
箱線圖又稱盒須圖、盒式圖或箱形圖,1977年由美國著名統計學家約翰·圖基發明,是一種利用上邊緣、上四分位數、中位數、下四分位數和下邊緣來描述一組數據分散情況的統計圖,因形狀如箱子而得名,它主要用于反映原始數據特征的分布,并對數據的異常值進行標注,還能夠快速地展現出多組數據的分布情況和它們的相對差異.
要繪制箱線圖,除了計算前文描述的四分位數外,還需計算上邊緣(最大值)、下邊緣(最小值)和異常值,其中異常值是指大于上邊緣(最大值)或小于下邊緣(最小值)的值.此外,為了計算這三個特征值,需先計算四分位差(簡稱“IQR”),四分位差(IQR)=上四分位數(Q1)-下四分位數(Q3),上邊緣(最大值)=Q1+1.5IQR,下邊緣(最小值)=Q3-1.5IQR.
箱線圖的繪制方法是:先計算出一組數據的上邊緣、下邊緣和四分位數;然后連接上四分位數和下分位數畫出箱體;再將上邊緣和下邊緣與箱體相連接,中位數在箱體中間[6];最后標出異常值,異常值常用空心圓表示.箱線圖圖示,如圖1所示.
3箱線圖與百分位數的應用
下面以《課標(2022年版)》例86“箱線圖與百分位數”為例,對箱線圖與百分位數加以應用.
某銀行有A和B兩個理財經營團隊.2018—2020年,這兩個理財團隊分別負責經營12項理財產品,收益率(單位:%)如下:
A:4.773.986.444.892.153.85
3.643.213.182.024.114.10
B:3.183.843.993.673.403.60
4.104.214.154.443.873.91
試評價A和B兩個團隊的經營水平.
學生可以通過計算平均數和方差來評價兩個團隊的經營水平,但僅僅用平均數和方差評價似乎不夠全面.為挖掘更多數據信息,使評價更加全面合理,考慮采納“四分位數”來進一步評價兩個團隊的經營水平.以下將以四分位數和箱線圖來評價兩團隊經營水平.
解:A和B兩個團隊的收益率按從小到大排列為:
A:2.022.153.183.213.643.85
3.984.104.114.774.896.44
B:3.183.403.603.673.843.87
3.913.994.104.154.214.44
由12×25%=3,12×50%=6,12×75%=9,可知樣本數據的第25,50,75百分位數分別為第3項數據和第4項數據的平均數、第6項數據和第7項數據的平均數、第9項數據和第10項數據的平均數.
計算出箱線圖所需數據后,畫一條能包含所有數據的數軸,在數軸上描出各組數據的上邊緣、四分位數、下邊緣,連接各組數據的Q1和Q3畫出箱體,在Q2、上邊緣、下邊緣處分別畫平行于箱體的短平行線,再將上邊緣、下邊緣與箱體用虛線連接,最后標出兩組數據的異常值.兩團隊收益率箱線圖如圖2所示.
基于兩團隊的箱線圖,我們可以獲得兩組數據更直觀的數據分析.通過觀察箱線圖可以直接得出,兩團隊收益率的中位數幾乎相等,但B團隊的箱體高度比A團隊箱體高度矮,說明B團隊的經營水平波動性小,數據更集中;相比而言A團隊的經營水平波動性更大,數據更分散.此外,從箱線圖中還可以看出A團隊的收益率有1個異常值,說明A團隊的收益率兩極分化更明顯.因此,可以更有把握的說,兩個團隊經營效益基本一樣,但B團隊的經營水平比A團隊的經營水平更平穩.
4繪制箱線圖存在的問題
4.1上邊緣與下邊緣的不同取值
將按照箱線圖定義繪制出來的箱線圖(圖2)與《課標(2022年版)》中的箱線圖(圖3)對比發現兩者存在較大差異.差異主要體現在上邊緣和下邊緣的取值大小上,《課標(2022年版)》中的箱線圖是在去掉數據異常值后,將剩下數據中的最大值作為了上邊緣,最小值作為了下邊緣.
通過查閱資料發現,無論是課標還是教科書,均未給出箱線圖的具體定義,而國內不少學者也將上邊緣、下邊緣分別稱為最大值、最小值,因此箱線圖中的上邊緣、下邊緣的取值有兩種情況,一種是按定義計算,另一種是在除去數據異常值后,分別取數據的最大值、最小值.顯然后一種取值方法更簡便快捷.
4.2統計軟件中箱線圖的不同表示形式
隨著科技的發展,現代信息技術已經走進課堂,百分位數的計算、箱線圖的繪制都可以借助統計軟件完成,Excel是中學最常見的統計軟件.Excel中箱線圖的上邊緣、下邊緣的取值也是在除去數據異常值后,分別取數據的最大值、最小值,但進一步比較發現Excel中的箱線圖也有不同表示形式.
在Excel中有一個函數專門用于計算一組數據的四分位數,即QUARTILE函數.該函數的表達式包含兩個參數,第1參數為數據區域,第2參數為分位點類型,表達式為:=QUARTILE(數據區域,分位點類型).其中第2參數分位點類型是指通過特定的參數值,來表示計算不同分位點的結果值,它具體包含5個參數值,分別是“0表示最小值,1表示下四分位點,2表示中位數,3表示上四分位點,4表示最大值”.將數據輸入Excel中,點擊空白處,輸入QUARTILE函數表達式,分位點類型分別輸入1,2,3,即可求出該組數據的四分位數;隨后選中數據,點擊插入圖表,可以直接插入箱線圖.
按照以上步驟,將A,B兩團隊收益率分別輸入Excel,得出的四分位數與上文一致;選中兩團隊的數據,點擊插入箱線圖,其結果如圖4所示.此時箱線圖中的四分位數與上文計算結果并不相同,并且A團隊的異常值也并未排除.
這是因為Excel中QUARTILE函數的查詢邏輯與箱線圖內置規則略有不同,箱線圖內置規則有兩種計算方式,一個是包含中值(即中位數),另一個是排除中值.默認情況下是排除中值,因此圖形中的四分位數與公式結果不同,一般情況下,我們以函數公式的結果為準.此外,Excel中箱線圖默認不顯示離群值點(即異常值),一般情況下,我們需選擇顯示離群值點.包含中值、顯示離群值點后的箱線圖如圖5所示.
5結束語
百分位數為我們提供了一種衡量數據集中趨勢和分布狀態的方法,而箱線圖以簡單直觀的圖形方式表達出數據的分布情況,特別是集中趨勢、離散程度和異常值的識別.如果說百分位數是從“數”的角度來分析數據,箱線圖則是從“形”的角度來反映數據的分散情況.從教學的角度來看,百分位數和箱線圖不僅是傳授給學生的重要統計概念,更是培養他們數據分析思維和批判性思考能力的有效工具.在箱線圖與百分位數的教學過程中,教師要確保學生能夠有效地理解和應用這些統計概念,注重理論與實踐的結合,用實際數據來演示百分位數和箱線圖的計算和繪制過程,科學合理使用統計軟件,確保學生不僅理解這些統計工具的原理,還能夠熟練地應用于實際數據分析中.
參考文獻
[1]武維民.如何理解和把握“統計與概率”領域內容的調整和變化:馬云鵬教授、吳正憲老師訪談錄(七)[J].小學教學:數學版,2022(11):9-13.
[2]劉華明.初中數學統計與概率的新成員:四分位數與箱線圖[J].中小學數學:初中版,2023(Z1):116-117.
[3]高凱亮.新課標背景下“統計與概率”的變化:對“四分位數與箱線圖”的思考[J].中學數學雜志,2023(10):15-18.
[4]人民教育出版社,課程教材研究所,中學數學課程教材研究開發中心.普通高中教科書·數學(必修):第二冊[M].北京:人民教育出版社,2019.
[5]王勝楠,王羅那.滲透“讀—思—達”教學發展數據分析素養:以“四分位數與箱線圖”教學為例[J].西藏教育,2022(12):40-43,48.
[6]賈俊平,何曉群,金勇.統計學:第四版[M].北京:中國人民大學出版社,2009.
作者簡介鄧樂琪(2000—),女,湖南邵陽人,碩士研究生;主要從事數學教育教學研究.
孔德宏(1972—),男,云南曲靖人,副教授,碩士研究生導師;主要從事數學教育教學研究.