基于R軟件的高中統(tǒng)計(jì)教學(xué)實(shí)踐研究

2023-04-11 17:17:28張廣民曹雅楠杜曉沛

中國(guó)數(shù)學(xué)教育(高中版) 2023年11期

張廣民曹雅楠杜曉沛

摘 ?要：以一次基于R軟件的抽樣試驗(yàn)教學(xué)活動(dòng)為例，探索R軟件在統(tǒng)計(jì)教學(xué)中應(yīng)用的可能路徑，并基于教學(xué)活動(dòng)的開展效果提出統(tǒng)計(jì)教學(xué)的幾點(diǎn)思考：數(shù)據(jù)分析素養(yǎng)需要在學(xué)生的親身經(jīng)歷中發(fā)展；統(tǒng)計(jì)思維需要在學(xué)生的批判驗(yàn)證中提升；科學(xué)素養(yǎng)需要在信息技術(shù)的教學(xué)應(yīng)用中生成．

關(guān)鍵詞：R軟件；統(tǒng)計(jì)教學(xué)；隨機(jī)抽樣；數(shù)據(jù)分析

統(tǒng)計(jì)內(nèi)容近年來(lái)在高中數(shù)學(xué)課程中的地位逐步提高，特別是《普通高中數(shù)學(xué)課程標(biāo)準(zhǔn)（2017年版2020年修訂）》將概率與統(tǒng)計(jì)內(nèi)容設(shè)為四條主線之一，貫穿整個(gè)高中數(shù)學(xué)課程體系，將數(shù)據(jù)分析列入六大數(shù)學(xué)核心素養(yǎng)，并指出，數(shù)據(jù)分析是研究隨機(jī)現(xiàn)象的重要數(shù)學(xué)技術(shù)，是大數(shù)據(jù)時(shí)代數(shù)學(xué)應(yīng)用的主要方法，也是“互聯(lián)網(wǎng) +”相關(guān)領(lǐng)域的重要數(shù)學(xué)方法，數(shù)據(jù)分析已經(jīng)深入到科學(xué)、技術(shù)、工程和現(xiàn)代社會(huì)生活的各個(gè)方面．

數(shù)據(jù)分析素養(yǎng)要求學(xué)生有數(shù)據(jù)意識(shí)，認(rèn)識(shí)數(shù)據(jù)，能用數(shù)據(jù)的眼光觀察世界，能夠收集數(shù)據(jù)、處理數(shù)據(jù)、分析數(shù)據(jù)、得出結(jié)論，具有統(tǒng)計(jì)思維，能夠理解并體會(huì)隨機(jī)性. 在高中階段加強(qiáng)數(shù)據(jù)分析素養(yǎng)的提升刻不容緩，數(shù)據(jù)分析素養(yǎng)是時(shí)代所需，是信息時(shí)代學(xué)生應(yīng)該具備的基本素養(yǎng). 同時(shí)，數(shù)據(jù)分析素養(yǎng)的培養(yǎng)與提高需要在統(tǒng)計(jì)教學(xué)中得以落實(shí)．

一、統(tǒng)計(jì)教學(xué)實(shí)踐中面臨的困境與突破

當(dāng)前高中統(tǒng)計(jì)的教學(xué)過(guò)程中仍然面臨著亟須突破的困境．

一是認(rèn)知困境．統(tǒng)計(jì)學(xué)的“或然思想”與傳統(tǒng)數(shù)學(xué)的“必然思想”有所區(qū)別. 傳統(tǒng)數(shù)學(xué)以概念和定義為基石，以公理體系為推理基礎(chǔ)，得到確定的必然結(jié)果. 而統(tǒng)計(jì)學(xué)則建立在數(shù)據(jù)的基礎(chǔ)上，以數(shù)據(jù)背景為推斷，得到或然性的結(jié)論，關(guān)注的是如何從數(shù)據(jù)中挖掘更多有效信息. 因此，若仍采用一貫的教學(xué)方法和研究思路，容易使學(xué)生產(chǎn)生思維上的不適應(yīng)性，也不利于學(xué)生理解統(tǒng)計(jì)學(xué)的本質(zhì)．

二是評(píng)價(jià)困境. 統(tǒng)計(jì)內(nèi)容在高考中或是以簡(jiǎn)單的形式出現(xiàn)，或是每年以相對(duì)固定的模式出現(xiàn). 客觀來(lái)說(shuō)，統(tǒng)計(jì)內(nèi)容在紙筆測(cè)試的考查中確有難度，這方面也需要教師做進(jìn)一步的研究. 教師在日常的統(tǒng)計(jì)教學(xué)中，傾向于直接給出概念，輔以例題講解，學(xué)生再通過(guò)習(xí)題訓(xùn)練達(dá)到考試要求，這與發(fā)展數(shù)據(jù)分析素養(yǎng)的課程目標(biāo)相背離．

因此，在統(tǒng)計(jì)部分的教學(xué)實(shí)踐中，教師需要根據(jù)教學(xué)內(nèi)容和學(xué)生的實(shí)際情況調(diào)整教學(xué)策略，讓學(xué)生由數(shù)據(jù)出發(fā)，通過(guò)對(duì)數(shù)據(jù)的處理與分析探索得到研究結(jié)論的過(guò)程. 這就需要學(xué)生自己動(dòng)手進(jìn)行實(shí)踐，而數(shù)據(jù)處理環(huán)節(jié)的實(shí)踐又必須借助統(tǒng)計(jì)軟件來(lái)完成．在統(tǒng)計(jì)教學(xué)中加強(qiáng)信息技術(shù)的應(yīng)用，既是提高教學(xué)效率的舉措，又能更好地反映統(tǒng)計(jì)的學(xué)科特征．

目前，中學(xué)階段常用的統(tǒng)計(jì)軟件包括Excel，R，SPSS. 其中Excel是常見的數(shù)據(jù)處理軟件，有豐富的圖形操作界面，是日常辦公的必備軟件，但是在進(jìn)行較為專業(yè)的數(shù)據(jù)處理時(shí)不如R語(yǔ)言清晰、簡(jiǎn)便. SPSS也是一款功能強(qiáng)大的統(tǒng)計(jì)軟件，一般采用圖形界面，但是價(jià)格昂貴，對(duì)于編寫代碼有不便之處. R軟件是開源軟件，在統(tǒng)計(jì)工作中有廣泛的應(yīng)用，能夠進(jìn)行隨機(jī)模擬，使得大量隨機(jī)試驗(yàn)的完成得以實(shí)現(xiàn)，能夠更好地幫助學(xué)生觀察樣本與總體之間的聯(lián)系，增強(qiáng)教學(xué)的直觀性和實(shí)操性，在人教A版《普通高中教科書·數(shù)學(xué)》（以下統(tǒng)稱“教材”）中存在大量的R語(yǔ)言實(shí)例. R語(yǔ)言以指令形式運(yùn)行，入手存在困難，這也是R軟件在普及過(guò)程中的一個(gè)弱點(diǎn). 筆者所在學(xué)校在進(jìn)行統(tǒng)計(jì)教學(xué)的過(guò)程中，利用課余時(shí)間對(duì)學(xué)生進(jìn)行了R語(yǔ)言使用的基礎(chǔ)培訓(xùn). 從最終教學(xué)效果看，學(xué)生掌握得非常好，能夠使用R軟件進(jìn)行數(shù)據(jù)處理的基本操作，這為利用R軟件開展統(tǒng)計(jì)活動(dòng)做好了前期技術(shù)上的準(zhǔn)備．

二、基于R軟件的抽樣試驗(yàn)教學(xué)活動(dòng)案例

以教材必修第二冊(cè)第九章第1節(jié)“隨機(jī)抽樣”內(nèi)容為例，通過(guò)設(shè)計(jì)一系列學(xué)生實(shí)踐活動(dòng)，并在教學(xué)中應(yīng)用R軟件輔助統(tǒng)計(jì)活動(dòng)開展，探索與嘗試R軟件應(yīng)用于高中數(shù)學(xué)統(tǒng)計(jì)教學(xué)的可能路徑，以期提升學(xué)生的數(shù)據(jù)分析素養(yǎng)．

教學(xué)活動(dòng)從“調(diào)查學(xué)生平均身高”這一核心問(wèn)題出發(fā)組織學(xué)生開展探究活動(dòng)，分析不同的抽樣方法下樣本均值對(duì)總體均值的刻畫效果，以及R軟件的實(shí)現(xiàn)方法．

問(wèn)題：一家家具廠要為樹人中學(xué)高一年級(jí)制作課桌椅，他們事先想了解全體高一年級(jí)學(xué)生的平均身高，以便設(shè)定可調(diào)節(jié)桌椅的標(biāo)準(zhǔn)高度. 已知樹人中學(xué)高一年級(jí)有712名學(xué)生，如果要通過(guò)簡(jiǎn)單隨機(jī)抽樣的方法調(diào)查高一年級(jí)學(xué)生的平均身高，應(yīng)該怎樣抽取樣本？

1. 通過(guò)隨機(jī)數(shù)法進(jìn)行簡(jiǎn)單隨機(jī)抽樣

實(shí)現(xiàn)簡(jiǎn)單隨機(jī)抽樣可以采用抽簽法和隨機(jī)數(shù)法. 兩種方法都需要產(chǎn)生隨機(jī)數(shù)，只是產(chǎn)生工具有所不同. 面對(duì)總體較大的情況，借助信息技術(shù)手段生成每個(gè)樣本的隨機(jī)數(shù)，是最為方便、成本最低的實(shí)施方案. 故首先可以借助R軟件生成隨機(jī)數(shù)．

試驗(yàn)1：簡(jiǎn)單隨機(jī)抽樣.

利用R軟件，只需要“sample（ ?）”一條指令就能完成抽樣過(guò)程，包括有放回和無(wú)放回的情況．

R軟件代碼如下.

> Students <- c（1：712） # 建立一個(gè)學(xué)生編號(hào)的向量

> sample（Students，50，replace=FALSE） # 從712名學(xué)生中，無(wú)放回地抽取50個(gè)學(xué)生

其中，c（1：712）表示建立一個(gè)從1到712的向量（或可以理解為數(shù)組）. 指令sample表示從Students中抽取50個(gè)樣本. 參數(shù)replace為FALSE時(shí)表示無(wú)放回的抽取，為TRUE時(shí)表示有放回的抽取. 運(yùn)行結(jié)果如圖1所示.

通過(guò)試驗(yàn)1，初步掌握借助統(tǒng)計(jì)軟件進(jìn)行簡(jiǎn)單隨機(jī)抽樣的基本方法，關(guān)注所抽取的樣本的均值情況．

2. 樣本量對(duì)抽樣結(jié)果的影響

在抽取樣本的過(guò)程中，樣本量的選取是值得討論的問(wèn)題. 從抽樣問(wèn)題本質(zhì)來(lái)看，所抽取的樣本容量越大，樣本的數(shù)字特征接近總體數(shù)字特征的概率就越大，往往更能反映總體情況. 但是在實(shí)際問(wèn)題中，受到人力、費(fèi)用、時(shí)間成本的影響，并不是抽樣容量越大越好. 以下借助R軟件完成試驗(yàn)2，考察不同樣本量下樣本均值與總體均值的差異．

試驗(yàn)2：樣本量分別為10，100，200，500對(duì)抽樣結(jié)果的影響.

利用R軟件進(jìn)行不同樣本容量下的簡(jiǎn)單隨機(jī)抽樣，做出圖象形象地觀察所得數(shù)據(jù)，考察樣本容量對(duì)抽樣結(jié)果的影響. 仍然針對(duì)712名學(xué)生身高的探究問(wèn)題情境進(jìn)行抽樣調(diào)查，可以在前期通過(guò)問(wèn)卷調(diào)查獲取真實(shí)的高一學(xué)生身高數(shù)據(jù)，這里通過(guò)正態(tài)隨機(jī)數(shù)生成712名學(xué)生身高數(shù)據(jù)，并以此作為此問(wèn)題的總體. 利用無(wú)放回簡(jiǎn)單隨機(jī)抽樣分別抽取10名、50名、100名、200名、500名學(xué)生的身高數(shù)據(jù)，計(jì)算幾次抽樣得到的樣本平均身高并與總體均值進(jìn)行比較，觀察其與總體均值的偏離情況．

首先，利用R軟件進(jìn)行抽樣，代碼如下.

< # 簡(jiǎn)單隨機(jī)抽樣，樣本量是否越大越好？

< Height <- rnorm（712，mean=165，sd=7）

< colnames <- c（"NO"，"X10次"，"X20次"，"X50次"，"X100次"，"X200次"，"X500次"）

< rownames <- c（1：50）

< A <- matrix（nrow=50，ncol=7，dimnames = list（rownames， colnames））

< A［，1］=c（1：50）

< flag <- c（10，20，50，100，200，500） #分別表示抽取的樣本數(shù)為10，20，50，100，200，500，可調(diào)整

< for （i in c（1：50）） {

< ? for （k in c（1：length（flag））） {

< ? ?A［i，k+1］<- mean（sample（Height，flag［k］，replace = FALSE））

< ? ?}

< }

< B <- data.frame（A）

為了清晰地反映不同樣本容量對(duì)抽樣結(jié)果的影響，選取樣本容量為10和100兩種情況，分別繪制樣本平均值與總體平均值的折線圖，體會(huì)用樣本估計(jì)總體的過(guò)程．

R軟件代碼如下.

< # 繪制折線圖，比較樣本容量不同，對(duì)抽樣結(jié)果的影響

< # 下面的是樣本容量為10和100的情況比較

< library（ggplot2）

< p1 <- ggplot（data=B）

< p2 <- p1+geom_point（mapping=aes（x=NO，y=X10次））+

< ? geom_line（aes（x=NO，y=X10次））+

< ? geom_point（mapping=aes（x=NO，y=X100次），size=2，shape=2，color="red"）+

< ? geom_line（aes（x=NO，y=X100次），color="red"）+

< ? geom_hline（yintercept =mean（Height），color="red"，size=1）

< p2+ylab（" "）

運(yùn)行結(jié)果如圖2所示，其中“●”表示抽取樣本容量為10的情況，“[△]”表示抽取樣本容量為100的情況. 由圖2可以看出當(dāng)樣本容量為10時(shí)，產(chǎn)生較大偏差的情況更多，而當(dāng)樣本容量為100時(shí)，得到的結(jié)果相對(duì)穩(wěn)定.

同時(shí)，受隨機(jī)數(shù)生成的隨機(jī)性的影響，某些時(shí)候樣本容量為10的效果要比樣本容量為100的更好. 例如，在第10次試驗(yàn)中，容量為10時(shí)所抽取的樣本比樣本容量為100更貼近總體均值. 通過(guò)此試驗(yàn)，可以讓學(xué)生初步體會(huì)利用樣本估計(jì)整體的統(tǒng)計(jì)研究思想，體會(huì)在統(tǒng)計(jì)研究的過(guò)程中，并不是針對(duì)確定數(shù)值的研究，而是伴隨概率問(wèn)題的．

進(jìn)一步增加樣本容量為200和500的情況，感受樣本平均值和總體平均值之間的差異，體會(huì)樣本容量增大后抽樣效果的反映．

R軟件代碼如下.

< # 增加繪制樣本容量為200的情況

< p3 <- p2 +geom_point（mapping=aes（x=NO，y=X200次），size=3，shape=3，color="blue"）+

< geom_line（aes（x=NO，y=X200次），color="blue"）

< p3

< # 增加繪制樣本容量為500的情況

< p4 <- p3 +geom_point（mapping=aes（x=NO，y=X500次），size=4，shape=4，color="purple"）+

< geom_line（aes（x=NO，y=X500次），color="purple"）

< p4

運(yùn)行結(jié)果如圖3所示，其中，“[+]”是樣本容量為200的情況，“[×]”是樣本容量為500的情況．

可以看出，與樣本容量為10和100時(shí)的情況相比，樣本容量為200和500時(shí)的樣本均值與總體均值之間的偏差有所減小，表明當(dāng)樣本容量增大時(shí)能夠更好地反映總體情況. 但從絕對(duì)偏差來(lái)看，樣本容量為200和500之間的差異并不大. 因此，盡管樣本容量增大能夠更好地估計(jì)總體，但是考慮實(shí)際抽樣過(guò)程中的人力、物力和時(shí)間成本等因素，樣本容量為500并不一定是效益最好的樣本容量選擇方案. 故在實(shí)際的抽樣中，需要結(jié)合具體問(wèn)題的需要確定樣本容量，而并非一定是越大越好. 在教學(xué)中教師要引導(dǎo)學(xué)生就此問(wèn)題展開討論，體會(huì)統(tǒng)計(jì)學(xué)研究方法的特殊性以及與現(xiàn)實(shí)情境的關(guān)聯(lián)性．

為進(jìn)一步觀察不同樣本容量下的抽樣結(jié)果，可以繪制樣本容量為100和500，以及200和500的折線比較圖，如圖4和圖5所示，能更加清晰地反映它們之間的關(guān)系，也印證上文所得到的結(jié)論，即樣本量并非越大越好，具體樣本容量的選取需要考慮實(shí)際問(wèn)題背景下的抽樣效益．

折線圖繪制R軟件代碼如下.

< # 比較100次與500次

< p1+geom_point（mapping=aes（x=NO，y=X100次））+

< ? ylim（160，170）+

< ? geom_line（aes（x=NO，y=X100次））+

< ? geom_point（mapping=aes（x=NO，y=X500次），size=2，shape=2，color="red"）+

< ? geom_line（aes（x=NO，y=X500次），color="red"）+

< ? geom_hline（yintercept=mean（Height），color="red"，size=1）

< # 比較200次與500次

< p1+geom_point（mapping=aes（x=NO，y=X200次））+

< ? ylim（160，170）+

< ? geom_line（aes（x=NO，y=X200次））+

< ? geom_point（mapping=aes（x=NO，y=X500次），size=2，shape=2，color="red"）+

< ? geom_line（aes（x=NO，y=X500次），color="red"）+

< ? geom_hline（yintercept=mean（Height），color="red"，size=1）

3. 有放回與無(wú)放回簡(jiǎn)單隨機(jī)抽樣之間的比較

簡(jiǎn)單隨機(jī)抽樣包括有放回和無(wú)放回兩類，這兩類之間是否存在差異，以及對(duì)抽樣結(jié)果有怎樣的影響是值得探討和試驗(yàn)的問(wèn)題. 由于學(xué)生在學(xué)習(xí)這部分內(nèi)容時(shí)還不具備概率部分的必要知識(shí)，故通過(guò)設(shè)置試驗(yàn)3，對(duì)三組不同特征下的數(shù)據(jù)分別進(jìn)行有放回和無(wú)放回的簡(jiǎn)單隨機(jī)抽樣，并作出折線圖直觀地觀察它們之間的聯(lián)系與區(qū)別，并為學(xué)生后期學(xué)習(xí)概率知識(shí)奠定基礎(chǔ)．

與有放回簡(jiǎn)單隨機(jī)抽樣比較，不放回簡(jiǎn)單隨機(jī)抽樣效率更高，因此實(shí)踐中人們更多采用無(wú)放回簡(jiǎn)單隨機(jī)抽樣. 有放回和無(wú)放回簡(jiǎn)單隨機(jī)抽樣，從抽樣的結(jié)果來(lái)看，是否存在差異？通過(guò)下面三組不同數(shù)據(jù)特征下的試驗(yàn)，讓學(xué)生直觀感受它們之間的聯(lián)系與區(qū)別，

試驗(yàn)3：不同數(shù)據(jù)分布情況下有放回與無(wú)放回簡(jiǎn)單隨機(jī)抽樣的比較.

（1）數(shù)據(jù)分布整齊（正態(tài)分布）情況下的比較.

利用正態(tài)隨機(jī)數(shù)函數(shù)rnorm（700，mean=177，sd=5）生成一個(gè)容量為700的總體. 這個(gè)總體數(shù)據(jù)基本服從正態(tài)分布，如圖6所示. 在其中分別采用有放回和無(wú)放回的方式抽取100個(gè)樣本，進(jìn)行60次試驗(yàn)，繪制樣本平均值和整體平均值的關(guān)系，如圖7所示，觀察它們之間的聯(lián)系與區(qū)別．

R軟件代碼如下.

< # 比較無(wú)放回抽取和有放回抽取

< # 在數(shù)據(jù)比較規(guī)范的情況下

< Height2 <- rnorm（700，mean=177，sd=5）

< N <- 100 #設(shè)定抽取樣本數(shù)，可調(diào)整

< M <- 60 #設(shè)定試驗(yàn)次數(shù)，可調(diào)整

< colnames <- c（"試驗(yàn)次數(shù)"，"樣本平均數(shù)"，"是否有放回"）

< rownames <- c（1：（M*2））

< C <- matrix（nrow=M*2，ncol=3，dimnames = list（rownames， colnames））

< C［，］ <- 0

< C［，1］ <- （c（1：（M*2））-1）%%M+1

< for （i in c（1：M）） {

< C［i，2］<- mean（sample（Height2，N，replace=FALSE））

< C［i，3］ <- "無(wú)放回"

< C［i+M，2］<- mean（sample（Height2，N，replace=TRUE））

< C［i+M，3］ <- "有放回"

< }

< D <- data.frame（C）

< D$試驗(yàn)次數(shù) <- as.numeric（D$試驗(yàn)次數(shù)）

< D$樣本平均數(shù) <- as.numeric（D$樣本平均數(shù)）

< p1 <- ggplot（data=D，aes（x=試驗(yàn)次數(shù)，y=樣本平均數(shù)，shape=是否有放回））

< p2 <- p1+geom_point（size=3）+

< ? geom_line（aes（color=是否有放回，linetype=是否有放回））+

< ? geom_hline（yintercept = mean（Height2），color="blue"，size=1）

< p2

圖7中分別表示無(wú)放回和有放回的情況. 由圖7給出的60次試驗(yàn)結(jié)果來(lái)看，在700個(gè)數(shù)據(jù)服從正態(tài)分布的情況下，有放回與無(wú)放回簡(jiǎn)單隨機(jī)抽樣得到的樣本均值偏離情況差距不大，樣本均值與整體均值產(chǎn)生較大偏差的情況比較少. 但是由于數(shù)據(jù)具有隨機(jī)性，在圖中給出的60次試驗(yàn)中也存在出現(xiàn)較大偏差的情況. 例如，有放回抽取的第28次試驗(yàn)，出現(xiàn)了樣本均值偏離整體均值大約1.5的情況．

（2）數(shù)據(jù)分層情況下的比較.

利用語(yǔ)句c（rnorm（600，mean=180，sd=5），rnorm（100，mean=160，sd=5））生成一個(gè)容量為700的整體，其中600個(gè)數(shù)據(jù)作為男生身高的模擬，基本服從均值為180、標(biāo)準(zhǔn)差為5的正態(tài)分布，另外100個(gè)數(shù)據(jù)作為女生身高的模擬，基本服從均值為160、標(biāo)準(zhǔn)差為5的正態(tài)分布，數(shù)據(jù)分布情況如圖8所示. 可以看出，這組數(shù)據(jù)有比較明顯的分層特征. 現(xiàn)從中分別無(wú)放回和有放回地抽取200個(gè)樣本，進(jìn)行80次試驗(yàn)，繪制樣本平均值和整體平均值的折線圖，輸出結(jié)果見圖9．

R軟件代碼如下.

< # 在數(shù)據(jù)不規(guī)范的情況下

< Height3 <- c（rnorm（600，mean=180，sd=5），rnorm（100，mean=160，sd=5））

< X1 <- c（1：600）；C1［］ <- "男"

< X2 <- c（1：100）；C2［］ <- "女"

< X3 <- c（C1，C2）

< H <- data.frame（Height3，X3）

< N <- 200 #設(shè)定抽取樣本數(shù)，可調(diào)整

< M <- 60 #設(shè)定試驗(yàn)次數(shù)，可調(diào)整

< C <- matrix（nrow=M*2，ncol=3，dimnames = list（c（1：（M*2）），c（"試驗(yàn)編號(hào)"，"樣本平均值"，"是否有放回"）））

< C［，］ <- 0

< C［，1］ <- （c（1：（M*2））-1）%%M+1

< for （i in c（1：M）） {

< ? C［i，2］<- mean（sample（H$Height3，N，replace=FALSE））

< ? C［i，3］<-"無(wú)放回"

< ? C［i+M，2］<-mean（sample（H$Height3，N，replace=TRUE））

< ? C［i+M，3］ <- "有放回"

< }

< D <- data.frame（C）

< D$試驗(yàn)編號(hào) <- as.numeric（D$試驗(yàn)編號(hào)）

< D$樣本平均值 <- as.numeric（D$樣本平均值）

< p1 <- ggplot（data=D，aes（x=試驗(yàn)編號(hào)，y=樣本平均值，shape=是否有放回））

< p2 <- p1+geom_point（size=3）+

< ? geom_line（aes（colour=是否有放回，linetype=是否有放回））+

< ? geom_hline（yintercept = mean（H$Height3），color="blue"，size=1）

< p2

圖9中分別表示無(wú)放回和有放回的情況. 由圖9可見，當(dāng)700個(gè)數(shù)據(jù)具有分層特點(diǎn)的時(shí)候，樣本均值與整體均值偏差的幅度明顯大于沒有分層的情況，尤其是在有放回抽取中發(fā)生偏離的情況更多，偏離的幅度也更大. 例如，第21次試驗(yàn)，樣本均值偏離整體均值約為1.7. 在教學(xué)過(guò)程中，教師可以引導(dǎo)學(xué)生思考為什么會(huì)出現(xiàn)這種情況. 實(shí)際上，在有放回抽取的過(guò)程中，偏離的數(shù)據(jù)被重復(fù)抽取到的概率會(huì)更大. 為了驗(yàn)證這一想法，強(qiáng)化數(shù)據(jù)的分層特征再次進(jìn)行試驗(yàn)，考察數(shù)據(jù)極端情況下無(wú)放回和有放回抽樣間的差異.

（3）數(shù)據(jù)極端情況下的比較.

利用語(yǔ)句c（rnorm（600，mean=200，sd=5），rnorm（10，mean=0，sd=5））生成一個(gè)容量為610的整體，其中600個(gè)數(shù)據(jù)在200附近，10個(gè)數(shù)據(jù)在0附近，從中抽取50個(gè)樣本，進(jìn)行60次試驗(yàn)，得到如圖10所示的數(shù)據(jù)分布情況．R軟件代碼可以參照前面的試驗(yàn)稍作修改即可，這里不再贅述. 生成的折線圖如圖11所示，可以看出出現(xiàn)樣本均值與總體均值（196.89）的偏差幅度很大的情況較多，而且偏離數(shù)值很大. 在這60次試驗(yàn)中，樣本平均值小于192的，無(wú)放回出現(xiàn)3次，有放回出現(xiàn)6次，其中小于185的，無(wú)放回出現(xiàn)1次，有放回出現(xiàn)3次．

從上述三組不同數(shù)據(jù)分布特征情況下的抽樣試驗(yàn)中可以看出，當(dāng)數(shù)據(jù)分層情況非常明顯的時(shí)候，簡(jiǎn)單隨機(jī)抽樣得到的樣本代表性減弱，有放回的抽取更容易產(chǎn)生較大偏差. 由此可見，面對(duì)具有分層特征的數(shù)據(jù)采用簡(jiǎn)單隨機(jī)抽樣的方法來(lái)估計(jì)總體特征是不夠準(zhǔn)確的，因此需要對(duì)抽樣方法進(jìn)行改進(jìn)，這一改進(jìn)方法即分層隨機(jī)抽樣．

在教學(xué)中要注重引導(dǎo)學(xué)生基于所生成的折線圖得到試驗(yàn)結(jié)論并加以討論，分析不同數(shù)據(jù)情況下進(jìn)行抽樣的差異，嘗試對(duì)抽樣方法進(jìn)行改進(jìn)，探尋最適合數(shù)據(jù)特征的抽樣方法，在此過(guò)程中培養(yǎng)學(xué)生能夠批判性地理解知識(shí)的高階思維．

4. 分層隨機(jī)抽樣與簡(jiǎn)單隨機(jī)抽樣之間的比較

為了探究數(shù)據(jù)出現(xiàn)分層情況時(shí)分層隨機(jī)抽樣和簡(jiǎn)單隨機(jī)抽樣何種抽樣效果更優(yōu)，以及效果差異是否明顯的問(wèn)題，安排試驗(yàn)4，開展不同數(shù)據(jù)情況下分層隨機(jī)抽樣與簡(jiǎn)單隨機(jī)抽樣間的對(duì)比．

試驗(yàn)4：不同數(shù)據(jù)分層情況下分層隨機(jī)抽樣和簡(jiǎn)單隨機(jī)抽樣的比較.

當(dāng)樣本出現(xiàn)比較明顯的分層情況. 例如，前面例子中模擬的700個(gè)學(xué)生身高的數(shù)據(jù)，其中600個(gè)男生的身高數(shù)據(jù)基本服從均值為180、標(biāo)準(zhǔn)差為5的正態(tài)分布，另外100個(gè)女生的身高數(shù)據(jù)基本服從均值為160、標(biāo)準(zhǔn)差為5的正態(tài)分布. 對(duì)該數(shù)據(jù)分別進(jìn)行簡(jiǎn)單隨機(jī)抽樣和分層隨機(jī)抽樣，并繪制樣本均值和總體均值差異的折線圖，如圖12所示.

R軟件代碼如下.

< # 分層隨機(jī)抽樣

< # Height3 組的分層試驗(yàn)

< Height3 <- c（rnorm（600，mean=180，sd=5），rnorm（100，mean=160，sd=5））

< X1 <- c（1：600）；X1［］ <- "男"

< X2 <- c（1：100）；X2［］ <- "女"

< X3 <- c（X1，X2）

< H <- data.frame（Height3，X3）

< N <- 210 #設(shè)定抽取樣本數(shù)，可調(diào)整

< M <- 80 #設(shè)定試驗(yàn)次數(shù)，可調(diào)整

< C <- matrix（nrow=M*2，ncol=3，dimnames= list（c（1：（M*2）），c（"試驗(yàn)編號(hào)"，"樣本平均值"，"是否分層隨機(jī)抽樣"）））

< C［，］ <- 0

< C［，1］ <- （c（1：（M*2））-1）%%M+1

< for （i in c（1：M）） {

< C［i，2］<- mean（sample（H$Height3，N，replace=FALSE））

< C［i，3］ <- "簡(jiǎn)單隨機(jī)抽樣"

< C［i+M，2］<- mean（c（sample（H$Height3［1：600］，N*6/7，replace=FALSE），sample（H$Height3［601：700］，N*1/7，replace = FALSE）））

< C［i+M，3］ <- "分層隨機(jī)抽樣"

< }

< C1 <- data.frame（C）

< C1$試驗(yàn)編號(hào) <- as.numeric（C1$試驗(yàn)編號(hào)）

< C1$樣本平均值 <- as.numeric（C1$樣本平均值）

< p1 <- ggplot（data=C1，aes（x=試驗(yàn)編號(hào)，y=樣本平均值，shape=是否分層隨機(jī)抽樣））

< p2 <- p1+geom_point（size=3）+

< geom_line（aes（colour=是否分層隨機(jī)抽樣，linetype=是否分層隨機(jī)抽樣））+

< geom_hline（yintercept = mean（H$Height3），color="blue"，size=1）

< p2

圖12中分別表示了分層隨機(jī)抽樣和簡(jiǎn)單隨機(jī)抽樣的情況. 可見，在分層隨機(jī)抽樣的情況下，樣本均值較穩(wěn)定地圍繞總體均值波動(dòng)，相對(duì)于簡(jiǎn)單隨機(jī)抽樣，其波動(dòng)情況明顯較小．換言之，在這種數(shù)據(jù)情況下，分層隨機(jī)抽樣明顯優(yōu)于簡(jiǎn)單隨機(jī)抽樣．

當(dāng)數(shù)據(jù)分層情況更加明顯，如試驗(yàn)3“數(shù)據(jù)極端”情況的例子中，通過(guò)簡(jiǎn)單隨機(jī)抽樣和分層隨機(jī)抽樣得到的均值圍繞總體的波動(dòng)情況如圖13所示，可以看出在這種情況下，簡(jiǎn)單隨機(jī)抽樣得到的樣本均值偏離整體均值的幅度很大．

當(dāng)分層的樣本容量相當(dāng)?shù)臅r(shí)候，如男生和女生各有350人，其中男生身高均值約為170，標(biāo)準(zhǔn)差約為5，女生身高均值約為160，標(biāo)準(zhǔn)差約為5，該情況下采用簡(jiǎn)單隨機(jī)抽樣和分層隨機(jī)抽樣的試驗(yàn)結(jié)果如圖14所示. 從試驗(yàn)結(jié)果可以看出，當(dāng)分層容量相當(dāng)?shù)臅r(shí)候，采用簡(jiǎn)單隨機(jī)抽樣和分層隨機(jī)抽樣，所得樣本均值差異并不明顯，分層隨機(jī)抽樣略好于簡(jiǎn)單隨機(jī)抽樣．

通過(guò)以上三種不同數(shù)據(jù)分布情況下對(duì)分層隨機(jī)抽樣和簡(jiǎn)單隨機(jī)抽樣結(jié)果的對(duì)比，可以引導(dǎo)學(xué)生得出結(jié)論：分層情況明顯且樣本量相差很大的時(shí)候，分層隨機(jī)抽樣要明顯優(yōu)越于簡(jiǎn)單隨機(jī)抽樣．

三、反思與總結(jié)

1. 數(shù)據(jù)分析素養(yǎng)需要在學(xué)生的親身經(jīng)歷中發(fā)展

數(shù)據(jù)分析素養(yǎng)的形成與發(fā)展離不開學(xué)生親身參與統(tǒng)計(jì)過(guò)程、積累統(tǒng)計(jì)活動(dòng)的基本活動(dòng)經(jīng)驗(yàn). 整個(gè)統(tǒng)計(jì)活動(dòng)教學(xué)的展開與推進(jìn)應(yīng)該是以學(xué)生對(duì)實(shí)際問(wèn)題的分析為出發(fā)點(diǎn)，以學(xué)生對(duì)解決路徑探索引發(fā)的思考為推動(dòng)，并以學(xué)生得出的判斷加以驗(yàn)證，讓學(xué)生經(jīng)歷猜想、實(shí)踐、觀察、分析，并得出結(jié)論的過(guò)程．

探究活動(dòng)圍繞高一學(xué)生平均身高這一問(wèn)題情境，開展了一系列抽樣試驗(yàn). 由簡(jiǎn)單隨機(jī)抽樣出發(fā)，初步掌握借助統(tǒng)計(jì)軟件進(jìn)行簡(jiǎn)單隨機(jī)抽樣的基本方法，關(guān)注所抽取的樣本均值的情況. 在抽樣過(guò)程中樣本容量的選取是學(xué)生產(chǎn)生的第一個(gè)困惑點(diǎn)，由此開展試驗(yàn)2分析不同樣本容量下樣本均值的表現(xiàn). 簡(jiǎn)單隨機(jī)抽樣包括放回與不放回兩種形式，故兩種抽取方式會(huì)對(duì)抽樣結(jié)果產(chǎn)生何種影響是學(xué)生很自然所產(chǎn)生的困惑. 故在試驗(yàn)3中設(shè)置三組不同特征的數(shù)據(jù)來(lái)探究放回與不放回抽樣之間的差異. 對(duì)于后兩組數(shù)據(jù)表現(xiàn)出的分層特征，對(duì)分層數(shù)據(jù)選擇簡(jiǎn)單隨機(jī)抽樣和分層隨機(jī)抽樣哪個(gè)能更好地反映總體特征、各自效果如何等疑惑展開對(duì)比分析. 整個(gè)教學(xué)過(guò)程以學(xué)生的思考探究為驅(qū)動(dòng)力，步步深入，層層展開，引導(dǎo)學(xué)生經(jīng)歷基于數(shù)據(jù)分析、討論、改進(jìn)最終得到試驗(yàn)結(jié)論的過(guò)程，培養(yǎng)學(xué)生基于數(shù)據(jù)思考問(wèn)題的習(xí)慣，提升學(xué)生基于數(shù)據(jù)解決現(xiàn)實(shí)問(wèn)題的能力，是學(xué)生數(shù)據(jù)分析素養(yǎng)生成與提升的必要路徑．

2. 統(tǒng)計(jì)思維需要在學(xué)生的批判驗(yàn)證中提升

統(tǒng)計(jì)方法的選擇是基于實(shí)際問(wèn)題的需求和數(shù)據(jù)特征所做出的更優(yōu)方案. 在統(tǒng)計(jì)教學(xué)中也需要引導(dǎo)學(xué)生針對(duì)不同分布情況下的總體數(shù)據(jù)，比較不同抽樣方法下的結(jié)果表現(xiàn)，分析不同方法的優(yōu)劣和適用特征，從而批判性地做出更佳的統(tǒng)計(jì)分析方案. 例如，在對(duì)樣本容量的討論中得出結(jié)論：當(dāng)樣本容量增加時(shí)，樣本均值能夠更好地反映總體均值情況，但當(dāng)樣本容量增加到一定數(shù)值之后，再擴(kuò)大樣本容量引起的影響并不大，故從抽樣效益角度出發(fā)，樣本容量的選取并非越大越好. 在實(shí)際的抽樣調(diào)查中也會(huì)受到人力、費(fèi)用、時(shí)間等成本的影響，故在調(diào)查中要根據(jù)實(shí)際問(wèn)題的需要，選擇恰當(dāng)?shù)臉颖救萘窟M(jìn)行抽樣. 在學(xué)生探究、討論、分析并得到結(jié)論的過(guò)程中，既可以體會(huì)利用樣本估計(jì)總體的思想方法，也能在比較與分析中實(shí)現(xiàn)批判思維等高階思維的發(fā)展．

3. 科學(xué)素養(yǎng)需要在信息技術(shù)的教學(xué)應(yīng)用中生成

科學(xué)素養(yǎng)是信息時(shí)代對(duì)學(xué)生提出的新要求，關(guān)注學(xué)生利用所學(xué)的科學(xué)知識(shí)并將其應(yīng)用于生活情境的能力. 研究表明，在教學(xué)中應(yīng)用信息技術(shù)能夠促進(jìn)學(xué)生科學(xué)素養(yǎng)的發(fā)展. 而在統(tǒng)計(jì)教學(xué)的過(guò)程中離不開信息技術(shù)的支持，其中R軟件作為重要的統(tǒng)計(jì)軟件，能夠模擬完成大量隨機(jī)試驗(yàn)并計(jì)算得到數(shù)據(jù)結(jié)果，便于學(xué)生觀察樣本與總體之間的關(guān)聯(lián)，提高統(tǒng)計(jì)活動(dòng)開展效率，在統(tǒng)計(jì)教學(xué)中發(fā)揮著重要作用. 故在此次教學(xué)活動(dòng)實(shí)踐中以R軟件作為重要的技術(shù)支持貫穿整個(gè)教學(xué)過(guò)程. 師生借助R軟件實(shí)現(xiàn)數(shù)據(jù)的分析處理，在引導(dǎo)學(xué)生掌握軟件使用方法的同時(shí)，以可視化的呈現(xiàn)方式生成圖象，便于學(xué)生觀察不同情況下的抽樣結(jié)果，分析樣本與總體之間的關(guān)聯(lián)，討論選取更優(yōu)的抽樣方案，培養(yǎng)學(xué)生達(dá)成統(tǒng)計(jì)教學(xué)目標(biāo)，培養(yǎng)學(xué)生的數(shù)據(jù)意識(shí). 在提高統(tǒng)計(jì)教學(xué)質(zhì)量的同時(shí)，學(xué)生的科學(xué)素養(yǎng)也在探究和應(yīng)用過(guò)程中生成和提高．

參考文獻(xiàn)：

［1］中華人民共和國(guó)教育部. 普通高中數(shù)學(xué)課程標(biāo)準(zhǔn)（2017年版2020年修訂）［M］. 北京：人民教育出版社，2020．

［2］陳建明，孫小軍，楊博諦. 數(shù)據(jù)分析素養(yǎng)的評(píng)價(jià)框架與實(shí)施路徑研究［J］. 數(shù)學(xué)教育學(xué)報(bào)，2022，31（2）：8-12，57．

［3］史寧中. 數(shù)形結(jié)合與數(shù)學(xué)模型：高中數(shù)學(xué)教學(xué)中的核心問(wèn)題［M］. 北京：高等教育出版社，2018．

［4］程海奎，章建躍. 經(jīng)歷系統(tǒng)的數(shù)據(jù)處理過(guò)程在解決實(shí)際問(wèn)題中發(fā)展數(shù)據(jù)分析素養(yǎng)［J］. 數(shù)學(xué)通報(bào)，2021，60（4）：1-6，14．

［5］高雪松，郭方奇，歐陽(yáng)亞亞. 基于核心素養(yǎng)的高中統(tǒng)計(jì)教學(xué)研究［J］. 中國(guó)數(shù)學(xué)教育（高中版），2019（6）：17-20．

［6］陽(yáng)志長(zhǎng). 充分運(yùn)用教材資源，致力培養(yǎng)數(shù)據(jù)分析核心素養(yǎng)［J］. 中國(guó)數(shù)學(xué)教育（高中版），2017（3）：19-22．

［7］王春麗，顧小清. 中學(xué)生信息技術(shù)使用及其對(duì)科學(xué)素養(yǎng)的影響：基于PISA數(shù)據(jù)的中芬比較研究［J］. 中國(guó)遠(yuǎn)程教育，2019（5）：47-56，93.

［8］張廣民，康玥，任倩. 將GeoGebra軟件融入概率教學(xué)體現(xiàn)新課程理念：以“頻率與概率”單元為例［J］. 中國(guó)數(shù)學(xué)教育（高中版），2021（1 / 2）：83-90.