張廣民 曹雅楠 杜曉沛



摘 ?要:以一次基于R軟件的抽樣試驗(yàn)教學(xué)活動(dòng)為例,探索R軟件在統(tǒng)計(jì)教學(xué)中應(yīng)用的可能路徑,并基于教學(xué)活動(dòng)的開展效果提出統(tǒng)計(jì)教學(xué)的幾點(diǎn)思考:數(shù)據(jù)分析素養(yǎng)需要在學(xué)生的親身經(jīng)歷中發(fā)展;統(tǒng)計(jì)思維需要在學(xué)生的批判驗(yàn)證中提升;科學(xué)素養(yǎng)需要在信息技術(shù)的教學(xué)應(yīng)用中生成.
關(guān)鍵詞:R軟件;統(tǒng)計(jì)教學(xué);隨機(jī)抽樣;數(shù)據(jù)分析
統(tǒng)計(jì)內(nèi)容近年來(lái)在高中數(shù)學(xué)課程中的地位逐步提高,特別是《普通高中數(shù)學(xué)課程標(biāo)準(zhǔn)(2017年版2020年修訂)》將概率與統(tǒng)計(jì)內(nèi)容設(shè)為四條主線之一,貫穿整個(gè)高中數(shù)學(xué)課程體系,將數(shù)據(jù)分析列入六大數(shù)學(xué)核心素養(yǎng),并指出,數(shù)據(jù)分析是研究隨機(jī)現(xiàn)象的重要數(shù)學(xué)技術(shù),是大數(shù)據(jù)時(shí)代數(shù)學(xué)應(yīng)用的主要方法,也是“互聯(lián)網(wǎng) +”相關(guān)領(lǐng)域的重要數(shù)學(xué)方法,數(shù)據(jù)分析已經(jīng)深入到科學(xué)、技術(shù)、工程和現(xiàn)代社會(huì)生活的各個(gè)方面.
數(shù)據(jù)分析素養(yǎng)要求學(xué)生有數(shù)據(jù)意識(shí),認(rèn)識(shí)數(shù)據(jù),能用數(shù)據(jù)的眼光觀察世界,能夠收集數(shù)據(jù)、處理數(shù)據(jù)、分析數(shù)據(jù)、得出結(jié)論,具有統(tǒng)計(jì)思維,能夠理解并體會(huì)隨機(jī)性. 在高中階段加強(qiáng)數(shù)據(jù)分析素養(yǎng)的提升刻不容緩,數(shù)據(jù)分析素養(yǎng)是時(shí)代所需,是信息時(shí)代學(xué)生應(yīng)該具備的基本素養(yǎng). 同時(shí),數(shù)據(jù)分析素養(yǎng)的培養(yǎng)與提高需要在統(tǒng)計(jì)教學(xué)中得以落實(shí).
一、統(tǒng)計(jì)教學(xué)實(shí)踐中面臨的困境與突破
當(dāng)前高中統(tǒng)計(jì)的教學(xué)過(guò)程中仍然面臨著亟須突破的困境.
一是認(rèn)知困境.統(tǒng)計(jì)學(xué)的“或然思想”與傳統(tǒng)數(shù)學(xué)的“必然思想”有所區(qū)別. 傳統(tǒng)數(shù)學(xué)以概念和定義為基石,以公理體系為推理基礎(chǔ),得到確定的必然結(jié)果. 而統(tǒng)計(jì)學(xué)則建立在數(shù)據(jù)的基礎(chǔ)上,以數(shù)據(jù)背景為推斷,得到或然性的結(jié)論,關(guān)注的是如何從數(shù)據(jù)中挖掘更多有效信息. 因此,若仍采用一貫的教學(xué)方法和研究思路,容易使學(xué)生產(chǎn)生思維上的不適應(yīng)性,也不利于學(xué)生理解統(tǒng)計(jì)學(xué)的本質(zhì).
二是評(píng)價(jià)困境. 統(tǒng)計(jì)內(nèi)容在高考中或是以簡(jiǎn)單的形式出現(xiàn),或是每年以相對(duì)固定的模式出現(xiàn). 客觀來(lái)說(shuō),統(tǒng)計(jì)內(nèi)容在紙筆測(cè)試的考查中確有難度,這方面也需要教師做進(jìn)一步的研究. 教師在日常的統(tǒng)計(jì)教學(xué)中,傾向于直接給出概念,輔以例題講解,學(xué)生再通過(guò)習(xí)題訓(xùn)練達(dá)到考試要求,這與發(fā)展數(shù)據(jù)分析素養(yǎng)的課程目標(biāo)相背離.
因此,在統(tǒng)計(jì)部分的教學(xué)實(shí)踐中,教師需要根據(jù)教學(xué)內(nèi)容和學(xué)生的實(shí)際情況調(diào)整教學(xué)策略,讓學(xué)生由數(shù)據(jù)出發(fā),通過(guò)對(duì)數(shù)據(jù)的處理與分析探索得到研究結(jié)論的過(guò)程. 這就需要學(xué)生自己動(dòng)手進(jìn)行實(shí)踐,而數(shù)據(jù)處理環(huán)節(jié)的實(shí)踐又必須借助統(tǒng)計(jì)軟件來(lái)完成.在統(tǒng)計(jì)教學(xué)中加強(qiáng)信息技術(shù)的應(yīng)用,既是提高教學(xué)效率的舉措,又能更好地反映統(tǒng)計(jì)的學(xué)科特征.
目前,中學(xué)階段常用的統(tǒng)計(jì)軟件包括Excel,R,SPSS. 其中Excel是常見的數(shù)據(jù)處理軟件,有豐富的圖形操作界面,是日常辦公的必備軟件,但是在進(jìn)行較為專業(yè)的數(shù)據(jù)處理時(shí)不如R語(yǔ)言清晰、簡(jiǎn)便. SPSS也是一款功能強(qiáng)大的統(tǒng)計(jì)軟件,一般采用圖形界面,但是價(jià)格昂貴,對(duì)于編寫代碼有不便之處. R軟件是開源軟件,在統(tǒng)計(jì)工作中有廣泛的應(yīng)用,能夠進(jìn)行隨機(jī)模擬,使得大量隨機(jī)試驗(yàn)的完成得以實(shí)現(xiàn),能夠更好地幫助學(xué)生觀察樣本與總體之間的聯(lián)系,增強(qiáng)教學(xué)的直觀性和實(shí)操性,在人教A版《普通高中教科書·數(shù)學(xué)》(以下統(tǒng)稱“教材”)中存在大量的R語(yǔ)言實(shí)例. R語(yǔ)言以指令形式運(yùn)行,入手存在困難,這也是R軟件在普及過(guò)程中的一個(gè)弱點(diǎn). 筆者所在學(xué)校在進(jìn)行統(tǒng)計(jì)教學(xué)的過(guò)程中,利用課余時(shí)間對(duì)學(xué)生進(jìn)行了R語(yǔ)言使用的基礎(chǔ)培訓(xùn). 從最終教學(xué)效果看,學(xué)生掌握得非常好,能夠使用R軟件進(jìn)行數(shù)據(jù)處理的基本操作,這為利用R軟件開展統(tǒng)計(jì)活動(dòng)做好了前期技術(shù)上的準(zhǔn)備.
二、基于R軟件的抽樣試驗(yàn)教學(xué)活動(dòng)案例
以教材必修第二冊(cè)第九章第1節(jié)“隨機(jī)抽樣”內(nèi)容為例,通過(guò)設(shè)計(jì)一系列學(xué)生實(shí)踐活動(dòng),并在教學(xué)中應(yīng)用R軟件輔助統(tǒng)計(jì)活動(dòng)開展,探索與嘗試R軟件應(yīng)用于高中數(shù)學(xué)統(tǒng)計(jì)教學(xué)的可能路徑,以期提升學(xué)生的數(shù)據(jù)分析素養(yǎng).
教學(xué)活動(dòng)從“調(diào)查學(xué)生平均身高”這一核心問(wèn)題出發(fā)組織學(xué)生開展探究活動(dòng),分析不同的抽樣方法下樣本均值對(duì)總體均值的刻畫效果,以及R軟件的實(shí)現(xiàn)方法.
問(wèn)題:一家家具廠要為樹人中學(xué)高一年級(jí)制作課桌椅,他們事先想了解全體高一年級(jí)學(xué)生的平均身高,以便設(shè)定可調(diào)節(jié)桌椅的標(biāo)準(zhǔn)高度. 已知樹人中學(xué)高一年級(jí)有712名學(xué)生,如果要通過(guò)簡(jiǎn)單隨機(jī)抽樣的方法調(diào)查高一年級(jí)學(xué)生的平均身高,應(yīng)該怎樣抽取樣本?
1. 通過(guò)隨機(jī)數(shù)法進(jìn)行簡(jiǎn)單隨機(jī)抽樣
實(shí)現(xiàn)簡(jiǎn)單隨機(jī)抽樣可以采用抽簽法和隨機(jī)數(shù)法. 兩種方法都需要產(chǎn)生隨機(jī)數(shù),只是產(chǎn)生工具有所不同. 面對(duì)總體較大的情況,借助信息技術(shù)手段生成每個(gè)樣本的隨機(jī)數(shù),是最為方便、成本最低的實(shí)施方案. 故首先可以借助R軟件生成隨機(jī)數(shù).
試驗(yàn)1:簡(jiǎn)單隨機(jī)抽樣.
利用R軟件,只需要“sample( ?)”一條指令就能完成抽樣過(guò)程,包括有放回和無(wú)放回的情況.
R軟件代碼如下.
> Students <- c(1:712) # 建立一個(gè)學(xué)生編號(hào)的向量
> sample(Students,50,replace=FALSE) # 從712名學(xué)生中,無(wú)放回地抽取50個(gè)學(xué)生
其中,c(1:712)表示建立一個(gè)從1到712的向量(或可以理解為數(shù)組). 指令sample表示從Students中抽取50個(gè)樣本. 參數(shù)replace為FALSE時(shí)表示無(wú)放回的抽取,為TRUE時(shí)表示有放回的抽取. 運(yùn)行結(jié)果如圖1所示.
通過(guò)試驗(yàn)1,初步掌握借助統(tǒng)計(jì)軟件進(jìn)行簡(jiǎn)單隨機(jī)抽樣的基本方法,關(guān)注所抽取的樣本的均值情況.
2. 樣本量對(duì)抽樣結(jié)果的影響
在抽取樣本的過(guò)程中,樣本量的選取是值得討論的問(wèn)題. 從抽樣問(wèn)題本質(zhì)來(lái)看,所抽取的樣本容量越大,樣本的數(shù)字特征接近總體數(shù)字特征的概率就越大,往往更能反映總體情況. 但是在實(shí)際問(wèn)題中,受到人力、費(fèi)用、時(shí)間成本的影響,并不是抽樣容量越大越好. 以下借助R軟件完成試驗(yàn)2,考察不同樣本量下樣本均值與總體均值的差異.
試驗(yàn)2:樣本量分別為10,100,200,500對(duì)抽樣結(jié)果的影響.
利用R軟件進(jìn)行不同樣本容量下的簡(jiǎn)單隨機(jī)抽樣,做出圖象形象地觀察所得數(shù)據(jù),考察樣本容量對(duì)抽樣結(jié)果的影響. 仍然針對(duì)712名學(xué)生身高的探究問(wèn)題情境進(jìn)行抽樣調(diào)查,可以在前期通過(guò)問(wèn)卷調(diào)查獲取真實(shí)的高一學(xué)生身高數(shù)據(jù),這里通過(guò)正態(tài)隨機(jī)數(shù)生成712名學(xué)生身高數(shù)據(jù),并以此作為此問(wèn)題的總體. 利用無(wú)放回簡(jiǎn)單隨機(jī)抽樣分別抽取10名、50名、100名、200名、500名學(xué)生的身高數(shù)據(jù),計(jì)算幾次抽樣得到的樣本平均身高并與總體均值進(jìn)行比較,觀察其與總體均值的偏離情況.
首先,利用R軟件進(jìn)行抽樣,代碼如下.
< # 簡(jiǎn)單隨機(jī)抽樣,樣本量是否越大越好?
< Height <- rnorm(712,mean=165,sd=7)
< colnames <- c("NO","X10次","X20次","X50次","X100次","X200次","X500次")
< rownames <- c(1:50)
< A <- matrix(nrow=50,ncol=7,dimnames = list(rownames, colnames))
< A[,1]=c(1:50)
< flag <- c(10,20,50,100,200,500) #分別表示抽取的樣本數(shù)為10,20,50,100,200,500,可調(diào)整
< for (i in c(1:50)) {
< ? for (k in c(1:length(flag))) {
< ? ?A[i,k+1]<- mean(sample(Height,flag[k],replace = FALSE))
< ? ?}
< }
< B <- data.frame(A)
為了清晰地反映不同樣本容量對(duì)抽樣結(jié)果的影響,選取樣本容量為10和100兩種情況,分別繪制樣本平均值與總體平均值的折線圖,體會(huì)用樣本估計(jì)總體的過(guò)程.
R軟件代碼如下.
< # 繪制折線圖,比較樣本容量不同,對(duì)抽樣結(jié)果的影響
< # 下面的是樣本容量為10和100的情況比較
< library(ggplot2)
< p1 <- ggplot(data=B)
< p2 <- p1+geom_point(mapping=aes(x=NO,y=X10次))+
< ? geom_line(aes(x=NO,y=X10次))+
< ? geom_point(mapping=aes(x=NO,y=X100次),size=2,shape=2,color="red")+
< ? geom_line(aes(x=NO,y=X100次),color="red")+
< ? geom_hline(yintercept =mean(Height),color="red",size=1)
< p2+ylab(" ")
運(yùn)行結(jié)果如圖2所示,其中“●”表示抽取樣本容量為10的情況,“[△]”表示抽取樣本容量為100的情況. 由圖2可以看出當(dāng)樣本容量為10時(shí),產(chǎn)生較大偏差的情況更多,而當(dāng)樣本容量為100時(shí),得到的結(jié)果相對(duì)穩(wěn)定.
同時(shí),受隨機(jī)數(shù)生成的隨機(jī)性的影響,某些時(shí)候樣本容量為10的效果要比樣本容量為100的更好. 例如,在第10次試驗(yàn)中,容量為10時(shí)所抽取的樣本比樣本容量為100更貼近總體均值. 通過(guò)此試驗(yàn),可以讓學(xué)生初步體會(huì)利用樣本估計(jì)整體的統(tǒng)計(jì)研究思想,體會(huì)在統(tǒng)計(jì)研究的過(guò)程中,并不是針對(duì)確定數(shù)值的研究,而是伴隨概率問(wèn)題的.
進(jìn)一步增加樣本容量為200和500的情況,感受樣本平均值和總體平均值之間的差異,體會(huì)樣本容量增大后抽樣效果的反映.
R軟件代碼如下.
< # 增加繪制樣本容量為200的情況
< p3 <- p2 +geom_point(mapping=aes(x=NO,y=X200次),size=3,shape=3,color="blue")+
< geom_line(aes(x=NO,y=X200次),color="blue")
< p3
< # 增加繪制樣本容量為500的情況
< p4 <- p3 +geom_point(mapping=aes(x=NO,y=X500次),size=4,shape=4,color="purple")+
< geom_line(aes(x=NO,y=X500次),color="purple")
< p4
運(yùn)行結(jié)果如圖3所示,其中,“[+]”是樣本容量為200的情況,“[×]”是樣本容量為500的情況.
可以看出,與樣本容量為10和100時(shí)的情況相比,樣本容量為200和500時(shí)的樣本均值與總體均值之間的偏差有所減小,表明當(dāng)樣本容量增大時(shí)能夠更好地反映總體情況. 但從絕對(duì)偏差來(lái)看,樣本容量為200和500之間的差異并不大. 因此,盡管樣本容量增大能夠更好地估計(jì)總體,但是考慮實(shí)際抽樣過(guò)程中的人力、物力和時(shí)間成本等因素,樣本容量為500并不一定是效益最好的樣本容量選擇方案. 故在實(shí)際的抽樣中,需要結(jié)合具體問(wèn)題的需要確定樣本容量,而并非一定是越大越好. 在教學(xué)中教師要引導(dǎo)學(xué)生就此問(wèn)題展開討論,體會(huì)統(tǒng)計(jì)學(xué)研究方法的特殊性以及與現(xiàn)實(shí)情境的關(guān)聯(lián)性.
為進(jìn)一步觀察不同樣本容量下的抽樣結(jié)果,可以繪制樣本容量為100和500,以及200和500的折線比較圖,如圖4和圖5所示,能更加清晰地反映它們之間的關(guān)系,也印證上文所得到的結(jié)論,即樣本量并非越大越好,具體樣本容量的選取需要考慮實(shí)際問(wèn)題背景下的抽樣效益.
折線圖繪制R軟件代碼如下.
< # 比較100次與500次
< p1+geom_point(mapping=aes(x=NO,y=X100次))+
< ? ylim(160,170)+
< ? geom_line(aes(x=NO,y=X100次))+
< ? geom_point(mapping=aes(x=NO,y=X500次),size=2,shape=2,color="red")+
< ? geom_line(aes(x=NO,y=X500次),color="red")+
< ? geom_hline(yintercept=mean(Height),color="red",size=1)
< # 比較200次與500次
< p1+geom_point(mapping=aes(x=NO,y=X200次))+
< ? ylim(160,170)+
< ? geom_line(aes(x=NO,y=X200次))+
< ? geom_point(mapping=aes(x=NO,y=X500次),size=2,shape=2,color="red")+
< ? geom_line(aes(x=NO,y=X500次),color="red")+
< ? geom_hline(yintercept=mean(Height),color="red",size=1)
3. 有放回與無(wú)放回簡(jiǎn)單隨機(jī)抽樣之間的比較
簡(jiǎn)單隨機(jī)抽樣包括有放回和無(wú)放回兩類,這兩類之間是否存在差異,以及對(duì)抽樣結(jié)果有怎樣的影響是值得探討和試驗(yàn)的問(wèn)題. 由于學(xué)生在學(xué)習(xí)這部分內(nèi)容時(shí)還不具備概率部分的必要知識(shí),故通過(guò)設(shè)置試驗(yàn)3,對(duì)三組不同特征下的數(shù)據(jù)分別進(jìn)行有放回和無(wú)放回的簡(jiǎn)單隨機(jī)抽樣,并作出折線圖直觀地觀察它們之間的聯(lián)系與區(qū)別,并為學(xué)生后期學(xué)習(xí)概率知識(shí)奠定基礎(chǔ).
與有放回簡(jiǎn)單隨機(jī)抽樣比較,不放回簡(jiǎn)單隨機(jī)抽樣效率更高,因此實(shí)踐中人們更多采用無(wú)放回簡(jiǎn)單隨機(jī)抽樣. 有放回和無(wú)放回簡(jiǎn)單隨機(jī)抽樣,從抽樣的結(jié)果來(lái)看,是否存在差異?通過(guò)下面三組不同數(shù)據(jù)特征下的試驗(yàn),讓學(xué)生直觀感受它們之間的聯(lián)系與區(qū)別,
試驗(yàn)3:不同數(shù)據(jù)分布情況下有放回與無(wú)放回簡(jiǎn)單隨機(jī)抽樣的比較.
(1)數(shù)據(jù)分布整齊(正態(tài)分布)情況下的比較.
利用正態(tài)隨機(jī)數(shù)函數(shù)rnorm(700,mean=177,sd=5)生成一個(gè)容量為700的總體. 這個(gè)總體數(shù)據(jù)基本服從正態(tài)分布,如圖6所示. 在其中分別采用有放回和無(wú)放回的方式抽取100個(gè)樣本,進(jìn)行60次試驗(yàn),繪制樣本平均值和整體平均值的關(guān)系,如圖7所示,觀察它們之間的聯(lián)系與區(qū)別.
R軟件代碼如下.
< # 比較無(wú)放回抽取和有放回抽取
< # 在數(shù)據(jù)比較規(guī)范的情況下
< Height2 <- rnorm(700,mean=177,sd=5)
< N <- 100 #設(shè)定抽取樣本數(shù),可調(diào)整
< M <- 60 #設(shè)定試驗(yàn)次數(shù),可調(diào)整
< colnames <- c("試驗(yàn)次數(shù)","樣本平均數(shù)","是否有放回")
< rownames <- c(1:(M*2))
< C <- matrix(nrow=M*2,ncol=3,dimnames = list(rownames, colnames))
< C[,] <- 0
< C[,1] <- (c(1:(M*2))-1)%%M+1
< for (i in c(1:M)) {
< C[i,2]<- mean(sample(Height2,N,replace=FALSE))
< C[i,3] <- "無(wú)放回"
< C[i+M,2]<- mean(sample(Height2,N,replace=TRUE))
< C[i+M,3] <- "有放回"
< }
< D <- data.frame(C)
< D$試驗(yàn)次數(shù) <- as.numeric(D$試驗(yàn)次數(shù))
< D$樣本平均數(shù) <- as.numeric(D$樣本平均數(shù))
< p1 <- ggplot(data=D,aes(x=試驗(yàn)次數(shù),y=樣本平均數(shù),shape=是否有放回))
< p2 <- p1+geom_point(size=3)+
< ? geom_line(aes(color=是否有放回,linetype=是否有放回))+
< ? geom_hline(yintercept = mean(Height2),color="blue",size=1)
< p2
圖7中分別表示無(wú)放回和有放回的情況. 由圖7給出的60次試驗(yàn)結(jié)果來(lái)看,在700個(gè)數(shù)據(jù)服從正態(tài)分布的情況下,有放回與無(wú)放回簡(jiǎn)單隨機(jī)抽樣得到的樣本均值偏離情況差距不大,樣本均值與整體均值產(chǎn)生較大偏差的情況比較少. 但是由于數(shù)據(jù)具有隨機(jī)性,在圖中給出的60次試驗(yàn)中也存在出現(xiàn)較大偏差的情況. 例如,有放回抽取的第28次試驗(yàn),出現(xiàn)了樣本均值偏離整體均值大約1.5的情況.
(2)數(shù)據(jù)分層情況下的比較.
利用語(yǔ)句c(rnorm(600,mean=180,sd=5),rnorm(100,mean=160,sd=5))生成一個(gè)容量為700的整體,其中600個(gè)數(shù)據(jù)作為男生身高的模擬,基本服從均值為180、標(biāo)準(zhǔn)差為5的正態(tài)分布,另外100個(gè)數(shù)據(jù)作為女生身高的模擬,基本服從均值為160、標(biāo)準(zhǔn)差為5的正態(tài)分布,數(shù)據(jù)分布情況如圖8所示. 可以看出,這組數(shù)據(jù)有比較明顯的分層特征. 現(xiàn)從中分別無(wú)放回和有放回地抽取200個(gè)樣本,進(jìn)行80次試驗(yàn),繪制樣本平均值和整體平均值的折線圖,輸出結(jié)果見圖9.
R軟件代碼如下.
< # 在數(shù)據(jù)不規(guī)范的情況下
< Height3 <- c(rnorm(600,mean=180,sd=5),rnorm(100,mean=160,sd=5))
< X1 <- c(1:600);C1[] <- "男"
< X2 <- c(1:100);C2[] <- "女"
< X3 <- c(C1,C2)
< H <- data.frame(Height3,X3)
< N <- 200 #設(shè)定抽取樣本數(shù),可調(diào)整
< M <- 60 #設(shè)定試驗(yàn)次數(shù),可調(diào)整
< C <- matrix(nrow=M*2,ncol=3,dimnames = list(c(1:(M*2)),c("試驗(yàn)編號(hào)","樣本平均值","是否有放回")))
< C[,] <- 0
< C[,1] <- (c(1:(M*2))-1)%%M+1
< for (i in c(1:M)) {
< ? C[i,2]<- mean(sample(H$Height3,N,replace=FALSE))
< ? C[i,3]<-"無(wú)放回"
< ? C[i+M,2]<-mean(sample(H$Height3,N,replace=TRUE))
< ? C[i+M,3] <- "有放回"
< }
< D <- data.frame(C)
< D$試驗(yàn)編號(hào) <- as.numeric(D$試驗(yàn)編號(hào))
< D$樣本平均值 <- as.numeric(D$樣本平均值)
< p1 <- ggplot(data=D,aes(x=試驗(yàn)編號(hào),y=樣本平均值,shape=是否有放回))
< p2 <- p1+geom_point(size=3)+
< ? geom_line(aes(colour=是否有放回,linetype=是否有放回))+
< ? geom_hline(yintercept = mean(H$Height3),color="blue",size=1)
< p2
圖9中分別表示無(wú)放回和有放回的情況. 由圖9可見,當(dāng)700個(gè)數(shù)據(jù)具有分層特點(diǎn)的時(shí)候,樣本均值與整體均值偏差的幅度明顯大于沒有分層的情況,尤其是在有放回抽取中發(fā)生偏離的情況更多,偏離的幅度也更大. 例如,第21次試驗(yàn),樣本均值偏離整體均值約為1.7. 在教學(xué)過(guò)程中,教師可以引導(dǎo)學(xué)生思考為什么會(huì)出現(xiàn)這種情況. 實(shí)際上,在有放回抽取的過(guò)程中,偏離的數(shù)據(jù)被重復(fù)抽取到的概率會(huì)更大. 為了驗(yàn)證這一想法,強(qiáng)化數(shù)據(jù)的分層特征再次進(jìn)行試驗(yàn),考察數(shù)據(jù)極端情況下無(wú)放回和有放回抽樣間的差異.
(3)數(shù)據(jù)極端情況下的比較.
利用語(yǔ)句c(rnorm(600,mean=200,sd=5),rnorm(10,mean=0,sd=5))生成一個(gè)容量為610的整體,其中600個(gè)數(shù)據(jù)在200附近,10個(gè)數(shù)據(jù)在0附近,從中抽取50個(gè)樣本,進(jìn)行60次試驗(yàn),得到如圖10所示的數(shù)據(jù)分布情況.R軟件代碼可以參照前面的試驗(yàn)稍作修改即可,這里不再贅述. 生成的折線圖如圖11所示,可以看出出現(xiàn)樣本均值與總體均值(196.89)的偏差幅度很大的情況較多,而且偏離數(shù)值很大. 在這60次試驗(yàn)中,樣本平均值小于192的,無(wú)放回出現(xiàn)3次,有放回出現(xiàn)6次,其中小于185的,無(wú)放回出現(xiàn)1次,有放回出現(xiàn)3次.
從上述三組不同數(shù)據(jù)分布特征情況下的抽樣試驗(yàn)中可以看出,當(dāng)數(shù)據(jù)分層情況非常明顯的時(shí)候,簡(jiǎn)單隨機(jī)抽樣得到的樣本代表性減弱,有放回的抽取更容易產(chǎn)生較大偏差. 由此可見,面對(duì)具有分層特征的數(shù)據(jù)采用簡(jiǎn)單隨機(jī)抽樣的方法來(lái)估計(jì)總體特征是不夠準(zhǔn)確的,因此需要對(duì)抽樣方法進(jìn)行改進(jìn),這一改進(jìn)方法即分層隨機(jī)抽樣.
在教學(xué)中要注重引導(dǎo)學(xué)生基于所生成的折線圖得到試驗(yàn)結(jié)論并加以討論,分析不同數(shù)據(jù)情況下進(jìn)行抽樣的差異,嘗試對(duì)抽樣方法進(jìn)行改進(jìn),探尋最適合數(shù)據(jù)特征的抽樣方法,在此過(guò)程中培養(yǎng)學(xué)生能夠批判性地理解知識(shí)的高階思維.
4. 分層隨機(jī)抽樣與簡(jiǎn)單隨機(jī)抽樣之間的比較
為了探究數(shù)據(jù)出現(xiàn)分層情況時(shí)分層隨機(jī)抽樣和簡(jiǎn)單隨機(jī)抽樣何種抽樣效果更優(yōu),以及效果差異是否明顯的問(wèn)題,安排試驗(yàn)4,開展不同數(shù)據(jù)情況下分層隨機(jī)抽樣與簡(jiǎn)單隨機(jī)抽樣間的對(duì)比.
試驗(yàn)4:不同數(shù)據(jù)分層情況下分層隨機(jī)抽樣和簡(jiǎn)單隨機(jī)抽樣的比較.
當(dāng)樣本出現(xiàn)比較明顯的分層情況. 例如,前面例子中模擬的700個(gè)學(xué)生身高的數(shù)據(jù),其中600個(gè)男生的身高數(shù)據(jù)基本服從均值為180、標(biāo)準(zhǔn)差為5的正態(tài)分布,另外100個(gè)女生的身高數(shù)據(jù)基本服從均值為160、標(biāo)準(zhǔn)差為5的正態(tài)分布. 對(duì)該數(shù)據(jù)分別進(jìn)行簡(jiǎn)單隨機(jī)抽樣和分層隨機(jī)抽樣,并繪制樣本均值和總體均值差異的折線圖,如圖12所示.
R軟件代碼如下.
< # 分層隨機(jī)抽樣
< # Height3 組的分層試驗(yàn)
< Height3 <- c(rnorm(600,mean=180,sd=5),rnorm(100,mean=160,sd=5))
< X1 <- c(1:600);X1[] <- "男"
< X2 <- c(1:100);X2[] <- "女"
< X3 <- c(X1,X2)
< H <- data.frame(Height3,X3)
< N <- 210 #設(shè)定抽取樣本數(shù),可調(diào)整
< M <- 80 #設(shè)定試驗(yàn)次數(shù),可調(diào)整
< C <- matrix(nrow=M*2,ncol=3,dimnames= list(c(1:(M*2)),c("試驗(yàn)編號(hào)","樣本平均值","是否分層隨機(jī)抽樣")))
< C[,] <- 0
< C[,1] <- (c(1:(M*2))-1)%%M+1
< for (i in c(1:M)) {
< C[i,2]<- mean(sample(H$Height3,N,replace=FALSE))
< C[i,3] <- "簡(jiǎn)單隨機(jī)抽樣"
< C[i+M,2]<- mean(c(sample(H$Height3[1:600],N*6/7,replace=FALSE),sample(H$Height3[601:700],N*1/7,replace = FALSE)))
< C[i+M,3] <- "分層隨機(jī)抽樣"
< }
< C1 <- data.frame(C)
< C1$試驗(yàn)編號(hào) <- as.numeric(C1$試驗(yàn)編號(hào))
< C1$樣本平均值 <- as.numeric(C1$樣本平均值)
< p1 <- ggplot(data=C1,aes(x=試驗(yàn)編號(hào),y=樣本平均值,shape=是否分層隨機(jī)抽樣))
< p2 <- p1+geom_point(size=3)+
< geom_line(aes(colour=是否分層隨機(jī)抽樣,linetype=是否分層隨機(jī)抽樣))+
< geom_hline(yintercept = mean(H$Height3),color="blue",size=1)
< p2
圖12中分別表示了分層隨機(jī)抽樣和簡(jiǎn)單隨機(jī)抽樣的情況. 可見,在分層隨機(jī)抽樣的情況下,樣本均值較穩(wěn)定地圍繞總體均值波動(dòng),相對(duì)于簡(jiǎn)單隨機(jī)抽樣,其波動(dòng)情況明顯較小.換言之,在這種數(shù)據(jù)情況下,分層隨機(jī)抽樣明顯優(yōu)于簡(jiǎn)單隨機(jī)抽樣.
當(dāng)數(shù)據(jù)分層情況更加明顯,如試驗(yàn)3“數(shù)據(jù)極端”情況的例子中,通過(guò)簡(jiǎn)單隨機(jī)抽樣和分層隨機(jī)抽樣得到的均值圍繞總體的波動(dòng)情況如圖13所示,可以看出在這種情況下,簡(jiǎn)單隨機(jī)抽樣得到的樣本均值偏離整體均值的幅度很大.
當(dāng)分層的樣本容量相當(dāng)?shù)臅r(shí)候,如男生和女生各有350人,其中男生身高均值約為170,標(biāo)準(zhǔn)差約為5,女生身高均值約為160,標(biāo)準(zhǔn)差約為5,該情況下采用簡(jiǎn)單隨機(jī)抽樣和分層隨機(jī)抽樣的試驗(yàn)結(jié)果如圖14所示. 從試驗(yàn)結(jié)果可以看出,當(dāng)分層容量相當(dāng)?shù)臅r(shí)候,采用簡(jiǎn)單隨機(jī)抽樣和分層隨機(jī)抽樣,所得樣本均值差異并不明顯,分層隨機(jī)抽樣略好于簡(jiǎn)單隨機(jī)抽樣.
通過(guò)以上三種不同數(shù)據(jù)分布情況下對(duì)分層隨機(jī)抽樣和簡(jiǎn)單隨機(jī)抽樣結(jié)果的對(duì)比,可以引導(dǎo)學(xué)生得出結(jié)論:分層情況明顯且樣本量相差很大的時(shí)候,分層隨機(jī)抽樣要明顯優(yōu)越于簡(jiǎn)單隨機(jī)抽樣.
三、反思與總結(jié)
1. 數(shù)據(jù)分析素養(yǎng)需要在學(xué)生的親身經(jīng)歷中發(fā)展
數(shù)據(jù)分析素養(yǎng)的形成與發(fā)展離不開學(xué)生親身參與統(tǒng)計(jì)過(guò)程、積累統(tǒng)計(jì)活動(dòng)的基本活動(dòng)經(jīng)驗(yàn). 整個(gè)統(tǒng)計(jì)活動(dòng)教學(xué)的展開與推進(jìn)應(yīng)該是以學(xué)生對(duì)實(shí)際問(wèn)題的分析為出發(fā)點(diǎn),以學(xué)生對(duì)解決路徑探索引發(fā)的思考為推動(dòng),并以學(xué)生得出的判斷加以驗(yàn)證,讓學(xué)生經(jīng)歷猜想、實(shí)踐、觀察、分析,并得出結(jié)論的過(guò)程.
探究活動(dòng)圍繞高一學(xué)生平均身高這一問(wèn)題情境,開展了一系列抽樣試驗(yàn). 由簡(jiǎn)單隨機(jī)抽樣出發(fā),初步掌握借助統(tǒng)計(jì)軟件進(jìn)行簡(jiǎn)單隨機(jī)抽樣的基本方法,關(guān)注所抽取的樣本均值的情況. 在抽樣過(guò)程中樣本容量的選取是學(xué)生產(chǎn)生的第一個(gè)困惑點(diǎn),由此開展試驗(yàn)2分析不同樣本容量下樣本均值的表現(xiàn). 簡(jiǎn)單隨機(jī)抽樣包括放回與不放回兩種形式,故兩種抽取方式會(huì)對(duì)抽樣結(jié)果產(chǎn)生何種影響是學(xué)生很自然所產(chǎn)生的困惑. 故在試驗(yàn)3中設(shè)置三組不同特征的數(shù)據(jù)來(lái)探究放回與不放回抽樣之間的差異. 對(duì)于后兩組數(shù)據(jù)表現(xiàn)出的分層特征,對(duì)分層數(shù)據(jù)選擇簡(jiǎn)單隨機(jī)抽樣和分層隨機(jī)抽樣哪個(gè)能更好地反映總體特征、各自效果如何等疑惑展開對(duì)比分析. 整個(gè)教學(xué)過(guò)程以學(xué)生的思考探究為驅(qū)動(dòng)力,步步深入,層層展開,引導(dǎo)學(xué)生經(jīng)歷基于數(shù)據(jù)分析、討論、改進(jìn)最終得到試驗(yàn)結(jié)論的過(guò)程,培養(yǎng)學(xué)生基于數(shù)據(jù)思考問(wèn)題的習(xí)慣,提升學(xué)生基于數(shù)據(jù)解決現(xiàn)實(shí)問(wèn)題的能力,是學(xué)生數(shù)據(jù)分析素養(yǎng)生成與提升的必要路徑.
2. 統(tǒng)計(jì)思維需要在學(xué)生的批判驗(yàn)證中提升
統(tǒng)計(jì)方法的選擇是基于實(shí)際問(wèn)題的需求和數(shù)據(jù)特征所做出的更優(yōu)方案. 在統(tǒng)計(jì)教學(xué)中也需要引導(dǎo)學(xué)生針對(duì)不同分布情況下的總體數(shù)據(jù),比較不同抽樣方法下的結(jié)果表現(xiàn),分析不同方法的優(yōu)劣和適用特征,從而批判性地做出更佳的統(tǒng)計(jì)分析方案. 例如,在對(duì)樣本容量的討論中得出結(jié)論:當(dāng)樣本容量增加時(shí),樣本均值能夠更好地反映總體均值情況,但當(dāng)樣本容量增加到一定數(shù)值之后,再擴(kuò)大樣本容量引起的影響并不大,故從抽樣效益角度出發(fā),樣本容量的選取并非越大越好. 在實(shí)際的抽樣調(diào)查中也會(huì)受到人力、費(fèi)用、時(shí)間等成本的影響,故在調(diào)查中要根據(jù)實(shí)際問(wèn)題的需要,選擇恰當(dāng)?shù)臉颖救萘窟M(jìn)行抽樣. 在學(xué)生探究、討論、分析并得到結(jié)論的過(guò)程中,既可以體會(huì)利用樣本估計(jì)總體的思想方法,也能在比較與分析中實(shí)現(xiàn)批判思維等高階思維的發(fā)展.
3. 科學(xué)素養(yǎng)需要在信息技術(shù)的教學(xué)應(yīng)用中生成
科學(xué)素養(yǎng)是信息時(shí)代對(duì)學(xué)生提出的新要求,關(guān)注學(xué)生利用所學(xué)的科學(xué)知識(shí)并將其應(yīng)用于生活情境的能力. 研究表明,在教學(xué)中應(yīng)用信息技術(shù)能夠促進(jìn)學(xué)生科學(xué)素養(yǎng)的發(fā)展. 而在統(tǒng)計(jì)教學(xué)的過(guò)程中離不開信息技術(shù)的支持,其中R軟件作為重要的統(tǒng)計(jì)軟件,能夠模擬完成大量隨機(jī)試驗(yàn)并計(jì)算得到數(shù)據(jù)結(jié)果,便于學(xué)生觀察樣本與總體之間的關(guān)聯(lián),提高統(tǒng)計(jì)活動(dòng)開展效率,在統(tǒng)計(jì)教學(xué)中發(fā)揮著重要作用. 故在此次教學(xué)活動(dòng)實(shí)踐中以R軟件作為重要的技術(shù)支持貫穿整個(gè)教學(xué)過(guò)程. 師生借助R軟件實(shí)現(xiàn)數(shù)據(jù)的分析處理,在引導(dǎo)學(xué)生掌握軟件使用方法的同時(shí),以可視化的呈現(xiàn)方式生成圖象,便于學(xué)生觀察不同情況下的抽樣結(jié)果,分析樣本與總體之間的關(guān)聯(lián),討論選取更優(yōu)的抽樣方案,培養(yǎng)學(xué)生達(dá)成統(tǒng)計(jì)教學(xué)目標(biāo),培養(yǎng)學(xué)生的數(shù)據(jù)意識(shí). 在提高統(tǒng)計(jì)教學(xué)質(zhì)量的同時(shí),學(xué)生的科學(xué)素養(yǎng)也在探究和應(yīng)用過(guò)程中生成和提高.
參考文獻(xiàn):
[1]中華人民共和國(guó)教育部. 普通高中數(shù)學(xué)課程標(biāo)準(zhǔn)(2017年版2020年修訂)[M]. 北京:人民教育出版社,2020.
[2]陳建明,孫小軍,楊博諦. 數(shù)據(jù)分析素養(yǎng)的評(píng)價(jià)框架與實(shí)施路徑研究[J]. 數(shù)學(xué)教育學(xué)報(bào),2022,31(2):8-12,57.
[3]史寧中. 數(shù)形結(jié)合與數(shù)學(xué)模型:高中數(shù)學(xué)教學(xué)中的核心問(wèn)題[M]. 北京:高等教育出版社,2018.
[4]程海奎,章建躍. 經(jīng)歷系統(tǒng)的數(shù)據(jù)處理過(guò)程 在解決實(shí)際問(wèn)題中發(fā)展數(shù)據(jù)分析素養(yǎng)[J]. 數(shù)學(xué)通報(bào),2021,60(4):1-6,14.
[5]高雪松,郭方奇,歐陽(yáng)亞亞. 基于核心素養(yǎng)的高中統(tǒng)計(jì)教學(xué)研究[J]. 中國(guó)數(shù)學(xué)教育(高中版),2019(6):17-20.
[6]陽(yáng)志長(zhǎng). 充分運(yùn)用教材資源,致力培養(yǎng)數(shù)據(jù)分析核心素養(yǎng)[J]. 中國(guó)數(shù)學(xué)教育(高中版),2017(3):19-22.
[7]王春麗,顧小清. 中學(xué)生信息技術(shù)使用及其對(duì)科學(xué)素養(yǎng)的影響:基于PISA數(shù)據(jù)的中芬比較研究[J]. 中國(guó)遠(yuǎn)程教育,2019(5):47-56,93.
[8]張廣民,康玥,任倩. 將GeoGebra軟件融入概率教學(xué)體現(xiàn)新課程理念:以“頻率與概率”單元為例[J]. 中國(guó)數(shù)學(xué)教育(高中版),2021(1 / 2):83-90.