999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于R軟件的高中統(tǒng)計(jì)教學(xué)實(shí)踐研究

2023-04-11 17:17:28張廣民曹雅楠杜曉沛
關(guān)鍵詞:數(shù)據(jù)分析

張廣民 曹雅楠 杜曉沛

摘 ?要:以一次基于R軟件的抽樣試驗(yàn)教學(xué)活動(dòng)為例,探索R軟件在統(tǒng)計(jì)教學(xué)中應(yīng)用的可能路徑,并基于教學(xué)活動(dòng)的開展效果提出統(tǒng)計(jì)教學(xué)的幾點(diǎn)思考:數(shù)據(jù)分析素養(yǎng)需要在學(xué)生的親身經(jīng)歷中發(fā)展;統(tǒng)計(jì)思維需要在學(xué)生的批判驗(yàn)證中提升;科學(xué)素養(yǎng)需要在信息技術(shù)的教學(xué)應(yīng)用中生成.

關(guān)鍵詞:R軟件;統(tǒng)計(jì)教學(xué);隨機(jī)抽樣;數(shù)據(jù)分析

統(tǒng)計(jì)內(nèi)容近年來(lái)在高中數(shù)學(xué)課程中的地位逐步提高,特別是《普通高中數(shù)學(xué)課程標(biāo)準(zhǔn)(2017年版2020年修訂)》將概率與統(tǒng)計(jì)內(nèi)容設(shè)為四條主線之一,貫穿整個(gè)高中數(shù)學(xué)課程體系,將數(shù)據(jù)分析列入六大數(shù)學(xué)核心素養(yǎng),并指出,數(shù)據(jù)分析是研究隨機(jī)現(xiàn)象的重要數(shù)學(xué)技術(shù),是大數(shù)據(jù)時(shí)代數(shù)學(xué)應(yīng)用的主要方法,也是“互聯(lián)網(wǎng) +”相關(guān)領(lǐng)域的重要數(shù)學(xué)方法,數(shù)據(jù)分析已經(jīng)深入到科學(xué)、技術(shù)、工程和現(xiàn)代社會(huì)生活的各個(gè)方面.

數(shù)據(jù)分析素養(yǎng)要求學(xué)生有數(shù)據(jù)意識(shí),認(rèn)識(shí)數(shù)據(jù),能用數(shù)據(jù)的眼光觀察世界,能夠收集數(shù)據(jù)、處理數(shù)據(jù)、分析數(shù)據(jù)、得出結(jié)論,具有統(tǒng)計(jì)思維,能夠理解并體會(huì)隨機(jī)性. 在高中階段加強(qiáng)數(shù)據(jù)分析素養(yǎng)的提升刻不容緩,數(shù)據(jù)分析素養(yǎng)是時(shí)代所需,是信息時(shí)代學(xué)生應(yīng)該具備的基本素養(yǎng). 同時(shí),數(shù)據(jù)分析素養(yǎng)的培養(yǎng)與提高需要在統(tǒng)計(jì)教學(xué)中得以落實(shí).

一、統(tǒng)計(jì)教學(xué)實(shí)踐中面臨的困境與突破

當(dāng)前高中統(tǒng)計(jì)的教學(xué)過(guò)程中仍然面臨著亟須突破的困境.

一是認(rèn)知困境.統(tǒng)計(jì)學(xué)的“或然思想”與傳統(tǒng)數(shù)學(xué)的“必然思想”有所區(qū)別. 傳統(tǒng)數(shù)學(xué)以概念和定義為基石,以公理體系為推理基礎(chǔ),得到確定的必然結(jié)果. 而統(tǒng)計(jì)學(xué)則建立在數(shù)據(jù)的基礎(chǔ)上,以數(shù)據(jù)背景為推斷,得到或然性的結(jié)論,關(guān)注的是如何從數(shù)據(jù)中挖掘更多有效信息. 因此,若仍采用一貫的教學(xué)方法和研究思路,容易使學(xué)生產(chǎn)生思維上的不適應(yīng)性,也不利于學(xué)生理解統(tǒng)計(jì)學(xué)的本質(zhì).

二是評(píng)價(jià)困境. 統(tǒng)計(jì)內(nèi)容在高考中或是以簡(jiǎn)單的形式出現(xiàn),或是每年以相對(duì)固定的模式出現(xiàn). 客觀來(lái)說(shuō),統(tǒng)計(jì)內(nèi)容在紙筆測(cè)試的考查中確有難度,這方面也需要教師做進(jìn)一步的研究. 教師在日常的統(tǒng)計(jì)教學(xué)中,傾向于直接給出概念,輔以例題講解,學(xué)生再通過(guò)習(xí)題訓(xùn)練達(dá)到考試要求,這與發(fā)展數(shù)據(jù)分析素養(yǎng)的課程目標(biāo)相背離.

因此,在統(tǒng)計(jì)部分的教學(xué)實(shí)踐中,教師需要根據(jù)教學(xué)內(nèi)容和學(xué)生的實(shí)際情況調(diào)整教學(xué)策略,讓學(xué)生由數(shù)據(jù)出發(fā),通過(guò)對(duì)數(shù)據(jù)的處理與分析探索得到研究結(jié)論的過(guò)程. 這就需要學(xué)生自己動(dòng)手進(jìn)行實(shí)踐,而數(shù)據(jù)處理環(huán)節(jié)的實(shí)踐又必須借助統(tǒng)計(jì)軟件來(lái)完成.在統(tǒng)計(jì)教學(xué)中加強(qiáng)信息技術(shù)的應(yīng)用,既是提高教學(xué)效率的舉措,又能更好地反映統(tǒng)計(jì)的學(xué)科特征.

目前,中學(xué)階段常用的統(tǒng)計(jì)軟件包括Excel,R,SPSS. 其中Excel是常見的數(shù)據(jù)處理軟件,有豐富的圖形操作界面,是日常辦公的必備軟件,但是在進(jìn)行較為專業(yè)的數(shù)據(jù)處理時(shí)不如R語(yǔ)言清晰、簡(jiǎn)便. SPSS也是一款功能強(qiáng)大的統(tǒng)計(jì)軟件,一般采用圖形界面,但是價(jià)格昂貴,對(duì)于編寫代碼有不便之處. R軟件是開源軟件,在統(tǒng)計(jì)工作中有廣泛的應(yīng)用,能夠進(jìn)行隨機(jī)模擬,使得大量隨機(jī)試驗(yàn)的完成得以實(shí)現(xiàn),能夠更好地幫助學(xué)生觀察樣本與總體之間的聯(lián)系,增強(qiáng)教學(xué)的直觀性和實(shí)操性,在人教A版《普通高中教科書·數(shù)學(xué)》(以下統(tǒng)稱“教材”)中存在大量的R語(yǔ)言實(shí)例. R語(yǔ)言以指令形式運(yùn)行,入手存在困難,這也是R軟件在普及過(guò)程中的一個(gè)弱點(diǎn). 筆者所在學(xué)校在進(jìn)行統(tǒng)計(jì)教學(xué)的過(guò)程中,利用課余時(shí)間對(duì)學(xué)生進(jìn)行了R語(yǔ)言使用的基礎(chǔ)培訓(xùn). 從最終教學(xué)效果看,學(xué)生掌握得非常好,能夠使用R軟件進(jìn)行數(shù)據(jù)處理的基本操作,這為利用R軟件開展統(tǒng)計(jì)活動(dòng)做好了前期技術(shù)上的準(zhǔn)備.

二、基于R軟件的抽樣試驗(yàn)教學(xué)活動(dòng)案例

以教材必修第二冊(cè)第九章第1節(jié)“隨機(jī)抽樣”內(nèi)容為例,通過(guò)設(shè)計(jì)一系列學(xué)生實(shí)踐活動(dòng),并在教學(xué)中應(yīng)用R軟件輔助統(tǒng)計(jì)活動(dòng)開展,探索與嘗試R軟件應(yīng)用于高中數(shù)學(xué)統(tǒng)計(jì)教學(xué)的可能路徑,以期提升學(xué)生的數(shù)據(jù)分析素養(yǎng).

教學(xué)活動(dòng)從“調(diào)查學(xué)生平均身高”這一核心問(wèn)題出發(fā)組織學(xué)生開展探究活動(dòng),分析不同的抽樣方法下樣本均值對(duì)總體均值的刻畫效果,以及R軟件的實(shí)現(xiàn)方法.

問(wèn)題:一家家具廠要為樹人中學(xué)高一年級(jí)制作課桌椅,他們事先想了解全體高一年級(jí)學(xué)生的平均身高,以便設(shè)定可調(diào)節(jié)桌椅的標(biāo)準(zhǔn)高度. 已知樹人中學(xué)高一年級(jí)有712名學(xué)生,如果要通過(guò)簡(jiǎn)單隨機(jī)抽樣的方法調(diào)查高一年級(jí)學(xué)生的平均身高,應(yīng)該怎樣抽取樣本?

1. 通過(guò)隨機(jī)數(shù)法進(jìn)行簡(jiǎn)單隨機(jī)抽樣

實(shí)現(xiàn)簡(jiǎn)單隨機(jī)抽樣可以采用抽簽法和隨機(jī)數(shù)法. 兩種方法都需要產(chǎn)生隨機(jī)數(shù),只是產(chǎn)生工具有所不同. 面對(duì)總體較大的情況,借助信息技術(shù)手段生成每個(gè)樣本的隨機(jī)數(shù),是最為方便、成本最低的實(shí)施方案. 故首先可以借助R軟件生成隨機(jī)數(shù).

試驗(yàn)1:簡(jiǎn)單隨機(jī)抽樣.

利用R軟件,只需要“sample( ?)”一條指令就能完成抽樣過(guò)程,包括有放回和無(wú)放回的情況.

R軟件代碼如下.

> Students <- c(1:712) # 建立一個(gè)學(xué)生編號(hào)的向量

> sample(Students,50,replace=FALSE) # 從712名學(xué)生中,無(wú)放回地抽取50個(gè)學(xué)生

其中,c(1:712)表示建立一個(gè)從1到712的向量(或可以理解為數(shù)組). 指令sample表示從Students中抽取50個(gè)樣本. 參數(shù)replace為FALSE時(shí)表示無(wú)放回的抽取,為TRUE時(shí)表示有放回的抽取. 運(yùn)行結(jié)果如圖1所示.

通過(guò)試驗(yàn)1,初步掌握借助統(tǒng)計(jì)軟件進(jìn)行簡(jiǎn)單隨機(jī)抽樣的基本方法,關(guān)注所抽取的樣本的均值情況.

2. 樣本量對(duì)抽樣結(jié)果的影響

在抽取樣本的過(guò)程中,樣本量的選取是值得討論的問(wèn)題. 從抽樣問(wèn)題本質(zhì)來(lái)看,所抽取的樣本容量越大,樣本的數(shù)字特征接近總體數(shù)字特征的概率就越大,往往更能反映總體情況. 但是在實(shí)際問(wèn)題中,受到人力、費(fèi)用、時(shí)間成本的影響,并不是抽樣容量越大越好. 以下借助R軟件完成試驗(yàn)2,考察不同樣本量下樣本均值與總體均值的差異.

試驗(yàn)2:樣本量分別為10,100,200,500對(duì)抽樣結(jié)果的影響.

利用R軟件進(jìn)行不同樣本容量下的簡(jiǎn)單隨機(jī)抽樣,做出圖象形象地觀察所得數(shù)據(jù),考察樣本容量對(duì)抽樣結(jié)果的影響. 仍然針對(duì)712名學(xué)生身高的探究問(wèn)題情境進(jìn)行抽樣調(diào)查,可以在前期通過(guò)問(wèn)卷調(diào)查獲取真實(shí)的高一學(xué)生身高數(shù)據(jù),這里通過(guò)正態(tài)隨機(jī)數(shù)生成712名學(xué)生身高數(shù)據(jù),并以此作為此問(wèn)題的總體. 利用無(wú)放回簡(jiǎn)單隨機(jī)抽樣分別抽取10名、50名、100名、200名、500名學(xué)生的身高數(shù)據(jù),計(jì)算幾次抽樣得到的樣本平均身高并與總體均值進(jìn)行比較,觀察其與總體均值的偏離情況.

首先,利用R軟件進(jìn)行抽樣,代碼如下.

< # 簡(jiǎn)單隨機(jī)抽樣,樣本量是否越大越好?

< Height <- rnorm(712,mean=165,sd=7)

< colnames <- c("NO","X10次","X20次","X50次","X100次","X200次","X500次")

< rownames <- c(1:50)

< A <- matrix(nrow=50,ncol=7,dimnames = list(rownames, colnames))

< A[,1]=c(1:50)

< flag <- c(10,20,50,100,200,500) #分別表示抽取的樣本數(shù)為10,20,50,100,200,500,可調(diào)整

< for (i in c(1:50)) {

< ? for (k in c(1:length(flag))) {

< ? ?A[i,k+1]<- mean(sample(Height,flag[k],replace = FALSE))

< ? ?}

< }

< B <- data.frame(A)

為了清晰地反映不同樣本容量對(duì)抽樣結(jié)果的影響,選取樣本容量為10和100兩種情況,分別繪制樣本平均值與總體平均值的折線圖,體會(huì)用樣本估計(jì)總體的過(guò)程.

R軟件代碼如下.

< # 繪制折線圖,比較樣本容量不同,對(duì)抽樣結(jié)果的影響

< # 下面的是樣本容量為10和100的情況比較

< library(ggplot2)

< p1 <- ggplot(data=B)

< p2 <- p1+geom_point(mapping=aes(x=NO,y=X10次))+

< ? geom_line(aes(x=NO,y=X10次))+

< ? geom_point(mapping=aes(x=NO,y=X100次),size=2,shape=2,color="red")+

< ? geom_line(aes(x=NO,y=X100次),color="red")+

< ? geom_hline(yintercept =mean(Height),color="red",size=1)

< p2+ylab(" ")

運(yùn)行結(jié)果如圖2所示,其中“●”表示抽取樣本容量為10的情況,“[△]”表示抽取樣本容量為100的情況. 由圖2可以看出當(dāng)樣本容量為10時(shí),產(chǎn)生較大偏差的情況更多,而當(dāng)樣本容量為100時(shí),得到的結(jié)果相對(duì)穩(wěn)定.

同時(shí),受隨機(jī)數(shù)生成的隨機(jī)性的影響,某些時(shí)候樣本容量為10的效果要比樣本容量為100的更好. 例如,在第10次試驗(yàn)中,容量為10時(shí)所抽取的樣本比樣本容量為100更貼近總體均值. 通過(guò)此試驗(yàn),可以讓學(xué)生初步體會(huì)利用樣本估計(jì)整體的統(tǒng)計(jì)研究思想,體會(huì)在統(tǒng)計(jì)研究的過(guò)程中,并不是針對(duì)確定數(shù)值的研究,而是伴隨概率問(wèn)題的.

進(jìn)一步增加樣本容量為200和500的情況,感受樣本平均值和總體平均值之間的差異,體會(huì)樣本容量增大后抽樣效果的反映.

R軟件代碼如下.

< # 增加繪制樣本容量為200的情況

< p3 <- p2 +geom_point(mapping=aes(x=NO,y=X200次),size=3,shape=3,color="blue")+

< geom_line(aes(x=NO,y=X200次),color="blue")

< p3

< # 增加繪制樣本容量為500的情況

< p4 <- p3 +geom_point(mapping=aes(x=NO,y=X500次),size=4,shape=4,color="purple")+

< geom_line(aes(x=NO,y=X500次),color="purple")

< p4

運(yùn)行結(jié)果如圖3所示,其中,“[+]”是樣本容量為200的情況,“[×]”是樣本容量為500的情況.

可以看出,與樣本容量為10和100時(shí)的情況相比,樣本容量為200和500時(shí)的樣本均值與總體均值之間的偏差有所減小,表明當(dāng)樣本容量增大時(shí)能夠更好地反映總體情況. 但從絕對(duì)偏差來(lái)看,樣本容量為200和500之間的差異并不大. 因此,盡管樣本容量增大能夠更好地估計(jì)總體,但是考慮實(shí)際抽樣過(guò)程中的人力、物力和時(shí)間成本等因素,樣本容量為500并不一定是效益最好的樣本容量選擇方案. 故在實(shí)際的抽樣中,需要結(jié)合具體問(wèn)題的需要確定樣本容量,而并非一定是越大越好. 在教學(xué)中教師要引導(dǎo)學(xué)生就此問(wèn)題展開討論,體會(huì)統(tǒng)計(jì)學(xué)研究方法的特殊性以及與現(xiàn)實(shí)情境的關(guān)聯(lián)性.

為進(jìn)一步觀察不同樣本容量下的抽樣結(jié)果,可以繪制樣本容量為100和500,以及200和500的折線比較圖,如圖4和圖5所示,能更加清晰地反映它們之間的關(guān)系,也印證上文所得到的結(jié)論,即樣本量并非越大越好,具體樣本容量的選取需要考慮實(shí)際問(wèn)題背景下的抽樣效益.

折線圖繪制R軟件代碼如下.

< # 比較100次與500次

< p1+geom_point(mapping=aes(x=NO,y=X100次))+

< ? ylim(160,170)+

< ? geom_line(aes(x=NO,y=X100次))+

< ? geom_point(mapping=aes(x=NO,y=X500次),size=2,shape=2,color="red")+

< ? geom_line(aes(x=NO,y=X500次),color="red")+

< ? geom_hline(yintercept=mean(Height),color="red",size=1)

< # 比較200次與500次

< p1+geom_point(mapping=aes(x=NO,y=X200次))+

< ? ylim(160,170)+

< ? geom_line(aes(x=NO,y=X200次))+

< ? geom_point(mapping=aes(x=NO,y=X500次),size=2,shape=2,color="red")+

< ? geom_line(aes(x=NO,y=X500次),color="red")+

< ? geom_hline(yintercept=mean(Height),color="red",size=1)

3. 有放回與無(wú)放回簡(jiǎn)單隨機(jī)抽樣之間的比較

簡(jiǎn)單隨機(jī)抽樣包括有放回和無(wú)放回兩類,這兩類之間是否存在差異,以及對(duì)抽樣結(jié)果有怎樣的影響是值得探討和試驗(yàn)的問(wèn)題. 由于學(xué)生在學(xué)習(xí)這部分內(nèi)容時(shí)還不具備概率部分的必要知識(shí),故通過(guò)設(shè)置試驗(yàn)3,對(duì)三組不同特征下的數(shù)據(jù)分別進(jìn)行有放回和無(wú)放回的簡(jiǎn)單隨機(jī)抽樣,并作出折線圖直觀地觀察它們之間的聯(lián)系與區(qū)別,并為學(xué)生后期學(xué)習(xí)概率知識(shí)奠定基礎(chǔ).

與有放回簡(jiǎn)單隨機(jī)抽樣比較,不放回簡(jiǎn)單隨機(jī)抽樣效率更高,因此實(shí)踐中人們更多采用無(wú)放回簡(jiǎn)單隨機(jī)抽樣. 有放回和無(wú)放回簡(jiǎn)單隨機(jī)抽樣,從抽樣的結(jié)果來(lái)看,是否存在差異?通過(guò)下面三組不同數(shù)據(jù)特征下的試驗(yàn),讓學(xué)生直觀感受它們之間的聯(lián)系與區(qū)別,

試驗(yàn)3:不同數(shù)據(jù)分布情況下有放回與無(wú)放回簡(jiǎn)單隨機(jī)抽樣的比較.

(1)數(shù)據(jù)分布整齊(正態(tài)分布)情況下的比較.

利用正態(tài)隨機(jī)數(shù)函數(shù)rnorm(700,mean=177,sd=5)生成一個(gè)容量為700的總體. 這個(gè)總體數(shù)據(jù)基本服從正態(tài)分布,如圖6所示. 在其中分別采用有放回和無(wú)放回的方式抽取100個(gè)樣本,進(jìn)行60次試驗(yàn),繪制樣本平均值和整體平均值的關(guān)系,如圖7所示,觀察它們之間的聯(lián)系與區(qū)別.

R軟件代碼如下.

< # 比較無(wú)放回抽取和有放回抽取

< # 在數(shù)據(jù)比較規(guī)范的情況下

< Height2 <- rnorm(700,mean=177,sd=5)

< N <- 100 #設(shè)定抽取樣本數(shù),可調(diào)整

< M <- 60 #設(shè)定試驗(yàn)次數(shù),可調(diào)整

< colnames <- c("試驗(yàn)次數(shù)","樣本平均數(shù)","是否有放回")

< rownames <- c(1:(M*2))

< C <- matrix(nrow=M*2,ncol=3,dimnames = list(rownames, colnames))

< C[,] <- 0

< C[,1] <- (c(1:(M*2))-1)%%M+1

< for (i in c(1:M)) {

< C[i,2]<- mean(sample(Height2,N,replace=FALSE))

< C[i,3] <- "無(wú)放回"

< C[i+M,2]<- mean(sample(Height2,N,replace=TRUE))

< C[i+M,3] <- "有放回"

< }

< D <- data.frame(C)

< D$試驗(yàn)次數(shù) <- as.numeric(D$試驗(yàn)次數(shù))

< D$樣本平均數(shù) <- as.numeric(D$樣本平均數(shù))

< p1 <- ggplot(data=D,aes(x=試驗(yàn)次數(shù),y=樣本平均數(shù),shape=是否有放回))

< p2 <- p1+geom_point(size=3)+

< ? geom_line(aes(color=是否有放回,linetype=是否有放回))+

< ? geom_hline(yintercept = mean(Height2),color="blue",size=1)

< p2

圖7中分別表示無(wú)放回和有放回的情況. 由圖7給出的60次試驗(yàn)結(jié)果來(lái)看,在700個(gè)數(shù)據(jù)服從正態(tài)分布的情況下,有放回與無(wú)放回簡(jiǎn)單隨機(jī)抽樣得到的樣本均值偏離情況差距不大,樣本均值與整體均值產(chǎn)生較大偏差的情況比較少. 但是由于數(shù)據(jù)具有隨機(jī)性,在圖中給出的60次試驗(yàn)中也存在出現(xiàn)較大偏差的情況. 例如,有放回抽取的第28次試驗(yàn),出現(xiàn)了樣本均值偏離整體均值大約1.5的情況.

(2)數(shù)據(jù)分層情況下的比較.

利用語(yǔ)句c(rnorm(600,mean=180,sd=5),rnorm(100,mean=160,sd=5))生成一個(gè)容量為700的整體,其中600個(gè)數(shù)據(jù)作為男生身高的模擬,基本服從均值為180、標(biāo)準(zhǔn)差為5的正態(tài)分布,另外100個(gè)數(shù)據(jù)作為女生身高的模擬,基本服從均值為160、標(biāo)準(zhǔn)差為5的正態(tài)分布,數(shù)據(jù)分布情況如圖8所示. 可以看出,這組數(shù)據(jù)有比較明顯的分層特征. 現(xiàn)從中分別無(wú)放回和有放回地抽取200個(gè)樣本,進(jìn)行80次試驗(yàn),繪制樣本平均值和整體平均值的折線圖,輸出結(jié)果見圖9.

R軟件代碼如下.

< # 在數(shù)據(jù)不規(guī)范的情況下

< Height3 <- c(rnorm(600,mean=180,sd=5),rnorm(100,mean=160,sd=5))

< X1 <- c(1:600);C1[] <- "男"

< X2 <- c(1:100);C2[] <- "女"

< X3 <- c(C1,C2)

< H <- data.frame(Height3,X3)

< N <- 200 #設(shè)定抽取樣本數(shù),可調(diào)整

< M <- 60 #設(shè)定試驗(yàn)次數(shù),可調(diào)整

< C <- matrix(nrow=M*2,ncol=3,dimnames = list(c(1:(M*2)),c("試驗(yàn)編號(hào)","樣本平均值","是否有放回")))

< C[,] <- 0

< C[,1] <- (c(1:(M*2))-1)%%M+1

< for (i in c(1:M)) {

< ? C[i,2]<- mean(sample(H$Height3,N,replace=FALSE))

< ? C[i,3]<-"無(wú)放回"

< ? C[i+M,2]<-mean(sample(H$Height3,N,replace=TRUE))

< ? C[i+M,3] <- "有放回"

< }

< D <- data.frame(C)

< D$試驗(yàn)編號(hào) <- as.numeric(D$試驗(yàn)編號(hào))

< D$樣本平均值 <- as.numeric(D$樣本平均值)

< p1 <- ggplot(data=D,aes(x=試驗(yàn)編號(hào),y=樣本平均值,shape=是否有放回))

< p2 <- p1+geom_point(size=3)+

< ? geom_line(aes(colour=是否有放回,linetype=是否有放回))+

< ? geom_hline(yintercept = mean(H$Height3),color="blue",size=1)

< p2

圖9中分別表示無(wú)放回和有放回的情況. 由圖9可見,當(dāng)700個(gè)數(shù)據(jù)具有分層特點(diǎn)的時(shí)候,樣本均值與整體均值偏差的幅度明顯大于沒有分層的情況,尤其是在有放回抽取中發(fā)生偏離的情況更多,偏離的幅度也更大. 例如,第21次試驗(yàn),樣本均值偏離整體均值約為1.7. 在教學(xué)過(guò)程中,教師可以引導(dǎo)學(xué)生思考為什么會(huì)出現(xiàn)這種情況. 實(shí)際上,在有放回抽取的過(guò)程中,偏離的數(shù)據(jù)被重復(fù)抽取到的概率會(huì)更大. 為了驗(yàn)證這一想法,強(qiáng)化數(shù)據(jù)的分層特征再次進(jìn)行試驗(yàn),考察數(shù)據(jù)極端情況下無(wú)放回和有放回抽樣間的差異.

(3)數(shù)據(jù)極端情況下的比較.

利用語(yǔ)句c(rnorm(600,mean=200,sd=5),rnorm(10,mean=0,sd=5))生成一個(gè)容量為610的整體,其中600個(gè)數(shù)據(jù)在200附近,10個(gè)數(shù)據(jù)在0附近,從中抽取50個(gè)樣本,進(jìn)行60次試驗(yàn),得到如圖10所示的數(shù)據(jù)分布情況.R軟件代碼可以參照前面的試驗(yàn)稍作修改即可,這里不再贅述. 生成的折線圖如圖11所示,可以看出出現(xiàn)樣本均值與總體均值(196.89)的偏差幅度很大的情況較多,而且偏離數(shù)值很大. 在這60次試驗(yàn)中,樣本平均值小于192的,無(wú)放回出現(xiàn)3次,有放回出現(xiàn)6次,其中小于185的,無(wú)放回出現(xiàn)1次,有放回出現(xiàn)3次.

從上述三組不同數(shù)據(jù)分布特征情況下的抽樣試驗(yàn)中可以看出,當(dāng)數(shù)據(jù)分層情況非常明顯的時(shí)候,簡(jiǎn)單隨機(jī)抽樣得到的樣本代表性減弱,有放回的抽取更容易產(chǎn)生較大偏差. 由此可見,面對(duì)具有分層特征的數(shù)據(jù)采用簡(jiǎn)單隨機(jī)抽樣的方法來(lái)估計(jì)總體特征是不夠準(zhǔn)確的,因此需要對(duì)抽樣方法進(jìn)行改進(jìn),這一改進(jìn)方法即分層隨機(jī)抽樣.

在教學(xué)中要注重引導(dǎo)學(xué)生基于所生成的折線圖得到試驗(yàn)結(jié)論并加以討論,分析不同數(shù)據(jù)情況下進(jìn)行抽樣的差異,嘗試對(duì)抽樣方法進(jìn)行改進(jìn),探尋最適合數(shù)據(jù)特征的抽樣方法,在此過(guò)程中培養(yǎng)學(xué)生能夠批判性地理解知識(shí)的高階思維.

4. 分層隨機(jī)抽樣與簡(jiǎn)單隨機(jī)抽樣之間的比較

為了探究數(shù)據(jù)出現(xiàn)分層情況時(shí)分層隨機(jī)抽樣和簡(jiǎn)單隨機(jī)抽樣何種抽樣效果更優(yōu),以及效果差異是否明顯的問(wèn)題,安排試驗(yàn)4,開展不同數(shù)據(jù)情況下分層隨機(jī)抽樣與簡(jiǎn)單隨機(jī)抽樣間的對(duì)比.

試驗(yàn)4:不同數(shù)據(jù)分層情況下分層隨機(jī)抽樣和簡(jiǎn)單隨機(jī)抽樣的比較.

當(dāng)樣本出現(xiàn)比較明顯的分層情況. 例如,前面例子中模擬的700個(gè)學(xué)生身高的數(shù)據(jù),其中600個(gè)男生的身高數(shù)據(jù)基本服從均值為180、標(biāo)準(zhǔn)差為5的正態(tài)分布,另外100個(gè)女生的身高數(shù)據(jù)基本服從均值為160、標(biāo)準(zhǔn)差為5的正態(tài)分布. 對(duì)該數(shù)據(jù)分別進(jìn)行簡(jiǎn)單隨機(jī)抽樣和分層隨機(jī)抽樣,并繪制樣本均值和總體均值差異的折線圖,如圖12所示.

R軟件代碼如下.

< # 分層隨機(jī)抽樣

< # Height3 組的分層試驗(yàn)

< Height3 <- c(rnorm(600,mean=180,sd=5),rnorm(100,mean=160,sd=5))

< X1 <- c(1:600);X1[] <- "男"

< X2 <- c(1:100);X2[] <- "女"

< X3 <- c(X1,X2)

< H <- data.frame(Height3,X3)

< N <- 210 #設(shè)定抽取樣本數(shù),可調(diào)整

< M <- 80 #設(shè)定試驗(yàn)次數(shù),可調(diào)整

< C <- matrix(nrow=M*2,ncol=3,dimnames= list(c(1:(M*2)),c("試驗(yàn)編號(hào)","樣本平均值","是否分層隨機(jī)抽樣")))

< C[,] <- 0

< C[,1] <- (c(1:(M*2))-1)%%M+1

< for (i in c(1:M)) {

< C[i,2]<- mean(sample(H$Height3,N,replace=FALSE))

< C[i,3] <- "簡(jiǎn)單隨機(jī)抽樣"

< C[i+M,2]<- mean(c(sample(H$Height3[1:600],N*6/7,replace=FALSE),sample(H$Height3[601:700],N*1/7,replace = FALSE)))

< C[i+M,3] <- "分層隨機(jī)抽樣"

< }

< C1 <- data.frame(C)

< C1$試驗(yàn)編號(hào) <- as.numeric(C1$試驗(yàn)編號(hào))

< C1$樣本平均值 <- as.numeric(C1$樣本平均值)

< p1 <- ggplot(data=C1,aes(x=試驗(yàn)編號(hào),y=樣本平均值,shape=是否分層隨機(jī)抽樣))

< p2 <- p1+geom_point(size=3)+

< geom_line(aes(colour=是否分層隨機(jī)抽樣,linetype=是否分層隨機(jī)抽樣))+

< geom_hline(yintercept = mean(H$Height3),color="blue",size=1)

< p2

圖12中分別表示了分層隨機(jī)抽樣和簡(jiǎn)單隨機(jī)抽樣的情況. 可見,在分層隨機(jī)抽樣的情況下,樣本均值較穩(wěn)定地圍繞總體均值波動(dòng),相對(duì)于簡(jiǎn)單隨機(jī)抽樣,其波動(dòng)情況明顯較小.換言之,在這種數(shù)據(jù)情況下,分層隨機(jī)抽樣明顯優(yōu)于簡(jiǎn)單隨機(jī)抽樣.

當(dāng)數(shù)據(jù)分層情況更加明顯,如試驗(yàn)3“數(shù)據(jù)極端”情況的例子中,通過(guò)簡(jiǎn)單隨機(jī)抽樣和分層隨機(jī)抽樣得到的均值圍繞總體的波動(dòng)情況如圖13所示,可以看出在這種情況下,簡(jiǎn)單隨機(jī)抽樣得到的樣本均值偏離整體均值的幅度很大.

當(dāng)分層的樣本容量相當(dāng)?shù)臅r(shí)候,如男生和女生各有350人,其中男生身高均值約為170,標(biāo)準(zhǔn)差約為5,女生身高均值約為160,標(biāo)準(zhǔn)差約為5,該情況下采用簡(jiǎn)單隨機(jī)抽樣和分層隨機(jī)抽樣的試驗(yàn)結(jié)果如圖14所示. 從試驗(yàn)結(jié)果可以看出,當(dāng)分層容量相當(dāng)?shù)臅r(shí)候,采用簡(jiǎn)單隨機(jī)抽樣和分層隨機(jī)抽樣,所得樣本均值差異并不明顯,分層隨機(jī)抽樣略好于簡(jiǎn)單隨機(jī)抽樣.

通過(guò)以上三種不同數(shù)據(jù)分布情況下對(duì)分層隨機(jī)抽樣和簡(jiǎn)單隨機(jī)抽樣結(jié)果的對(duì)比,可以引導(dǎo)學(xué)生得出結(jié)論:分層情況明顯且樣本量相差很大的時(shí)候,分層隨機(jī)抽樣要明顯優(yōu)越于簡(jiǎn)單隨機(jī)抽樣.

三、反思與總結(jié)

1. 數(shù)據(jù)分析素養(yǎng)需要在學(xué)生的親身經(jīng)歷中發(fā)展

數(shù)據(jù)分析素養(yǎng)的形成與發(fā)展離不開學(xué)生親身參與統(tǒng)計(jì)過(guò)程、積累統(tǒng)計(jì)活動(dòng)的基本活動(dòng)經(jīng)驗(yàn). 整個(gè)統(tǒng)計(jì)活動(dòng)教學(xué)的展開與推進(jìn)應(yīng)該是以學(xué)生對(duì)實(shí)際問(wèn)題的分析為出發(fā)點(diǎn),以學(xué)生對(duì)解決路徑探索引發(fā)的思考為推動(dòng),并以學(xué)生得出的判斷加以驗(yàn)證,讓學(xué)生經(jīng)歷猜想、實(shí)踐、觀察、分析,并得出結(jié)論的過(guò)程.

探究活動(dòng)圍繞高一學(xué)生平均身高這一問(wèn)題情境,開展了一系列抽樣試驗(yàn). 由簡(jiǎn)單隨機(jī)抽樣出發(fā),初步掌握借助統(tǒng)計(jì)軟件進(jìn)行簡(jiǎn)單隨機(jī)抽樣的基本方法,關(guān)注所抽取的樣本均值的情況. 在抽樣過(guò)程中樣本容量的選取是學(xué)生產(chǎn)生的第一個(gè)困惑點(diǎn),由此開展試驗(yàn)2分析不同樣本容量下樣本均值的表現(xiàn). 簡(jiǎn)單隨機(jī)抽樣包括放回與不放回兩種形式,故兩種抽取方式會(huì)對(duì)抽樣結(jié)果產(chǎn)生何種影響是學(xué)生很自然所產(chǎn)生的困惑. 故在試驗(yàn)3中設(shè)置三組不同特征的數(shù)據(jù)來(lái)探究放回與不放回抽樣之間的差異. 對(duì)于后兩組數(shù)據(jù)表現(xiàn)出的分層特征,對(duì)分層數(shù)據(jù)選擇簡(jiǎn)單隨機(jī)抽樣和分層隨機(jī)抽樣哪個(gè)能更好地反映總體特征、各自效果如何等疑惑展開對(duì)比分析. 整個(gè)教學(xué)過(guò)程以學(xué)生的思考探究為驅(qū)動(dòng)力,步步深入,層層展開,引導(dǎo)學(xué)生經(jīng)歷基于數(shù)據(jù)分析、討論、改進(jìn)最終得到試驗(yàn)結(jié)論的過(guò)程,培養(yǎng)學(xué)生基于數(shù)據(jù)思考問(wèn)題的習(xí)慣,提升學(xué)生基于數(shù)據(jù)解決現(xiàn)實(shí)問(wèn)題的能力,是學(xué)生數(shù)據(jù)分析素養(yǎng)生成與提升的必要路徑.

2. 統(tǒng)計(jì)思維需要在學(xué)生的批判驗(yàn)證中提升

統(tǒng)計(jì)方法的選擇是基于實(shí)際問(wèn)題的需求和數(shù)據(jù)特征所做出的更優(yōu)方案. 在統(tǒng)計(jì)教學(xué)中也需要引導(dǎo)學(xué)生針對(duì)不同分布情況下的總體數(shù)據(jù),比較不同抽樣方法下的結(jié)果表現(xiàn),分析不同方法的優(yōu)劣和適用特征,從而批判性地做出更佳的統(tǒng)計(jì)分析方案. 例如,在對(duì)樣本容量的討論中得出結(jié)論:當(dāng)樣本容量增加時(shí),樣本均值能夠更好地反映總體均值情況,但當(dāng)樣本容量增加到一定數(shù)值之后,再擴(kuò)大樣本容量引起的影響并不大,故從抽樣效益角度出發(fā),樣本容量的選取并非越大越好. 在實(shí)際的抽樣調(diào)查中也會(huì)受到人力、費(fèi)用、時(shí)間等成本的影響,故在調(diào)查中要根據(jù)實(shí)際問(wèn)題的需要,選擇恰當(dāng)?shù)臉颖救萘窟M(jìn)行抽樣. 在學(xué)生探究、討論、分析并得到結(jié)論的過(guò)程中,既可以體會(huì)利用樣本估計(jì)總體的思想方法,也能在比較與分析中實(shí)現(xiàn)批判思維等高階思維的發(fā)展.

3. 科學(xué)素養(yǎng)需要在信息技術(shù)的教學(xué)應(yīng)用中生成

科學(xué)素養(yǎng)是信息時(shí)代對(duì)學(xué)生提出的新要求,關(guān)注學(xué)生利用所學(xué)的科學(xué)知識(shí)并將其應(yīng)用于生活情境的能力. 研究表明,在教學(xué)中應(yīng)用信息技術(shù)能夠促進(jìn)學(xué)生科學(xué)素養(yǎng)的發(fā)展. 而在統(tǒng)計(jì)教學(xué)的過(guò)程中離不開信息技術(shù)的支持,其中R軟件作為重要的統(tǒng)計(jì)軟件,能夠模擬完成大量隨機(jī)試驗(yàn)并計(jì)算得到數(shù)據(jù)結(jié)果,便于學(xué)生觀察樣本與總體之間的關(guān)聯(lián),提高統(tǒng)計(jì)活動(dòng)開展效率,在統(tǒng)計(jì)教學(xué)中發(fā)揮著重要作用. 故在此次教學(xué)活動(dòng)實(shí)踐中以R軟件作為重要的技術(shù)支持貫穿整個(gè)教學(xué)過(guò)程. 師生借助R軟件實(shí)現(xiàn)數(shù)據(jù)的分析處理,在引導(dǎo)學(xué)生掌握軟件使用方法的同時(shí),以可視化的呈現(xiàn)方式生成圖象,便于學(xué)生觀察不同情況下的抽樣結(jié)果,分析樣本與總體之間的關(guān)聯(lián),討論選取更優(yōu)的抽樣方案,培養(yǎng)學(xué)生達(dá)成統(tǒng)計(jì)教學(xué)目標(biāo),培養(yǎng)學(xué)生的數(shù)據(jù)意識(shí). 在提高統(tǒng)計(jì)教學(xué)質(zhì)量的同時(shí),學(xué)生的科學(xué)素養(yǎng)也在探究和應(yīng)用過(guò)程中生成和提高.

參考文獻(xiàn):

[1]中華人民共和國(guó)教育部. 普通高中數(shù)學(xué)課程標(biāo)準(zhǔn)(2017年版2020年修訂)[M]. 北京:人民教育出版社,2020.

[2]陳建明,孫小軍,楊博諦. 數(shù)據(jù)分析素養(yǎng)的評(píng)價(jià)框架與實(shí)施路徑研究[J]. 數(shù)學(xué)教育學(xué)報(bào),2022,31(2):8-12,57.

[3]史寧中. 數(shù)形結(jié)合與數(shù)學(xué)模型:高中數(shù)學(xué)教學(xué)中的核心問(wèn)題[M]. 北京:高等教育出版社,2018.

[4]程海奎,章建躍. 經(jīng)歷系統(tǒng)的數(shù)據(jù)處理過(guò)程 在解決實(shí)際問(wèn)題中發(fā)展數(shù)據(jù)分析素養(yǎng)[J]. 數(shù)學(xué)通報(bào),2021,60(4):1-6,14.

[5]高雪松,郭方奇,歐陽(yáng)亞亞. 基于核心素養(yǎng)的高中統(tǒng)計(jì)教學(xué)研究[J]. 中國(guó)數(shù)學(xué)教育(高中版),2019(6):17-20.

[6]陽(yáng)志長(zhǎng). 充分運(yùn)用教材資源,致力培養(yǎng)數(shù)據(jù)分析核心素養(yǎng)[J]. 中國(guó)數(shù)學(xué)教育(高中版),2017(3):19-22.

[7]王春麗,顧小清. 中學(xué)生信息技術(shù)使用及其對(duì)科學(xué)素養(yǎng)的影響:基于PISA數(shù)據(jù)的中芬比較研究[J]. 中國(guó)遠(yuǎn)程教育,2019(5):47-56,93.

[8]張廣民,康玥,任倩. 將GeoGebra軟件融入概率教學(xué)體現(xiàn)新課程理念:以“頻率與概率”單元為例[J]. 中國(guó)數(shù)學(xué)教育(高中版),2021(1 / 2):83-90.

猜你喜歡
數(shù)據(jù)分析
電子物證檢驗(yàn)的數(shù)據(jù)分析與信息應(yīng)用研究
基于matlab曲線擬合的數(shù)據(jù)預(yù)測(cè)分析
商情(2016年40期)2016-11-28 11:28:07
分眾媒體趨勢(shì)下場(chǎng)景營(yíng)銷的商業(yè)前景
商(2016年32期)2016-11-24 17:39:41
佛山某給水管線控制測(cè)量探討
科技資訊(2016年18期)2016-11-15 18:05:53
SPSS在環(huán)境地球化學(xué)中的應(yīng)用
考試周刊(2016年84期)2016-11-11 23:57:34
大數(shù)據(jù)時(shí)代高校數(shù)據(jù)管理的思考
科技視界(2016年18期)2016-11-03 22:51:40
我校如何利用體育大課間活動(dòng)解決男生引體向上這個(gè)薄弱環(huán)節(jié)
Excel電子表格在財(cái)務(wù)日常工作中的應(yīng)用
淺析大數(shù)據(jù)時(shí)代背景下的市場(chǎng)營(yíng)銷策略
新常態(tài)下集團(tuán)公司內(nèi)部審計(jì)工作研究
主站蜘蛛池模板: 精品国产aⅴ一区二区三区| аv天堂最新中文在线| 国产在线观看91精品亚瑟| 久精品色妇丰满人妻| 免费高清毛片| 在线观看91精品国产剧情免费| 国产乱人激情H在线观看| 日韩在线第三页| 色婷婷色丁香| 日韩专区欧美| 亚洲福利视频一区二区| 色婷婷在线播放| 亚洲一区免费看| 成人在线综合| 婷婷激情亚洲| 91口爆吞精国产对白第三集| 99久久性生片| 青青青视频免费一区二区| 国产主播喷水| 中文字幕亚洲乱码熟女1区2区| 麻豆精品在线播放| 伊大人香蕉久久网欧美| 色综合中文综合网| 亚洲啪啪网| 亚洲毛片在线看| 日本精品视频一区二区| 三上悠亚在线精品二区| 四虎影视无码永久免费观看| 最新日韩AV网址在线观看| 精品国产www| 欧美成人怡春院在线激情| 无码国产偷倩在线播放老年人| 亚洲一区二区三区国产精华液| 国产免费黄| 成人亚洲视频| 国产精品视频999| 正在播放久久| 3344在线观看无码| 71pao成人国产永久免费视频| 亚洲第一区精品日韩在线播放| 97精品伊人久久大香线蕉| 91精品人妻一区二区| 国产毛片久久国产| 国产在线观看91精品| jijzzizz老师出水喷水喷出| 亚洲日韩第九十九页| 欧美a在线视频| 99热这里只有精品5| 亚洲狼网站狼狼鲁亚洲下载| 永久免费无码日韩视频| 国产精品任我爽爆在线播放6080| 久操中文在线| 巨熟乳波霸若妻中文观看免费 | 97超爽成人免费视频在线播放| 波多野结衣二区| 国产AV无码专区亚洲精品网站| 99精品福利视频| 欧美一级在线看| 自拍偷拍欧美日韩| 无码中文字幕乱码免费2| 国产一级毛片yw| 亚洲乱码在线视频| 91久久偷偷做嫩草影院| 沈阳少妇高潮在线| 日本免费a视频| 另类欧美日韩| 中文字幕精品一区二区三区视频| 国产无码制服丝袜| 99精品热视频这里只有精品7 | 国产成人三级| 国产免费久久精品99re不卡| 中文字幕1区2区| 精品国产免费人成在线观看| 亚洲av无码人妻| 五月婷婷亚洲综合| 亚洲AV色香蕉一区二区| 91精品啪在线观看国产| 国产精品尤物在线| 无码高潮喷水在线观看| 日韩精品无码免费一区二区三区 | 国产在线观看高清不卡| 乱人伦视频中文字幕在线|