大數(shù)據(jù)時(shí)代R語言模擬在概率統(tǒng)計(jì)課程教學(xué)中的應(yīng)用

2017-12-28 16:00:24郭念國

河南教育·高教 2017年12期

郭念國

摘要：大數(shù)據(jù)時(shí)代，概率統(tǒng)計(jì)課程作為數(shù)據(jù)科學(xué)重要的核心課程之一，如何更好地進(jìn)行課堂講授成為許多專家學(xué)者關(guān)注的問題。基于R軟件的sample函數(shù)，對概率統(tǒng)計(jì)課程中的經(jīng)典案例擲骰子進(jìn)行模擬，對虛擬的骰子進(jìn)行不同次數(shù)的投擲，并對投擲結(jié)果進(jìn)行分析，指出統(tǒng)計(jì)規(guī)律性及其重要性。該模擬過程可以激發(fā)學(xué)生的學(xué)習(xí)興趣，培養(yǎng)學(xué)生的動手能力，達(dá)到理論與實(shí)踐相結(jié)合的課程教學(xué)目標(biāo)。

關(guān)鍵詞：概率統(tǒng)計(jì)；骰子；R語言；模擬

隨著經(jīng)濟(jì)、科技的快速發(fā)展，人們對信息精確化程度的要求越來越高，大數(shù)據(jù)的發(fā)展成為信息時(shí)代發(fā)展的必然趨勢。概率統(tǒng)計(jì)課程作為數(shù)據(jù)科學(xué)的核心課程之一，引發(fā)了許多專家學(xué)者對大數(shù)據(jù)時(shí)代的概率統(tǒng)計(jì)教育教學(xué)獻(xiàn)言建策。比如，趙彥云對我國統(tǒng)計(jì)教育進(jìn)行了回顧與展望，指出運(yùn)用統(tǒng)計(jì)思想和統(tǒng)計(jì)方法，讓大數(shù)據(jù)的價(jià)值最大；白雪梅和劉志龍對我國應(yīng)用統(tǒng)計(jì)學(xué)專業(yè)及統(tǒng)計(jì)行業(yè)進(jìn)行分析，指出大數(shù)據(jù)只有在統(tǒng)計(jì)學(xué)這門工具屬性學(xué)科的幫助下才能發(fā)揮其自身的作用，并對國內(nèi)外統(tǒng)計(jì)實(shí)踐教育方法進(jìn)行比較；孟生旺和袁衛(wèi)對大數(shù)據(jù)時(shí)代美國統(tǒng)計(jì)學(xué)會發(fā)布的統(tǒng)計(jì)學(xué)本科專業(yè)指導(dǎo)性教學(xué)綱要的核心內(nèi)容進(jìn)行了簡單介紹，對我國統(tǒng)計(jì)類本科專業(yè)教育存在的問題進(jìn)行剖析，指出了教學(xué)內(nèi)容要突出數(shù)據(jù)的重要性，并建議在教學(xué)中使用專業(yè)的統(tǒng)計(jì)軟件R。R語言是免費(fèi)使用的，而且其源代碼是開放的，這些特點(diǎn)使其已經(jīng)成為概率統(tǒng)計(jì)教學(xué)中的標(biāo)準(zhǔn)語言之一，也成為國內(nèi)外各大專院校開設(shè)的統(tǒng)計(jì)軟件課程之一。筆者結(jié)合多年的概率統(tǒng)計(jì)實(shí)踐教學(xué)經(jīng)驗(yàn)，以R語言為工具，通過模擬概率統(tǒng)計(jì)常用的擲骰子實(shí)驗(yàn)，以更好地理解統(tǒng)計(jì)規(guī)律的思想及其重要性。

一、R語言簡介

R語言最初由Auckland大學(xué)的Robert Gentleman和Ross Ihake及其他志愿者合作開發(fā)，是對S語言統(tǒng)計(jì)編程語言的集成。R語言是一種用于統(tǒng)計(jì)計(jì)算和繪圖的編程語言和環(huán)境，是一種交互式編程語言，因?yàn)槠涿赓M(fèi)使用且開源，已經(jīng)成為統(tǒng)計(jì)分析和數(shù)據(jù)分析的全球化通用語言。如果在百度中輸入一個(gè)字母R，就會有將近1億個(gè)相關(guān)條目，而且有豐富的R語言學(xué)習(xí)資料。R語言還在持續(xù)發(fā)展中，而且還得到了CRAN（Comprehensive R Archive Network）社區(qū)的支持，在這里既有數(shù)據(jù)科學(xué)家也有程序員，他們很愿意為R語言用戶提供幫助。

二、R語言模擬骰子

擲骰子作為研究隨機(jī)現(xiàn)象的一個(gè)經(jīng)典實(shí)例，受到很多概率統(tǒng)計(jì)教材的青睞，在介紹隨機(jī)現(xiàn)象及樣本空間的概念時(shí)，教師可以通過該實(shí)例幫助學(xué)生理解隨機(jī)現(xiàn)象的隨機(jī)性和所有可能結(jié)果的已知性。

我們知道，均勻的骰子具有六個(gè)面，分別刻有一個(gè)點(diǎn)、兩個(gè)點(diǎn)直到六個(gè)點(diǎn)，而擲一枚骰子出現(xiàn)的點(diǎn)數(shù)則是1到6之間的某個(gè)正整數(shù)，而擲一個(gè)骰子所有可能的結(jié)果構(gòu)成的集合為Ω={1，2，3，4，5，6}，一般稱“Ω”為擲骰子這個(gè)試驗(yàn)的樣本空間。

基于上述的分析，我們可以構(gòu)造一個(gè)具有這1到6的整數(shù)向量，并將其值賦給變量dice，即dice<-c（1，2，3，4，5，6），則dice為一枚虛擬的骰子，具有6個(gè)值。那么，如何讓這個(gè)虛擬的骰子像真實(shí)的骰子一樣，每投擲一次，產(chǎn)生一個(gè)點(diǎn)數(shù)？下面，我們結(jié)合R語言中的sample函數(shù)，讓這個(gè)虛擬的骰子和真實(shí)的骰子一樣，可以產(chǎn)生點(diǎn)數(shù)。

三、虛擬骰子的運(yùn)轉(zhuǎn)

首先，現(xiàn)實(shí)生活中，每次擲骰子的結(jié)果，肯定是樣本空間Ω中的一個(gè)元素值，且這個(gè)值是隨機(jī)的，并與其他投擲結(jié)果相互獨(dú)立。骰子是均勻的，每個(gè)值出現(xiàn)的可能性相同，而且可以在相同條件下連續(xù)不斷投擲。

由上面的分析，我們可以這樣理解：擲骰子產(chǎn)生的結(jié)果實(shí)際上是從樣本空間中隨機(jī)抽取的結(jié)果，每次抽取是相互獨(dú)立的，而且每一個(gè)值被抽到的可能性是相同的。這其實(shí)就是統(tǒng)計(jì)中的有放回抽樣。

基于上述的分析，我們可以利用R語言中的sample函數(shù)來處理這個(gè)問題。運(yùn)行下列代碼：sample（dice，size=1），就可以得到一個(gè)值，這就像擲一次骰子。若連續(xù)運(yùn)行該語句，就好似連續(xù)投擲骰子，可以得到不同的點(diǎn)數(shù)，而且點(diǎn)數(shù)之間是相互獨(dú)立的。這樣，我們就完成了虛擬骰子的構(gòu)建與運(yùn)行。為更好地理解統(tǒng)計(jì)規(guī)律，我們有必要解釋一下sample函數(shù)。函數(shù)sample為“抽樣”函數(shù)，dice為抽取的對象，size為抽取的樣本大小，目前我們模擬的是投擲一枚骰子，故本語句中的size=1，即每次抽一個(gè)，只產(chǎn)生一個(gè)結(jié)果。

四、隨機(jī)現(xiàn)象的統(tǒng)計(jì)規(guī)律性

首先，我們將骰子擴(kuò)展到兩枚，即每次產(chǎn)生兩個(gè)結(jié)果，可以運(yùn)行下列語句sample（dice，size=2，replace=TRUE）。該語句的抽取對象沒有變化，但是size=2，表示產(chǎn)生兩個(gè)結(jié)果，因?yàn)橥稊S的是兩枚骰子；因現(xiàn)實(shí)中兩枚骰子產(chǎn)生的結(jié)果是相互獨(dú)立的，故我們設(shè)置參數(shù)replace=TRUE。

假如班里有60名學(xué)生，在各自執(zhí)行語句后，相鄰?fù)瑢W(xué)比較執(zhí)行結(jié)果是否相同？再運(yùn)行一次該語句，能不能預(yù)測運(yùn)行結(jié)果？多次重復(fù)執(zhí)行語句，結(jié)果的平均值能不能知道？帶著這些問題，與現(xiàn)實(shí)生活中的投擲骰子相結(jié)合，上述問題中的前兩個(gè)就很容易回答了。關(guān)鍵是第三個(gè)問題，運(yùn)行結(jié)果的平均值是否在投擲骰子前就可以預(yù)測出來？那么計(jì)算運(yùn)行結(jié)果的平均值又有什么意義？

下面分析骰子均值預(yù)測和結(jié)果均值意義這兩個(gè)問題。首先，骰子理論上應(yīng)該是均勻的，即每一個(gè)點(diǎn)出現(xiàn)的概率都是，結(jié)合期望的定義，可以計(jì)算出期望值，這就是我們預(yù)測投擲一枚骰子結(jié)果的平均值，兩枚骰子的平均值也應(yīng)該為3.5，考慮到隨機(jī)因素，如果多次投擲，結(jié)果平均值應(yīng)該在3.5左右。

然后，利用我們的虛擬骰子，分別模擬兩枚骰子投擲100次、1000次、10000次的平均值，這對應(yīng)于抽樣200次、2000次、20000次。為了使得模擬可重復(fù)，在運(yùn)行各語句前，先運(yùn)行語句set. seed（1234），再運(yùn)行以下各語句：mean（sample（dice，size=200，replace=TRUE）；mean（sample（dice，size=2000，replace=TRUE）；mean（sample（dice，size=20000，replace=TRUE）。三條語句運(yùn)行結(jié)果分別為3.355、3.475和3.513，這和我們的期望的3.5相差很小，而且次數(shù)越多，與期望的3.5的距離也逐漸縮小，進(jìn)一步驗(yàn)證了我們的均值預(yù)測結(jié)果，這就是擲骰子這個(gè)隨機(jī)現(xiàn)象的統(tǒng)計(jì)規(guī)律性。

五、結(jié)語

概率論與數(shù)理統(tǒng)計(jì)作為研究隨機(jī)現(xiàn)象統(tǒng)計(jì)規(guī)律性的一門學(xué)科，越來越引起人們的關(guān)注，與其他學(xué)科的相互交叉的研究成果也越來越多。如何更好地進(jìn)行課堂教學(xué)，使學(xué)生更好地理解概率統(tǒng)計(jì)的知識和思想，筆者結(jié)合擲骰子的實(shí)驗(yàn)，基于R語言進(jìn)行模擬，對概率統(tǒng)計(jì)課程教學(xué)進(jìn)行了舉例。該模擬過程不僅可以提高學(xué)生的分析能力、動手能力和實(shí)踐能力，而且可以激發(fā)學(xué)生的學(xué)習(xí)興趣，更好地達(dá)到課堂教學(xué)目標(biāo)。

參考文獻(xiàn)：

[1]趙彥云.加速開拓統(tǒng)計(jì)學(xué)的應(yīng)用價(jià)值——中國統(tǒng)計(jì)教育回顧與展望[J].統(tǒng)計(jì)信息論壇，2016，（6）.

[2]白雪梅，劉志龍.我國應(yīng)用統(tǒng)計(jì)學(xué)專業(yè)與統(tǒng)計(jì)行業(yè)分析[J].中國統(tǒng)計(jì)，2015，（5）.

[3]孟生旺，袁衛(wèi).大數(shù)據(jù)時(shí)代的統(tǒng)計(jì)教育[J].統(tǒng)計(jì)研究，2015，（4）.

河南教育·高教2017年12期

河南教育·高教的其它文章: 大學(xué)生學(xué)習(xí)倦怠的影響因素和干預(yù)策略研究; 高校心理健康教育問題的解決途徑; 輔導(dǎo)員在班級建設(shè)中如何做到“新”連“心”; 基層黨支部開展“結(jié)對共建”雙向關(guān)愛活動的思考; 高校畢業(yè)生離校前就業(yè)創(chuàng)業(yè)指導(dǎo)服務(wù)功能建設(shè)研究; 財(cái)經(jīng)專業(yè)學(xué)生課外活動參與情況與職業(yè)發(fā)展調(diào)查分析