韓苗+宋鳳麗+周圣武+張艷
摘 要:統計學是以數據為研究對象的科學,離不開計算機的應用,特別是統計軟件的使用不僅促進了統計科學的發展,也使得統計學的教與學發生了變化。借助統計軟件通過隨機模擬實驗來驗證解析方法已經得出的結論,這種可視化,直觀化的教學方式有助于學生對相關概念的理解和記憶,同時也豐富了課堂教學,激發了學生的學習興趣,培養學生的統計思維能力。
關鍵詞:統計學 隨機模擬 統計軟件
中圖分類號:G64 文獻標識碼:A 文章編號:1674-098X(2017)10(b)-0235-03
Abstract: Combined with the characteristics of statistics courses, the application of stochastic simulation in the teaching of statistics are illustrated by real examples. Statistical software are used to verify the results of analytical methods by means of random simulation experiments. This visual teaching methods are more helpful in improving students' understanding and memory of relevant concepts. It can also enrich the classroom teaching and learning experience, arouse students' interests and cultivate the students' statistical thinking ability.
Key Words: Statistics;Stochastic simulation;Statistical software
統計學是一門關于數據的科學,是關于數據的搜集、整理和分析的一般方法論。不同于數學是以公理系統為基礎,以演繹為基本思想方法的邏輯體系[1],統計學蘊含隨機性、不確定性和允許誤差。統計學強調如何使用統計方法來解決實際問題,而對于方法的理解,就需要與實例相結合的直觀印象,采用計算機化教學、突出統計軟件的使用是統計教學的趨勢。
在統計教學過程中,借助統計軟件進行探索性數據分析,通過隨機模擬來驗證解析方法已經得出的結論,是一種非常有效的教學方法[2]。在多年的統計教學過程中,教師適當地增加隨機模擬演示有助于學生更好地理解統計學中一些概念,讓學生有深刻的直觀印象,同時也有利于豐富課堂教學,增加課程的趣味性,提高學生的學習興趣,培養學生的統計思維能力。
1 隨機模擬在無偏性概念中的演示
參數的點估計[3-4]是針對未知參數圍繞樣本構造估計量,對同一個參數,不同的估計方法可以得到不同的估計量,因此自然會面臨“哪一個估計量更好”的問題,既然要評價好壞,就有必要建立評價估計量好壞的標準,一般最常用的標準是無偏性、有效性、相合性(一致性)。估計量是樣本的函數,因而也是一個隨機變量,由于每次觀察所得的樣本值一般是不同的,因此求得的估計值也不同。從而評價一個估計量的優劣,不能僅僅根據一次抽樣結果做出定論,而應該從整體上進行把握,根據估計量的統計性質來評價。所以一個好的估計,應在多次重復試驗中體現出其優良性。如何理解統計意義下估計量與待估參數之間的“接近”,我們可以借助統計軟件進行隨機模擬演示來解釋。
估計量是隨機變量,對于不同的樣本值會得到不同的估計值。一個自然的要求是希望估計值在未知參數真值的附近,不要偏高也不要偏低,由此引入無偏性標準。如果 是未知參數的估計量,若,則稱該估計量是未知參數的無偏估計,無偏性是對估計量的一個常見而重要的要求,其實際意義是指估計量沒有系統偏差,只有隨機偏差。從理論推導上來說,學生能夠掌握證明估計量無偏性的方法步驟,但從統計意義上來講,無偏性是指的一次觀察值與真實值有偏差,可能大也可能小,但多次抽樣所得到的估計值的平均值應該很接近,即在平均意義下,與沒有偏差。如何讓學生有更直觀理解呢,我們借助下面的隨機模擬實驗演示。
我們熟知的常用統計量中,是的無偏估計,而樣本二階中心矩不是的無偏估計,雖然我們可以很容易從理論上來證明,但有時我們更需要從統計意義上直觀來理解。借助R軟件程序包[5-6],設計實驗隨機模擬產生的樣本,則真實值,固定樣本容量,分別計算樣本方差和樣本二階中心矩。為了計算樣本方差和樣本二階中心矩的均值,我們分別做次抽樣,取值從200,300一直到5000,共49種情況下和的均值,兩者的變化規律如圖1所示。這里,,從圖1可以很直觀看出,的均值在12附近擾動,隨著抽樣次數增加越來越靠近真實值12,說明用估計只會產生隨機偏差,不會產生系統偏差。而的均值在11.4附近擾動,與真實值12有系統偏差,這種偏差不會因為大量重復抽樣而減小,是無法避免的,說明這個估計量本身構造的不好。這樣學生對于無偏性的概念就有了直觀形象的認識,使學生對無偏性概念有了更深刻的理解和記憶。
2 隨機模擬在相合性概念中的演示
我們不僅希望一個估計量是無偏的,并且具有較小的方差,還希望當樣本容量無限增大時,估計量能在某種意義下任意接近未知參數的真值,由此引入相合性的評價標準。相合性是指樣本容量充分大時,估計量依概率收斂到未知參數的真實值,樣本容量越大,估計越精確。
同樣我們也借助R軟件程序包[5-6]進行實驗設計,模擬產生的樣本,,樣本均值,我們可以證明是的相合估計量。下面我們通過隨機模擬來觀察隨著樣本容量的增大,的變化趨勢。我們設定樣本容量從1變到150,為了能直觀的觀察過程變化,每個樣本容量上,重復抽樣30次。得到下面的圖2,我們可以看出隨著的增大,接近的可能性越來越大。也就是說樣本容量越大,估計越精確。相合性是估計量依概率收斂到未知參數真實值,它區別于我們在高等數學中學習的收斂概念,不能做到對任意,當充分大時,一定成立,只能說對任意,事件發生的概率很大,并不能排除這種情況的發生。因此圖形的可視化也讓學生對概率意義下的收斂有個直觀清晰的認識。endprint
3 隨機模擬在置信度概念中的演示
我們在講到參數的區間估計時,會涉及到估計的置信度也稱為可靠度概念,如何理解這個置信度呢,比如置信度90%,一般的教學中,我們會這樣解釋,置信區間本身是個隨機區間,但是當我們具體抽樣的時候就會得到具體的區間,這個區間要么包含真實值,要么不包含真實值,如果重復抽樣100次的話,將會得到100個具體區間,這100個區間中包含真實值的應該有90個左右,同樣不包含真實值的有10個左右,這是關于置信度的統計意義。但這樣說學生還是心有疑惑,如果我們設計實驗,利用動態抽樣模擬,讓實驗結果來說明這個結論,學生直觀上就能夠很好的理解這個概念了。這里我們借助R軟件程序包[5][6],隨機模擬產生樣本,樣本容量50,重復抽樣100次,由區間估計的定義我們知道的置信度為90%置信區間為,程序運行一次,我們就可以得到一次結果,圖3就是一次模擬結果的展示。圖中,橫虛線代表的真實值0,豎線段代表一次次抽樣得到的一個個具體的區間,中點實際上就是點估計值,如果這個區間包含真實值0就與中間橫虛線有交點否則是不包含沒有交點。從最終的一次統計結果來看,包含真實值的區間一共有91個,沒有包含真實值的有9個用紅色標出。當然我們可以多次運行程序,這樣我們就會得到不同的結果,但是會發現多次實驗,包含真實值的區間基本上都是90個左右,這樣就讓學生對理論上的結果有個實際的驗證,直觀的認識,更易于學生理解。同時這樣讓學生參與到實驗中來,也豐富了課堂教學內容,激發了學生的興趣,收到了良好的教學效果。
4 結語
隨機模擬實驗在統計教學中的作用非常重要,傳統教學中都是在理論上進行講解說明,而借助統計軟件,從統計的角度進行直觀的模擬演示,讓學生在頭腦中形成空間或圖形的直觀感受,給出形象直觀的解釋及說明,從而使抽象的概念和結論變得易于理解和記憶。這種教學方式既可以幫助學生更好的理解統計中的一些基本概念,同時也可以激發學生學習興趣,培養學生的統計思維和實踐能力。
參考文獻
[1] 劉超,吳喜之. 統計教學面對的挑戰[J].統計研究,2012,29(4):105-108.
[2] 孟生旺,袁衛. 大數據時代的統計教育[J].統計研究,2015,32(4):3-7.
[3] 茆詩松. 概率論與數理統計[M]. 第二版,北京:高等教育出版社,2011.
[4] 周圣武,李金玉等. 概率論與數理統計[M]. 第二版,煤炭工業出版社,2007.
[5] Yihui Xie (2013). animation: An R Package for Creating Animations and Demonstrating Statistical Methods. Journal of Statistical Software, 53(1), 1-27. URL http://www.jstatsoft.org/v53/i01/.
[6] Yihui Xie [cre, aut], Christian Mueller [ctb], Lijia Yu [ctb],Weicheng Zhu [ctb] (2015). animation: A Gallery of Animations in Statistics and Utilities to Create Animations. R package version 2.4.endprint