徐平峰 陳婷 董小剛 袁小惠
摘要:概率論與數理統計作為一門數據分析課程,其開設廣泛、應用興強。如何選擇軟件輔助教學是一個非常重要的問題,本文結合R軟件的特點,通過經典教材例題,對比分析討論R軟件輔助教學的優勢。
關鍵詞:R軟件;概率統計;輔助教學
一、使用軟件的必要性
隨著計算機、互聯網的迅速發展,數據的采集、整理以及儲存的方式發生了巨大的變化。現代的數據分析也越來越離不開計算機和相關軟件。概率論與數理統計作為一門數據分析課程,也應與現代的數據分析方式相契合,凸顯其實用性,因而有必要在課程教學中進入相關的軟件教學。在這方面,魏宗舒等編著的《概率論與數理統計教程》的第二版[1]和盛驟等編著的《概率論與數理統計》第四版[2],都引入了Excel幫助進行統計分析,以適用應用性的需要。Excel作為Office的一部分應用相當廣泛,學生也有一定的操作基礎,作為概率論與數理統計的教學軟件,無疑是最容易被學生接受,也是最方便的。
二、使用R軟件的優勢
單從統計模擬以及課堂演示的角度考慮,專業的統計分析軟件,在這方面更具有優勢。例如:被統計學者或科研人員廣泛應用的R軟件就是一個不錯的選擇,而軟件與商業軟件SAS和SPSS不同,它是免費、開源的,而且其統計分析和統計制圖功能不亞與SAS和SPSS。美國時代周刊2009年曾指出,R是可以和SAS相媲美,占有相當比例的市場份額[3] 。而且R軟件只有七十多兆,不會占用很多磁盤空間,安裝時間僅僅幾分鐘。同時R軟件有相當多的統計分析軟件包,截止2018年9月,共有13095個軟件包。這些軟件包不僅功能強大,而且大多數都含有真實數據,如果恰當選擇,將可作為概率統計教學的非常新穎的實例。更重要的是R是一種數學計算環境,它提供各種數學計算,統計計算的函數,不僅方便學生和老師調用,而且能更加靈活地進行統計模擬,從而使學生更好的理解概念和性質。
下面通過幾個例題,對比分析一下R軟件輔助教學的優勢。在講概率論部分,生日問題是學生非常感興趣的問題之一,設一個班有n(365)個學生,求至少有兩個學生的生日相同的概率。如果假設學生的生日在365天每一天都具有相同的概率,則該概率為。這個概率看起來簡單,但實際上筆算或者用計算器計算,工作量是很大的。為魏宗舒、盛驟、茆詩松等編著的教材中均有此例題,均給出了概率隨學生數n的變化表格。茆詩松的教材中給出了近似計算的方法,但也涉及指數運算,如果用R軟件進行計算,就方便多了,結果見圖1。該過程在課堂上演示或讓學生下課重復R件計算過程,使學生更加真實地感受這一結果。
在概率論部分,在講授二項分布的內容時,其中一個重要的知識點是二項分布的分布列可由泊松分布的分布列近似計算:即當n較大,p較小,np不太大時,有,其中。詳見魏宗舒第二版第67頁。教材中表2.2給出了精確的二項分布率和近似的泊松分布率的比較結果,為了驗證這一結果,我們可以利用R軟件進行比較。計算結果見圖2,其中紅色為泊松概率,其他顏色的圓圈表示n不同二項分布的概率。
在講授置信區間內容時,從頻率學派的觀點,我們通常會強調,在重復采樣情況下,將得到許多不同的置信區間,這些區間將有大約的區間包含未知參數,而對于一次采樣所得的置信區間,絕不能說未知參數落入區間的概率為。但對于學生來說,理解是有一定困難的。茆詩松老師[4]的教材上給出了例6.6.1模擬上的過程,我們可以通過R軟件重復茆詩松老師的模擬過程,展示給學生,增加學生的印象,使學生理解更深刻。如圖3.
通過以上三個例子可以說明,R軟件輔助教學,具有活潑、生動,使學生理解更深刻的優點。有的老師可能會說,從模擬和計算角度,Matlab也可以實現上述過程。的確如此,而R依然具有占用空間小,免費開源的優勢。此外R軟件的自己獨特的變量類型,表示數據更方便,更符合人們的習慣。例如數據框,它通常是一個矩陣形式的數據,但矩陣各類可以是不同的類型,它的每一列表示一個變量,每行表示一個樣本。
三、總結
綜上所述,在概率論與數理統計中恰當的引入R軟件不僅可以解決計算的問題,而且可以進行統計模擬,便于學生更易理解重要的概念,激發學生的學習興趣。但同時也存在一定的問題,例如對學生來說,R軟件相對于Excel要操作相對難以掌握,另外如何分配R軟件教學學時與理論課學時,特別值得研究的問題。
參考文獻:
[1] 魏宗舒,等. 概率論與數理統計教程.(第二版)[M]. 北京:高等教育出版社, 2008.
[2] 盛驟,等. 概率論與數理統計(第四版)[M]. 北京:高等教育出版社, 2008.
[3] Ashlee Vance. Data Analysts Captivated by Rs Power, The New York Times, 2009
[4] 茆詩松,等. 概率論與數理統計教程(第二版) [M]. 北京:高等教育出版社, 2011.