統計學是收集、處理、分析、解釋數據并從數據中得出結論的科學。通過統計學方法,可以從數據中提取出有用的信息。當前,我們正處于“信息爆炸”的時代,其表現為承載信息的數據以幾何級別增長。以金融市場為例。19世紀,金融數據是以天為單位記錄的,到了1984年,數據的抽樣頻率細到1分鐘甚至更小的時間單位;而從1993年開始,每筆交易的數據都會被記錄下來。需要處理的數據動輒達到GB甚至TB級別。這就將統計學和計算機科學緊密地聯系在了一起。面對一組數據,如果沒有計算機知識,即使有豐富的統計學知識,也無法進行分析。
認識到計算機知識對于統計學的重要性,近些年出版的統計學教材基本上都新增加了一部分內容,即如何應用計算機軟件實現教材上講授的統計學方法。大量的教學論文也在探討計算機和相關軟件對于統計學教學的輔助作用。鑒于Excel軟件統計功能易學易用的特點,大部分教材都選擇了該軟件。然而,從本質上來說,Excel是一款電子表格軟件,而非專門的統計軟件。它僅僅能夠實現簡單的統計功能,雖然,對于統計學這門課程所授的基本知識來說已經足夠了,但是如果學生以后想要在統計學方面繼續學習的話,就會發現Excel力不從心,只能學習新的統計軟件。因此,Excel并不是一個好選擇,應該選擇一款簡單的、功能強大的統計學專業軟件。R語言就是這樣一款軟件。
1 R語言的優勢
R是基于S語言的一個GNU項目,本來是由來自新西蘭奧克蘭大學的Ross Ihaka和Robert Gentleman開發,現在由“R開發核心團隊”負責開發。R語言具有以下優點:(1)R語言是免費的,可以從網上自由下載;(2)R語言內建豐富的統計函數,并且統計功能可以通過安裝套件(Packages)進一步增強,(3)R語言有優秀的內在幫助系統和活躍的社區,可以幫助用戶輕松解決問題;(4)R語言有強大的畫圖功能,制圖具有印刷的質素;(5)R語言也可以用于矩陣計算和系統仿真,其分析速度可比美GNU Octave甚至商業軟件MATLAB;(6)R語言的代碼是公開的,用戶既可以查看統計函數的代碼,學習如何實現相關統計功能,也可以在原函數的基礎上進行修改,實現自己所需的統計功能。
2 R語言在統計學教學中的應用
2.1用R語言中的函數實現統計學中講授的統計方法,從而將統計學的基本理論與R語言的實踐結合在一起
整個統計學的研究過程可以分為五個階段:收集數據,處理數據,分析數據,數據解釋,得到結論。統計學的教學就是按照這五個階段的順序依次展開的。而R語言主要應用在處理數據和分析數據階段。處理數據階段,主要包含數據的預處理、數據的整理和數據的圖形顯示三方面內容。而對于分析數據階段,多數統計學教材會講授數據的概括性度量、參數估計、假設檢驗、方差分析、線性回歸等基本方法。在每講授完一種統計方法之后,應以某組數據為例,給學生展示用R語言中的哪些函數可以實現這種方法。例如:在數據的圖形顯示部分,主要講授了條形圖、餅圖、直方圖、莖葉圖、箱線圖、散點圖等圖示方法。在R語言中,這些圖示方法可以用barplot()、pie()、hist()、stem()、boxplot()、plot()等函數來實現。在展示如何使用這些函數的時候,應著重講解函數中重要的參數和返回值。例如,在R語言中,沒有求解頻數分布的專用函數,這一功能是由畫直方圖的函數hist()來實現的。當hist()函數運行完后,頻數分布的結果作為返回值的一部分存儲在變量“coutlts”中。
2.2組織學生使用實際數據進行練習,作為課堂教學的補充
統計學教學的一個主要目標就是讓學生能夠使用課上所學的統計方法和軟件從實際數據中抽取出有用信息。實現這一目標的最有效的方法就是上機練習。R語言中內置了大量數據供用戶學習統計方法時使用。這些數據可以通過data()函數查看和調用。可以讓學生自由組隊,2~3人一隊,每隊選取一組數據進行分析。隊員們可以相互討論,分工合作,共同完成統計工作。通過這種方式,既能鍛煉學生分析問題解決問題的能力,又能培養他們團隊合作的精神。
R語言在統計學教學中的應用,將抽象的統計學理論和具體的統計學實踐聯系起來,使得統計學的學習由枯燥乏味變得趣味盎然。今后針對教學過程中出現的問題,我們將繼續完善這一教學方式,使學生能夠成為兼備統計理論思想與統計實踐能力的實用型人