宋述芳 遲乃榮 呂震宙



摘要:本文介紹了R軟件在數理統計教學中的應用優勢及大數據處理分析的延伸功能。結合數理統計的課程特點及教學內容,舉例說明了R軟件在數理統計教學中的多方面應用以及海量數據下R的延伸及適用性,并探討了R軟件對數理統計教學帶來的積極作用。
關鍵詞:數理統計;R軟件;參數估計;假設檢驗;大數據
中圖分類號:G642.0 文獻標志碼:A 文章編號:1674-9324(2019)09-0231-03
一、引言
數理統計是理工科院校的必修公共基礎課,是一門應用性很強又頗具特色的數學學科。數理統計研究的是隨機現象的統計規律,是概率論知識的實際應用。數理統計所包含的主要內容包括收集和整理隨機樣本,利用一定的統計模型進行統計推斷,如參數估計、假設檢驗、統計回歸等。其教學要求及難點體現在掌握統計推斷的原理及方法,根據樣本歸納樣本所反映的統計規律。然而傳統的人工處理手段遠遠跟不上數據處理的廣度、精度、速度的要求。
隨著計算機分析技術和實驗測量技術的發展,信息化數據急劇增加,海量數據的處理及分析是數理統計面臨的難題和挑戰,需要借助數據處理的軟件,如Matlab、Excel、Python、C語言、R語言等。Matlab工具箱多種多樣,然而安裝包及占用CPU的空間巨大;Excel可采用豐富的函數進行部分分析,但還需自編不容易掌握的宏程序;Python和C語言的分析問題快速,然而語言格式非常嚴謹,不易上手;R語言作為一款開源軟件,完全免費,有龐大的社區進行維護,簡單易學。
在國外高校的統計系,R語言幾乎是一門必修的語言,可實現統計分析、數據可視化和預測建模的數據分析。R語言支持幾乎所有數據分析所需要的數據處理、統計模型和圖表,支持大量第三方功能包,涵蓋機器學習、統計學,甚至自然語言處理等方面。本文著重介紹R語言在數理統計中的應用以及大數據時代R語言的拓展及實用性。
二、R語言
R語言是一種適用于統計分析和圖像處理的語言,是進行統計分析的重要工具,是受S語言和Scheme語言影響發展而來的。
1.R語言安裝及基本操作。在主頁http://www.r-project.org下載R語言程序(通常只有幾十兆)并進行安裝。為了方便使用,可以從http://www.rstudio.com.products/ rstudio /download/中下載圖形界面編輯器RStudio,由于RStudio集成了豐富的開發界面,提供了方便的函數名識別及搜索功能,極大地方便了R編程計算。R包的安裝更新在RStudio的Packages選項下的install和Update,數據導入選擇環境選項下的Import Dataset,可以選擇合適的導入格式。
2.R語言在數理統計教學內容中的應用。數理統計的主要教學內容包括隨機事件發生概率的計算、樣本的統計量計算、參數估計、假設檢驗、方差分析、統計回歸等。R語言幾乎可以實現數理統計教學內容的全部應用。
預測2017年該地區農業生產總值為49.9,95%的預測區間是[42.5,57.2];預測2018年該地區農業生產總值為54.8,95%的預測區間是[46.8,62.9]。
R語言同樣可以實現數據的多元非線性回歸,通過設置不同的非線性函數求解待定系數,獲得回歸方程并進行檢驗,從而用于模型預測、指導決策等。
三、大數據處理
數據挖掘是當今時代的一門核心技術,提供了對大數據的描述、探索、模式的識別和預測。數據挖掘者從統計分析、機器學習和計算科學中尋找各種適用的方法和工具。
作為優秀的統計軟件包,R語言也提供了強大的數據挖掘工具。R軟件的延伸——大數據包很好地解決了這個問題。
1.Rattle包。Rattle包是一個用于數據挖掘的R圖形交互界面,可用于快速處理常見的大數據中的數據挖掘問題,從數據整理到模型評價,Rattle給出了完整的解決方案。Rattle和R平臺具有良好的交互性,簡單易用,不需要有很強的R語言編程基礎,被廣泛應用于數據挖掘與教學中。
在R控制臺輸入install.packages("RGtk2"),install.packages("rattle"),或者直接在RStudio里面用install命令輸入這兩個功能包的名字就可以安裝。
Rattle界面從上到下依次是菜單欄、工具欄和標簽欄,標簽欄從左到右依次排列各自完成數據挖掘工作中的相關步驟,包括導入數據的Data標簽、執行數據探索的Explore標簽、數據檢驗的Test標簽、數據聚類的Cluster標簽、關聯規則方法的Associate標簽、算法模塊的Model標簽、模型評估的Evaluate標簽等。
2.R語言的其他大數據包。此外,R語言還有一些其他的手段或數據包可用于處理大數據問題。data.table可用于讀取處理GB級或TB級的大數據集,latticist包用于數據圖形交互,rggobi包結合GGobi軟件也可以進行圖形交互,ggplot2包用于處理高級繪圖命令,qcc是用于統計質量控制的庫,sqldf能在R數據框上執行SQL查詢。
R語言社區有數以百計的功能包,并且還在不斷發展擴充著,需要我們繼續探索更多的相關功能包。
四、總結
利用R語言可以很方便地進行數理統計分析,還可以結合R語言豐富的包資源環境進行數據開發。數理統計在R語言的加持下能夠讓學生擺脫煩躁的計算,極大地激發學生對于數理統計的興趣,更方便的用R語言工具應用數理統計理論解決實際問題,成為大數據時代的弄潮兒。
參考文獻:
[1]盛驟,謝式千,潘承毅.概率論與數理統計[M].第四版.北京:高等教育出版社,2008.
[2]薛毅,陳立萍.R語言在統計中的應用[M].北京:人民郵電出版社,2017.
[3]楊衛.R軟件在高等數學教學中的應用[J].新教育時代,2016,(4):205-206.
[4]閏朝暉.R軟件在多元統計分析教學中的應用研究[J].科技創新導報,2011,(1):157-158.
[5]呂書龍,劉文麗,梁飛豹,葉福玲.數理統計直觀教學的實驗設計與R程序實現[J].實驗技術與管理,2016,33(10):142-146.
[6]崔玉杰,劉喜波.R和Python軟件在《概率論與數理統計》教學中應用初探[J].教育教學論壇,2017,(12):192-193.
[7]丁新濤,周在瑩,王翠蓮,肖婧.R軟件教學的一些心得[J].課程教育研究,2013,(12):125.