侯縣平 成都信息工程大學物流學院
描述性統計是對數據的大小、離散程度、分布形狀等概括性數據進行計算,用以描述和發現數據的特征,從而為后續的進一步數據分析做好準備,是統計學課程必須掌握的基礎性內容。然而,描述性統計的計算較為繁瑣,而R語言是一款免費的統計軟件,能夠方便快捷的進行統計分析,滿足個性化、多樣化的統計需求[1,2]。借助于R語言進行描述性統計教學,簡單易學,容易理解,能夠提高計算效率,提升學生的學習興趣,提高教學效果。本文以具體數據為例,分析如何通過R語言來進行描述性統計的教學。
本文以car包中[3]的Mroz數據集為例進行分析。Mroz數據集是對美國已婚婦女勞動力參與就業的收入調查,包含753個觀測值,8個指標。Mroz數據集的前6行如表1所示,實現代碼如下:


表1 Mroz數據集
表1中,1-6為序號,lfp指是否參與就業,k5指5歲及以下孩子的數量,k618指6至18歲孩子的數量,age指年齡,wc指妻子是否接受過大學教育,hc指丈夫是否接受過大學教育,lwg指期望的工資水平,inc指除妻子收入外的家庭收入。
數據水平就是指數據的大小,描述水平的統計量主要有均值、中位數、四分位數等。在R語言中,可以輕松的計算這些統計量。下文的計算是針對lwg進行的,如果要計算inc,則將lwg替換為inc即可。

描述數據的差異的統計量主要有極差、四分位差、方差和標準差,這些統計量用以反映數據的離散程度。


數據的分布可以通過直方圖來觀察,并與正態分布做比較。通過偏度系數和峰度系數測度數據分布的不對稱性和峰值高低。lwg的直方圖及正態分布曲線如圖1所示。

圖1 lwg的直方圖及正態分布曲線

有時候需要對數據進行綜合描述,希望一次性得到多個統計量,則可以通過下面的方式實現。

或者,一次性想得到若干變量的統計結果,則可以運行如下代碼,結果見表2.


表2 lwg和inc的描述統計
如果想對多個變量進行分組描述統計,則無需繁瑣的逐步進行,用下面的方式非常方便,結果見表3。


表3 基于lfp和wc分組的lwg和inc的分組描述統計
甚至可以編寫自己的函數來進行描述性統計,從而滿足個性化的統計需求。
從以上分析中可以看出,R語言是一款優秀的統計軟件,可以輕松實現編程,能夠方便快捷地實現個性化的統計需求。將R語言應用于教學,能夠較好的激發學生的學習興趣和動力,提高學生動手實踐的積極性和能力。