玄英花
摘要:把R語(yǔ)言軟件融入醫(yī)學(xué)統(tǒng)計(jì)學(xué)教學(xué)中是培養(yǎng)學(xué)生應(yīng)用和實(shí)踐能力的一條有效途徑,是當(dāng)前醫(yī)學(xué)統(tǒng)計(jì)學(xué)課程改革的一個(gè)重要方向。本文從醫(yī)學(xué)統(tǒng)計(jì)學(xué)教學(xué)的具體環(huán)節(jié)給出教學(xué)中使用R語(yǔ)言的具體步驟,并且探討了實(shí)施軟件教學(xué)的具體方法和應(yīng)該注意的幾個(gè)問(wèn)題。
關(guān)鍵詞:R語(yǔ)言;醫(yī)學(xué)統(tǒng)計(jì)學(xué);教學(xué)
中圖分類號(hào):R195.1 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1674-9324(2016)22-0240-02
醫(yī)學(xué)統(tǒng)計(jì)學(xué)是高等醫(yī)學(xué)院校各專業(yè)學(xué)生的基礎(chǔ)必修課,是醫(yī)學(xué)教學(xué)、科研和實(shí)踐的重要工具。然而,因其概念抽象、邏輯性強(qiáng)、公式煩瑣、運(yùn)算量大,學(xué)生普遍認(rèn)為該課程較難理解,這直接影響了學(xué)生的應(yīng)用能力,給本課程的教學(xué)帶來(lái)一定的難度。隨著計(jì)算機(jī)軟件等現(xiàn)代技術(shù)在醫(yī)學(xué)領(lǐng)域中的廣泛應(yīng)用,在醫(yī)學(xué)統(tǒng)計(jì)學(xué)教學(xué)中利用計(jì)算機(jī)軟件進(jìn)行計(jì)算機(jī)輔助教學(xué),可以通過(guò)直觀和簡(jiǎn)易的教學(xué)方法提高學(xué)生對(duì)醫(yī)學(xué)資料進(jìn)行統(tǒng)計(jì)分析的實(shí)際應(yīng)用能力。本文試圖通過(guò)R語(yǔ)言統(tǒng)計(jì)軟件進(jìn)行計(jì)算機(jī)輔助教學(xué),提高對(duì)醫(yī)學(xué)數(shù)據(jù)的感知和應(yīng)用能力。
一、R語(yǔ)言簡(jiǎn)述
R語(yǔ)言是一種為統(tǒng)計(jì)計(jì)算和圖形顯示而設(shè)計(jì)的語(yǔ)言環(huán)境,是貝爾實(shí)驗(yàn)室(Bell Laboratories)的Rick Becker、John Chambers和Allan Wilks開(kāi)發(fā)的S語(yǔ)言的一種實(shí)現(xiàn),提供了一系列統(tǒng)計(jì)和圖形顯示工具。它是一套開(kāi)源的數(shù)據(jù)分析解決方案,由一個(gè)龐大且活躍的全球性研究型社區(qū)維護(hù)。它具有下列優(yōu)勢(shì):(1)作為一個(gè)免費(fèi)的統(tǒng)計(jì)軟件,R可運(yùn)行于多種平臺(tái)之上,包括Windows、UNIX、MacOS和Linux;(2)R可以輕松地從各種類型的數(shù)據(jù)源導(dǎo)入數(shù)據(jù),包括文本文件、數(shù)據(jù)庫(kù)管理系統(tǒng)、統(tǒng)計(jì)軟件,乃至專門的數(shù)據(jù)倉(cāng)庫(kù)。它同樣可以將數(shù)據(jù)輸出并寫入到這些系統(tǒng)中;(3)具有較高的開(kāi)放性,R不僅提供功能豐富的內(nèi)置函數(shù)供用戶調(diào)用,也允許用戶編寫自定義函數(shù)來(lái)擴(kuò)充功能;(4)R擁有頂尖水準(zhǔn)的制圖功能。如果希望復(fù)雜數(shù)據(jù)可視化,那么R擁有最全面且最強(qiáng)大的一系列可用功能。
二、單組數(shù)據(jù)的描述性統(tǒng)計(jì)分析
(一)單組數(shù)據(jù)的圖形描述
單組數(shù)據(jù)的分布可以通過(guò)直方圖以及箱型圖和QQ圖考查。下文所用的數(shù)據(jù)集是R語(yǔ)言程序包MASS中有內(nèi)嵌數(shù)據(jù)集“Pima”,該數(shù)據(jù)集包含了532個(gè)樣本的血清胰島素記錄數(shù)據(jù),這些數(shù)據(jù)是由美國(guó)國(guó)家糖尿病和消化及腎臟疾病研究所收集的住在亞利桑那州鳳凰城附近的皮馬印第安人婦女的數(shù)據(jù)。
1.直方圖。直方圖是直觀了解數(shù)據(jù)分布情況最常用的圖形類型,它將連續(xù)型數(shù)據(jù)分為幾個(gè)等間距的組,并以矩形的高低來(lái)顯示相應(yīng)組中所含數(shù)據(jù)的頻數(shù)或頻率大小,有時(shí)可同時(shí)顯示出數(shù)據(jù)的密度曲線作為輔助。這是一種簡(jiǎn)單快速的探索數(shù)據(jù)分布的方式。下文我們抽取Pima數(shù)據(jù)集中的血壓數(shù)據(jù)進(jìn)行分析,具體步驟如下:
library(MASS) #加載MASS軟件包
data(Pima) #加載Pima數(shù)據(jù)集
Pima_n=Pima[Pima$type=='No'& Pima$age==22,] #抽取Pima數(shù)據(jù)集中年齡=22歲,非糖尿病患者的數(shù)據(jù)
attach(Pima_n) #把Pima_n設(shè)置為當(dāng)前數(shù)據(jù)集
hist(bp) #畫出Pima_n中血壓的直方圖
2.箱型圖。箱型圖提供了識(shí)別異常值的一個(gè)標(biāo)準(zhǔn):異常值通常被定義為小于Q■-1.5IQR或大于Q■+1.5IQR的值。Q■稱為下四分位數(shù),表示全部觀察值中有四分之一的數(shù)據(jù)取值比它小;Q■稱為上四分位數(shù),表示全部觀察值中有四分之一的數(shù)據(jù)取值比它大;IQR稱為四分位數(shù)間距,是上四分位數(shù)Q■與下四分位數(shù)Q■之差,其間包含了全部觀察值的一半。
箱型圖依據(jù)實(shí)際數(shù)據(jù)繪制,沒(méi)有對(duì)數(shù)據(jù)作任何限制性要求如服從某種特定的分布形式,它只是真實(shí)直觀地表現(xiàn)數(shù)據(jù)分布的本來(lái)面貌;另一方面,箱型圖判斷異常值的標(biāo)準(zhǔn)以四分位數(shù)和四分位距為基礎(chǔ),四分位數(shù)具有一定的魯棒性:多達(dá)25%的數(shù)據(jù)可以變得任意遠(yuǎn)而不會(huì)很大地?cái)_動(dòng)四分位數(shù),所以異常值不能對(duì)這個(gè)標(biāo)準(zhǔn)施加影響。由此可見(jiàn),箱型圖識(shí)別異常值的結(jié)果比較客觀,在識(shí)別異常值方面有一定的優(yōu)越性。在R中使用函數(shù)boxplot( )作盒形圖,程序如下:
boxplot(bp) #畫出Pima_n數(shù)據(jù)集中血壓的箱型圖
箱子中的五根橫線對(duì)應(yīng)的坐標(biāo)分別是最小值,第一4分位數(shù),中位數(shù),第三4分位數(shù)和最大值。
3.正態(tài)性檢驗(yàn)。
(1)使用QQ圖。
QQ圖是用來(lái)檢查數(shù)據(jù)正態(tài)性的一種統(tǒng)計(jì)圖形,圖中的點(diǎn)若呈直線狀(大致分布在對(duì)角線上),那么可以說(shuō)明數(shù)據(jù)的正態(tài)性比較好,因此QQ圖經(jīng)常被用在對(duì)回歸模型殘差的正態(tài)性診斷上。程序如下:
qqnorm(bp,main="Normality Check via QQ Plot") #畫出Pima_n數(shù)據(jù)集中血壓的QQ圖
qqline(bp,col='red',lwd=3,)
得到表明數(shù)據(jù)與正態(tài)性略有差異,特別在圖形的上部。
(2)與正態(tài)密度函數(shù)比較。
dens <- density(bp)
xlim <- range(dens$x);ylim<-range(dens$y)
hist(bp,xlim=xlim,ylim=ylim,probability=T,xlab="total length")
lines(dens,col=par('fg'),lty=2)
m <- mean(bp); s <- sd(bp)
curve(dnorm(x,m,s),col='red',add=T)
使用經(jīng)驗(yàn)分布函數(shù)
x <- sort(bp);n <- length(x);y <- (1:n)/n;m <- mean(bp);s <- sd(bp)
plot(x,y,type='s',main="empirical cdf of bp")
curve(pnorm(x,m,s),col='red',lwd=2,add=T)
(二)單組數(shù)據(jù)的描述性統(tǒng)計(jì)
樣本來(lái)自總體,樣本的觀測(cè)值中含有總體各方面的信息,但這些信息較為分散,有時(shí)顯得雜亂無(wú)章。為將這些分散在樣本中的有關(guān)總體的信息集中起來(lái)以反映總體的各種特征,需要對(duì)樣本進(jìn)行加工得到統(tǒng)計(jì)量。均值、標(biāo)準(zhǔn)差、五數(shù)(最小值、第三4分位數(shù)、中位數(shù)、第一4分位數(shù)、最大值)是數(shù)據(jù)的主要的統(tǒng)計(jì)量,他們對(duì)數(shù)據(jù)的進(jìn)一步分析很有幫助。
1.總體描述。
在R中,函數(shù)summary( )可以計(jì)算出單組數(shù)據(jù)的均值和五數(shù)。仍然用上一節(jié)的例子,考慮Pima_n數(shù)據(jù)集中的血壓。
summary(bp)
2.五數(shù)及樣本分位數(shù)概括。
計(jì)算五數(shù)用函數(shù)fivenum( ).若要得到分位數(shù)用函數(shù)quantile( ),計(jì)算中位數(shù)使用函數(shù)median( ), 最大值使用函數(shù)max( ),最小值使用函數(shù)min( ).
fivenum(bp);quantile(bp);median(bp);max(bp); min(bp)
3.離差的概括。
樣本的平均水平可以用上面介紹的平均值函數(shù)mean( )和中位數(shù)函數(shù)median( )來(lái)計(jì)算。樣本的變異程度可以用極值(max( )-min( ))、四分位極值函數(shù)(IQR( ))、標(biāo)準(zhǔn)差函數(shù)(sd( ))、方差函數(shù)var( )和絕對(duì)離差函數(shù)(mad())來(lái)表示。方差函數(shù)var( )也可用于計(jì)算兩個(gè)向量協(xié)方差或一個(gè)矩陣的協(xié)方差陣。mad( )在R中的定義為
1.4826*median(abs(x-median(x)))
其中系數(shù)1.4826約等于1/qnorm(3/4),目的是為了使mad(x)作為方差的估計(jì)具有一致性(在正態(tài)或大樣本下)。Pima_n數(shù)據(jù)集中的血壓為例:
max(bp)-min(bp);IQR(bp);sd(bp);var(bp);mad(bp)
三、教學(xué)中運(yùn)用R語(yǔ)言需注意的問(wèn)題
(一)區(qū)別教材內(nèi)容和R語(yǔ)言的主次之分
課程中的核心概念進(jìn)行軟件演示,如幫助學(xué)生理解均值、方差、中位數(shù)和分布等概念,可適當(dāng)引入。只要求學(xué)生通過(guò)掌握調(diào)整程現(xiàn)有的程序參數(shù)實(shí)現(xiàn)運(yùn)算,不要求軟件的復(fù)雜操作,發(fā)揮輔助教學(xué)的作用。
(二)利用數(shù)學(xué)軟件切忌給學(xué)生制造新難點(diǎn)
醫(yī)學(xué)統(tǒng)計(jì)學(xué)教學(xué)的重點(diǎn)是基礎(chǔ)理論的學(xué)習(xí)、基本技能的訓(xùn)練、統(tǒng)計(jì)能力的培養(yǎng),并非軟件的編程。使用軟件是為了教學(xué)內(nèi)容的簡(jiǎn)潔、直觀,幫助學(xué)生對(duì)抽象問(wèn)題的理解。因而,在引入軟件程序,應(yīng)避免程序繁難、冗長(zhǎng),超出學(xué)生所學(xué)知識(shí)范圍。