楊書林
[摘 要]我國高等院校生物統(tǒng)計學課程多使用SPSS統(tǒng)計軟件作為課堂配合軟件使用。由于該軟件是商業(yè)軟件,功能繁多,遠超入門生物統(tǒng)計課程所需的基本數據分析功能。對SPSS統(tǒng)計軟件進行安裝配置并使用其作為入門生物統(tǒng)計課程教學軟件增加了教學復雜程度及成本。相較而言GNU PSPP基本上滿足入門生物統(tǒng)計課程教學軟件的要求,可作為教學軟件使用。
[關鍵詞]描述性統(tǒng)計 t檢驗 單因素方差分析 多因素方差分析 線性回歸
[中圖分類號] G40-057 [文獻標識碼] A [文章編號] 2095-3437(2015)08-0110-04
現今高等院校非統(tǒng)計專業(yè)開設生物統(tǒng)計學基礎課程時多使用IBM SPSS Statistics(以下簡稱SPSS)配合課程上機實習。SPSS因其可以完全使用菜單操作無需學習編程以進行數據分析而得到廣泛使用。然而對于大學本科二、三年級學生學習生物統(tǒng)計學基礎課程而言,通常僅涉及基本的統(tǒng)計方法,僅需使用SPSS的一小部分功能。SPSS是一個功能完善的商業(yè)軟件,將其安裝配置于學校機房作為入門統(tǒng)計課程的配套軟件,無疑會增加學校的管理設置難度及學生學習的復雜程度。筆者自從事生物統(tǒng)計學課程教學以來,一直致力于尋找及嘗試使用免費、易用的統(tǒng)計軟件進行數據統(tǒng)計分析以降低學習復雜程度,一款完全免費的名為GNU PSPP的自由軟件包,界面與SPSS的基本相同,但包含基本的統(tǒng)計方法,且無需像SAS統(tǒng)計軟件或另一免費的R統(tǒng)計語言那樣涉及大量編程以進行數據分析,簡單易用且具有圖形使用界面,完全可以滿足一般入門生物統(tǒng)計學課程的需要。筆者對GNU PSPP的軟件界面語言進行了漢化以便用于教學。以下介紹GNU PSPP的特點及功能并與SPSS作比較以供廣大師生參考。
一、GNU PSPP簡介
GNU PSPP(以下簡稱PSPP)是一款以代替SPSS為目的用于數據分析的完全免費的自由軟件。該軟件具有與SPSS類似的圖形操作界面、輸出界面及語法輸入界面,可與SPSS一樣通過圖形界面操作或編寫語法文件進行數據分析。PSPP是一個多平臺運行軟件,在類Linux及Windows視窗操作系統(tǒng)上均可安裝運行。目前其版本為0.8.5,可從其主頁(https://www.gnu.org / software / pspp)獲取相應版本進行安裝。在PSPP的各項菜單中,文件、編輯、視圖、窗口及幫助等與常見的視窗軟件菜單及功能類似。其核心的數據分析操作集中于數據、變換、工具及分析菜單中。前三項菜單下為各項數據相關的操作,如匯總、加權、變換等。而分析菜單是數據分析的核心功能所在,該菜單結構如下(表1):
表1 GNU PSPP的分析菜單結構
分析—描述性統(tǒng)計—頻率
| |-描述統(tǒng)計
| |-數據探索
| |-交叉表
|-比較均值—均值
| |-單樣本T檢驗
| |-獨立樣本T檢驗
| |-成對樣本T檢驗
| |-單因素方差分析
|-單變量分析
|-二元相關性
|-K均值聚類分析
|-因子分析
|-信度分析
|-回歸—線性回歸
| |-二元Logistic回歸分析
|-非參數統(tǒng)計—卡方
| |-二項分布檢驗
| |-游程檢驗
| |-單樣本Kolmogorov?鄄Smirnov檢驗
| |-兩個樣本相關性檢驗
| |-K個樣本相關性檢驗
|-ROC曲線
由該列表可知,PSPP的分析功能基本涵蓋了生物統(tǒng)計學入門課程(以教育部“十二五”國家級規(guī)劃教材中的兩本生物統(tǒng)計教材[1] [2]為例)所需的基礎統(tǒng)計分析方法:描述性統(tǒng)計、t檢驗、單因素方差分析、多因素方差分析、交叉表、卡方檢驗、二元相關、線性回歸等。
二、GNU PSPP與SPSS基礎數據分析方法比較
(一)比較的分析方法及數據源
筆者以數據實例對PSPP與SPSS數據分析進行直觀平行比較以探索PSPP替代SPSS的可行性。比較過程使用PSPP 0.8.5版和SPSS 22.0版(IBM SPSS網站獲取的14天試用版本)進行。對如下常用的數據分析方法進行比較:描述性統(tǒng)計(此項選擇“頻率”操作以繪制直方圖)、獨立樣本t檢驗、單因素方差分析、多因素方差分析和線性回歸。使用的數據源自The Data and Story Library(http://lib.stat.cmu.edu / DASL,詳見表2)。軟件使用方法參考PSPP使用手冊[3]及SPSS使用手冊。[4]截取二者的操作對話框屏幕展現分析過程,而分析結果的呈現方式為屏幕截圖,若SPSS的輸出結果為格式化的文本,則拷貝粘貼并調整大小及字號等以能適合顯示。
表2 分析方法及數據來源
■
*:鏈接前綴均為:http://lib.stat.cmu.edu / DASL / Datafiles /
(二)比較結果
1.描述性統(tǒng)計
該操作在PSPP和SPSS下均位于菜單“分析→描述統(tǒng)計→頻率”下,均使用默認設置,結果見圖1。二者均可繪制直方圖、餅狀圖及條形圖并可選擇輸出均值、方差等描述性統(tǒng)計量(PSPP須使用語法子命令: / BAR?鄄CHART以繪制條形圖);SPSS支持Bootstrap。PSPP繪制直方圖時,按照Freedman?鄄Diaconis規(guī)則(2*IQR(x)*n-1 / 3)對數據進行分組繪制。SPSS默認的分組數量較少,但可以通過雙擊輸出窗口中的直方圖,激活直方圖后,在直方圖柱條屬性窗口的“分箱化”選項卡中調整。
■ ■
圖1 直方圖的操作界面及結果輸出
(a、c為PSPP操作對話框和結果;b、d為SPSS的操作對話框和結果)
2.獨立樣本t檢驗
獨立樣本t檢驗在PSPP和SPSS兩個軟件下的界面可見圖2,結果可見圖3及表3。此項分析功能兩個軟件從操作到結果幾乎完全相同。
■
圖2 獨立樣本t檢驗操作界面
(a為PSPP操作對話框;b為SPSS的操作對話框) ■
圖3 PSPP獨立樣本t檢驗結果
表3 SPSS獨立樣本t檢驗結果
■
3.單因素方差分析
二者的單因素方差分析功能均位于菜單“分析→比較平均值→單因素方差分析”下,操作對話框見圖4。分析結果見圖5(PSPP結果)及表4、表5(SPSS結果)。操作過程相似,不同之處在于:PSPP的圖形界面單因素方差分析對話框中,沒有可以設置方差分析后進行多重比較的可視化設置界面,在圖4a中設置好變量及分組后運行只得到圖5上半部分的方差分析表。圖5下半部分的多重比較結果通過運行語法命令(ONEWAY Length BY Type / POSTHOC=TUKEY)獲得(命令中ONEWAY為單因素方差分析命令,Length為所用數據中的測試變量:長度,Type為分組變量:種類, / POSTHOC=TUKEY指定TUKEY HSD法;該命令與SPSS語法完全兼容)。除此之外,過程到結果基本相同。
■
圖4 單因素方差分析操作界面
(a為PSPP操作對話框;b為SPSS的操作對話框)
■
圖5 PSPP單因素方差分析結果(多重比較只截取了第一組結果)
表4 SPSS單因素方差分析結果
■
表5 SPSS單因素方差分析多重比較
■
4.多因素方差分析
PSPP的多因素方差分析功能位于分析菜單“單變量分析”子菜單下,而SPSS的多因素方差分析功能為菜單:分析→一般線性模型→單變量。操作對話框見圖6。分析結果見圖7(PSPP結果)及表6(SPSS結果)。與單因素方差分析類似,PSPP圖形界面下無法指定多因素方差分析采用的模型,須在語法窗口下運行如下指令:
GLM HR BY Block Height Frequency
/ DESIGN Block Height Frequency Height*Frequency
PSPP當前版本中多因素方差分析功能處于測試階段,未包含方差分析后的多重比較功能,只能通過手動或其他手段計算來進行多重比較。而SPSS可通過圖形界面設置模型、對比、繪圖及事后多重比較等。但單就方差分析結果而言,兩者的結果基本相同。
■ 圖6 多因素方差分析操作界面(a為PSPP操作對話框;b為SPSS的操作對話框)
■
圖7 PSPP多因素方差分析結果
表6 SPSS多因素方差分析多重比較
■
a.R平方=.929(調整后的R平方=.891)
5.線性回歸(一元線性回歸)
二者的線性回歸界面見圖8,分析結果見圖9 (PSPP)和表7 (SPSS)。與多因素方差分析類似,PSPP回歸分析的可設置選項不如SPSS的豐富,而分析結果基本相同。
■ 圖8 一元線性回歸操作界面(a為PSPP操作對話框;b為SPSS的操作對話框)
■
圖9 PSPP一元線性回歸分析結果
表7 SPSS一元線性回歸分析結果
■
6.小結
在進行對比的PSPP的分析功能中,其操作過程和設置與SPSS極為相似,只是可選設置及輸出的細調不如SPSS靈活多樣,PSPP的圖形輸出功能不足,但可通過編寫語法語句使用EXAMINE及GRAPH命令來繪制更多圖形,如箱形圖、正態(tài)概率圖、散點圖等。而二者的分析結果高度一致(注:PSPP結果輸出為默認只保留兩位小數的設置,這點可以通過語法命令,如SET FORMAT F22.6來設置為具6位小數點的寬度為22的浮點數,本文所顯示的輸出均為此格式)。
三、結語
GNU PSPP作為一款模仿并致力于替代SPSS的免費自由軟件,雖然在實現功能及完善程度上與后者尚有差距,但PSPP分析結果精確度及可靠性完全不亞于SPSS,已有不少科學研究采用PSPP作為分析軟件使用,如Walter等。[5]而且PSPP所實現的功能已基本涵蓋一門生物統(tǒng)計學入門課程所需涉及的統(tǒng)計分析方法。GNU PSPP完全可以作為生物統(tǒng)計學入門課程上機實習軟件使用,越來越多的統(tǒng)計學教師正在考慮將PSPP作為統(tǒng)計學入門課程的作業(yè)軟件配合使用。
至于PSPP幾個分析中的一些不足之處,如輸出小數點位數、單因素方差分析中設定事后多重比較及多因素方差分析中指定模型等均可通過輸入一到兩行語法命令進行。其圖形輸出功能也可通過編寫數行簡單語法指令使用EXAMINE及GRAPH命令或與其他軟件配合使用來彌補。而且PSPP完全免費,安裝設置簡便,無需設置授權,圖形界面簡單易用,與SPSS極為相似且具有基本相同的語法命令,在學生的后續(xù)深入學習中必要使用SPSS時,其PSPP經驗可與SPSS使用操作無縫結合。
筆者在使用PSPP作為生物統(tǒng)計學課程教學軟件的經驗已證明使用該軟件切實可行,值得推廣。筆者在進一步查閱更多其他類專業(yè)的統(tǒng)計教材后認為PSPP也可作為其他基礎統(tǒng)計課程的教學軟件。在教育部印發(fā)第一批和第二批“十二五”普通高等教育本科國家級規(guī)劃教材書目中,共收列各類專業(yè)相關50余本統(tǒng)計教材(不含學習指導、習題集及SPSS軟件分析教材)。除三本多元統(tǒng)計分析教材外,PSPP的統(tǒng)計分析功能幾乎涵蓋了所有統(tǒng)計教材的基本分析功能,包括在部分專業(yè)中使用較多的方法,如教育學、心理學、體育學等常用的因子分析和聚類分析(表1)。雖然PSPP沒有實現一些分析方法,如經濟及金融類專業(yè)常用的時間序列分析、醫(yī)藥衛(wèi)生相關專業(yè)的元(Meta)分析等,但這些分析一般使用專業(yè)軟件或另一個自由軟件R統(tǒng)計語言編程進行分析。有些方法如結構方程模型等涉及多元統(tǒng)計分析,已超出基礎統(tǒng)計課程重點內容。就基礎統(tǒng)計學課程而言,GNU PSPP完全可以勝任該類課程的教學軟件這一角色。
[ 注 釋 ]
[1] 李春喜,姜麗娜,邵云,張黛靜.生物統(tǒng)計學(第五版)[M].北京:科學出版社,2013.
[2] 劉來福,程書肖,李仲來.生物統(tǒng)計(第二版)[M].北京:北京師范大學出版社,2007.
[3] GNU PSPP Statistical Analysis Software.PSPP Usersguide[EB / OL].2014[2015-2-8].http://www.gnu.org / software / pspp / manual / pspp.html.
[4] International Business Machines Corporation. IBM SPSS Statistics Base 22[EB / OL].2015[2015-2-8].ftp://public.dhe.ibm.com / software / analytics / spss / documentation / statistics / 22.0 / zh_CN / client / Manuals / IBM_SPSS_Statistics_Base.pdf.
[5] Walter,C., Bell, L., Parsons,S., Jackson, C., Borley,N.,and Wheeler,J.Prevalence and significance of anaemia in patients receiving long-course neoadjuvant chemoradiotherapy for rectal carcinoma[J].Colorectal Disease,2013(1).
[責任編輯:覃侶冰]