周 穎
如何用EXCEL進行醫學統計分析
周 穎
在所有的科學研究中數據都是十分重要的基礎,對數據的收集、記錄、處理的過程是任何學科都離不開的。目前很多的數據處理軟件都可以實現這樣的功能,其不僅可以做簡單的變量分析,而且還可實現各種繁雜的多變量的分析。不過在實際應用中,對數據的處理大部分都是簡單的統計描述性數據,并需形成圖表以便明確數據關系,或者是進行回歸分析、t檢驗、方差分析等等。這時EXCEL軟件就因為其優勢獲得了廣泛的認可,和SAS、SPSS相比有其特有表現在于:1.EXCEL有著強大的自動的數據填充和公式計算功能;2.在數據編輯和透視性分析的過程中操作簡單;3.在單元格的絕對引用和相對引用中可以靈活的處理;4.內置函數功能豐富,并有多種的圖表形式可供選擇。
EXCEL在數據處理的模塊設計中提供了一些數據分析工具,使用這些現成的數據分析工具時,只需要將數據所在的單元格和必要的參數指示出來,即可利用系統的自動套用功能,來完成相應的數據處理,并給出正確的結果。而且有的工具在數據統計的時候可以生產圖表。
在使用EXCEL的時候首先應當利用軟件功能對數據進行基本描述,其中有:1)數據集中指標處理,包括平均數、幾何平均數、眾數等等。主要是利用軟件提供的函數套用和公式來進行這些指標的計算。2)變異指標的計算,主要包括百分數、四位數、方差、標準誤和峰度系數等。其中方差、標準差、標準誤、百分數等是醫學數據處理中常常用到的分析指標。
t檢驗是醫學數據統計和分析當中最為常見的數據處理方法,主要是完成試驗標準試樣測定的結果平均值進行與標準值的比較,以此確定其是否具備統計學意義,也就是其結果是否可以作為參考。在EXCEL中“數據分析”提供了很多種不同條件下的t檢驗工具,例如:平均值的成對二樣本分析,雙樣本等發差假設,雙樣本異方差假設等,以及其他統計用分析工具,當樣本中數據存在互為配對的關系,這時可以利用“平均值的成對二樣本”來進行t檢驗。例如:在試驗中對一個樣本組進行試驗前后兩次檢測,這主要是為了測定樣本在試驗前后的變化平均值是否相等,這就可以利用成對t檢驗,這個t檢驗并不是假設兩個結果的方差相等。具體看,如果在工作表中設定數據區域為A1-J2。處理數據時可以在“工具”中調用“數據分析”模塊。在數據分析的窗口上選擇t檢驗當中的“平均值的成對二樣本分析”,這時在顯示出來的“平均值的成對二樣本分析”對話框中輸入需要分析的變量范圍,變量1所代表的區域,即輸入分析的第1個數據區域的單元格引用。該區域必須是一個行或者列所構成的數據組。這個步驟可以點擊輸入框上的“按鈕”,回到表格的初始數據中,利用拖動選取需要處理的單元格數據。此時分析工具中的變量1就為A1-J1,完成了自動的輸入。
然后再利用同樣的方式,將變量2輸入到數據分析工具中,通過這個操作,使得變量2的數據區域與變量1相對應,為A2-J2。然后再假定平均差,就是在這里輸入期望中樣本的平均差值。如缺省,默認為0值,也就是假設樣本的平均值使相同的。標志,如果在分析區域內的第1行或者列有包含標志的選項,就應選擇此項為標志;如果在輸入的區域中沒有標志項,軟件將在輸出表中自動生成其認為的合理數據標志。如果選擇這個標志數據,那么α在這個數據檢驗的統計意義為水平,范圍是0-1,缺省的值為0.05。
在利用EXCEL進行數據分析時,數據分析工具庫中有三種基本的方差分析類型為分析提供幫助。包括:單因素方差分析、重復雙因素分析、無重復雙因素分析,下面針對方差方分析進行簡要的介紹:
單因素方差分析法,在進行這個分析方法前必須將試驗所得到的基礎數據輸入到工作表中,而且格式是固定的,其中每種水平關系的試驗數據放在同一個行或者列中,具體如在同一個試驗中使試驗前和后的數據就應當區分開,放在同一個行或者列中。數據填寫完成后,和前面一樣在工具中找到數據分析,選擇數據分析對話框中的“單因素方差分析”,這時就會出現下一個對話框,然后操作分為以下步驟:1)輸入數據區域,即選擇分析數據所在的工作表區域,可以是行或者列,也可以選用標志,在針對表中的數據進行分析是選擇;2)分組方式的選擇,即提供行和列的選擇,當同一個水平的數據在同一個行或列時,需作出相應的選擇,行或者列。3)如選擇的數據包中含有水平的標志,則需要選擇標志數據位第一行;4)分析中的系數α為顯著的水平,一般為0.05,也就是體現為95%以上的準確度;5)分析的輸出,按照實際的數據保存情況,選擇適當的輸出結果的保存位置。
雙因素無重復試驗的方差分析總體看和單因素方差分析十分相似,在分析前也需要將數據按照工作表需要的格式輸入到單元格中。數據輸入后,同樣在“工具-數據分析”中選擇分析的方法,“雙因素無重復方差分析”,這時出現一個對話框,按照內容輸入1)輸入區域的選擇,即選擇所要分析的數據,包括含因素水平的標志;2)如果輸入的數據中含有因素水平的標志,則需要選擇標志按鈕;3)顯著的水平性α,可以根據實際的分析要求進行,但一般為0.05。4)輸出分析數據的選項和前面一樣選擇相應的存儲位置。
可重復的雙因素分析,這個分析方法與雙因素無重復方差分析數據的差別就是在于增加了對重復試驗數據的處理,即將重復試驗的數據進行累計,使之參與到數據分析中。同樣數據輸入后在工具中選擇數據分析,在數據工具庫中選擇“雙因素可重復方差分析”然后利用和雙因素無重復的數據分析操作方法相同,只是在每個樣本的行數選擇中輸入試驗的次數而已。如還需要對數據進行方差分析時,則在輸入區選擇其區域和因素的水平標記,在每個樣本的行數位置輸入試驗的次數即可,而水平性選擇仍然為0.05。最后在輸出位置上選擇合適的區域,也就完成了分析。
這個分析方法是可以適應于,1)反映兩個或者多個變量之間的關系描述出來,且具備方向和密度性質需求時;2)為了反映兩個或者多個變量之間的相互依存的關系并建立回歸方程,可以采用回歸分析。在實際的應用中也是現將數據輸入到工作表中,然后利用EXCEL提供的函數進行簡單的回歸性分析或者Spearman高等級的相關分析。在菜單中利用的是工具、數據分析、相關系數,就可與之相關的分析。應用其中的協方差工具就可以完成方差分析。同時也可以選擇使用散點圖來繪制直觀的散點圖形。
在統計分析中往往都需要進行假設檢驗,即利用隨機、分組、數據采集等方式來得到試驗的數據。因此在利用試驗得到統計數據的過程中,需要完善數據得出的準確性,因為任何統計分析方法都不能彌補試驗中的失誤,或者糾正錯誤。
在對醫學數據進行統計分析中,為了嚴謹普遍將0.05設定為數據的準確度標準,但是在有些試驗中這個0.05并不適應試驗的需求,因此在實際的操作中不要忘記在自動統計時確定準確度標準。同時也要利用多種試驗方法來驗證某個試驗的準確性,尤其是醫學試驗或者數據采集,一定要進行多重的檢驗和大量的數據匯總,才能讓統計分析數據準確。
(作者單位:浙江省安吉人民醫院統計科)