段康靜
摘 要:統計學是一門研究隨機現象,以推斷為特征的方法論科學,“由部分推及全體”的思想貫穿于統計學的始終。從一開始的研究設計到最后的數據分析,都是統計學的研究范疇。統計學不僅是數據分析,前期的科研設計其實更為重要。在應用到醫學統計中,需注意一些思路和錯誤辨析。本文主要闡述統計分析的基本思路,并說明一下當前統計學應用的一些注意事項。
關鍵詞:統計學;參數;假設檢驗
一、統計學的基本思想
統計學分析的主要內容就是參數估計和假設檢驗,幾乎所有的統計方法都離不開這兩個內容。所謂參數,就是描述總體特征的一些指標,如總體中的率、均值等都是參數。這些指標在樣本中則稱為統計量。由于各種原因,實際中只能獲得樣本數據而非總體數據。因此統計學的主要目的就是利用樣本統計量去推斷總體參數,也就是參數估計。
參數估計只是利用樣本數據估計總體情況,但這一估計值是否反映了總體的真實情況,則需要假設檢驗來驗證,其涵蓋了統計學從數據到結論的基本思想,它是證明驗證后是“接受”還是“拒絕”。例如,某藥廠研發了一種新的降壓藥,想證明這種藥比常規藥的降壓效果好。這里藥廠的假設就是新藥可能比常規藥療效好,利用樣本數據計算一定的統計量,得到相應的P值,做出結論,這樣一個過程,就是假設檢驗。
我們來通過一個例子闡述從樣本數據到結論的一個過程。假設根據樣本數據,計算新藥和常規藥的血壓降低值平均分別是5.5mmHg和3mmHg,差值為2.5mmHg。計算的2.5mmHg就是參數估計,這一參數估計值是否反映了總體的真實情況呢?換句話說,總體中是否兩種藥物的差值也是2.5mmHg呢?
首先需要明白,即使總體中兩種藥物沒有差異(差值為0),由于抽樣誤差的存在,樣本中兩種藥物仍可能存在差異,仍然可能出現2.5mmHg甚至更大的差異。要想判斷2.5mmHg這樣大的值是否超出了樣本變化所能造成的差異范圍,首先得知道在總體均值相等的條件下(差值為0),樣本均值會有什么樣的變化。
在統計學中,回答這一問題稱為零假設,又稱原假設,指進行統計檢驗時預先建立的假設。零假設成立時,有關統計量應服從已知的某種概率分布。當統計量的計算值落入否定域時,可知發生了小概率事件,應否定原假設。備擇假設就是和原假設相反的假設也就是說,假定總體中兩種藥物的療效是完全相等的。在這種假設下,我們可以計算樣本數據中出現的差異大小是否超出了抽樣誤差所能解釋的范圍。與零假設對立的假設稱為備擇假設,它假定總體中兩種藥物的療效不相等。由于二者完全對立,所以如果能否定零假設,就可以肯定備擇假設。通常情況下,備擇假設是我們想證明的觀點,而零假設使我們想要推翻的觀點。
在這一例子中,我們想驗證的是新藥物-降壓藥的療效比常規藥好,所以先做出一個零假設,假設兩種藥物在總體中是沒有差異的。即使這一假設是真實的,但由于抽樣誤差的存在,我們獲得的樣本中的差值也不一定正好為0,可以有很多情況存在。我們可以計算出各種情況出現的概率,在這里我們想了解的是,如果在總體中兩種藥物差值為0這一前提條件下,出現樣本中差值為2.5mmHg(甚至比2.5mmHg還要大),這種概率有多大?這個概率就是P值。
如果這一概率很小,比如P=0.001,那我們就可以說,如果兩種藥物真的沒有差別(差值為0),那么在樣本中出現了差值為2.5mmHg(以及比2.5mmHg還大,如差值為3mmHg),這種概率最多只有千分之一。對于這么低的概率,我們認為理論上很難在一次樣本中就出現。既然不大可能出現,那我們就要回過頭來質疑一開始的前提假設條件,換句話說,我們懷疑原假設是錯誤的,而更傾向于接受原假設的對立面——備擇假設。所以我們才會下結論說,總體中兩種藥物的差值不為0,下這一結論至少有99.9%的信心
參數估計是假設檢驗的第一步,沒有參數估計,也就無法完成假設檢驗。-但應注意以下問題:
(1)做假設檢驗之前,應注意資料本身是否有可比性。
(2)當差別有統計學意義時應注意這樣的差別在實際應用中有無意義。
(3)根據資料類型和特點選用正確的假設檢驗方法。。
(4)判斷結論時不能絕對化,應注意無論接受或拒絕檢驗假設,都有判斷錯誤的可能性。
(5)報告結論時是應注意說明所用的統計量。
二、統計分析中的誤區
(1)加強對基礎統計分析方法的重視,應掌握各種基礎方法的應用條件,避免再次發生類似錯誤。
(2)避免統計學方法的盲目套用,采用與別人同樣的方法進行分析。實際上,統計學分析最重要的一個原則就是具體問題具體分析,即使同樣的研究目的,在不同的數據類型、數據分布中都應采用不同的方法。
(3)為突出文章的質量和特色,一些臨床人員不可一味追求方法的新穎,采用復雜的方法去說明。事實上,統計分析方法并無任何高低之分,只有合適與否。統計方法的應用,需要結合研究目的、數據類型、數據結構等多個條件,選擇最適合自己數據的方法。復雜的方法得出的結論未必可靠,簡單的方法同樣可以得到合理的結果。
(4)加強對科研設計的重視不少臨床人員輕視前期的科研設計,對如何選擇設計方法、如何抽樣、樣本量計算等隨意設計,直到最終數據收集上來之后才去找統計學家分析處理。這種情況無異于忽視預防,直到有病才去找醫生。此時統計學家只能告訴你錯誤在什么地方,卻無法去彌補前面犯下的錯誤。
參考文獻
[1]梁馮珍,關靜.統計學(五版)[M].北京:機械工業出版社,2009.
[2]馮國雙,羅鳳基.醫學案例統計分析與SAS應用(2版)[M].北京:北京大學醫學出版社,2015.