李曉煦

摘 要:通過一個示例解釋了多組均值比較統計結果常見疑難,提出將p值換算成“若干個標準誤”作定量解讀。同時提供Tukey HSD多重比較校正后的置信區間半徑與未作校正的LSD置信區間半徑的對比參考表和圖示做參考。
關鍵詞:多重比較;Tukey HSD檢驗;LSD檢驗;p值
中圖分類號:O213.9? 文獻標識碼:A? 文章編號:1673-260X(2021)11-0001-02
Pearson作為統計檢驗的一種輔助指標引入p值以來,p值在幾乎所有自然科學與社會學領域內扮演了重要角色。很多情況下研究者只看p值的大小就直接得出結論。在統計分析中p值獨一無二的地位堪稱“強勢”。
1 誤讀與迷思
以探討攝入糖份對競技活動成績的影響數據為教學示例[2],研究三組均值兩兩之間是否存在差異。在方差一致前提下,研究者通常會采用SPSS的方差分析和事后檢驗多重比較的界面。本例各組樣本量一致,主流教材[3,4]往往推薦使用Tukey校正方法(即Tukey HSD檢驗)。
LSD方法通常報告的p值小于Tukey HSD校正方法。出盲目選用LSD方法,是科研中常見的誤區。在這個例子中,以0.05為一類錯誤率,采用上述兩種校正方法都得到定性上一致的結論:“無干預組與控制組無(或未發現)顯著差異;實驗組也與控制組無(或未發現)顯著差異;無干預組與實驗組有(或發現了)顯著差異”。對p值的定性解讀往往帶來無法回避的迷思:既然無干預組與控制組無差異,實驗組也與控制組無差異,為何無干預組與實驗組還會出現差異?
2 剖析與糾正
糾正上述p值定性誤讀的迷思,需要在統計結果解讀中把p值換算成“若干個標準誤”作定量解讀,即T統計量。雙尾0.01與雙尾0.02的p值,在未標準化效應上并不是兩倍的對比,其實只是1.1~1.3倍的對比[5]。同樣,雙尾0.01與雙尾0.05的p值反差也不是五倍的未標準化效應,而是1.3~1.4倍。精確的倍數可借助Excel公式便捷計算,=T.Inv(1-0.01/2,自由度)/T.Inv(1-0.02/2,自由度)。根據統計結果代入自由度數值,結果略有變化,其范圍可參見附錄代碼運行報告。
“若干個標準誤”的統計學顯著標準,可能會因為多重比較校正而擴大。這種擴大可以類比為雙尾檢驗與單尾檢驗的關系。雙尾檢驗如果看作多重比較,等價于兩次方向相反、一類錯誤率減半的單尾檢驗。如果沒有做“一類錯誤率減半”的操作,雙尾檢驗以“若干個標準誤”表述的統計學顯著標準要大于單尾檢驗。就本例結果而言,LSD結果報告的單尾檢驗pC≥E=0.031<0.050,此時單尾(0.05一類錯誤率)檢驗“若干個標準誤”表述的顯著性標準比雙尾情形的2.13個標準誤要小一些,只需要1.75個標準誤。借助Excel公式計算=T.Inv(1-0.05,15)。而Tukey HSD結果報告的單尾檢驗p=0.072≥0.050,LSD結果達到單尾顯著標準,Tukey HSD結果未達到。
3 LSD與Tukey HSD的置信區間半徑比例
在超過兩組的多組比較情形,Tukey HSD的一類錯誤率意義與LSD的一類錯誤率意義不同。相對于LSD檢驗,Tukey HSD檢驗以“若干個標準誤”表述的顯著性標準總是更大。LSD的一類錯誤率是各對比較自身的一類錯誤率,要小于三對比較合起來的一類錯誤率。Tukey HSD衡量三對比較整體的一類錯誤率,任何一組比較犯一類錯誤都被認為整體上出現一類錯誤。從多重比較的校正角度,可以認為LSD沒有作任何的多重比較校正,它的結論只適用于單獨研究其中一對比較的情形。如果將三對比較作為整體研究,LSD的結果通常不適用。
用置信區間來分析有助于進一步理解:LSD的三對比較,每個差異值的置信區間各自都達到(1-?琢)的置信度。如果一類錯誤率?琢=0.05,研究者有95%的把握得到一個包含總體參數在其中的置信區間。但研究者并沒有95%的把握得到三個差異值的置信區間同時都包含各自的總體參數,這個把握要比95%小一些。為了使這個整體把握校正到95%,置信區間的半徑需要適當擴大。所以,超過兩組的多組情形,Tukey HSD給出的置信區間半徑總是比LSD給出的置信區間半徑會大。
置信區間是否排除0點,即差異值(區間中心)是否超過置信區間半徑。前文操作化解讀的“若干個標準誤”的統計標準,即置信區間半徑等于若干個標準誤。Tukey HSD置信區間半徑的擴大比例,就是這個“達到若干個標準誤”的統計標準擴大比例。給定雙尾0.05一類錯誤率,再給定兩兩比較組數k和自由度df,這個“標準誤倍數”的擴大比例是個常數。k=3,接近1.2倍。圖1為該比例隨自由度df擴大而收斂的圖示。附錄部分給出作圖的R代碼,還可以輸出完整的比例表格。在研究實踐中,有不少場合統計軟件沒有多重比較輸出選項。此時,LSD結果較方便通過T統計量計算。在LSD結果的基礎上,可以應用比例表格的數值進一步推算Tukey HSD的統計結果。
參考文獻:
〔1〕Karl P. X. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling[J]. Philosophical Magazine Series 5,1900, 50(302): 157-175.
〔2〕[EB/OL].(2021-10-12).http://www.http://personality-project.org/r/datasets/R.appendix5.data.
〔3〕Green, Samuel B. &Neil J. Salkind. Using SPSS for windows and macintosh[M]. NewYork: Pearson, 2013.
〔4〕甘怡群.心理與行為科學統計[M].北京:北京大學出版社,2019.
〔5〕Wilkinson, L., Statistical methods in psychology journals: Guidelines and explanations. [J].American psychologist, 1999,54(08):594-596.