梁明佩 潘明志 唐毓金 黃照河 黃研研
廣西醫學類科技期刊常見統計學錯誤淺析
梁明佩 潘明志 唐毓金 黃照河 黃研研
通過分析廣西醫學類科技期刊中常見的t/u檢驗、χ2檢驗錯誤類型,以具體的例子提醒廣大作者及編者要重視醫學科技論文中的統計學處理,以減少錯誤,提高論文的質量。
科技期刊;醫學統計學;錯誤分析
[作者]梁明佩、唐毓金、黃照河、黃研研,《右江醫學》編輯部;
潘明志(通訊作者),副編審,《右江醫學》編輯部。
統計學方法在醫學生物論文中的作用不言而喻,正確的統計學處理是確保論文結論經得起時間考驗的重要保證,也是考量論文質量的重要評價內容之一。因此,統計學數據的客觀性和準確性顯得極其重要。我們在前期調查了廣西醫學類科技期刊統計學的應用現況,發現廣西醫學類科技期刊統計學使用現況與國內其他期刊相似,使用的統計學方法計量資料主要有t/u檢驗、方差分析,計數資料主要有卡方檢驗,等級分組資料主要有秩和檢驗。同時我們在研究中也發現這些期刊在統計學使用過程中或多或少存在一些錯誤,下面將針對這些錯誤歸類進行淺析,以引起編輯同行在以后的工作中更加重視統計學審查。
(一)t檢驗計算結果錯誤或判斷不確切
這類的情況在廣西的醫學類期刊出現相對多些。計算結果錯誤多數是編輯未認真復核引起的,t檢驗的判斷一般先通過公式計算出t值,然后根據t值判斷P值大小,通常可分為P<0.05(有統計學意義)或P<0.01(有極顯著統計學意義)。如果應該判斷為P<0.01而判斷為P<0.05則為判斷不確切。如表1即為t值計算結果錯誤,表2為t值判斷不確切。
表1兩組的樣本均為40例,作者目的是比較兩組治療后各種微量元素測量結果是否有差異,原結果P值判斷是正確的,但t值計算錯誤,括號外為原來的結果,而括號內為正確的結果。出現這樣的錯誤應該是編輯在審核修改過程中未對統計結果進行復核,或缺乏統計學知識,從而隨作者原來的結果所致。而表2中各t值均比較大,經查t界值表,P均<0.001,差異是有極顯著性統計學意義的,而非P<0.05,因此,作者在判斷上是不夠準確的。
表1:兩組患者治療后微量元素測量比較(±s)

表1:兩組患者治療后微量元素測量比較(±s)
組別鈉 鉀 氯 鈣A組 135.69±4.92 3.78±0.78 99.52±7.23 1.93±0.55 B組 97.32±8.48 3.75±0.86 134.68±4.84 1.98±0.68 t 8.26(0.9256)7.15(0.1634)3.15(1.2486)2.01(0.3616)P >0.05 >0.05 >0.05 >0.05

表2:60例患者治療前后血壓比較(mmHg)
(二)以兩兩t檢驗替代方差分析及q檢驗
這類錯誤在廣西醫學類期刊中相對少見。t檢驗每次只能比較二個平均數,僅適用于單因素一、二水平的實驗設計類型。而對于單因素多水平或多因素多水平等的設計,則不宜使用t檢驗,因為這樣會破壞原來的整體設計,使結果出現假陽性的概率大大增加,其結果的可信度明顯下降。因此,對于多個樣本均數的比較,應根據資料是否符合正態分布、總體方差是否齊來選擇統計學方法,如資料服從正態分布,且各組資料的總體方差齊,則選擇方差分析。我們看下面的例子(表3)。
表3:各組麻醉持續時間比較(±s)

表3:各組麻醉持續時間比較(±s)
組別 n 持續時間(min)Ⅰ組 40 118±13Ⅱ組 40 114±16Ⅲ組 40 111±12
本例采用方差分析結果為:F=2.60,P=0.0785>0.05,即各組間麻醉持續時間差異無統計學意義,沒有必要再進一步兩兩q檢驗。而本如果采用兩兩比較t檢驗,其結果為ⅠvsⅡ:t=1.2271,P=0.2235;ⅠvsⅢ:t=2.5024,P=0.0144;ⅡvsⅢ:t=0.9487,P=0.3457。從結果看,Ⅰ組與Ⅲ組比較是有統計學意義的,這與采用方差分析的結果完全相反。
(三)誤以成組t檢驗替代配對t檢驗
配對設計主要有幾種情況:(1)同一受試對象處理前后的數據;(2)同一受試對象兩個部位的數據;(3)同一批樣本用兩種方法檢驗;(4)配對的兩個受試對象分別接受兩種處理所得到的數據。配對設計能縮小實驗對象間的個體差異,減少實驗誤差,提高效率。如將成組t檢驗替代配對t檢驗,則無形中擴大了樣本數量,增大標準差和標準誤,從而使P值也增大,這樣就有可能得出假陰性結果(從有統計學意義變為無統計學意義)。舉例(表4):
表4:患者治療前后AST變化情況(±s)

表4:患者治療前后AST變化情況(±s)
觀察時間 n AST(U/L)治療前 24 35.5±9.5治療后 24 28.5±8.1 t -3.232 P -0.002
本例是比較治療前后AST的變化,采用自身對照研究,錯誤采用兩樣本成組設計的t檢驗,把同一樣本視為兩個樣本,擴大的觀察樣本,使得檢驗效能降低。本例正確的處理方法是通過原始數據,計算出治療前后AST的差值平均值和差值標準差,采用配對t檢驗進行處理,具體方法可查閱相關統計學書籍。
(四)誤用配對t檢驗替代重復測量方差分析
重復測量數據是臨床試驗中常用的數據,是指同一觀察對象的同一指標在多個不同時間點(3個或3個以上)進行多次測量所獲得的資料,主要用來觀察受試對象的觀察指標在不同時間點的動態變化情況,如觀察麻醉過程中的血壓、心率等的變化,都屬重復測量數據。該類數據常采用重復測量方差進行分析。表5即為典型的多樣本重復測量的均數比較,如要比較A組(或B組)不同時間測量值是否有統計學差異,首選單因素重復測量資料的方差分析,推斷不同時間測得的總體均數是否相等,若不同時間測得的總體均數不相等或不全相等,則進一步進行不同時間兩兩比較。
表5:兩組患者PCEA期間鎮痛質量評分(n=40,±s)

表5:兩組患者PCEA期間鎮痛質量評分(n=40,±s)
組別 2h 4h 8h 24h 48h A組 0.6±0.5 1.5±0.6 1.6±0.7 1.7±0.7 1.7±0.8 B組 0.8±0.7 1.6±0.8 1.8±0.7 1.8±0.9 1.9±0.8
(一)誤將四格表χ2檢驗替代校正χ2檢驗或確切概率法
目前,關于四格表資料各種檢驗方法的應用條件雖仍有不同意見,但一般可根據以下三種條件選擇:(1)總例數<40或最小的理論頻數<1,應選擇“確切概率法”;(2)總例數≥40且最小的理論頻數≥1,但最小的理論頻數<5,應選擇“校正法”;(3)總例數≥40且最小的理論頻數≥5,應選擇“非校正法”。目前,在部分期刊中,誤將四格表χ2檢驗替代校正χ2檢驗或確切概率法的現象仍不少,但只要掌握好四格表資料的檢驗方法的應用條件,該類錯誤是比較容易避免的。由于相關的報道比較多,在此不再舉例。
(二)誤將四格表χ2檢驗替代配對四格表χ2檢驗
舉例(表6),應用高頻彩色多普勒超聲血流能量圖(PDI)與彈性成像兩種方法鑒別92個乳腺腫塊良惡性,比較兩種方法的鑒別情況。作者采用一般的四格表χ2檢驗,所得結果為χ2=11.52,P<0.01。而此例為比較典型的配對資料,應采用配對四格表χ2檢驗,結果為卡方值(校正)=0.1379,P=0.7103。

表6:PDI與彈性成像兩種方法對乳腺腫塊良惡性診斷的對照(n=92)
(三)誤用χ2檢驗代替秩和檢驗
對于單向有序分類資料(等級資料),一般宜采用成組設計兩樣本比較的秩和檢驗(Wilcoxon兩樣本比較法)或用Ridit分析,但運用Ridit分析時要求樣本含量足夠大,因此,大多情況選擇秩和檢驗。舉例(表7),觀察兩組治療后的臨床效果。本例為典型的等級資料,經Wilcoxon兩樣本比較秩和檢驗,u=-1.1099,P=0.2670。而不宜采用2×C表資料的χ2檢驗,因為2×C表資料的χ2檢驗不考慮等級的差別,只能說明各組的“構成比”是否相同,而不宜判斷各組在程度上的差異。所以,對于單向有序分類資料,最好用秩和檢驗或Ridit分析進行假設檢驗。此外,既往對應本例,也有界定“治愈+顯效+好轉=總有效”之后,進行四格表卡方檢驗的做法,檢驗結果為:χ2=2.2487,P=0.1337,看似統計判斷結果與Wilcoxon兩樣本比較秩和檢驗一致,但實際上兩者統計內涵不同,四格表卡方檢驗是推斷兩組總體率有無差別,而Wilcoxon兩樣本比較秩和檢驗是推斷兩組總體分布是否相同,顯然,秩和檢驗或Ridit分析更能準確地反映表7的實際情況,是更合適的統計學方法。
總之,以上所列舉的部分醫學統計學常見的錯誤類型,應該說大部分還是可以避免的,這就需要廣大科研工作者及編者要加強自身統計學知識的積累,掌握最基本的統計學分析方法及經典統計學方法的應用。這樣通過對論文的二重把關,統計學錯誤的概率就會小很多。但對于編輯也無法把握的統計學內容,還是要聘請統計學專家審稿,這樣才能進一步保證論文的科學性及結論的可靠性。[本文系2011年度廣西醫藥衛生自籌經費計劃項目(編號: 2011127)成果]
[1]潘明志,梁明佩,唐毓金,等.廣西14種醫學類科技期刊統計學應用調查研究[J].右江醫學,2014(4)
[2]邱春暉,郭明興,邱源.醫學論文中統計學方法的誤用及其防范措施[J].山東教育學院學報,2009(5)
[3]吳青.醫學論文中常見的統計學錯誤分析[J].山東醫學高等專科學校學報,2008(4).

表7:兩組患者治療后臨床效果比較(n,%)