南方醫科大學公共衛生與熱帶醫學學院生物統計學系(510515) 劉 璐 安勝利
統計學作為科學研究的基礎,在醫學研究中,起著舉足輕重的作用。隨著醫學以及統計學的日益發展,統計學方法在生物醫學領域當中的應用越來越廣泛,越來越多的論文作者也意識到了統計學的重要性。但是許多調查研究發現,在醫學學術論文中仍存在不少統計方法使用錯誤及表達不當的情況。本研究對近年來中外醫學學術論文中統計學分析方法的應用情況進行了調查和對比分析,以期發現常見的統計分析方法誤用的原因,為提高論文的學術水平提供有益的建議。
本研究采用便利抽樣方法,由本校的在讀全脫產研究生隨機收集2010~2011年公開發表的、本專業公認的權威雜志中英文醫學期刊論文各一篇,共776篇原創性論文,其中中文、英文論文各388篇。對所用統計分析方法的應用情況進行分析,總結出常見的10種統計學方法使用錯誤及缺陷,對中、英文文獻的統計學方法運用正誤的情況進行比較。在SPSS 17.0軟件上進行分析。對中英文各項目出錯率采用 χ2檢驗或Fisher確切概率法,α取0.05。
1.各統計分析方法在論文中的應用情況,見表1。
應用頻率較高(>10%)的統計分析方法,中外文文獻基本相同,主要為配對t檢驗、兩樣本t檢驗、完全隨機設計的方差分析、χ2檢驗、多重線性回歸分析以及logistic回歸分析。外文文獻生存分析方法應用頻率也超出了10%。平均每篇論文所用的統計分析方法數低于新英格蘭雜志2004~2005年的4.2個/篇〔1〕。對中外文獻各分析方法的應用率進行比較,結果顯示,“率/構成比比較的χ2檢驗”中外文間差異有統計學意義,中文文獻應用率較高;而“協方差分析”、“簡單線性回歸”、“logistic回歸”、“cox回歸”以及“聚類分析”等方法中外文對比差異亦有統計學意義,在外文文獻中應用率較高。
2.對10種常用統計學方法誤用情況分析
分別計算中文、外文文獻常用統計學方法出錯率,并進行比較,結果如下。
(1)實驗對象分組、例數描述不清
在進行生物醫學研究時,常常涉及到分組問題。有部分期刊論著在“材料與方法”部分,未對實驗的分組情況進行清晰的描述,或未對各分組的例數進行交待。這樣不僅難以使讀者了解研究設計,而且易在即將進行的統計學處理中發生方法誤用的情況。
本研究收集的776篇中外醫學期刊論文中,共有564篇涉及到分組處理。其中中文論文對實驗對象分組、例數描述不清的出錯率為33.5%(95/284),外文論文的出錯率為33.2%(93/280),χ2檢驗差異無統計學意義。
(2)缺檢驗統計量
在進行統計分析時,應根據不同的分析方法給出相應的檢驗統計量〔2〕,如 χ2值、t值或 F值等(多重比較的檢驗統計量除外)。這樣,一方面可以使讀者易判斷出作者此處所用的統計分析方法;另一方面對于作者也是一種約束,使其不易弄虛作假;還可以作為判斷是否需要進一步統計推斷的依據。如在運用多重比較方法之前,須先說明總的比較結果(例如F、P),然后據此判斷是否需要進行進一步的多重比較。
但研究發現有許多期刊論著在分析結果部分并未給出檢驗統計量,而僅僅給出P值,有的論文在進行多組比較時(如方差分析)只報告多重比較結果的P值,而不報告總的比較結果(例如F、P),無疑大大降低了論文的科學性和嚴謹性。

表1 統計學方法在中外醫學期刊論文中的應用次數及構成比(%)
本研究收集的論文中,共有663篇論文涉及假設檢驗。中文期刊論文中竟有35.1%(110/313)在此問題上出錯,高于外文論文的24.6%(86/350)的出錯率(χ2=8.869,P=0.003)。
(3)缺P值或P值不精確
所有假設檢驗的P值均應給出精確P值(一般至少應為小數點后三位)而不是僅僅表達為“P>0.05”或“P<0.05”〔3〕。對于多重比較情形,限于表達難度,一般不必給出精確P值,而可以代之以在統計表中以備注符號形式表達出是否有統計學意義。目前計算機以及統計軟件的應用已經相當普遍,得到假設檢驗的精確P值并不困難。而精確的P值能告訴讀者拒絕H0,接受H1時犯Ⅰ類錯誤的概率。
本研究顯示,這一問題的出錯率較高,中文期刊論文的出錯率為42.5%(165/388),高于外文期刊論文的22.2%(86/388)出錯率(χ2=36.752,P <0.001)。
(4)同一指標精度不一致
論文中若同一指標因組別、時間等原因而多次報告,應該統一其精度。否則會影響論文嚴謹性,而且統計表也不美觀。
本研究顯示,中文論文出錯率為5.9%(23/388),外文為3.9%(15/388),差異無統計學意義。說明絕大部分的論文作者都意識到了這個問題。
(5)配對t檢驗未給出差值的均數和標準差
配對t檢驗實際上是相當于對每對數據的差值做與0比較的單樣本t檢驗,因此,除了配對的兩組各自的描述性統計量外(如均數和標準差),也應給出差值的相應內容。
本次調查共有84篇論文涉及配對t檢驗,其中中文論文出錯率高達46.3%(19/41)高于外文論文的25.6%(11/43)出錯率(χ2=3.940,P=0.047)。
(6)對于多組設計資料反復用兩樣本比較
在進行多組比較時,如對于多組的完全隨機設計計量資料/計數資料,常常被誤用的方法是直接反復進行兩樣本t/χ2檢驗。這樣做會大大增加犯Ⅰ類錯誤的概率。此時應先采用總的比較方法,如單因素方差分析或行列表的χ2檢驗,再選擇合適的多重比較方法進行多重比較。需要說明的是對于多組比較的χ2檢驗和非參數檢驗(如Kruskal Wallis H),由于尚無得到公認的多重比較方法,各權威軟件均未將其編入軟件。此時,作者在得出總的比較結果后,可根據具體的統計量如率、平均秩次進行描述,也可采用有關文獻報告的方法進行多重比較。
在本研究中,共有345篇涉及多組比較,在這些論文中共有76篇發生反復使用兩樣本比較的錯誤。其中中文論文出錯率為24.1%(42/174),外文論文出錯率為19.9%(34/171),χ2檢驗差異無統計學意義。
(7)多重線性回歸分析未給出決定系數R2
由所搜集數據得到多重線性回歸方程后,必須進一步對該回歸方程進行方差分析,以確定其是否有無統計學意義。即使結論有統計學意義,還應同時報告決定系數R2的大小,以進一步說明該模型對數據的擬合程度及該模型的實用價值。
在涉及多重線性回歸分析的75篇論文中,共有25篇論文未給出決定系數R2。其中中文論文出錯率為26.7%(8/30),外文論文的出錯率為37.8%(17/45),χ2檢驗顯示差異無統計學意義。
(8)多因素回歸分析未交代變量賦值
由于多因素回歸分析(如linear/cox/logistic/ordinal等)中,一些自變量可能是二分類或多分類變量,讀者若不知道這些變量如何賦值、以哪一類為對照,則無法判斷自變量對應變量的影響方向,從而影響分析結果的專業解釋。因此在進行這類分析前必須把可能的影響因素及其賦值說明列出。
在涉及多因素回歸分析的194篇論文中,其中未交代變量賦值的有54篇。在此問題上,中文論文的出錯率為35.1%(20/57),外文論文的出錯率為24.8%(34/137),χ2檢驗顯示差異無統計學意義。
(9)生存分析未報告中位生存期
對于適用于生存分析的資料,由于生存時間多為偏態分布,且有數據刪失,在生存分析中平均生存時間并不能恰當地表達出研究對象的平均水平。若論文中涉及生存分析,應當提供中位生存期。
涉及生存分析的論文共86篇,其中中文論文此問題的出錯率為54.3%(19/35),高于外文論文13.7%(7/51)的出錯率(χ2=16.189,P <0.001)。
(10)相關分析結論,未考慮相關系數大小
對于相關系數的假設檢驗,所得到的P值越小,則下結論認為二者有相關關系的可靠性越大,但并不意味著其關系越密切。相關的密切程度及其相關方向應通過相關系數的大小來說明。而很多作者常常在得到較小的P值后,即下“二者關系密切”的結論。
涉及相關分析的論文共97篇,其中中文論文出錯率為25.6%(11/43),而外文論文為25.9%(14/54),χ2檢驗顯示差異無統計學意義。
其他較常見問題還包括:“研究樣本不支持研究結論對應的總體”、“實驗分組不合理”、“未設立對照組”等,但因出錯文獻較少,故未作分析。
從統計學方法的使用情況來看,我國醫學期刊論文中使用頻率較高的大多是較初級的統計學方法,而協方差分析、簡單線性回歸、logistic回歸以及cox回歸等方法外文文獻中的應用高于中文文獻。這個現象與我國的統計學教育普及程度不足有很大的關系,同時也顯示了國外醫學科研工作者對統計學知識的重視程度較高。從中外文統計學方法誤用比較的結果來看,統計學方法在我國生物醫學期刊的應用仍不成熟,超過半數的論文都存在統計學處理上的缺陷,國外的生物醫學期刊也有相當多的統計學應用錯誤。對比中外生物醫學期刊的統計學應用情況,我國的生物醫學期刊論文在“缺檢驗統計量”、“缺P值/P值不精確”、“配對t未給出差值的均數/標準差”、“生存分析未報告中位生存期”出錯更為嚴重。這個現象與我國的統計學科起步較晚,以及重視程度不足也有很大的關系。
因此,醫學院校不僅應重視醫學統計學的教學,還應不斷改進統計學教學方法,如采用“案例”教學模式〔4〕;加強基礎理論、研究設計等弱勢板塊的教學〔5〕;盡量利用多媒體教學手段使統計學抽象理論形象化〔6〕等。在醫學生中強調統計學在今后研究中應用重要性〔7〕,在研究生提交論文的時候,應建立健全的統計學審核制度,以確保論文的科學性和嚴謹性。醫院以及生物醫學科研機構亦應該對臨床研究人員進行統計學方法的繼續教育,在研究的設計環節、統計處理部分最好有專業統計人員參與指導〔8〕。針對我國醫學期刊現行審稿模式的缺陷與不足,可借鑒國外期刊的審稿模式,編輯和審稿人的團隊中也應該包括具有專業水準的統計學家,提高稿件的統計學審核標準〔9〕。
1.Horton N J,Switzer SS.Statistics methods in the journal.N Engl JMed,2005,353(18):1977-1979.
2.張功員,田慶豐.醫學科研論文中統計結果表達和解釋錯誤分析.鄭州大學學報(醫學版),2002(3):338-340.
3.李永紅.醫學科研論文中統計學內容的正確表達.中國熱帶醫學,2008,8(12):2274-2275.
4.江梅.探討“案例”教學模式在醫學統計教學中的應用.中國衛生統計,2010,27(2):210-211.
5.陸守曾.對醫學統計學應用現狀的四點看法.中國衛生統計,2010,27(2):114-115.
6.張羅漫,盂虹,孫亞林,等.信息化條件下《醫學統計學》分層次多目標教學探索與實踐事.中國衛生統計,2009,26(3):311-313.
7.Jin Z,Yu D,Zhang L,et al.A retrospective survey of research design and statistical analyses in selected Chinese medical journals in 1998 and 2008.PLoS One,2010,5(5):e10822.
8.He J,Jin Z,Yu D,et al.Statistical reporting in Chinese biomedical journals.Lancet.2009,373(9681):2091-2093.
9.沈進,茍莉,湯潔,等.生物醫學期刊的統計學方法應用情況分析.中國修復重建外科雜志,2007,21(5):541-543.