中外醫(yī)學(xué)期刊論文中的統(tǒng)計學(xué)方法應(yīng)用情況分析

2012-03-11 14:07:34南方醫(yī)科大學(xué)公共衛(wèi)生與熱帶醫(yī)學(xué)學(xué)院生物統(tǒng)計學(xué)系510515安勝利

中國衛(wèi)生統(tǒng)計 2012年4期

關(guān)鍵詞：分析方法

南方醫(yī)科大學(xué)公共衛(wèi)生與熱帶醫(yī)學(xué)學(xué)院生物統(tǒng)計學(xué)系(510515) 劉璐安勝利

統(tǒng)計學(xué)作為科學(xué)研究的基礎(chǔ)，在醫(yī)學(xué)研究中，起著舉足輕重的作用。隨著醫(yī)學(xué)以及統(tǒng)計學(xué)的日益發(fā)展，統(tǒng)計學(xué)方法在生物醫(yī)學(xué)領(lǐng)域當(dāng)中的應(yīng)用越來越廣泛，越來越多的論文作者也意識到了統(tǒng)計學(xué)的重要性。但是許多調(diào)查研究發(fā)現(xiàn)，在醫(yī)學(xué)學(xué)術(shù)論文中仍存在不少統(tǒng)計方法使用錯誤及表達(dá)不當(dāng)?shù)那闆r。本研究對近年來中外醫(yī)學(xué)學(xué)術(shù)論文中統(tǒng)計學(xué)分析方法的應(yīng)用情況進(jìn)行了調(diào)查和對比分析，以期發(fā)現(xiàn)常見的統(tǒng)計分析方法誤用的原因，為提高論文的學(xué)術(shù)水平提供有益的建議。

資料與方法

本研究采用便利抽樣方法，由本校的在讀全脫產(chǎn)研究生隨機(jī)收集2010～2011年公開發(fā)表的、本專業(yè)公認(rèn)的權(quán)威雜志中英文醫(yī)學(xué)期刊論文各一篇，共776篇原創(chuàng)性論文，其中中文、英文論文各388篇。對所用統(tǒng)計分析方法的應(yīng)用情況進(jìn)行分析，總結(jié)出常見的10種統(tǒng)計學(xué)方法使用錯誤及缺陷，對中、英文文獻(xiàn)的統(tǒng)計學(xué)方法運(yùn)用正誤的情況進(jìn)行比較。在SPSS 17.0軟件上進(jìn)行分析。對中英文各項(xiàng)目出錯率采用 χ2檢驗(yàn)或Fisher確切概率法，α取0.05。

結(jié) 果

1.各統(tǒng)計分析方法在論文中的應(yīng)用情況，見表1。

應(yīng)用頻率較高(＞10%)的統(tǒng)計分析方法，中外文文獻(xiàn)基本相同，主要為配對t檢驗(yàn)、兩樣本t檢驗(yàn)、完全隨機(jī)設(shè)計的方差分析、χ2檢驗(yàn)、多重線性回歸分析以及l(fā)ogistic回歸分析。外文文獻(xiàn)生存分析方法應(yīng)用頻率也超出了10%。平均每篇論文所用的統(tǒng)計分析方法數(shù)低于新英格蘭雜志2004～2005年的4.2個/篇〔1〕。對中外文獻(xiàn)各分析方法的應(yīng)用率進(jìn)行比較，結(jié)果顯示，“率/構(gòu)成比比較的χ2檢驗(yàn)”中外文間差異有統(tǒng)計學(xué)意義，中文文獻(xiàn)應(yīng)用率較高;而“協(xié)方差分析”、“簡單線性回歸”、“l(fā)ogistic回歸”、“cox回歸”以及“聚類分析”等方法中外文對比差異亦有統(tǒng)計學(xué)意義，在外文文獻(xiàn)中應(yīng)用率較高。

2.對10種常用統(tǒng)計學(xué)方法誤用情況分析

分別計算中文、外文文獻(xiàn)常用統(tǒng)計學(xué)方法出錯率，并進(jìn)行比較，結(jié)果如下。

(1)實(shí)驗(yàn)對象分組、例數(shù)描述不清

在進(jìn)行生物醫(yī)學(xué)研究時，常常涉及到分組問題。有部分期刊論著在“材料與方法”部分，未對實(shí)驗(yàn)的分組情況進(jìn)行清晰的描述，或未對各分組的例數(shù)進(jìn)行交待。這樣不僅難以使讀者了解研究設(shè)計，而且易在即將進(jìn)行的統(tǒng)計學(xué)處理中發(fā)生方法誤用的情況。

本研究收集的776篇中外醫(yī)學(xué)期刊論文中，共有564篇涉及到分組處理。其中中文論文對實(shí)驗(yàn)對象分組、例數(shù)描述不清的出錯率為33.5%(95/284)，外文論文的出錯率為33.2%(93/280)，χ2檢驗(yàn)差異無統(tǒng)計學(xué)意義。

(2)缺檢驗(yàn)統(tǒng)計量

在進(jìn)行統(tǒng)計分析時，應(yīng)根據(jù)不同的分析方法給出相應(yīng)的檢驗(yàn)統(tǒng)計量〔2〕，如 χ2值、t值或 F值等(多重比較的檢驗(yàn)統(tǒng)計量除外)。這樣，一方面可以使讀者易判斷出作者此處所用的統(tǒng)計分析方法;另一方面對于作者也是一種約束，使其不易弄虛作假;還可以作為判斷是否需要進(jìn)一步統(tǒng)計推斷的依據(jù)。如在運(yùn)用多重比較方法之前，須先說明總的比較結(jié)果(例如F、P)，然后據(jù)此判斷是否需要進(jìn)行進(jìn)一步的多重比較。

但研究發(fā)現(xiàn)有許多期刊論著在分析結(jié)果部分并未給出檢驗(yàn)統(tǒng)計量，而僅僅給出P值，有的論文在進(jìn)行多組比較時(如方差分析)只報告多重比較結(jié)果的P值，而不報告總的比較結(jié)果(例如F、P)，無疑大大降低了論文的科學(xué)性和嚴(yán)謹(jǐn)性。

表1 統(tǒng)計學(xué)方法在中外醫(yī)學(xué)期刊論文中的應(yīng)用次數(shù)及構(gòu)成比(%)

本研究收集的論文中，共有663篇論文涉及假設(shè)檢驗(yàn)。中文期刊論文中竟有35.1%(110/313)在此問題上出錯，高于外文論文的24.6%(86/350)的出錯率(χ2=8.869，P=0.003)。

(3)缺P值或P值不精確

所有假設(shè)檢驗(yàn)的P值均應(yīng)給出精確P值(一般至少應(yīng)為小數(shù)點(diǎn)后三位)而不是僅僅表達(dá)為“P＞0.05”或“P＜0.05”〔3〕。對于多重比較情形，限于表達(dá)難度，一般不必給出精確P值，而可以代之以在統(tǒng)計表中以備注符號形式表達(dá)出是否有統(tǒng)計學(xué)意義。目前計算機(jī)以及統(tǒng)計軟件的應(yīng)用已經(jīng)相當(dāng)普遍，得到假設(shè)檢驗(yàn)的精確P值并不困難。而精確的P值能告訴讀者拒絕H0，接受H1時犯Ⅰ類錯誤的概率。

本研究顯示，這一問題的出錯率較高，中文期刊論文的出錯率為42.5%(165/388)，高于外文期刊論文的22.2%(86/388)出錯率(χ2=36.752，P ＜0.001)。

(4)同一指標(biāo)精度不一致

論文中若同一指標(biāo)因組別、時間等原因而多次報告，應(yīng)該統(tǒng)一其精度。否則會影響論文嚴(yán)謹(jǐn)性，而且統(tǒng)計表也不美觀。

本研究顯示，中文論文出錯率為5.9%(23/388)，外文為3.9%(15/388)，差異無統(tǒng)計學(xué)意義。說明絕大部分的論文作者都意識到了這個問題。

(5)配對t檢驗(yàn)未給出差值的均數(shù)和標(biāo)準(zhǔn)差

配對t檢驗(yàn)實(shí)際上是相當(dāng)于對每對數(shù)據(jù)的差值做與0比較的單樣本t檢驗(yàn)，因此，除了配對的兩組各自的描述性統(tǒng)計量外(如均數(shù)和標(biāo)準(zhǔn)差)，也應(yīng)給出差值的相應(yīng)內(nèi)容。

本次調(diào)查共有84篇論文涉及配對t檢驗(yàn)，其中中文論文出錯率高達(dá)46.3%(19/41)高于外文論文的25.6%(11/43)出錯率(χ2=3.940，P=0.047)。

(6)對于多組設(shè)計資料反復(fù)用兩樣本比較

在進(jìn)行多組比較時，如對于多組的完全隨機(jī)設(shè)計計量資料/計數(shù)資料，常常被誤用的方法是直接反復(fù)進(jìn)行兩樣本t/χ2檢驗(yàn)。這樣做會大大增加犯Ⅰ類錯誤的概率。此時應(yīng)先采用總的比較方法，如單因素方差分析或行列表的χ2檢驗(yàn)，再選擇合適的多重比較方法進(jìn)行多重比較。需要說明的是對于多組比較的χ2檢驗(yàn)和非參數(shù)檢驗(yàn)(如Kruskal Wallis H)，由于尚無得到公認(rèn)的多重比較方法，各權(quán)威軟件均未將其編入軟件。此時，作者在得出總的比較結(jié)果后，可根據(jù)具體的統(tǒng)計量如率、平均秩次進(jìn)行描述，也可采用有關(guān)文獻(xiàn)報告的方法進(jìn)行多重比較。

在本研究中，共有345篇涉及多組比較，在這些論文中共有76篇發(fā)生反復(fù)使用兩樣本比較的錯誤。其中中文論文出錯率為24.1%(42/174)，外文論文出錯率為19.9%(34/171)，χ2檢驗(yàn)差異無統(tǒng)計學(xué)意義。

(7)多重線性回歸分析未給出決定系數(shù)R2

由所搜集數(shù)據(jù)得到多重線性回歸方程后，必須進(jìn)一步對該回歸方程進(jìn)行方差分析，以確定其是否有無統(tǒng)計學(xué)意義。即使結(jié)論有統(tǒng)計學(xué)意義，還應(yīng)同時報告決定系數(shù)R2的大小，以進(jìn)一步說明該模型對數(shù)據(jù)的擬合程度及該模型的實(shí)用價值。

在涉及多重線性回歸分析的75篇論文中，共有25篇論文未給出決定系數(shù)R2。其中中文論文出錯率為26.7%(8/30)，外文論文的出錯率為37.8%(17/45)，χ2檢驗(yàn)顯示差異無統(tǒng)計學(xué)意義。

(8)多因素回歸分析未交代變量賦值

由于多因素回歸分析(如linear/cox/logistic/ordinal等)中，一些自變量可能是二分類或多分類變量，讀者若不知道這些變量如何賦值、以哪一類為對照，則無法判斷自變量對應(yīng)變量的影響方向，從而影響分析結(jié)果的專業(yè)解釋。因此在進(jìn)行這類分析前必須把可能的影響因素及其賦值說明列出。

在涉及多因素回歸分析的194篇論文中，其中未交代變量賦值的有54篇。在此問題上，中文論文的出錯率為35.1%(20/57)，外文論文的出錯率為24.8%(34/137)，χ2檢驗(yàn)顯示差異無統(tǒng)計學(xué)意義。

(9)生存分析未報告中位生存期

對于適用于生存分析的資料，由于生存時間多為偏態(tài)分布，且有數(shù)據(jù)刪失，在生存分析中平均生存時間并不能恰當(dāng)?shù)乇磉_(dá)出研究對象的平均水平。若論文中涉及生存分析，應(yīng)當(dāng)提供中位生存期。

涉及生存分析的論文共86篇，其中中文論文此問題的出錯率為54.3%(19/35)，高于外文論文13.7%(7/51)的出錯率(χ2=16.189，P ＜0.001)。

(10)相關(guān)分析結(jié)論，未考慮相關(guān)系數(shù)大小

對于相關(guān)系數(shù)的假設(shè)檢驗(yàn)，所得到的P值越小，則下結(jié)論認(rèn)為二者有相關(guān)關(guān)系的可靠性越大，但并不意味著其關(guān)系越密切。相關(guān)的密切程度及其相關(guān)方向應(yīng)通過相關(guān)系數(shù)的大小來說明。而很多作者常常在得到較小的P值后，即下“二者關(guān)系密切”的結(jié)論。

涉及相關(guān)分析的論文共97篇，其中中文論文出錯率為25.6%(11/43)，而外文論文為25.9%(14/54)，χ2檢驗(yàn)顯示差異無統(tǒng)計學(xué)意義。

其他較常見問題還包括:“研究樣本不支持研究結(jié)論對應(yīng)的總體”、“實(shí)驗(yàn)分組不合理”、“未設(shè)立對照組”等，但因出錯文獻(xiàn)較少，故未作分析。

討論

從統(tǒng)計學(xué)方法的使用情況來看，我國醫(yī)學(xué)期刊論文中使用頻率較高的大多是較初級的統(tǒng)計學(xué)方法，而協(xié)方差分析、簡單線性回歸、logistic回歸以及cox回歸等方法外文文獻(xiàn)中的應(yīng)用高于中文文獻(xiàn)。這個現(xiàn)象與我國的統(tǒng)計學(xué)教育普及程度不足有很大的關(guān)系，同時也顯示了國外醫(yī)學(xué)科研工作者對統(tǒng)計學(xué)知識的重視程度較高。從中外文統(tǒng)計學(xué)方法誤用比較的結(jié)果來看，統(tǒng)計學(xué)方法在我國生物醫(yī)學(xué)期刊的應(yīng)用仍不成熟，超過半數(shù)的論文都存在統(tǒng)計學(xué)處理上的缺陷，國外的生物醫(yī)學(xué)期刊也有相當(dāng)多的統(tǒng)計學(xué)應(yīng)用錯誤。對比中外生物醫(yī)學(xué)期刊的統(tǒng)計學(xué)應(yīng)用情況，我國的生物醫(yī)學(xué)期刊論文在“缺檢驗(yàn)統(tǒng)計量”、“缺P值/P值不精確”、“配對t未給出差值的均數(shù)/標(biāo)準(zhǔn)差”、“生存分析未報告中位生存期”出錯更為嚴(yán)重。這個現(xiàn)象與我國的統(tǒng)計學(xué)科起步較晚，以及重視程度不足也有很大的關(guān)系。

因此，醫(yī)學(xué)院校不僅應(yīng)重視醫(yī)學(xué)統(tǒng)計學(xué)的教學(xué)，還應(yīng)不斷改進(jìn)統(tǒng)計學(xué)教學(xué)方法，如采用“案例”教學(xué)模式〔4〕;加強(qiáng)基礎(chǔ)理論、研究設(shè)計等弱勢板塊的教學(xué)〔5〕;盡量利用多媒體教學(xué)手段使統(tǒng)計學(xué)抽象理論形象化〔6〕等。在醫(yī)學(xué)生中強(qiáng)調(diào)統(tǒng)計學(xué)在今后研究中應(yīng)用重要性〔7〕，在研究生提交論文的時候，應(yīng)建立健全的統(tǒng)計學(xué)審核制度，以確保論文的科學(xué)性和嚴(yán)謹(jǐn)性。醫(yī)院以及生物醫(yī)學(xué)科研機(jī)構(gòu)亦應(yīng)該對臨床研究人員進(jìn)行統(tǒng)計學(xué)方法的繼續(xù)教育，在研究的設(shè)計環(huán)節(jié)、統(tǒng)計處理部分最好有專業(yè)統(tǒng)計人員參與指導(dǎo)〔8〕。針對我國醫(yī)學(xué)期刊現(xiàn)行審稿模式的缺陷與不足，可借鑒國外期刊的審稿模式，編輯和審稿人的團(tuán)隊(duì)中也應(yīng)該包括具有專業(yè)水準(zhǔn)的統(tǒng)計學(xué)家，提高稿件的統(tǒng)計學(xué)審核標(biāo)準(zhǔn)〔9〕。

1．Horton N J，Switzer SS．Statistics methods in the journal．N Engl JMed，2005，353(18):1977-1979．

2．張功員，田慶豐．醫(yī)學(xué)科研論文中統(tǒng)計結(jié)果表達(dá)和解釋錯誤分析．鄭州大學(xué)學(xué)報(醫(yī)學(xué)版)，2002(3):338-340．

3．李永紅．醫(yī)學(xué)科研論文中統(tǒng)計學(xué)內(nèi)容的正確表達(dá)．中國熱帶醫(yī)學(xué)，2008，8(12):2274-2275．

4．江梅．探討“案例”教學(xué)模式在醫(yī)學(xué)統(tǒng)計教學(xué)中的應(yīng)用．中國衛(wèi)生統(tǒng)計，2010，27(2):210-211．

5．陸守曾．對醫(yī)學(xué)統(tǒng)計學(xué)應(yīng)用現(xiàn)狀的四點(diǎn)看法．中國衛(wèi)生統(tǒng)計，2010，27(2):114-115．

6．張羅漫，盂虹，孫亞林，等．信息化條件下《醫(yī)學(xué)統(tǒng)計學(xué)》分層次多目標(biāo)教學(xué)探索與實(shí)踐事．中國衛(wèi)生統(tǒng)計，2009，26(3):311-313．

7．Jin Z，Yu D，Zhang L，et al．A retrospective survey of research design and statistical analyses in selected Chinese medical journals in 1998 and 2008．PLoS One，2010，5(5):e10822．

8．He J，Jin Z，Yu D，et al．Statistical reporting in Chinese biomedical journals．Lancet．2009，373(9681):2091-2093．

9．沈進(jìn)，茍莉，湯潔，等．生物醫(yī)學(xué)期刊的統(tǒng)計學(xué)方法應(yīng)用情況分析．中國修復(fù)重建外科雜志，2007，21(5):541-543．

中外醫(yī)學(xué)期刊論文中的統(tǒng)計學(xué)方法應(yīng)用情況分析

資料與方法

結(jié) 果

討 論

討論