,
在科技期刊論文中,數據的重要性不言而喻。但作者計算方法不當或筆誤而導致的錯誤數據時有發生。如果不能及時發現這些錯誤,不但會影響論文的正確表達,還會影響雜志的聲譽。因此科技期刊編輯,一定要重視數據審核[1]。
編輯面對論文中的數據時,除了依靠科學常識、邏輯方法[2]、審稿專家的意見,以及高度的責任心外[3],還要有專業的復核工具。最常用的是計算器、Excel加載項中的數據分析工具以及SAS、SPSS、STATA等專業統計軟件,然而這些工具不如流行病學計算器EpiCalc(Epidemiology Calculator)軟件實用和方便。EpiCalc軟件是英國的 Joe Gilman和Mark myatt 于1997年共同開發的用于流行病學二次數據處理的免費軟件,供流行病學、統計學專業和臨床專業等人員使用。自從該軟件投入使用以來,很多文獻從不同方面對該軟件的使用進行了介紹[4-6],但未采用更權威的工具進行驗證。筆者結合實例介紹EpiCalc的同時,利用SAS 8.2軟件對其進行了驗證。
該軟件安裝程序可免費下載(下載地址http:∥www.brixtonhealth.con/ec2v102.exe),主界面如圖1所示。

圖1 EpiCalc軟件的主要界面
其主要功能有:計算可信區間,根據兩組的均數、標準差和樣本例數比較兩總體均數的差別(圖2),進行四格表的χ2檢驗或計算Fisher確切概率,進行R×C表的χ2檢驗(圖3)。此外還可進行擬合優度檢驗、樣本含量的估計和分層、分級資料的統計分析,以及據統計量值和樣本例數計算概率。

圖2 EpiCalc軟件進行兩總體均數比較的界面

圖3 EpiCalc軟件進行R×C表χ2檢驗的數據輸入界面
相對于功能強大的專業統計學軟件,如SAS,SPSS,STATA等,EpiCalc軟件更容易掌握。SAS和STATA軟件需要編程[7],對于編輯而言,能使用的功能并不多,專門安裝和學習這些軟件未免有些“大動干戈”;SPSS軟件不需編程,但通常需要提供原始數據,而且掌握基本的SPSS知識也需要花一番功夫;利用計算器和Excel,也能進行一些簡單的統計學分析,但過程比較繁雜,且容易出錯。而掌握EpiCalc軟件則相對容易,具有基本統計學知識的編輯,只需自學2個小時即可熟練應用。
該軟件可免費下載,且安裝程序小、操作簡單、啟動快速。編輯在審閱或加工稿件時,可隨時啟用,就像用計算器一樣方便。同時,該軟件界面簡單,數據錄入方便,結果簡潔易懂,非常方便編輯使用。
在《膿毒癥患者并發急性肺損傷危險因素分析》一文中,死亡組(n=19)與存活組(n=17)的呼吸分別是(33.0±5.3)次/min、(30.2±3.0)次/min,兩組比較有統計學意義(P<0.05)。對此類表面上看差別不大的數據,有必要進行復核。打開EpiCalc軟件,選擇compare,再依次選擇means和two means(圖1)。出現界面如圖2,confidence level(可信度)選擇默認的95%,將兩組的樣本例數、均數、標準差填入對應的空欄中即可。結果顯示:t=1.92,對應的P=0.0634(圖4),說明兩組總體均數的差別沒有統計學意義,與原文結論正好相反。

圖4 EpiCalc軟件t檢驗結果界面
筆者對上述數據同時利用SAS 8.2軟件進行驗證,程序為:
data aa;
n1=19;
n2=17;
m1=33.0;
m2=30.2;
s1=5.3;
s2=3.0;
sc2=(s1**2*(n1-1)+s2**2*(n2-1))/(n1+n2-2);
st=sqrt(sc2*(1/n1+1/n2));
t=tinv(0.975,n1+n2-2);
in=t*st;
lclm=abs(m1-m2)-in;
uclm=abs(m1-m2)+in;
proc print;
var lclm uclm;
run;
結果:lclm=-0.1656,uclm=5.7656。lclm和uclm分別表示兩均數相差95%可信區間的下限和上限。如果該區間包含0,則表示兩組均數無統計學差別,該結論與EpiCalc軟件結論一致。
在《對全髖與全膝關節置換術后LMWH應用時機的初步研究》一文中,THA組內與TKA組內DVT發生率差異均具有極顯著統計學意義(P=0.000)(表1)。
該文的主要問題是不能采用χ2檢驗,應該采用Fisher確切概率法,因為2×2列表中期望頻數太小,有2個格子的頻數小于5。打開EpiCalc軟件,選擇tables,再選擇2-by-2 unstratified(2×2表,未分層),展開界面見圖5,將2、30、2、47輸入對應的空欄中,同時選擇左下角的Perform Fishers exact test(確切概率法),結果發現THA組術后DVT發生率比較沒有統計學差異(P=0.6456)(圖6),TKA組內DVT發生率也無統計學差異(P=1.0000)。

表1 人工關節置換術后使用LMWH組與延期72 h使用LMWH組術后DVT發生率

圖5 EpiCalc軟件四格表展開界面

圖6 EpiCalc軟件四格表統計檢驗結果
同樣,利用SAS 8.2軟件對THA組術后DVT發生率比較進行驗證,程序為:
data aa;
do r=1 to 2;
do c=1 to 2;
input f @@;
output;
end;
end;
cards;
2 30 2 47
proc freq;
weight f;
tables r*c/chisq expected nopercent;
run;
結果見圖7,確切概率(雙側)=0.6456,同EpiCalc得出的結果一樣;同樣,TKA組內DVT發生率也無統計學差異(P=1.0000)。

圖7 SAS8.2軟件驗證部分結果界面
科技論文中的結果部分,大多數都需要用數據表達,其形式有的簡單,有的復雜,涉及的統計學方法也多種多樣[8]。科技期刊的編輯不可能對文章中的所有結果進行復核,因為有些結果是需要提供原始數據的。因此,編輯只能根據論文中的現有數據進行復核,涉及的統計學方法相對簡單,一般包括兩組之間的t檢驗、四格表及R×C表的χ2檢驗、Fisher確切概率法等。
通過復核,可以達到兩個目的:一是可以確認部分結果是否準確;二是可以判斷作者的科研態度及統計分析能力,從而為編輯取舍或退修稿件提供參考[9]。有些稿件表面上看沒有問題,且行文流暢、結構嚴謹,但審核結果中的數據卻錯誤百出,對于這樣的稿件也只能做退稿處理了。因此,對論文中的數據進行審核非常必要,選擇一個好的審核工具則可以達到事半功倍的效果。