劉斯靜,薛 鵬,高 霞,張曉琳,何 禎,杜媛鯤*
(1.河北醫科大學期刊社河北醫科大學學報編輯部,河北 石家莊 050017;2.河北醫科大學第三醫院內分泌二科,河北 石家莊 050051;3.河北醫科大學公共衛生學院衛生統計學教研室,河北省環境與人群健康重點實驗室,河北 石家莊 050017)
醫學統計學是醫務工作者從事醫學基礎和臨床研究的重要工具學科,是醫學科研真實性和準確性的重要保障[1]。醫學統計方法的正確運用,是醫學科研工作者應該掌握的基本能力,是數據整理分析和論文撰寫發表的基本前提。統計分析結果是科研論文的核心組成部分,是論文價值的重要載體以及論文水平的集中體現。但是,在醫學科研實踐中,很多醫務工作者由于缺乏醫學統計相關經驗,在數據分析和論文撰寫過程中出現不同類型的統計學錯誤,導致論文在形式和內容方面存在缺陷,甚至得出錯誤結論。近年來,《河北醫科大學學報》所接收稿件的整體水平有所提升,但在數據統計和分析方面仍然存在一些共性的問題。本文通過總結本刊投稿中常見統計學錯誤并進行分析,從而為論文作者及審稿專家提供參考,進一步提高所刊發論文質量。
統計描述是對研究結果的直接整理和表達,從而對研究數據的總體特征進行總結,發現其分布和變化的基本規律,進一步為統計推斷和假設檢驗提供基礎依據[2]。統計描述包括定量資料描述和定性資料描述,前者主要描述定量資料的集中趨勢和離散趨勢,后者主要描述定性資料的數量或頻率。在本刊所接收稿件中,兩類資料的統計描述都可能會出現錯誤。
1.1集中趨勢和離散趨勢統計量選擇錯誤 在對定量資料的集中趨勢和離散趨勢進行描述時,不考慮數據的原始分布特征,全部選擇“均數±標準差”進行描述。正確的做法是首先對研究數據的原始分布特征進行正態性檢驗。如果研究數據符合正態分布,應該選擇“均數±標準差”表示定量資料的集中和離散趨勢;如果研究數據是偏態分布,應該選擇“中位數(極差)”或者“中位數(四分位數間距)”來表示,四分位數間距比極差的計算結果更為穩定。
1.2標準差和標準誤混用 標準差是方差的算數平方根,用來描述正態分布資料的離散趨勢或變異程度,標準差越大,說明數據間的變異程度越大;標準誤是樣本均數的標準差,用來衡量抽樣誤差的大小,標準誤越大,說明用樣本統計量推斷總體參數的可靠性越差。有些作者在論文中用標準誤代替標準差,從統計量表面來看,數據離散趨勢被人為地“縮小”了,其實是因為選擇了錯誤的統計量,無法真實反映定量資料本身的離散趨勢。
1.3相對性指標選擇錯誤 有些作者在對疾病流行病學特征進行描述時,對“率”和“構成比”的概念區別不清。比如,某論文研究對象為絕經后女性,研究結果共發現子宮頸癌患者152例,其中50~59歲年齡組占43.4%,60~69歲年齡組占18.1%,因此得出結論,50~59歲年齡組患病率更高。此研究中,作者錯誤地把“構成比”當作“患病率”。事實上,本研究中各年齡組調查對象數量是不同的,要針對各年齡組分別計算患病率之后再進行比較,而不是直接對構成比進行比較。
1.4統計表常見錯誤 有些作者在對表格進行編制時,出現主謂倒置的現象。如下例:“糖尿病組和對照組血清因子比較:糖尿病組血清因子A、血清因子B和血清因子C均高于對照組,差異有統計學意義(P<0.05),見表1。”

表1 糖尿病組和對照組血清因子A、血清因子B和血清因子C水平比較
1.5統計圖常見錯誤 本刊近期投稿中,統計圖以柱狀圖居多。柱狀圖的優點之一是可以比較直觀地反映某指標在不同組別之間的差異[3]。但是,有些作者由于縱坐標取值范圍選擇不當,導致組間差別無法通過統計圖直接表現出來。例如:采用ELISA方法測定某血清因子濃度,比較三組之間有無統計學差異。該血清因子濃度的變化范圍大約是“20~80 mg/L”。作者在繪制柱狀圖時選擇縱坐標的刻度范圍為“0~200 mg/L”,導致組間差異無法在統計圖中充分反映出來。因此,應該將縱坐標刻度范圍改為“0~100 mg/L”,更能直觀反映組間差異。另外,如果組間存在統計學差異,應該用不同符號標識出來,同時需在“圖注”中說明是與哪個組進行比較。
2.1非正態分布數據組間比較 常見錯誤在對兩組或多組計量資料進行比較時,如果計量資料不符合正態分布,需要選用非參數檢驗[4]。在本刊所投稿件中,對于不符合正態分布的計量資料,部分作者仍然選擇了t檢驗或單因素方差分析,導致統計推斷錯誤。計量資料假設檢驗方法的選擇,應把握如下原則:兩獨立樣本比較,如果計量資料不符合正態分布,應該選擇Mann-Whitney U檢驗,而不應該選擇t檢驗;多個獨立樣本比較,如果計量資料不符合正態分布,應該選擇Kruskal-Wallis H檢驗,而不應該選擇單因素方差分析;兩相關樣本(或配對資料)比較,如果計量資料不符合正態分布,應該選擇Wilcoxon符號秩檢驗,而不應該選擇配對t檢驗;多個相關樣本的比較,如果計量資料不符合正態分布,應該選擇Friedman檢驗,而不應該選擇隨機區組設計方差分析。
2.2多樣本非參數檢驗兩兩比較常見錯誤 對于多個獨立樣本比較,如果計量資料不符合正態分布,應該選擇Kruskal-Wallis H檢驗,但是對于如何進一步進行兩兩比較,本刊部分作者并不明確。部分論文雖然標注了兩兩比較的結果,但是當稿件修回過程中詢問作者如何進行兩兩比較時,有的作者答復對每兩組原始數據進行 “U檢驗”,有的作者答復對原始數據進行“方差分析的兩兩比較”,顯然都是錯誤的。正確的做法是,可以先對原始計量資料進行“秩變換”,變換之后的秩次可以模擬正態分布,然后針對秩次進行方差分析及兩兩比較,從而做出統計推斷。
2.3相關分析常見錯誤 常用的直線相關分析,需要注意兩個要點:第一,在進行相關分析前,應首先對原始數據作散點圖,初步判斷變量之間是否存在線性關系及資料分布特征,是否適用直線相關[5];第二,對于雙變量均符合正態分布的計量資料,應選擇“Pearson相關”;對于至少一個變量不符合正態分布的計量資料或研究結果為等級資料,應選擇“Spearman相關”。一些論文在進行相關分析時,并未對原始數據作散點圖,在統計分析后,發現相關系數r的絕對值非常小,但P值≤0.05,作者仍然得出陽性結論;另有一些論文在進行相關分析時,并未對計量資料的正態性進行檢驗,對非正態分布的計量資料,仍然選擇“Pearson相關”分析,導致統計結果錯誤。
2.4錯用χ2檢驗分析方法 上文已說明,對于兩組等級資料的相關性,可以選擇“Spearman相關”分析。但是,有的作者卻錯誤地選擇了“χ2檢驗”分析方法,導致結果出現偏差。比如:作者評價某種藥物不同劑量(高、中、低)與疾病愈后(好、中、差)的關系,選擇了“行×列表的χ2檢驗”分析方法。對于上述情況,應該選擇直線相關中的“Spearman相關”分析更為恰當。
2.5統計描述中對連續性變量分組后直接用于統計推斷 在對連續性變量進行統計描述時,很多作者習慣于對其進行分組,便于更加直觀的表現數據分布特征。但是,在進行假設檢驗時,很多情況下應用原始數據更為恰當。比如,有的作者在對年齡進行統計描述時,按照不同年齡段進行了分組:“40歲以下,40~49歲,50~59歲…”。在進行統計推斷時(比如直線相關分析),作者仍然用分組之后的賦值進行假設檢驗,這樣可能會丟失原始連續性變量的完整信息,降低統計推斷的精確性。
2.6重復測量數據分析常見錯誤 重復測量數據是對同一研究對象的同一測量指標或多個測量指標,在不同時間點(或同一個體不同部位)的多次測量結果[6]。對于重復測量數據,應該選擇“重復測量設計方差分析”方法。有些作者錯誤地選擇了“多元方差分析”或“隨機區組設計”方法,導致統計推斷錯誤。如下例:作者擬對表2中觀察組和對照組拔管后不同時間的A評分進行比較。投稿時選擇多元方差分析,顯然是錯誤的。應該選擇重復測量設計方差分析,才能獲得正確的統計推斷結果。

表2 觀察組與對照組拔管后不同時間A評分比較 (n=44)
2.7多重線性回歸分析常見錯誤 在符合多重線性回歸應用條件的前提下,如果自變量是連續性變量,可以直接納入回歸方程;但是,如果自變量是分類變量,需要對其進行數量化賦值。后者包括如下兩種情況:第一,自變量為等級變量,可以直接對其賦值后納入回歸方程;第二,自變量為多分類無序變量(如職業、血型等),不能直接對其賦值后納入回歸方程,需要通過設置啞變量。部分作者在將多分類無序變量納入回歸方程時,并未考慮設置啞變量,導致統計推斷錯誤。
2.8分類資料回歸分析常見錯誤 在進行分類資料Logistic回歸分析時,如果因變量的分類數>2,包括兩種情況:第一,因變量為無序分類,比如腫瘤的病理分型;第二,因變量為有序分類,比如貧血的程度。在對上述兩種因變量進行Logistic回歸分析時,所選擇的假設檢驗方法是不同的。以常用的SPSS軟件為例,前者選擇普通的多分類Logistic回歸模型即可;后者需要選擇有序多分類Logistic回歸模型,即Ordinal過程分析。部分作者在對因變量為有序多分類資料進行多元回歸分析時,仍然選擇普通的多分類Logistic回歸模型,導致統計推斷錯誤。
綜上所述,醫學統計方法的正確應用,是科學研究論文的基本要求。醫學院校應該注重在校生醫學統計知識的學習和技能的培養,注意教學方法改革,理論聯系實際,為日后從事科學研究打下堅實基礎。醫療機構應該對職工進行定期培訓,切實提高醫務工作者醫學統計能力。醫學期刊應該加強審稿流程中對統計方法的審查力度,最大程度減少論文中可能出現的統計錯誤。例如,本刊定期邀請醫學統計學專家對待發表稿件進行最終審查,對出現統計錯誤的論文進行修正或退稿,對提高期刊論文質量具有重要意義。同時,作為期刊編輯,應該加強醫學統計學相關自主學習,通過多種途徑提高自身業務能力,把好審稿第一關。