鄭德強,段明瑞,李小春,侯銳,吳立娟,王友信
統(tǒng)計學(xué)為醫(yī)學(xué)臨床研究提供了數(shù)據(jù)分析的工具和方法,正確、規(guī)范使用統(tǒng)計學(xué)方法是開展高質(zhì)量臨床研究的重要保障,統(tǒng)計學(xué)方法應(yīng)用正確與否直接關(guān)系到學(xué)術(shù)論文質(zhì)量的高低。統(tǒng)計學(xué)方法的正確應(yīng)用可以使研究成果具有科學(xué)性、代表性,如果使用不當(dāng)或誤用,會直接影響研究結(jié)果的質(zhì)量,甚至?xí)?dǎo)致錯誤的結(jié)論。越來越多的醫(yī)學(xué)工作者已經(jīng)充分意識到統(tǒng)計學(xué)方法在臨床研究中的重要性,但是在實際應(yīng)用中可能會出現(xiàn)一些錯誤,相關(guān)文獻報道醫(yī)學(xué)類研究論文中統(tǒng)計學(xué)方法的誤用率在25%以上[1-2]。本文主要針對臨床研究中統(tǒng)計分析的4個方面——統(tǒng)計描述、統(tǒng)計推斷、數(shù)據(jù)處理、結(jié)果解釋,采用典型案例解析方式,對臨床研究中統(tǒng)計學(xué)方法規(guī)范應(yīng)用要點、常見誤用進行總結(jié)分析,為臨床研究規(guī)范統(tǒng)計分析提供參考。
臨床研究中,描述研究對象某種特征的指標(biāo)稱為變量(variable),如問卷調(diào)查中的“年齡”“性別”“職業(yè)”“學(xué)歷”“收縮壓”“空腹血糖”等。臨床研究中,研究人群中不同個體變量測量值的數(shù)據(jù)集合稱為資料,依據(jù)變量值的特點,將研究資料分為定量資料(如“年齡”“空腹血糖”測量值的集合)和定性資料(如“性別”“學(xué)歷”測量值的集合)。
1.1 兩種類型資料的統(tǒng)計描述
(1)定量資料:又稱計量資料。根據(jù)其觀測值是否連續(xù),可分為連續(xù)型變量(如“身高”“體重”“血壓”等)測量值的資料和離散型變量(如某醫(yī)院每天的住院人數(shù)等)測量值的資料。當(dāng)研究資料背后的變量符合正態(tài)分布時,以描述;當(dāng)研究資料背后的變量不符合正態(tài)分布時,以M(P25~P75)描述[3]。如某研究比較某地某年城、鄉(xiāng)中老年人群4種指標(biāo)的差異,具體數(shù)據(jù)見表1。依據(jù)經(jīng)驗,臨床研究中呈正態(tài)分布數(shù)據(jù)的標(biāo)準(zhǔn)差往往不會大于均數(shù)[3-4],而表1中空腹血糖、總膽固醇這兩項指標(biāo)標(biāo)準(zhǔn)差均大于均數(shù),提示空腹血糖、總膽固醇的資料不符合正態(tài)分布的可能性較大,采用描述資料集中趨勢和離散趨勢的統(tǒng)計描述欠妥。

表1 某地某年城、鄉(xiāng)中老年人群4種指標(biāo)比較
(2)定性資料:包括無序定性變量(如“性別”“職業(yè)”“血型”等)測量值的資料和等級變量(如“學(xué)歷”“療效”“滿意度”等)測量值的資料。常見的數(shù)據(jù)形式為絕對數(shù),如某病的住院人數(shù)、治愈人數(shù)、死亡人數(shù)等。但絕對數(shù)往往不具有可比性,因此需要計算相對數(shù)。常用的相對數(shù)指標(biāo)包括比、比例和率。如某研究回顧性分析了某醫(yī)院神經(jīng)內(nèi)科2014年1月-2018年11月連續(xù)收治的急性腦梗死患者的臨床資料,比較兩組的臨床資料,數(shù)據(jù)的規(guī)范統(tǒng)計描述如表2所示[5]。

表2 兩組急性腦梗死患者臨床資料比較
1.2 統(tǒng)計表和統(tǒng)計圖 臨床研究中,對變量進行統(tǒng)計描述時,統(tǒng)計表和統(tǒng)計圖是呈現(xiàn)數(shù)據(jù)分析結(jié)果的重要工具。統(tǒng)計表是將研究指標(biāo)或統(tǒng)計指標(biāo)及其取值以特定表格的形式列出,結(jié)果表達簡單明了、層次清晰,便于進一步計算、分析和比較。統(tǒng)計圖則是用點、線、面、體等各種幾何圖形形象化地表達和對比數(shù)據(jù)的工具,常用的統(tǒng)計圖有直條圖、累計頻率分布圖、箱式圖、直方圖、百分條圖、圓圖、線圖、半對數(shù)線圖、散點圖和統(tǒng)計地圖等。
繪制統(tǒng)計表的一般原則:①每個統(tǒng)計表都應(yīng)有一個表號,按順序列出。表題需概括表的主要內(nèi)容,放于統(tǒng)計表上方中央。②縱表頭和橫表頭分別對各行和各列內(nèi)容或數(shù)字的含義進行概括和提示。③統(tǒng)計表線條通常用“三線表”,頂線和底線將表格與文章的其他部分分隔開來,橫表頭分割線將表頭的文字和表格的數(shù)字分隔。表內(nèi)不可出現(xiàn)豎線和斜線。④數(shù)字用阿拉伯?dāng)?shù)字表示。同一指標(biāo)的小數(shù)位數(shù)應(yīng)一致,表內(nèi)不留空格,數(shù)字按照小數(shù)位對齊。無數(shù)字用“-”表示,缺失數(shù)字用“…”表示。⑤表中數(shù)字區(qū)不允許出現(xiàn)文字,如需對某個數(shù)字或指標(biāo)加以說明,可在其右上方加“*”“#”等符號進行備注,在表下方進行說明。
繪制統(tǒng)計圖的一般原則:①根據(jù)資料性質(zhì)和分析目的選擇最合適的統(tǒng)計圖。描述定性資料或定量資料離散化的頻率分布可選用直條圖(圖1)[6],描述定量資料的頻率分布可選用直方圖(圖2)。②統(tǒng)計圖均要有圖號及圖題,圖號應(yīng)按順序排列,便于查找和文字中引用,圖題要概括統(tǒng)計圖資料的時間、地點和主要內(nèi)容,一般放在圖的下方中央,如圖1所示。③統(tǒng)計圖一般要有橫坐標(biāo)軸和縱坐標(biāo)軸,對于有橫、縱坐標(biāo)軸的圖,要標(biāo)明尺度,縱坐標(biāo)軸尺度自下而上,橫坐標(biāo)軸尺度由左至右,數(shù)值等距。直方圖、累計頻率分布圖和直條圖縱坐標(biāo)軸的標(biāo)值要從“0”開始,而橫坐標(biāo)軸的刻度只需表示出觀測值的實際范圍即可,如圖1所示。如果數(shù)值差別過大,可以選擇中間截斷的統(tǒng)計圖,如圖3所示[7]。④在比較不同的事物和對象的統(tǒng)計量時,宜選用不同的線條或顏色表示,并附圖例加以說明,如圖4所示[8]。

圖1 中國成人按地區(qū)和年齡段劃分的肥胖率直條圖

圖2 2011年某研究卒中患者年齡分布直方圖

圖3 美國不同年齡和種族成年人的平均血壓值

圖4 聯(lián)合診斷與單因素診斷ROC曲線
臨床研究中,統(tǒng)計推斷是數(shù)據(jù)分析的核心統(tǒng)計推斷所應(yīng)用的方法,應(yīng)與數(shù)據(jù)類型進行匹配。統(tǒng)計推斷主要包括假設(shè)檢驗、點估計和置信區(qū)間,不同類型的數(shù)據(jù)對應(yīng)不同的假設(shè)檢驗方法、參數(shù)估計方法,應(yīng)避免不同類型數(shù)據(jù)套用或誤用統(tǒng)計推斷方法。
2.1 定量資料的假設(shè)檢驗 對于定量資料的假設(shè)檢驗,首先,需明確實驗設(shè)計類型,如單樣本、兩樣本或多樣本等,單因素或多因素等;其次,對定量資料進行參數(shù)檢驗,包括獨立性、正態(tài)性和方差齊性。兩樣本計量資料進行比較,如果兩組資料均符合正態(tài)分布且方差齊,選擇兩樣本t檢驗;如果兩組資料符合正態(tài)分布但方差不齊,則選擇校正的兩樣本t檢驗;如果其中一組或兩組資料不滿足正態(tài)分布,則選擇Wilcoxon秩和檢驗。多組單因素計量資料進行比較,如果各組資料均符合正態(tài)性和方差齊性,選擇單因素方差分析;如果某一組資料不滿足正態(tài)性或者方差不齊,則選擇Kruskal-Wallis秩和檢驗。如表2中的案例,年齡變量在青中年組和老年組之間的比較,使用兩獨立樣本t檢驗進行分析,得P<0.001,說明兩組年齡的差異是有統(tǒng)計學(xué)意義的。定量資料統(tǒng)計推斷常見的錯誤包括多個樣本均數(shù)的比較誤用多個兩樣本t檢驗替代方差分析;配對樣本t檢驗與兩獨立樣本t檢驗相互誤用等。
(1)多個兩樣本t檢驗與方差分析的誤用:t檢驗適用于單因素一、二水平實驗設(shè)計類型,每次只能比較兩個均數(shù)。如果是單因素多水平或多因素多水平等實驗設(shè)計類型,則不宜使用t檢驗,因為其會增加犯一類錯誤的概率。表3為3個年齡組不同性別收縮壓水平,若用兩樣本t檢驗分別對46~55歲組、56~65歲組和>65歲組的均數(shù)兩兩進行比較,結(jié)論為各組之間在男女研究對象中的收縮壓水平差異具有統(tǒng)計學(xué)意義。但是,應(yīng)用此種檢驗方法會大大增加犯一類錯誤的概率,應(yīng)選擇單因素方差分析,當(dāng)方差分析差異具有統(tǒng)計學(xué)意義的時候,再采用多重比較的方法。常用的多重比較方法有SNK-q檢驗法、LSD-t檢驗法、Dunnett-t檢驗法等[9]。

表3 各年齡組不同性別收縮壓水平[單位:mmHg]
(2)兩獨立樣本t檢驗與配對t檢驗的誤用:配對設(shè)計的t檢驗有自身配對和異體配對之分。表4為自身配對的范例,對急性缺血性卒中患者進行阿替普酶靜脈溶栓治療,治療前后測得各患者血壓值。該資料數(shù)據(jù)為自身配對設(shè)計,有學(xué)者把該資料當(dāng)作兩獨立樣本數(shù)據(jù),直接將治療前后的資料按照完全隨機設(shè)計定量資料的t檢驗進行比較,得到t收縮壓=5.451,P收縮壓<0.001;t舒張壓=5.007,P舒張壓<0.001,推斷患者在治療前后血壓值的差異具有統(tǒng)計學(xué)意義。但這種方法與設(shè)計類型不匹配,應(yīng)選擇配對設(shè)計的t檢驗,計算各配對數(shù)據(jù)的差值,比較差值的平均值與“0”之間差異是否具有統(tǒng)計學(xué)意義。其統(tǒng)計分析結(jié)果為t收縮壓=6.842,P收縮壓<0.001;t舒張壓=8.788,P舒張壓<0.001,說明對急性缺血性卒中患者進行阿替普酶靜脈溶栓治療,治療前與治療后患者血壓差值的差異具有統(tǒng)計學(xué)意義。

表4 急性缺血性卒中患者阿替普酶靜脈溶栓治療前后血壓水平[單位:mmHg]
2.2 定性資料的假設(shè)檢驗 定性資料的假設(shè)檢驗一般以各個處理組的頻數(shù)為計量單位,以列聯(lián)表的形式來表示。一般用于比較兩個或多個獨立樣本頻率或獨立樣本頻率分布,配對設(shè)計兩樣本頻率分布,單樣本分布的擬合優(yōu)度等。四格表χ2檢驗需注意其應(yīng)用條件:樣本總數(shù)(n)≥40,理論頻數(shù)(T)≥5。如果n≥40,但某個格子1≤T<5,需進行校正。但是如果n<40或T<1時,使用校正的χ2檢驗也不正確,此時可以使用Fisher確切概率法檢驗。如表2所示,男性在兩組中所占比例的比較使用獨立樣本2×2的χ2檢驗,兩組中文化程度的比較使用多個獨立樣本R×C列聯(lián)表的χ2檢驗,P<0.05說明差異有統(tǒng)計學(xué)意義。
某研究使用MRI 和CTA 兩種方法鑒別急性缺血性卒中,數(shù)據(jù)見表5。該資料是配對資料,應(yīng)采用配對四格表χ2檢驗,由于b+c=12+17=29<40,故需要校正,得到結(jié)果=0.552,P=0.458。如果使用獨立樣本四格表χ2檢驗,結(jié)果為χ2=15.78,P<0.01,則會得出錯誤的結(jié)論。
某研究比較兩組神經(jīng)性頭痛的總體有效率,數(shù)據(jù)見表6,該例中有一個格子的理論頻數(shù)>1而<5,故不宜直接采用獨立樣本四格表χ2檢驗,應(yīng)使用四格表校正χ2檢驗或Fisher確切概率法。故該研究的正確結(jié)果應(yīng)為:χ2=3.88,P=0.049。如果使用獨立樣本四格表χ2檢驗,結(jié)果為χ2=15.78,P<0.01,得出錯誤的結(jié)論。

表6 兩組神經(jīng)性頭痛患者的總有效率比較
2.3 回歸分析 臨床研究中,經(jīng)常使用相關(guān)分析或回歸分析來研究兩變量之間的相關(guān)關(guān)系或依存關(guān)系,但在應(yīng)用過程中會出現(xiàn)多種錯誤,常見錯誤有直接使用分類的編碼數(shù)字進行分析,需將分類變量轉(zhuǎn)換為啞變量進行分析,如表7所示。某研究進行卒中后抑郁狀態(tài)影響因素的logistic回歸分析[10],納入自變量時:將年齡分為4組,以<50歲為參照,其余3組轉(zhuǎn)變?yōu)閱∽兞窟M行分析;將BMI分為4組,以正常組(18.5~23.9 kg/m2)為參照,其余3組轉(zhuǎn)變?yōu)閱∽兞窟M行分析。

表7 卒中后抑郁狀態(tài)影響因素的logistic回歸分析
重復(fù)測量設(shè)計是指對同一受試者的同一觀察指標(biāo),在不同時間點或不同條件下進行多次觀測的設(shè)計,由若干受試者得到的多次觀測結(jié)果稱為重復(fù)測量變量。由于數(shù)據(jù)不再滿足獨立性的特點,故不能直接采用普通的t檢驗或方差分析進行比較,一般需采用重復(fù)測量設(shè)計變量的方差分析。但是此種分析方法存在很大局限性,不允許數(shù)據(jù)缺失,所以,對于更普遍的重復(fù)測量數(shù)據(jù)(如存在少量的缺失值等),分析方法包括廣義估計方程、多水平模型等[11]。
某研究比較TIA患者及非神經(jīng)系統(tǒng)疾病患者入院后7 d、1個月、3個月認(rèn)知功能評分的變化,數(shù)據(jù)見表8。該資料設(shè)計類型為兩因素重復(fù)測量設(shè)計的定量資料,其中“組別”是試驗分組因素,“測定時間”為與重復(fù)測量有關(guān)的試驗因素,誤用析因設(shè)計進行分析的結(jié)果見表9,得到兩組之間認(rèn)知功能差異有統(tǒng)計學(xué)意義(P<0.001),但是不同時間的認(rèn)知功能差異無統(tǒng)計學(xué)意義(P=0.100),組別與時間交互差異無統(tǒng)計學(xué)意義(P=0.334)。正確的統(tǒng)計推斷應(yīng)采用重復(fù)測量方差分析,結(jié)果如表10所示,兩組之間認(rèn)知功能差異有統(tǒng)計學(xué)意義(P=0.011),不同時間的認(rèn)知功能差異亦有統(tǒng)計學(xué)意義(P<0.001),由于不同組別和時間的認(rèn)知功能差異均有統(tǒng)計學(xué)意義,所以組別與時間的交互作用顯著(P<0.001)。

表8 TIA組與對照組MMSE評分變化[單位:分]

表9 析因設(shè)計分析結(jié)果

表10 重復(fù)測量方差分析結(jié)果
3.1 離群值的處理 臨床研究中,數(shù)據(jù)離群值的處理對分析的科學(xué)性、全面性非常重要。一組數(shù)據(jù)中往往會出現(xiàn)個別觀測值與其他數(shù)值相比差異較大,這樣的數(shù)據(jù)稱為離群值。只有當(dāng)有充分理由認(rèn)為該數(shù)據(jù)為離群值時,才可以將其刪掉進而進行后續(xù)統(tǒng)計分析。尤其是當(dāng)觀測數(shù)據(jù)量較少時,如果未查明離群值產(chǎn)生的原因,直接將其刪掉是不合適的,可能會對分析結(jié)果產(chǎn)生較大影響。
識別離群值的方法有以下幾種:①通過直方圖判斷。如果觀測值落在圖形兩端并遠離均數(shù)可能是離群值。②通過箱式圖判斷。觀測值距離箱式圖底線(P25)或頂線(P75)的距離為箱體高度(IQR)的1.5~3倍時,被視為離群值;距離>3倍,則被視為極端離群值。③通過統(tǒng)計檢驗判斷。檢驗觀測值偏離程度是否超出隨機誤差所能解釋的上限,超出均值±6倍隨機誤差的值可能是離群值。④結(jié)合其他相關(guān)變量信息判斷。如青春期兒童生長發(fā)育調(diào)查中,可以根據(jù)兒童身高和體重的線性回歸方程判斷其體重是否在正常范圍內(nèi),如果對應(yīng)身高的體重超出預(yù)測值99%置信區(qū)間,可認(rèn)為是離群值。
離群值的處理方法:①如果確定數(shù)據(jù)有明顯邏輯錯誤,或者因測量或記錄過程中出現(xiàn)錯誤而導(dǎo)致,可直接剔除該數(shù)據(jù)。如某數(shù)據(jù)中觀測的收縮壓280 mmHg(1 mmHg=0.133 kPa),顯然是一條錯誤記錄,應(yīng)予以刪除。②如果確定數(shù)據(jù)無邏輯錯誤或者排除具有明顯邏輯錯誤的數(shù)據(jù)后,在數(shù)據(jù)分析過程中對離群值刪除前后分別進行一次統(tǒng)計分析,若結(jié)果不矛盾,則不刪除;若結(jié)果矛盾,需要刪除,并予以充分合理的解釋。
3.2 缺失值的處理 數(shù)據(jù)缺失是統(tǒng)計資料中最常見的問題,如果不對其進行處理往往會損失信息甚至導(dǎo)致結(jié)果誤讀,所以對缺失值的識別和處理是數(shù)據(jù)預(yù)處理中最關(guān)鍵的步驟之一。數(shù)據(jù)缺失主要有3種,包括完全隨機缺失、隨機缺失和非隨機缺失。
缺失值的處理方法:①明確少數(shù)個體存在缺失值,且該變量不是分析的主要變量,可以考慮直接刪除存在缺失的個體值或者變量。②填補缺失值。常用的隨機缺失填補方法有均值填補法、回歸值填補法、末次訪視觀測值向前結(jié)轉(zhuǎn)法和多重填補法等。某研究使用中國健康與退休縱向隊列數(shù)據(jù),評估中國中老年人群中抑郁癥狀和心血管疾病發(fā)病率之間的關(guān)系,采用鏈?zhǔn)椒匠痰亩嘀靥钛a法對缺失數(shù)據(jù)進行了填充[12]。一項隨訪18年的隊列研究探討休閑活動與癡呆發(fā)病風(fēng)險之間的關(guān)系,在敏感性分析中對休閑活動相關(guān)變量的缺失進行了多重填補[13]。
在統(tǒng)計分析之后,科研人員在對統(tǒng)計結(jié)果進行解釋時需注意以下事項:①根據(jù)相關(guān)要求和統(tǒng)計規(guī)范,應(yīng)明確表示出所用統(tǒng)計分析方法的名稱(如配對樣本t檢驗、隨機區(qū)組設(shè)計方差分析、配對四格表資料的χ2檢驗等)、統(tǒng)計量的具體值(如t=10.29,F(xiàn)=13.21,χ2=5.68等),尤其對于P值,需給出具體的數(shù)值(如P=0.003),而不是僅僅指出P<0.05。②P值的定義為在零假設(shè)成立的條件下,出現(xiàn)現(xiàn)有樣本統(tǒng)計量以及更不利零假設(shè)數(shù)值的概率。所以當(dāng)P<0.05時,不能直接下結(jié)論說“差異顯著”,正確的說法為“差異有統(tǒng)計學(xué)意義”。如抑郁狀態(tài)組的睡眠質(zhì)量較非抑郁狀態(tài)組差,差異有統(tǒng)計學(xué)意義(P<0.001),但兩組的睡眠時長差異無統(tǒng)計學(xué)意義(P=0.405)[10]。③在涉及總體均數(shù)或總體率時,除了給出顯著性檢驗結(jié)果之外,還應(yīng)給出95%置信區(qū)間。如某研究納入患者共3000人,其中治愈人數(shù)為289人,則治愈率為9.63%(8.78%~12.45%)。④最終給出統(tǒng)計結(jié)論時要慎重,橫斷面研究中與因變量顯著相關(guān)的變量不能稱為風(fēng)險因素,只有在明確時間順序下才能稱為風(fēng)險因素,如隊列研究中高血壓與卒中發(fā)生風(fēng)險增加存在關(guān)聯(lián),不能將關(guān)聯(lián)關(guān)系理解為因果關(guān)系[14]。
綜上所述,在臨床研究中應(yīng)用統(tǒng)計學(xué)方法時:首先,要對數(shù)據(jù)進行正確的預(yù)處理;其次,要根據(jù)數(shù)據(jù)的類型選擇恰當(dāng)?shù)慕y(tǒng)計描述方法;再次,根據(jù)臨床研究設(shè)計類型和數(shù)據(jù)類型,按要求選擇合適的統(tǒng)計分析方法,切忌盲目套用,甚至誤用;最后,給出統(tǒng)計分析結(jié)論時,要對結(jié)果進行正確解讀。