臨床研究中統(tǒng)計學(xué)方法的規(guī)范應(yīng)用與典型案例解析

2022-02-14 02:26:12鄭德強段明瑞李小春侯銳吳立娟王友信

中國卒中雜志 2022年1期

關(guān)鍵詞：方法研究

鄭德強，段明瑞，李小春，侯銳，吳立娟，王友信

統(tǒng)計學(xué)為醫(yī)學(xué)臨床研究提供了數(shù)據(jù)分析的工具和方法，正確、規(guī)范使用統(tǒng)計學(xué)方法是開展高質(zhì)量臨床研究的重要保障，統(tǒng)計學(xué)方法應(yīng)用正確與否直接關(guān)系到學(xué)術(shù)論文質(zhì)量的高低。統(tǒng)計學(xué)方法的正確應(yīng)用可以使研究成果具有科學(xué)性、代表性，如果使用不當(dāng)或誤用，會直接影響研究結(jié)果的質(zhì)量，甚至?xí)?dǎo)致錯誤的結(jié)論。越來越多的醫(yī)學(xué)工作者已經(jīng)充分意識到統(tǒng)計學(xué)方法在臨床研究中的重要性，但是在實際應(yīng)用中可能會出現(xiàn)一些錯誤，相關(guān)文獻報道醫(yī)學(xué)類研究論文中統(tǒng)計學(xué)方法的誤用率在25%以上[1-2]。本文主要針對臨床研究中統(tǒng)計分析的4個方面——統(tǒng)計描述、統(tǒng)計推斷、數(shù)據(jù)處理、結(jié)果解釋，采用典型案例解析方式，對臨床研究中統(tǒng)計學(xué)方法規(guī)范應(yīng)用要點、常見誤用進行總結(jié)分析，為臨床研究規(guī)范統(tǒng)計分析提供參考。

1 統(tǒng)計描述方法的規(guī)范應(yīng)用與典型案例解析

臨床研究中，描述研究對象某種特征的指標(biāo)稱為變量（variable），如問卷調(diào)查中的“年齡”“性別”“職業(yè)”“學(xué)歷”“收縮壓”“空腹血糖”等。臨床研究中，研究人群中不同個體變量測量值的數(shù)據(jù)集合稱為資料，依據(jù)變量值的特點，將研究資料分為定量資料（如“年齡”“空腹血糖”測量值的集合）和定性資料（如“性別”“學(xué)歷”測量值的集合）。

1.1 兩種類型資料的統(tǒng)計描述

（1）定量資料：又稱計量資料。根據(jù)其觀測值是否連續(xù)，可分為連續(xù)型變量（如“身高”“體重”“血壓”等）測量值的資料和離散型變量（如某醫(yī)院每天的住院人數(shù)等）測量值的資料。當(dāng)研究資料背后的變量符合正態(tài)分布時，以描述；當(dāng)研究資料背后的變量不符合正態(tài)分布時，以M（P25～P75）描述[3]。如某研究比較某地某年城、鄉(xiāng)中老年人群4種指標(biāo)的差異，具體數(shù)據(jù)見表1。依據(jù)經(jīng)驗，臨床研究中呈正態(tài)分布數(shù)據(jù)的標(biāo)準(zhǔn)差往往不會大于均數(shù)[3-4]，而表1中空腹血糖、總膽固醇這兩項指標(biāo)標(biāo)準(zhǔn)差均大于均數(shù)，提示空腹血糖、總膽固醇的資料不符合正態(tài)分布的可能性較大，采用描述資料集中趨勢和離散趨勢的統(tǒng)計描述欠妥。

表1 某地某年城、鄉(xiāng)中老年人群4種指標(biāo)比較

（2）定性資料：包括無序定性變量（如“性別”“職業(yè)”“血型”等）測量值的資料和等級變量（如“學(xué)歷”“療效”“滿意度”等）測量值的資料。常見的數(shù)據(jù)形式為絕對數(shù)，如某病的住院人數(shù)、治愈人數(shù)、死亡人數(shù)等。但絕對數(shù)往往不具有可比性，因此需要計算相對數(shù)。常用的相對數(shù)指標(biāo)包括比、比例和率。如某研究回顧性分析了某醫(yī)院神經(jīng)內(nèi)科2014年1月-2018年11月連續(xù)收治的急性腦梗死患者的臨床資料，比較兩組的臨床資料，數(shù)據(jù)的規(guī)范統(tǒng)計描述如表2所示[5]。

表2 兩組急性腦梗死患者臨床資料比較

1.2 統(tǒng)計表和統(tǒng)計圖臨床研究中，對變量進行統(tǒng)計描述時，統(tǒng)計表和統(tǒng)計圖是呈現(xiàn)數(shù)據(jù)分析結(jié)果的重要工具。統(tǒng)計表是將研究指標(biāo)或統(tǒng)計指標(biāo)及其取值以特定表格的形式列出，結(jié)果表達簡單明了、層次清晰，便于進一步計算、分析和比較。統(tǒng)計圖則是用點、線、面、體等各種幾何圖形形象化地表達和對比數(shù)據(jù)的工具，常用的統(tǒng)計圖有直條圖、累計頻率分布圖、箱式圖、直方圖、百分條圖、圓圖、線圖、半對數(shù)線圖、散點圖和統(tǒng)計地圖等。

繪制統(tǒng)計表的一般原則：①每個統(tǒng)計表都應(yīng)有一個表號，按順序列出。表題需概括表的主要內(nèi)容，放于統(tǒng)計表上方中央。②縱表頭和橫表頭分別對各行和各列內(nèi)容或數(shù)字的含義進行概括和提示。③統(tǒng)計表線條通常用“三線表”，頂線和底線將表格與文章的其他部分分隔開來，橫表頭分割線將表頭的文字和表格的數(shù)字分隔。表內(nèi)不可出現(xiàn)豎線和斜線。④數(shù)字用阿拉伯?dāng)?shù)字表示。同一指標(biāo)的小數(shù)位數(shù)應(yīng)一致，表內(nèi)不留空格，數(shù)字按照小數(shù)位對齊。無數(shù)字用“-”表示，缺失數(shù)字用“…”表示。⑤表中數(shù)字區(qū)不允許出現(xiàn)文字，如需對某個數(shù)字或指標(biāo)加以說明，可在其右上方加“*”“#”等符號進行備注，在表下方進行說明。

繪制統(tǒng)計圖的一般原則：①根據(jù)資料性質(zhì)和分析目的選擇最合適的統(tǒng)計圖。描述定性資料或定量資料離散化的頻率分布可選用直條圖（圖1）[6]，描述定量資料的頻率分布可選用直方圖（圖2）。②統(tǒng)計圖均要有圖號及圖題，圖號應(yīng)按順序排列，便于查找和文字中引用，圖題要概括統(tǒng)計圖資料的時間、地點和主要內(nèi)容，一般放在圖的下方中央，如圖1所示。③統(tǒng)計圖一般要有橫坐標(biāo)軸和縱坐標(biāo)軸，對于有橫、縱坐標(biāo)軸的圖，要標(biāo)明尺度，縱坐標(biāo)軸尺度自下而上，橫坐標(biāo)軸尺度由左至右，數(shù)值等距。直方圖、累計頻率分布圖和直條圖縱坐標(biāo)軸的標(biāo)值要從“0”開始，而橫坐標(biāo)軸的刻度只需表示出觀測值的實際范圍即可，如圖1所示。如果數(shù)值差別過大，可以選擇中間截斷的統(tǒng)計圖，如圖3所示[7]。④在比較不同的事物和對象的統(tǒng)計量時，宜選用不同的線條或顏色表示，并附圖例加以說明，如圖4所示[8]。

圖1 中國成人按地區(qū)和年齡段劃分的肥胖率直條圖

圖2 2011年某研究卒中患者年齡分布直方圖

圖3 美國不同年齡和種族成年人的平均血壓值

圖4 聯(lián)合診斷與單因素診斷ROC曲線

2 統(tǒng)計推斷方法的規(guī)范應(yīng)用與典型案例解析

臨床研究中，統(tǒng)計推斷是數(shù)據(jù)分析的核心統(tǒng)計推斷所應(yīng)用的方法，應(yīng)與數(shù)據(jù)類型進行匹配。統(tǒng)計推斷主要包括假設(shè)檢驗、點估計和置信區(qū)間，不同類型的數(shù)據(jù)對應(yīng)不同的假設(shè)檢驗方法、參數(shù)估計方法，應(yīng)避免不同類型數(shù)據(jù)套用或誤用統(tǒng)計推斷方法。

2.1 定量資料的假設(shè)檢驗對于定量資料的假設(shè)檢驗，首先，需明確實驗設(shè)計類型，如單樣本、兩樣本或多樣本等，單因素或多因素等；其次，對定量資料進行參數(shù)檢驗，包括獨立性、正態(tài)性和方差齊性。兩樣本計量資料進行比較，如果兩組資料均符合正態(tài)分布且方差齊，選擇兩樣本t檢驗；如果兩組資料符合正態(tài)分布但方差不齊，則選擇校正的兩樣本t檢驗；如果其中一組或兩組資料不滿足正態(tài)分布，則選擇Wilcoxon秩和檢驗。多組單因素計量資料進行比較，如果各組資料均符合正態(tài)性和方差齊性，選擇單因素方差分析；如果某一組資料不滿足正態(tài)性或者方差不齊，則選擇Kruskal-Wallis秩和檢驗。如表2中的案例，年齡變量在青中年組和老年組之間的比較，使用兩獨立樣本t檢驗進行分析，得P<0.001，說明兩組年齡的差異是有統(tǒng)計學(xué)意義的。定量資料統(tǒng)計推斷常見的錯誤包括多個樣本均數(shù)的比較誤用多個兩樣本t檢驗替代方差分析；配對樣本t檢驗與兩獨立樣本t檢驗相互誤用等。

（1）多個兩樣本t檢驗與方差分析的誤用：t檢驗適用于單因素一、二水平實驗設(shè)計類型，每次只能比較兩個均數(shù)。如果是單因素多水平或多因素多水平等實驗設(shè)計類型，則不宜使用t檢驗，因為其會增加犯一類錯誤的概率。表3為3個年齡組不同性別收縮壓水平，若用兩樣本t檢驗分別對46～55歲組、56～65歲組和>65歲組的均數(shù)兩兩進行比較，結(jié)論為各組之間在男女研究對象中的收縮壓水平差異具有統(tǒng)計學(xué)意義。但是，應(yīng)用此種檢驗方法會大大增加犯一類錯誤的概率，應(yīng)選擇單因素方差分析，當(dāng)方差分析差異具有統(tǒng)計學(xué)意義的時候，再采用多重比較的方法。常用的多重比較方法有SNK-q檢驗法、LSD-t檢驗法、Dunnett-t檢驗法等[9]。

表3 各年齡組不同性別收縮壓水平[單位：mmHg]

（2）兩獨立樣本t檢驗與配對t檢驗的誤用：配對設(shè)計的t檢驗有自身配對和異體配對之分。表4為自身配對的范例，對急性缺血性卒中患者進行阿替普酶靜脈溶栓治療，治療前后測得各患者血壓值。該資料數(shù)據(jù)為自身配對設(shè)計，有學(xué)者把該資料當(dāng)作兩獨立樣本數(shù)據(jù)，直接將治療前后的資料按照完全隨機設(shè)計定量資料的t檢驗進行比較，得到t收縮壓=5.451，P收縮壓<0.001；t舒張壓=5.007，P舒張壓<0.001，推斷患者在治療前后血壓值的差異具有統(tǒng)計學(xué)意義。但這種方法與設(shè)計類型不匹配，應(yīng)選擇配對設(shè)計的t檢驗，計算各配對數(shù)據(jù)的差值，比較差值的平均值與“0”之間差異是否具有統(tǒng)計學(xué)意義。其統(tǒng)計分析結(jié)果為t收縮壓=6.842，P收縮壓<0.001；t舒張壓=8.788，P舒張壓<0.001，說明對急性缺血性卒中患者進行阿替普酶靜脈溶栓治療，治療前與治療后患者血壓差值的差異具有統(tǒng)計學(xué)意義。

表4 急性缺血性卒中患者阿替普酶靜脈溶栓治療前后血壓水平[單位：mmHg]

2.2 定性資料的假設(shè)檢驗定性資料的假設(shè)檢驗一般以各個處理組的頻數(shù)為計量單位，以列聯(lián)表的形式來表示。一般用于比較兩個或多個獨立樣本頻率或獨立樣本頻率分布，配對設(shè)計兩樣本頻率分布，單樣本分布的擬合優(yōu)度等。四格表χ2檢驗需注意其應(yīng)用條件：樣本總數(shù)（n）≥40，理論頻數(shù)（T）≥5。如果n≥40，但某個格子1≤T<5，需進行校正。但是如果n<40或T<1時，使用校正的χ2檢驗也不正確，此時可以使用Fisher確切概率法檢驗。如表2所示，男性在兩組中所占比例的比較使用獨立樣本2×2的χ2檢驗，兩組中文化程度的比較使用多個獨立樣本R×C列聯(lián)表的χ2檢驗，P<0.05說明差異有統(tǒng)計學(xué)意義。

某研究使用MRI 和CTA 兩種方法鑒別急性缺血性卒中，數(shù)據(jù)見表5。該資料是配對資料，應(yīng)采用配對四格表χ2檢驗，由于b+c=12+17=29<40，故需要校正，得到結(jié)果=0.552，P=0.458。如果使用獨立樣本四格表χ2檢驗，結(jié)果為χ2=15.78，P<0.01，則會得出錯誤的結(jié)論。

某研究比較兩組神經(jīng)性頭痛的總體有效率，數(shù)據(jù)見表6，該例中有一個格子的理論頻數(shù)>1而<5，故不宜直接采用獨立樣本四格表χ2檢驗，應(yīng)使用四格表校正χ2檢驗或Fisher確切概率法。故該研究的正確結(jié)果應(yīng)為：χ2=3.88，P=0.049。如果使用獨立樣本四格表χ2檢驗，結(jié)果為χ2=15.78，P<0.01，得出錯誤的結(jié)論。

表6 兩組神經(jīng)性頭痛患者的總有效率比較

2.3 回歸分析臨床研究中，經(jīng)常使用相關(guān)分析或回歸分析來研究兩變量之間的相關(guān)關(guān)系或依存關(guān)系，但在應(yīng)用過程中會出現(xiàn)多種錯誤，常見錯誤有直接使用分類的編碼數(shù)字進行分析，需將分類變量轉(zhuǎn)換為啞變量進行分析，如表7所示。某研究進行卒中后抑郁狀態(tài)影響因素的logistic回歸分析[10]，納入自變量時：將年齡分為4組，以<50歲為參照，其余3組轉(zhuǎn)變?yōu)閱∽兞窟M行分析；將BMI分為4組，以正常組（18.5～23.9 kg/m2）為參照，其余3組轉(zhuǎn)變?yōu)閱∽兞窟M行分析。

表7 卒中后抑郁狀態(tài)影響因素的logistic回歸分析

重復(fù)測量設(shè)計是指對同一受試者的同一觀察指標(biāo)，在不同時間點或不同條件下進行多次觀測的設(shè)計，由若干受試者得到的多次觀測結(jié)果稱為重復(fù)測量變量。由于數(shù)據(jù)不再滿足獨立性的特點，故不能直接采用普通的t檢驗或方差分析進行比較，一般需采用重復(fù)測量設(shè)計變量的方差分析。但是此種分析方法存在很大局限性，不允許數(shù)據(jù)缺失，所以，對于更普遍的重復(fù)測量數(shù)據(jù)（如存在少量的缺失值等），分析方法包括廣義估計方程、多水平模型等[11]。

某研究比較TIA患者及非神經(jīng)系統(tǒng)疾病患者入院后7 d、1個月、3個月認(rèn)知功能評分的變化，數(shù)據(jù)見表8。該資料設(shè)計類型為兩因素重復(fù)測量設(shè)計的定量資料，其中“組別”是試驗分組因素，“測定時間”為與重復(fù)測量有關(guān)的試驗因素，誤用析因設(shè)計進行分析的結(jié)果見表9，得到兩組之間認(rèn)知功能差異有統(tǒng)計學(xué)意義（P<0.001），但是不同時間的認(rèn)知功能差異無統(tǒng)計學(xué)意義（P=0.100），組別與時間交互差異無統(tǒng)計學(xué)意義（P=0.334）。正確的統(tǒng)計推斷應(yīng)采用重復(fù)測量方差分析，結(jié)果如表10所示，兩組之間認(rèn)知功能差異有統(tǒng)計學(xué)意義（P=0.011），不同時間的認(rèn)知功能差異亦有統(tǒng)計學(xué)意義（P<0.001），由于不同組別和時間的認(rèn)知功能差異均有統(tǒng)計學(xué)意義，所以組別與時間的交互作用顯著（P<0.001）。

表8 TIA組與對照組MMSE評分變化[單位：分]

表9 析因設(shè)計分析結(jié)果

表10 重復(fù)測量方差分析結(jié)果

3 數(shù)據(jù)處理方法的規(guī)范應(yīng)用與典型案例解析

3.1 離群值的處理臨床研究中，數(shù)據(jù)離群值的處理對分析的科學(xué)性、全面性非常重要。一組數(shù)據(jù)中往往會出現(xiàn)個別觀測值與其他數(shù)值相比差異較大，這樣的數(shù)據(jù)稱為離群值。只有當(dāng)有充分理由認(rèn)為該數(shù)據(jù)為離群值時，才可以將其刪掉進而進行后續(xù)統(tǒng)計分析。尤其是當(dāng)觀測數(shù)據(jù)量較少時，如果未查明離群值產(chǎn)生的原因，直接將其刪掉是不合適的，可能會對分析結(jié)果產(chǎn)生較大影響。

識別離群值的方法有以下幾種：①通過直方圖判斷。如果觀測值落在圖形兩端并遠離均數(shù)可能是離群值。②通過箱式圖判斷。觀測值距離箱式圖底線（P25）或頂線（P75）的距離為箱體高度（IQR）的1.5～3倍時，被視為離群值；距離>3倍，則被視為極端離群值。③通過統(tǒng)計檢驗判斷。檢驗觀測值偏離程度是否超出隨機誤差所能解釋的上限，超出均值±6倍隨機誤差的值可能是離群值。④結(jié)合其他相關(guān)變量信息判斷。如青春期兒童生長發(fā)育調(diào)查中，可以根據(jù)兒童身高和體重的線性回歸方程判斷其體重是否在正常范圍內(nèi)，如果對應(yīng)身高的體重超出預(yù)測值99%置信區(qū)間，可認(rèn)為是離群值。

離群值的處理方法：①如果確定數(shù)據(jù)有明顯邏輯錯誤，或者因測量或記錄過程中出現(xiàn)錯誤而導(dǎo)致，可直接剔除該數(shù)據(jù)。如某數(shù)據(jù)中觀測的收縮壓280 mmHg（1 mmHg=0.133 kPa），顯然是一條錯誤記錄，應(yīng)予以刪除。②如果確定數(shù)據(jù)無邏輯錯誤或者排除具有明顯邏輯錯誤的數(shù)據(jù)后，在數(shù)據(jù)分析過程中對離群值刪除前后分別進行一次統(tǒng)計分析，若結(jié)果不矛盾，則不刪除；若結(jié)果矛盾，需要刪除，并予以充分合理的解釋。

3.2 缺失值的處理數(shù)據(jù)缺失是統(tǒng)計資料中最常見的問題，如果不對其進行處理往往會損失信息甚至導(dǎo)致結(jié)果誤讀，所以對缺失值的識別和處理是數(shù)據(jù)預(yù)處理中最關(guān)鍵的步驟之一。數(shù)據(jù)缺失主要有3種，包括完全隨機缺失、隨機缺失和非隨機缺失。

缺失值的處理方法：①明確少數(shù)個體存在缺失值，且該變量不是分析的主要變量，可以考慮直接刪除存在缺失的個體值或者變量。②填補缺失值。常用的隨機缺失填補方法有均值填補法、回歸值填補法、末次訪視觀測值向前結(jié)轉(zhuǎn)法和多重填補法等。某研究使用中國健康與退休縱向隊列數(shù)據(jù)，評估中國中老年人群中抑郁癥狀和心血管疾病發(fā)病率之間的關(guān)系，采用鏈?zhǔn)椒匠痰亩嘀靥钛a法對缺失數(shù)據(jù)進行了填充[12]。一項隨訪18年的隊列研究探討休閑活動與癡呆發(fā)病風(fēng)險之間的關(guān)系，在敏感性分析中對休閑活動相關(guān)變量的缺失進行了多重填補[13]。

4 結(jié)果解釋方法的規(guī)范應(yīng)用

在統(tǒng)計分析之后，科研人員在對統(tǒng)計結(jié)果進行解釋時需注意以下事項：①根據(jù)相關(guān)要求和統(tǒng)計規(guī)范，應(yīng)明確表示出所用統(tǒng)計分析方法的名稱（如配對樣本t檢驗、隨機區(qū)組設(shè)計方差分析、配對四格表資料的χ2檢驗等）、統(tǒng)計量的具體值（如t=10.29，F(xiàn)=13.21，χ2=5.68等），尤其對于P值，需給出具體的數(shù)值（如P=0.003），而不是僅僅指出P<0.05。②P值的定義為在零假設(shè)成立的條件下，出現(xiàn)現(xiàn)有樣本統(tǒng)計量以及更不利零假設(shè)數(shù)值的概率。所以當(dāng)P<0.05時，不能直接下結(jié)論說“差異顯著”，正確的說法為“差異有統(tǒng)計學(xué)意義”。如抑郁狀態(tài)組的睡眠質(zhì)量較非抑郁狀態(tài)組差，差異有統(tǒng)計學(xué)意義（P<0.001），但兩組的睡眠時長差異無統(tǒng)計學(xué)意義（P=0.405）[10]。③在涉及總體均數(shù)或總體率時，除了給出顯著性檢驗結(jié)果之外，還應(yīng)給出95%置信區(qū)間。如某研究納入患者共3000人，其中治愈人數(shù)為289人，則治愈率為9.63%（8.78%～12.45%）。④最終給出統(tǒng)計結(jié)論時要慎重，橫斷面研究中與因變量顯著相關(guān)的變量不能稱為風(fēng)險因素，只有在明確時間順序下才能稱為風(fēng)險因素，如隊列研究中高血壓與卒中發(fā)生風(fēng)險增加存在關(guān)聯(lián)，不能將關(guān)聯(lián)關(guān)系理解為因果關(guān)系[14]。

綜上所述，在臨床研究中應(yīng)用統(tǒng)計學(xué)方法時：首先，要對數(shù)據(jù)進行正確的預(yù)處理；其次，要根據(jù)數(shù)據(jù)的類型選擇恰當(dāng)?shù)慕y(tǒng)計描述方法；再次，根據(jù)臨床研究設(shè)計類型和數(shù)據(jù)類型，按要求選擇合適的統(tǒng)計分析方法，切忌盲目套用，甚至誤用；最后，給出統(tǒng)計分析結(jié)論時，要對結(jié)果進行正確解讀。