中國醫學科學院 北京協和醫學院 國家心血管病中心 阜外醫院 醫學統計部(102300)白銀曉 王子悅 柴 昊 趙延延 范肖雪 李 衛 王 楊
【提 要】 目的 比較Peto-MacMahon非參數法(PM)和Rosner回歸校準法(RC)對線性回歸中回歸稀釋偏倚的校正效果,同時討論不同情況下得到回歸系數最佳校正效果時所需要的最小樣本量。方法 用Matlab軟件隨機模擬產生重復測量數據,建立線性回歸模型,用PM法和RC法進行校正,比較設定的真實系數與校正前、后回歸系數,評價校正效果。結果 總體樣本量很大時(大于10000),無論測量誤差的大小,當重復測量樣本量達到總體樣本量的10%~30%,回歸系數能達到最佳校正效果;兩種方法穩定性差異無統計學意義,但PM法在計算上有更大的優勢??傮w樣本量較小時(小于300),無論測量誤差的大小,當重復測量樣本量達到總體樣本量的15%~30%,回歸系數能達到最佳校正效果;但當測量誤差很大,樣本量小于50時,RC法更穩定。結論 無論測量誤差的大小,當重復測量數據達到一定樣本量時,兩種方法對回歸系數的校正均有很好效果。在測量誤差很大,且重復測量數據很少時,建議采用RC法進行校正;在其他情況下,建議采用PM法。
統計分析過程中,在收集數據時,經常由于測量工具的不精確或個體差異等原因,導致測量誤差的產生。MacMahon發現[1],當利用自變量的單一測量值進行回歸分析時,由于隨機測量誤差的存在會導致回歸系數的估計值比真值偏小,這種現象被稱為回歸稀釋偏倚[2-3]。如何消除上述偏倚,獲得真實的關聯程度估計是流行病和臨床研究中的一個普遍問題。
在大型的流行病學或前瞻性臨床研究中,研究者會在不同的隨訪時點對被觀察對象某些生理指標(例如心率、血壓等)進行重復測量,利用這些重復測量數據(同分布),可以計算回歸系數偏倚的程度、并獲得校正因子(回歸稀釋系數)值,通過該校正因子、可對基于由單一基線觀測值得到的回歸系數估計值進行調整,從而獲得更接近“真實”關聯程度的估計結果。
本文將對文獻報道中常用的Peto-MacMahon非參數法和Rosner回歸法進行對比分析,通過隨機模擬比較,探討兩種方法在不同樣本量、不同測量誤差的前提下對回歸稀釋偏倚的校正效果。
1.重復測量數據與“回歸稀釋偏倚”校正
考慮在進行關聯分析時普遍使用的線性模型:
Y=α+β·X+ε
(1)

當協變量X為重復測量數據時,設首次測量值為W,重復測量值為T。有
(2)

將首次測量值W作為真實值X代入(1)式,有
Y=α*+β*·W+δ
(3)


(4)

2.Peto-MacMahon 非參數估計法

(5)


3.Rosner回歸估計法
對于由(2)式定義的重復測量數據,可在首次測量值W和重復測量值T間建立線性回歸模型[9]
T=αT|W+βT|W·W+τ
(6)

(7)

1.模擬設計
假設預進行一真實的臨床關聯性研究,評價血壓水平與某特定定量結局指標間的關聯。首先假定存在N=10000的真實總體,設定預后因素收縮壓X~N(110,102),測量誤差U1,U2~N(0,22)。設定回歸系數的真實值β=-4,-2,-1,-0.5,0.5,1,2,4,分別建立線性回歸模型Y=β·X,產生因變量Y的真值。由(2)式可產生首次測量值W和重復測量值T。

其余假設不變,設測量誤差U1,U2~N(0,102),重復上述模擬步驟,討論測量誤差的變化對回歸系數產生的影響。
再考慮樣本量較小的情況。設總體樣本量N=300,重復測量樣本量不少于總體樣本量的10%[10],取n=30,50,80,100,150,200,測量誤差分別為U1,U2~N(0,22)和U1,U2~N(0,102),重復上述模擬步驟。
考慮U1,U2不同分布的情況。其余假設不變,測量誤差U1~N(0,22),U2~N(0,102),重復上述模擬步驟。盡管MacMahon法不適用于測量誤差不同分布的情況,但將兩種方法得到的結果進行秩和檢驗,若檢驗結果為兩種方法得到的校正因子無顯著性差異,由于MacMahon法在計算上的優勢,在實際中仍可考慮用MacMahon法。
2.模型效果評價標準
評價模型校正效果的標準有兩個:(1)校正后回歸系數與設定真實值之差的絕對值。絕對值越小說明校正效果越好。(2)校正后系數的標準差。標準差越小說明校正效果越穩定。本研究設定校正后的回歸系數在[β-0.01β,β+0.01β]區間時,校正效果好[11]??筛鶕藰藴蚀_定兩種方法分別達到回歸系數最佳校正效果所需要的最小樣本量。

3.模擬結果


表1 MacMahon法和Rosner法對回歸系數調整的效果(N=10000)
穩定性分析:在任何β取值下,P>0.05,兩種方法的穩定性差異無統計學意義,可認為估計效果相同。由于MacMahon方法在計算時的巨大優勢,故采用MacMahon非參數的方法。


表2 MacMahon法和Rosner法對回歸系數調整的效果(N=300)
因此,當總體樣本量較小時,重復測量數據樣本量達到總體樣本量的15%~30%時,調整后的系數估計值就能達到較好的效果。
穩定性分析:(1)當方差s2=22,β=1,2,4,-1,-2,-4條件下,P<0.05,說明兩種方法的穩定性差異有統計學意義。由于利用Rosner方法估計出的系數標準差較大,即調整效果不穩定,因此選擇MacMahon法更合適。(2)當方差s2=102,在任何β條件下,P>0.05,兩種方法的穩定性差異無統計學意義,可認為估計效果相同。由于MacMahon方法在計算時的巨大優勢,采用MacMahon非參數的方法。但n=30時,MacMahon方法所得到的系數標準差非常大,說明方法非常不穩定,且此時利用Rosner方法在計算上并不會比MacMahon方法花費時間更多,因此當重復測量數據小于50時,應選擇Rosner方法。
(3)兩次測量誤差方差不同時(表3),可看出,此時計算的校正因子比測量誤差的方差相同時得到的校正因子值增大,與實證結果相符。且盡管MacMahon理論上不適用于方差不同的情況,但從模擬的結果可知,在任何β條件下,P>0.05,即由兩種方法得到的校正因子間差異無統計學意義。因此在實際中,若樣本量較大時,考慮MacMahon法計算上的優勢,仍然建議選擇MacMahon法對回歸系數進行校正。

表3 兩次測量誤差不同校正因子與統計學P值(U1~N(0,22),U2~N(0,102))
上述的模擬分析表明,未校正的回歸系數估計值均小于真實回歸系數值,與“回歸稀釋偏倚”現象理論結果相符。在測量誤差固定的情況下,只要達到一定樣本量,對回歸系數值估計的校正均有很好的效果。尤其當測量誤差較大時,未經校正的系數估計值非常不準確,對其進行校正顯得尤為重要。根據模擬研究結果可知,當測量誤差較大(測量誤差的方差大于樣本分布的方差),樣本量小于50時,由于Rosner回歸法穩定性更好,應采用Rosner回歸法;其余情況,從計算效率和穩定效果上考慮,均可采用Peto-Macmahon法。
在實際研究中,當遇到重復測量數據問題進行回歸系數估計或者進一步估計危險率等指標時,需要根據觀測數據的分布等性質選擇適當的方法對回歸系數進行校正。盡管此時我們不知道真實系數值的大小,只要樣本量達到一定量的條件,就能有很好的校正的效果。需要注意的是,實際問題中,進行回歸稀釋偏倚校正時,應首先考慮所關注的預后變量其重復測量數據間是否具有獨立性,在回歸稀釋問題的場景下,重復測量數據間理論上不獨立、但應滿足條件獨立(對應測量誤差),條件獨立性可考慮通過回歸調整后,檢驗殘差是否獨立等方法來進行判斷。此外,所關注的重復測量來源變量,應符合正態分布,或者將數據進行適當變換(如對數變換)后符合正態分布,在此基礎上再選擇合適的方法對稀釋系數進行校正。在上述條件無法滿足時,例如重復測量數據間存在時間趨勢,那么在分析重復測量數據與結局指標的關聯時,應采用具有針對性且適宜的方法對回歸稀釋偏倚進行矯正[16]。
在亞太群組協作研究組織(the Asia Pacific Cohort Studies Collaboration,APCSC)研究已發表的文章中,已有很多作者使用了重復測量數據來校正回歸稀釋偏倚。如Anushka Patel等人[13]利用重復測量的膽固醇含量數據,Koshi Nakamura等人[14]利用重復測量的收縮壓數據,Mark Woodward等人[15]利用重復測量的高密度脂蛋白膽固醇數據對回歸稀釋系數進行校正,進而評估這些因素與結局死亡率間的關系。
本文只探討了一個危險因素的情況,當有多個危險因素時,仍可以選擇Rosner方法對相應的稀釋系數進行校正,然而MacMahon法無法對多因素的回歸模型進行處理。此外,MacMahon法和Rosner法均是考慮在基線數據的條件下,重復測量數據是真實數據的無偏估計。因此校正因子的取值依賴于首次測量(基線)和重復測量的順序。若無法判別一批重復測量數據中哪些為基線測量、哪些為重復測量,MacMahon法和Rosner法的校正效果均失效,需要從基線數據和重復測量數據間的方差與相關性角度選擇另外方法如積差相關系數法、組內相關系數法、極大似然法和Rosner方差組件法對回歸稀釋系數進行校正[8]。同樣,本文的模擬研究并未覆蓋存在多次重復測量的場景,因此在就本文結果做應用或外推時,需考慮上述局限性可能造成的影響。