999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

孟德爾隨機化模型及其規范化應用的統計學共識*

2021-07-07 09:27:20CSCO生物統計學專家委員會RWS方法學組
中國衛生統計 2021年3期
關鍵詞:效應模型

CSCO生物統計學專家委員會RWS方法學組

高 雪1 薛付忠2 黃麗紅3 王 彤1△ 執筆 陳 峰4 夏結來5 主審

隨機對照試驗(randomized controlled trial,RCT)是評價因果效應的金標準,但由于受到倫理學、受試者依從性、研究期限等因素的制約,很多情況下難以實施。另外,RCT中納入排除標準的限制可能導致研究樣本與真實世界的人群出現異質性,因此研究結論的外推性也有待驗證。相比之下,觀察性研究和非隨機對照研究數據更易獲得,在樣本的選擇上也更接近真實世界的情況[1]。然而,觀察性或非隨機對照研究設計需借助恰當的因果模型來推斷暴露因素(干預)與疾病結局之間的因果關聯。

孟德爾隨機化(Mendelian randomization,MR)是以遺傳變異作為工具變量的統計模型。MR最早由Katan在探討低血清膽固醇水平會直接增加癌癥風險的假設中提出,近年來被廣泛應用于因果關聯研究中[2-4]。MR利用遺傳變異在配子形成過程中隨機分裂與組合的特性模擬對人群的隨機分配過程:個體在出生時是否攜帶影響特定表型的遺傳變異是隨機的,而遺傳變異在配子形成過程中既已確定,這一過程通常與后天的環境混雜因素是不相關的。因此,攜帶該變異與不攜帶該變異的人群在某結局上的差異則可以歸因于暴露因素的變異,從而排除混雜因素的干擾[5](圖1)。利用遺傳變異作為工具變量的主要優勢在于:遺傳變異的形成獨立于社會環境、生活習性和其他性狀,這一特性保證了各個混雜因素在遺傳變異的不同亞組間的均衡性,理論上避免了混雜因素的影響;另一方面,遺傳變異的形成先于環境暴露、混雜及疾病結局的發生及水平變化,由遺傳變異作為暴露的工具變量所解釋的暴露變異也是先于結局的,由此排除了逆向因果問題[6]。

圖1 孟德爾隨機化和隨機對照試驗的比較

MR模型作為一種能夠校正未測量混雜估計因果效應的統計學方法,在醫學研究中得到廣泛的應用,但針對模型的應用前提、核心假設、分析步驟以及結果解釋等問題,還需進行一些必要的考慮與評價。為此中國臨床腫瘤學會(CSCO)生物統計學專家委員會RWS方法學小組,經充分討論,形成以下應用共識,以期促進MR模型的規范化應用和規范化報道。

MR模型的基本假設及常見的MR方法

1.MR模型的基本假設

遺傳變異作為有效的工具變量需要滿足以下核心假設(圖2):

圖2 工具變量核心假設Z:工具變量;X:暴露;Y:結局;U:混雜

(1)關聯性:遺傳變異Z與暴露X相關(γ≠0);

(2)獨立性:遺傳變異Z與影響“暴露—結局”關聯關系的混雜因素U獨立(φ1=0);

(3)排他性:遺傳變異Z僅通過暴露X影響結局Y(φ2=0) 。

按照研究設計的不同,MR模型可以分為單樣本MR模型與兩樣本MR模型。

2.單樣本MR模型(one-sample MR)

單樣本MR模型是指使用來自單個樣本的數據構建MR模型,模型主要應用個體數據(individual data)作為研究樣本,樣本中同時包含每一個體的遺傳變異、暴露以及結局的測量數據。

系數比估計量(比例估計值)的置信區間可通過正態近似法或Bootstrapping法得到。

此外,還可通過兩階段回歸法得到因果效應的估計量。其中第一階段由暴露X對工具變量Z進行回歸,第二階段由結局Y對第一階段所得到的暴露估計值進行回歸。當結局為連續變量且采用線性模型時,該兩階段回歸法即為兩階段最小二乘法(two stage least square,2SLS),第二階段回歸時所得到的回歸系數即為暴露對結局的因果效應估計值[7]。當使用多個遺傳變異作為工具變量時,2SLS估計量可以看作各工具變量所對應的系數比估計量的加權平均,其中權重取各工具變量在第一階段回歸時與暴露的關聯強度。選用系數比估計或2SLS估計要依據所擁有的樣本數據情況來決定。當存在多個工具變量時,還可以將多個遺傳變異整合為一個加權或非加權的等位基因得分(allele score),或稱為基因風險得分(genetic risk score),再以得分作為工具變量構建MR模型[8-9]。

3.兩樣本MR模型(two-sample MR)

兩樣本MR模型中使用的遺傳變異與暴露的關聯關系統計量以及遺傳變異與結局的關聯關系統計量分別來源于兩個獨立的、不重疊的樣本。模型主要應用匯總數據作為研究樣本,樣本數據中僅包含遺傳變異與暴露及結局的關聯關系匯總統計量(包括關聯估計值、標準誤、顯著性P值等)。匯總數據一般來源于基于大樣本的全基因組關聯分析(genome-wide association study,GWAS),因此保證了兩樣本MR模型對因果效應的估計具有較高的效能,同時也提高了研究結果的可重復性。

MR模型的局限性及解決方法

應用滿足核心假設的工具變量是MR模型得到有效估計的必要條件,然而,由GWAS中獲取的絕大部分與暴露具有顯著關聯的遺傳變異,并未完全掌握其關聯的生物學機制,應用這些生物學機制尚不明確的遺傳變異作為工具變量增加了其違背核心假設的可能。除工具變量核心假設外,不同類型的MR方法還有一些特定的前提假設,當假設違背時,將會得到有偏的、不一致的估計量。以下介紹MR模型在實際應用過程中面臨的局限性問題,以及如何克服這些局限性,從而得到有效的估計量。

1.弱工具變量問題

應用強度高的工具變量可以有效提高MR模型估計因果效應的精度及效能,而當遺傳變異與暴露關聯性較弱時,會導致MR模型的估計量產生偏倚,稱之為弱工具變量偏倚。當構建單樣本MR模型時,估計量將會向受到混雜影響的觀察性研究估計量的方向偏倚,且會造成Ⅰ型錯誤率(假陽性率)膨脹,當構建兩樣本MR模型且兩個樣本無明顯重疊時,估計量將會向效應為零的方向偏倚[11]。

在MR模型中,常用Cragg-DonaldF統計量來評價工具變量的強度,弱工具變量所導致的偏倚大小和該統計量的期望值是相對應的。一個經驗法則是工具變量強度F統計量至少為10,當F小于10時,因果效應的估計量會出現嚴重的偏倚[12]。另外,F統計量與“工具變量—暴露”的關聯顯著性P值是對應的,該P值通常作為工具變量的篩選閾值。為了保證模型中工具變量具有足夠的強度,現有MR模型通常將全基因組顯著性水平(P<5×10-8)作為閾值篩選工具變量,從而避免潛在的弱工具變量偏倚[12]。另外,當MR模型中工具變量的平均強度較弱時,還可以應用一些改進的MR模型,如基于修正權重的IVW,Egger-SIMEX等模型來校正潛在的弱工具變量偏倚[13-14]。

2.多效性問題

多效性是指遺傳變異通過多種不同的路徑對某一性狀產生影響[15]。當利用多效性遺傳變異作為工具變量時,相當于構造了“工具變量—暴露—結局”路徑之外的其他通路,從而使得工具變量因違背核心假設而失效(圖3)。應用存在多效性的工具變量會導致所研究的因果通路的效應估計產生偏倚,Ⅰ型錯誤率增加[16]。遺傳變異的多效性效應是普遍存在的,而其對于MR模型的影響又是不可忽略的,因此如何排除多效性效應對于估計的影響是MR模型在實際應用中不可忽視的問題[17]。

圖3 多效性工具變量Z:工具變量;X:暴露;Y:結局

針對MR模型的多效性偏倚問題,目前的校正方法主要分為兩類:第一類方法首先識別并排除存在多效性的工具變量,再利用剩余無多效性的工具變量構建MR模型進行因果效應估計。可借鑒識別離群點的思想來識別多效性工具變量,其基本思想是:基于有效工具變量得到的比例估計值應是同質的,比例估計值之間的差異應是隨機的。此時多個比例估計值應基本分布在一條直線附近,而這條直線的斜率所代表的就是暴露與結局之間真實的因果效應值。反之,當某一工具變量對應的比例估計值與其他比例估計值之間存在顯著的異質性時,則提示該工具變量違背核心假設。比例估計值之間的異質性主要來源于多效性工具變量,由于多效性效應被摻入因果效應通路中,導致對應的比例估計值產生偏倚,從而與其他工具變量所對應的比例估計值相比體現出顯著的異質性[18]。

實際研究中,可以通過散點圖、漏斗圖等可視化方法結合統計檢驗方法識別多效性工具變量。常用的檢驗方法包含Q統計量檢驗[13,18]、MR-PRESSO異質性檢驗(mendelian randomization pleiotropy residual sum and outlier)[19]、HEIDI檢驗(heterogeneity in dependent instrument)[20]等。識別并剔除多效性工具變量后,可采用全局Q統計量檢驗、全局PRESSO檢驗、MR-Egger截距項檢驗等方法來評價剩余工具變量的多效性[21]。若剩余工具變量所對應的比例估計值已不存在異質性,則提示無多效性工具變量,接下來則可應用基于無多效性工具變量假設構造的MR模型進行效應估計[10,22]。

另一類方法為直接采用基于校正多效性偏倚的MR模型進行因果效應估計,這類模型允許工具變量存在多效性,在此情況下校正工具變量的多效性效應,同時估計暴露對結局的因果效應。基于校正多效性偏倚的MR模型中,基于個體數據的方法包含sisVIVE(some invalid some valid instrumental variable estimator)[23]、TSHT(two-stage hard thresholding)[24]、PRMR(pleiotropy-robust mendelian randomization)[25]等;基于匯總數據的方法包含MR-Egger[21]、基于中位數的估計(median-based estimate)[26]、基于眾數的估計(mode-based estimate)[27]、CAUSE(causal analysis using summary effect estimates)[28]模型等。

具體研究中,常利用基于不同假設的MR模型進行敏感性分析,并比較各種方法所得結果的差異性,從而評估研究結果對于多效性假設的穩健程度[29]。不同方法所得到的估計量若是一致的,提示多效性工具變量所引入的潛在偏倚被有效的校正,而不同模型所得到的估計量若有顯著的差異,則提示現有模型對于多效性工具變量較為敏感,有必要更進一步的進行分析與校正[30]。

3.連鎖不平衡問題

連鎖不平衡(linkage disequilibrium,LD)描述的是遺傳變異之間的相關性,這種相關性通常是由遺傳變異之間物理位置的臨近所導致的。遺傳變異之間存在LD時,每個遺傳變異提供的信息不獨立,當利用這些不相互獨立的遺傳變異作為工具變量時,則會導致效應估計產生偏倚。因此在構建MR模型時應盡量選擇相互獨立的遺傳變異作為工具變量,而當工具變量間存在LD時,可應用納入工具變量相關性信息的模型,如GSMR(generalized summary data-based MR)[22],從而避免連鎖不平衡問題對于模型的影響。

4.人群分層問題

人群分層是指遺傳變異與表型性狀的關聯性在不同種族或者國家的子群體中的異質性。這種異質性會導致遺傳變異作為工具變量無法實現對于混雜因素的隨機化過程,從而產生有偏的效應估計[31]。為了避免人群分層問題,在構建MR模型時通常選擇同種族人群作為研究對象;在統計分析上,可以針對潛在的異質性因素進行分層分析,或利用主成分分析方法進行校正,從而排除由于人群分層問題導致的虛假關聯出現[32]。

5.統計效能問題

MR模型估計因果效應的統計效能與納入模型中的工具變量所解釋的暴露變異比例相關,在樣本含量一定時,工具變量對暴露變異的解釋比例越高,模型的統計效能越高。因此,構建MR模型時要保證工具變量對于暴露變異的總體解釋比例在一個較高的水平,從而保證模型具有充足的統計效能[33]。單個遺傳變異對暴露變異的解釋作用通常是很小的,因此現有MR模型通常選定多個遺傳變異作為工具變量,從而增加工具變量對于暴露變異的解釋比例,提高估計的統計效能。在模型構建上,Radial IVW[13]、Three-sample MR[34]、MRMix[35]等模型通過放寬工具變量與暴露關聯的顯著性閾值納入更多的工具變量,同時校正由于弱工具變量的引入導致的潛在偏倚,從而提高模型的統計效能與估計精度。

樣本含量是決定MR模型統計效能的另外一個主要因素。遺傳變異的個體數據通常是難以獲取的,并且由于研究經費限制,單個研究只包含較小的樣本含量,因此基于個體數據的MR模型統計效能往往較低。相比之下,基于GWAS的匯總數據所構建的MR模型在數據獲取,成本效率上具有更明顯的優勢,而數以十萬甚至百萬計的樣本含量同時也保證了估計具有較高的統計效能。因此,目前研究大多利用匯總統計量構建MR模型,極大程度上推動了不同性狀與疾病之間因果推斷的研究。

另外,在選定工具變量構建MR模型進行因果效應估計之前,可以根據數據類型、樣本含量、工具變量個數等指標選取適當的統計效能先驗估計方法來預測模型的統計效能[36-38]。

6.結論外推問題

在對MR模型得到的因果效應估計量進行解釋時,需要注意的一點是,遺傳變異所解釋的暴露變異只是暴露總變異中的一部分,因此利用遺傳變異作為暴露的工具變量來估計其對結局的因果效應,所得到的效應值也只是由工具變量所決定的這一部分暴露變異對結局的效應,而由其他非遺傳因素所決定的暴露變異對于結局的效應,是無法通過MR模型獲得的。嚴格來說,由MR所得到的暴露對結局的效應估計量不能完全等同于真實的因果效應[39]。另外,在設計嚴謹,工具變量核心假設滿足的情況下,MR模型可以為暴露與結局之間是否具有因果關聯提供統計學上的線索,為后續更明確的試驗研究及機制探索提供理論依據,但任何單一的研究方法都無法完全明確因果關系。真實的因果關聯應結合疾病的生物學機制、完善的試驗及臨床研究結果等多方面證據綜合進行探討[40]。

MR模型的規范化應用報道

在實證研究中,構建MR模型進行因果效應估計主要包含以下步驟:根據研究設計選擇合適的樣本并收集數據;選擇與暴露相關的遺傳變異作為工具變量;根據樣本數據的不同類型(個體數據、匯總數據)選擇合適的MR模型進行估計與推斷;根據統計分析結果做出客觀的、合理的解釋。上述步驟中需要注意的問題已在第二部分進行了詳細的論述,總結來說,在構建MR模型進行實證研究時,需要對模型的假設及工具變量核心假設是否滿足進行充分的評估,并對模型進行合理的選擇與正確的應用,以確保統計結論的有效性。下面以結果檢查報告表的形式給出MR模型的應用報道指南。

表1 MR模型結果報告檢查表

猜你喜歡
效應模型
一半模型
鈾對大型溞的急性毒性效應
懶馬效應
今日農業(2020年19期)2020-12-14 14:16:52
場景效應
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
應變效應及其應用
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
偶像效應
主站蜘蛛池模板: 婷婷午夜影院| 欧美日韩久久综合| 精品伊人久久久久7777人| 亚洲欧洲日产国产无码AV| 欧类av怡春院| 亚洲最黄视频| av在线5g无码天天| 18禁黄无遮挡免费动漫网站| 在线毛片网站| 992tv国产人成在线观看| 国产欧美日本在线观看| 国产人成乱码视频免费观看| 无码啪啪精品天堂浪潮av| 精品乱码久久久久久久| 国产精品太粉嫩高中在线观看| 久久性妇女精品免费| 野花国产精品入口| 天天综合网色中文字幕| 99国产精品国产| 福利在线不卡| 日本亚洲欧美在线| 国产精品福利尤物youwu| 亚洲av无码牛牛影视在线二区| 又猛又黄又爽无遮挡的视频网站| 国产日韩精品一区在线不卡| yjizz视频最新网站在线| 亚洲综合日韩精品| 最新国产你懂的在线网址| 欧美日韩一区二区三| 欧美日韩精品一区二区视频| 曰AV在线无码| 亚洲高清无码久久久| 毛片a级毛片免费观看免下载| 日韩A级毛片一区二区三区| 精品少妇三级亚洲| 国产欧美精品午夜在线播放| 丰满的熟女一区二区三区l| 国产精品视频白浆免费视频| 18禁不卡免费网站| 毛片免费高清免费| 91久久偷偷做嫩草影院免费看| 久久精品亚洲专区| 97人妻精品专区久久久久| 综合社区亚洲熟妇p| 日韩A∨精品日韩精品无码| 欧美在线精品怡红院| 亚洲美女一区二区三区| 波多野结衣中文字幕一区二区 | 亚洲综合色婷婷| 美女免费黄网站| 亚洲av色吊丝无码| 欧洲亚洲一区| 天天综合网色中文字幕| 国产精品自在在线午夜区app| 日韩成人免费网站| 欧美日韩中文国产va另类| 无码AV日韩一二三区| 白浆视频在线观看| 国产精品香蕉在线| 日韩欧美中文在线| 国产无码在线调教| 国产波多野结衣中文在线播放| 波多野结衣视频一区二区| 中文字幕永久视频| 亚洲男人的天堂在线观看| 精品久久久久久久久久久| 国产剧情无码视频在线观看| 波多野结衣亚洲一区| 老司机精品一区在线视频| 99国产精品免费观看视频| 久久免费看片| 色爽网免费视频| 五月天丁香婷婷综合久久| 女同久久精品国产99国| 中文字幕 91| 欧美成人精品一区二区| 在线观看国产精品一区| 国产av无码日韩av无码网站| 亚洲全网成人资源在线观看| a级毛片免费网站| 婷婷激情五月网| 欧美精品在线免费|