999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

MetaCCA在多元表型與基因型相關分析中的應用

2019-01-31 02:41:06賈曉燦楊永利施學忠
鄭州大學學報(醫學版) 2019年1期
關鍵詞:分析

賈曉燦,楊永利,王 威,施學忠

1)鄭州大學公共衛生學院衛生統計學教研室 鄭州 450001 2)鄭州大學公共衛生學院勞動衛生與職業病學教研室 鄭州 450001

過去十幾年,全基因組關聯分析(genome-wide association study, GWAS)在識別疾病的常見變異方面取得了巨大進展,但越來越多的研究[1-2]結果表明罕見變異在復雜疾病的發生發展中同樣起著很大作用。單位點分析的GWAS忽略了不同表型之間的相關信息,因此不能有效識別復雜疾病中的罕見變異。MetaCCA也稱Summary statistics-based multivariate meta-analysis of genome-wide association studies using canonical correlation analysis[3],是利用典型相關分析(canonical correlation analysis, CCA)的原理,對GWAS的匯總統計結果進行分析,以探討多個疾病表型與基因型之間的關系,從而為研究疾病的發病機制提供依據[3-6]。該文將重點介紹metaCCA的原理和實現,并探討其在多元表型與基因型相關分析中的應用前景。

1 MetaCCA簡介

1.1MetaCCA的提出2005年Klein等[7]在Science雜志上首次報道了視網膜黃色雀斑的GWAS結果,并發現一個與視網膜黃色雀斑有顯著關聯的基因。此后,一系列針對人類復雜疾病或性狀的GWAS相繼開展,在肥胖、高血壓、高血脂、心血管系統疾病、腫瘤、神經精神類疾病等諸多疾病方面取得了突飛猛進的研究成果[8-10]。GWAS逐漸成為識別疾病遺傳變異最常用的方法,為眾多疾病的基因診斷及個體化治療提供了理論基礎。

GWAS是一種單因素分析方法,它只能分析一個單核苷酸多態性(single-nucleotide polymorphism,SNP)與一個表型之間的關系,忽略了多個SNP之間的內部關聯性以及復雜疾病中多個表型之間的相關性,因此檢驗效能有限[11-12]。隨著海量測序數據、基因表達數據、多維數據以及多元表型復雜疾病的出現,GWAS的局限性也越來越凸顯。此外,GWAS分析的數據需要具體到個體水平上,由于個體水平上的測序成本高而且數據需保密,因此目前僅有部分GWAS的匯總結果得以公開。如何基于公開發表的GWAS匯總統計的數據庫識別復雜疾病中的罕見變異,已成為目前基因組學研究面臨的主要問題[13]。2015年,Cichonska等[3]首次在《Bioinformatics》雜志上提出metaCCA的方法。CCA是一種分別提取自變量集與因變量集的最大主成分,通過兩個主成分的相關關系推測自變量集與因變量集之間的相關關系的方法[14]。MetaCCA是對公開發表的GWAS的匯總結果進行整理,利用傳統統計方法CCA,檢測多個SNP與多個疾病表型之間的關系。

1.2MetaCCA的優點與傳統的GWAS相比,metaCCA有如下優點。首先,metaCCA將多個GWAS結果匯總在一起,增大了樣本量,提高了檢驗效能。其次,metaCCA利用的是已公開發表的GWSA數據,不需要個體水平上的測序,是一個成本-效益較高的方法。最后,metaCCA借助于CCA的原理,既考慮到了基因型之間的內部關聯性,又考慮到了疾病表型之間的相關性。而傳統的檢驗多元表型與基因型相關性的方法是逐個對表型單之間與基因關聯性進行檢驗,然后采用多重檢驗校正。然而同一疾病的多元表型之間往往具有相關性,基于單個表型與基因型的關聯性分析難以全面揭示遺傳與復雜疾病的聯系[15]。利用多元表型變量間的相關性,從多元表型變量中提取類似主成分因子的策略進行相關分析,是識別復雜疾病中罕見變異的有效方法[16]。

2 模型建立與實現

①∑XY由單個SNP與單個表型變量的回歸系數β的矩陣組成,β可由單變量GWAS的匯總統計結果獲得,其表達式為:

式(2)中,g為基因型變量個數,一般為SNP個數;p為表型變量個數。

需要注意的是,X和Y應標準化轉換后才可以帶入計算,其標準化公式為:

式(3)中,N為樣本量,SEgp為βgp的標準誤,也可以由單變量的GWAS匯總統計結果獲得。

經過以上步驟可得出總協方差矩陣,在將此協方差導入CCA模型之前,需要先判斷總協方差矩陣是否為半正定矩陣(positive semidefinite,PSD)。當不滿足PSD時,需要使用迭代方法對矩陣進行降維,直至滿足PSD。此后,將總協方差矩陣進行CCA,計算基因型與表型之間的典型相關系數r:

2.3軟件實現及程序包MetaCCA主要通過Plink軟件(http://zzz.bwh.harvard.edu/plink/download.shtml)及R中的metaCCA包(https://github.com/MoisesExpositoAlonso/metaCCA)實現。假設將原始GWAS匯總統計結果整理后得到一個樣本量為n、含1 000個SNP和10個性狀的數據集S_XY_full_study,則metaCCA的軟件實現過程如下:

plink2 --file hapmap3 --extract SNP_id --keep CEU_hapmap --r2 inter-chr with-freqs --ld-window-r2 0 --make-bed --out uppro

S_YY=estimateSyy(S_XY=S_XY_full_study)

輸出結果為10×10的相關系數矩陣。

③利用metaCCA包中的metaCcaGp函數進行單個SNP(以rs123為例)與10個表型之間的相關分析,輸入數據為S_XY_full_study,代碼為:

result=metaCcaGp( nr_studies=1),

S_XY=list(S_XY_full_study),

std_info=0,

S_YY=list(estimateSyy(S_XY_full_study)),

N=n,

analysis_type=1,

SNP_id=(′rs123′)

輸出結果有三列,分別為“rs123”“典型相關系數r”和“-Log10P”

④假設rs123、rs125和rs127分布在基因A上,利用metaCCA包中的metaCcaGp函數進行基因A與10個表型之間的相關分析。輸入數據為S_XX_study和S_XY_full_study,代碼為:

result=metaCcaGp(nr_studies=1),

S_XY=list(S_XY_full_study),

std_info=0,

S_YY=list(estimateSyy(S_XY_full_study)),

N=n,

analysis_type=2,

SNP_id=c(′rs123′,′125′,′rs127′),

S_XX=list(S_XX_study)

輸出結果有3列,分別為“rs123、rs125和rs127”(即基因A)、“典型相關系數r”和“-Log10P”。

3 MetaCCA在醫學中的應用

3.1血脂水平相關基因的識別Cichonska等[3]利用3個芬蘭人群9個血脂表型的數據進行了metaCCA分析并與個體水平上的GWAS和CCA結果進行對比,納入的SNP有455 521個。與單變量GWAS結果相比,metaCCA的檢驗效能較高。比如GWAS結果顯示USP1/DOCK7和FCGR2A/3A/2C/3B兩個區域的SNP與血脂水平相關(P<5×10-8);通過metaCCA進一步驗證了此結果,而且發現了位于PCSK9/BSND、CELSR2和GALNT2基因區域的位點。基因水平上的分析選擇了5個基因,包括APOE、CETP、GCKR、PCSK9和NOD2,其中APOE、CETP、GCKR和 PCSK9已經被之前的研究證實和血脂水平相關,而NOD2未見報道。與個體水平上的CCA相比,metaCCA的結果比較準確,所選擇的5個基因中,有4個基因結果的絕對誤差不超過0.2。

3.2精神疾病共有風險基因的識別精神疾病是一類以感知和認知障礙導致行為、意志和情緒異常的復雜疾病。常見的精神疾病有精神分裂癥、雙相情感障礙、抑郁癥、孤獨癥和注意缺陷多動癥[18]。從血液樣品中抽提出患者全基因組DNA,使用群體遺傳學知識和統計推斷技術尋找與疾病相關的遺傳變異,是研究復雜精神疾病遺傳變異的主要途徑[19]。已有的GWAS和生物通路分析均顯示這幾種常見精神疾病之間存在共有的遺傳風險位點和生物路徑[20-21]。本課題組[22-23]利用metaCCA對美國精神病學基因組學聯盟(Psychiatric Genomics Consortium,PGC,網址: http://www.med.unc.edu/pgc/)的數據進行了統計分析,共發現37個多態性基因,其中13個已被報道與多種精神疾病相關,4個被報道僅與一種精神疾病相關,另有20個為新發現的基因。此外,基因功能富集分析結果顯示,這37個基因與黃素腺嘌呤二核苷酸結合、電壓門控鈣通路等多個路徑相關。這些被發現的基因為精神疾病的發病機制研究提供了線索。

4 MetaCCA的局限和挑戰

MetaCCA在多元表型與基因型數據關聯分析方面的應用,很大程度上增強了人們對復雜疾病遺傳機制的理解,對于復雜疾病的預防、治療有較大的實際意義,但是,也存在一定的局限性。首先,metaCCA主要依賴統計分析,因此可能會出現假陽性結果,尤其是在基因和通路水平上,容易出現某個SNP和多個表型強相關而導致該SNP所在的基因或通路有意義,此時就需要其他基因水平的統計方法或多元統計方法對metaCCA的結果進行篩選,或者結合基因功能分析結果綜合下結論。其次,metaCCA需要將多個GWAS結果整合在一起,而原有的GWAS選取的參照數據庫模板、最小等位基因頻率等處理因素可能不同,在數據篩選過程中,需控制或降低這些混雜因素的影響以及避免幾個研究之間樣本的重復。再次,metaCCA的核心思想是CCA,而CCA在納入變量時需要對原始變量進行篩選,當同一組內的變量存在較強相關關系時,一般建議刪除其中一個變量或將變量合并,以得到更加合理的模型。因此,對于metaCCA納入的基因型變量應通過連鎖不平衡或線性模型等方法進行篩選;對于表型變量,不僅要考慮臨床癥狀的相似性、生物路徑的相同性,還要考慮各變量之間相關性的強弱。最后,metaCCA的結果只能表明基因型與表型之間有無統計學關聯,其生物學機制還需實驗研究來證實。

5 小結

目前,對于metaCCA的研究雖處于起步階段,但已經為人類復雜性遺傳疾病以及高維數據的研究打開了一扇大門。該方法具有高通量、低成本、不涉及候選基因等優點,是目前分析多元表型與基因型相關關系的有效途徑,也可應用于基因組學、蛋白質組學等方面的研究,從而為人類了解復雜性疾病的發病機制提供更多的線索,但其理論和方法還需在應用中進一步完善。

猜你喜歡
分析
禽大腸桿菌病的分析、診斷和防治
隱蔽失效適航要求符合性驗證分析
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
經濟危機下的均衡與非均衡分析
對計劃生育必要性以及其貫徹實施的分析
現代農業(2016年5期)2016-02-28 18:42:46
GB/T 7714-2015 與GB/T 7714-2005對比分析
出版與印刷(2016年3期)2016-02-02 01:20:11
中西醫結合治療抑郁癥100例分析
偽造有價證券罪立法比較分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 国产成人精品第一区二区| 欧美a级在线| 国产精品综合色区在线观看| 欧美一级夜夜爽www| 亚洲清纯自偷自拍另类专区| 囯产av无码片毛片一级| 日韩在线视频网| 污网站在线观看视频| 亚洲国产欧美中日韩成人综合视频| 精品一区国产精品| 亚洲精品图区| 亚洲欧美精品一中文字幕| 久久美女精品| 国产男女免费完整版视频| 激情六月丁香婷婷| 欧美成人午夜在线全部免费| 国产色网站| 国产精品hd在线播放| 中字无码av在线电影| 人妻无码AⅤ中文字| 亚洲日本在线免费观看| 国产视频大全| 亚洲综合中文字幕国产精品欧美| 亚洲系列中文字幕一区二区| 欧美国产另类| 国产视频 第一页| 日本高清在线看免费观看| 国产女人在线观看| 久久久久亚洲AV成人网站软件| 国产男人天堂| 亚洲中文字幕无码mv| 亚洲色精品国产一区二区三区| 97色婷婷成人综合在线观看| 久久公开视频| 人妻丰满熟妇啪啪| 国产午夜精品鲁丝片| 日本三级黄在线观看| 亚洲精品自产拍在线观看APP| 91精品国产麻豆国产自产在线| 国产成人艳妇AA视频在线| 亚洲嫩模喷白浆| 亚洲欧洲日韩久久狠狠爱| 91一级片| 亚洲视频免费在线看| 91精品国产丝袜| 色网站在线免费观看| 国产成人无码AV在线播放动漫| 色老头综合网| 国产精品成人啪精品视频| 日韩午夜伦| 91精品aⅴ无码中文字字幕蜜桃 | 国产91在线免费视频| 精品中文字幕一区在线| 国产成人综合亚洲网址| 亚洲人成网站色7799在线播放| 久久免费成人| 99re在线免费视频| 免费三A级毛片视频| 激情六月丁香婷婷四房播| 中文字幕av一区二区三区欲色| 人妻精品久久无码区| 91小视频版在线观看www| 国产情侣一区二区三区| 狠狠色综合久久狠狠色综合| 国产主播喷水| 国产对白刺激真实精品91| 亚洲动漫h| 国产黑丝一区| 久久综合干| 最新国产你懂的在线网址| 国产丝袜丝视频在线观看| 高清欧美性猛交XXXX黑人猛交 | 四虎成人免费毛片| 成人a免费α片在线视频网站| 一区二区三区精品视频在线观看| 国产精品无码在线看| 久久久久久久97| 91精品国产综合久久不国产大片| 国产成人欧美| 不卡的在线视频免费观看| 最新国产麻豆aⅴ精品无| 久久国产亚洲偷自|