周小禹
(廣西省桂林市全州二中生物組,桂林市 541000)
?
基于基因組關聯數據識別阿爾茨海默病相關通路
周小禹
(廣西省桂林市全州二中生物組,桂林市 541000)
摘要::阿爾茨海默病又稱老年性癡呆,是一種復雜的中樞神經系統退行性疾病,本文選取一套阿爾茨海默病全基因組關聯分析(GWAS)數據,利用ProxyGeneLD 軟件進行基因水平上的檢驗,利用WebGestalt 數據庫進行遺傳通路分析,識別出320個顯著(P<0.05)的阿爾茨海默病相關基因、8個顯著的KEGG通路和41個顯著的GO功能類,這些研究結果對進一步揭示阿爾茨海默病潛在的發病機制具有重要意義。
關鍵詞:全基因組關聯研究;遺傳通路;阿爾茨海默病
阿爾茨海默病 (Alzheimer’s disease, AD),又稱老年性癡呆,是一種復雜的中樞神經系統退行性疾病,以高級認知功能障礙為特征,以老年斑、神經纖維纏結和神經元丟失為主要病理改變的綜合病。阿爾茨海默病發病率與年齡呈現正相關性。據估計,65歲老年人發病率為4.4%,90歲以上老年人的發病率是22%[1]。隨著世界人口日趨老齡化,阿爾茨海默病已經成為當前老年醫學面臨的最嚴峻的問題之一。在我國,人口的老年化進程不斷加快,如何對這兩種常見老年疾病進行有效地預防和早期治療,已成為我國面臨的一項關系到國家人口研究數據識別阿爾茨海默相關的風險位點和遺傳通路。
目前,歐洲和美國研究人員普遍采用全基因組關聯研究(Genome-Wide Association Studies, GWAS)和候選基因研究的方法篩選阿爾茨海默病易感基因,取得了前所未有的成就。一些新的阿爾茨海默病易感基因,例如CR1, BIN1, CLU, PICALM, MS4A4/MS4A6E, CD2AP, CD33, EPHA1和ABCA7等已經被逐漸報道[2]。AD作為一種人類復雜性狀,涉及多個基因,但是每個基因對表型只有較小或微小的影響,只有若干個基因共同作用,才可對表型產生明顯影響,即個體表型是與多個基因相關的變異協同作用的結果。因此,利用生物信息學識別AD相關的遺傳學通路,更能揭示潛在的遺傳機制。本研究通過利用生物遺傳通路分析方法,分析基因組關聯研究AD數據,識別影響AD的生物學遺傳通路,揭示AD潛在的遺傳機制。
1材料與方法
1.1遺傳關聯研究數據
選取一套AD GWAS數據,該數據公開獲得。該數據包含11 789歐洲人,其中有3 941 AD 病例個體和7 848個對照個體。本套數據包含529 205個人類常染色體單核苷酸多態性(Single nucleotide polymorphism, SNP)數據。所有SNP信息來自人類基因組版本37(Human genome build 37)和SNP版本132(dbSNP build 132)。加性模型下的回歸分析用來衡量單個SNP和AD的關聯。最終,我們得到了761個P<=1.00×10-3的SNPs。更多詳細信息在文章中有描述[3]。
1.2方法
1.2.1基因水平上檢驗AD GWAS
利用ProxyGeneLD軟件進行基因水平上的檢驗。該軟件考慮到人類基因上復雜的連鎖不平衡模式,利用HapMap數據的連鎖不平衡信息[4],矯正由于基因長度所引起的顯著性膨脹問題。如果有一些SNP在HapMap數據中高度連鎖平衡 (r2>0.8),那么這些SNP歸為一類,作為單個遺傳信號。然后檢驗每個GWAS顯著的SNP是否包含在某一個類里面。最后,每個基因都賦予一個經過多重檢驗矯正的P值。我們選取矯正后P<0.05的基因進行通路水平上的檢驗。
1.2.2通路水平檢驗AD GWAS
利用WebGestalt數據庫進行遺傳通路分析,連接地址為:http://bioi nfo.vanderbilt.edu/webgest alt/[5]。對于一個給定的通路,采用超幾何分布檢驗識別這一通路與AD關聯是否顯著。在某一個通路中觀測到K個AD相關基因的P值可以計算為:
N是所有參考基因的數據, S是所有AD相關基因的數目,m是通路中含有的基因的數目,K是通路中含有的AD相關基因的數目。我們采用FDR(False discovery rate)方法進行多重檢驗校正[5]。對于任何一個通路,如果校正后的P<0.05,并且含有至少5個AD相關基因,則認為這個通路和疾病顯著相關。
2結果與分析
2.1顯著富集的KEGG通路
利用ProxyGeneLD軟件進行基因水平上的檢驗,識別出320個AD基因。根據WebGestalt進行通路水平上的檢驗,分別發現了8個顯著的KEGG通路(P<0.05)。其中Cell adhesion molecules,是最顯著的遺傳通路。其它通路主要包含3個心血管疾病通路(Dilated cardiomyopathy,Arrhythmogenic right ventricular cardiomyopathy和Hypertrophic cardiom-yopathy),代謝通路(Glycosaminoglycan biosynthesis-chondroitin sulfate 和Purine metabolism),神經系統和疾病(5個),見表1。

表1 顯著的KEGG通路
注:NG:輸入基因列表中注釋到通路中的基因數據 (輸入基因數目); NGR:通路中還有的基因數目(參考基因中的所有基因數目); O:觀測到在通路中與AD相關基因的數目,rawP:原始的P值,adjP:矯正后的P值。
Notes: NG means the number of inputting genes; NGR means all of the genes in reference gene set; O means the number of genes associated with AD in a pathway; rawP means the original P value; adjP means the P value after correction.
2.2顯著富集的GO通路
利用320個AD基因,我們得到了41個顯著的功能類P<0.05。我們進一步發現這些功能里都與代謝有關。主要包含reverse cholesterol transport (GO:0043691), phospholipid efflux (GO:0033700), triglyceride homeostasis (GO:0070328), activation of phospholipase C activity (GO:0007202), lipid metabolic process (GO:0006629), cholesterol efflux (GO:0033344), cholesterol homeostasis (GO:0042632), cholesterol metabolic process (GO:0008203), lipid transport (GO:0006869),和lipoprotein metabolic process (GO:0042157)。 有趣的是, cell adhesion (GO: 0007155) 依然是第三顯著的通路P=1.90×10-5。本研究中我們列出前10個顯著的功能類,見表2。

表2 前十個顯著的GO通路
注:NG:輸入基因列表中注釋到通路中的基因數據 (輸入基因數目); NGR:通路中還有的基因數目(參考基因中的所有基因數目); O:觀測到在通路中與AD相關基因的數目,rawP:原始的P值,adjP:矯正后的P值。
Notes:NG means the number of inputting genes; NGR means all of the genes in reference gene set; O means the number of genes associated with AD in a pathway; rawP means the original P value; adjP means the P value after correction.
3討論與結論
生物信息學是生命科學、計算機科學和信息科學等學科逐步發展相互滲透的新興交叉學科。隨著對人類基因組計劃的深入研究,生物信息學得到了蓬勃的發展,尤其是在了解各類疾病的發生機制及遺傳基礎上發揮了重要作用[6]。通過識別出與疾病發生發展相關的基因和通路,再據此進行實驗驗證,將是一種高效的研究途徑。AD是一種復雜疾病,利用生物信息學識別AD相關的遺傳學通路,更能揭示AD潛在的遺傳機制。本研究我們利用生物信息學方法,采用生物遺傳通路分析了一套AD全基因組關聯研究數據。
本研究中,我們利用ProxyGeneLD軟件進行基因水平上的檢驗,檢測出320個顯著(P<0.05)的AD基因。利用WebGestalt進行通路水平上的檢驗,發現了8個顯著的KEGG通路和41個顯著的GO功能類(P<0.05)。其中,我們發現Cell adhesion molecules是KEGG中最顯著的遺傳通路,也是GO通路中第三顯著的遺傳信號。我們查閱了相關文獻,前期的研究支持了我們的發現。Lambert和Jones等人都使用ALIGATOR和GenGen軟件,并且都用來分析兩套AD GWAS數據,但是這兩個研究卻沒有產生一致的結果[7]。中國科學院的研究人員認為不同的研究可能有共享的遺傳通路。為了檢驗這種假設,他們應用多重遺傳通路分析方法,分析了來自法國和美國的AD GWAS數據(9 580個樣本)。在KEGG數據庫中,發現了一個與阿爾茨海默病高度相關的遺傳通路(Cell adhesion molecules,CAM)。在GO數據庫,他們重復了這一發現[7]。進一步我們發現,cell adhesion molecules還參與了好多自身免疫疾病[8]。
同時,我們發現了AD參與了3條直接與心血管病相關通路,Dilated cardiomyopathy, Arrhythmogenic right ventricular cardiomyopathy 和 Hypertrophic cardiom-yopathy。該結果也進一步驗證了早期廣東醫科大學的發現。研究人員對來自歐洲的14 138個樣本(6 399個AD疾病個體和7 739個對照個體) 進行了全基因組范圍內基于基因和生物遺傳通路水平上的分析。利用基因水平上關聯檢驗的方法得到了1 458個顯著(P<0.05)的AD 基因。然后采用生物遺傳通路分析對1 458個AD相關基因進行KEGG和GO遺傳通路注釋,結果發現了3個與心血管疾病有關的顯著富集的KEGG通路:viral myocarditis (hsa05416), dilated cardiomyopathy(DCM)(hsa05414),hypertrophic cardiomyopathy (HCM) (hsa05410)。因此,本研究中,我們驗證支持了dilated cardiomyopathy (DCM) (hsa05414) 和 hypertrophic cardiomyopathy (HCM) (hsa05410)。
本研究中,進一步發現了顯著的代謝GO功能類,進一步支持了早期的研究結果。國外的研究人員Jones等分析了兩套AD GWAS數據. 識別出25個顯著的GO功能類,大部分都與代謝有關[6]。本研究中,我們選用KEGG通路和GO通路,主要基于以下考慮:KEGG是通過人工文獻閱讀和提取的生物學知識數據庫,沒有明顯的分層迭代結構[9];GO數據庫主要是基于計算預測以及人工注釋,具有明顯的分層迭代結構,而且GO分析假定每個GO功能分類是彼此獨立的,只有大約1%的功能分類是經過試驗驗證的[10]。因此,這兩個數據庫形成了很好的補充。
盡管本研究得到了有價值的結果,但仍有其局限性。例如本研究中我們采用了多重檢驗校正,但是還不足以校正所有的偏倚,研究結果最好需要隨機擾動試驗。但是目前我們無法獲得原始的基因型數據,因此我們后期的研究中還需要獲得原始基因型數據,來進一步驗證研究結果。
參考文獻
[1]BETTENS K, SLEEGERS K, BROECKHOVEN C V. Current status on Alzheimer disease molecular genetics: from past, to present, to future[J].Human Molecular Genetics,2010,19(R1):R4-R11.
[2]BERTRAM L, MCQUEEN M B, MULLIN K, et al. Systematic meta-analyses of Alzheimer disease genetic association studies: the AlzGene database[J].Nature Genetics,2007,39(1):17-23.
A V, CONSORTIUM D, INVESTIGATORS M, et al. Common inherited variation in mitochondrial genes is not enriched for associations with type 2 diabetes or related glycemic traits[J]. Plos Genetics,2010,6(8):e1001058.
[4]CAPONE R, JANG H, KOTLER S A, et al. Probing structural features of Alzheimer's amyloid-beta pores in bilayers using site-specific amino acid substitutions[J]. Biochemistry, 2012, 51(3): 776-785.
[5]ZHANG B, KIROV S, SNODDY J. WebGestalt:an integrated system for exploring gene sets in various biological contexts[J].Nucleic Acids Research,2005,33(Web Server issue):W741-748.
[6]YOONA H, FLORES L F, KIM J. MicroRNAs in brain cholesterol metabolism and their implications for Alzheimer's disease[J]. Biochimica et Biophysica Acta (BBA)-Molecular and Cell Biology of Lipids, 2016, doi:10.1016/j.bbalip.2016.04.020.
[7]LIU G, JIANG Y, WANG P, et al. Cell adhesion molecules contribute to Alzheimer's disease: multiple pathway analyses of two genome-wide association studies[J].Journal of Neurochemistry, 2012, 120(1):190-198.
[8]LIU G, JIANG Y, CHEN X, et al. Measles contributes to rheumatoid arthritis: evidence from pathway and network analyses of genome-wide association studies[J].PLoS One,2013,8(10):e75951.
[9]JOZWIAK K, ZEKANOWSKI C, FILIPEK S. Linear patterns of Alzheimer's disease mutations along alpha-helices of presenilins as a tool for PS-1 model construction[J].Journal of Neurochemistry,2006,98(5):1560-1572.
[10]SIVAPRAKASAM K. Towards a unifying hypothesis of Alzheimer's disease: cholinergic system linked to plaques, tangles and neuroinflammation[J].Current Medicinal Chemistry,2006,13(18):2179-2188.
Identifying risk pathways of Alzheimer’s disease based on the data of genome-wide association studies
ZHOU Xiaoyu
(QuanzhouNo.2MiddleSchool,Guilin540000,China)
Abstract:Alzheimer’s disease (AD), which is also called senile dementia, is a kind of complex central nervous system degenerative diseases. In this paper, we selected a genome-wide association study dataset of AD, and conducted a gene-based test using ProxyGeneLD and a pathway analysis using WebGestalt. We identified 320 significant AD genes (P<0.05), 8 significant KEGG pathways and 41 significant GO pathways (P<0.05).These results are helpful to elucidate the potential pathogenies of Alzheimer’s disease.
Keywords:Genome-wide association studies; Genetic pathways; Alzheimer’s disease
收稿日期:2016-03-31;修回日期:2016-05-25.
*通信作者:周小禹,男,中學教師,研究方向:生物技術及數據分析;E-mail:171393516@qq.com.
doi:10.3969/j.issn.1672-5565.2016.02.10
中圖分類號:R541
文獻標志碼:A
文章編號:1672-5565(2016)02-123-04