曾 平 趙 楊 陳 峰△
新一代測序數據的罕見遺傳變異關聯性統計方法*
曾 平1,2趙 楊1陳 峰1△
通過在基因組水平上對成千上萬的單核苷酸多態性(single nucleotide polymorphism,SNP)進行系統性檢測和分析,全基因組關聯性研究(genome-wide association study,GWAS)發現了一系列與人類復雜性狀和疾病(比如,身高、惡性腫瘤、糖尿病和高血壓)相關的常見遺傳變異位點[1-3]。這些發現為深入研究疾病的遺傳基礎、發展新的診斷技術和治療方法提供了全新的視角。
現階段GWAS的有效性主要取決于常見疾病常見變異(common disease common variant,CDCV)的假設[4],即認為復雜疾病是大量具有弱效應的常見遺傳變異和環境因素的共同結果。受技術上的制約,目前的商業芯片只能精確地檢測最小等位基因頻率(minor allele frequency,MAF)大于1%~5%的SNP(稱為常見變異),而MAF<1%~5%的SNP(稱為罕見變異)分型被認為是有問題的,通常在GWAS數據的質量控制階段就會被刪除掉[5-6],因此無法研究罕見變異與疾病的關系。
盡管GWAS取得了成功,但是對許多復雜疾病而言,已發現的常見位點僅能解釋極少一部分的遺傳度,沒能取得預期的突破性進展,這種現象被稱為遺傳缺失(missing heritability)[7-8]。雖然遺傳缺失的原因是多方面的(例如,關聯性統計分析方法效能低、大量弱效應的SNP尚沒有被發現以及環境因素及其與基因的交互作用),并且關于常見和罕見變異在復雜疾病中的遺傳模式也存在爭議[9],但越來越多的科學研究表明罕見變異在復雜疾病的發生發展過程中同樣起著十分重要的作用,即所謂常見疾病簾見變異(common disease rave variant,CDRV)的假設[10-14]。最近的研究顯示罕見變異與復雜疾病之間的效應往往高于常見變異[15]:常見變異的OR值多介于1.20~1.50,均值為1.36,而罕見變異的OR值一般都在2.00以上,均值為3.74。隨著下一代測序技術(next-generation sequencing technologies)的發展和應用,科學家們已經能夠在全基因組或全外顯子水平上進行更高密度和更高精度的測序工作,能夠精確地檢測更低頻和罕見的遺傳位點[16]。許多研究顯示罕見變異對復雜疾病有實質性的貢獻[14-15],例如,位于ABCA1、APOA1、LCAT、APOA5、GCKR、LPL和APOB的罕見變異被發現與血漿中高密度脂蛋白水平有關[17-18],位于ANGPTL4的罕見變異能夠顯著降低甘油三酯和升高高密度脂蛋白[19],著名的Framingham心臟研究顯示,通過調節腎臟對鹽的代謝,位于SLC12A3、SLC12A1和KCNJ1的罕見變異能夠有效降低血壓[20],此外一組罕見變異被證明與炎癥性腸病存在關聯[21],最近的報道表明位于染色體8q24的罕見變異位點rs188140481是前列腺癌的高風險遺傳因子[22]。
這些最新的科學證據無疑表明罕見變異與復雜疾病密切相關,是遺傳缺失的重要原因之一[7-8,23]。然而,遺憾的是,罕見變異的關聯研究不但面臨著與常見變異相同的挑戰(比如,高維度、統計效能低和多重比較),還具有更大的困難。從研究設計角度講,由于罕見變異的發生極其稀少,因此需要在更廣泛的人群中收集樣本,這將導致研究費用和執行難度增加;從統計方法角度講,即便是在大樣本的情況下,現有的用于常見變異的關聯分析方法對罕見變異的統計效能也很低或者根本不能使用[11,13,24-26]。
因此,發展高效靈活的罕見變異關聯分析方法不但有利于進一步設計更加有效的GWAS研究,也是下一代測序工作的必然要求,更是當前統計遺傳學和生物信息學面臨的迫切任務之一。過去幾年罕見遺傳變異關聯性分析方法迅速發展,本文主要對這些新出現的關聯性分析思維和統計方法做一個系統性的介紹,使應用者了解這些方法背后的假設及其優缺點。
設遺傳位點的基因型為aa、Aa和AA,其中a表示次等位基因。由于罕見遺傳變異的MAF很小,即對某個具體的罕見位點而言,在人群中其基因型基本上全是AA,只有極個別的個體(在小樣本研究中甚至可能沒有個體)表達為aa和Aa。這導致的后果是,罕見變異的關聯性分析無法像常見變異那樣基于單個位點進行,如采用χ2檢驗、簡單線性回歸或logistic回歸,或者單位點分析對罕見變異的檢驗效能極低[13,24,27]。
最近統計學家們提出了專門針對罕見變異的關聯性分析方法,這些方法的基本策略是:針對一組而非單個位點進行。當對罕見遺傳位點無法進行單位點分析或效能極低時,對一組罕見位點同時檢驗是很自然的選擇。相對單個位點,基因是與疾病更加相關的功能單位,因此文獻中通常根據基因定義一組罕見遺傳變異。我們接下來介紹基于合并思想的檢驗方法和基于隨機效應方差成分的檢驗方法,以及其他方法。
1.基于合并思想的方法
隊列等位基因合計檢驗(cohort allelic sum test,CAST)[28]、聯合多元合并檢驗(combined multivariate and collapsing test,CMC)[29]以及分組加權合計檢驗(group-wise weighted sum test,GWST)[30]是三種常見的基于合并的方法,也是最早提出的罕見變異關聯性分析方法。
CAST根據一組位點中是否包含罕見SNP建立一個新的指示變量(假設為Z):Z=1表示這組位點包含至少一個罕見SNP,Z=0表示不包含罕見位點,即都是常見變異;然后采用類似χ2的方法執行關聯性分析。CMC同樣需要建立新的變量,但與CAST略有不同,在合并的過程中CMC計數這組罕見變異的個數而非僅僅是否包含罕見位點;然后將新的變量和常見變異一起執行HotellingT2檢驗。GWST在合并的過程中對每個罕見變異進行加權后求和,權重和MAF有關,通常MAF越小,權重越大。
雖然在如何合并一組罕見變異及其權重選擇方面存在細微差別,但這些方法都基于樸素的思想:按照功能相近或物理位置相鄰的原則(如:同一基因或通路),將某個區域內的罕見變異合并成單個位點,然后對合并的位點進行關聯性分析,因此統稱為負荷檢驗[25,31]。其合理之處在于,實際中常常觀察到一組罕見變異共同與某種疾病有關,合并多個位點有利于關聯信號的富集和增強。事實上,負荷檢驗基于如下的假設:該區域內所有或絕大多數罕見變異為關聯位點,并且對疾病或表型影響的效應方向一致。然而這個假設存在明顯的問題:①一組罕見變異可能與疾病有關、也可能和疾病無關,即使有關也可能只有少數幾個是致病位點;②對一組罕見變異如何進行合理合并目前觀點尚未統一;③更重要的是,致病位點有的可能具有保護作用,有的可能具有危險作用。現實中,我們基本上無法了解疾病的遺傳模式或只有十分有限的認識,也就無法判斷是否所有罕見位點的效應總是同方向的。因此,負荷檢驗最大的缺點在于無法處理位點效應方向性的問題,在異質性效應的情況下盲目進行位點合并無疑稀釋了關聯信號,從而降低統計效能[25,27,32-34]。
Price等[35]提出的可變閾值方法(variable-threshold test,VT)和負荷方法類似,不同之處在于,VT采用一系列閾值而非選擇單個值(如0.01)來區分常見變異和罕見變異,針對每個閾值計算一個統計量,選擇其中最大者為最終假設檢驗統計量,最后采用permutation程序獲得對應的P值。VT背后的假設在于,具有不同MAF的罕見遺傳位點可能對疾病的功能影響是不一樣的。其缺點在于,和負荷檢驗一樣在效應異質時效能低,并且因為采用重抽樣的方法從而計算量大。
Han和Pan[34]意識到負荷檢驗在效應方向不同時效能低的缺點,提出了一種基于數據的自適應求和檢驗方法(data adaptive sum test)。為克服效應方向的問題,該方法對每個罕見位點與疾病之間的關系進行回歸分析,通過回歸系數判斷該位點是具有正方向(符號為正)的影響還是負方向(符號為負)的影響;如果某個回歸系數的P值小于α0(比如0.10)且符號為負,則對該位點進行重新編碼:假設原來的基因型aa、Aa和AA分別賦值為2、1和0,則重新編碼為0、1和2;最后采用類似負荷檢驗的方法進行位點合并和執行假設檢驗。在這一過程中重新編碼會導致原始的無效假設分布失效,因此采用permutation程序獲得P值。該方法雖然在一定程度上克服了效應方向性的問題,但是存在以下問題:①需要對單個位點進行效應估計和計算P值,然而如前所述在很多情況下,單位點罕見變異回歸分析很不穩定或無法進行[36],因此獲得的估計結果將嚴重影響后續的分析;②如何合適地選擇α0及其敏感性尚不明確;③由于采用permutation程序將增大計算量。
2.基于混合效應模型方差成分的方法
從上可見,針對一組罕見變異的關聯性研究,恰當地處理位點效應的方向性無疑是至關重要的。基于方差成分檢驗的提出正是出于這種認識,與負荷檢驗不同,方差成分檢驗并不關注如何合并罕見變異,而是將一組罕見變異與疾病的關系看作服從正態分布的隨機效應,通過檢驗隨機效應的方差成分來研究罕見變異與疾病之間的關聯,因此能夠有效地避免這個問題[37]。
(1)SKAT方法
Wu等[25]提出的SKAT(sequence kernel association test,SKAT)是一類非常有效的罕見變異關聯性分析方法。在線性混合效應模型的框架下[38-40],SKAT采用基于得分函數(score function)的方差成分檢驗來研究罕見變異和疾病之間的關系,并通過核函數(kernel function)來量化個體間的遺傳相似性[41-47]。其優勢在于,SKAT只需要估計H0(即一組罕見變異和疾病之間無關聯,等價于隨機效應的方差成分為0)下的模型,此時混合效應模型退化為一般的簡單線性模型或logistic回歸模型,因此SKAT在計算上很有效;在核機器學習(Kernel machine learning)的框架下,通過選擇和構造不同的核函數,研究者能夠分析遺傳位點與疾病之間的復雜關聯(如非線性關系或位點間交互作用);另外,能夠通過解析的方式獲得SKAT統計量的無效分布。最近,類似SKAT的思想被推廣到家系數據的罕見遺傳位點關聯性分析中[48-52]。
此外,Wu等[25]還證明Neale等[53]提出的C-alpha檢驗實際上是SKAT檢驗的一種特殊形式,即SKAT不包含協變量且表型為疾病狀態時(如病例-對照研究中反應變量為0-1)的情形。
然而,SKAT也存在不足之處:①SKAT統計量越大并不意味這一組罕見變異的效應越大,有可能是因為很多弱的效應[54];②實際應用中,遺傳學家和流行病學家不但關心罕見變異和疾病之間的P值,還更關心罕見變異和疾病之間的具體效應大小[55-56];換句話說,他們往往更希望獲得一個定量的指標能夠反應一組罕見變異對疾病的貢獻;但是,本質上SKAT是一種得分檢驗[25,40],僅執行假設檢驗而不進行參數估計,因此不能給出關于罕見變異對疾病貢獻或效應的度量值,實際工作中無法通過SKAT評價多組罕見變異對疾病的相對重要性;③因為SKAT得分檢驗的本質,在小樣本和顯著性檢驗水平很低的情況下可能會導致保守的結果[25,57-59]。針對SKAT保守的結果,最近提出了一些改進的措施,如采用數值調整或通過permutation和bootstrap方法校正[25,60]。但目前相應的校正僅針對病例-對照資料,針對定量數據校正方法尚不能得到。
模擬研究顯示,當至少大部分罕見變異為關聯位點且效應方向一致時,負荷檢驗的統計效應高于SKAT,但在只有少部分罕見位點為關聯位點以及效應方向不一致時,SKAT具有明顯的優勢。然而,在實際中無法得知疾病的遺傳模型,因此應用中對負荷檢驗和SKAT的最優選擇將變得困難。為了解決這個問題,Lee等[60-61]提出在SKAT檢驗中納入罕見變異關系結構的相關矩陣,稱為SKAT-O(optimal sequence kernel association test)。該相關矩陣包含一個參數ρ,當ρ=1時SKAT-O退化為負荷檢驗,當ρ=0時SKAT-O退化為一般的SKAT。
(2)MiST方法
與SKAT-O的策略不同,Sun等[57]提出的MiST方法(mixed effects score test)直接將在負荷檢驗中合并的變量連同多個罕見變異一起納入統計模型,然后構造兩個獨立得分檢驗,分別檢驗合并的變量和罕見變異的方差成分,最后通過Fisher或Tippett合并得到最終聯合檢驗的P值。模擬研究顯示,MiST方法要優于SKAT和SKAT-O以及負荷檢驗。研究還發現,在通過單一的相關系數來衡量罕見變異關系結構的做法(即SKAT-O中的思路)實際上并非是最優的[57],因為實際單個參數基本上無法反應罕見變異之間的復雜關系,這樣做反而會降低統計效能,即有時候SKAT的效能要高于SKAT-O[57]。
(3)GenRF模型
通過借用在空間統計中發展的隨機場理論(random field theory),He等[58]和Li等[59]提出了一種新的罕見變異關聯分析方法,稱為遺傳隨機場(genetic random field,GenRF)模型。在GenRF模型中某個具體個體的遺傳表型被當做隨機場在歐幾里得空間中隨機實現,并認為受剩下其他所有個體的影響,這種影響通過一個非負的尺度參數來量化。因此對一組罕見變異關聯性的檢驗就轉化為該尺度參數的檢驗。Li等[59]認為GenRF模型可看做一種特殊的Wald檢驗。
(4)基于似然的推斷
如前文所述,在混合效應模型的框架下罕見變異關聯性分析可以轉化為對方差成分的假設檢驗。在統計推斷中,相對于得分檢驗(如SKAT、SKAT-O或MiST方法)和Wald檢驗(如GenRF模型),似然比檢驗(likelihood ratio test,LRT)和限制性似然比檢驗(restricted likelihood ratio test,ReLRT)是另一類十分重要和流行的方法[3,62-65]。基于此,Zeng等[55-56]最近提出采用LRT和ReLRT執行罕見變異關聯性分析,LRT和ReLRT統計量建立在剖面似然函數(profile log-likelihood)之上,通過抽樣算法獲得統計量的無效假設分布[3,55-56]。
模擬研究顯示,LRT和ReLRT一致優于SKAT,甚至在罕見變異效應方向相同、當樣本量比較大時其效能與SKAT-O和負荷檢驗基本一致;此外,LRT和ReLRT還能提供反映一組罕見變異相對重要性的指示統計量[55-56]。然而,LRT和ReLRT的不足之處在于,要求同時估計H0和H1條件下的模型,并且依賴模擬算法計算P值,因此其速度相對較慢。為了提高LRT和ReLRT的計算速度,我們最近嘗試采用近似混合分布(mixture distribution),研究顯示該近似分布能夠在維持其高統計效能的基礎上顯著提高計算速度。
3.其他方法
雖然近年來針對罕見變異關聯性分析的統計方法層出不窮;然而,在實際應用中有些方法存在明顯的局限或其理論假設不現實。例如,Zhan和Xu[54]提出的自適應嶺回歸(adaptive ridge regression)被驗證不能有效控制I型錯誤,負荷檢驗不能有效處理效應方向的問題,Lin和Tang[36]提出的EREC方法以及其他方法如VT檢驗[35]、Han和Pan自適應檢驗[34]、加權檢驗[29]以及Liu和Leal提出的KBAC[67]都要求執行permutation程序或Monte Carlo檢驗,因此計算復雜。基于Bayes等級模型[68]的方法雖然顯示出好的性質,但需要通過MCMC迭代抽樣以及評價Markov鏈是否收斂,同樣具有計算量大的缺點,實際應用受限。此外,基于維度降低的策略如主成分法也受到重視,Luo等[69]比較了八種罕見變異關聯性分析方法(包括CMC、T2和主成分法等),認為功能主成分法(functional principal component analysis)具有較高的效能,但目前功能主成分法與SKAT、似然比檢驗之間的相對效能尚不明確。
我們認為一個好的罕見遺傳變異關聯性分析統計方法應該具備一些優良的性質:①能夠有效處理罕見變異效應方向性的問題,即需要對異質效應穩健,這也是所有性質中最為重要的;②能夠同時考慮協變量;因為關聯研究中可能存在其他協變量需要校正,如性別、年齡或暴露水平等;另一個重要的情況是人群分層(population stratification),目前校正人群分層的常規做法是在分析中納入前幾位的主成分[70],因此校正協變量也就變得異常重要[25-26,36];③考慮到在全基因組或全外顯子規模上需要執行成千上萬次的關聯分析,因此需要快速的計算;我們注意到,通過多核運算或并行運算等方式以及近似的方法能顯著提高計算速度;④能夠提供度量一組罕見變異和疾病之間效應的客觀指標,以及能夠分析疾病和遺傳位點之間的復雜關系的指標。
事實上,上面提到的SKAT、MiST、GenRF以及LRT和ReLRT都具備上述大部分性質。它們還具有共同的特點:將一組罕見變異關聯研究的問題轉化為對一個非負參數假設檢驗的問題,避免了多元檢驗存在的問題,如自由度消耗、多重共線性和效能低等,因此,在罕見變異個數比較多時仍然有效。
上述罕見變異檢驗方法的統計效能表現主要取決于潛在的模型假設,總的罕見變異位點個數、位點效應的方向、位點MAF和效應之間的關系以及致病位點在所有位點中的比例。大量的經驗研究顯示[25-26,71-72],已經發展的罕見變異關聯性研究方法并沒有一種檢驗在任何情況下都是最優的,即任何情況下總具有最高的檢驗效能,雖然有研究者宣傳他們獲得了最優(optimal)的檢驗方法[36,53,60-61]。
考慮到罕見變異和疾病之間的復雜關系,以及現有方法本身效能并不高,因此需要進一步建立更加有效的關聯性分析方法和統計分析策略,合理聯合不同的檢驗方法是一種有效的嘗試[57,60-61,73],這些聯合檢驗方法通常更加穩健和高效。然而,也有研究顯示聯合檢驗方法并不總是能夠提高統計效能[55,57]。
對若干個不同的測序數據執行Meta分析也是提高統計效能的一個潛在手段[74-77]。然而,罕見變異Meta分析可能存在的問題包括致病的罕見遺傳位點通常出現在具體的某個人群,不同的人群可能并不共享相同的罕見致病位點[78]。
目前的罕見變異關聯性分析方法及其分析策略多主要集中于基因內的罕見位點,而忽略常見位點。然而,大量的研究顯示致病遺傳位點的等位基因頻率分布廣范,既有罕見位點,也有低頻位點和常見位點。在實際應用中,如果僅僅局限于罕見變異無疑會導致統計效能低下,因此整合外源性信息(包括多平臺遺傳數據和環境數據)以及聯合分析常見和罕見位點及其可能的交互作用是十分有必要的[37,79-81],但相關的文獻目前還很有限。
雖然已有家系數據的罕見變異關聯性分析方法,但越來越多的GWAS研究為了了解遺傳因素和疾病的因果關系而采用隊列(cohort study)的方式執行[82-83],縱向數據(longitudinal data)本身的非獨立性會使得罕見變異關聯性分析變得更加復雜,因此迫切需要發展適合縱向測序數據的罕見變異關聯性統計方法。
[1]Hindorff L,Sethupathy P,Junkins H,et al.Potential etiologic and functional implications of genome-wide association loci for human diseases and traits.Proceedings of the National Academy of Sciences of the United States of America,2009,106(23):9362-9367.
[2]Visscher P,Brown M,McCarthy M,et al.Five Years of GWAS Discovery.American Journal of Human Genetics,2012,90(1):7-24.
[3]Crainiceanu CM,Ruppert D.Likelihood ratio tests in linear mixed models with one variance component.Journal of the Royal Statistical Society:Series B(Statistical Methodology),2004,66(1):165-185.
[4]Reich DE,Lander ES.On the allelic spectrum of human disease.Trends in Genetics,2001,17(9):502-510.
[5]Hu Z,Shi Y,Mo X,et al.A genome-wide association study identifies two risk loci for congenital heart malformations in Han Chinese populations.Nature Genetics,2013,45(7):818-821.
[6]Wellcome Trust Case Control Consortium.Genome-wide association study of 14,000 cases of seven common diseases and 3,000 shared controls.Nature,2007,447(7145):661-678.
[7]Manolio T,Collins F,Cox N,et al.Finding the missing heritability of complex diseases.Nature,2009,461(7265):747-753.
[8]Eichler EE,Flint J,Gibson G,et al.Missing heritability and strategies for finding the underlying causes of complex disease.Nature Reviews Genetics,2010,11(6):446-450.
[9]Gibson G.Rare and common variants:twenty arguments.Nature reviews Genetics,2012,13(2):135-145.
[10]Pritchard JK.Are rare variants responsible for susceptibility to complex diseases? American Journal of Human Genetics,2001,69(1):124-137.
[11]Carvajal-Carmona LG.Challenges in the identification and use of rare disease-associated predisposition variants.Current Opinion in Genetics and Development,2010,20(3):277-281.
[12]Schork NJ,Murray SS,Frazer KA,et al.Common vs.rare allele hypotheses for complex diseases.Current Opinion in Genetics and Development,2009,19(3):212-219.
[13]Asimit J,Zeggini E.Rare variant association analysis methods for complex traits.Annual Review of Genetics,2010,44:293-308.
[14]Cirulli ET,Goldstein DB.Uncovering the roles of rare variants in common disease through whole-genome sequencing.Nature Reviews Genetics,2010,11(6):415-425.
[15]Bodmer W,Bonilla C.Common and rare variants in multifactorial susceptibility to common diseases.Nature Genetics,2008,40(6):695-701.
[16]Shendure J,Ji H.Next-generation DNA sequencing.Nature Biotechnology,2008,26(10):1135-1145.
[17]Cohen JC,Kiss RS,Pertsemlidis A,et al.Multiple Rare Alleles Contribute to Low Plasma Levels of HDL Cholesterol.Science,2004,305(5685):869-872.
[18]Johansen CT,Wang J,Lanktree MB,et al.Excess of rare variants in genes identified by genome-wide association study of hypertriglyceridemia.Nature Genetics,2010,42(8):684-687.
[19]Romeo S,Pennacchio LA,Fu Y,et al.Population-based resequencing of ANGPTL4 uncovers variations that reduce triglycerides and increase HDL.Nature Genetics,2007,39(4):513-516.
[20]Ji W,Foo J,O’Roak B,et al.Rare independent mutations in renal salt handling genes contribute to blood pressure variation.Nature Genetics,2008,40(1):592-599.
[21]Rivas M,Beaudoin M,Gardet A,et al.Deep resequencing of GWAS loci identifies independent rare variants associated with inflammatory bowel disease.Nature Genetics,2011,43(11):1066-1073.
[22]Gudmundsson J,Sulem P,Gudbjartsson DF,et al.A study based on whole-genome sequencing yields a rare variant at 8q24 associated with prostate cancer.Nature Genetics,2012,44(12):1326-1329.
[23]Maher B.Personal genomes:The case of the missing heritability.Nature,2008,456:18-21.
[24]Bansal V,Libiger O,Torkamani A,et al.Statistical analysis strategies for association studies involving rare variants.Nature Reviews Genetics,2010,11(11):773-785.
[25]Wu MC,Lee S,Cai T,et al.Rare-Variant Association Testing for Sequencing Data with the Sequence Kernel Association Test.American Journal of Human Genetics,2011,89(1):82-93.
[26]Derkach A,Lawless JF,Sun L.Pooled association tests for rare genetic variants:A review and some new results.Statistical Science,2014,29(2):302-321.
[27]Lange K,Papp JC,Sinsheimer JS,et al.Next-Generation Statistical Genetics:Modeling,Penalization,and Optimization in High-Dimensional Data.Annual Review of Statistics and Its Application,2014,1(1):279-300.
[28]Morgenthaler S,Thilly W.A strategy to discover genes that carry multi-allelic or mono-allelic risk for common diseases:a cohort allelic sums test(CAST).Mutation Research,2007,615(1-2):28-56.
[29]Li B,Leal S.Methods for detecting associations with rare variants for common diseases:application to analysis of sequence data.American Journal of Human Genetics,2008,83(3):311-321.
[30]Madsen BE,Browning SR.A Groupwise Association Test for Rare Mutations Using a Weighted Sum Statistic.PLoS Genetics,2009,5(2):e1000384.
[31]Ionita-Laza I,Buxbaum JD,Laird NM,et al.A New Testing Strategy to Identify Rare Variants with Either Risk or Protective Effect on Disease.PLoS Genetics,2011,7(2):e1001289.
[32]Logsdon BA,Dai JY,Auer PL,et al.A Variational Bayes Discrete Mixture Test for Rare Variant Association.Genetic Epidemiology,2014,38(1):21-30.
[33]Pan W,Shen X.Adaptive tests for association analysis of rare variants.Genetic Epidemiology,2011,35(5):381-388.
[34]Han F,Pan W.A data-adaptive sum test for disease association with multiple common or rare variants.Human Heredity,2010,70(1):42-54.
[35]Price AL,Kryukov GV,de Bakker PI,et al.Pooled association tests for rare variants in exon-resequencing studies.American Journal of Human Genetics,2010,86(6):832-838.
[36]Lin D,Tang Z.A General Framework for Detecting Disease Associations with Rare Variants in Sequencing Studies.American Journal of Human Genetics,2011,89(3):354-367.
[37]Lee S,Abecasis Goncalo R,Boehnke M,et al.Rare-Variant Association Analysis:Study Designs and Statistical Tests.American Journal of Human Genetics,2014,95(1):5-23.
[38]Laird NM,Ware JH.Random-effects models for longitudinal data.Biometrics,1982,38(4):963-974.
[39]Breslow N,Clayton D.Approximate inference in generalized linear mixed models.J Am Stat Assoc,1993,88(421):9-25.
[40]Lin X.Variance component testing in generalised linear models with random effects.Biometrika,1997,84(2):309-326.
[41]Schaid DJ.Genomic Similarity and Kernel Methods I:Advancements by Building on Mathematical and Statistical Foundations.Human Heredity,2010,70(2):109-131.
[42]Hofmann T,Sch?lkopf B,Smola AJ.Kernel methods in machine learning.Annals of Statistics,2008,36(3):1171-1220.
[43]Hastie T,Tibshirani R,Friedman J.The Elements of Statistical learning:Data Mining,Inference,and Prediction,2 nd edition.New York:Springer,2009.
[44]Cristianini N,Shawe-Taylor J.An introduction to support vector machines and other kernel-based learning methods.New York:Cambridge University Press,2000.
[45]Sch?lkopf B,Smola A.Learning with Kernels:Support Vector Machines,Regularization,Optimization,and Beyond.Cambridge:The MIT Press,2001.
[46]Shawe-Taylor J,Cristianini N.Kernel methods for pattern analysis.New York:Cambridge University Press,2004.
[47]G?nen M,Alpaydin E.Multiple kernel learning algorithms.Journal of Machine Learning Research,2011,12:2211-2268.
[48]Schifano ED,Epstein MP,Bielak LF,et al.SNP Set Association Analysis for Familial Data.Genetic Epidemiology,2012,36(8):797-810.
[49]Chen H,Meigs JB,Dupuis J.Sequence kernel association test for quantitative traits in family samples.Genetic Epidemiology,2013,37(2):196-204.
[50]Oualkacha K,Dastani Z,Li R,et al.Adjusted Sequence Kernel Association Test for Rare Variants Controlling for Cryptic and Family Relatedness.Genetic Epidemiology,2013,37(4):366-376.
[51]Svishcheva GR,Belonogova NM,Axenovich TI.FFBSKAT:Fast Family-Based Sequence Kernel Association Test.PLoS ONE,2014,9(6):e99407.
[52]Chen H,Malzahn D,Balliu B,et al.Testing Genetic Association With Rare and Common Variants in Family Data.Genetic Epidemiology,2014,38(S1):S37-S43.
[53]Neale BM,Rivas MA,Voight BF,et al.Testing for an Unusual Distribution of Rare Variants.PLoS Genetics,2011,7(3):e1001322.
[54]Zhan H,Xu S.Adaptive Ridge Regression for Rare Variant Detection.PLoS ONE,2012,7(8):e44173.
[55]Zeng P,Zhao Y,Liu J,et al.Likelihood Ratio Tests in Rare Variant Detection for Continuous Phenotypes.Annals of Human Genetics,2014,78(5):320-332.
[56]Zeng P,Zhao Y,Zhang L,et al.Rare Variants Detection with Kernel Machine Learning Based on Likelihood Ratio Test.PLoS ONE,2014,9(3):e93355.
[57]Sun J,Zheng Y,Hsu L.A Unified Mixed-Effects Model for Rare-Variant Association in Sequencing Studies.Genetic Epidemiology,2013,37(4):334-344.
[58]He Z,Zhang M,Zhan X,et al.Modeling and testing for joint association using a genetic random field model.Biometrics,2014,70(3):471-479.
[59]Li M,He Z,Zhang M,et al.A Generalized Genetic Random Field Method for the Genetic Association Analysis of Sequencing Data.Genetic Epidemiology,2014,38(3):242-253.
[60]Lee S,Emond MJ,Bamshad MJ,et al.Optimal Unified Approach for Rare-Variant Association Testing with Application to Small-Sample Case-Control Whole-Exome Sequencing Studies.American Journal of Human Genetics,2012,91(2):224-237.
[61]Lee S,Wu MC,Lin X.Optimal tests for rare variant effects in sequencing association studies.Biostatistics,2012,13(4):762-775.
[62]Self SG,Liang KY.Asymptotic Properties of Maximum Likelihood Estimators and Likelihood Ratio Tests under Nonstandard Conditions.J Roy Stat Soc,B,1987,82(398):605-610.
[63]Stram DO,Lee JW.Variance Components Testing in the Longitudinal Mixed Effects Model.Biometrics,1994,50(4):1171-1177.
[64]Liang KY,Self SG.On the Asymptotic Behaviour of the Pseudolikelihood Ratio Test Statistic.Journal of the Royal Statistical Society:Series B(Statistical Methodology),1996,58(4):785-796.
[65]Greven S,Crainiceanu CM,Küchenhoff H,et al.Restricted Likelihood Ratio Testing for Zero Variance Components in Linear Mixed Models.Journal of Computational and Graphical Statistics,2008,17(4):870-891.
[66]Lippert C,Xiang J,Horta D,et al.Greater power and computational efficiency for kernel-based association testing of sets of genetic variants.Bioinfor matics,2014,30(22):3206-3214.
[67]Liu D,Leal S.A novel adaptive method for the analysis of next-generation sequencing data to detect complex trait associating with rare variants due to gene main effects and interactions.PLoS Genetics,2010,6:e1001156.
[68]Yi N,Liu N,Zhi D,et al.Hierarchical Generalized Linear Models for Multiple Groups of Rare and Common Variants:Jointly Estimating Group and Individual-Variant Effects.PLoS Genetics,2011,7(12):e1002382.
[69]Luo L,Boerwinkle E,Xiong M.Association studies for next-generation sequencing.Genome Research,2011,21:1099 - 1108.
[70]Price AL,Patterson NJ,Plenge RM,et al.Principal components analysis corrects for stratification in genome-wide association studies.Nature Genetics,2006,38(8):904-909.
[71]Basu S,Pan W.Comparison of statistical tests for disease association with rare variants.Genetic Epidemiology,2011,35(7):606-619.
[72]Ladouceur M,Dastani Z,Aulchenko YS,et al.The Empirical Power of Rare Variant Association Methods:Results from Sanger Sequencing in 1,998 Individuals.PLoS Genetics,2012,8(2):e1002496.
[73]Derkach A,Lawless JF,Sun L.Robust and Powerful Tests for Rare Variants Using Fisher’s Method to Combine Evidence of Association From Two or More Complementary Tests.Genetic Epidemiology,2013,37(1):110-121.
[74]Evangelou E,Ioannidis JPA.Meta-analysis methods for genome-wide association studies and beyond.Nature reviews Genetics,2013,14(6):379-389.
[75]Hu YJ,Berndt SI,Gustafsson S,et al.Meta-analysis of gene-level associations for rare variants based on single-variant statistics.American Journal of Human Genetics,2013,93(2):236-248.
[76]Liu DJ,Peloso GM,Zhan X,et al.Meta-analysis of gene-level tests for rare variant association.Nature Genetics,2014,46(2):200-204.
[77]Lee S,Teslovich TM,Boehnke M,et al.General framework for meta-analysis of rare variants in sequencing association studies.American Journal of Human Genetics,2013,93(1):42-53.
[78]Moutsianas L,Morris AP.Methodology for the analysis of rare genetic variation in genome-wide association and re-sequencing studies of complex human traits.Brief Funct Genomics,2014.
[79]Wang X,Epstein MP,Tzeng J.Analysis of Gene-Gene Interactions Using Gene-Trait Similarity Regression.Human Heredity,2014,78(1):17-26.
[80]Larson NB,Schaid DJ.A Kernel Regression Approach to Gene-Gene Interaction Detection for Case-Control Studies.Genetic Epidemiology,2013,37(7):695-703.
[81]Ionita-Laza I,Lee S,Makarov V,et al.Sequence Kernel Association Tests for the Combined Effect of Rare and Common Variants.American Journal of Human Genetics,2013,92(6):841-853.
[82]Fan R,Zhang Y,Albert PS,et al.Longitudinal Association Analysis of Quantitative Traits.Genetic Epidemiology,2012,36(8):856-869.
[83]Furlotte NA,Eskin E,Eyheramendy S.Genome-Wide Association Mapping With Longitudinal Data.Genetic Epidemiology,2012,36(5):463-471.
(責任編輯:郭海強)
*:國家自然科學基金項目(81473070,81373102,81402765);國家統計局全國統計科學研究項目(2014LY112);江蘇省教育廳高校哲學社會科學研究基金項目(2013SJD790032,2013SJB790059);江蘇省普通高校研究生科研創新計劃項目(CXLX13_574);南京醫科大學公共衛生學院優勢學科建設工程項目和優秀博士論文培育項目
1.南京醫科大學公共衛生學院生物統計學系(210029)
2.徐州醫學院公共衛生學院流行病與衛生統計學教研室(221004)
△通信作者:陳峰,E-mail:fengchen@njmu.edu.cn