王中華,李淑瑾
河北醫科大學法醫學院,河北 石家莊 050017
法醫DNA 表型推斷是近年來法醫物證學領域的研究熱點之一,通過對遺傳信息和人體表型特征進行關聯分析,在特定表型與相應的遺傳標記之間建立對應關系,進而通過分析生物樣本的遺傳信息進行表型特征刻畫,為案件偵查提供線索,具有重要的法醫學意義。這些人體表型特征包括容貌、身高、發色、膚色、年齡等,其中對于色素特征(發色、膚色、虹膜顏色)以及年齡的法醫DNA 表型研究相對較多,推斷的準確性相對較高,而對于身高和容貌的法醫DNA 表型研究相對較少,推斷的準確性也較低[1]。
人類身高是法醫表型刻畫的重要特征之一,是一種高度遺傳的多基因性狀,據估計,成年人身高的遺傳力為80%[2]。一方面,為了揭示影響身高的遺傳因素,已有很多大規模的研究探索身高的遺傳變異,且正在深入研究其群體遺傳學規律。另一方面,表觀遺傳學也是重要的生物遺傳機制,代表了基因-環境的相互作用[3],對身高會產生影響。本文主要從遺傳變異與表觀遺傳兩方面介紹人類身高的遺傳學研究進展,分析目前已有的身高推斷模型,并對未來關于身高的法醫DNA 表型研究進行展望。
遺傳變異包括基因突變、基因重組和染色體變異。SNP 是最常見的人類遺傳變異之一,目前絕大多數身高相關研究都是在此基礎上進行的,同樣也是法醫學研究的熱點。除此之外,拷貝數變異(copy number variants,CNV)與可變數目串聯重復序列(variable number of tandem repeats,VNTR)也與身高有關。
1.1.1 全基因組關聯分析
2014 年,人體性狀遺傳研究(Genetic Investigation of Anthropometric Traits,GIANT)協會將人類身高的全基因組關聯分析(genome-wide association study,GWAS)推向了新的高度[4],該研究匯總了79 項GWAS 數據進行Meta 分析,研究對象來自歐洲各地,超過25 萬人,最終發現697 個身高相關SNP 位點。2018 年,GIANT 協會在更大的一組歐洲人群中進行了Meta 分析,達到70 萬人,鑒別出3 290 個身高相關SNP 位點[5]。上述兩項研究都對群體分層進行了校正,但是后續研究[6-7]發現,仍有殘余的分層因素,導致這些SNP 位點中可能存在假陽性信號,至少GWAS估計的SNP 效應大小是有偏差的。然而CHEN 等[6-7]證實,歐洲人群的身高存在多基因適應現象,說明分層因素產生的影響有限,大多數身高相關SNP 位點是真實的。由于許多人類復雜性狀的高度多基因性,通常認為多基因適應是人類表型進化的重要機制,受到自然選擇位點的等位基因頻率會產生微小卻又相互協調的變化[8]。除此之外,GIANT 協會還探索了外顯子SNP 位點[9],樣本量同樣超過70 萬人,發現了606 個身高相關編碼變異,包括83 個罕見或低頻變異,其次要等位基因頻率(minor allele frequency,MAF)和效應大小之間存在強烈的反比關系,其中4 個罕見變異的效應超過2 cm。AKIYAMA 等[10]也觀察到了同樣的現象。
在歐洲,除了上述幾項大型研究外,研究者還對一些人口結構較為單一的國家或地區進行了分析。BENONISDOTTIR 等[11]將一組獨立樣本的全基因組測序數據作為參照基因組,對約9 萬名冰島人的SNP 芯片分型結果進行插補,發現了4 個位于印記區域的SNP 位點,其次要等位基因根據父母來源不同而產生不同的效應。目前,根據局部的連鎖不平衡(linkage disequilibrium,LD)通過檢測的SNP 位點推算全基因組SNP 位點的基因型(即插補)已成為人類遺傳學研究的常規步驟[5,12],通常使用的參照數據庫有Haplotype Reference Consortium、the Phase 3 of the 1000 Genomes Project(1KGP3)。而使用針對特定人群建立的參照數據,無疑能夠極大提高插補的準確性。類似地,AKIYAMA 等[10]使用日本人的全基因組測序數據和1KGP3 也構建了參照數據。
身高相關GWAS 研究大多以歐洲人群為中心,對于其他人群的研究近年來也在陸續開展。HE 等[13]在超過9 萬人的東亞群體中進行了Meta 分析,確定了98 個身高相關SNP 位點。LIN 等[12]在中國臺灣省進行了身高相關研究,樣本量約3.5 萬人,發現了416 個身高相關SNP 位點。GRAFF 等[14]對5 萬名非洲血統的參與者進行分析,發現了45 個顯著性SNP 位點。AKIYAMA 等[10]使用了來自日本生物銀行(Biobank Japan,BBJ)超過19 萬人的數據,鑒別出573 個身高相關SNP 位點,其中40 個是東亞人群特異性SNP 位點。CHO 等[15]對6 萬多名韓國人進行GWAS,確定了59 個身高相關SNP 位點,9 個新發現位點都只在女性中發現。WOJCIK 等[16]對包括西班牙裔、非裔、亞裔、夏威夷原住民、美洲原住民和其他血統的混合人群進行分析,最終發現了65 個新的身高相關位點,證明多元化分析的價值。YENGO 等[17]進行了迄今為止最大的Meta 分析,研究對象約540 萬人,對歐洲血統(75.8%)、東亞血統(8.8%)、西班牙裔混血(8.5%)、非裔美國人(5.5%)和南亞血統(1.4%)5 種人群進行綜合分析,確定了12 111個顯著性SNP位點,位于7 209個基因座(長度70~711 kb),占基因組的21%。這些基因座(包含超過100 萬個SNP 位點)解釋了歐洲群體幾乎全部的SNP 遺傳力和非歐洲血統群體中大于90%的SNP 遺傳力。
上述不同研究之間發現的SNP 位點數量差異很大,造成這種差異的原因可能有3 點:(1)樣本群體的差異。(2)樣本量的差異,YENGO 等[17]發現SNP 位點的數量與樣本量幾乎呈線性關系。(3)控制混淆因素的理念和方法存在差異,如YENGO 等[5]為了盡可能多地檢測出身高相關位點,使用連鎖不平衡分數回歸分析(linkage disequilibrium score regression,LDSC)校正人群分層;GRAFF等[14]為了控制一類錯誤使用2次基因組控制(genomic control,GC)校正。單次GC 校正較LDSC 更為嚴格。因此,在身高推斷的法醫學實踐中,應重點關注位點與身高間的數學關系,盡可能多地發現相關位點,通過適當的特征選擇方法篩選出合適數量的位點。
除了使用SNP 芯片,還有一些研究者使用低覆蓋度的全基因組測序來發現新的身高相關位點。TACHMAZIDOU 等[18]使用全基因組測序結果和深度插補的芯片測序數據進行綜合分析,發現了64 個新的SNP 位點。來自華大基因的研究者使用無創產前檢測的測序數據來分析遺傳關聯、病毒的感染模式和中國人群的遺傳歷史[19]。由于測序覆蓋度較低(測序深度0.06×~0.1×),LIU 等[19]通過一系列生物信息學流程,得到了200 多萬個插補準確度較高的SNP 位點,從中篩選出48 個身高相關SNP 位點。
1.1.2 遺傳差異與遺傳相關性
上述GWAS 研究中,由不同人群發現的身高相關位點既有差異又具有相似性,這與人群之間的遺傳差異和遺傳相關性有關。人類進化是一部基因分化和交流的歷史,正是這些影響形成了人類的遺傳多樣性[20-21]。
可轉移性,定義為發現人群鑒別出的SNP 位點在驗證人群中具有統計顯著性且效應方向一致。有研究者[10,12,14,16]嘗試驗證身高相關SNP 位點的可轉移性,發現可轉移的SNP 位點較少。此外,使用歐洲人群中發現的SNP 位點在其他人群中進行身高推斷的準確性也出現了不同程度的下降[22],造成這種現象的原因主要是因果變異的人群特異性[10,16]和人群間連鎖不平衡的差異[14,23]。因果變異,是指真正引起表型變化的遺傳因素。在數萬年的基因分化過程中,某些因果變異對身高的影響力可能發生變化甚至不再影響身高。使用基因芯片不能檢測到基因組中所有的SNP 位點,但有可能發現與因果變異處于連鎖不平衡的位點,這些顯著性SNP 位點與身高具有相關性,但可能并不具備生物學意義。
遺傳相關性(rg)指種群中2 個性狀的加性遺傳力之間的相關性。GUO 等[24]將其重新定義為2 個種群中同一性狀因果變異的加性效應之間的相關性,發現歐洲群體和非洲群體間全部SNP 位點和顯著性SNP位點的遺傳相關性分別為0.75 和0.82。YENGO 等[17]發現超過83% 的non-EUR SNP 位點與至少一個EUR SNP 位點存在強烈的連鎖不平衡,顯著性SNP位點的等位基因替代效應在不同人群間的相關性為0.64~0.99,強調了不同種群間的遺傳相關性。
種群間的遺傳差異與遺傳相關性表明了鑒別因果變異的重要性。最近,對于因果變異的尋找主要通過精細映射方法[14,16,18]進行研究。WU 等[25]基于全基因組測序數據進行的模擬表明,至少80%的顯著性SNP位點與因果變異的距離小于33.5 kbp,且至少77.3%與因果變異的LDr2>0.8。
通過分析上述文獻,發現不同人群間身高相關的因果變異大部分是相同的,只是目前多數研究使用的芯片測序技術難以覆蓋這些因果變異。雖然高覆蓋度的全基因組測序依然較為昂貴,但是研究者們已經積累了相當數量的測序數據,效仿GIANT 協會的合作模式,使用全基因組測序數據可以更好地發現因果變異,不僅有助于減小種群間遺傳差異對身高推斷的影響,還可以通過后續的通路分析探索這些基因影響生長發育的分子機制。
MACé 等[26]針對人體測量學特征進行了大規模的CNV 關聯Meta 分析,發現了身高相關CNV。16p11.2 區域的600 kb BP4-BP5 缺失會導致身高降低(β=5.2 cm),并且此前發現的FLJ25404 附近的身高相關SNP 位點位于此600 kb 區域。1q21.1 遠端重排與身高有關(β=3.6 cm),且該區域的SNP 位點rs6658763 與身高相關。11 號染色體26.97~27.19 Mb的220 kb 區域與身高相關(β=2.43 cm),此區域覆蓋的基因FIBIN對身高的影響已被證實[9]。3q29 的一個212 kb 區域重排對身高具有劇烈影響(β=13.3 cm)。雖然這些CNV 的頻率很低(0.01%~0.2%),對身高卻有強烈的影響,這與低頻和罕見SNP 位點的表現一致,并且基因的大片段缺失更加劇了對表型的影響。因此,對于罕見變異的檢測可以進一步增加身高推斷的準確性,尤其對于誤差較大的樣本。
MUKAMEL 等[27]與BEYTER 等[28]分別通過全外顯子組測序和牛津納米孔測序發現了人類基因組中的VNTR,并且分別證實了ACAN基因中的VNTR 的基序數量與身高呈近似線性關系,且單個基序的效應大小相近(約0.11 cm)。此外,MUKAMEL 等[27]還發現,TENT5A基因中的VNTR 也與身高相關。由于VNTR通常較長,使用二代測序難以識別,需要開發特定算法,而目前的兩種長讀長測序在錯誤率和讀長方面各有優缺點,因此需要技術手段的進一步發展來檢測基因組中的結構變異。
表觀遺傳修飾包括DNA 甲基化、組蛋白修飾、染色質重塑和microRNA,他們在不改變堿基的情況下影響基因表達,DNA 甲基化是目前研究最充分的表觀遺傳標記之一[3]。近年來有研究發現了身高與DNA 甲基化和組蛋白修飾之間存在一定的聯系,這些證據表明表觀遺傳可能是身高的影響因素之一。
DNA 甲基化數量性狀位點指與CpG 位點的甲基化水平相關的SNP 位點。迄今為止最大的1 項DNA甲基化數量性狀位點研究發現了超過27 萬個獨立位點,其中包括身高相關位點[29]。
RELTON 等[30]發現,臍帶血中ALPL基因的甲基化水平與兒童期身高有關。SIMEONE 等[31]發現87 個身高相關基因中的72 個在其轉錄起始點上游2 kb 內存在CpG 島,且轉錄起始點位于CpG 島內,這是DNA甲基化參與基因調控的信號。OUNI 等[32-34]的系列研究表明,IGF1基因的P2 啟動子的甲基化水平會影響血清中生長激素的濃度以及身高。
Silver-Russell 綜合征(Silver-Russell syndrome,SRS)是一種基因印記疾病,其特征是嚴重的生長發育遲緩和典型的臨床癥狀。MUURINEN 等[35]在SRS患者HOXA4基因的啟動子中發現了一個低甲基化區域,該區域中多個CpG 位點在健康兒童中與身高有關。cg11908057 在4、8 和16 歲時均與身高相關,而cg04317399、cg19142026、cg04321618、cg14359292 和cg25952581 只在16 歲時與身高相關,說明某些位點在整個發育過程中對身高有持續影響,而另外的位點只與成年身高相關。同時,在健康兒童中對一些身高相關SNP 位點進行了驗證,未發現顯著關聯,可能是由于發現樣本和驗證樣本的數量都比較少,不過也說明了DNA 甲基化可能比某些SNP 位點更好地解釋了身高差異。
此外,TATTON-BROWN 等[36-37]發現,DNMT3A基因突變會導致過度生長綜合征。DNMT3A基因編碼一種胚胎發育過程中建立DNA 甲基化模式不可或缺的甲基轉移酶[38],為DNA 甲基化影響身高提供了又一證據。
以上研究表明,DNA 甲基化與身高關聯,DNA 甲基化對生長發育的影響可以只涉及身高,相關蛋白酶缺陷導致的全局改變又可以造成多種表型變化。DNA 甲基化在樣本量較小時仍表現出顯著相關,而GWAS 研究中采用的測試樣本和驗證樣本通常在萬人以上,這也說明DNA 甲基化相較于SNP 可能與身高具有更高的相關性。
KDM5C基因編碼組蛋白H3K4 去甲基化酶,攜帶該基因突變的男性表現為輕度至重度智力障礙、癲癇、身材矮小、反射亢進。GRAFODATSKAYA 等[39]在攜帶KDM5C突變的男性中,發現了特定基因位點的DNA甲基化水平顯著降低,證明了H3K4去甲基化酶的活性不足使H3K4甲基化升高,從而使下游靶基因避免從頭甲基化。UCHIYAMA等[40]在發育遲緩兒童中發現轉錄起始點附近的H3K4甲基化顯著降低。
韋費綜合征(Weaver syndrome)是一種過度生長的疾病,特征是身材高大、特殊面容和學習障礙等,其可能的發病機制為EZH2基因突變[41-43]。EZH2基因突變個體的臨床癥狀以身高增加最為突出,研究中所有病例的身高都比平均值高2個標準差,部分超過4個標準差[41]。EZH2基因編碼多梳抑制復合物2(PRC2)的催化成分,通過H3K27 的三甲基化和募集DNA 甲基轉移酶,在表觀遺傳水平調節染色質結構和基因表達,二者都起到抑制轉錄的作用[44-45]。
組蛋白修飾與身高相關的證據多見于綜合征的機制研究,說明組蛋白修飾的改變對基因表達起宏觀調控的作用。結合DNA 甲基化對身高的影響可以發現,這種遺傳信息的大范圍改變通常會影響多個系統的發育,似乎身高與神經系統的發育具有密切聯系,這種關系還有待進一步探索。通過檢測這些生物標志物可能有助于多種法醫DNA 表型的推斷。
目前多數研究使用多基因評分(polygenic scores,PGS)進行身高推斷。然而多基因評分計算為基因型的加權和,權重是GWAS 給出的效應大小。這種線性模型過于簡單,導致其預測準確性普遍較低,預測值與真實值的相關指數一般不超過0.2[4-5,22]。研究者們致力于改進多基因評分的性能,不過效果有限。PARé 等[46]開發了一種基于機器學習的方法Gra-BLD,通過梯度提升回歸樹和連鎖不平衡調整SNP 位點的效應大小,在使用約40 萬個SNP 位點時達到了最佳預測準確度,R2為0.239。LLOYD-JONES 等[47]開發了SBayesR 模型,使用約90 萬個SNP 位點時R2為0.326,使用280 萬個SNP 位點時R2達到0.352。LELLO 等[48]使用機器學習算法進行身高推斷,模型中使用2 萬個SNP 位點時基本達到最佳結果,R2約為0.4。使用深度學習技術開發精準預測模型將是今后研究的重要方向。YENGO 等[17]的最新研究顯示,使用12 111 個SNP 位點的PGS 在歐洲人群、南亞人群、東亞人群、拉丁裔人群和非洲人群中預測準確性分別達到0.401、0.214、0.202、0.185 和0.123,可見提高預測準確性的最佳方法是提高測試樣本量,然而目前非歐洲血統的可用數量與所需數量相去甚遠。多數SNP 位點只有3 種基因型,屬于分類變量,而身高屬于連續變量,使用分類變量預測連續變量可能是SNP推斷身高的固有限制。在法醫學應用中,使用幾百個位點得到的結果誤差太大,不具備實際使用價值;使用數萬個位點所需要的檢材質量很高,同樣受到很大的限制。因此,有必要開展對于其他遺傳標記的研究,使用多種標志物建立預測模型。
綜上所述,有關人類身高的分子生物學研究大部分集中在SNP,然而SNP 只能解釋身高方差的40%,僅為推測的身高遺傳力的一半。因此,探索影響身高的其他遺傳標記是非常必要的。遺傳與表觀遺傳相互影響,共同決定生物體的表型。然而,目前對于影響身高的表觀遺傳因素尚有很多未知,等待研究者去探索。因此,在未來的研究中,尋找影響身高的表觀遺傳因素,探索其影響機制和所產生的遺傳力,以及決定身高的表觀遺傳與遺傳變異因素之間的關系,是重要的發展方向之一。
此外,已有的研究對于身高推斷大多使用過于簡單的線性模型,導致推斷的準確性很低。目前的研究對象大多為歐洲人群,對于亞洲和非洲人群的研究無論在數量還是規模上都遠不及歐洲人群,這種不平衡導致了在亞洲和非洲人群中身高推斷的準確性更低。因此,未來可研究更多歐洲以外的人群,獲得更多人群的數據,并可通過不同人群之間的比較,深入挖掘更多的信息。同時,使用多種身高相關性較高的遺傳標記及表觀遺傳標記,建立適用于法醫檢材的檢驗方法,基于機器學習算法建立更加精準的身高推斷模型,提高推斷的準確性,更好地應用于法醫學實踐,是未來的重要發展方向。