劉 珺,林 凱,楊曉明,徐余海,張榮強,郭 青,周晴霖,朱美財
2004 年生物醫學領域的研究人員完成了人類基因組計劃(human genome project,HGP)和對人類染色體基因的測序,建立了基因組學等數據庫,并利用數據挖掘技術進行基因分析,使從基因組角度對疾病進行準確、全面、科學的早期預測和早期干預成為可能[1]。HGP對于分析基因變異和各種疾病的關系具有重大意義[2-3]。在進行致病基因分析時利用數據分析技術可從DNA序列中找到與疾病相關的遺傳等信息,Alsuami等[4]分析了變異基因與血壓之間的關系,發現CD47基因與血壓之間有顯著相關性。致病基因的發現促進了以預測和早期干預為主的5P醫學[5](預測醫學Predictive;預防醫學Preventive;個體化醫學Personalized;主動參與醫學Participatory和精細醫學Precise)。
1.1 全基因組關聯研究(GWAS)的概念 全基因組關聯分析(genome-wide association study,GWAS)就是針對包含有數以千計甚至萬計個體的人群基因組中數十萬甚至愈百萬的單核苷酸多態性(single nucleotide polymorphism,SNP)位點,進行基因分型并與某種疾病或其它復雜性狀做病例-對照關聯分析,其關鍵技術在于探索影響人類復雜性狀疾病發生的易感基因或者SNP位點。與既往研究SNP與疾病的關系采用的“候選基因”的策略不同,GWAS的優勢在于可直接分析與疾病關聯的SNP,并可以高通量地快速發現一些新的SNP位點,并應用已經發現的遺傳學風險靶標對不同個體疾病發生的風險做出預測。
1.2 GWAS-全基因組關聯技術應用進展 GWAS是通過基因測序或基因芯片等手段,在全基因組范圍內進行整體研究,適用于復雜疾病的研究[6]。2005年《Science》雜志首次報道了用全基因組關聯研究技術發現了補體因子H基因(CFH)是年齡相關性視網膜黃斑變性病的重要風險因素[7],此后陸續有研究人員報道了有關肥胖[8]、糖尿病[9]和冠心病[10]等常見疾病的GWAS研究。另外GWAS技術也用于多種癌癥的診斷,如前列腺癌[11]、肝癌[12]、食道癌[13]、乳腺癌[14]等,便于癌癥的早期診斷和治療,另外通過挖掘遺傳致病基因的相關突變進行胎兒產前診斷等。
近年來,隨著基因測序儀器和技術的飛速發展,基因測序速度不斷加快、成本也大幅下降,使其應用于臨床疾病診斷成為可能;另一方面基因測序的推廣極大地推動了全球范圍的DNA數據的積累,以及相應的疾病癥狀或復雜生物學性狀等數據的積累。當前臨床應用主要在兩個方面,一方面是針對普通疾病的篩查,通過測定已知疾病相關的基因序列位點來預測其未來罹患該疾病的概率:另一方面是針對癌癥等難治性疾病的追蹤診斷,通過測定某些特定的基因序列位點,探討藥物的有效性,最終為患者找到更適合基因突變的最為有效的藥物或治療方案,真正實現個體化醫療。
1.3 全基因組關聯技術的發展現狀及優勢 基因診斷始于探尋遺傳疾病的分子生物學病因,分子生物學家利用基因敲除等技術研究單個基因對生物表型的影響,取得了很多重大的突破;并運用統計學等數學分析方法處理大量數據研究基因序列與生物表型之間的關系。
人類疾病經歷了從最簡單的單基因疾病到多基因、多因素的復雜疾病(complex diseases)的演變過程,對于疾病的基因診斷已經從基于單基因或者少數基因的疾病遺傳學風險預測走向多基因多因素的疾病風險預測。隨著近年來GWAS研究數據的積累,科學家們對基于GWAS數據的疾病或表型風險預測方法進行了大量的研究。目前比較統一的觀點是:由于全基因組關聯研究要求統計分析的顯著性閾值為P<5×10-8[15],而在當前情況下,很多復雜表型GWAS探索由于外顯率和樣本量的限制并不能發現大量的符合統計學標準的關聯SNP,即大量的遺傳學標記被嚴格的顯著性標準過濾掉[16],因此在GWAS的剩余數據中必然包括著大量陽性關聯的SNP,但他們由于對表型的影響效果較小(small effect size)而在統計學顯著性上表現為接近閾值而大于閾值[17],很多研究也表明,在樣本量增多時,很多新的關聯SNP能夠被發掘出來[18]。有些研究者受到樣本量和研究資金的限制,不能夠對大量的(數十萬)樣本群進行基因分型,于是便從統計學的角度入手探索了更深層次挖掘潛在關聯SNP信息的方法,利用多基因模型[19]在帕金森病[20]、血管疾病[21],子宮內膜異位[22]和其他相關疾病的基因預測上也取得了一定的成績。
GWAS的優勢在于它集合了全人類基因組篩選和關聯分析的優點,且能發現未知基因,在基因序列分析中運用生物信息學和統計學也將極大地推動GWAS的發展。隨著GWAS的研究越來越熱,目前人類基因組學已正式進入GWAS新紀元。在未來GWAS研究將有可能大幅推動疾病早期診斷、個體化治療和藥物基因組學的研究及其應用[23]。
人類目前面臨的待解決成因的疾病大多屬于復雜疾病,包括各類神經性疾病、腫瘤、糖尿病、心臟病和各類疑難雜癥等,應用全基因組關聯分析考察全基因組范圍DNA變異的SNP,挖掘影響復雜疾病的表型SNP,有助于明確復雜疾病的發病機制[24]。
2005 年Klein等[25]研究人員第一次成功確定了影響年齡相關性黃斑變性病的重要遺傳因子。與年齡有關的黃斑變性(AMD)是老年人失明的主要原因,與許多其他慢性疾病一樣,AMD是由遺傳和環境風險因素共同導致的。該研究報告了96個受試者和50個對照者的全基因組分析結果:基因分型的116 204個單核苷酸多態性中,補體因子H基因(CFH)的內含子和常見變異與AMD(P<10-7)密切相關。GWAS研究首次表明了人類補體因子H基因中的序列多態性可導致AMD,也是GWAS研究較早的一個成功案例。自此以后在更多的疾病診斷領域見證了GWAS的應用。
為了探索癌癥的發生發展機理,研究人員從全基因組的所有SNP中,找出僅僅與癌癥相關聯的SNP,進行癌癥的早期診斷。通過對癌癥基因組序列和結構的分析,可以了解癌癥發生發展機制。癌癥相關的遺傳因素、表遺傳因素及眾多的癌癥基因表達或活性性狀,構成了癌癥發生、發展的分子網絡,癌癥分子網絡研究已經成為癌癥研究的一大熱點,具有重要的研究價值。近年來,隨著測序技術的不斷進步,第二代測序技術在內的新一代高通量技術越來越多地應用于解決生物學問題,這種以數據為基礎,大規模的研究模式使得從基因組、轉錄組水平等角度全方位,多層次的癌癥研究成為可能[26]。基因組是指生命體內所有DNA分子,通過對基因組的研究,能夠發現包括位點突變、插入與缺失、拷貝數變異及結構變異等在內的疾病特異性突變[27]。
近幾年有文獻報道了關于中國人群和日本人群中食管鱗狀細胞癌(ESCC)的全外顯子組測序的研究,這些研究鑒定出食管鱗狀細胞癌驅動基因包括突變頻率很高的TP53和突變頻率不高但具有統計學意義的基因(CDKN2A,NOTCH1,RB1和PIK3CA)[28]。北京協和醫學院的研究人員隨訪了5年以上的1088例ESCC患者外周血DNA的7 875 353個SNP,并與患者總生存時間進行關聯分析,然后對發現的相關SNP在1479例ESCC患者的獨立樣本中進行驗證,以探索中國人群ESCC預后相關聯的SNP位點和基因。該研究通過對94例ESCC樣本的全基因組測序和轉錄組測序的整合分析,建立了ESCC更全面的基因組景觀[29]。
另外多項研究通過GWAS技術探索了乳腺癌易感基因位點,如Cai等[30]研究人員從22 780個樣本和24 181個對照樣本中發現了30個獨立的乳腺癌易感基因位點。2017年,Michailidou等[31]研究人員對122 977例歐洲乳腺癌患者和105 974例對照者進行了基因分型陣列和SNP分析,證實了許多之前發現的乳腺癌致病位點,并找出了65個新的乳腺癌致病基因位點。 Milne等[32]研究人員通過GWAS分析與雌激素受體陰性乳腺癌風險的關聯性,證實了之前發現的10個易感基因位點。
將GWAS技術應用在癌癥發生發展機制的研究上,已取得了可喜的成績。發掘癌癥患者基因組的疾病特異性突變和鑒定有效的預后分子標志物,對癌癥患者的早期診斷和潛在治療靶點的發掘具有極其重要的意義。另外近年來也有將GWAS技術應用糖尿病[33-34]、阿爾茨海默癥[35]等慢病的篩查上,對于慢病的預防和管理有積極作用。
近年來,醫學界開始重視“治未病”的理念,即“未病先防”、對疾病早發現、早治療和“既病防變”。對于慢性病的預防和管理,"治未病"的理念更應大力倡導。Zhu等[36]研究人員為了推斷各種危險因素與常見疾病之間的因果關系,開發并應用了一種方法(稱為GSMR),即用全基因組關聯研究的匯總數據進行多SNP孟德爾隨機化分析,發現了BMI、腰臀比、血清膽固醇、血壓、身高和受教育年限等與常見疾病(樣本數量達405 072個)之間的因果關系,確定了低密度脂蛋白膽固醇對Ⅱ型糖尿病(T2D)的保護作用,這可能解釋了他汀類藥物對T2D有改善作用,以及受教育年限對阿爾茨海默癥的保護作用等。該研究發現BMI每增加4 kg/m2,患T2D的風險增加約2.3倍,另一方面T2D對BMI有顯著的負面影響。
以上研究結果對于Ⅱ型糖尿病的診斷、治療及病程管理有重要的意義。每個人的體質不同、健康狀況不同、生活習慣不同,人們可以對照以上結果,對身體質量指數(BMI)、腰臀比、血清膽固醇、血壓等體檢指標進行檢測,排查危害健康的因素,并通過各種健康干預措施,如:改變生活方式、調節心理、平衡膳食等,增強體質,預防疾病,真正的實現未病先防。
從全基因組范圍中挖掘,是為了不漏掉任何可能的致病SNP,但由于全基因組中涉及的SNP達到百萬甚至千萬數量級,在快速精準診斷疾病方面GWAS技術還面臨著巨大的挑戰,如GWAS疾病風險預測模型區分度和校準度尚有待提高,這就需要優化GWAS疾病預測模型;DNA數據分析的質量控制也需要加強,質量控制在全基因組關聯研究中非常重要,關系到是否能夠提供高質量的DNA樣本。鑒于全基因組關聯研究能夠挖掘影響人類疾病的易感基因或者SNP位點,預測不同個體未來罹患該疾病的概率,并找到更適合基因突變的最為有效的藥物或治療方案,有必要提高全基因組關聯研究的技術水平,并擴大其臨床實際應用,促進個體化精準醫療的發展。