李法君
(山東省濰坊科技學院 262700)
隨著社會生活水平的提高,健康問題越來越多地受到關注。傳統遺傳疾病的鑒定多采用染色體顯帶分析、核型分析和遺傳標記等方法來尋找與疾病相關的DNA變異。這些方法雖然各有特點,但都存在效率低下、工作量大和分辨率低等問題。21世紀初,隨著人類基因組計劃和國際人類基因組單體型圖計劃的相繼完成以及高通量生物芯片技術的快速發展,研究人員得以利用全基因組關聯研究(genome-wide association study,GWAS)的方法來篩選復雜疾病的易感基因,并取得了舉世矚目的成就,掀起了人類基因組研究的第三次浪潮[1]。但GWAS技術也存在自身的局限性,如對稀有的變異和結構變異不敏感,易出現假陽性結果等[2,3]。與此同時,研究人員還意識到對疾病及性狀表型起著關鍵作用的變異主要來源于編碼區,即外顯子的差異[4,5],而前期的研究則多聚焦于非編碼區的變異,對外顯子變異的關注度較欠缺。由于全基因組測序費用高昂,因此在研究可用的財力資源一定的條件下,外顯子組測序技術更適合探索高深度測序數據的大批量樣本研究。基于上述原因,眾多研究者開始優先關注編碼區的信息,從而加速了外顯子組測序技術的出現。
外顯子是蛋白質的編碼區,是真核生物基因組的一部分,含有合成蛋白質所需的遺傳信息,基因組中的全部外顯子稱為外顯子組。如人類基因組大約有1.8×105個外顯子,總長30Mb,盡管只占人類基因組的1%,但存在與個體表型相關的大量功能變異。研究表明,人類85%以上的致病基因都是由外顯子堿基突變造成的[4]。2009年8月,外顯子組測序技術第一次成功應用于疾病致病基因的鑒定,Ng等[6]對4名無親緣關系的弗里曼謝爾登綜合征患者[已知該病的致病基因為肌球蛋白重鏈3基因(MYH3)]及8名對照組的DNA樣本進行外顯子組測序,通過對12個樣本的測序數據進行比較分析,準確找出了位于MYH3中的致病突變,這也預示了其作為遺傳學研究的重要工具,具有廣闊的應用前景。
外顯子組測序主要包括外顯子序列的捕獲富集、DNA測序和數據統計分析三個主要步驟。
1.1 外顯子組的捕獲富集 目前,主要通過羅氏(NimbleGen)[7]和安捷倫(Agilent)[8]兩種捕獲芯片對外顯子序列進行富集。其基本原理是:首先將基因組DNA隨機打斷成200~300bp左右的片段,隨后進行DNA片段平末端修復,5′端加磷酸基團,3′端加PloyA尾,通過TA連接將接頭序列加到片段兩端,經過一輪PCR擴增后成為完整的片段文庫;然后將這些DNA片段與捕獲芯片進行雜交,從而得到富集的目標片段;隨機把目的片段連接成長鏈DNA片段,然后再次隨機打斷并在其兩端連接上測序接頭,然后用與接頭相匹配的序列為引物進行PCR擴增,經質量檢測合格后的外顯子組文庫即可上機測序。
1.2 DNA測序 外顯子組的測序以二代測序技術為主,其中大部分報道的外顯子組測序技術確定的致病基因使用的平臺是Illumina測序儀。其測序的基本原理是邊合成邊測序,用不同顏色的熒光標記四種不同的dNTP,當DNA聚合酶合成互補鏈時,每添加一種dNTP就會釋放出不同的熒光,根據捕捉的熒光信號并經過特定的計算機軟件處理,從而獲得待測DNA的序列信息。隨著測序技術的發展,第三代測序技術也用在外顯子組的測序方面。第三代單分子測序儀不需要擴增建立DNA文庫,而是邊合成邊測序將隨機打斷后的片段3′末端加上PolyA,通過合成互補鏈技術對數百萬個DNA片段進行測序。第三代測序儀測序通量高,測序讀長較長,可達到10 kb,更加有利于基因組的拼接,但其錯誤率也相對較高,需要進行高覆蓋度測序以確保較高的測序精度。
1.3 數據統計分析 雖然外顯子組測序得到的數據較全基因組測序要少許多,但仍會產生大量的數據。在如此龐大的數據中發掘出有意義的信號依然是一個巨大的挑戰。數據分析主要包括常規的圖像信息數據分析和生物信息學分析。圖像信息數據分析主要包括圖像的去噪音、銳化、定位和偏移校正、依據光強度獲得堿基等;生物信息學分析的目的是挖掘變異位點,包括單核苷酸多態性(single nucleotide polymorphisms, SNP)和短的插入/缺失片段(short insertion/deletions,Indels)。首先是通過質控排除測序過程中產生的低質量Reads,然后將高質量的Reads與參考基因組進行比對,統計SNP和Indels,并對這些變異位點進行注釋、篩選并最終驗證目的致病基因。
2.1 單基因疾病的檢測 單基因病又稱為孟德爾遺傳病,是指由于單個基因突變而導致的疾病,常以孟德爾遺傳模式存在于家系中。理論上,外顯子組測序可發現同一基因座上外顯子區域的所有突變,因而能快速直接地鑒定致病基因。Liu等[9]利用連鎖分析將兩個家族發作性疼痛病家系的致病基因定位在染色體3p22.3-p21.32上,然后再利用外顯子組測序技術,在兩個家系中發現SCN11A基因(電壓門控鈉離子通道α亞基的編碼基因之一)的兩個錯義突變,最后結合家系內共分離分析以及SCN11A基因功能研究,確定SCN11A為家族發作性疼痛一個新的致病基因。此外,研究人員利用外顯子組測序技術發現并驗證了NCST基因(γ分泌酶的成分基因之一)的突變可導致逆向性痤瘡的發生[10]。該成果對NCSTN基因突變的檢測和逆向性痤瘡的診斷、治療具有十分重要的意義。
2.2 癌癥等復雜疾病的檢測 近來,外顯子組測序在癌癥的研究方面取得了眾多科研成果。Jones等[11]對8個患者的腫瘤組織和正常細胞進行了對比測序分析,鑒定出了4個基因突變至少在2例腫瘤組織中發生,其中ARID1A基因(ATP依賴染色質重塑復合物的亞基之一)是新發現的致癌基因,而PPP2R1A基因(蛋白磷酸酶2A支架亞基基因)則是新發現的抑癌基因。Brastianos等[12]利用外顯子組測序發現,在92%的顱咽管瘤患者中發現CTNNB1基因(鈣粘相關蛋白β亞基1基因)具有突變,表明CTNNB1與顱咽管瘤的發生密切相關。
2.3 動植物研究中的應用 外顯子組測序技術除了廣泛應用在人類疾病研究領域之外,在動植物相關基因的研究中獲得了大量的研究成果。Robert等[13]對96頭豬的外顯子組進行了研究,發現了幾十萬個核苷酸變異,根據檢測到的核苷酸變化并結合產仔率,推測大量關鍵基因的突變可能是造成一些新生胚胎死亡的原因。Bolon等[14]對大約12萬粒大豆種子進行了快中子輻射處理,并結合外顯子組測序技術,對與表型有關的候選基因進行分析,成功發現控制脂肪酸去飽和酶基因的丟失,該項工作的開展為后續功能遺傳學研究奠定了基礎。
外顯子組測序是介于全基因組關聯分析與全基因組測序之間的基因分析策略,能較系統地發現基因組中蛋白編碼區的主要遺傳變異。與全基因組測序相比,外顯子組測序技術具有高效、省時、省力和經濟的特點,已在疾病研究中取得了重大突破。但外顯子組測序也存在自己的不足:對非編碼區變異的研究具有局限性,還不能覆蓋所有編碼區的致病變異;在目標區域的捕獲時存在捕獲不全、捕獲偏差等現象;研究常見疾病的少見基因突變時需要的樣本量比較大。盡管如此,外顯子組測序技術依然是目前最高效、最經濟、最省時的研究基因疾病的方法。隨著芯片技術的進一步發展,相信外顯子組測序可以更廣泛地應用于相關疾病的診斷之中。
(基金項目:山東省自然科學基金面上項目,No.ZR2016CM12;山東省高等學校科技計劃項目,No.J17KB112,No.J16LE59;濰坊科技學院博士基金,No.2017BS03)