李曉凱 王貴 喬賢 范一星 張磊 馬宇浩 聶瑞雪 王瑞軍,何利兵 蘇蕊,2,3,
(1. 內蒙古農業大學動物科學學院,呼和浩特 010018;2. 農業部肉羊遺傳育種重點實驗室,呼和浩特 010018;3. 內蒙古自治區山羊遺傳育種工程技術研究中心,呼和浩特 010018;4. 河套學院農學系 內蒙古巴彥淖爾市臨河區大學路,巴彥淖爾 015000;5. 內蒙古金萊牧業科技有限責任公司,呼和浩特 010018)
經過長期的自然選擇和人工定向選擇之后,馴化的家畜在表型特征、重要經濟性狀和環境適應性等方面逐漸形成了明顯的遺傳差異,極大地豐富了現有的生物遺傳資源多樣性[1-2]。隨著測序技術的發展、測序成本的降低以及組裝方法的不斷完善,越來越多物種的精細基因組序列圖譜得到公布,使得全基因組測序成為進行不同物種個體或群體重要性狀相關遺傳基礎研究的重要方法。全基因組重測序,是對已知基因組序列的不同個體或群體進行全基因組重測序和序列比對分析研究,一般是建立一個測序文庫進行單個個體或不同個體混合池測序[3]。此外,為獲得更為全面的遺傳變異信息,對不同品種中具有代表性的個體也進行大量的從頭組裝測序(de novo),并在不同物種中的遺傳變異信息挖掘和參考基因組空白序列(Gap)的修補方面起到了越來越大的作用。相對于傳統候選基因等研究方法的效率低、周期長、準確性差等而言,全基因組測序可以從全基因組水平全面、精準、高效地對重要性狀的候選功能基因進行定位和分析研究[4]。豬、馬、牛和羊在人們日常生活中占有重要的角色,為人們提供肉、奶、皮和絨毛等生活用品。通過對這些重要家畜及近緣物種的不同群體的比較基因組學研究有助于揭示其適應性遺傳機理和表型性狀差異的遺傳基礎,開發相關的遺傳標記,加快分子育種。基于全基因組的遺傳信息對物種起源馴化、遺傳多樣性和群體歷史動態的研究也有助于物種的遺傳資源保護和今后進化方向的預測。本文主要對近幾年全基因組測序在常見家畜(豬、馬、牛、羊等及其近緣物種)的取得的重要研究成果進行綜述,并討論全基因組測序的優勢、缺點及在生產中意義。此外,對全基因組重測序研究的未來發展進行了歸納和展望,以期為今后動物重要經濟性狀的功能基因定位和物種起源、馴化等研究提供思路和參考。
目前,隨著高通量測序技術快速發展、測序成本的進一步降低以及組裝方法的不斷完善,全基因組測序研究主要包括3個方面。第一種為不參考任何現有序列從頭組裝測序,是對未知基因組序列的物種進行基因組測序,并綜合利用不同測序技術和生物信息學工具對研究物種進行序列拼接和修正,進而獲得該物種的基因組序列圖譜。第二種為常見的全基因組重測序,是對已知基因組序列的物種進行個體或群體的測序研究,建立一個測序文庫進行單個個體或不同個體混合池測序,發現遺傳變異標記,進行后續的研究[3]。第三種是在已有參考基因組序列圖譜的基礎上,對不同品種的具有代表性個體建立多個文庫進行全基因組從頭組裝測序,此方法能夠進一步的進行參考基因組的修補和發現短序列比對難以發現的遺傳變異[5]。全基因組重測序因為包含某一物種個體或群體的核DNA的全部遺傳信息,與參考基因組比對可以獲得非常全面的遺傳標記信息,如SNP、Indel和CNV等分子標記。核DNA所包含的父母雙親的遺傳信息可以突破線粒體DNA母系遺傳和Y染色體父系遺傳在物種進化、群體歷史動態研究中的限制。在全基因組水平上的高密度的SNP等分子遺傳標記也能夠較全面的從整體角度對物種受到的自然選擇和人工選擇導致的遺傳變化進行解析。此外,近來商業化育種的實施導致某一功能突變基因的正選擇或凈化選擇作用的遺傳基礎也能通過全基因組重測序方法進行深入的分析研究。此外,全基因組重測序還可以突破目前基因分型芯片中品種的偏向性和標記不足的問題,獲得的新的遺傳變異信息也為進一步制作高密度芯片提供研究材料。
自人類基因組計劃完成以來,獲得高質量的參考基因組序列圖譜成為了不同物種進行功能基因研究的基礎[6-7]。隨之發展起來的Illumina/Solexa、Roche/454和ABI/SOLiD等幾種第二代高通量測序平臺更是對現代生物學研究的各個領域中起到了積極的推動作用[4,8-9]。目前,測序技術已經由最初的基于雙脫氧末端終止法的Sanger測序技術發展到以單分子實時測序(Pacific bio)、離子半導體(Ion torrent)、納米孔(Oxford nanopore)等為特點的第三代測序技術,實現了從低讀長到超高讀長、從光學檢測到電子傳導檢測的雙重跨越測序技術[10]。而Illumina/Solexa系統的聚合酶合成法因為具有低成本、單次數據量大、時間短,后續數據分析工作成熟等優勢,作為第二代中具有代表性的測序技術廣泛應用于動植物的基因組、轉錄組等方面的測序研究[11]。此外,以Pacific Biosciences 公司的 SMRT 技術、Oxford Nanoprop的MinION測序系列和Helicos公司的Heliscope單分子測序儀為代表的第三代單測序技術在序列讀長、測序速度、組裝效果方面較第二代測序技術有顯著的優勢,在參考基因組組裝中取得了極大的成功,但因較高的測序錯誤率和測序成本等問題,目前尚未在重測序領域廣泛應用[10,12-13]。隨著三代測序數據分析算法的、測序準確性的不斷提高優化,三代測序技術目前在基因組從頭組裝和全長轉錄組分析方面舉得了大量的研究成果[14-16]。在全基因組重測序的研究方面,尚未有相關報道,但不久的將來,隨著測序費用的降低及準確率的提高,其在重測序一定會具有廣闊的發展前景。
目前,結合不同測序技術和組裝方法,已經完成了豬、牛、山羊、綿羊、馬等物種的參考基因組的從頭組裝,尤其是近來結合不同組裝技術獲得的高質量山羊參考基因組圖譜(ARS1)為其他物種高質量參考基因組的獲取提供了參考。高質量的參考基因組序列圖譜也為進一步在不同物種中獲得更為全面的遺傳信息提供了基礎,而比較不同物種的基因組特點也能夠加深對物種間差異和進化的認識。全基因組測序根據研究目的、測序群體大小、物種地理分布情況、測序深度等不同,在家畜的重要經濟性狀相關的功能基因挖掘、起源馴化機制及遺傳資源多樣性等方面的研究側重點也有所不同。因此,對目前家畜基因組組裝方法、發展歷史和全基因組重測序研究方法的差異的理解也有助于今后快速有效的進行預期目標研究工作的開展。
2012年,Groenen等[17]采用細菌人工染色體克隆測序和Illumina全基因組鳥槍法測序相結合的方法對一頭杜洛克母豬進行測序組裝,并獲得了高質量的參考基因組。結合48頭野豬和家畜的全基因組序列進行系統發育分析發現,歐、亞野豬估計在100萬年前開始分化,其中野豬首先出現在東南亞,然后分布到歐亞大陸。群體瓶頸進化和遺傳多樣性分析,發現亞洲野豬的遺傳多樣性比歐洲野豬高,可能是兩萬多年前的“末次冰盛期”事件對歐洲野豬的影響大于亞洲野豬,導致歐洲野豬的有效群體大小和遺傳多樣性迅速降低。在進一步的選擇性清除分析中發現,受選擇區域候選基因主要參與RNA剪切和RNA加工過程,可能與品種的快速分化有關。基因組的進化分析中發現與免疫、嗅覺相關基因在馴化過程中發生了基因復制與基因家族擴張事件。Li等[18]利用Illumina測序平臺對一頭母野藏豬進行了從頭組裝測序,并對6個藏豬群體(西藏日喀則和林芝、四川阿壩和甘孜、甘肅甘南和云南迪慶)及4個四川盆地特有家豬品種(盆周山地豬、烏金豬、雅南豬和內江豬)進行全基因組重測序。通過比較同源基因構建系統進化樹發現,藏豬與家豬的祖先可能分歧于690萬年前。與家豬的基因組比較分析發現,藏豬進化出了3 000多個特有的基因,主要涉及心肺血液循環系統的發育、抗病性和高輻射適應等方面,加深了我們對藏豬高原適應性的遺傳機制的理解。Ai等[19]通過對中國15個不同地理環境下的具有代表性69頭豬進行深度測序分析,在X性染色體上發現了一個可能與寒熱環境適應性有關的14 Mb的低重組區域,為豬的適應性機理研究提供了基因組水平的證據。而基因滲入的研究為進行品種雜交提高適應性等奠定了理論基礎。
在實際育種生產中,為提高供豬的生產性能,利用雜種優勢大量地進行了國際間的豬種雜交和商業化育種工作,這些過程在基因組中留下相應的印記,受到了科學家的廣泛關注。Li等[20]對三頭巴克夏豬進行全基因組測序,并結合其他已有品種的41個個體的全基因組序列數據進行深入挖掘分析。從基因組水平發現巴克夏豬具有更高比例的中國豬的遺傳物質,證實了中國豬對巴克夏品種的形成具有的重要作用,為家畜的育種歷史追溯提供了基因組水平上的證據和方法。Ramírez等[21]利用古DNA的基因組測序研究揭示亞洲豬對伊比利亞豬和國際化豬種對地方豬種的基因滲入的現象,為基于基因組序列分析進行不同品種間的基因滲入的研究提供了方法。利用全基因組重測序技術對豬的遺傳多樣性和重要經濟性狀遺傳機理的研究將促進對豬的遺傳資源的保護和利用。
為理解不同品種特有性狀的遺傳基礎,Rubin等[22]利用SOLiD 和Illumina兩個不同測序平臺產生的全基因組序列數據進行選擇性清除分析,發現NR6A1,PLAG1和LCORL等三個基因的功能變異可能與豬背最長肌、脊椎數相關;在結構變異分析中發現在KIT位點的四個復制只表達在白色或白點豬上,可能與結構變異導致表型快速進化和定向選擇引起突變的累積效應有關。Choi等[23]采用Illumina測序技術對韓國本地和歐洲5個品種55 頭豬進行平均深度為11.7 x的重測序,與參考基因組比對后共發現 20 123 573 個SNPs,其中新發現的SNP占25.5%,極大補充了亞洲豬種的遺傳資源多樣性的研究;在進一步的遺傳變異注釋分析中發現35 458個非同義突變發生在在9 904個基因上,為變異導致重要性狀差異的研究提供了分子標記。選擇性清除發現,CLDN1和TWIST1等兩個基因可能與豬的胚胎附著和肥胖等重要經濟性狀有關。Wang等[24]利用公共數據庫豬的全基因組數據,并結合混合池測序和個體測序的方法,在選擇性清除分析發現ESR1基因的同義替換(c.669T>C)與豬的窩產仔數相關;PRM1,PRM2,TNP2,GPR149 和 JMJD1C等基因與中國豬的高繁性狀相關;MITF、EDNRB等兩個基因與通城豬的兩頭烏性狀相關。
為全面研究由于長期遺傳分化導致不同群體、種屬間的基因組水平上的遺傳差異,以及利用從頭測序提升參考基因組序列圖譜的完整性。Li等[5]通過對10頭不同品種的豬進行個體基因組組裝,并將組裝序列與參考基因組進行比對,挖掘了大量的SNP、InDel、SV和CNV等遺傳變異,基因組序列分析揭示了歐亞豬中具有明顯的遺傳差異,且中國豬種的遺傳多樣性明顯高于歐洲豬種,再次證明了豬起源的東南亞的假說。此外,研究中還檢測到了包含了1 737個蛋白編碼基因的137.02 Mb的新片段,為完善豬的參考基因組序列圖譜提供了大量的數據基礎。對品種個體基因組的選擇消除分析發現了分散在基因組不同區域的308個基因,發現豬的選育策略差異與社會需求顯著相關。
豬作為研究人類疾病的模型,通過對參考基因組的深入分析,發現了112個豬和人類相同的氨基酸。其中發現突變會導致與肥胖(ADRB3、SDC3)、糖尿病(PPP1RA,SLC30A8,ZNF615)、帕金森氏綜合癥(LRRK2,SNCA)和阿爾茨海默氏癥(TUBD1,BLMH,CEP192,PLAU)等有關疾病的功能基因的遺傳突變,為豬作為非模式生物研究人類相關疾病研究提供了科學基礎[25]。中國科學家基于Illumina短序列獨立組裝的五指山迷你豬參考基因組解析工作的完成,為構建各種人類疾病模型提供基因組信息[26]。這些工作的完成為今后人體異源器官移植工作提供了基因組水平的基礎。
2007年國際馬基因組計劃工作小組完成了一匹名為 “黎明” 的純血母馬血樣測序工作,并將馬基因組序列草圖數據全部存入公共數據庫,供世界各地的科學人員免費使用。不久,第二版的馬基因組組裝草圖也宣布完成,其基因組大小約為2.68 Gb,Contig N50 達到 112 kb,Scaffold N50 達到 46 Mb,包含21 375個基因。Wade等[27]對馬基因組序列進行深入解析發現11號染色體中可能存在一個馬屬特有的正在進化的新著絲粒,該著絲點具有功能而且穩定,為著絲粒的功能研究提供了很好的模型。在馬疾病相關的研究中,還發現與人類有90多種相似的遺傳疾病,確定馬身上造成這些疾病的基因根源,將有助于加深對人類相關疾病的理解。
現代馬大約在5 500年前的西亞草原地區被人類馴服,隨后迅速擴散到歐亞大陸,其中普氏野馬(Przewalski′s horse,66個染色體)是現存最古老的野馬,但與家馬(64個染色體)可以雜交產生可育的后代[28]。對馬的起源馴化研究中推測馬最初的時候是從一個母馬數量相對較大的但公馬非常少的馬群中被馴化[27]。2013年,通過第二代、三代測序平臺結合的方法,丹麥科學家Orlando等[29]對在加拿大育空谷永久凍土挖掘的馬骨骼化石碎片中獲得DNA進行測序。結合“晚更新世”馬的基因組序列草圖以及五匹現代馴化馬、普氏野馬和驢的基因組序列草圖進行了對比,揭示了所有現代馬、斑馬和驢子系統分化時間約于400萬-450萬年前,且基因組數據表明Przewalski馬是目前唯一幸存下來的野生馬種群。研究還揭示了馬群體大小在過去的兩百萬年間發生了多次浮動,且估計普氏野馬與現代馬大約在3.8萬-7.2萬年前就已開始分化;同時研究也揭示了現代馬的基因組變異的原因可能是因為與已經滅絕的野馬物種后代進行的雜種交配所致。研究也說明了對古代馬基因組的研究有助于更好的研究現代馬的起源馴化過程。Huang等[30]分別對雄性蒙古馬和普氏野馬個體進行全基因組重測序研究,在對蒙古馬5號染色體與普氏野馬23、24號染色體間的序列相似性分析中,發現了蒙古馬和普氏野馬間的一次染色體羅伯遜易位事件。并且發現羅伯遜易位并沒有導致染色體更多的局部重排,揭示羅伯遜易位和染色體局部重排可能是由不同的機制引起的;研究還發現兩種重復序列對基因組的不穩定性有著強烈的影響。另外,該研究還分別拼接組裝成了2 Mb和3 Mb大小的Y染色體序列,獲得了最完整的馬的Y染色體的序列圖譜,對種公馬繁殖力和對現代馬業育種工作都具有重要的科研和實用價值。
Doan等[31]首次利用下一代測序平臺Illumina GA II對夸特馬進行測序深度達24.7x的重測序研究,遺傳變異檢測分析中發現2 814 367個新的SNPs和193 271個插入缺失(Indels)和282個拷貝數變異(CNVs),極大的豐富了馬的遺傳資源多樣性研究內容。功能富集分析發現遺傳變異主要富集在感官知覺、信號轉導、免疫和防御等通路上,其中感官知覺通路上含有的遺傳突變最多(SNPs占27%,CNVs占60%),對夸特的表型差異或疾病相關遺傳變異的研究提供了重要的遺傳資源。Jun等[32]利用Illumina HiSeq 2 000測序平臺第一次對測序深度達30x亞洲品種馬瓦里馬的重測序結果進行分析,發現了5 923 566個SNPs(其中1 577 725新發現的SNPs)、578 055個插入缺失(Indels)和2 579個拷貝數變異(CNVs)。對新發現的SNPs進行注釋后發現主要富集在嗅覺功能方面;群體進化與結構分析發現馬瓦里馬與阿拉伯馬之間的遺傳關系最近,蒙古馬和阿拉伯馬對馬瓦里馬的血統構成比例分別為65.8%和34.2%,為亞洲馬匹的研究打開了科學之門。研究還發現TSHZ1基因可能與馬瓦里馬獨特的耳朵尖部向內翻卷的表型性狀相關,基因SCL26A2的g.27991841A>G突變與馬的隱性軟骨發育不全相關。在純血馬的研究中發現,與純血馬賽馬耐力(COX4I1,ACN9),馬體型大小(HMGA2,LASP1)和運動模式(DMRT3)等相關的基因受到人工選擇作用,進一步加深了對馬的不同差異性狀遺傳機理的理解。
為研究矮種馬的特殊表型和適應性遺傳機理。Metzger等[33]對矮種馬的測序研究,結合26個品種的馬屬動物,發現基因ACAN的外顯子7的突變的g.94370258G>C與矮化表型相關。Yakutian是北亞極寒地區的品種,對寒冷環境具有獨特的適應機制,利用比較基因組的方法,Librado等[34]發現BARX2、PHIP、PRKG1等受選擇作用的基因可能與適應亞北極區寒冷環境機制有關。
鑒于馬在娛樂、疾病研究等方面的重要作用,在基因組的水平上更大規模群體和品種的研究以及古DNA的研究有助于更好的理解馬的進化、群體遺傳結構和選擇作用導致的表型差異,對馬的定向選育和研究是一件迫切需要的科研工作,也定會一定程度上對揭示人類疾病遺傳機理提供重要的參考。
作為第一個被研究的反芻動物,2003年,由多個國家聯合啟動了“牛基因組測序計劃”。結合BCA克隆與全基因組鳥槍測序方法,到2009年正式公布了第一頭牛(海福特牛)的全基因組序列,功能注釋發現了牛基因組中包含22 000多個編碼蛋白基因,對基因組的深入分析也揭示了反芻動物特有的多個生物學特性,如5個與人類脂肪酸、甲戊二羥酸、解毒、嘧啶代謝途徑相關的基因在牛基因組中缺失或者變異[35]。同年,由美國馬里蘭大學牽頭的牛基因組研究團隊通過改進組裝方法獲得2.67 Gb大小的牛基因組,完成了Y染色體序列較為完整的組裝在共線性研究中發現了268個與人的同源線性區域,基因組序列測定的完成對加快牛類疾病遺傳基礎的認識,減少養牛業對抗生素的依賴的遺傳研究,并為生產出更好質量的牛肉和牛奶等產品提供了可靠的依據,也為加速遺傳改良提供了更精確的分子輔助育種基礎[35]。隨后,瘤牛(Bos indicus)和牦牛(Bos grunniens)的基因組序列均被組裝成功,并揭示了大量種群特異基因,為品種鑒定和物種遺傳多樣性提供了基因組水平的依據[36-37]。
為研究牛的進化歷史。Bovine等[38]通過對19個不同品種的497頭牛的重測序數據與參考基因組之間的比對分析產生的34 470 SNP,推測牛可能因馴化瓶頸、選擇作用及育種等原因導致牛的有效群體大小迅速降低,但非洲的達摩牛沒有受到強烈的馴化瓶頸。日本科研人員Kawahara-Miki等[39]對地方品種口子島牛進行深度達15.8 x的深度測序,共獲得550個新發現的SNP和約65萬個Indels。檢測分析發現了分布在4 643個基因中的 11 713個非同義突變,其中大約有100個基因與蛋白結合、活性催化及代謝通路等有關,為亞洲牛重要經濟性狀表型變異的關聯分析及分子水平上的遺傳改良提供了可能。此外,研究中還結合已有的基因組序列進行系統發育研究,發現在遺傳上口子島牛與歐洲家養牛表現出極大的不同,可能具有獨特的進化地位。
牦牛是西藏高原及其毗鄰地區特有的物種之一,在缺氧、高輻射等惡劣環境下的適應性引起科學家們的關注。邱強等[37]通過Illumina HiSeq 測序平臺采用鳥槍測序法一頭家牦牛進行從頭組裝共獲得了65x深度的數據,對獲得的測序數據進行分析,在與家牛的同源基因分析中發現了牦牛特有的100個基因。在正選擇分析中,牦牛受到正選擇的基因主要富集在缺氧性應激和能量代謝,如ADAM17、ARG2和MMP3基因等。在基因家族分析中發現大量擴張基因主要富集在嗅覺受體活性、味覺感知、能量代謝和ATP合成等方面。對一些與高海拔低氧環境相適、嗅覺、防御和免疫等相關基因的重要選擇性變異的研究,將有利于揭示高海拔地區動物高原適應性生理性狀背后的遺傳基礎。Wang等[40]在野生與家養牦牛研究中,采用Illumina HiSeq 2000測序平臺分別對采自不同地區的3頭野牦牛和3頭家牦牛進行測序分析,共檢測到700多萬個新的SNPs突變,豐富了牦牛現有的遺傳資源庫。群體連鎖不平衡分析顯示,家牦牛的LD消減速率較慢,可能與牦牛馴化過程中的進化瓶頸有關。在發現的1 000多個馴化過程中的受選擇區域進行注釋和功能聚類分析發現,主要富集在炎癥應急、抗體轉運和防御應答等方面;與體型相關的基因PLAG1和奶品質特征相關的基因DGAT1和ABCG2是重要的馴化相關基因。因此,加強牦牛遺傳資源的研究有助于分子標記輔助選擇和其他牛科動物的遺傳多樣性研究。
Choi等[41]采用Illumina測序儀分別對10個韓牛和10個延邊牛進行平均深達10.71 x和10.53 x測序工作,比對到參考基因組后共檢測到一千七百多萬個SNP突變,其中有22.3%為新發現的SNP;選擇性清除分析確定了幾個可能與重要經濟性狀相關的位點,例如PPP1R12A基因可能與肌內脂肪沉積相關。這些研究為進行亞洲牛的遺傳特征和起源馴化研究提供了資源,為種質資源的保護提供了科學的借鑒資料。
為研究不同品種牛間的基因組遺傳差異。Stothard等[42]分別對一頭黑安格斯牛公牛和一頭美國荷斯坦公牛的進行遺傳變異檢測和比較分析。比對參考基因組后,共發現7百多萬個遺傳變異,其中僅24%是共有的,在一定程度上說明了不同選擇作用會導致了不同品種間遺傳差異。研究中還發現,PLA2G2D基因的拷貝數變異與安格斯牛的體重和屠宰性狀等相關。
世界范圍內共有800多個牛品種,其中中國就有52個之多,品種之間的遺傳多樣性研究為現代化專業化商業品系的培育提供了廣泛的遺傳資源,進一步挖掘、利用牛的遺傳資源,有利于生產產奶量高、質量更好、肉品質優良的品種。傳統數量遺傳學育種方法在牛的重要經濟性狀方面取得了巨大的成就,我們相信,利用現代的高科技技術可以在更短的時間內培育出更多的理想品種(品系),因此加強對牛的基因組學的研究是非常有必要的。
綿羊(Ovis aries)和山羊(Caprine hircus),是最早被馴化飼養的反芻動物,分別屬于牛科的山羊屬和綿羊屬,為人類提供肉、毛、奶、皮革等產品,是世界農業經濟的重要組成部分。據考古等方法研究表明,它們可能于10 000年前就在西亞的肥沃新月形地帶經歷了最初的馴化過程[43-44]。
2.4.1 綿羊基因組測序研究 Jiang等[45]在2014年完成并在線發表了綿羊高質量參考基因組解析工作,結合40個不同組織的轉錄組測序數據,發現綿羊染色體上約有1 000萬個單核苷酸多態性變異、141個大結構改變和近10 000個拷貝數變異。此外,分析鑒定出一系列反芻動物特有的基因家族擴張事件、基因結構變異和基因表達的組織特異性變化,其中最重要的是發現了反芻動物獨特的消化系統和脂類代謝進化相關聯的特異基因,并在綿羊皮膚中找到了控制脂類合成的關鍵基因MOGAT2和MOGAT3,綿羊參考基因組的發布和分析,使我們對反芻動物生物學有了嶄新的認識”,并了解了“反芻動物成為最繁盛的陸地食草動物的原因”。Miller等[46]采用ABI SOLiD測序平臺對一只大角羊公羊進行了12x深度的基因組測序,檢測到1 400萬個SNPs和一百多萬個插入缺失變異,在同義與非同義突變基因本體論(GO)分析中有 40個差異表達的分類,其中導致氨基酸變化主要參與精子發生和乳腺上皮細胞增殖的負調控的兩個分類,揭示了馴化過程中選擇作用導致對繁殖性狀、肌肉特性等其他性狀上的差異。Kardos等[47]采用Illumina HiScan測序平臺對58個采自3個不同地方的大角羊群體進行混合池測序,對測序結果分析檢測到280多萬個SNP用于后續的分析。在群體遺傳差異分析中發現來自大提頓山脈的兩個群體間遺傳差異較大,推測是較低的基因流動和群體內嚴格的遺傳漂變造成的。在選擇信號分析發現可能與大角羊的環境適應、身體生長相關的14號染色體上HIF3A和IGFL1基因、16號染色體上GHR基因和8號染色體上的IGF2R基因。Yang等[48]對77只綿羊和3只野羊進行重測序,比較極端環境下和對照環境下(如高原和平原、干旱沙漠和濕潤地區)樣本的基因組發現了一系列與綿羊極端環境適應性相關的候選基因,并進行生物學功能和信號通路分析發現高原環境下受選擇的基因和通路與低氧耐受相關,沙漠環境下受選擇的基因與水分子的重吸收有關,從基因組水平上闡明了極端環境下綿羊的適應性遺傳機理。這些研究為探索羊屬動物遺傳適應性和選擇進化提供了良好的開端。
Liu等[49]對多浪羊、小尾寒羊和蒙古羊的混合池測序發現1 700多萬個SNP和290多萬個Indels。此外,對全基因組選擇信號分析發現143基因組區域受到選擇作用,其中RPS6KA3、MAD2L1、CCNB2、GNAI2、ADCY5、PIK3R5和 CDC25B等 基因與短尾羊繁殖性狀相關;與角的有無相關的基因(RXFP2),與耳朵發育相關的基因(OTX1、SOD1 LHFPL5、HOXA2和GJB6)與繁殖性狀相關的基因(TSHR和PRL)等也受到不同的選擇作用。全基因組水平遺傳變異的研究會進一步加深我們對不同用途綿羊品種遺傳機理的理解,為培育肉羊新品種和滿足不斷增長的肉品需求提供了科學依據。
2.4.2 山羊基因組測序研究 山羊是適應性較強的馴化家畜,廣泛分布于世界范圍內的山地、荒漠等環境惡劣的地區,為人類提供肉、毛、皮等生活用品,尤其在偏遠地區的經濟發展中發揮著重要作用。
2012年,利用Illumina/Solexa短讀長測序和全基因組酶切圖譜等技術,Dong等[50]從頭組裝了首個山羊基因組序列精細圖譜,并完成了基因組的結構和功能注釋工作,其中Contig N50 為18 720 bp,Scaffoled N50為16.3 Mb。利用山羊與牛的保守共線性關系,將超長Scaffold序列定位到染色體上,最后獲得了2.66 Gb大小的高質量基因組序列,共包括22 175個基因。轉座子分析中發現山羊基因組中的轉座子與牛的類似,包含大量的反芻動物特異性重復序列,而在山羊中短散在核元件(SINE-tRNA)轉座子較多。通過比較基因組分析發現山羊與牛的親緣關系較近,大約在2 300萬年前分化。此外,山羊基因組中約有44個基因受到正選擇,其中7個與免疫相關,而與產奶量、胚胎發育以及羊毛形態等相關的垂體功能相關的基因發生了快速進化。在基因家族分析中發現3個與味覺受體相關的基因亞家族擴張和1個亞家族收縮現象,推測這可能與山羊的覓食能力相關(如FTH1基因家族的擴張)。研究中還對我國內蒙古絨山羊的初級毛囊和次級毛囊進行轉錄組的比較分析發現,KAP、FGF、Wntβcatenin等基因家族的51個差異表達基因。這些差異表達的基因在絨毛形態、毛囊周期變化、絨毛細度等性狀方面有重要作用,為在基因組水平上進行絨山羊羊絨質量的改良和分子標記輔助山羊育種奠定了基礎。Du等[51]利用高密度放射自顯雜交(RH)技術對一代山羊參考基因組進行了補充,極大的提高了基因組的可靠性和準確性,為山羊重測序研究奠定了堅實的基礎。2017年,結合二代Illumina、三代Pacbio單分子測序、光學圖譜BioNano和Hi-C等技術,Bickhart等[16]對圣克利門蒂山羊進行基因組從頭測序組裝,獲得了僅含有663個空白序列的高質量山羊基因組精細圖譜(ARS1)。相較于之前的組裝版本 CHIR_2.0和CHIR_1.0,ARS1版本填補了CHIR_2.0版本中的3,495個內含子或外顯子有空白序列的基因。研究中還把具有高度多態性和重復性免疫基因區的 LRC和NKC基因定位在一個獨立的常染色體scaffold上。而其他重復復雜序列區域,端粒序列、著絲粒區等都有較好的組裝結果,如在19號和23號染色體等組裝出高度重復的著絲粒和端粒區域,貫通了有結構性異染色質區的染色體。此次組裝的基因組為山羊基因組的研究將提供了更為全面的基因組信息,為山羊功能基因組的研究奠定了堅實的基礎。
山羊的馴化過程導致家山羊與野山羊在體型、行為、角型和被毛顏色等方面發生顯著的變化。Dong等[52]對野山羊(Capra aegagrus)進行了de novo從頭組裝測序,與參考基因組比較分析發現13拷貝數變異基因(ASIP、ATRN、Fig. 4、GNAQ、HELLS、MUTED、OSTM1、TRPM7、VPS33A、Adamts、MITF、OCA2和SLC7A11)與被毛顏色有關,如ASIP基因重復與白色的表型相關。此外,與野山羊的較強的警覺行為(CACNA1C)、與家山羊的溫順行為(HTR3A)、免疫(CFH,TRIM5)、生產性狀(MYADM,BTN1A1,PRAME)等有關的基因也發生拷貝數變異和快速的進化現象。這些基因組水平發生顯著差異變化的基因為未來山羊功能基因的研究提供候選基因和,也為理解動物馴化的遺傳機制提供了有用的信息。
山羊自馴化之后,隨著人類活動快速地擴散到世界不同的生態環境當中,在長期的自然選擇和人工選擇作用下,適應了不同的自然環境和生產方向。Benjelloun等[53]對摩洛哥不同地區山羊基因組重測序研究發現,與哺乳動物毛發調控和色素沉著的基因ASIP受到選擇作用,而TRAP1基因也受到選擇作用,可能與惡劣環境適應相關,為干旱條件下山羊的適應性遺傳機理研究奠定了基礎。為研究不同生產用途和自然環境的山羊基因組特征,Wang等[54]對中國八個山羊品種的進行深度為9-13X混合測序,發現了1 000多萬個SNP突變,通過選擇性清除分析發現了與毛色相關(ASIP、KITLG、HTT、GNA11和 OSTM1)、體格大小(TBX15、DGCR8、CDC25A和RDH16)、絨毛性狀(LHX2、FGF9和WNT2)和缺氧適應性(CDK2、SOCS2、NOXA1和 ENPEP)等相關的候選基因在不同群體中受到選擇作用,加深了我們對中國山羊遺傳多樣性遺傳機制的理解。Guan等[55]對大足黑山羊和內蒙古絨山羊阿拉善型進行基因組測序發現,5.03百萬個SNP和334,151個InDels突變,選擇信號掃描分析發現了與大足黑山羊繁殖性狀相關的候選基因(PAIP2B、CCDC64、EPB41L5,BIRC6),與生產性狀相關的基因(如PAIP2B、CCDC64,EPB41L5等)、與脂肪沉積相關的基因(IKBKG,LOC102190823)、肌肉質量性狀相關基因(PLD2)和產奶性狀相關基因(IDH1)等也受到了不同的選擇作用。這些加深了我們對絨毛性狀、繁殖性狀相關基因的理解,將進一步促進在基因組水平上進行新品種的選育和基因改良。
為研究培育品種云南黑山羊的基因組分子特征(由云嶺黑山羊和努比羊雜交培育而成),蘭蓉等[56]利用混合池測序的方法對具有代表性的3個雜交母羊進行全基因組重測序,檢測到了7 615 774 個SNP、877 232 個 INDEL 和40 005 個 SV 等遺傳變異,并對這些變異進行注釋,闡明了云南黑山羊的分子特征,為后續功能基因的研究提供了強大的數據支撐,并為功能基因的定位提供新的思路和線索。此研究表明,全基因組重測序可以全面、快速、準確地解析不同品種的分子遺傳特征,為品種的不斷選育提高及開發利用奠定堅實的基礎。
為研究韓國本地山羊對指狀鬃絲蟲引起的的山羊腰麻痹病較強抵抗力的遺傳基礎。Lee等[57]對15韓國地方品種(韓國小黑山羊)個體和11雜交山羊個體(韓國小黑山羊與薩能奶山羊、波爾山羊的雜交)進行全基因組重測序研究,其中遺傳多樣性分析發現本地山羊遺傳多樣性小于雜交山羊,可能與地方品種的近交繁殖以及雜交群體中不斷導入的外來血的遺傳信息相關。選擇性清除分析發現基因(CCR3、CLNK、HM13、IGSF10、ROBO1和 NTM)可能與韓國地方山羊對由指狀鬃絲蟲引起的的山羊腰麻痹病具有較強的抵抗力相關;而基因(CYM和COL11A2)可能與地方山羊品種中羔羊的生長發育相關,進而影響地方山羊的體格大小等表型性狀。抗病性差異的研究為今后利用基因組重測序數據來揭示地方品種適應性的潛在遺傳機制和進行疾病抗性山羊新品種的選育工作奠定了科學基礎。
隨著測序技術和分子生物學的進一步發展,在越來越多的物種中開展了基因組序列組裝及重測序研究,產生了海量的測序數據上傳到公共數據庫并仍在繼續增加。面對如此巨大的數據量,對當前的數據存儲、數據分析挖掘等技術提出了嚴峻的考驗,主要面臨以下問題:(1)全基因組測序的成本依舊較高,在經濟價值相對較低的物種中,很難開展大規模的研究工作。雖然,基因分型芯片技術在一定程度上能夠補充以上缺點,但其限于常見變異的研究,不能對稀有變異進行分析研究。(2)盡管基因組序列組裝不斷的接近完成圖,但依然存在較多的空白,而且基因組中的高重復、復雜區域依舊是基因組組裝面臨的重要問題,為深入研究基因組特征帶來一些困難。(3)第二代測序技術產生的序列讀長較短,難以跨越高重復序列區域以及具有堿基偏好性,對復雜區域的研究一直是其短板。與參考基因組比對時,短讀長序列可能會在基因組中比對到多個位置。(4)第三代測序技術在讀長方面較第二代測序技術具有明顯的優勢,但因其錯誤率高的特點需要進行大量測序數據進行糾正,以及本身的測序費用較高等原因,目前的重測序領域尚未進行大規模應用。(5)在測序數據快速增加的背景下,如何有效地深度挖掘其潛藏的遺傳信息,成為目前面臨的主要的問題。因此,需要不斷的進行算法和計算性能的優化。(6)基因組數據研究是其他功能研究的基礎,但表型性狀的遺傳機理十分復雜,如何有效的開展多組學研究也是今后面臨的主要問題。
面對以上問題,科學家們也一直在不斷的進行理論研究和技術應用探索。在數據分析方面,各種分析網站和數據庫越來越智能化和簡約化,實現了對算法不斷優化、數據冗余的降低以及數據解碼效率的提高,雖然目前對數據存取的效率始終面臨的主要問題,但不久的將來一定會取得突破性進展[58]。今后,對長度長測序技術的不斷改進和對相應算法的開發研究將是一個研究重點。對于測序成本問題,需要不斷的優化現有的測序技術,進一步降低研究成本。為充分利用財力、物力、人力資源和潛在的測序數據價值,各國科學家們也在不斷的加強國家間的合作研究,國際性的合作不僅加快了研究進展,更是增加了學術間的交流,進而促進科學的快速發展。此外,古DNA保存技術和提取技術的不斷進步,也為精確地進行不同物種的群體歷史動態研究提供了良好的研究材料。基因組學研究是從正向遺傳學的角度來進行基因功能的研究,而生物體的基因與基因、基因與環境的復雜互作關系,容易導致假陽性結果。因此,為解決基因組測序研究出現的假陽性問題,對物種進行轉錄組學、代謝組學和蛋白質組學比較,進行反向遺傳學的功能驗證手段,將是全基因組測序今后研究工作的重點和方向。在家畜上的基因組水平的深入研究也將不斷增加我們對重要經濟性狀的遺傳機制的理解,在育種實踐上減少疾病或遺傳缺陷的發生,為提高產品質量、生產效率及精確快速育種作出重要貢獻。此外,基因組測序的深入研究也有助于稀有變異的發掘,培育出更優良的專門化畜禽新品種,發揮特色物種的各種遺傳潛力,具有重要的不可估量科研價值。
[1]Andersson L. Genetic dissection of phenotypic diversity in farm animals[J]. Nat Rev Genet, 2001, 2(2):130-138.
[2]Diamond J. Evolution, consequences and future of plant and animal domestication[J]. Nature, 2002, 418(6898):700-707.
[3]Bentley DR. Whole-genome re-sequencing[J]. Curr Opin Genet Dev, 2006, 16(6):545-552.
[4]Fuentes-Pardo AP, Ruzzante DE. Whole-genome sequencing approaches for conservation biology:Advantages, limitations and practical recommendations[J]. Mol Ecol, 2017, 26(20):5369-5406.
[5]Li M, Chen L, Tian S, et al. Comprehensive variation discovery and recovery of missing sequence in the pig genome using multiple De novo assemblies[J]. Genome Res, 2017, 27(5):865-874.
[6]Venter JC, Adams MD, Myers EW, et al. The sequence of the human genome[J]. Science, 2001, 291(5507):1304-1351.
[7]Lander ES, Linton LM, Birren B, et al. Initial sequencing and analysis of the human genome[J]. Nature, 2001, 409(6822):860-921.
[8]Koboldt DC, Steinberg KM, Larson DE, et al. The next-generation sequencing revolution and its impact on genomics[J]. Cell, 2013,155(1):27-38.
[9]Wang GD, Xie HB, Peng MS, et al. Domestication genomics:evidence from animals[J]. Annu Rev Anim Biosci, 2014, 2:65-84.
[10]Goodwin S, McPherson JD, McCombie WR. Coming of age:ten years of next-generation sequencing technologies[J]. Nat Rev Genet, 2016, 17(6):333-351.
[11]Mardis ER. Next-generation DNA sequencing methods[J]. Annu Rev Genomics Hum Genet, 2008, 9:387-402.
[12]Munroe DJ, Harris TJ. Third-generation sequencing fireworks at Marco Island[J]. Nat Biotechnol, 2010, 28(5):426-428.
[13]Ono Y, Asai K, Hamada M. PBSIM:PacBio reads simulator--toward accurate genome assembly[J]. Bioinformatics, 2013, 29(1):119-121.
[14]Mascher M, Gundlach H, Himmelbach A, et al. A chromosome conformation capture ordered sequence of the barley genome[J].Nature, 2017, 544(7651):427-433.
[15]Clavijo BJ, Venturini L, Schudoma C, et al. An improved assembly and annotation of the allohexaploid wheat genome identifies complete families of agronomic genes and provides genomic evidence for chromosomal translocations[J]. Genome Res, 2017,27(5):885-896.
[16]Bickhart DM, Rosen BD, Koren S, et al. Single-molecule sequencing and chromatin conformation capture enable De novo reference assembly of the domestic goat genome[J]. Nat Genet,2017, 49(4):643-650.
[17]Groenen MA, Archibald AL, Uenishi H, et al. Analyses of pig genomes provide insight into porcine demography and evolution[J]. Nature, 2012, 491(7424):393-398.
[18]Li M, Tian S, Jin L, et al. Genomic analyses identify distinct patterns of selection in domesticated pigs and Tibetan wild boars[J]. Nat Genet, 2013, 45(12):1431-1438.
[19]Ai H, Fang X, Yang B, et al. Adaptation and possible ancient interspecies introgression in pigs identified by whole-genome sequencing[J]. Nat Genet, 2015, 47(3):217-225.
[20]Li M, Tian S, Yeung CK, et al. Whole-genome sequencing of Berkshire(European native pig)provides insights into its origin and domestication[J]. Sci Rep, 2013, 4:4678.
[21]Ramírez O, Burgos-Paz W, Casas E, et al. Genome data from a sixteenth century pig illuminate modern breed relationships[J].Heredity(Edinb), 2015, 114(2):175-184.
[22]Rubin CJ, Megens HJ, Martinez Barrio A, et al. Strong signatures of selection in the domestic pig genome[J]. Proc Natl Acad Sci USA, 2012, 109(48):19529-19536.
[23]Choi JW, Chung WH, Lee KT, et al. Whole-genome resequencing analyses of five pig breeds, including Korean wild and native, and three European origin breeds[J]. DNA Res, 2015, 22(4):259-267.
[24]Wang C, Wang H, Zhang Y, et al. Genome-wide analysis reveals artificial selection on coat colour and reproductive traits in Chinese domestic pigs[J]. Mol Ecol Resour, 2015, 15(2):414-424.
[25]Groenen MA. A decade of pig genome sequencing:a window on pig domestication and evolution[J]. Genet Sel Evol, 2016, 48 :23.
[26]Fang X, Mou Y, Huang Z, et al. The sequence and analysis of a Chinese pig genome[J]. Gigascience, 2012, 1(1):16.
[27]Wade CM, Giulotto E, Sigurdsson S, et al. Genome sequence,comparative analysis, and population genetics of the domestic horse[J]. Science, 2009, 326(5954):865-867.
[28]Myka JL, Lear TL, Houck ML, et al. FISH analysis comparing genome organization in the domestic horse(Equus caballus)to that of the Mongolian wild horse(E. przewalskii)[J]. Cytogenet Genome Res, 2003, 102(1-4):222-225.
[29]Orlando L, Ginolhac A, Zhang G, et al. Recalibrating Equus evolution using the genome sequence of an early Middle Pleistocene horse[J]. Nature, 2013, 499(7456):74-78.
[30]Huang J, Zhao Y, Shiraigol W, et al. Analysis of horse genomes provides insight into the diversification and adaptive evolution of karyotype[J]. Sci Rep, 2014, 4:4958.
[31]Doan R, Cohen ND, Sawyer J, et al. Whole-Genome sequencing and genetic variant analysis of a quarter Horse mare[J]. BMC Genomics, 2012, 13:78.
[32]Jun J, Cho YS, Hu H, et al. Whole genome sequence and analysis of the Marwari horse breed and its genetic origin[J]. BMC Genomics, 2014, 15(Suppl 9):S4.
[33]Metzger J, Gast AC, Schrimpf R, et al. Whole-genome sequencing reveals a potential causal mutation for dwarfism in the Miniature Shetland pony[J]. Mamm Genome, 2017, 28(3-4):143-151.
[34]Librado P, Der Sarkissian C, Ermini L, et al. Tracking the origins of Yakutian horses and the genetic basis for their fast adaptation to subarctic environments[J]. Proc Natl Acad Sci USA, 2015, 112(50):E6889-E6897.
[35]Bovine Genome Sequencing and Analysis Consortium, Elsik CG,Tellam RL, et al. The genome sequence of taurine cattle:a window to ruminant biology and evolution[J]. Science, 2009, 324(5926):522-528.
[36]Canavez FC, Luche DD, Stothard P, et al. Genome sequence and assembly of Bos indicus[J]. J Hered, 2012, 103(3):342-348.
[37]Qiu Q, Zhang G, Ma T, et al. The yak genome and adaptation to life at high altitude[J]. Nat Genet, 2012, 44(8):946-949.
[38]Bovine HapMap Consortium, Gibbs RA, Taylor JF, et al. Genomewide survey of SNP variation uncovers the genetic structure of cattle breeds[J]. Science, 2009, 324(5926):528-532.
[39]Kawahara-Miki R, Tsuda K, Shiwa Y, et al. Whole-genome resequencing shows numerous genes with nonsynonymous SNPs in the Japanese native cattle Kuchinoshima-Ushi[J]. BMC Genomics, 2011, 12:103.
[40]Wang K, Hu Q, Ma H, et al. Genome-wide variation within and between wild and domestic yak[J]. Mol Ecol Resour, 2014, 14(4):794-801.
[41]Choi JW, Choi BH, Lee SH, et al. Whole-Genome Resequencing Analysis of Hanwoo and Yanbian Cattle to Identify Genome-Wide SNPs and Signatures of Selection[J]. Mol Cells, 2015, 38(5):466-473.
[42]Stothard P, Choi JW, Basu U, et al. Whole genome resequencing of black Angus and Holstein cattle for SNP and CNV discovery[J].BMC Genomics, 2011, 12:559.
[43]Luikart G, Gielly L, Excoffier L, et al. Multiple maternal origins and weak phylogeographic structure in domestic goats[J]. Proc Natl Acad Sci USA, 2001, 98(10):5927-5932.
[44]Chessa B, Pereira F, Arnaud F, et al. Revealing the history of sheep domestication using retrovirus integrations[J]. Science, 2009,324(5926):532-536.
[45]Jiang Y, Xie M, Chen W, et al. The sheep genome illuminates biology of the rumen and lipid metabolism[J]. Science, 2014,344(6188):1168-1173.
[46]Miller JM, Moore SS, Stothard P, et al. Harnessing cross-species alignment to discover SNPs and generate a draft genome sequence of a bighorn sheep(Ovis canadensis)[J]. BMC Genomics, 2015,16:397.
[47]Kardos M, Luikart G, Bunch R, et al. Whole genome resequencing uncovers molecular signatures of natural and sexual selection in wild bighorn sheep[J]. Mol Ecol, 2015, 24(22):5616-5632.
[48]Yang J, Li WR, Lv FH, et al. Whole-genome sequencing of native sheep provides insights into rapid adaptations to extreme environments[J]. Mol Biol Evol, 2016, 33(10):2576-2592.
[49]Liu Z, Ji Z, Wang G, et al. Genome-wide analysis reveals signatures of selection for important traits in domestic sheep from different ecoregions[J]. BMC Genomics, 2016, 17(1):863.
[50]Dong Y, Xie M, Jiang Y, et al. Sequencing and automated wholegenome optical mapping of the genome of a domestic goat(Capra hircus)[J]. Nat Biotechnol, 2013, 31(2):135-141.
[51]Du X, Servin B, Womack JE, et al. An update of the goat genome assembly using dense radiation hybrid maps allows detailed analysis of evolutionary rearrangements in Bovidae[J]. BMC Genomics, 2014, 15:625.
[52]Dong Y, Zhang X, Xie M, et al. Reference genome of wild goat(Capra aegagrus)and sequencing of goat breeds provide insight into genic basis of goat domestication[J]. BMC Genomics, 2015,16:431.
[53]Benjelloun B, Alberto FJ, Streeter I, et al. Characterizing neutral genomic diversity and selection signatures in indigenous populations of Moroccan goats(Capra hircus)using WGS data[J]. Front Genet, 2015, 6:107.
[54]Wang X, Liu J, Zhou G, et al. Whole-genome sequencing of eight goat populations for the detection of selection signatures underlying production and adaptive traits[J]. Sci Rep, 2016, 6 :38932.
[55]Guan D, Luo N, Tan X, et al. Scanning of selection signature provides a glimpse into important economic traits in goats(Capra hircus)[J]. Sci Rep, 2016, 6 :36372.
[56]蘭蓉, 朱蘭, 邵慶勇, 等. 云南黑山羊全基因組重測序[J].草食家畜, 2016, (5):11-17.
[57]Lee W, Ahn S, Taye M, et al. Detecting Positive Selection of Korean Native Goat Populations Using Next-Generation Sequencing[J].Mol Cells, 2016, 39(12):862-868.
[58]Erlich Y, Zielinski D. DNA Fountain enables a robust and efficient storage architecture[J]. Science, 2017, 355(6328):950-954.