彭佩雅,陳鈺焓,楊 龍,王 銘,趙芮葶,何 俊,印遇龍,2*,劉 梅*
(1.湖南農(nóng)業(yè)大學(xué)動(dòng)物科學(xué)技術(shù)學(xué)院,長(zhǎng)沙 410128;2.中國(guó)科學(xué)院亞熱帶農(nóng)業(yè)生態(tài)研究所,長(zhǎng)沙 410125)
牛、羊、豬可以為市場(chǎng)帶來(lái)大量的肉、奶以及皮毛等重要產(chǎn)品,是社會(huì)發(fā)展中重要的經(jīng)濟(jì)動(dòng)物。近年來(lái),家畜重要性狀如肉質(zhì)、生長(zhǎng)、繁殖、抗病能力等備受研究者關(guān)注。基因組遺傳變異,是引起個(gè)體性狀差異的重要遺傳基礎(chǔ)。基因組變異按大小可分為單核苷酸多態(tài)性(single nucleotide polymorphism,SNP。即單堿基變化)、插入缺失(insertion and deletion,Indel 。即大小在2~50 bp之間的小結(jié)構(gòu)變異)和結(jié)構(gòu)變異(structural variation ,SV。即大于50 bp的大結(jié)構(gòu)變異)。CNV指大小從50 bp至5 Mb的DNA片段發(fā)生拷貝數(shù)目變化的結(jié)構(gòu)變異,包括缺失、插入、重復(fù)、重排、倒位等[1]。其中最為常見(jiàn)的形式是單個(gè)DNA片段的重復(fù)增加,比如SD序列(segmental duplication,SD)[2]。相比于SNP等其他變異,CNV具有涉及堿基更多、覆蓋范圍更廣以及檢測(cè)更容易的特點(diǎn),雖然CNV發(fā)生的頻率較低,但是累積發(fā)生的片段長(zhǎng)度明顯超過(guò)了其他序列變異[3]。因此,CNV對(duì)家畜重要經(jīng)濟(jì)性狀可能造成很大影響,其在動(dòng)物分子育種應(yīng)用中具有廣闊前景。隨著分子生物學(xué)和基因組學(xué)研究技術(shù)的發(fā)展,CNV的檢測(cè)方法也不斷革新。本文系統(tǒng)綜述了在牛、羊、豬和馬等家畜中基于全基因組CNV的主要檢測(cè)方法發(fā)掘的功能CNV及相關(guān)分析進(jìn)展,以期為家畜CNV研究提供參考。
對(duì)于基因組中未知序列的CNV,比較基因組雜交技術(shù)(comparative genome hybridization,CGH)、SNP芯片技術(shù)和基于新一代基因測(cè)序技術(shù)(next generation sequencing,NGS)的全基因組重測(cè)序(whole genome sequencing,WGS)被認(rèn)為是目前全基因組范圍內(nèi)尋找CNV的主要有效手段[4-5]。其中,WGS技術(shù)包括基于二代測(cè)序(next generation sequencing,NGS)和三代測(cè)序(third generation sequencing,TGS)技術(shù)。
CGH技術(shù)是將在一張芯片上的試驗(yàn)樣本與對(duì)照樣本分別標(biāo)記上不同的熒光素,然后再進(jìn)行雜交,根據(jù)特定分析軟件中各位點(diǎn)的熒光信號(hào)強(qiáng)度和比值等,確定是否存在CNV及其在基因組中的位置等信息[6]。隨著技術(shù)的發(fā)展,CGH芯片技術(shù)(comparative genome hybridization,CGH)被開(kāi)發(fā)并且用于CNV的檢測(cè)。CGH芯片技術(shù)具有靈敏度高、分辨率準(zhǔn)確以及探針全基因組覆蓋的優(yōu)點(diǎn),其探針密度與試驗(yàn)結(jié)果的準(zhǔn)確性顯著相關(guān)。
SNP芯片技術(shù)用于拷貝數(shù)鑒定和基因型分型,具有快速、方便的特點(diǎn),檢測(cè)時(shí)只需對(duì)待測(cè)樣本進(jìn)行酶切和熒光標(biāo)記,然后與SNP芯片雜交,根據(jù)所得圖像中熒光信號(hào)的強(qiáng)弱,比較待測(cè)樣本與其他個(gè)體的相對(duì)強(qiáng)度,以此來(lái)確定每個(gè)位點(diǎn)的相對(duì)拷貝數(shù)[7]。但是,SNP芯片也存在一定的局限性。例如,SNP芯片的探針在基因組上經(jīng)常出現(xiàn)分布不均勻的情況[8];并且在重復(fù)序列區(qū)域(如SD序列較多的拷貝數(shù)多態(tài)性區(qū)域)難以進(jìn)行探針設(shè)計(jì)[7];此外,SNP芯片檢測(cè)平臺(tái)對(duì)較小的CNVs檢出率較低。
基于二代測(cè)序技術(shù)的WGS技術(shù)檢測(cè)CNV時(shí)是將待測(cè)樣本的DNA序列隨機(jī)打斷并加上接頭,經(jīng)過(guò)PCR擴(kuò)增后,將這些reads與參考基因組的序列進(jìn)行對(duì)比分析,然后通過(guò)隱馬爾科夫模型(hidden markov model,HMM)以映射結(jié)果來(lái)判斷CNV[9]。與其他的檢測(cè)方法相比,NGS測(cè)序技術(shù)具有高通量、高分辨率、高重復(fù)性和速度快等顯著優(yōu)點(diǎn),還能獲得更多且更為精細(xì)的變異結(jié)構(gòu)[10]。但是二代測(cè)序讀長(zhǎng)太短,基因組組裝高度片段化,導(dǎo)致CNV檢測(cè)結(jié)果的準(zhǔn)確性受到限制。在進(jìn)行NGS測(cè)序時(shí)需要提高對(duì)樣品的測(cè)序深度要求,并且在結(jié)果分析前需對(duì)測(cè)序結(jié)果進(jìn)行適當(dāng)校正[11]。
基于第三代測(cè)序技術(shù)的WGS技術(shù)主要包括了單分子熒光測(cè)序(single molecule real time sequencing,SMRT)和納米孔測(cè)序[12]。PacBio SMRT技術(shù)以SMRT芯片為核心,可以實(shí)現(xiàn)邊合成邊測(cè)序。納米孔測(cè)序的基本原理是每個(gè)接頭序列(adaptor)通過(guò)納米孔時(shí)都會(huì)產(chǎn)生一個(gè)阻斷電流,根據(jù)產(chǎn)生的阻斷電流的變化識(shí)別各種堿基[13]。第三代測(cè)序技術(shù)可以減少PCR過(guò)程中堿基替換以及交叉污染等其他干擾因素,有效地減少測(cè)序結(jié)果的假陽(yáng)性[14]。另外,長(zhǎng)讀長(zhǎng)的特點(diǎn)還有助于提高SV檢測(cè)效率[15]。近年來(lái),新興的第三代測(cè)序技術(shù)發(fā)展迅速,憑借長(zhǎng)讀長(zhǎng)優(yōu)勢(shì),三代測(cè)序在基因組從頭測(cè)序和重測(cè)序方向具有廣闊的發(fā)展前景,尤其是對(duì)二代測(cè)序難以發(fā)現(xiàn)的SV和較復(fù)雜的CNV,可利用三代測(cè)序進(jìn)行鑒定。由此可見(jiàn),第三代測(cè)序技術(shù)在CNV研究方面具有廣泛的應(yīng)用前景。
為綜合分析CNV檢測(cè)技術(shù)的應(yīng)用現(xiàn)狀,以“copy number variation;livestock”作為關(guān)鍵詞,根據(jù) web of science 2005年至2022年發(fā)表文章數(shù)量進(jìn)行統(tǒng)計(jì)分析(圖1)。CGH技術(shù)自2011年以后整體就呈現(xiàn)下降趨勢(shì),近年來(lái)已少有相關(guān)研究應(yīng)用。而SNP芯片技術(shù)與WGS技術(shù)成為近年來(lái)用于檢測(cè)家畜全基因組CNV的主要手段。但是,2014年以后,SNP技術(shù)的應(yīng)用頻率在逐年下降,推測(cè)應(yīng)與第二代測(cè)序技術(shù)逐漸推廣應(yīng)用有關(guān)。第二代測(cè)序技術(shù)具有高通量、高準(zhǔn)確度的優(yōu)點(diǎn),彌補(bǔ)了SNP技術(shù)難以檢測(cè)較小CNV的不足。22年開(kāi)始第二代測(cè)序技術(shù)使用頻率有所下降,第三代測(cè)序技術(shù)逐漸興起,其快速、讀長(zhǎng)更長(zhǎng)、檢測(cè)更準(zhǔn)確的特點(diǎn)使得其被廣泛應(yīng)用于復(fù)雜CNV以及SV的檢測(cè)。

圖1 家畜基因組拷貝數(shù)變異檢測(cè)技術(shù)使用熱度分析Fig.1 Analysis of the detection technology for genome copy number variation in livestock
基因組 CNV 可通過(guò)改變基因劑量、調(diào)控基因表達(dá)和暴露隱性等位基因等幾種方式影響生物表型。家畜的生長(zhǎng)發(fā)育受到多基因、多通路以及環(huán)境等多方面的綜合調(diào)控,CNV 可通過(guò)改變劑量敏感基因拷貝數(shù)影響該基因的表達(dá)量及相關(guān)表型。為此,研究者在家畜中開(kāi)展了對(duì)于CNV的大量鑒定及其對(duì)表型性狀影響的研究。下面將分別在牛、羊、豬和馬4種家畜上綜述基于CGH芯片、SNP芯片和NGS測(cè)序技術(shù)檢測(cè)CNV并分析其功能的研究進(jìn)展。
對(duì)牛基因組CNV的部分研究匯總?cè)绫?所示。

表1 基于CGH、SNP和NGS技術(shù)對(duì)牛基因組CNV的檢測(cè)及分析Table 1 Detection and analysis of bovine genome CNV based on CGH, SNP and NGS techniques
基于aCGH芯片技術(shù):2010年,Liu等[16]首次使用了aCGH技術(shù)對(duì)5個(gè)品種的牛進(jìn)行全基因組水平分析,結(jié)果表明存在著200多個(gè)特異性的拷貝數(shù)變異區(qū)域(copy number variation regions,CNVRs),其中約有67%的CNVRs完全或部分跨越了牛基因組,61%的CNVRs直接與片段重疊,并且與牛的免疫、繁殖、哺乳等性狀顯著相關(guān)。Zhang等[17]利用aCGH技術(shù)對(duì)3個(gè)品種的牛進(jìn)行基因組CNV的檢測(cè),據(jù)此構(gòu)建了黃牛基因組CNV草圖。陳宏課題組[17-18]利用CGH芯片技術(shù)對(duì)荷斯坦奶牛、黃牛、水牛和牦牛進(jìn)行了基因組CNV的檢測(cè),發(fā)現(xiàn)相關(guān)功能基因,如PLA2G2D(phospholipase a2 group IID)、CYP4A11(cytochrome p450 family 4 subfamily a member 11)、CTR9 (CTR9 homolog, paf1/RNA polymerase II complex component) 等在牛的表型性狀中發(fā)揮著重要的作用。
基于SNP芯片:在牛上,Illumina BovineSNP50芯片和BovineHD SNP芯片的開(kāi)發(fā)對(duì)大群體進(jìn)行CNV檢測(cè)具有重要的意義。利用Illumina BovineSNP 50 K BeadChip,Bae等[19]對(duì)17個(gè)品種的248頭牛進(jìn)行全基因組CNV檢測(cè),由此繪制出牛CNVs圖譜。Kumar等[20]在塔爾帕克牛中發(fā)現(xiàn)了447個(gè)CNVR,約占牛基因組的2.17%,許多與QTL(quantitative trait locus,QTL)重疊的CNVRs與奶牛乳腺炎和乳成分、蛋白質(zhì)含量等產(chǎn)奶性狀相關(guān)。利用BovineHD SNP芯片,Zhou等[21]在荷斯坦奶牛中將CNV與生產(chǎn)性狀進(jìn)行全基因組關(guān)聯(lián)分析(genome-wide association studies,GWAS)分析,結(jié)果顯示CNVs與采食量、乳品質(zhì)、母牛繁殖力等生產(chǎn)性狀顯著相關(guān);另外檢測(cè)到與飼料轉(zhuǎn)化效率和采食量相關(guān)的CNV與嗅覺(jué)受體基因OR2A2(olfactory receptor family 2 subfamily a member 2)重疊。Ahmad等[22]對(duì)96頭Vrindavani牛進(jìn)行CNV檢測(cè),結(jié)果發(fā)現(xiàn)存在71個(gè)CNVRs,其中有5個(gè)CNVRs與10個(gè)重要的生產(chǎn)與繁殖性狀顯著相關(guān),包括峰值產(chǎn)奶量、泌乳天數(shù)、產(chǎn)犢間隔期等,并且與影響產(chǎn)奶量和乳成分以及繁殖和免疫功能性狀的重要QTLs和WASHC4(WASH complex subunit 4)、HS6ST3(heparan sulfate 6-o-sulfotransferase 3)、MBNL2(muscleblind like splicing regulator 2)等基因重疊。
基于NGS技術(shù):Gao等[23]在荷斯坦牛中檢測(cè)到14 821個(gè)CNV,487個(gè)CNVR,CNVR區(qū)域內(nèi)的的功能基因與牛的脂肪性狀顯著相關(guān)。Xu等[24]和Liu等[25-26]在南陽(yáng)牛和秦川牛鑒定出2 907個(gè)CNV,利用qPCR技術(shù)發(fā)現(xiàn)LEPR(leptin receptor)、SHH(sonic hedgehog signaling molecule)、MAPK10(mitogen-activated protein kinase 10)基因的CNV在牛的肌肉脂肪沉積中發(fā)揮著重要的作用。Liu 等[27]在水牛全基因組中檢測(cè)到1 344 個(gè)CNVR,與CNVRs重疊的1 245個(gè)基因與水牛的免疫反應(yīng)、信號(hào)轉(zhuǎn)導(dǎo)以及氧氣轉(zhuǎn)運(yùn)等功能顯著相關(guān)。Singh等[28]研究了多個(gè)瘤牛和普通牛品種的CNVRs模式,發(fā)現(xiàn)瘤牛品種在常染色體上共發(fā)現(xiàn)2 590個(gè)CNVs和335個(gè)CNVRs, CNVRs橫跨嗅覺(jué)受體和免疫系統(tǒng)基因區(qū)域。
由于山羊和綿羊的全基因組測(cè)序完成較晚,因此關(guān)于羊基因組CNV的研究較牛更晚。山羊和綿羊CNV研究進(jìn)展較為有限,且人們?cè)谌粘I钪谐⒕d羊和山羊都統(tǒng)稱為羊,所以下面將綿羊與山羊基因組CNV研究進(jìn)行整合綜述如表2所示。

表2 基于CGH、SNP和NGS技術(shù)對(duì)羊基因組CNV的檢測(cè)及分析Table 2 Detection and analysis of sheep genome CNV based on CGH, SNP and NGS techniques
基于aCGH技術(shù):2010年,Fontanesi等[29]就利用了aCGH方法對(duì)4個(gè)歐洲山羊品種進(jìn)行CNV檢測(cè),檢測(cè)到161個(gè)CNVRs;除此之外,在綿羊基因組中發(fā)現(xiàn)了186個(gè)CNVRs,由此首次構(gòu)建了綿山羊比較基因組圖譜。Jenkins等[30]利用Roche-NimbleGen 2.1 M CGH對(duì)36頭綿羊進(jìn)行全基因組測(cè)定,確定了3488個(gè)CNVRs,總長(zhǎng)度為67.6 Mb,相當(dāng)于綿羊染色體的2.7%。但是由于綿羊的基因組序列不同于牛的基因組序列,所以跨物種雜交構(gòu)建的圖譜具有較大的誤差,從而導(dǎo)致檢測(cè)CNV結(jié)果不準(zhǔn)確。
基于SNP芯片:隨著綿羊和山羊基因組測(cè)序的完成,基于羊參考基因組的SNP芯片得以生產(chǎn)和應(yīng)用。低密度芯片(5K和12K)、50K中密度SNP芯片(OvineSNP50 BeadChip array)和600K高密度SNP芯片(Ovine HD SNP BeadChip)在羊上發(fā)揮著重要的作用。Salehian-Dehkordi等[31]用綿羊Infinium HD(600K)SNP基因芯片對(duì)67個(gè)群體的綿羊進(jìn)行CNV檢測(cè),在1 217個(gè)CNVRs中檢測(cè)到7 547個(gè)獨(dú)特的CNV,覆蓋245 Mb,占整個(gè)綿羊基因組的10%。利用綿羊50K中密度SNP芯片,Yang等[32]利用50K中密度SNP芯片對(duì)全世界范圍內(nèi)的綿羊進(jìn)行CNV檢測(cè),結(jié)果表明不同地理位置的綿羊品種之間的CNVRs存在種群差異。Kang等[33]對(duì)五個(gè)奶山羊品種進(jìn)行CNV檢測(cè),鑒定出42個(gè)CNV,并且CNV5和CNV25與奶山羊的產(chǎn)奶性狀顯著相關(guān)。Moradi等[34]利用llumina Ovine SNP 50K BeadChip對(duì)45只阿富汗綿羊進(jìn)行全基因組CNV檢測(cè),共鑒定出376個(gè)CNVRs,并首次繪制了阿富汗綿羊品種基因組CNV圖譜;生物信息學(xué)分析表明這些CNVRs與許多與免疫系統(tǒng)發(fā)育、生長(zhǎng)、繁殖和環(huán)境適應(yīng)等各種途徑相關(guān)的基因或QTL重疊;與伊朗綿羊中的CNVRs相比,有20個(gè)CNVRs為二者共有,且大多與影響生產(chǎn)、繁殖和免疫系統(tǒng)的基因重疊。在山羊ADAPTmap國(guó)際合作項(xiàng)目中,Liu等[35]研究了來(lái)源于世界不同地理位置的共50個(gè)山羊品種1 023頭山羊的CNVs,檢測(cè)出978個(gè)CNVRs,約占山羊基因組的8.96%,同時(shí)還檢測(cè)出EDNRA(endothelin receptor type A)、ADAMTS20(ADAM metallopeptidase with thrombospondin type 1 motif 20)、ASIP(agouti signaling protein)、KDM5B(lysine demethylase 5B)、ADAM8(ADAM metallopeptidase domain 8)、DGAT1(diacylglycerol o-acyltransferase 1)等影響毛色、肌肉生長(zhǎng)、脂肪生成和泌乳性能的基因也存在CNV。然后,Liu等[36]利用qPCR技術(shù)在中國(guó)的7個(gè)山羊品種中進(jìn)行DGAT1 CNV驗(yàn)證,發(fā)現(xiàn)DGAT1 CNV與山羊的產(chǎn)奶性狀顯著相關(guān)。由于在山羊上基于CNV探尋與表型關(guān)聯(lián)的功能基因還很匱乏,Liu等[37]選擇Cameroon、West African Dwarf、Small East African和Landim四個(gè)非洲肉用山羊品種,進(jìn)行了CNV與生長(zhǎng)性狀的GWAS,發(fā)現(xiàn)CNV4和CNV27與胸寬和髖骨寬兩個(gè)體尺性狀顯著相關(guān)。
基于NGS技術(shù):Nandolo等[38]基于NGS數(shù)據(jù)在182只非洲山羊中鑒定出6 231個(gè)CNVRs,占山羊基因組的59.2 Mb(2.4%),首次繪制出非洲山羊的精細(xì)CNV圖譜。Zhang等[39]對(duì)嶗山奶山羊產(chǎn)仔數(shù)不同的高低組分別進(jìn)行CNV檢測(cè),發(fā)現(xiàn)PRP1和PRP6等與乳腺生長(zhǎng)發(fā)育和泌乳性能相關(guān)的功能基因存在CNV。Yuan等[40]在3個(gè)細(xì)毛綿羊品種中確定了總長(zhǎng)度56.06 Mb的7 228個(gè)CNVR,與CNVR相關(guān)的基因參與綿羊的生長(zhǎng)發(fā)育和養(yǎng)分代謝的過(guò)程。通過(guò)比較家養(yǎng)山羊和野山羊的基因組,Dong等[41]發(fā)現(xiàn)了造成家山羊皮毛顏色變淺的主要原因是刺蛋白基因(ASIP)有關(guān)的拷貝數(shù)重復(fù)增加,也有研究證明ASIP基因重復(fù)拷貝導(dǎo)致綿羊白色表型[42]。Chebii等[43]在努比亞山羊中發(fā)現(xiàn)191個(gè)CNV,這些CNV與編碼蛋白質(zhì)的基因重疊,參與山羊的免疫反應(yīng)、外源性代謝以及能量代謝。Hu等[44]利用24個(gè)重測(cè)序數(shù)據(jù)集,對(duì)青藏高原3個(gè)生態(tài)群體的藏羊CNVs進(jìn)行特征分析,共鑒定出2 777個(gè)CNVRs,其中1 098個(gè)共享CNVRs在與ABC轉(zhuǎn)運(yùn)蛋白、嗅覺(jué)轉(zhuǎn)導(dǎo)和氧氣轉(zhuǎn)運(yùn)有關(guān)的通路中顯著富集,188個(gè)CNVRs與生長(zhǎng)和胴體QTL,免疫球蛋白QTL,產(chǎn)奶量QTL等97個(gè)數(shù)量性狀位點(diǎn)重疊。
在以往的研究中,由于成本和技術(shù)的限制,豬CNVs圖譜的分辨率還很低。現(xiàn)隨著測(cè)序技術(shù)的不斷發(fā)展和成本的不斷降低,研究者獲得更高分辨率的CNVs圖譜。表3匯總了目前對(duì)豬基因組CNVs的部分研究報(bào)道。

表3 基于CGH、SNP和NGS技術(shù)對(duì)豬基因組CNV的檢測(cè)及分析Table 3 Detection and analysis of pig genome CNV based on CGH, SNP and NGS techniques
基于aCGH技術(shù):2008年,Fadista等[45]首次利用定制的385K aCGH芯片在杜洛克豬上進(jìn)行CNV檢測(cè),一共鑒定出37個(gè)CNVRs。Wang等[46]利用定制的1 M aCGH芯片對(duì)9個(gè)豬種共12頭進(jìn)行CNV檢測(cè),鑒定出758個(gè)CNVRs,覆蓋了豬基因組序列的47.43 Mb。馬海明團(tuán)隊(duì)的劉曉琴等[47]以產(chǎn)肉量性狀差異顯著的大白豬和湖南地方品種沙子嶺豬為研究對(duì)象,采用比較基因組雜交技術(shù)篩選豬CNVs,鑒定出與CNVs緊密連鎖的Wnt蛋白。
基于SNP芯片:邱恒清等[48]利用件1.4 M高密度SNP芯片對(duì)319頭巴馬香豬進(jìn)行CNV檢測(cè),采用PennCNV和R-Gada兩種軟件分析,結(jié)果顯示PennCNV檢測(cè)到6 327個(gè)CNVs,R-Gada軟件檢測(cè)到3 489個(gè)CNVs,結(jié)果表明,隨著SNP芯片密度的增加,CNV的檢測(cè)結(jié)果越加準(zhǔn)確。黃路生課題組[49]利用SNP60 BeadChip和PennCNV對(duì)1693頭豬檢測(cè)發(fā)現(xiàn)565個(gè)CNVRs,相當(dāng)于豬基因組的5.84%,還篩選出ANP32B(acidic nuclear phosphoprotein 32 family member B)、GDF3(growth differentiation factor 3)、GYS1(glycogen synthase 1)等基因上存在CNV,可作為胴體長(zhǎng)度、背脂厚度、肩胛骨長(zhǎng)度等性狀的候選基因。Wang等[50]使用80K SNP BeadChip檢測(cè)857頭大白豬的全基因組CNV,一共檢測(cè)到312個(gè)CNVs,覆蓋了57.76 Mb的豬基因組。Xu等[51]基于Porcine 80K SNP BeadChip數(shù)據(jù)安徽地方豬(AHIP)和西方商品豬(WECP)進(jìn)行了全基因組CNVs分析比較,基因功能富集分析發(fā)現(xiàn)在AHIP群體中與免疫(FOXJ1(forkhead box J1)、FOXK2(forkhead box K2)、MBL2(mannose binding lectin 2)、TNFRSF4(TNF receptor superfamily member 4)、SIRT1(sirtuin 1)、NCF1(neutrophil cytosolic factor 1)和肉質(zhì)(DGAT1(diacylglycerol o-acyltransferase 1)、NT5E(5′-Nucleotidase ecto))相關(guān)的基因與CNVRs重疊;而這些基因在WECP群體中為缺失型。
基于NGS技術(shù):Jiang等[52]利用NGS對(duì)10個(gè)豬種進(jìn)行全基因組分析,構(gòu)建了當(dāng)時(shí)分辨率最高的豬CNV和SD圖譜。此外,Zheng等[53]對(duì)梅山豬和杜洛克豬進(jìn)行NGS測(cè)序,鑒定出梅山豬中的6 387個(gè)CNVRs與編碼芳香烴受體(aryl hydrocarbon receptor,AHR)基因的繁殖相關(guān)基因存在重疊。Ran等[54]發(fā)現(xiàn)MTHFSD(methenyltetrahydrofolate synthetase domain containing)基因CNVs影響湘豬的產(chǎn)子數(shù)性狀。Qiu等[55]對(duì)美國(guó)和加拿大的杜洛克豬進(jìn)行全基因組分析,發(fā)現(xiàn)有10個(gè)CNVRs與美國(guó)杜洛克豬的平均日增重等性狀有關(guān),而9個(gè)CNVRs與加拿大杜洛克豬的平均日增重和背臀部厚度有關(guān)。另外,Ding等[56]對(duì)杜洛克豬進(jìn)行全基因組重測(cè)序分析,發(fā)現(xiàn)23 856個(gè)CNVRs,相關(guān)性分析結(jié)果表明9個(gè)CNVRs與杜洛克豬腰肌面積、腰肌深度和瘦肉率相關(guān),鑒定了DOK7(docking protein 7)、ARAP1(ArfGAP with RhoGAP domain, ankyrin repeat and PH domain 1)、ELMO2(engulfment and cell motility 2)和SLC13A3(solute carrier family 13 member 3)相關(guān)的候選功能基因。Wei等[57]在大白豬與民豬2代群體中共鑒定出1 185個(gè)CNV區(qū)域(CNVRs),將CNVs與IMF進(jìn)行GWAS分析發(fā)現(xiàn),19個(gè)CNVRs與IMF顯著相關(guān),CNVR可能通過(guò)調(diào)節(jié)PELP1基因的選擇性剪接來(lái)影響IMF的含量,并最終影響PELP1蛋白的結(jié)構(gòu)。Fan等[58]對(duì)安慶六白豬與亞洲野豬進(jìn)行CNV檢測(cè),共鑒定出10 429個(gè)CNVRs,在96個(gè)CNVRs區(qū)域中鑒定出65個(gè)與生長(zhǎng)、繁殖、代謝等性狀相關(guān)的功能基因,如CD36(CD36 molecule)、CIT(citron rho-interacting serine/threonine kinase)、RLN(relaxin)、CYP3A29(cytochrome P450 family 3 subfamily a member 29)、ELOVL6(ELOVL fatty acid elongase 6)等,QTL重疊區(qū)域與肉質(zhì)性狀、生長(zhǎng)和免疫相關(guān),這與CNV分析一致。Zhang等[59]對(duì)皖南黑豬與亞洲野豬CNVs進(jìn)行比較,對(duì)所選的288個(gè)CNVs中基因進(jìn)行功能富集分析,鑒定出NDN(necdin, MAGE family member)、TMOD4(tropomodulin 4)、GJA1(gap junction protein alpha 1)、MAP3K5(mitogen-activated protein kinase kinase kinase 5)等基因,與肌肉生長(zhǎng)、繁殖、剩余采食量、耳朵大小等性狀相關(guān)。Long等[60]在杜洛克豬、長(zhǎng)白豬和約克夏豬中發(fā)現(xiàn)罕見(jiàn)的CNV可能與豬臍疝疾病有著重要的聯(lián)系。
由于國(guó)內(nèi)現(xiàn)代馬業(yè)起步晚,近年來(lái)人們才逐漸重視起國(guó)內(nèi)馬業(yè)的現(xiàn)代化進(jìn)程,國(guó)內(nèi)馬CNVs相關(guān)研究還亟待探索。
基于CGH技術(shù):王偉[61]在6匹不同品種的馬(蒙古馬,阿巴嘎馬,河曲馬,哈薩克馬,德保矮馬和純血馬)的常染色體中共鑒別了700個(gè)CNVs,大小從6.1 kb到0.57 Mb。基于SNP芯片技術(shù),2022年Wang 等[62]在晉江馬等10個(gè)中國(guó)本土馬種共301個(gè)個(gè)體中鑒別了577個(gè)CNVs。
基于WGS技術(shù):2021年Durward-Akhurst等[63]對(duì)534匹馬進(jìn)行了變異檢測(cè),并針對(duì)10個(gè)目標(biāo)品種確定了單品種特有的變體。Al Abri等[64]針對(duì)來(lái)自6個(gè)不同品種的共6匹馬(美國(guó)迷你馬、佩爾什馬、阿拉伯馬、曼加拉加馬查多爾馬、蒙古馬和田納西走馬)鑒定并功能注釋了17 514 723個(gè)SNPs,1 923 693個(gè)Indels,以及平均每匹馬1 540個(gè)CNVs和3 321個(gè)SVs 。Gu 等[65]首次在染色體水平上從頭組裝出10個(gè)全球代表馬種的三維基因組,并對(duì)馬基因組上的大片段SVs進(jìn)行了全面解析,通過(guò)拓?fù)湎嚓P(guān)結(jié)構(gòu)域(topologically associating domains,TAD)研究了SVs對(duì)染色質(zhì)空間結(jié)構(gòu)的潛在影響,還發(fā)現(xiàn)品種特異性SVs顯著富集了品種特異性TADs。Tang等[66]對(duì)來(lái)自全世界的16個(gè)馬品種共97匹馬進(jìn)行了全基因組重測(cè)序,各品種鑒定到5 023~44 681個(gè)CNVRs,CNVRs長(zhǎng)度范圍為1.9~8 kb,并鑒定到品種間特異性的CNVRs覆蓋的基因(CTSL(cathepsin L)、RAB11FIP3(RAB11 family interacting protein 3) 和CTIF(cap binding complex dependent translation initiation factor))。
以“Pacbio;SMRT; ONT;cattle; sheep; goat;pig”等作為關(guān)鍵詞,根據(jù) web of science 2011年至 2022年發(fā)表文章數(shù)量進(jìn)行統(tǒng)計(jì)分析,如圖2所示,第三代測(cè)序技術(shù)主要應(yīng)用在基因組結(jié)構(gòu)變異鑒定、基因組組裝和甲基化檢測(cè)這3個(gè)方面上;受限于成本以及準(zhǔn)確率,第三代測(cè)序技術(shù)在家畜全基因組測(cè)序方面尚未廣泛應(yīng)用,目前在牛和豬上的應(yīng)用較多,在羊上相對(duì)較少。以下對(duì)目前第三代測(cè)序用于牛、羊、豬等家畜全基因組組裝和結(jié)構(gòu)變異的檢測(cè)現(xiàn)狀進(jìn)行綜述。

圖2 第三代測(cè)序技術(shù)在家畜中研究應(yīng)用領(lǐng)域及熱度分析Fig.2 Research applications and popularity analysis of third generation Sequencing technology in livestock
在牛上,Gao等[67]對(duì)野牦牛和家牦牛進(jìn)行了染色體水平全基因組組裝,并通過(guò)牦牛和黃牛的長(zhǎng)度數(shù)據(jù)篩選了SV,在攜帶高Fst SV的啟動(dòng)子區(qū)域基因富集篩選出對(duì)缺氧反應(yīng)起重要作用的調(diào)控基因(ARNT(aryl hydrocarbon receptor nuclear translocator)、GATA1(GATA binding protein 1)、EPOR(erythropoietin receptor)、MAFG(MAF BZIP transcription factor G)、KLF5(KLF transcription factor 5))。羅西爾[68]利用第三代測(cè)序技術(shù)對(duì)水牛進(jìn)行denovo基因組組裝,并結(jié)合二代 Illumina測(cè)序數(shù)據(jù)、Hi-C數(shù)據(jù)等進(jìn)行數(shù)據(jù)的糾錯(cuò)與聚類,最后得到染色體水平的水牛參考基因組,沼澤型水牛和河流型水牛的N50分別為117 Mb和116 Mb。Liu課題組的Gao等[69]使用10x Genomics、PacBio continuous long read(CLR)和Circular consensus sequencing (CCS)以及ONT PromethION技術(shù)對(duì)牛進(jìn)行了測(cè)序。結(jié)果表明,在SV檢測(cè)方面,長(zhǎng)讀取覆蓋了大多基因組,檢測(cè)出更多SV,且鑒定出的SV顯示出高度均勻性,明顯優(yōu)于短讀測(cè)序。2020年,Lamb等[70]首次在肉牛中進(jìn)行第三代測(cè)序,重點(diǎn)檢測(cè)兩種已知的與無(wú)角癥有關(guān)的SVs,在澳大利亞婆羅門(mén)牛中證明了一個(gè)有關(guān)的SV。Low等[71]對(duì)安格斯牛和婆羅門(mén)牛單個(gè)雜交個(gè)體進(jìn)行第三代測(cè)序,發(fā)現(xiàn)存在于婆羅門(mén)牛中的特異性SV在磷脂易位(GO:0045332)、脂質(zhì)易位(GO:0034204)、脂質(zhì)轉(zhuǎn)運(yùn)(GO:0006869)和脂質(zhì)定位(GO:0010876)中具有3至5.7倍的富集,這表明脂質(zhì)分布受SV的影響最大。Leonard等[72]對(duì)三個(gè)不同雜合度的牛進(jìn)行測(cè)序分析,檢測(cè)到9萬(wàn)個(gè)SVs,并且位于13號(hào)染色體上ASIP(agouti signaling protein)基因的SV與牛的色素沉淀顯著相關(guān)。Zhou等[73]利用牛全基因組圖譜數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)83 Mb的牛參考基因組中未發(fā)現(xiàn)的序列,在各個(gè)亞種和品種中發(fā)現(xiàn)數(shù)百個(gè)缺失變異,其中APPL2 SV與牛的品種地理分布有關(guān)。
在豬上,2012年,Du等[74]對(duì)杜洛克豬的長(zhǎng)讀長(zhǎng)數(shù)據(jù)與短讀數(shù)據(jù)利用不同的程序進(jìn)行性能比較評(píng)估,構(gòu)建出杜洛克豬基因組草圖。同年,通過(guò)三代測(cè)序技術(shù),五指山豬全基因組組裝也完成。之后,研究者們進(jìn)一步對(duì)陸川豬、梅山豬、寧鄉(xiāng)豬、五指山豬、藏豬、民豬、巴馬香豬等中國(guó)地方豬種也通過(guò)三代測(cè)序等技術(shù)陸陸續(xù)續(xù)完成了基因組組裝(表4)。這些研究為全面解析全基因組遺傳信息及種質(zhì)資源的開(kāi)發(fā)利用提供了參考依據(jù)。

表4 中國(guó)地方豬種三代測(cè)序技術(shù)研究進(jìn)展Table 4 Research progress of 3rd-generation sequencing technology for Chinese local pig breeds
Ma等[80]利用三代測(cè)序技術(shù)、Hi-C和Bionano等新技術(shù),首次繪制了高精度寧鄉(xiāng)豬基因組圖譜,揭示了寧鄉(xiāng)豬基因組內(nèi)豐富的遺傳變異,并整合多組學(xué)數(shù)據(jù)鑒定了多個(gè)與外國(guó)瘦肉型豬杜洛克豬差異較大的基因組SV,并且這些SVs與376個(gè)基因關(guān)聯(lián),利用qPCR驗(yàn)證發(fā)現(xiàn)MYL4基因的SV可能是影響寧鄉(xiāng)豬皮下脂肪沉積的關(guān)鍵候選基因,同時(shí)KEGG富集分析顯示差異SVs相關(guān)基因與免疫系統(tǒng)、神經(jīng)系統(tǒng)和脂質(zhì)代謝等相關(guān)。Jiang等[81]整合11個(gè)長(zhǎng)讀長(zhǎng)測(cè)序數(shù)據(jù),構(gòu)建了豬全基因組圖譜,發(fā)現(xiàn)了183 352個(gè)非冗余SVs(63%為新發(fā)現(xiàn)SV),占參考基因組的12.12%。在梅山豬中,研究者檢測(cè)出TEX11 SV與IL18RAP SV,推測(cè)其可能通過(guò)調(diào)控靶基因成為梅山豬高繁殖性能和抗病的重要候選變異。在藏豬中,研究者發(fā)現(xiàn)了7 568個(gè)特有SVs,這些SV顯著富集在與脂肪和血液代謝相關(guān)的性狀,如肌酐水平、接觸球蛋白濃度、肌酸激酶水平和高密度脂蛋白膽固醇等。其中,SOD1(superoxide dismutase 1)、SEMA5A(semaphorin 5A)、REV1(REV1 DNA directed polymerase)、SGCD(sarcoglycan delta)、ADAMTS12(ADAM metallopeptidase with thrombospondin type 1 motif 12)、ATP6V0A1(ATPase H+ transporting v0 subunit a1)、EPHA2(EPH receptor A2)、HIPK2(homeodomain interacting protein kinase 2)等基因區(qū)域的SV在藏豬和低海拔豬之間表現(xiàn)出顯著的群體差異,提示這些SV可能是影響藏豬對(duì)高海拔的適應(yīng)性的關(guān)鍵功能變異。
在羊上,Bickhart等[82]對(duì)多品種山羊進(jìn)行SMRT測(cè)序,結(jié)合SNP基因型數(shù)據(jù)以及Hi-C數(shù)據(jù)等,提出了一個(gè)近完整的家山羊(C.hircus)參考基因組,解決了超過(guò)1 kb的重復(fù)結(jié)構(gòu)。2021年,姜雨團(tuán)隊(duì)的Li等[83-85]成功組裝出湖羊參考基因組;接著構(gòu)建了綿羊泛基因組,鑒定出HOXB13 SV導(dǎo)致綿羊的長(zhǎng)尾性狀。Li等[86]對(duì)薩能奶山羊進(jìn)行第三代測(cè)序,一共確定了總長(zhǎng)度11.7 Mb的16 714個(gè)SVs,并且,其中6 190個(gè)SVs與編碼區(qū)和非編碼區(qū)的功能基因有關(guān)。Kent等[87]對(duì)挪威Spael羊進(jìn)行三代測(cè)序,發(fā)現(xiàn)可能在綿羊黃色脂肪產(chǎn)生過(guò)程發(fā)揮著重要作用的功能SV。
CNV在牛、羊和豬上已取得較好的研究進(jìn)展,隨著越來(lái)越多的CNV被研究者發(fā)現(xiàn),極大的豐富了DNA變異的多樣性,并發(fā)掘了大量可影響表型的候選功能CNV。但是,也存在著相對(duì)的問(wèn)題,例如:①大多集中在CNV的鑒定及與表型的關(guān)聯(lián)分析方面,對(duì)CNV如何影響到表型的功能機(jī)制的研究還有所欠缺。②CNV的檢測(cè)與分析方法還有待完善,由于技術(shù)和分析方法等方面的限制,導(dǎo)致之前許多鑒定的CNV結(jié)果不準(zhǔn)確且難以重復(fù)和驗(yàn)證。基于三代測(cè)序技術(shù),并改進(jìn)和利用相關(guān)分析方法,將有望解決CNV檢測(cè)準(zhǔn)確性等問(wèn)題,但目前三代測(cè)序技術(shù)的成本仍較高,使其難以廣泛應(yīng)用。③CNV在動(dòng)物育種的應(yīng)用還十分有限,當(dāng)前全基因組選擇育種主要是依靠SNP芯片技術(shù)來(lái)實(shí)現(xiàn)。
CNV相比于傳統(tǒng)的分子遺傳標(biāo)記具有更鮮明的特點(diǎn),在未來(lái)家畜育種中具有作為重要分子標(biāo)記的潛力。隨著測(cè)序技術(shù)的發(fā)展、分析方法的改善、以及高密度SNP芯片的開(kāi)發(fā),可將CNV與SNP進(jìn)行聯(lián)合利用,以此來(lái)提高育種過(guò)程中的可靠性和選種效率。并且,我們相信,伴隨著檢測(cè)CNV技術(shù)的發(fā)展,也將推動(dòng)基于CNV的全基因組選擇在家畜育種上的應(yīng)用,加速家畜的育種進(jìn)程。