徐東輝,徐宇輝,李瑞哲,成海建,馬志杰*
(1.青海大學畜牧獸醫科學院,西寧 810016;2.農業農村部青藏高原畜禽遺傳育種重點實驗室,西寧 810016;3.青海省高原家畜遺傳資源保護與創新利用重點實驗室,西寧 810016;4.山東省農業科學院畜牧獸醫研究所,濟南 250100;5.山東省畜禽疫病防治與繁育重點實驗室,濟南 250100)
拷貝數變異(copy number variation, CNV)是指物種基因組中大片段DNA片段的插入、缺失或重復等,是基因組結構變異的主要形式之一。CNV是物種個體遺傳變異的重要來源,在不同物種基因組上普遍存在。研究表明,基因組中拷貝數的分布受到基因的突變、自然選擇以及種群數量的發展趨勢等多個因素影響[1]。CNV能影響動物基因組中較長區域,甚至產生巨大的遺傳效應,與基因組進化密切相關。如今,CNV的定義范圍已擴大到了50 bp到數Mb序列長度的結構變異。與單核苷酸多態性(single nucleotide polymorphism,SNP)相比,CNV覆蓋了物種更多的基因組區域,并擁有更高的核苷酸位點突變率。當前,CNV已成為繼簡單重復序列(simple sequence repeat, SSR)和SNP之后一種新的基因組變異類型而成為研究熱點之一。
隨著組學(omics)和高通量測序技術的發展,全基因組CNV研究在普通牛[2]、羊[3]、豬[4]等家畜中已陸續開展,研究證實一些CNV關聯基因或基因組區域與家畜的脂肪沉積、免疫應答及環境適應性等相關,表明CNV分析是探究動物表型性狀遺傳機理和開展群體遺傳等研究的重要策略之一。如Huang等[3]通過對普通牛、綿羊和山羊全基因組CNV分析,發現830個與上述反芻動物耐藥性、免疫和肌肉發育等多種生命活動相關且在群體間高度分化(VST≥ 0.5)的CNV,在普通牛、山羊、綿羊中分別發現11、26、16個與環境適應性顯著相關的CNV,提示種間共享的拷貝數變異區域(copy number variation region,CNVR)比例遠高于種間共享的SNP,推測CNV熱點(hotspots)對種間共享CNVR的形成影響很小,以平衡選擇為主的自然選擇對種間共享CNVR的形成和保留可能起到關鍵作用。
牦牛作為青藏高原的特有牛種,其全基因組CNV研究有助于挖掘與牦牛生長、肉乳、高海拔適應性等重要性狀和生理功能相關的關鍵基因,給未來牦牛分子育種和遺傳改良提供研究基礎。當前,在牦牛基因組CNV研究中,自Zhang等[5]利用比較基因組雜交芯片(comparative genomic hybridization, CGH)對2頭牦牛進行首次基因組CNV探究后,基于Bovine HD芯片和基因組重測序策略,研究者近10年來對牦牛全基因組拷貝數變異進行了較多的分析,其研究內容主要涉及了牦牛全基因組CNV圖譜的構建[6-9]、部分牦牛品種(群體)間CNV及CNVR遺傳差異揭示[8-13]以及適應性、經濟性狀等相關的CNV關聯候選基因或基因組區域的發掘與檢測等[5-14]。然而,當前尚未見有關牦牛基因組CNV研究進展的綜述報道。鑒于此,本文對CNV的形成原理、作用機制、檢測方法以及牦牛全基因組CNV和基因拷貝數變異研究最新進展進行綜述,提出了當前研究中存在的若干問題,并對其發展前景進行了展望,以期為今后繼續推進牦牛基因組遺傳變異探究,發掘有用遺傳信息,深入開展牦牛分子育種實踐奠定基礎。
CNV作為一種重要的基因組結構變異類型,其多態性差異會導致同一物種的不同個體間特定基因組區域內基因拷貝數的不同,進而引起物種表型發生變化。當前,基因組CNV的形成機制主要包括以下4類[15]:非等位同源重組(non-allelic homologous recombination, NAHR)、非同源末端連接(non-homologous end joining, NHEJ)、復制叉延遲和模板轉換(fork stalling and template switching, FoSTeS)及LINE-1(long interspersed nucleotide element-1, L1)介導的反轉錄轉座(圖1)。

圖1 基因組CNV四種形成機制[15]Fig.1 Four mechanisms of genomic CNV formation[15]
NAHR是在減數分裂或有絲分裂中,非同源染色體間序列相似的兩個區域之間發生的重組。如果姐妹染色單體之間發生交叉,該過程會發生DNA片段的增加或丟失,進而導致染色體片段的擴增、缺失和倒位[16]。NAHR代表性變異類型有兩類,即大片段重復序列(segmental duplications, SDs)和低拷貝重復序列(low copy repeats, LCRs),其重復片段之間相似性達到95%以上,通常長度大于10 kb,且較為復雜的SD和LCR序列可由自身形成。NHEJ是一種細胞修復的生理形式,是兩個非同源DNA序列在末端連接,由電離輻射或活性氧引起的DNA雙鏈斷裂(DNA double-strand breaks,DSBs),從而導致染色體重排產生CNV。FoSTeS是一種基于DNA復制的機制,它可以解釋復雜的基因組重排和CNV[17]。在DNA復制過程中,停滯的復制叉導致滯后鏈脫落,并在其它復制叉上進行DNA復制合成。新的模板鏈與原來復制叉中的模板鏈彼此靠近,模板轉換的結果可以導致缺失或重復。L1介導的反轉錄轉座過程由RNA聚合酶II轉錄而成的RNA中間體完成介導[18],其在轉錄和反轉錄的轉座過程中會產生新的CNV,并插入到基因組中兩端為一對重復序列的位置上。
CNV主要通過基因劑量效應(gene dosage)和位置效應(position effects)影響基因的表達和物種的表型變化。基因劑量效應指CNV的缺失或重復會改變基因的表達量,進而引起基因功能表達異常及表型發生變化。值得注意的是,基因劑量效應會直接改變所在基因的表達水平,如在對人類腓骨肌萎縮癥(charcot-marie-tooth)神經病變的研究中,發現該病特異性地與劑量敏感基因外周髓鞘蛋白22(PMP22)的CNV密切相關[19]。在人類孤獨癥相關研究中,發現一些與神經突觸形成及突觸蛋白合成相關的基因位點,如SHANK3、軸突蛋白neurexin1和神經連接蛋白(neuroligin,NLGN4)等基因存在CNV的缺失[20]。位置效應則是指CNV對其變異位點周圍基因的表達產生調控的間接影響,進而引起基因功能發生改變。
目前, CNV的檢測可分為全基因組范圍內未知CNV的檢測和已探明CNV的檢測與確定。全基因組范圍內對未知CNV的檢測主要分為兩類:一類是芯片法,主要包括比較基因組雜交芯片(array-based comparative genomic hybridization, aCGH)和SNP芯片的運用;另一類是以測序為基礎的新一代測序技術(next-generation sequencing, NGS)和單分子測序技術(single molecule sequencing)。對已探明CNV的檢測與確定,常用的有熒光原位雜交(fluorescence in situ hybridization, FISH)和熒光定量PCR(real-time quantitative polymerase chain reaction, qPCR)技術檢測兩種方法[21]。
1.3.1 全基因組未知CNV的檢測與確定 aCGH是基于不同的熒光標記,將對照樣本和試驗樣本標記后與芯片上DNA片段雜交,通過檢測不同的熒光信號和比值進行分析,來確定試驗樣本的拷貝數變化情況。1998年,Pinkel等[22]基于微陣列技術將不同熒光素標記的樣本置于同一張芯片上,與構建的文庫進行雜交,從而根據熒光信號值的不同在全基因組范圍內檢測CNV差異。CGH芯片的探針合成速度快,可搭載高密度探針,是一種高精度、高靈敏度、高分辨率且樣本需要量較小的高通量分析技術。通常,探針的密度決定了結果的準確性。根據探針來源的不同,CGH芯片分為細菌人工染色體芯片和寡核苷酸芯片。其中,細菌人工染色體芯片具有較高的信噪比,但分辨率較低,很難檢測到50 kb以下的CNV信號,同時制備該芯片的成本高,且費時費力。相比之下,寡核苷酸芯片則具有高精度、高分辨率、易制備等優點。與aCGH相比,高密度SNP芯片無需參照樣品,其通過檢測樣本SNP強度來確定基因拷貝數變異。2007年,Affymetrix公司發布了全基因組SNP 6.0芯片,該芯片可將CNV轉化成高分辨率的參考圖譜,其包括90多萬個用于拷貝數變化檢測的探針,可使全基因組平均分辨率達3 kb,方便研究者通過CNV分析來挖掘基因組序列變異信息[23]。2008年,Kato等[24]利用芯片探針和最大似然法,構建隱馬爾可夫模型并把檢測出的芯片信號強度與參考雜交信號強度進行比較,推斷人類基因組CNV區域上的復雜單倍型,得到了個體CNV區域內兩條同源染色體上等位基因的基因拷貝數。高密度SNP芯片的問世,盡管大幅度提高了全基因組CNV的檢測效率,但高密度SNP芯片對基因組擴增富集區和結構復雜區域內的CNVs檢測效率仍然較低。
當前,對于全基因組測序數據,通常有4種不同的方法來檢測其拷貝數變異:1)讀段深度(read depth, RD):根據滑動窗口的標準化讀取深度判斷CNV;2)雙末端映射(paired-end mapping, PEM):通過將paired-end間的距離與參考基因組比對來確認CNV;3)拆分reads (split reads, SR);4)reads組裝(assembly, AS)[25-27]。其中,RD法在CNV檢測中應用最為廣泛。相較于aCGH和SNP芯片,NGS的有效分辨率和靈敏度更高,可用于確定基因組CNV的邊界并能有效地檢測小片段的CNV,在基因組斷點的檢測上有很大的優勢。同時,得益于高通量測序成本的持續降低以及NGS檢測CNV技術的不斷成熟,高通量測序技術已被普遍應用于各個物種的CNV檢測及相關研究中。此外,NGS技術能夠更精準的覆蓋基因組中片段重復(segmental duplications, SDs)和拷貝數變異區域(copy number variation regions, CNVRs),表現出前所未有的發掘CNVs的能力,所挖掘出的CNVs信息也極大豐富了芯片設計資源,推動了高精度芯片的持續升級。
1.3.2 已知CNV的檢測與鑒定 FISH是將已知的帶有熒光標記的單鏈核酸探針與目的DNA單鏈核酸片段進行雜交,利用熒光信號進行定性分析。該方法是基于形態基礎的分子檢測,具有檢測速度快、信號強、能夠多重染色的優勢。然而,由于其技術復雜、成本高,應用短片段的cDNA探針時檢測效率低,不能應用于候選基因或基因調控區內CNV的驗證。qPCR是在聚合酶鏈式反應(PCR)中添加熒光標記內參基因,通過連續偵測熒光信號,統計每次PCR循環后產物總量,基于Ct值和標準曲線的關系對起始模板進行定量分析。qPCR通過對樣本的目標基因與內參基因的檢測值相對定量來推斷目標基因的拷貝數[28],其操作簡便、快速,靈敏度高,可實時監控且特異性更高,被研究者們視為CNV檢測與鑒定的金標準。
牦牛全基因組CNV研究中,基于芯片技術,Zhang等[5]利用aCGH法對24頭普通牛、3頭水牛和2頭牦牛進行了全基因組CNV分析,共確定了605個CNVRs,覆蓋普通牛基因組的3.04%,研究發現41.8%(253/605)的CNVRs涉及與結合蛋白、受體活性及分子轉導活性等相關的功能基因,70.6%(427/605)的CNVRs與數量性狀基因座(quantitative trait loci, QTL)重疊;證實CNVRs在染色體上存在不均勻分布以及線粒體DNA拷貝數存在牛種間差異(其中擴增型:普通牛;缺失型:牦牛和水牛);qPCR進一步驗證CNVR14對PLA2G2D基因表達呈顯著負影響,而CNVR22和CNVR310與普通牛的體尺性狀呈顯著負相關。張全偉[6]使用普通牛Bovine HD芯片檢測了200頭牦牛(包括青海牦牛和天祝白牦牛)的全基因組CNV,共獲得總長128 Mb的857個CNVRs(覆蓋牦牛基因組的4.79%),功能富集分析發現大部分候選基因與嗅覺受體活性、細胞表面受體信號轉導和G蛋白偶聯受體信號通路相關;以普通牛基因組為參考,將獲得的CNVRs定位到普通牛染色體上,初步構建了牦牛常染色體CNVRs遺傳圖譜。隨后,Jia等[7]用Illumina Bovine HD芯片在215頭阿什旦牦牛基因組中檢測到了總長181.6 Mb的1 066個CNVRs(覆蓋了普通牛常染色體基因組的7.2%),并獲得了牦牛全基因組CNV圖譜;功能富集揭示了許多潛在的與高海拔適應相關的基因,檢測發現超過1/3的CNVRs與牦牛肉、奶、繁殖等重要經濟性狀相關的QTL重疊。
基于高通量測序技術,Zhang等[8]對14頭野牦牛和65頭家牦牛全基因組重測序數據(平均測序深度6.7×)進行了CNV掃描,確定了總長度為153 Mb的2 634個CNVRs,占牦牛參考基因組的5.7%;家、野牦牛的比較分析共確定出121個差異CNVRs,這些區域包含與繁殖、營養、神經發育和能量代謝相關的基因;而在高、低海拔家牦牛群體分組分析中,確定了85個呈顯著差異的CNVRs,發現了與低氧應激(DEXI、DCC、MRP4)、免疫防御(ULBP17、CIITA、CATHLI1、BOLA-DQA2、BOLA-DQA3和BOLA-DQB)等相關的一些基因。Wang等[9]基于全基因組重測序數據(平均測序深度8.1×)對中國16個牦牛群體共48頭牦牛個體進行了全基因組CNV分析,得到總長163.8 Mb的3 174個CNVRs(占牦牛參考基因組的6.2%),發現這些CNVRs包含與免疫反應、葡萄糖代謝、感覺感知及高海拔環境適應相關的功能基因(DCC、GSTCD、MRPS28和MOGAT2);聚類分析顯示牦牛CNV分為2個來源,推測一些牦牛CNV可能在不同的群體中獨立發生從而造成群體差異。此外,周學蘭[10]對9頭野牦牛、30頭大通牦牛、30頭青海高原牦牛和30頭天祝白牦牛(平均測序深度27~30×)進行了全基因組CNV檢測,共鑒定得到122 898個CNVs,發現大多數CNVs在各群體間共有,而野牦牛、大通牦牛、青海高原牦牛和天祝白牦牛特異性CNVs分別有17 833、17 127、15 027和16 878個;對群體特異性CNVs重疊基因進行功能富集分析,并與普通牛的QTL數據進行重疊分析,鑒定得到27個與牦牛經濟性狀、適應性和性情等相關的基因,包括與生長性狀(WNT7A、COL1A1、ASB2、MECP2等)、繁殖性狀(SPACA7、TAF7L和BMP15)、高原適應性(HCN4、FABP2、GADD45A、KRT71等)、性情(CACNA1H、GPR88、NLGN3、SEPT6等)、肉品質(ADIPOQ)相關的若干基因。E等[11]對14頭西藏那曲市高海拔地區的牦牛個體和15頭甘肅抓喜秀龍鄉低海拔地區的牦牛個體重測序數據進行了全基因組拷貝數變異檢測,從FST和VST差異最大的前20個CNVs中鑒定出7個候選CNVs,發現5個與牦牛適應性、生理功能調節相關的基因(即GRIK4、IFNLR1、LOC102275985、GRHL3和LOC102275713)。朱昌鴻[14]對3頭麥洼牦牛、2頭犏牛、9頭普通牛共14頭個體的全基因組重測序數據進行分析,共鑒定出普通牛、牦牛、犏牛特異性CNVs相關基因5 384、392和1 969個;在牦牛中篩選到與骨骼發育、生長性狀相關的基因(DLx5、LYZL4等),在犏牛中篩選到與肉質、高原低氧適應性相關的若干基因(ADIPOQ、UPC1、AQP7等)。Meng等[12]對20頭天祝白牦牛(包括10頭長毛個體和10頭正常毛長個體)的重測序數據進行了全基因組CNV檢測,定義了2 006個CNVRs,發現80個差異CNVRs主要富集了與脂質代謝、細胞遷移等相關的基因,并檢測到與毛發生長、毛囊發育相關的若干差異基因(ASTN2、ATM、COL22A1、GK5、SLIT3、PM20D1和SGCZ)。最近,Zhang等[13]基于38頭純白天祝白牦牛和59頭非純白牦牛個體探究了牦牛被毛白色表型的遺傳機制,定義了兩個群體間高度分化的拷貝數變異區域,并鑒定出KIT基因周圍兩種可能與牦牛被毛白色表型相關的CNVs類型(CNV1和CNV2),該研究結合全基因組SNP及GWAS結果發現,在白色牦牛中存在6號、29號染色體之間易位以及KIT基因連鎖的Cs等位基因;與普通牛相比,白色牦牛的結構變異顯示了Cs等位基因的額外重復,與牦牛白色被毛表型相關的Cs等位基因存在來自普通牛的基因滲入。
綜上可以看出,研究者已基于高密度芯片和全基因組重測序技術從全基因組水平對我國部分牦牛品種(群體)進行了CNV檢測和相應的品種(群體)間差異分析,豐富了牦牛CNV數據集(庫),發現了一批與牦牛適應性、性情及重要經濟性狀(如生長發育、毛長、肉質)等密切相關的候選基因或CNVR,初步揭示了牦牛高海拔適應、馴化及毛色形成等的分子機制及其功能調控模式。盡管上述研究取得了一些初步成果,但仍存在些許不足,今后如下若干研究內容仍有待深入探究和推進:
1)牦牛基因組CNV研究中樣本的代表性有待增強,樣本量可再增加和提高。先前研究中牦牛品種(群體)樣本覆蓋率低,數量較少,全基因組CNV研究中各牦牛品種(群體)樣本數目大多不足4頭,如Zhang等[8]的研究中僅只涉及到4個省/區的牦牛樣本,未覆蓋到新疆與云南牦牛產區;而Wang等[9]的研究中涉及到16個牦牛群體,各群體分別只選擇了3頭個體。目前,我國牦牛品種(遺傳資源)已達23個[29-32]。因此,今后可選擇覆蓋面更廣、數目更多的樣本,這對構建高質量牦牛CNV遺傳圖譜、豐富牦牛基因組變異數據庫有重大意義。
2)牦牛全基因組測序深度有待提高,進而降低數據CNV檢測出現的假陽性影響。當前,已報道的牦牛CNV研究基于全基因組測序獲得的重測序數據測序深度大多不足10×[8-9]。隨著測序技術的發展、測序成本的降低及三代測序技術的普及應用,利用二代測序高通量、準確度高的短讀長片段對三代測序的長讀長片段進行修正,有助于建立更為精準、完善的牦牛CNV研究新標準。
3)牦牛基因組CNV識別標準有待建立。CNV的識別是CNV研究中的核心,目前CNV的識別缺乏統一標準,其方法主要分為測序法和芯片法。aCGH和SNP芯片法假陽性較高,而測序法在一些CNV小片段和高度重復的復雜區域內識別亦存在較大缺陷。CNV識別受限于檢測方法、靈敏度等因素,這使得不同軟件、不同算法獲得的結果不能進行有效的整合和比較分析,未來可在軟件開發領域著手建立牦牛CNV的統一識別標準,來解決上述識別問題。
4)染色體組裝水平的牦牛高質量參考基因組應在CNV檢測中發揮作用。目前,大多牦牛CNV研究使用的參考基因組為BosGru_v2.0[7-9,33],其僅組裝到Scaffold水平,而報道的牦牛染色體水平的CNV圖譜研究也是基于普通牛參考基因組繪制獲得[6],其結果缺乏準確性。2021年以來,牦牛全基因組序列已被組裝到了染色體水平[34-35](即BosGru3.1,NWIPB_DYAK_1.0和NWIPB_WYAK_1.0)。受限于Contig、Scaffold水平的參考基因組中存在大量的gap,故選用染色體水平的高質量參考基因組對深度解析牦牛CNV具有重要作用。
牦牛基因拷貝數變異(CNV)研究主要是探究一些候選基因的不同CNV狀態及與重要經濟性狀、生理功能的關聯情況,分析其調控作用并進行功能驗證。基因拷貝數差異在不同牦牛品種(群體)間普遍存在,對性狀具有一定的影響。當前,研究者已在10個牦牛品種(即大通、甘南、青海高原、阿什旦、天祝、麥洼、金川、木里、昌臺和玉樹牦牛)中開展了候選基因CNV與部分性狀的關聯性分析(表1),初步證實部分基因(如HPGDS、KLF6、CHRM3等)的CNV類型與一些肉質、生長性狀存在關聯,其研究成果為揭示牦牛性狀的遺傳機理奠定了基礎,對加快牦牛分子育種進程有重要意義。

表1 牦牛基因拷貝數變異研究
然而,上述研究仍存在若干問題,如樣本的代表性不強、候選基因CNV的驗證研究較少等。今后,牦牛候選基因的CNV與部分性狀的關聯性驗證有待繼續推進。先前研究中挖掘出的一批與牦牛重要性狀相關聯的候選基因,尚需對其進行檢測和驗證以明確該基因的拷貝數狀態。另一方面,CNV全基因組上的分布在不同群體、個體間存在差異性,因此,在對已知CNV驗證時應選擇多個牦牛群體的大樣本量開展相應研究。
可以看出,當前研究者在牦牛全基因組拷貝數變異和基因拷貝數變異研究中已開展了大量工作,其研究成果可概括為:1)在牦牛全基因組首次測序完成后[33],構建了Scaffold水平的牦牛全基因組CNV圖譜[7-9],并初步構建了基于普通牛參考基因組的牦牛染色體水平的CNV圖譜[6]。2)對牦牛全基因組進行檢測,挖掘出大量牦牛CNVs信息,鑒定出一批與適應性、生長性狀、免疫等相關的牦牛CNVRs及CNVRs上的候選基因。3)分析了部分牦牛品種(群體)間(包括不同海拔梯度分組群間以及不同表型(毛長)群體間)差異CNVRs,將其與SDs、QTL的重疊區域相關聯,注釋得到一批相關的候選基因,為揭示牦牛品種(群體)間遺傳差異提供了基礎數據。4)對牦牛部分基因的CNV與生長、繁殖、肉質等性狀的關聯性進行了驗證,探究了牦牛和犏牛Y染色體雄性特異區多拷貝基因的CNV狀態及其對犏牛雄性不育的影響。
當前,牦牛基因組CNV研究仍處于發展階段。由于基因組CNV結構的復雜性和相應的基因組CNV檢測技術存在的局限性,CNV檢測錯誤率較高以及一些復雜基因組區域無法覆蓋成為當前亟待解決的問題。為實現CNV的準確鑒定,可組合使用不同檢測方法的優勢,并結合三代長片段測序和機器學習的方法有效降低檢測的假陽性率。整合不同來源的CNV數據,開發新的預測模型及高精度芯片對準確識別CNV、解決基因大批量精確分型具有重要意義。同時,隨著泛基因組、單細胞多組學的快速發展,單細胞CNV分析和空間轉錄組學技術已被應用于推斷人體組織的空間拷貝數變異狀況[51],這為后續開展牦牛空間基因組拷貝數變異分析和探究更復雜基因組區域拷貝數狀態提供了借鑒。此外,隨著三代測序技術的發展,應用PacBio HiFi、ONT ultra-long、Hi-C等技術已經在人[52-55]、水稻[56]、玉米[57]等動植物上實現了高質量的端粒到端粒的基因組組裝(telomere-to-telomere, T2T),大幅提高了染色體的連續性和完整性。可以預見,未來牦牛T2T基因組的組裝也會很快提上日程,這將極大促進牦牛全基因組CNVs的深入挖掘及其生物學功能的探索,對開展牦牛分子育種實踐將具有重要意義。
在育種方面,結合基因組CNV、SV及SNP等遺傳變異開展GWAS研究,來選擇與表型特征、抗病、重要經濟性狀等相關的候選基因,構建統計模型將其整合到全基因組選擇中,是未來牦牛分子育種工作的重心之一。隨著基因組測序技術與CNV新算法的不斷發展,結合以CRISPR/Cas9系統為核心的基因組編輯技術,將有助于開發與牦牛優良性狀相關的CNV分子標記,提供更高效、安全的遺傳標記來應用到牦牛育種中。可以相信,深入開展CNV研究并將其作為牦牛育種中的主要分子標記之一,針對優良性狀進行品種選育,將有力推動牦牛遺傳改良和分子育種進程。