王 暉, 高妍夏, 孫志超, 王 敬, 李季生, 李 娜, 黃 露, 賈漫麗, 謝 巖
(承德醫學院蠶業研究所/河北省高校特產蠶桑應用技術研發中心,河北承德 067000)
家蠶是一種重要的經濟昆蟲,同時也是鱗翅目的模式物種。許多古籍記載、現代分子生物學研究均表明,家蠶起源于我國,并逐漸擴散到亞洲、歐洲等地,經過不斷地馴化、育種,形成許多品種、品系。不同品種的家蠶體色、個體大小、蠶繭顏色等均存在一定的差異。
分子標記在DNA水平表現為多態性,在動物遺傳方面發揮著重要作用。常用的分子標記有擴增片段長度多態性 (amplified fragment length polymorphism,AFLP)、隨機擴增多態性DNA標記(random amplified polymorphic DNA,RAPD)、簡單重復序列(simple sequence repeat,SSR)、單核苷酸多態性(single nucleotide polymorphism,SNP)、插入缺失(insertion-deletion,Indel)等。SNP是DNA水平的單個核苷酸的改變而產生的多態性;Indel則是DNA水平插入或刪除從1 bp至數百bp長度的片段而形成的基因多態性。劉偉等挖掘梯棱羊肚菌全基因組的SNP/Indel位點,選擇單胞菌株群體,初步構建Indel標記的遺傳連鎖圖譜。SNP和Indel位點可以鑒定國內不同優良地方雞種基因的同源性。對于家蠶品種分子水平的鑒定,前期已經有了一定的研究報道。通過RAPD、SSR分子標記初步判定一些家蠶品種之間的多態性和親緣關系。針對家蠶抗血液型膿病新品種混亂的情況,錢荷英等開發了50個SNP分子標記,初步判斷這些SNP分子標記可作為鑒定抗病品種的分子標記。本研究對河北省常用家蠶品種的中腸、脂肪體組織進行轉錄組測序,挖掘基因中的SNP/Indel位點,并對其分布規律進行分析,以期進一步豐富家蠶的SNP/Indel位點數據庫,為家蠶優良品種選育、親緣關系鑒定等提供參考。
家蠶白色繭品種東肥(DF,下同)、米色繭品種彩4(C4,下同)幼蟲于2019年6月飼養于承德醫學院蠶業所養蠶室,環境條件:溫度(25±2) ℃,濕度60%~70%,自然光周期。7月份時,解剖5齡成熟期生長一致家蠶蠶體,分離收集DF、C4的中腸(MG,下同)與脂肪體組織(FB,下同),每個樣本3個生物學重復,液氮速凍,轉錄組測序工作由北京諾禾致源生物科技有限公司完成。
使用RNA提取試劑盒提取總RNA,瓊脂糖凝膠電泳、Nano Photometer 分光光度計檢測RNA的純度,Agilent 2100 生物分析儀檢測RNA的完整性。高通量測序儀測得的圖像數據經 CASAVA 堿基識別轉化為序列數據(reads),去除低質量reads后獲得clean data。使用 GATK(3.7)軟件對樣本數據進行變異位點分析,并用 SnpEff(4.3q)軟件對變異位點進行注釋。通過 clusterProfiler(3.4.4)軟件實現差異表達基因的 GO富集分析,分析KEGG 通路中差異表達基因的統計富集。使用Origin 2021b軟件作圖。
由表1可知,2個品種家蠶的脂肪體、中腸經轉錄組測序后共組裝得到17 915條unigene序列,總長度為20 545 285 bp,C4的中腸GC含量范圍為50.81%~51.29%,其他組織樣品的GC含量范圍為47.39%~49.81%;Q20均大于97%,Q30均大于92%,轉錄組數據可以用于后續分析。

表1 2個家蠶品種脂肪體、中腸轉錄組測序質量統計
在2個品種家蠶中,脂肪體組織的SNP位點數目都小于中腸。C4脂肪體平均檢索到69 756個SNP位點,中腸平均檢索到99 490個SNP位點;DF脂肪體平均檢索到64 676個SNP位點,中腸平均檢索到99 910個SNP位點(圖1-A)。C4脂肪體、中腸每個unigene上的平均SNP數量分別為5.84、7.69個;DF脂肪體、中腸每個unigene上的平均SNP數量分別為5.31、7.31個。

C4脂肪體SNP位點數量高于DF脂肪體;但是C4中腸SNP位點數量低于DF中腸。所有組織樣品的SNP位點類型,轉換平均數目均高于顛換。C4脂肪體轉換、顛換平均數目分別為45 302、24 454個;中腸轉換、顛換平均數目分別為64 003、35 486個。DF脂肪體轉換、顛換平均數目分別為41 494、23 182個;中腸轉換、顛換平均數目分別為62 920、36 990個。A/G、C/T 2種轉換類型在所有SNP類型中所占比例最高,顛換類型中則是A/T占比最高(圖1-B)。
在2個品種家蠶中,脂肪體組織的Indel位點數目都小于中腸。C4脂肪體、中腸每個unigene上的平均Indel數量分別為0.34、0.50個;DF脂肪體、中腸每個unigene上的平均Indel數量分別為0.33、0.56個(圖2)。在C4脂肪體平均檢測到4 081個Indel位點,包括2 373個插入突變和1 708個缺失突變。堿基插入和缺失突變的范圍分別為1~24、1~67 bp,其中單核苷酸插入、缺失分別占所有Indel位點數目的35.78%、21.95%。C4中腸平均檢測到6 452個Indel位點,包括3 797個插入突變和2 655個缺失突變。堿基插入和缺失突變的范圍分別為 1~60、1~179 bp,其中單核苷酸插入、缺失分別占所有Indel位點數目的36.66%、22.41%。在DF脂肪體平均檢測到 4 082個Indel位點,包括2 427個插入突變和1 655個缺失突變。堿基插入和缺失突變的范圍分別為1~21、1~108 bp,其中單核苷酸插入、缺失分別占所有Indel位點數目的38.99%、21.64%。DF中腸平均檢測到7 601個Indel位點,包括4 566個插入突變和3 035個缺失突變。堿基插入和缺失突變的范圍分別為1~33、1~129 bp,其中單核苷酸插入、缺失分別占所有Indel位點數目的39.71%、21.43%(圖3-A、圖3-B)。


SNP/Indel位點在家蠶基因組上分布于8個區域,在下游區分布的位點數最多,占比為28.15%~30.11%;其次是外顯子、基因間隔區、上游區,占比依次分別為25.80%~31.62%、23.18%~27.29%、12.11%~13.60%;占比最少的是供體剪接位點、受體剪接位點,幾乎可忽略不計(圖4)。

通過對含有SNP/Indel位點的基因進行GO功能注釋,可分為三大類,即生物學過程、分子功能、細胞組分。富集在生物學過程的通路主要有代謝過程、細胞過程、有機物代謝過程、主要代謝過程等(圖5-A)。富集在分子功能的通路主要有膜、細胞、細胞組分、細胞內等(圖5-B)。富集在細胞組分的通路主要有腺嘌呤核苷酸結合、活躍的跨膜轉運蛋白活性、肌動蛋白結合等(圖5-C)。


含有SNP/Indel位點的基因進行KEGG功能注釋后,發現大多數基因主要富集在核糖體、RNA轉運、氧化磷酸化、剪接體、內吞作用、內質網蛋白質加工等與物質代謝、能量代謝緊密相關的代謝通路(圖6),這也與上述GO注釋的結果相一致。

本研究通過2個品種家蠶的中腸和脂肪體的轉錄組測序發現,2個家蠶品種的脂肪體均檢索到6萬多個SNP位點,4 000多個Indel位點;中腸則存在9萬多個SNP位點,6 000多個Indel位點。余東亮等比較家蠶品種P50與C108后部絲腺的SNP/Indel位點,共發現1 584個SNP位點,2 776個Indel位點,結合本研究結果,推測SNP/Indel位點的多少主要與組織類型、品種有關。C4中腸SNP、Indel的出現頻率分別為1/207、1/3 184 bp,脂肪體SNP、Indel出現頻率分別為1/295、1/5 034 bp;DF中腸SNP、Indel的出現頻率分別為1/206、1/2 703 bp,脂肪體SNP、Indel出現頻率分別為1/318、1/5 033 bp。東海帶魚肝臟轉錄組序列平均每76.8 bp出現1個SNP;人參果則是約103 bp出現1個SNP位點。波紋唇魚肝胰臟、食道、前腸、后腸和直腸轉錄組unigene中SNP的發生頻率為1/490 bp;椰心葉甲嚙小峰轉錄組數據中平均每1 000 bp出現1個SNP位點;可見SNP位點的出現頻率在不同物種之間差異較大。家蠶中腸和脂肪體SNP位點則以C/T、A/G等2種類型為主,其余4種類型數量相近,這與其他物種的研究報道一致。SNP的轉換與顛換類型之比為1.69~1.89之間,遠大于理論值0.5,這種現象被稱為轉換偏差,其在許多物種中廣泛存在,這可能與物種適應進化有關。
從家蠶中腸、脂肪體轉錄組數據中篩選到了SNP/Indel位點信息,通過對包含有SNP/Indel位點的uningene進行GO、KEGG功能注釋,可以初步分析家蠶品種、個體、組織之間的差異代謝途徑和通路,從而可能將SNP/Indel位點與表型進行關聯,開發出特定的分子標記,將來進一步為開展分子標記輔助家蠶育種研究、品種鑒定、親緣關系分析等奠定基礎。