王傳聰, 唐修陽, 項 杰, 歐江濤
(鹽城工學院海洋與生物工程學院,江蘇鹽城 224051)
羅氏沼蝦別稱馬來西亞大蝦,隸屬節肢動物門、甲殼綱、十足目、長臂蝦科、沼蝦屬。原產于南亞、東南亞以及大洋洲北部等地區,生活在淡水或咸淡水水域,自然棲息于受潮汐影響的河口區,是一種較大型的熱帶經濟蝦類[1],具有生長快、肉質營養成分好以及養殖周期短等優點,素有“淡水蝦王”之稱[2]。然而,隨著集約化養殖的快速發展,一些嚴重的疾病已在羅氏沼蝦中流行,包括由新型病原——螺原體引起的2010年羅氏沼蝦螺原體病,引發大規模的死亡,給水產養殖業造成重大經濟損失。這些水產動物病害在帶來巨大經濟效益損失的同時,也嚴重制約了羅氏沼蝦產業的可持續發展[3]。因此,及時開展羅氏沼蝦的抗病研究是極為重要的。
微衛星標記是目前最常用的分子標記之一。由于與其他分子標記相比,它具有保守性高、多態性豐富、在基因組中分布廣泛等特點[3],近年來,在動物遺傳連鎖圖譜的構建、種質鑒定、遺傳多樣性分析以及分子標記輔助育種等領域被廣泛應用。目前在水生動物的相關研究中,研究者已經對牙鲆、二長棘鯛、興國紅鯉、中國明對蝦等品種進行了轉錄組測序,并基于測序結果對所得數據進行了深入分析[4-7]。因此,開展羅氏沼蝦轉錄組簡單重復序列(simple sequence repeat,簡稱SSR)的研究具有重要的理論和現實意義。本研究通過對羅氏沼蝦轉錄組測序,篩選出SSR位點,對其進行數量分析和多態性評價等,從而為羅氏沼蝦基因克隆、遺傳圖譜構建、遺傳多樣性分析以及為羅氏沼蝦病害防治和選育種工作等提供基礎數據。
羅氏沼蝦:購于江蘇省南京市仙林農貿市場,個體質量在20~25 g,共計100尾,用PCR方法檢測螺原體,結果均呈陰性,在26~28 ℃水溫條件下養殖備用。螺原體MR-1008:分離于江蘇省高郵市自然發病的羅氏沼蝦,在R2液體培養基中于30 ℃孵育48 h,待其生長到最具有侵染能力的對數期備用。
采用TRIzol提取法提取羅氏沼蝦肝胰腺組織總RNA,提取產物用15 g/L瓊脂糖凝膠電泳進行質檢。質檢合格的樣品保存在干冰中送往聯川生物公司進行測序。
經Illumina HiSeq2000/2500進行測序,在健康羅氏沼蝦和螺原體感染羅氏沼蝦的肝胰腺組織中得到總mRNA原始數據(raw reads)分別為 53 070 612、61 244 504條,對raw reads進行過濾得到有效數據(clean reads)分別為 52 757 004、60 719 728條(表1)。將得到的有效數據使用Trinity軟件進行拼接,最終得到33 450條Unigenes(總長度 29 327.225 kb)對應43 405個轉錄本,長度在200~2 000 bp之間的超過85%,符合基因轉錄本的長度規律(表2)。

表1 測序數據預處理結果
注:Q20和Q30分別代表堿基被測錯的概率P為1%和1‰,其計算公式為Q= -10lgP。GC為G和C的數量總和占總堿基數量的百分比,用于檢測有無AT、GC分離現象。
SSR檢測是以組裝出來的Unigene作為參考序列,使用MISA軟件批量識別和定位所有SSR,然后對羅氏沼蝦轉錄組SSR數據進行分類統計分析。

表2 拼接結果統計
注:N50表示將Unigenes從長到短排序,依次累加Unigenes堿基數后,Unigenes總堿基數50%的Unigenes的長度,轉錄本同。
對組裝所得的33 450條unigenes序列進行比對篩選,結果發現15 356個SSR位點,分布在12 930條Unigenes上,發生頻率(含有SSR的Unigenes條數占總Unigenes條數的比例)為38.65%,其中10 504條Unigenes序列只含有單個SSR位點,2 426條Unigenes序列含有2個或2個以上的SSR位點。由表3可知,羅氏沼蝦的SSR序列平均距離為1.91 kb,總長度為230 820 bp,平均長度為15 bp。
羅氏沼蝦轉錄組中各種SSR出現頻率差異較大,各類型出現的頻率不同,主要為單核苷酸、二核苷酸、三核苷酸重復(圖1)。單核苷酸重復的SSR數量最多,其分布頻率為17.70%,占羅氏沼蝦總SSR的38.56%,其次為二核苷酸重復,其分布頻率為16.53%,占羅氏沼蝦總SSR的36.00%,三核苷酸重復的SSR分布頻率為10.71%,占羅氏沼蝦總SSR的23.32%。四核苷酸、五核苷酸、六核苷酸重復類型的SSR類型較少,分布頻率分別為0.53%、0.24%、0.21%,分別占羅氏沼蝦總SSR的1.15%、0.52%、0.45%。

表3 SSR在羅氏沼蝦轉錄組中出現的頻率

由表4可知,羅氏沼蝦SSR重復次數為5、6、7、12次的SSR位點較多,分別為2 245、4 540、1 647、1 796個,分別占羅氏沼蝦總SSR的14.62%、29.56%、10.73%、11.70%,其次為重復8、13、14次的SSR位點,分別為938、1 216、925個,分別占總SSR的6.11%、7.92%、6.02%,重復次數≥16次的SSR位點相對較少,總共為1 277個,占總SSR的8.32%。
羅氏沼蝦轉錄組中共搜索到512種不同序列類型的SSR,其中單核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸重復序列類型分別有40、66、201、89、60、56種。單核苷酸中出現的重復類型多為A/T,分別占羅氏沼蝦總SSR的39.33%,C/G類型單核苷酸序列的SSR非常少。在二核苷酸重復中主要以GA/TC、AG/CT和AT/TA為主,分別為1 184、1 501、1 300個,分別占二核苷酸重復SSR的21.42%、27.15%、23.52%,分別占羅氏沼蝦總SSR的7.71%、9.77%、8.47%。三核苷酸重復在羅氏沼蝦總SSR中的占比較大,其重復類型見表5。各種三核苷酸重復類型出現的數量差別較大,其中AAT/TTA出現的數量最多,為216個,出現頻率為0.65%,占羅氏沼蝦總SSR的1.41%;其次為AAG/TTC、ATT/TAA、CCT/GGA、CTC/GAG、CTT/GAA,分別為204、187、197、191、215個,分別占羅氏沼蝦總SSR的1.33%、1.22%、1.28%、1.24%、1.40%;其中CGG/GCC出現的數量最少,僅為8個,占羅氏沼蝦總SSR的0.05%。
由圖2可知,羅氏沼蝦SSR重復長度分布中重復長度最小為12 bp,最大為25 bp,平均長度為15 bp。其中重復長度主要為12~16 bp及18 bp,占羅氏沼蝦總SSR的86.33%,其次是重復長度為17 bp及20~22 bp,占羅氏沼蝦總SSR的11.91%,重復長度在19 bp和≥23 bp的SSR位點數相對較少,分別僅占羅氏沼蝦總SSR的0.79%、0.96%。根據該結果,可推測該研究中Ⅱ型SSR(長度為12~<20 bp)的比例為89.07%,具有中等多態性,有較高的潛在可用性。而具有高度多態性的Ⅰ型SSR(長度≥20 bp)則較少。
利用軟件對成功篩查到的SSR位點所在的12 930條Unigene序列進行功能注釋。通過Blast比對,有410個Unigene被注釋到NCBI Nr數據庫的已知序列,并呈現較高的相似性和同源性,但有96.83%的Unigene未得到任何注釋。

表4 羅氏沼蝦SSR重復次數分布

將15 356條SSR位點所在的12 930條Unigene序列注釋到KOG數據庫中進行相關基因功能的預測和分類。結果顯示其中的275條Unigene(2.13%)能夠在KOG找到相應的注釋信息,根據其功能可以被分為22類(圖3),并對其進行數量統計。從分析結果可以看出,這275條被注釋的Unigene功能種類較為全面,涉及大多數的生命活動過程或功能。“一般功能預測”是最大的一個分類,包含57條Unigene。其次是“信號轉導機制”“翻譯后修飾,蛋白質周轉,分子伴侶”和“RNA加工和修飾”,分別包含34、26和19條Unigene。“核結構”這個分類中包含的Unigene數最少,僅有1條。
本研究通過IlluminaHiSeq2000/2500高通量測序平臺對羅氏沼蝦肝胰腺組織轉錄組測序,從大量組裝所得轉錄組Unigene序列中篩選獲得15 356個SSR位點。相對于傳統微衛星標記的篩選方式,此方法篩選效率較高,工作量相對較小,適合大范圍開拓SSR標記位點[7]。
SSR在整個基因組的不同位點都有分布,多態信息含量(polymorphism information content,簡稱PIC)起衡量基因位點多態性的作用,通常PIC能反映某個群體的遺傳變異程度、位點多樣性等[8]。另外SSR片段長度也是判斷其多態性的重要依據[9]。從轉錄組數據篩選得到的SSR中,重復序列長度在12 bp以上的SSR標記位點數占總SSR數的76.95%,多態性較豐富,基于該研究結果能夠進行有針對性的引物設計。在數量性狀位點(QTL)定位研究及遺傳連鎖圖譜的構建中,SSR多態性越高,所建立的圖譜越精密和精確,基因的定位越精準[10-11]。
隨著微衛星輔助育種技術的廣泛應用,通過遺傳操作培養出羅氏沼蝦抗病品種,是蝦病控制中一個值得選擇的方法。已有的研究表明,疾病發生時群體內會有顯著的變異,通過微衛星等標記對發病動物中死亡群體和存活群體的遺傳變異進行研究,有望獲得與抗病性狀相連鎖的標記,進而對抗病基因進行標記和定位以培育出具有持久抗病能力的優良品種[12]。
本研究對羅氏沼蝦SSR的分布特征進行分析,不僅在RNA水平上體現了羅氏沼蝦SSR的分布特點和規律,而且也為開發羅氏沼蝦功能基因奠定了SSR分子標記基礎,同時也為羅氏沼蝦QTL定位、基因克隆、遺傳結構分析及其他遺傳學研究提供了有效的分子標記。


表5 三核苷酸SSR不同重復單元的比例
注:頻率為含有SSR的Unigenes數與總Unigenes數之比;占比為該重復基元SSR占總SSR的比例。