張帥團,邵俊紅,白俊艷,樊紅燈,陳夢柯,牛程煒,王龍威,李靜云,王新樂,王 亮
(1.汝州市動物衛生監督所,河南 汝州 467500;2.河南科技大學動物科技學院,河南 洛陽 4710233;3.洛陽市瀍河回族區動物衛生監督所,河南 洛陽 471023)
熊貓是我國的國寶,是生物界的“活化石”,但是由于種種原因,熊貓的數量逐漸減少,其中繁殖率低是一個很重要的因素。所以,通過各種方法提高熊貓的繁殖率就顯得尤為重要,而熊貓基因組序列圖譜的繪制不失為解決這一問題的好辦法之一。本研究運用生物信息學方法分析了公共數據庫中熊貓EST序列,以期為熊貓基因組學研究提供科學依據。雖然微衛星具有多態性豐富、容易操作和自動化測序程度高等優點,但是微衛星的開發仍然是很難和很昂貴的,所以克服SSR開發費用問題的方法之一是挖掘公共數據庫中大量有用序列。近年來隨著EST計劃在不同物種間的擴展和研究內容的深入,在很多生物中都積累了大量的EST,快速增長的EST數據為SSR標記的開發提供了豐富的來源。從ESTs開發SSR已經有一些報道,如斑馬魚[1]、中國對蝦[2]、鯰魚[3]、火雞[4]和人[5]等。 本研究是從現有熊貓的EST數據庫中篩選包含SSR的序列,分析EST-SSR的分布情況,從而為熊貓的基因組研究奠定基礎。
登陸美國國立生物信息中心 (NCBI)網站,從dbEST數據庫下載熊貓的EST(http//www.ncbi.nlm.nih.gov/dbEST),共 709 條。
利用EST—trimmer可去除“尾巴”和屏蔽載體序列。所以用在線軟件Cap3對EST進行拼接和聚類。
用SSRIT在線軟件進行SSR預測,預測標準為二至六核苷酸重復次數在4次或4次以上。
在包含SSR的EST序列中,選取SSR重復次數大于等于5和部分重復次數為4的EST序列,利用DNASTAR軟件找到開放閱讀框,然后把開放閱讀框轉化為蛋白,針對轉化后的蛋白進行氨基酸種類及分子量等分。
對來自dbEST數據庫中共709條熊貓的EST經過預處理后,獲得636條理想的EST序列和73條空序列。把636條理想的EST序列經拼接后共得到573條uni—EST,平均長度為480 bp。其中contigs 46條,singlets 527條。
用SSRIT在線軟件對573條uni—EST序列進行SSR篩選分析,共檢測到150個SSR,出現頻率(SSR數目與uni—EST數目的比值)為26.17%,平均每1.79 kb就出現一個SSR。SSR的長度介于8~20 bp之間,平均長度為19.22 bp。不同重復基元SSR的分布見表1。可見,熊貓的EST—SSR以二核苷酸SSR為主,共有124條,占總數的82.67%。其余為三、四核苷酸SSR,分別為21條和5條,分別占總數的14.00%和3.33%。

表1 不同重復基元SSR的分布
150條SSR的重復次數分布情況見圖1。這些SSR中,核苷酸序列重復基元的重復次數為4次的有117條,重復5次的有19條,重復6次的有8條,重復7次的有1條,重復8次的有3條,重復9次的有2條。總體來看,熊貓SET-SSR的核苷酸序列重復基元的重復次數多為4次。

圖1 SSR的重復次數分布
熊貓二核苷酸SSR和四核苷酸SSR的分布見圖2。在二核苷酸SSR的重復基元中出現最多的是AG/CT和AT/AT,均占二核苷酸SSR的12.90%。其次是CA/TG(12.10%)、TA/TA(10.48%)、TC/GA(10.48%)、TG/CA(9.677%)、GA/TC(8.871%)、AC/GT(8.065%)、CT/AG(5.645%)和 GT/AC(5.645%),最少的是 CG/CG 和 GC/GC,各比例不足二核苷酸SSR的2%。熊貓四核苷酸SSR 中 ,TTTC/GAA 出 現 2 次 ,ATAA/TTAT、TTCA/TGAA和TTTA/TAAA各出現了1次。

圖2 二核苷酸和四核苷酸重復中不同重復基元SSR的分布
熊貓三核苷酸SSR的分布見圖3。在熊貓三核苷酸SSR中,AAC/GTT占14.29%,其次 CTC/GAG、CTG/CAG、GAT/ATC和 TTA/TAA均占三核苷酸 SSR的9.524%,最少的為AGA/TCT、ATA/TAT、ATT/AAT、CAA/TTG、CAG/CTG、CAT/ATG、GAG/CTC、GCA/TGC、TCA/TGA和TCT/ACA,均占4.7614%。

圖3 三核苷酸重復中不同重復基元SSR的分布
在包含SSR的150個EST序列中,選取SSR的重復次數大于等于5和部分等于4的共58條EST先進行開放閱讀框查找,發現在這些EST中除6條外,其余52條均能查找到其各自的開放閱讀框。然后將這52條EST的開放閱讀框翻譯成蛋白,針對其蛋白的二級結構進行預測,發現有4條蛋白沒有螺旋結構,4條蛋白沒有折疊結構,7條蛋白沒有無規則卷曲,17條沒有環區結構,其余未列出的均有螺旋、折疊、無規則卷曲和環區。
gi|242267036|翻譯蛋白的二級結構,其中第1~12個氨基酸為螺旋(A),第13~22個氨基酸為環區(T),第23~52個氨基酸為折疊(B),第53個氨基酸為環區(T),第 54~55個氨基酸為無規則卷曲(C),第 56~67為折疊(B),第 68個氨基酸為環區(T),第69個氨基酸為螺旋(A),第 70個氨基酸為環區(T),第 71~73為折疊(B)。總計是73個氨基酸,其中包括終止密碼子的氨基酸。其中螺旋(A)總計13個氨基酸,折疊(B)總計45個氨基酸,環區(T)總計13個氨基酸,無規則卷曲(C)總計2個氨基酸。其他蛋白也都有相似的二級結構,只是其氨基酸分布不同而已。采用Alpha Regions預測了gi|242267036|的 螺旋區域并給出了各種氨基酸的排列順序,如下:

本研究從NCBIdbEST數據庫下載熊貓的EST,并對其進行處理和SSR篩選,共發現150個SSR,出現頻率為26.17%。這與許多其他物種ESTs數據庫中篩選的微衛星序列比例相比較高,如梅花鹿SSR的出現頻率為15.54%[6],山羊SSR出現的頻率為6.73%[7],綿羊皮膚中SSR的出現頻率為6.3%[8],這可能是由于物種不同的原因所致,也可能是SSR篩選時重復次數設置不同所致。此外,在對熊貓的EST序列進行分析時,發現SSR的重復基元以二核苷酸最多,共有124個,占總SSR的82.67%,這與大多數動物的EST-SSR以二核苷酸為主的規律一致。在這些二核苷酸重復基元中出現最多的是AG/CT和AT/AT,均占二核苷酸SSR的12.90%,平均每15kb就出現一次。而在人和綿羊的基因組中AC/GT是分布頻率最高的SSR,在人的基因組中平均每30 kb就可能出現AC/GT的SSR標記,綿羊平均為65kb出現一次,豬每隔30~50 kb出現一次[9,10]。除二核苷酸以外,熊貓的EST序列中還包含三、四核苷酸重復基元,其中在三核苷酸中AAC/GTT出現的最多,占三核苷酸SSR的14.29%,這與許多植物的情況有所不同。例如,在柑橘中AAG/CTT是最豐富的三核苷酸SSR的重復基元[11],在狗尾草中最豐富的三核苷酸SSR的重復基元是CAG/TCT[12]。在四核苷酸中TTTC/GAAA出現相對較多,富含A/T,這與其他動物如鯰魚、斑馬魚和牛的結果相似[13],即四、五、六核苷酸SSR都以富含A/T的重復基元為主要基序。本研究明確了熊貓基因組中EST-SSR的分布特征,熊貓EST-SSR不但基元類型豐富、密度大,而且多態性潛能較高,說明大規模開發EST-SSR的可能性較大。利用熊貓表達序列標簽建立微衛星標記,將對進一步開發熊貓衛星標記數量、標記輔助選擇、遺傳多樣性評價、構建遺傳圖譜以及與其他物種基因組的比較研究都有重要意義。