郭鵬磊,吳燕卓,王艷會,吳昊陽,李 騰,李俊蘭,
卜文俊1,謝 強4*
大黑毛肩長蝽(半翅目:異翅亞目:地長蝽科)線粒體基因組及地長蝽科系統發育地位探討
郭鵬磊1,吳燕卓1,王艷會1,吳昊陽1,李 騰2,李俊蘭3,
卜文俊1,謝 強4*
(1. 南開大學生命科學學院,天津 300071;2. 蘭州大學生命科學學院,蘭州 730000;3. 內蒙古大學生命科學學院,呼和浩特 010021;4. 生物多樣性演化與保護廣東普通高校重點實驗室,中山大學生物博物館,中山大學生命科學學院,廣州 510275)
為了更加深入地了解地長蝽科的基因組水平特征,測序并分析了大黑毛肩長蝽Neolethaeusassamensis(半翅目:異翅亞目:地長蝽科:毛肩族)的線粒體基因組序列。大黑毛肩長蝽線粒體基因組是雙鏈共價環狀DNA分子,長度為17097 bp,編碼13個蛋白質編碼基因,22個tRNA基因和2個rRNA基因,基因排列方式同果蠅Drosophilayakuba一致。大黑毛肩長蝽線粒體基因組內存在2個大的非編碼區。一個是控制區,另一個是位于ND6和CytB之間的串聯重復區域,TRR4.4??刂茀^內包含7類共9個結構顯著的區域,如一個莖環結構,3個非串聯的重復序列以及其他5個結構區域。TRR4.4長802 bp,包括4個184 bp的重復單元和1個66 bp的部分重復單元。TRR4.4的重復單元與控制區中TRR2.7的重復單元在長度、方向以及核苷酸組成等方面幾乎完全一致。22個tRNA全部能夠折疊為典型的三葉草二級結構。16S rRNA二級結構包含6個結構域(結構域III在節肢動物中缺失)和44個莖環結構,12S rRNA二級結構包含3個結構域和28個莖環結構?;隍泶文?5個線粒體基因組數據分析得到的系統發育結果,支持地長蝽科位于長蝽總科基部分支的觀點。
線粒體基因組;大黑毛肩長蝽;串聯重復序列;重組;系統發育
The complete mitochondrial genome ofNeolethaeusassamensis
線粒體是真核細胞中重要的細胞器,擁有獨立的遺傳物質。在六足類動物中,線粒體基因組(mitochondrial genome)是雙鏈環狀DNA分子,大小約14-20 kb。整個線粒體基因組一般由一個控制區(control region,CR)和37個基因組成,其中包括13個蛋白質編碼基因(PCGs),22個tRNA基因和2個rRNA基因(Wolstenholme, 1992;Boore, 1999)。控制區由于富含堿基AT,又被稱為A+T豐富區(Stormo, 1982)??刂茀^在線粒體基因組中具有重要的作用:一方面,控制區內含有調控轉錄和復制起始的信息位點(Wolstenholme, 1992;Zhang and Hewitt, 1997);另一方面,線粒體基因組的大小主要受到控制區內串聯重復序列的影響(Zhang and Hewitt, 1997)。線粒體基因組具有重組率低、進化速率快和結構保守等特點,被廣泛應用于系統發育學、種群遺傳學和生物地理學等研究領域(Sacconeetal., 1999;Cameron, 2014a)。
地長蝽科Rhyparochromidae是半翅目Hemiptera長蝽總科Lygaeoidea中最大的科,目前世界已知約372屬1850種(Henry, 2009)。地長蝽科最為顯著的特征是腹面第四、五腹節的節間縫通常向前斜伸,但很少到達腹部側緣。地長蝽科昆蟲一般為中小體型,身體呈黑褐色、黃褐色或黑白相間。大部分種類在地表生活,以成熟脫落于地面的種子為食;少數種類藏于果穗中,吸食種子(鄭樂怡和鄒環光,1981;Schuh and Slater, 1995)。
目前為止,GenBank中共收錄了長蝽總科7個線粒體基因組(包括全序列和部分序列)(表1),但是地長蝽科僅報道了地棲族Rhyparochromini中白斑地長蝽Panaorusalbomaculatus的線粒體基因組,與地長蝽科龐大的物種數量嚴重不符。為了更全面的了解長蝽總科的系統發育關系,需要獲取地長蝽科內更多物種的線粒體基因組數據。本研究測序了地長蝽科毛肩族Lethaeini中大黑毛肩長蝽NeolethaeusassamensisDistant, 1901的線粒體基因組,并且分析和描述了大黑毛肩長蝽線粒體基因組相關結構特征,例如堿基組成、密碼子使用、tRNA和rRNA的二級結構以及非編碼區域等。
1.1 標本采集
大黑毛肩長蝽的成蟲個體,在2015年8月份采自于云南省瑞麗市珍稀植物園,在野外所有標本存放在無水乙醇中,回到實驗室后置于-20℃環境保存。
1.2 DNA提取
取大黑毛肩長蝽的胸部肌肉組織,采用CTAB法(Reinekeetal., 1998)提取全DNA,-20℃環境存放。

表1 本研究中所使用的類群信息
1.3 引物設計、PCR擴增和測序
大黑毛肩長蝽線粒體基因組序列是通過擴增14個具有部分重疊序列的DNA片段得到的。DNA片段:ND2,COI,COIII,ND5,ND4以及16S rDNA-12S rDNA使用的PCR引物參照長蝽總科線粒體基因組的通用引物(Lietal., 2013);DNA片段:ND2-COI,COI-COIII,COIII-ND5,ND5-ND4,ND4-ND6,ND6-CytB,CytB-16S rDNA和12S rDNA-ND2使用的PCR引物是利用相關引物設計軟件設計的物種特異性引物(表2)。使用TaKaRa LA DNA聚合酶進行PCR擴增,PCR反應過程:94℃預變性2 min;94℃變性30 s,45℃-55℃退火30 s,72℃延伸1-4 min,共進行34個循環;72℃終延伸10 min。使用1%瓊脂糖凝膠電泳檢測PCR產物,之后送交生物服務公司(BGI,深圳)進行雙向測序。

表2 本研究中使用的PCR引物
1.4 DNA序列拼接、注釋及分析
在NCBI中利用Blast功能比對DNA序列,確定是目的基因后,使用BioEdit v.7.0.9.0(Hall, 1999)依據相鄰片段間的重疊區域進行DNA序列拼接。
線粒體基因組的注釋參考Cameron(2014b)中報道的方法,首先分析注釋tRNA基因 和rRNA基因,其次分析蛋白質編碼基因的范圍,最后探討控制區的相關結構。
tRNA基因的注釋通過2種在線軟件,tRNAscan-SE v1.21(http://lowelab.ucsc.edu/tRNAscan-SE/)(Lowe and Eddy, 1997)和MITOS WebServer(http://mitos.bioinf.uni-leipzig.de/index. py/)(Berntetal., 2013)。不能直接查找到的tRNA基因,根據已知半翅目線粒體基因組中相對應的tRNA確定其位置,并通過RNAstructure 5.8(Reuter and Mathews, 2010)推測其二級結構。
rRNA基因通常被注釋為相鄰兩個基因間的區域(Boore, 2001;Cameron, 2014b)。rRNA二級結構的構建主要依據已發表的昆蟲線粒體基因組rRNA的二級結構模型,例如黑腹果蠅Drosophilamelanogaster(雙翅目:果蠅科)(Cannoneetal., 2002),Aradacanthiaheissi(半翅目:異翅亞目:扁蝽科)(Shietal., 2012),豆突眼長蝽Chauliopsfallax(半翅目:異翅亞目:束長蝽科)(Lietal., 2013),異色巨蝽Eusthenescupreus(半翅目:異翅亞目:荔蝽科)(Songetal., 2013)和亞姬緣蝽Corizustetraspilus(半翅目:異翅亞目:姬緣蝽科)(Yuanetal., 2015)。其中莖環結構的命名采用Cameron and Whiting(2008)和Gillespie等(2006)的命名規則。使用RNAstructure 5.8(Reuter and Mathews, 2010)預測缺乏同源結構的片段。
利用NCBI中的ORF Finder(https://www.ncbi.nlm.nih.gov/orffinder/)查找蛋白質編碼基因,并與長蝽總科中已知的7種線粒體基因組數據進行比對,確定蛋白質編碼基因邊界位置。
控制區中的串聯重復序列通過在線工具Tandem Repeats Finder(http://tandem.bu.edu/trf/trf.html)進行查找,莖環結構使用The mfold Web Server(http://unafold.rna.albany.edu/?q=mfold)(Zuker, 2003)進行預測。
MEGA 6.0(Tamuraetal., 2013)進行統計分析線粒體基因組的核苷酸組成和蛋白質編碼基因的密碼子使用情況。公式AT skew=(A-T)/(A+T)和GC skew=(G-C)/(G+C)(Perna and Kocher, 1995)計算得到核苷酸組成的偏向性。
1.5 系統發育分析
選取蝽次目內15種線粒體基因組數據重建長蝽總科系統發育關系,其中長蝽總科的7個物種作為內群 (Huaetal., 2008;Lietal., 2013;Lietal., 2016a),蝽總科、紅蝽總科和緣蝽總科的8個物種作為外群。地長蝽內的白斑地長蝽Panaorusalbomaculatus導致地長蝽在系統發育樹中處于一個奇怪的位置 (Lietal., 2016b),本次研究中并未使用白斑地長蝽線粒體基因組數據(表1)。
依據13個蛋白質編碼基因DNA序列,使用貝葉斯分析(Bayesian inference)和最大似然法(Maximum likelihood)重建系統發育樹,核苷酸矩陣的替換模型通過jModelTest 2.1.4(Posada, 2008)計算得到。貝葉斯法使用MrBayes 3.12(Huelsenbeck and Ronquist, 2001)運算,共運行1千萬代,每隔1000代取一次樣,然后舍去前25%。最大似然法使用RAxML 8.2.9(Stamatakis, 2006)運算,Bootstrap replicates值為1000。
2.1 大黑毛肩長蝽線粒體基因組結構
大黑毛肩長蝽線粒體基因組是雙鏈閉合環狀DNA分子,長17097 bp,GenBank序列號為KY039274,含有13個蛋白質編碼基因,22個tRNA基因和2個rRNA基因(圖1,表3)。基因排列方式同果蠅一致(Clary and Wolstenholme, 1985)。13個蛋白質編碼基因中,4個基因(ND4,ND4L,ND5,ND1)位于N鏈,其余9個位于J鏈;22個tRNA基因中,8個基因(tRNA-Gln,tRNA-Cys,tRNA-Tyr,tRNA-Phe,tRNA-His,tRNA-Pro,tRNA-Leu(UAG),tRNA-Val)位于N鏈,其余14個位于J鏈;2個rRNA基因全部位于N鏈。
大黑毛肩長蝽線粒體基因組結構緊湊,共觀察到10處基因重疊,重疊總長度是37 bp,其中tRNA-Trp和tRNA-Cys的重疊序列最長,為8 bp。ND4與ND4L間的重疊序列是ATGATAG與Cameron(2014b)報道的重疊序列(ATGATAA)略有不同。同時在該基因組內存在13處基因間隔區,長度范圍為1-18 bp,位于ND1和tRNA-Ser(UGA)的間隔區最長,為18 bp。此外,大黑毛肩長蝽線粒體基因組內還存在2個大的非編碼區。一個是控制區(圖2A),另一個是位于ND6和CytB之間的串聯重復區域,TRR4.4(圖2B)。

圖1 大黑毛肩長蝽線粒體基因組結構Fig.1 Mitochondrial genome map of Neolethaeus assamensis注:箭頭表示基因轉錄的方向。藍色代表蛋白質編碼基因,紫色代表rRNA基因,紅色代表tRNA基因,灰色代表大的非編碼區。tRNA使用氨基酸縮寫命名。黑色代表GC含量。GC斜率繪制為與整個序列的平均GC斜率的偏差。Note: Arrows indicate the orientation of gene transcription. PCGs are shown as blue arrows, rRNA genes as purple arrows, tRNA genes as red arrows and large non-coding regions as gray arrows. tRNAs are named using single-letter amino acid abbreviations. The GC content is plotted using a black sliding window. GC Skew is plotted as the deviation from the average GC skew of the entire sequence.

基因Gene鏈Strand位置Position反密碼子Anticodon大小(bp)Size起始密碼子Startcodon終止密碼子Stopcodon間隔IntergenicnucleotidestRNA?IleJ1-67GAT67tRNA?GlnN65-133TTG69-3tRNA?MetJ134-202CAT690ND2J203-12041002ATTTAA0tRNA?TrpJ1203-1265TCA63-2tRNA?CysN1258-1324GCA67-8tRNA?TyrN1329-1394GTA664COIJ1397-29351539TTGTAA2tRNA?Leu(UAA)J2931-2995TAA65-5COIIJ2997-3678682ATAT-1tRNA?LysJ3679-3752CTT740tRNA?AspJ3753-3815GTC630
續上表

基因Gene鏈Strand位置Position反密碼子Anticodon大小(bp)Size起始密碼子Startcodon終止密碼子Stopcodon間隔IntergenicnucleotidesATPase8J3816-3980165ATCTAA0ATPase6J3974-4639666ATGTAA-7COIIIJ4639-5425787ATGT--1tRNA?GlyJ5426-5490TCC650ND3J5491-5844354ATTTAA0tRNA?AlaJ5847-5913TGC672tRNA?ArgJ5914-5978TCG650tRNA?AsnJ5981-6053GTT732tRNA?Ser(GCU)J6053-6121GCT69-1tRNA?GluJ6124-6192TTC692tRNA?PheN6198-6266GAA695ND5N6266-79841719ATTTAA-1tRNA?HisN7985-8049GTG650ND4N8055-93801326ATGTAA5ND4LN9374-9655282ATTTAG-7tRNA?ThrJ9658-9728TGT712tRNA?ProN9729-9794TGG660ND6J9797-10285489ATATAA2TRR4410296-1109780210CytBJ11105-122381134ATGTAG7tRNA?Ser(UGA)J12237-12306TGA70-2ND1N12325-13251927ATTTAA18tRNA?Leu(UAG)N13252-13318TAG67016SrRNAN13319-1459312750tRNA?ValN14594-14664TAC71012SrRNAN14665-154397750Controlregion15440-1709716580

圖2 大黑毛肩長蝽線粒體基因組大的非編碼區Fig.2 Large non-coding regions in Neolethaeus assamensis mitochondrial genome注:A,控制區;A1,大黑毛肩長蝽線粒體控制區的結構;黃色、綠色和藍色代表3個不同的重復序列。A2,控制區內預測的莖環結構;紅色框代表保守的元件,“G(A)nT”。B,TRR4.4的位置和結構。Note: A, Control region: A1, Structure elements found in the control region of N. assamensis; The yellow, green and blue boxes represent three different repetitive sequences found in the control region. A2, The putative stem-loop structure was found in the control region; The red box regions indicate conserved “G(A)nT” motif. B, Location and structure of TRR4.4.
2.2 控制區結構
控制區是大黑毛肩長蝽線粒體基因組中最大的非編碼區,5′端毗鄰12S rRNA,3′端鄰近tRNA-Ile,長度為1658 bp,AT含量是71.3%。控制區中有如下7類共9個結構顯著的區域:(1)長度 429 bp的高GC富含區,GC含量是35.4%;(2)24 bp的(TAn)5結構(TAAAAATAAATAAATAAA AATAAA);(3)10 bp的Poly-A結構(AAAAAAC AAAA);(4)高AT富含區,長56 bp,AT含量為92.9%;(5)長479 bp的串聯重復區域(TRR2.7)(Tandem repeat region),包含2個184 bp 的完整重復單元(Ⅰ和Ⅱ)和1個該單元的部分序列(Ⅲ);(6)位于3’端的莖環結構;(7)散布在整個控制區內的3對不同的非串聯重復序列(圖 3A)。
在3對非串聯重復序列中,第一對重復序列(R1)的長度是86 bp,兩條序列分別位于高GC富含區的兩側。第二對重復序列(R2)的長度是22 bp,第三對重復序列(R3)的長度是34 bp,R2和R3均位于高AT富含區和串聯重復區之間。
2.3 TRR4.4結構
某些昆蟲線粒體基因組中,在控制區以外的其他區域能夠觀察到串聯重復序列(表4)。如膜翅目中的黑小蜜蜂Apisandreniformis在tRNA-Met和tRNA-Ala之間存在813 bp的串聯重復序列(Wangetal., 2015a),鞘翅目中的寧波窗螢Pyrocoeliarufa在ND2和tRNA-Trp之間存在1707 bp的串聯重復序列(Baeetal., 2004)。半翅目扁蝽總科的同扁蝽Araduscompar在tRNA-Ile和tRNA-Cys之間存在1342 bp的串聯重復序列(Songetal., 2016)。
在大黑毛肩長蝽線粒體基因組的ND6和CytB之間發現一個非編碼的串聯重復區域, 即TRR4.4。TRR4.4長802 bp,AT含量是72.2%,包括4個184 bp的重復單元和1個66 bp的部分重復單元。與其他已報道的串聯重復序列不同的是,TRR4.4的重復單元與控制區中TRR2.7的重復單元在長度、方向以及核苷酸組成等方面幾乎完全一致(圖3A)。據我們了解,在昆蟲線粒體基因組中,這是首次發現控制區外的串聯重復單元與控制區內的串聯重復單元一致的現象。

圖3 大黑毛肩長蝽線粒體基因組中的TRR4.4和TRR2.7Fig.3 TRR4.4 and TRR2.7 in Neolethaeus assamensis mitochondrial genome注:A,TRR4.4和TRR2.7的重復單元;紅色框代表11個堿基的序列位置不同,棕色代表重復單元中相同的序列,綠色代表發生變異的位點。B,TRR4.4和TRR2.7末端預測的二級結構,位于TRR4.4和TRR2.7的核苷酸標為黑色;波浪線代表TRR4.4,TRR2.7內部省略的序列。Note: A, The unit of TRR4.4 and TRR2.7; Red boxes indicate the location of 11 bp sequences in those units, Brown boxes indicate the similar sequences in those units, Green boxes indicate the inconsistent nucleotides. B, Hypothetical secondary structures in the endpoints of TRR4.4 and TRR2.7, in which bold nucleotides locate within TRR4.4 and TRR2.7; The break lines indicate abbreviatory sequences of TRR4.4 and TRR2.7.

串聯重復序列是昆蟲線粒體基因組控制區內一個較為保守的結構(Zhang and Hewitt, 1997),同時根據我們的了解,在蛋白質編碼基因ND6和CytB之間并未有串聯重復序列的報道。因此,在大黑毛肩長蝽線粒體基因組中,TRR4.4可能源自控制區內的TRR2.7。串聯重復隨機丟失模型(TDRL)和重組假說都可以解釋這種現象。TDRL模型認為某些基因發生多重拷貝,之后個別基因隨機丟失 (Moritzetal., 1987)。依據TDRL模型,首先CytB-TRR2.7的片段產生拷貝,然后突變累積,某些基因失去功能,成為假基因,接著部分拷貝的片段從線粒體基因組中丟失,最終TRR4.4在ND6和CytB之間產生。但是該假設與觀察到的現象并不相符,即在線粒體基因組中沒有發現CytB-TRR2.7的相關遺跡。重組假說認為重組一般出現在具有自身互補序列(如莖環結構)的重組熱點區域(Dowton and Campbell, 2001)。在大黑毛肩長蝽線粒體基因組中,TRR4.4和TRR2.7的末端都重組熱點區域鄰接(圖3B)。從這個意義上說,重組模型可能解釋TRR4.4的出現,當然更多的研究還需要進一步開展。
2.4 蛋白質編碼基因
大黑毛肩長蝽線粒體基因組的13個蛋白質編碼基因全長共11072 bp,除終止子外,共發現3692個密碼子。在起始密碼子方面,除COI的起始密碼子是TTG外,其余12個蛋白編碼基因的起始密碼子均為ATN;在終止密碼子方面,11個蛋白編碼基因以TAA或TAG作為終止密碼子,而COII和COIII以單個T作為終止密碼子,其下游是同鏈編碼的tRNA基因(表5)。

表5 大黑毛肩長蝽線粒體基因組中蛋白質編碼基因的起始密碼子和終止密碼子
2.5 tRNA
大黑毛肩長蝽線粒體基因組共有22個tRNA基因,長度范圍從63 bp(tRNA-Trp和tRNA-Asp)到74 bp(tRNA-Lys),tRNA基因的AT含量比較豐富,為76.6%,并且表現出AT偏移。tRNA-Ser(GCU)的二級結構中含有一個DHU臂,并沒有出現常見的環狀結構,這一現象在懸鈴木方翅網蝽Corythuchaciliata(Yangetal., 2013)中同樣有報道。因此,22個tRNA全部能夠折疊為典型的三葉草二級結構(圖4)。
在tRNA的二級結構中觀察到絕大多數tRNA的氨基酸接受臂、反密碼子臂和反密碼子環的長度相對保守,分別為7 bp,5 bp和7個核苷酸,相反DHU環,TψC臂和TψC環的變化范圍較大(表6)。此外,共發現24處non-Watson-Crick堿基配對(表7),分別為G-U(19),U-U(2),A-C(2)和C-U(1)。其中,16處發現于N鏈編碼的tRNA,8處發現于J鏈編碼的tRNA。
2.6 rRNA
大黑毛肩長蝽線粒體基因組中,16S rRNA基因長1275 bp,位于tRNA-Leu(UAG)和tRNA-Val之間,其二級結構包含6個結構域(結構域III在節肢動物中缺失)和44個莖環結構(圖5)。結構域I、II和VI的變異幅度較大(Huaetal., 2008;Lietal., 2013)。H991的序列變異大(Lietal., 2012a;Songetal., 2013;Wangetal., 2014),缺乏相應參考,其二級結構通過RNAstructure 5.8(Reuter and Mathews, 2010)和Mfold(Zuker, 2003)預測得到。參照Buckley等(2000)的模型,H2347折疊成3 bp的莖環結構。
12S rRNA基因長775 bp,位于tRNA-Val和控制區之間,其二級結構包含3個結構域和28個莖環結構(圖6),其中結構域III較為保守。H769的二級結構折疊形成2個莖環結構,即H769a和H769b。
2.7 核苷酸組成和密碼子使用
大黑毛肩長蝽線粒體基因組的AT含量是73.5%,所有基因都富含AT(表8),其中rRNA基因的AT含量最高,為76.9%。在13個蛋白質編碼基因中,ND2的AT含量最高,為78.5%;COI的AT含量最低,為67.6%。線粒體基因組中核苷酸組成在不同鏈間是不對稱的 (Perna and Kocher, 1995)。J鏈編碼的蛋白質基因和tRNA基因均為AT偏移和CG偏移。N鏈編碼的蛋白質基因、tRNA基因和rRNA基因均為TA偏移和GC偏移。

圖4 大黑毛肩長蝽線粒體基因組中tRNA的二級結構Fig.4 Putative secondary structures of tRNAs in Neolethaeus assamensis mitochondrial genome注:tRNAs 使用相應的氨基酸縮寫表示。典型的堿基配對使用短線連接,GU配對使用星號表示,其他非典型配對使用空心圓表示。Note: The tRNAs are labeled with the abbreviations of their corresponding amino acids. Inferred Watson-Crick bonds are illustrated by lines, GU bonds by asterisk, and the other non-Watson-Crick interactions are illustrated by hollow circles.

tRNA鏈Strand氨基酸接受臂(bp)AAstem反密碼子臂(bp)ACstem反密碼子環(nucleotide)ACloopDHU臂(bp)DHUstemDHU環(nucleotide)DHUloopTψC臂(bp)TψCstemTψC環(nucleotide)T?Cloop可變環(nucleotide)VariableLooptRNA?AlaJ75744564tRNA?ArgJ75743544tRNA?AsnJ757394105tRNA?AspJ75746344tRNA?GluJ75747474tRNA?GlyJ75737374tRNA?IleJ75736395tRNA?Leu(UAA)J75736544tRNA?LysJ757311575tRNA?MetJ74745575tRNA?Ser(GCU)J75734674tRNA?Ser(UGA)J75745574tRNA?ThrJ757473114tRNA?TrpJ75745434tRNA?CysN75747534tRNA?GlnN73945575tRNA?HisN75746444tRNA?Leu(UAG)N75738544tRNA?PheN75747554tRNA?ProN75745464tRNA?TyrN757310274tRNA?ValN75745574

表7 大黑毛肩長蝽線粒體基因組tRNA中非典型的堿基對

圖5 大黑毛肩長蝽線粒體基因組中16S rRNA的二級結構Fig.5 Predicted secondary structure of the 16S rRNA in Neolethaeus assamensis mitochondrial genome注:灰色代表長蝽總科中高度保守的區域。羅馬數字代表結構域。典型的堿基配對使用短線連接,GU配對使用星號表示,其他非典型配對使用空心圓表示。Note: Grey regions indicate high conserved sites in Lygaeoidea. Roman numerals denote the conserved domain structure. Inferred Watson-Crick bonds are illustrated by lines, GU bonds by asterisk and the other non-Watson-Crick interactions are represented by hollow circles.

圖6 大黑毛肩長蝽線粒體基因組中12S rRNA的二級結構Fig.6 Predicted secondary structure of the 12S rRNA in Neolethaeus assamensis mitochondrial genome注:灰色代表長蝽總科中高度保守的區域。羅馬數字代表結構域。典型的堿基配對使用短線連接,GU配對使用星號表示,其他非典型配對使用空心圓表示。Note: Grey regions indicate relatively conserved sites in Lygaeoidea. Roman numerals denote the conserved domain structure. Inferred Watson-Crick bonds are illustrated by lines, GU bonds by asterisk and the other non-Watson-Crick interactions are represented by hollow circle.
蛋白編碼基因密碼子的使用表現出極大的AT不均質性,密碼子第三位的AT含量最高,是83.4%,而密碼子第一、二位的AT含量僅為68.4%和66.7%。大黑毛肩長蝽線粒體基因組中使用頻率最頻繁的4種密碼子全部由A、T組成:TTA(299),TTT(271),ATA(270)和ATT(261)。J鏈編碼的蛋白質基因中,NNA在四倍簡并密碼子中占優勢,NNA和NNU在雙重簡并密碼子中占優勢;N鏈編碼的蛋白質基因中,NNU在四倍簡并密碼子中占優勢,NNA和NNU在大多數的雙重簡并密碼子中占優勢(圖7)。
2.8 系統發育關系
貝葉斯分析和最大似然法分析產生的系統發育樹拓撲結構一致(圖8)。系統發育與Xie等(2005)和Hua等(2008)一致,支持(緣蝽總科+長蝽總科)的單系性。地長蝽位于長蝽總科的基部分支,與長蝽總科其他類群形成姐妹群關系,這一結果與Henry(1997)中依據形態學證據得到的結論相符;但是該結論與Li等(2016b)基于分子數據得到的結果不同,后者的結果有可能為假陰性。因此,需要獲取長蝽總科中更多類群的基因組信息,以便于長蝽總科系統發育關系的進一步探討。
大黑毛肩長蝽線粒體基因組大小為17097 bp,在已知的6個長蝽總科昆蟲線粒體基因組(全序列)中長度最長,長度最小的是長蝽科Lygaeidae的樺穗長蝽Kleidocerysresedae,為14688 bp(Lietal., 2016a)??刂茀^是長蝽總科線粒體基因組大小變異的主要來源,一般控制區的大小與線粒體基因組大小呈現正相關關系,如大黑毛肩長蝽線粒體基因組的控制區大小為1658 bp,而樺穗長蝽線粒體基因組的控制區長度僅為220 bp。

表8 大黑毛肩長蝽線粒體基因組核苷酸組成分析

圖7 大黑毛肩長蝽線粒體基因組中每個氨基酸的同義密碼子使用率Fig.7 Percentage of synonymous codon usage of each amino acid in the Neolethaeus assamensis mitochondrial genome注:X軸上為密碼子家族。Note: Codon families are provided on the x-axis.

圖8 基于線粒體基因組蛋白質編碼基因所得到的地長蝽科系統發育地位Fig.8 Phylogenetic position of Rhyparochromidae in Lygaeoidea inferred from the sequences of PCGs in mitochondrial genome注:貝葉斯分析和最大似然法分析具有一致的拓撲結構。節點處上方的數字代表貝葉斯后驗概率,下方代表bootstrap值。Note: Bayesian analyses and Maximum Likelihood show the same topology. Numbers at the nodes are Bayesian posterior probabilities (up) and Maximum Likelihood bootstrap values (down).
大黑毛肩長蝽線粒體基因組的AT含量為73.5%,在6個長蝽總科昆蟲線粒體基因組(全序列)中AT含量最低,AT含量最高的是束長蝽科Malcidae的瓜束長蝽Malcusinconspicuus,為77.8%(Huaetal., 2008)。昆蟲線粒體基因組控制區由于富含AT堿基,被稱為AT豐富區(Stormo, 1982)。研究中發現在長蝽總科某些類群中控制區并不是AT含量最豐富的區域,例如樺穗長蝽、豆突眼長蝽、大黑毛肩長蝽的控制區都不是AT含量最高的區域。
在長蝽總科昆蟲線粒體基因組中絕大部分蛋白質編碼基因使用ATN和TTG作起始密碼子。起始密碼子中,使用最頻繁的是ATG,而ATC出現頻次遠遠低于其他幾種起始密碼子。所有線粒體基因COI的起始密碼子是TTG。終止密碼子方面,大部蛋白質基因使用的終止密碼子是TAA或TAG,終止密碼子為TA或單個T的情況較少。而且以單個T作為終止密碼子的現象多發生在COII和COIII中。
大黑毛肩長蝽線粒體基因組編碼37個基因,基因排列順序與果蠅一致。在線粒體基因組中,tRNA-Ser(GCU)的二級結構中含有一個DHU臂,22個tRNA全部能夠折疊為典型的三葉草二級結構。大黑毛肩長蝽線粒體基因組最顯著的特征是ND6和CytB之間的串聯重復區域,TRR4.4的重復單元與控制區中TRR2.7的重復單元在長度、方向以及核苷酸組成等方面幾乎完全一致。系統發育結果支持地長蝽科位于長蝽總科的基部位置,與長蝽總科其他類群形成姐妹群這一觀點,但是該結果與Li等(2016b)基于白斑地長蝽的分子數據得到的結論不一致,為確定地長蝽科的系統發育地位,未來需要獲取長蝽總科中更多類群的基因組信息。
References)
Bae JS, Kim I, Sohn HD,etal. The mitochondrial genome of the firefly,Pyrocoeliarufa: Complete DNA sequence, genome organization, and phylogenetic analysis with other insects [J].MolecularPhylogeneticsandEvolution, 2004, 32 (3): 978-985.
Bernt M, Donath A, Jühling F,etal. MITOS: Improved de novo metazoan mitochondrial genome annotation [J].MolecularPhylogeneticsandEvolution, 2013, 69 (2): 313-319.
Boore JL. Animal mitochondrial genomes [J].NucleicAcidsResearch, 1999, 27 (8): 1767-1780.
Boore JL. Complete mitochondrial genome sequence of the polychaete annelidPlatynereisdumerilii[J].MolecularBiologyandEvolution, 2001, 18 (7): 1413-1416.
Buckley TR, Simon C, Flook PK,etal. Secondary structure and conserved motifs of the frequently sequenced domains IV and V of the insect mitochondrial large subunit rRNA gene [J].InsectMolecularBiology, 2000, 9 (6): 565-580.
Cameron SL. Insect mitochondrial genomics: Implications for evolution and phylogeny [J].AnnualReviewofEntomology, 2014a, 59: 95-117.
Cameron SL. How to sequence and annotate insect mitochondrial genomes for systematic and comparative genomics research [J].SystematicEntomology, 2014b, 39 (3): 400-411.
Cameron SL, Whiting MF. The complete mitochondrial genome of the tobacco hornworm,Manducasexta, (Insecta: Lepidoptera: Sphingidae), and an examination of mitochondrial gene variability within butterflies and moths [J].Gene, 2008, 408 (1): 112-123.
Cameron SL, Dowton M, Castro LR,etal. Mitochondrial genome organization and phylogeny of two vespid wasps [J].Genome, 2008, 51 (10): 800-808.
Cannone JJ, Subramanian S, Schnare MN,etal. The comparative RNA web (CRW) site: An online database of comparative sequence and structure information for ribosomal, intron, and other RNAs [J].BMCBioinformatics, 2002, 3 (1): 2.
Clary DO, Wolstenholme DR. The mitochondrial DNA molecule ofDrosophilayakuba: Nucleotide sequence, gene organization, and genetic code [J].JournalofMolecularEvolution, 1985, 22 (3): 252-271.
Dotson EM, Beard CB. Sequence and organization of the mitochondrial genome of the Chagas disease vector,Triatomadimidiata[J].InsectMolecularBiology, 2001, 10 (3): 205-215.
Dowton M, Campbell NJ. Intramitochondrial recombination-is it why some mitochondrial genes sleep around [J].TrendsinEcology&Evolution, 2001, 16 (6): 269-271.
Gillespie JJ, Johnston JS, Cannone JJ,etal. Characteristics of the nuclear (18S, 5.8 S, 28S and 5S) and mitochondrial (12S and 16S) rRNA genes ofApismellifera(Insecta: Hymenoptera): Structure, organization, and retrotransposable elements [J].InsectMolecularBiology, 2006, 15 (5): 657-686.
Hall TA. BioEdit: A user-friendly biological sequence alignment editor and analysis program for Windows 95/98/NT [J].NucleicAcidsSymposiumSeries, 1999, 41 (41): 95-98.
Henry TJ. Phylogenetic analysis of family groups within the infraorder Pentatomomorpha (Hemiptera: Heteroptera), with emphasis on the Lygaeoidea [J].AnnalsoftheEntomologicalSocietyofAmerica, 1997, 90 (3): 275-301.
Henry T. Heteroptera, Chapter 10. In: Foottit RG, Adler PH, eds. Insect Biodiversity: Science and Society [M]. Oxford: Blackwell Publishing Ltd., 2009: 223-263.
Hua J, Li M, Dong P,etal. Comparative and phylogenomic studies on the mitochondrial genomes of Pentatomomorpha (Insecta: Hemiptera: Heteroptera) [J].BMCGenomics, 2008, 9 (1): 1.
Huelsenbeck JP, Ronquist F. MrBayes: Bayesian inference of phylogenetic trees [J].Bioinformatics, 2001, 17: 754-755.
Li H, Liu H, Shi A,etal. The complete mitochondrial genome and novel gene arrangement of the unique-headed bugStenopiratessp. (Hemiptera: Enicocephalidae) [J].PLoSONE, 2012a, 7 (1): e29419.
Li H, Liu H, Song F,etal. Comparative mitogenomic analysis of damsel bugs representing three tribes in the family Nabidae (Insecta: Hemiptera) [J].PLoSONE, 2012b, 7 (9): e45925.
Li T, Gao C, Cui Y,etal. The complete mitochondrial genome of the stalk-eyed bugChauliopsfallaxScott, and the monophyly of Malcidae (Hemiptera: Heteroptera) [J].PLoSONE, 2013, 8 (2): e55381.
Li T, Yi W, Zhang H,etal. Complete mitochondrial genome of the birch catkin bugKleidocerysresedaeresedae, as the first representative from the family Lygaeidae (Hemiptera: Heteroptera: Lygaeoidea) [J].MitochondrialDNAPartA, 2016a, 27 (1): 618-619.
Li T, Yang J, Li Y,etal. A mitochondrial genome of Rhyparochromidae (Hemiptera: Heteroptera) and a comparative analysis of related mitochondrial genomes [J].ScientificReports, 2016b, 6: 35175.
Lowe TM, Eddy SR. tRNAscan-SE: A program for improved detection of transfer RNA genes in genomic sequence [J].NucleicAcidsResearch, 1997, 25 (5): 955-964.
Moritz C, Dowling TE, Brown WM. Evolution of animal mitochondrial DNA: Relevance for population biology and systematic [J].AnnualReviewofEcologyandSystematics, 1987, 18 (1): 269-292.
Perna NT, Kocher TD. Patterns of nucleotide composition at fourfold degenerate sites of animal mitochondrial genomes [J].JournalofMolecularEvolution, 1995, 41 (3): 353-358.
Posada D. jModelTest: Phylogenetic model averaging [J].MolecularBiologyandEvolution, 2008, 25 (7): 1253-1256.
Reineke A, Karlovsky P, Zebitz CPW. Preparation and purification of DNA from insects for AFLP analysis [J].InsectMolecularBiology, 1998, 7 (1): 95-99.
Reuter JS, Mathews DH. RNAstructure: Software for RNA secondary structure prediction and analysis [J].BMCBioinformatics, 2010, 11 (1): 1.
Saccone C, De Giorgi C, Gissi C,etal. Evolutionary genomics in Metazoa: The mitochondrial DNA as a model system [J].Gene, 1999, 238 (1): 195-209.
Schuh RT, Slater JA. True Bugs of the World (Hemiptera: Heteroptera): Classification and Natural History [M]. New York: Cornell University Press, 1995: 258-264.
Shi AM, Li H, Bai XS,etal. The complete mitochondrial genome of the flat bugAradacanthiaheissi(Hemiptera: Aradidae) [J].Zootaxa, 2012, 3238 (1): 23-38.
Song F, Li H, Shao R,etal. Rearrangement of mitochondrial tRNA genes in flat bugs (Hemiptera: Aradidae) [J].ScientificReports, 2016, 6: 25725.
Song W, Li H, Song F,etal. The complete mitochondrial genome of a tessaratomid bug,Eusthenescupreus(Hemiptera: Heteroptera: Pentatomomorpha: Tessaratomidae)[J].Zootaxa, 2013, 3620 (2): 260-272.
Stamatakis A. RAxML-VI-HPC: Maximum likelihood-based phylogenetic analyses with thousands of taxa and mixed models [J].Bioinformatics, 2006, 22 (21): 2688-2690.
Stormo GD, Schneider TD, Gold LM. Characterization of translational initiation sites inE.coli[J].NucleicAcidsResearch, 1982, 10 (9): 2971-2996.
Tamura K, Stecher G, Peterson D,etal. MEGA6: Molecular evolutionary genetics analysis version 6.0 [J].MolecularBiologyandEvolution, 2013, 30 (12): 2725-2729.
Wolstenholme DR. Genetic novelties in mitochondrial genomes of multicellular animals [J].CurrentOpinioninGenetics&Development, 1992, 2 (6): 918-925.
Wan X, Kim MI, Kim MJ,etal. Complete mitochondrial genome of the free-living earwig,Challiafletcheri(Dermaptera: Pygidicranidae) and phylogeny of Polyneoptera [J].PLoSONE, 2012, 7 (8): e42056.
Wang P, Li H, Wang, Y,etal. The mitochondrial genome of the plant bugApolyguslucorum(Hemiptera: Miridae): Presently known as the smallest in Heteroptera [J].InsectScience, 2014, 21 (2): 159-173.
Wang AR, Kim MJ, Lee JY,etal. The mitochondrial genome of the black dwarf honey bee,Apisandreniformis(Hymenoptera: Apidae) [J].MitochondrialDNA, 2015a, 26 (6): 914-916.
Wang Y, Chen J, Jiang LY,etal. Hemipteran mitochondrial genomes: Features, structures and implications for phylogeny [J].InternationalJournalofMolecularSciences, 2015b, 16 (6): 12382-12404.
Xie Q, Bu W, Zheng L. The Bayesian phylogenetic analysis of the 18S rRNA sequences from the main lineages of Trichophora (Insecta: Heteroptera: Pentatomomorpha) [J].MolecularPhylogeneticsandEvolution, 2005, 34 (2): 448-451.
Yang W, Yu W, Du Y. The complete mitochondrial genome of the sycamore lace bugCorythuchaciliata(Hemiptera: Tingidae) [J].Gene, 2013, 532 (1): 27-40.
Yuan ML, Zhang QL, Guo ZL. The complete mitochondrial genome ofCorizustetraspilus(Hemiptera: Rhopalidae) and phylogenetic analysis of Pentatomomorpha[J].PLoSONE, 2015, 10 (6): e0129003.
Zhang B, Ma C, Edwards O,etal. The mitochondrial genome of the Russian wheat aphidDiuraphisnoxia: Large repetitive sequences betweentrnEandtrnFin aphids [J].Gene, 2014, 533 (1): 253-260.
Zhang DX, Hewitt GM. Insect mitochondrial control region: A review of its structure, evolution and usefulness in evolutionary studies [J].BiochemicalSystematicsandEcology, 1997, 25 (2): 99-120.
Zheng LY, Zou HG. Chinese Bug Identification Manual [M]. Beijing: Science Press, 1981: 116-215. [鄭樂怡, 鄒環光. 中國蝽類鑒定手冊(半翅目:異翅亞目長蝽科)[M]. 北京: 科學出版社, 1981: 116-215] Zuker M. Mfold web server for nucleic acid folding and hybridization prediction [J].NucleicAcidsResearch,2003, 31 (13): 3406-3415.
(Hemiptera: Heteroptera: Rhyparochromidae) and the implication for the phylogenetic position of Rhyparochromidae in Lygaeoidea
GUO Peng-Lei1, WU Yan-Zhuo1, WANG Yan-Hui1, WU Hao-Yang1, LI Teng2, LI Jun-Lan3, BU Wen-Jun1, XIE Qiang4*
(1. College of Life Sciences, Nankai University, Tianjin 300071, China; 2. College of Life Sciences, Lanzhou University, Lanzhou 730000, China; 3. College of Life Sciences, Inner Mongolia University, Hohhot 010021, China; 4. Key Laboratory of Biodiversity Dynamics and Conservation of Guangdong Higher Education Institute, The Museum of Biology, School of Life Sciences, Sun Yat-sen University, Guangzhou 510275, China)
To better understand the genome-level characteristics of Rhyparochromidae, the complete mitochondrial genome ofNeolethaeusassamensisDistant, 1901 (Hemiptera: Heteroptera: Rhyparochromidae: Lethaeini) was sequenced and analyzed. It is a typical double-strand circular molecule with 17097 bp in length, including 13 protein coding genes (PCGs), 22 transfer RNA (tRNA) genes and 2 ribosomal RNA (rRNA) genes. The gene arrangement is similar to that ofDrosophilayakuba. The complete mitochondrial genome has two large non-coding regions, including the control region and a tandem repeat region, TRR4.4, betweenND6 andCytB. The control region has nine structural elements categorized as seven different types: a stem-loops region, three non-tandem repeat sequences, and five other motifs. TRR4.4 is 802 bp in length, which consisted of four identical DNA sequences (184 bp) and a partial copy of such sequence (66 bp). The unit of the TRR4.4 is similar to that of the TRR2.7 in the control region in size, direction, and nucleotides composition. All tRNAs can be folded into the classic clover-leaf secondary structure. The secondary structures of rRNAs have also been predicted. The 16S rRNA is comprised of six domains (domain III is absent in arthropods) and 44 helices, while the 12S rRNA consists of three domains and 28 helices. Phylogenetic analyses based on the mitochondrial genomes of 15 species of Pentatomomorpha showed that Rhyparochromidae is the basal lineage in Lygaeoidea.
Mitochondrial genome;Neolethaeusassamensis; tandem repeat; recombination; phylogenetic analyses
國家自然科學基金(31572242)
郭鵬磊,男,1991年生,碩士研究生,研究方向為昆蟲分子系統學,E-mail: NKGPL2014@126.com
*通訊作者Author for correspondence,E-mail:xieq8@mail.sysu.edu.cn
Received: 2017-02-20;接受日期Accepted: 2017-03-07
Q963;Q961;S433
A
1674-0858(2017)02-0314-18
郭鵬磊,吳燕卓,王艷會,等.大黑毛肩長蝽(半翅目:異翅亞目:地長蝽科)線粒體基因組及地長蝽科系統發育地位探討[J].環境昆蟲學報,2017,39(2):314-331.