





關鍵詞:北京雨燕;心臟;肺臟;肌肉;轉錄組;飛行能量代謝;基因組學
北京雨燕(Apus apus pekinensis[1],以下簡稱“雨燕”)屬于雨燕科(Apodidae),是北京市重點保護野生動物[2]。雨燕適應了空中的生活方式,能在空中捕捉食物和獲取筑巢材料。飛行活動記錄儀證實,雨燕在非繁殖期的大部分時間都是在空中度過,持續時間6 ~ 10個月[3]。雨燕每年從北京到非洲南部遷徙往返距離達3萬 km,最快速度可達31. 1 m/s[4?5]。
目前關于調控鳥類飛行相關基因的研究較少。在飛行退化鳥種中發現脂質代謝關鍵酶的2個核心結構域(adipose triglyceride lipase,ATGL;Acyl-CoAThioesterase 7,ACOT7)發生了非同義突變,通過數學模型預測,發現這2種非同義突變的協同效應可以將飛行退化鳥類的主要能量來源從脂肪轉化為碳水化合物,這種能量供應方式的改變更有利于它們在地面上奔跑或進行爆發性飛行[6]。在鳥類的演化過程中基本上沒有新基因的產生,而在演化過程中獲得了新的增強子改變了對基因在時間和空間的激活狀態。以Sim1 基因為例,這一基因僅在雞胚胎中有所表達,并且其表達的時間和位置與飛羽的成長時間和位置是一致的。學者們普遍認為Sim1 基因及其相關的ASHCE在鳥類飛羽生成過程中扮演了關鍵角色[7]。另一方面,飛行與強大的心臟供血、肺臟供氧能力及肌肉持久的收縮能力緊密相關。鳥類具有較大的心臟和高度發達的心肌,心臟的體積和心跳速度與飛行能力成正相關,在高空會加快呼吸和心率,以保證足夠的能量來維持正常運轉[8]。Butler[9]研究發現候鳥的心臟和血液中的血紅蛋白濃度更高,飛行肌肉的毛細血管密度往往更高。此外,鳥類的胸肌發達,其中含有豐富的蛋白質和脂肪,對增強耐力以及飛行支撐十分有益[10]。
RNA-Seq是一種采用高通量測序技術進行轉錄組分析的先進生物技術。Frias-Soler et al.[11]利用RNA-seq 研究了長距離跨大陸遷徙的穗?(Oe?nanthe oenanthe)與季節性大腦調節相關的生物學功能,發現其遷徙前飲食能力、不安情緒以及視覺和空間記憶能力有所增加。Ye et al.[12]利用RNA-seq獲得一例極度瀕危的丹頂鶴(Grus japonensis)的轉錄組數據,發現了許多富集的免疫相關信號通路。Kharrati-Koopaee et al. [13]為了研究原鴿(Columbalivia)的導航能力,從3個腦區(視葉、嗅球、海馬)和中樞提取RNA進行測序,發現海馬對歸巢能力具有重要作用以及GSR在原鴿磁感受作用中存在潛在價值。Gershman et al.[14]對禁食和喂食的蜂鳥(Archilo?chus colubris)肌肉進行轉錄組測序,發現在禁食蜂鳥肌肉中,線粒體ATP合成耦合質子運輸途徑顯著上調。因此,通過RNA-seq能獲得更為清晰的內在調控信號通路。
本研究以雨燕血液、心臟、肺臟和肌肉為研究對象,采用高通量測序技術進行轉錄組測序,通過數據組裝、基因功能注釋和基因差異表達分析獲得雨燕的分子遺傳信息,以期為進一步揭示雨燕飛行能量代謝及基因組學研究提供參考依據。
1 材料與方法
1. 1 樣品采集
3只意外落地死亡雛雨燕,分別取其心臟、肺臟、胸肌以及血液,經液氮速凍后于-80 ℃保存、備用。
1. 2 測序
將采集到的雨燕心臟、肺臟、胸肌及血液委托北京百邁客生物科技有限公司進行總RNA的提取,經質檢合格后使用Illumina NovaSeq 6000測序平臺進行PE150模式測序。
1. 3 基因功能注釋
為獲得全面的基因功能信息,采用有參考基因組分析方法,通過BLAST(E ≤ 10-5)比對公共數據庫(GO、KEGG、KOG、Pfam、Swiss-Prot和NR)進行基因功能注釋。
1. 4 數據處理
堿基質量值(Q)統計使用Phred堿基質量值公式:Q = ?10 × log10P,式中P 為堿基識別出錯的概率。使用HISAT2 軟件將得到的clean reads 與參考基因組進行快速精確的比對,然后利用StringTie對比對上的reads進行組裝,重構轉錄組。基于參考基因組序列,使用StringTie對mapped reads進行拼接,發掘新轉錄本和新基因。使用FPKM(fragments per kilobaseof transcript per million fragments mapped)表示對應的表達豐富度。將差異倍數(fold change)≥1. 5且錯誤發現率(1 discovery rate,FDR) lt; 0. 01作為篩選標準,使用EBSeq軟件進行差異表達基因篩選。
2 結果
2. 1 測序數據質控
對雨燕心臟、肺臟、肌肉和血液進行轉錄組測序,在數據分析前,移除帶有接頭和質量較低的reads。通過測序質量控制,共得到32. 80 Gb cleandate,平均GC含量為47. 50%。每份樣本的Q30均不低于93%,質量較高,能滿足后續的分析需求。測序樣本質量詳情見表1。
2. 2 新基因預測及功能注釋
通過使用StringTie軟件處理mapped reads,實現序列組裝。將這些數據與已存在的基因組注釋進行對比,識別之前未注明的轉錄區域,成功挖掘出6 700個新基因。利用Diamond、InterProScan 和HMMER 軟件,將新發掘的基因與六大數據庫進行比對,以獲取新基因的詳細注釋信息。通過分析,發現不同來源的基因庫之間存在明顯差異。獲得注釋的新基因數量在NR數據庫中最多,達到657個,之后在KEGG、GO、Pfam、KOG和Swiss-Prot數據庫中注釋到的基因數量逐漸減少,分別是304、278、154、68、38個。
將過濾后的reads片段進行聚類及拼接組裝,共獲得21 442 條unigenes,其中通過BLAST 與六大數據庫進行比對,最終有15 295條unigenes獲得功能注釋,占總數的71. 3%。比對到NR數據庫的unigenes數量最多,有15 286 條,占總數的71. 3%。其后依次為Pfam(14 040 條)、GO(13 869 條)、KEGG(13 339條)和KOG(10 451條),比對到Swiss-Prot數據庫的最少,僅9 613,占總數的44. 8%。
2. 3 GO 功能注釋
雨燕肺臟、心臟、肌肉和血液轉錄組總共有13 869個unigenes,在3個主要的GO類別45個功能中找到對應。如圖1所示,在生物學進程(biologicalprocess)獲得的注釋信息最多,細胞組分(cellularcomponent)最少。在生物學進程中,細胞進程(cellularprocess)、生物調節(biological regulation)和代謝進程(metabolic process)較多。在細胞組分中,以細胞結構組件(cellular anatomical entity)、胞內物質(intracellular)和含蛋白質復合物(protein-containingcomplex)為主。在分子功能(molecular function)中,結合(binding)和催化活性(catalytic activity)最多。
2. 4 KOG 功能注釋
雨燕肺臟、心臟、肌肉和血液轉錄組共有10 451條unigenes在KOG數據庫中得到注釋,可分為25個直系同源功能類型,其中參與一般功能預測(generalfunction prediction only)和信號轉導機制(signaltransduction mechanisms)功能的最多(圖2)。
2. 5 KEGG 功能注釋
根據參與的KEGG 代謝通路,將雨燕肺臟、心臟、肌肉和血液轉錄組共13 339條unigenes分為六大類,其中細胞進程通路注釋比例最高,人類疾病(human diseases)通路最低。六大類中含量前3的通路是神經活性配體-受體相互作用(neuroactiveligand-receptor interaction)、MAPK 信號通路(MAPKsignaling pathway)和內吞作用(endocytosis)(圖3)。
根據測序reads 比對到每個轉錄本中的數目(count)計算基因的表達水平,為了確保片段的數量能夠真實地展現轉錄本的表達質量,利用StringTie通量通過最大流量算法,采用FPKM評估轉錄本或基因的表達水平。利用轉錄組數據檢測基因表達具有較高的靈敏度。通常情況下,能測序到的蛋白質編碼基因表達水平的FPKM值橫跨10-2 ~ 104六個數量級,大部分基因的表達量集中在0. 1 ~ 10. 0[15]。本試驗中得到雨燕肺臟、心臟、肌肉和血液FPKM值橫跨數量級達9(10-4 ~ 105),靈敏度極高。對各個樣本中基因表達量繪制箱線圖(圖4),表達量由高到低依次為肺臟、肌肉、心臟和血液,表明基因在不同組織中轉錄活性存在差異。
進一步比較差異表達基因數目,血液和肌肉差異表達基因數目最多(5 281個),其中血液 vs. 肌肉上調基因數達3 564個,下調基因數達1 717個。肺臟和血液的差異表達基因數目最少(249個),肺臟 vs. 血液上調基因數僅2個,下調基因數為247個( 表2)。
通過基因注釋結果,在GO數據庫的二級分類水平上對差異表達基因進行分類統計,可以直觀了解差異基因主要相關的功能條目。選取其中差異表達基因數最多的前3 組,分類結果見圖5,血液 vs. 肌肉、血液 vs. 心臟、肺臟 vs. 心臟的差異表達基因在一級分類中,均表現為在生物學進程中差異基因最多,在細胞組分中差異基因最少。在二級分類中,均在生物學進程中的細胞進程中差異基因最多;在細胞組分中的細胞結構組件差異基因最多,其次是胞內物質和含蛋白質復合物;在分子功能中的結合基因差異最大,其次為催化活性。
在生物體中,差異表達的基因是影響不同蛋白質或酶的活躍性以及其他關鍵生理作用的核心分子。通過對差異表達基因通路的詳細注釋和深入分析,可以更加深刻地認識到基因所扮演的角色。在比對KEGG數據庫中,挑選差異較大的3個組比較,結果如圖6所示,在血液 vs. 肌肉中,氧化磷酸化(oxidativephosphorylation)、纈氨酸、亮氨酸和異亮氨酸降解(valine, leucine and isoleucine degradation)、心肌收縮(cardiac muscle contraction)以及碳代謝(carbonmetabolism)通路中差異基因富集最顯著;在肺臟 vs. 肌肉中,氧化磷酸化、心肌收縮和碳代謝通路中差異基因富集最顯著;在肺臟 vs. 心臟中,氧化磷酸化、心肌收縮、三羧酸循環(TCA cycle)和碳代謝通路中差異基因富集最顯著。
3 結論與討論
遷徙是鳥類最需要能量的行為之一,長途不間斷飛行通常接近生理耐力的極限[16?17]。鳥類的許多形態和行為特征已經進化,如機翼形狀[18]、熱力和尾風的利用[19]、V型編隊飛行和地形升力[20?21],減少了飛行的能量消耗。即便如此,呼吸和循環系統仍然必須提供持續的氧氣供應和代謝基質,以匹配飛行肌肉的高代謝需求。與非候鳥相比,候鳥的氧傳遞和運輸增強:在肺的氣體交換區,有效面積更大,擴散距離更小。為了應對持續的、高強度的遷徙飛行中異常高的能量需求,鳥類在出發前以及在前往越冬或繁殖地的中途停留點積累營養,即遷徙前增肥[22]。事實上,變化不僅發生在營養儲備[23?24]和飛行階段[25],也發生在靜止和飛行后階段[26?27]。這些變化讓人們對大型消化系統的重要性做出了直接解釋,它可以在補充能量過程中促進營養處理,然后生長出更大的飛行肌肉、更大的心臟和更濃的血液,以維持持續的飛行,同時縮小消化道和其他在飛行過程中不太需要的器官[28]。
本試驗將雨燕心臟、肺臟、肌肉和血液轉錄組拼接后在六大數據庫中得到注釋,其中KEGG、GO和KOG數據庫注釋結果表明,除了參與一般功能預測之外,在信號傳導機制、細胞進程、生物調節、代謝進程、結合和神經活性配體-受體相互作用中都有較高的表達,說明這4個組織的能量代謝十分活躍,以滿足雨燕高能量需求的生活方式。鳥類在連續拍打飛行的過程中完全是有氧運動,機體在有氧條件下進行葡萄糖、蛋白質,特別是脂肪酸代謝[29?30]。在鳥類脂肪中儲存的甘油三酯和膜內磷脂的脂肪酸組成受膳食組成、脂肪酸從頭合成和內源性調節的影響[31]。脂肪酸在脂肪組織中的流動速度、肌肉對脂肪酸的吸收能力以及整個動物的生產表現都受到脂肪酸鏈長度、雙鍵位置和不飽和程度的影響[32]。Zajac etal.[33]研究表明,圈養白喉麻雀(Zonotrichia albicol?lis)暴露在長日遷徙光周期下,其在肌肉膜(FAT/CD36和FABPpm)和細胞質(H-FABP)上表達大量脂肪酸轉運蛋白,遷徙使飛行肌CPT、CS和HOAD的活性分別增加,LDH活性降低31%,反映出有氧能力相對于無氧能力的增加。
在不同的組織中,轉錄組基因表達通常會有所不同,本研究中血液和肌肉的差異表達基因數目最多,可能是肺臟和心臟在血液循環系統中發揮著重要作用,心臟和肺臟中都有肌肉組織,因此血液和肌肉在功能上差異最大。GO注釋結果顯示,在二級分類中,血液 vs. 肌肉、血液 vs. 心臟、肺臟 vs. 心臟都在細胞進程、細胞結構組件及結合條目中差異最大。在生物體中,蛋白質與DNA之間的結合作用可以調控基因的表達,受基因調控的細胞最終會分化形成不同的器官,含有不同的細胞結構組分,發揮著不同的功能,共同維護機體的正常生理活動[34]。在KEGG注釋結果中,氧化磷酸化通路中差異基因富集最顯著,可能是不同器官對能量需求不一致,因此差異較大。Bradley et al.[35]研究黃腰鶯(Setophagacoronata)在遷徙狀態和耐力飛行的季節性變化中,發現耐力飛行導致飛行肌肉和心臟組織中的半乳糖凝集素-3 mRNA顯著升高,而肝臟中沒有觀察到變化。此外也有研究者在蜂鳥(與北京雨燕在食蟲鳥類中親緣關系最近)中發現編碼糖異生肌肉酶FBP2(果糖二磷酸酶2)的缺失,參與線粒體呼吸的組織和基因在蜂鳥飛行肌中表達上調[36]。
本研究利用高通量測序技術,對雨燕的肌肉、肺臟、心臟和血液進行轉錄組測序,質控后得到32. 80 Gb的clean data數據,將通過組裝拼接得到的unigenes利用BLAST軟件比對GO、KEGG、KOG、Pfam、Swiss-Prot和NR數據庫,共15 295條unigenes得到功能注釋,分別有13 869、13 339、10 451、14 040、9 613、15 286條,共發掘6 700個新基因。各個組織間差異基因也得到更深入的分析。這些研究成果為后續對雨燕基因組學的研究、群體遺傳多樣性的分析以及對能量代謝的研究提供了參考依據。