葉遠濃,梁定發,曾 柱
(1. 貴州醫科大學大健康學院 貴陽 550025;2. 貴州醫科大學環境污染監測與疾病控制教育部重點實驗室 貴陽 550025)
細菌非編碼RNA(non-coding RNA, ncRNA)是近年來在細菌基因組內新發現的一類基因表達調控因子,分子大小為40~500 個核苷酸,在RNA 的轉錄調節、染色體復制、RNA 加工與修飾、mRNA翻譯與穩定性、蛋白質降解與轉運和細菌感染等生物過程中扮演著重要角色[1]。隨著被發現的細菌ncRNA 數目迅速增加,及其在生物體內的重要作用,細菌ncRNA 已成為微生物的研究熱點之一[2]。由于ncRNA 在生物體內扮演重要角色,新ncRNA的識別具有重要的科學意義和極大的商業價值。
在生物體所包含的ncRNA 中,與必需基因概念類似,有一部分ncRNA 是生物體生存所必不可少的,稱之為“必需非編碼RNA”(必需ncRNA,essential ncRNA)[3]。雖然必需ncRNA 不能像必需基因一樣編碼蛋白,但其在生物學上的研究地位與必需基因同等重要,具有重要的理論研究和實際應用價值。如大部分抗生素以基本的細胞過程為靶標,而細菌的ncRNA 在細菌生命活動中發揮著極為廣泛的作用,包括結構調節到催化作用,影響各種加工過程,如細菌毒性、發育控制、mRNA穩定性與蛋白質降解等[4],因此細菌的必需ncRNA可以作為藥物開發的潛在靶標,以降低致病菌的耐藥性。同時,對必需ncRNA 的理論研究有助于理解和確定最小基因組的構成和功能作用,如文獻[5-6]認為一個完整的最小基因組除了編碼蛋白,還需包括調控和結構原件,如5’-UTRs 和ncRNA。文獻[7]報道了一個包含必需ncRNA 的最小細胞。文獻[8]在構建細菌最小基因集算法中也提出一個最小基因組,除了最小基因集,還應包含最小非編碼RNA 集。
文獻[9-10]確定了一個新的miRNA 為ncRNA,最早提出“必需ncRNA (essential non-coding RNA)”的概念。文獻[6]使用428735 個Tn5 轉座子插入測定新月柄桿菌(Caulobacter crescetus) 的基因組時,除了確定480 個必需基因外,還確定了29 個必需tRNA 和8 個必需小ncRNA。在肺結核分支桿菌(Mycobacterum tuberculosis)中,文獻[11]使用36788 個轉座子插入方法在確定必需基因的同時發現了25 個必需基因組片段,包括10 個tRNA 和參與tRNA 過程的RNaseP 的RNA 催化單元。文獻[12]用類似的方法在鼠傷寒沙門氏菌(Salmonella enterica serovars)中發現了15 個必需ncRNA。值得注意的是,RNaseP 再次被確定為必需ncRNA,因此它可能是一個在細菌中普遍存在的必需ncRNA。
文獻[13]測試了一些ncRNA 對毒性效應具有niche-specific 的作用的假說,因為越來越多的證據表明ncRNA 參與致病菌致病過程,該文獻首次用RNA-seq 技術確定了一種肺炎病原體——肺炎鏈球菌(Streptococcus pneumoniae)的全套ncRNA,包含89 個ncRNA。文獻[14]重新確認了酵母的180個必需ncRNA。
正是由于細菌ncRNA 在細菌生長、侵染宿主和致病機理過程中發揮著極為廣泛的調控作用,對細菌ncRNA,特別是必需ncRNA 的干擾會使其失去調控作用,從而影響到細菌的生長、侵染宿主的能力。在細菌耐藥性問題日益突出的今天,亟待積極研發新型抗菌靶點和藥物。基于細菌必需ncRNA 為靶點的新型藥物開發,有助于降低細菌耐藥性問題,所以亟需發展細菌必需ncRNA 的高效識別、鑒定方法。
ncRNA 在合成生物學研究領域也具有不可或缺的地位。在現階段,定義一個能夠維持生物體存活的最小基因組是生物學的主要挑戰之一。目前大部分關于最小基因組的研究主要基于傳統的蛋白編碼基因,而忽略了ncRNA,這種基于不完整的注釋,導致最小基因組的準確性受到了限制[15]。針對這一問題,文獻[7]以注釋較為完整、本身具有較小基因組的細菌——肺炎支原體(含有694 個ORF、311 個ncRNA、43 個編碼RNA)作為研究對象,首次獲得了一個既包含編碼基因,又包含ncRNA的最小細胞。
總的來說,研究基因組中的必需基因組元件,如必需ncRNA 等,在生物學研究中具有重要的科學意義和應用價值,包括從合成生物學到抗病原菌的藥物靶標確定。因此,必需ncRNA 應該如必需基因概念一樣,成為最小基因組研究的重要對象之一。為達到這一目標,亟需確定細菌的必需ncRNA,這就需要發展快速確定必需ncRNA 的計算機識別算法,因此收集細菌的必需ncRNA 作為算法開發數據集顯得及其重要和必要。
目前,還沒有專門的必需ncRNA 數據庫。天津大學生物信息中心構建的必需基因數據中雖然收集了目前測序的必需ncRNA,但是該數據庫僅收集了必需ncRNA 的序列信息[16-19],這對于開發高效的必需ncRNA 計算機識別方法是不足的?;诖耍狙芯繕嫿藢iT的細菌必需ncRNA 數據庫DBEncRNA(database of bacterial essential ncRNA),更便于進一步研究抗菌靶標發現和最小基因組。
目前在12 種細菌中,必需ncRNA 已經被系統地實驗確定。雖然必需ncRNA 的數據量相較必需基因要少很多,但沒有一個真正的必需ncRNA 數據庫跟得上科學研究和藥物設計的需要。本研究收集測序的細菌基因組中包含了和人類疾病密切相關的細菌必需ncRNA。目前,DEG 數據庫收錄了部分細菌的必需ncRNA 數據[16],如表1 所示。

表1 來源于DEG 數據庫的細菌必需ncRNA 數據
此外,為了使得構建DBEncRNA 數據庫包含的物種和序列更全面,除了上表所列數據,本文還通過“essential”、“ncRNA”、“non-coding RNA”、“essentiality”、“microorganism”、“bacteria”等關鍵字的組合在Google、Pubmed 等數據庫上進行檢索,將檢索到的符合要求的序列作為DBEncRNA數據庫的來源。
必需ncRNA 是從功能上來定義的,而功能與結構是密切相關的[2,25],因此對RNA 分子結構的研究就成為分子生物學的一個重要領域,其中RNA二級結構預測被作為研究RNA 分子結構的主要手段。因此為了方便用戶使用DBEncRNA 數據庫,本文用RNAfold 工具對每一個收集的必需ncRNA進行了二級結構預測[26]。同時為了方便用戶直觀地觀察ncRNA 的二級結構,本文調用了RNA 二級結構可視化工具Forna[27]。
在生物信息學中,通常認為序列相似則功能相似,為了幫助用戶挖掘其余未經實驗確定的必需ncRNA,DBEncRNA 數據庫引入BLAST 序列比對功能,幫助使用者基于DBEncRNA 數據庫通過同源序列比對發現其感興趣的ncRNA 序列[28]。
DBEncRNA 數據庫的原始必需ncRNA 數據來源于DEG 6.5 和關鍵字爬取,在獲得原始數據后進行以下處理:首先,因為DBEncRNA 數據庫提供了必需ncRNA 的二級結構信息,因此剔除沒有核酸序列的ncRNA 信息;其次,根據DBEncRNA數據庫的使用功能,篩選保留描述ncRNA 的相關信息,如表2 所示。最終獲得了一個含有20 株細菌,共包含884 條必需ncRNA 序列及相關信息的數據庫,如表3 所示。

表2 DBEncRNA 數據庫細菌必需ncRNA 信息

表3 DBEncRNA 數據庫數據統計信息
其中新月柄桿菌(Caulobacter crescentus)的必需ncRNA 數目占數據庫總數的近61%,其次是鮑氏不動桿菌(Acinetobacter baumanniiATCC 17978)的必需ncRNA 數目,占近7%。實驗確定必需ncRNA的培養條件總共有5 種,其中主要以完全培養基(rich medium)條件為主,占75%,這是在充足生長條件下確定必需基因和必需ncRNA 的常用培養條件。根據ncRNA 所屬類別可將ncRNA 分為10 大類,如圖1 所示, 屬于啟動子類型的ncRNA 將近一半,其次是屬于tRNA 類型的ncRNA。

圖1 DBEncRNA 數據庫必需ncRNA 類別分布圖
為了方便用戶使用DBEncRNA 數據庫,本文用RNAfold 軟件數據庫收集的每個必需ncRNA 進行二級結構預測,對于每一條必需ncRNA,RNAfold采用兩種方法對其進行預測,分別是基于最小自由能的預測方法(minimum free energy)和基于熱力學的預測方法(thermodynamic ensemble),對于每一種預測的二級結構,均給出該結構下的最小自由能等信息。
將預測出的每種二級結構以及對應的分子結構注釋信息導入到DBEncRNA 數據庫,同時,引入可視化插件,使用人員可以按需查看其二級結構。
DBEncRNA 的數據主要包括884 個ncRNA 及其預測的分子結構和注釋信息,所有數據被整理并存儲在關系型數據庫MYSQL 上,可通過http://yeyn.group:86 免費訪問,DBEncRNA 經測試可在不同的操作系統(如Windows、Linux 和 Mac)以及各種瀏覽器(如Internet Explorer、Mozilla Firefox、Google Chrome)上使用。
通常認為序列相似則功能相似,為了幫助用戶確定其感興趣的ncRNA 是否屬于必需ncRNA,將BLAST 序列比對工具引入DBEncRNA 數據庫。用戶可以通過提交序列預測其必需性,該功能可以通過點擊DBEncRNA 數據庫頁面上的“BLAST”鏈接實現。
為了方便用戶使用,本文還提供DBEncRNA數據庫的數據下載,用戶可以根據研究需要,下載必需ncRNA 的核酸序列和二級結構數據。
當前,必需ncRNA 的數據量持續增加,但還沒有一個真正的必需ncRNA 數據庫。這遠遠跟不上科學研究和藥物設計的需要,急需開發出專門的數據庫并在此基礎上開發必需ncRNA 識別的計算機軟件去識別更多的必需ncRNA。因此,本研究通過收集已經測序的細菌基因組中包含的必需ncRNA,構建了必需ncRNA 數據庫?;谠摂祿斓臄祿?,生物信息人員后續可以開發基因序列組成和序列衍生信息的必需ncRNA 識別算法,同時可以利用其二級結構數據以提高相關算法的準確性。
DBEncRNA 數據庫能對抗菌藥物靶標發現和對合成生物學研究提供數據支撐。除此之外,對病原菌必需ncRNA 的深入研究也將推動開發新的致病菌快速檢測系統。DBEncRNA 數據庫有助于設計針對特定致病菌高度特異和高度敏感的RNA 探針,而后者可應用于臨床快速檢測系統。總之,利用DBEncRNA 數據有助于開發出預測每種致病菌特有必需ncRNA 的方法,也有助于發展新的致病菌特異性預防和治療方法。