潘 愷 郭志英 劉 杰 王昌昆 宋 歌 賈仲君 潘賢章?
(1 土壤與農業可持續發展國家重點實驗室(中國科學院南京土壤研究所),南京 210008)(2 中國科學院大學,北京 100049)
土壤是地球上最多樣化的生物棲息地之一,不僅包含較大的生物體,如線蟲、螞蟻或鼴鼠等,還包含大量的細菌和真菌等微生物群體。每克土壤中的微生物數以億計,物種類型達10萬余種,這些海量的微生物與復雜的土壤環境總稱為土壤微生物組,其中蘊藏的巨大微生物多樣性被認為是地球元素循環過程的重要驅動力[1-3]。傳統的土壤微生物多樣性研究手段,如實驗室培養法,能分離鑒定的土壤微生物種類數量較少[4],近年來隨著高通量測序等新技術的快速發展,大規模、高效、低價檢測微生物多樣性成為了可能,同時極大地推動了土壤微生物學研究。
不過面對高通量測序產生的海量數據,如何進行管理、加工和分析又成為新的課題,迫使微生物學家不得不加入大數據俱樂部[5]。這種努力又反之促進了微生物領域專業數據庫和參考數據庫的發展。目前得到廣泛應用的微生物數據大部分存儲在公共的宏基因組在線數據庫平臺中,例如美國阿貢實驗室開發的MG-RAST[6-7]、美國能源部聯合基因組研究所的整合微生物基因組和宏基因組(IMG/M)[8]、以及metaMicrobesOnline[9]、宏基因組病毒信息學資源(VIROME)[10]、MGnify(原EBI Metagenomics)[11]等。這些在線數據庫平臺大都提供內置的注釋管道,通過將用戶提交的測序數據與后臺的參考測序數據庫進行比對,進行物種分類及功能注釋。……