孫善峰,黃曉寧,韓北忠,陳晶瑜*
(1.中國農業大學 食品科學與營養工程學院食品質量與安全北京實驗室,北京 100083;2.中國農業大學 農業部葡萄酒加工重點實驗室,北京 100083)
以分子生物學為基礎的生物信息學的誕生和發展最早可以追溯到20世紀60年代,兩屆諾貝爾獎得主鮑林的分子進化理論的出現,預示著生物信息學的來臨[1]。2001年,隨著人類基因組測序工作的完成和人類基因組草圖的公布,生物信息學的研究走向了一個高潮[2]。生物信息學的根本目標是增加對生物學過程的認識,具體而言,就是發展和應用有效的計算方法(如模式識別、數據挖掘、機器學習算法和可視化技術等)來達到對生物學更深層次的理解[3]。
宏基因組學是專門針對復雜微生物群落發展起來的基因組學技術,其研究基本上可以分為核糖體核糖核酸(ribosomal robonucleic acid,rRNA)基因(細菌和古菌的16S rRNA基因或真菌的18S rRNA、28S rRNA基因和ITS基因)的分類和鑒定(擴增子測序)、功能基因的多樣性和分類分析以及全部宏基因組脫氧核糖核酸(deoxyribonucleic acid,DNA)的整體測序(全基因組測序)和分析等[4]。擴增子測序利用獨立培養的分子生物學技術、方法和手段對宏基因組進行系統研究,分析微生物在研究對象中的基因序列集合,研究其群落結構與預測功能等。1986年,OLSENGJ等[5]提出,直接從環境中克隆核糖體小亞基RNA編碼基因,即16S rRNA基因,開啟了以獨立培養的分子生物學方法研究微生物多樣性的新大門。1996年,STEIN J L等[6]通過構建海水微生物克隆文庫,鑒定出了未培養過的古菌的16SrRNA基因,成為宏基因組在微生物領域研究的里程碑。基于宏基因組數據的生物信息學方法廣泛用于微生物學研究,根據微生物來源,可以分為土壤微生物、海洋微生物、腸道微生物、農業微生物、食品微生物等。與其他領域相比,擴增子測序數據的生物信息學分析在傳統發酵食品微生物研究中的應用起步晚、發展慢,仍存在差距,但最近的相關研究逐漸增多,本文歸納和比較了近幾年發展的主要的生物信息學分析方法,以期為今后的研究提供參考。
中國傳統發酵食品風味獨特、營養豐富,參與發酵過程的微生物種類眾多,形成的菌群結構復雜[7]。面對中國傳統發酵食品中如此復雜的微生物,僅憑借低通量、純培養的方法效率很低。隨著擴增子測序技術在微生物研究中的應用以及生物信息學分析的滲入,為復雜微生物菌群多樣性的闡明、功能和相互作用的預測提供了更為迅速的解決方案。擴增子測序技術在微生物研究中的應用極大的促進了科研人員對于復雜微生物菌群的認識,其規避了無法培養的微生物對群落中微生物種類認識的局限。自擴增子測序技術應用于傳統發酵食品微生物研究以來,產生了大量的生物序列數據,為了充分利用這些序列數據,揭示數據背后隱藏的生物學信息,需要使用信息科學的方法和技術進行管理和分析。生物信息學以低成本和高通量的方式從大量的生物學數據中挖掘出對研究對象有價值的信息,為實驗研究提供參考和指導。
生物信息學研究主要包括數據庫、算法和工具。核酸數據庫按照構建方式有一級和二級之分。最權威的三大國際核酸一級數據庫為GenBank[8]、EMBL[9]、DDBJ[10]。二級數據庫是基于一級數據庫,增加相關信息并經加工和構建而成的具有特殊生物學意義和專門用途的數據庫,如能夠對三域微生物(細菌、古菌、真核)rRNA基因序列分類的數據庫SILVA等。自1994年以來,每年“Nucleic Acids Research”期刊的第一期刊物為分子生物學數據庫特刊,回顧當前的分子生物學數據庫資源,截至2018年已收錄數據庫1 898個[2,11]。
生物信息學研究的常用算法有模式分類、統計算法、特征提取、數據壓縮等。這些算法在宏基因組數據處理中均有應用,如模式分類中的聚類方法用于挖掘基因之間的調控關系,K近鄰法(k-nearest neighbor,k-NN)用于系統發生樹的構建;統計算法中的隱馬爾可夫模型用于基因預測;特征提取算法用于基于序列特征的宏基因組數據的分裝;數據壓縮用于主成分分析(principalcomponentanalysis,PCA)等,為實驗人員提供了大規模數據分析的手段和實驗設計的重要參考。
生物信息學為生物學研究提供了有力的分析工具,通過分析和處理實驗數據進行提示、指導甚至替代部分實驗操作。基于擴增子測序的宏基因組分析常用生物信息學工具見表1[1]。

表1 基于擴增子測序的宏基因組分析常用生物信息學工具Table 1 Bioinformatics tools commonly used for metagenome analysis based on amplicon sequencing

圖1 基于擴增子測序的宏基因組數據生物信息學分析流程Fig.1 Bioinformatics analysis process of metagenomic data based on amplicon sequencing
基于擴增子測序的宏基因組數據生物信息學分析基本流程見圖1[1],主要包括:提取樣本總DNA;聚合酶鏈式反應(polymerase chain reaction,PCR)擴增目標區域;構建質粒文庫測序;測序數據去噪處理(如去除接頭、序列標簽、引物序列、低質量的序列及嵌合序列等);去噪序列聚類生成分類單元(operational taxonomic units,OTUs),并進行后續生物信息學分析(OTU代表序列分類學注釋、系統發育樹繪制及多樣性分析等),同時可以結合實時熒光定量聚合酶鏈式反應(real-time quantitative polymerase chain reaction,RT-qPCR)進而實現菌群分布定量及差異比較分析。目前,主流的菌群鑒定軟件QIIME和MOTHUR都是按照圖1流程實現的[21-22]。QIIME無論在時間消耗,還是在聚類結果的準確性及可信性上,都優于MOTHUR聚類方法,更適合高通量測序數據和復雜環境樣本[1]。2018年,QIIME2.0正式上線,QIIME2.0中DADA2[15]代替了原先的UCLUST。DADA2根據擴增子測序數據推斷確切的擴增子序列變體(amplicon sequence variant,ASV),取代較粗糙的操作分類單元(OTU)聚類方法;DADA2改善了菌群多樣性和差異性的下游分析,并可能使擴增子測序方法探測到菌株水平的變化;DADA2通過準確重建擴增子測序的群落提高了研究人員對微生物群落的研究,比較表明,DADA2比MOTHUR[21]、QIIME(UCLUST)[22]、UPARSE[23]、MED[24]方法更準確[15]。今后,QIIME2流程將會越發廣泛的應用于擴增子測序結果分析。
通過聚類獲得的OTU代表序列,需要與相應數據庫比對注釋以進行下一步的分析。目前微生物學研究常用的數據庫有rRNA基因數據庫(RDP、SILVA、Greengenes、EzBioCloud等)和內部轉錄間隔(internal transcript space,ITS)序列數據庫(UNITE、ITS2等)。RDP和SILVA是目前微生物學研究rRNA基因比對注釋常用的數據庫。RDP的Classifier功能可用于rRNA基因測序后的物種分類鑒定,能夠方便地確定某條rRNA基因序列從門到屬/種水平的分類信息并給出各水平相應的置信度。SILVA結合ARB軟件進行rRNA質量檢測和序列比對,是MOTHUR分析工具中推薦的數據庫。Greengenes和EzBioCloud是僅收錄16S rRNA的數據庫。Greengenes數據庫收錄有微生物的功能信息,結合PICRUST分析工具能夠對微生物群落功能進行預測。對于EzBioCloud,主要是利用數據庫的Identify功能確定16S rRNA基因序列的近緣可培養或模式種,較少用于高通量測序16S rRNA的參比。UNITE(僅收錄ITS序列)和ITS2(僅收錄ITS2序列)是真菌的專屬數據庫。UNITE和ITS2在應用上有所區別,前者通常用于分類注釋,后者通常用于真菌鑒定。
OTU聚類及物種注釋后的分析由于研究目的不同會呈現出一定的差異。但核心分析主要包括兩個方面:物種組成分析和功能組成預測分析。群落的組成分析、系統發育分析、相似性分析、PCA/主坐標分析(principal co-ordinates analysis,PCoA)是常用的物種組成分析方法。功能組成預測分析主要包括群落組成功能預測分析、群落基因功能與環境相關性分析、代謝途徑相關分析等。一般分析思路為:對物種或功能先進行整體描述,然后分析總體差異和分組差異,最后進行微生物組和環境因子關系的關聯分析并用無菌體系進行驗證以證實因果。
Microbiome Helper[47]是一款整理優化了多套擴增子(16S/18S/ITS)、metagenome分析流程的開源軟件。作者提供了一系列的輔助腳本,使宏基因組數據分析更加自動化,顯著提高使用者的分析效率。2018年6月發表的基于Galaxy的微生物數據分析框架ASaiM[26]集成了100多種分析工具,內置了多種參考分析流程,能夠通過Docker方式快速部署,方便非組學分析研究領域的使用。
現階段,采用基于擴增子測序的宏基因組學方法研究中國傳統發酵食品微生物,旨在識別、鑒定傳統發酵食品微生物的菌群結構,預測代謝功能,闡明相互作用關系。基于擴增子測序的宏基因組數據生物信息學分析方法在傳統發酵食品微生物研究中的代表性成果見表2。

表2 基于擴增子測序分析的宏基因組數據生物信息學分析方法在傳統發酵食品微生物中的代表性研究Table 2 Representative studies of bioinformatics analysis methods of metagenome data based on amplicon sequencing analysis in traditional fermented food microorganisms
由表2可以看出,現階段用于傳統發酵食品微生物研究的基于擴增子測序的核酸序列處理流程主要為QIIME和MOTHUR,聚類方法主要是USEARCH和UPARSE。而最近出現的QIIME2流程優于QIIME流程,DADA2算法也優于USEARCH、UPARSE算法。另一個比較先進的算法是UNOISE2[16],該算法經過糾正點錯誤獲得準確擴增子序列及過濾嵌合擴增子,序列比對后聚類生成零半徑分類單元(zero-radius operational taxonomic unit,ZOTU)。與DADA2不同,UNOISE2使用一次性聚類策略,該策略不使用質量分數(Q)并且只有兩個預設值,能夠在不同的數據集上很好的工作。ZOTU在大多數情況下優于傳統的97%OTU,使用97%的同一性可能將不同序列表型不同的菌株合并成同一OTU[15,42]。
基于擴增子測序數據進行功能預測的生物信息學工具見表3。功能預測的常用軟件有利用16S rRNA序列對細菌群落功能進行預測的分析工具FAPROTAX[17]、BugBase[18]、MMinte[19]、PICRUSt[43]及Tax4Fun[44],利用ITS序列對真菌群落功能進行預測的分析工具FUNGuild[20]等。現階段功能預測主要集中在海洋微生物(WANG K等[45]通過PICRUSt預測得到了硫代謝相關基因的豐度信息)、腸道微生物(VRIEZE J D等[46]使用Tax4Fun對厭氧消化過程的總細菌、古菌和活躍細菌、古菌的菌群功能進行了分析,發現對活躍菌進行功能預測能夠獲得消化過程菌群活動和實現對消化過程機理系統層面的理解)、土壤微生物(TOJU H等[47]使用FUNGuild對ITS測序數據進行分析,揭示了土壤真菌的微共生現象)、農業微生物(LOUCA S等[48]使用FAPROTAX分析鳳梨科植物微生物纖維素分解、發酵、氮呼吸等功能的菌群結構組成,發現盡管微生物群落具有穩定的功能結構,但其分類學水平的微生物群落結構具有較高的變異性,證明了相同生態系統之間的微生物群落結構變異并不意味著群落功能具有差異)研究中。然而對于微生物群落功能預測的應用,應采取謹慎的態度。一方面,由于功能預測工具都是基于一定的參考序列數據庫進行功能預測,預測結果受到參考序列數據庫的局限。另一方面,預測過程的數據預處理也會造成原始數據的部分損失,對預測結果產生一定的影響。同時,功能預測不能替代全基因組研究(只能對已知微生物的已知功能進行預測),但可以對后續實驗設計作出指導。

表3 基于擴增子測序數據進行功能預測的生物信息學工具Table 3 Bioinformatics tools for functional prediction based on amplicon sequencing data
目前,對于擴增子測序數據的分析已相對成熟,可供選擇的各種數據庫、算法、工具和平臺日益增多。根據數據分析的需要,選擇合適的分析工具,并對分析工具和原理進行深入的了解有利于分析過程參數調節和結果的進一步處理。隨著宏基因組技術的發展,新的算法和計算平臺將會不斷出現。積極采用最新算法,比較不同算法之間的準確性和差異,將會加速對傳統發酵食品微生物的研究。此外,為了規范傳統發酵食品樣本信息,有效存取海量數據信息,提供更多公用的數據源,需要建立規范的傳統發酵食品微生物宏基因組信息存儲平臺,為宏基因組技術在傳統發酵食品微生物研究中的廣泛應用提供堅實的基礎。