趙 亮,王 莉,汪地強,王和玉,閆松顯(貴州茅臺酒股份有限公司技術中心,貴州仁懷564501)
白酒微生物群落研究技術現狀與二代測序數據分析方略
趙亮,王莉,汪地強,王和玉,閆松顯
(貴州茅臺酒股份有限公司技術中心,貴州仁懷564501)
摘要:白酒釀造實質上是微生物消長演替、代謝產物積累變化的過程,要搞清白酒本質,必須從微生物著手。微生物在酒醅發酵過程中以群體方式發揮作用,準確解析微生物群落構成及演替模式既是闡明白酒產量、質量的前提,也是進一步研究微生物功能及代謝的基礎。針對各類微生物群落研究技術在白酒領域使用現狀,對國內外研究報道做系統分析,發現純培養以及不可培養DGGE/TGGE是目前研究白酒微生物群落的主流技術,而對微生物群落揭示較全面、系統的二代測序技術使用相對較冷,僅在外文期刊中報道相對較多。其次,通過應用現狀成因分析,認為大多數研究者對測序數據的理解和分析水平不足是造成目前二代測序使用現狀的主要原因。基于此,對測序后反饋的重要結果做系統解釋,并提出5類分析微生物群落的重要多元統計方法以及各類方法分析策略與使用方案,旨在為白酒微生物群落研究者提供可行性高、參考性強的二代測序數據分析方略。
關鍵詞:白酒; 二代測序; 微生物多樣性; 多元統計方法; 釀酒微生物
白酒作為我國傳統發酵食品,歷史悠久,長期受到人民大眾的喜愛。中國傳統白酒,是以富含淀粉質的糧谷類為原料,并輔以大曲作糖化發酵劑,采用固態、半固態或液態發酵技術,經蒸餾、貯存以及勾調過程釀制而成的含酒精飲料[1],被列為世界著名六大蒸餾酒之一。結合白酒生產工藝可知,白酒釀造過程實質上是相關微生物經歷消長演替,代謝產物變化積累的過程。這些相關微生物統稱白酒微生物,既包括自然接種的天然微生物,也包括人工選育的純種微生物;既包括糖化菌、發酵菌等有益微生物,也包括導致苦味和酸敗的有害菌[2]。
要解析白酒本質,必須從白酒微生物研究入手。微生物在白酒發酵中是以群體的方式發揮作用,因而準確解析白酒微生物群落既是闡明白酒產量與質量的前提,也是進一步研究微生物功能及代謝變化的重要基礎。微生物群落研究,亦即微生物生態研究,主要揭示微生物在被研究環境(環境在這里特指微生物群落的棲息場所,如土壤、酒醅、大曲、水體、動植物組織等)內的多樣性,以及微生物與環境、微生物之間相互作用關系,微生物如何維持在環境中特有的多樣性水平。據此,微生物生態研究目前大致分為兩個領域:①微生物多樣性領域,包括對環境內各微生物組分進行系統分類鑒定、定量,以及對微生物群落構成多樣化進行衡量;②微生物活性領域,包括微生物區系(適應環境,并可在環境中正常生長繁殖的主要微生物組成的群落結構)研究,對環境理化特征產生影響或維持環境內特定微生物多樣性水平的主要群落結構研究,同時包括微生物與微生物、微生物與環境間生態響應關系的研究[3]。
微生物群落研究至今,其遺傳信息獲取技術大體包括[4-6]:①傳統微生物純培養法;②以PCR為基礎的微生物指紋圖譜法:主要包括DGGE/TGGE、AFLP、SSCP、RFLP、RAPD、Q-PCR、T-RFLP;③核酸探針雜交技術:主要包括FISH、生物芯片;④磷脂脂肪酸法(PLFA);⑤Biolog微平板法;⑥宏基因組測序法。白酒微生物群落的信息獲取與分析,同樣依賴上述6類技術手段。本文將進行以下研究:(1)通過文獻搜集統計,分析白酒微生物群落研究技術現狀;(2)針對近年來逐漸成為微生物群落研究主流的前沿技術——第二代測序技術(又稱宏基因組或高通量測序技術),剖析其在白酒微生物生態領域的應用現狀及前景;(3)針對第二代測序技術的應用,提出研究者如何通過商業測序公司返回的測序數據分析結果,合理利用、解釋自己的研究內容,并根據國際上分析微生物生態數據較為主流的統計方法,針對白酒微生物群落高通量數據的深度挖掘給予相關建議。
1.1文獻統計
為盡可能全面獲得白酒微生物群落研究信息,筆者分別以“白酒”“大曲”“酒醅”為搜索關鍵詞,結果如圖1所示,從中國學術期刊全文數據庫(CNKI)篩查到與微生物群落研究內容相關的文獻報道58篇,分別出自13類中文學術期刊,其中《釀酒科技》文章刊登量最多,占篩查文獻總數的50%(29/58)。同樣,筆者以Chinese liquor、Daqu、Fermented grains為搜索關鍵詞,通過SCI科學引文索引數據庫(Web of Science)篩查到85篇相關文獻,分別出自20類外文學術期刊,其中J I Brewing和World J Microb Biot文獻產出量最高,分別占篩查文獻總數的16.5%(14/85)和12.9%(11/85)。根據中文、外文篩查文獻總數顯示,白酒微生物群落研究目前正處于發展階段,文獻報道量不高,且期刊分布類型較少。此外,外文文獻多數發表于影響力(Impact factor)偏低的期刊,微生物學科權威性期刊,以及高影響力綜合性期刊幾乎沒有白酒微生物群落研究的報道。根據我們對環境微生物領域發表文章的水平評估發現,期刊影響力越高,文章中涉及的微生物信息獲取方法越先進,并且后期生物信息分析深度、嚴密,所得結論可靠性強。

圖1 白酒微生物群落研究文章發表統計
1.2白酒微生物群落研究技術概況
為直觀反映微生物群落研究技術在白酒領域應用現狀,我們對各類技術方法發表于圖1中各期刊的頻率做匯總,并以期刊名與技術方法作響應變量,發表頻率作解釋變量,進行對應分析(Correspondence analysis,CA)并生成雙標圖(圖2)。圖2中各圓代表不同研究技術,圓面積表示此技術使用頻率,面積越大,使用頻率越高,反之越低;圓與期刊名在圖中距離越近,表示發表于該期刊文章使用此技術的相對頻率越高;圓越靠近坐標原點,表明此技術越普及。由圖2可知,國內文獻多采用純培養、DGGE、以及Biolog技術分析白酒微生物群落,特別是純培養技術的應用在國內文獻的占比與普及程度最高。相對于此,其他一些技術如PLFA和PCR-SSCP,分別與中國釀造、四川理工學院學報在圖中距離最近,說明兩類技術僅分別在這兩種期刊文獻中較常使用,在其他期刊文獻中很少或不被使用。國外SCI文獻中,DEEG技術使用頻率和普及程度最高,二代測序技術普及程度次之,但使用頻率略低于Q-PCR與純培養技術。通過整體對照發現,純培養技術無論在國內或國際文獻中使用頻率均高,這與微生物在白酒釀造中實際應用有關。以DGGE、Q-PCR、二代測序和克隆文庫測序為代表的非培養技術,DGGE無論使用率和普及程度在國內外文獻中均占一席之地,這可能與DGGE技術使用成本低廉、群落中不可培養優勢微生物分離效果較好有關。然而,從微生物群落研究現階段發展來看,二代測序技術無疑是揭示環境微生物群落成分及結構最理想手段,但此技術僅在國際期刊文獻中有一定程度普及,且使用頻率并非最高。針對此現象,我們認為潛在原因有兩點:(1)二代測序技術成本偏高,市場單價隨測序樣本量大小以及測序公司不同基本在每樣400~700元之間浮動,此外,一項研究需要較大樣本量才能滿足此類研究對數據統計的嚴格需求,以致總體研究成本偏高;(2)實驗室經費充足,但對二代測序技術了解不足,面對測序公司返回結果無力適從,多數情況僅能以測序公司返回的初級結果支撐文章論點,導致研究成果無法在權威性強、高影響力的雜志發表。本文后續內容將針對潛在原因2,深入探討二代測序反饋結果中可能涉及到的幾類重要多樣性指數意義、以及如何借助多元統計分析對反饋數據做進階挖掘,以獲得準確度高、生物學意義充實的研究結論。

圖2 對應分析雙標圖展示不同研究技術在各期刊文獻使用頻度
2.1測序平臺與反饋數據簡介
目前二代測序的主要平臺代表有Illumina公司的Solexa基因組分析儀(Illumina Genome Analyzer)、羅氏公司(Roche)的454測序儀(Roch GS FLX sequencer)和ABI的SOLiD測序儀(ABI SOLiD sequencer)。微生物多樣性分析中,以Illumina及454測序平臺應用最為廣泛。各平臺測序原理已有報道做系統探討[7-8],在此不加贅述。測序公司對微生物總DNA樣品完成可變區PCR擴增—建庫—上機測序—數據收集及質控—數據分析等一系列工作后,將結果返給客戶。因測序公司不同,返回結果在形式及細節上存在較大區別,但核心內容無外乎4個方面:①序列數據:包含命名為“rawdata”和“cleandata”2個文件夾,前者存放下機后原始序列文本,后者存放原始序列經質量控制后可用序列文本,后續分析均基于“cleandata”文件內容完成;②OTU數據:主要包含兩類信息,其一是以樣本名為列變量,OTU名(OTU通常命名為Denovoi,i=1,2,3,...,OTU總數n)為行變量的n×p矩陣,矩陣變量為每個OTU在各樣本中序列數(reads),矩陣第p列為各行OTU對應從界到屬系統分類信息(能鑒定到種的會延伸至種);其二是每個OTU代表序列(以序列長度最長,質量最好的序列作為代表序列),通常以fasta格式存放;③多樣性指數:包括α、β兩種多樣性指數,通常以excel表格文件存放;④相對豐度分布表:通常給出從界到屬(L1—L6,能鑒定到種的延伸至種L7)各分類水平下相對豐度表,每個分類水平對應一個相對豐度表。除此之外,不同測序公司會基于上述結果②—④為客戶免費提供某些進階分析服務,如組間差異性分析,繪制系統進化樹、相對豐度熱圖、相對豐度柱狀堆積圖、面積圖、樣本或組間共享OTU數目的Venn圖等。
2.2多樣性指數
經查閱眾多相關文獻發現,針對多樣性指數的生物學解釋及剖析通常作為首要內容位于文段前部,已成為構架文章主體不可或缺的內容。另外,文章重要結論的產出和后續內容的延伸均需要此部分內容做支撐。因而,筆者需要對多樣性指數做一重點討論。
各測序公司在返給客戶的結果中會提供α、β兩類多樣性指數[8],α多樣性指數原意為生境內多樣性指數,此處可理解為樣品OTU組成多樣性,如果樣品有分組,組內各樣品將整合計算,得出組內OTU組成多樣性。β多樣性指數原意為沿環境梯度不同生境群落之間物種組成的相異性或物種沿環境梯度的更替速率,此處可理解為樣品間或組間OTU組成差異度。通常測序公司會利用Mothur[9]http://www.mothur.org/或Qiime[10]http://qiime.org/軟件計算出Shannon-Wiener、Simpson、Chao1、ACE和PD 5種指數衡量α多樣性。Shannon-Wiener指數借助信息論原理,用于衡量樣本或組內下一條采集序列OTU歸屬不確定程度,不確定程度越高,多樣性水平越高。Simpson指數表示樣本或組內隨機抽取2條序列屬于不同OTU的概率,概率越大多樣性水平越高;Chao1指數是利用僅包含1條和2條序列的OTU數、結合觀察到的OTU數,估計樣本或組內OTU總數;ACE與Chao1類似,也是用于估計樣本或組內OTU總數的指數,但算法與Chao1不同,ACE主要借助稀疏OTU數結合觀察到的OTU數估計OTU總數。一般默認序列數小于或等于10 的OTU為稀疏OTU,用戶也可根據分析要求自己定義稀疏OTU序列數閾值。PD指數的“PD”取自“Phylogenetic diversity”兩個單詞首字母,意指系統進化多樣性指數。它在估計樣本或組內多樣性水平時,重點衡量不同OTU間整體親緣度,PD越高,OTU間整體親緣度越遠。β多樣性主要利用Bray-Curits和UniFrac兩類距離矩陣[11-12]衡量,距離越大說明多樣性越高。Bray-Curits距離主要衡量樣本間或組間OTU成分差異度,距離越大,差異度越高;UniFrac距離主要衡量樣本間或組間OTU平均親緣度,距離越大,親緣度越遠。同時,兩類矩陣又分加權(Weighted)和不加權(Unweighted)兩種,具體差異見表1。

表1 兩類距離矩陣算法差異
2.3數據多元統計方法
使用多元統計處理測序后數據,旨在挖掘群落間隱藏或預判的相互關系和組成模式,以及與這種關系或模式存在因果聯系的影響因素。以R[13]https://www.r-project.org/或Canoco[14]軟件分析為例,需要以樣本名作行變量,即每一個樣本代表一個群落,物種名作列變量構建一套群落分析表,表中數值為物種序列讀數或相對豐度,形式如表2。物種在這里泛指OTU或各種分類名,如在綱水平解析群落,物種名即為不同綱名。若假設分析群落存在一定分布模式,或群落分布受某些環境梯度影響,需要再構建一套用于解釋群落的環境變量表,此表行變量為樣本名,且在表中順序必須與群落分析表中行變量順序一致,列變量為分組名及其他環境變量名,制表形式如表4。這兩套表格的構建可完成后續如聚類、排序、差異性、判別、回歸及相關性5大類分析。如表4內容所示,這些分析可幫助我們全面理解釀酒微生物群落構成、演替、以及與環境間相互作用規律。下文將針對表4內容,對5大類分析的使用作逐一討論。

表2 群落分析表表格樣式

表3 環境變量表表格樣式
2.3.1聚類分析
聚類分析是利用列變量在行變量間變異程度,主要以樹圖形式表示行變量間相似或非相似度水平。如此,越相似的行變量,在圖形中越被聚攏靠近;反之,則相互遠離。在這種趨勢推動下,行變量將在一定尺度被聚集成多個組群。如表4所示,聚類分析方法眾多,但分析過程與分析結果的解讀方式基本一致(K-mean clustering除外)。以微生物群落研究最常用的聚類法UPGMA為例,Bokulich等將屬于Chardonnay musts的數據集抽離出來,構成如表2形式數據集,并結合每個OTU代表序列,構建樣本間weighted UniFrac距離,基于此距離利用UPGMA法對樣本聚類,生成聚類圖Fig.1A,后經探索分析,發現聚群模式主要由樣本采集區域不同而產生。樣本在聚類樹圖中的聚群方式和類群數目會隨研究者定義的相似度或非相似度尺度的不同而異。至于樣本在何種尺度聚群,研究者需要分析探索,通常聚群方式是否最佳,要看此方式是否能得到最有力的生物學解釋。如Bokulich等[61]在Fig.1A中確定的聚群方式可被采樣區域的不同所解釋。聚類分析是針對樣本組群分析中運算最簡單的方法,其缺陷在于研究者無法從中直接獲得樣本最佳組群數及聚群模式,因而在微生物群落分析中僅充當探索性工具使用。
2.3.2判別分析
研究者在分析群落數據時,通常認為樣本可能會因群落成分差異而劃分成多個組群,而這個組群的形成必然與實驗設計有關。如取自窖內的酒醅樣本分別來源于3個不同發酵時期,研究者會設想屬于同一發酵時期的樣本具有較高微生物群落相似度,以致樣本會形成3個組群,分別對應不同發酵時期。判別分析的作用在于評測這種假設群的準確度;同時假設群一旦成立,分析生成的判別模型可對新樣本做判斷歸類,另外可為研究者找出推動各樣本被歸于各假設群的重要變量。實際分析時,群落分析表2作解釋變量,表3任一列分組模式,即假設組作響應變量。表4羅列出5種常規分析使用時各有側重,DAPC和CAPDA側重分析假設組準確性,CAPDA可專門針對距離或相似度矩陣做判別分析,若行變量(樣本數)過多,計算時間相對較長。Rf同時具備分析假設組準確性及找出相對重要物種的作用,且特別適合大數據集分析。但要得到準確率較高的結果,研究者需要對此方法具備一定實用經驗。LDA effect size和CDA側重尋找相對重要物種,兩類分析適合在樣本量適中或較小的情況下使用。實際分析時,需要根據自己的研究目的及數據特征,從中選取幾種方法配合使用。

表4 5大類多元統計分析內容描述
2.3.3排序分析
排序分析是微生物群落研究主流分析方法。樣本間或物種間關系可能在PCA、CA、NMDS、PCoA、DCA分析中得到一定展示,但促使這種關系形成的環境梯度不在此排序分析中直接體現,需要利用樣本或物種的重要排序軸(通常為前2個排序軸)得分與相應的環境變量建立聯系,方可表現物種或樣本分布受環境梯度的影響趨勢,因而此類排序也被稱為間接梯度排序。與此相對,物種或樣本分布與環境梯度的關系可在RDA、db-RDA、CCA、DCCA分析中被直接體現,故此類排序又被稱為直接梯度排序。兩類排序具體算法本文不做贅述,研究者可通過表4及圖3了解兩類排序法的區別及使用策略。幾種直接梯度排序法分析目的及解釋途徑基本相同,至于選取哪種排序法最佳,可利用DCA分析對表2排序。DCA第一梯度軸長小于3,建議使用線性模型排序法RDA或db-RDA;軸長大于4建議使用單峰模型排序法CCA或DCCA;軸長介于3-4,線性模型或單峰模型排序法均可使用。

續表4 5大類多元統計分析內容描述

圖3 排序法使用關系流程
2.3.4相關性及回歸分析
兩類分析既有聯系又有區別。解決兩個一元數值型變量間直線相關性問題,可使用相關性分析,Kendall和Spearman秩相關性分析可針對解決數值分布非正態分布或分布模式未知的變量間相關性問題。一旦使用相關性分析發現2個變量間存在高度相關,建議使用線性回歸進一步探索一個變量隨另一個變量的變化趨勢。相關性分析中2個變量不存在因果關系,即無解釋變量和響應變量之分。分析結果中的R(R∈[-1,1])僅作為衡量2個變量間相關性程度及方向的參數,即-1≤R<0時,2個變量間呈負相關,越接近-1,負相關程度越大;0<R≤1時,2個變量間呈正相關,越接近1,正相關程度越大;當R=0時,2個變量間無相關性。相關性分析不能將R值當作回歸分析中的自變量系數,用于1個變量的數值變化推測另一個變量的數值變化。回歸分析相比相關性分析更復雜,變量數值分布模式需要提前預知。但可解決變量間直線或曲線相關性問題。用于回歸的變量必須確定自變量與應變量,兩類變量均可以是一元或多元變量。若應變量為多元變量,建議使用PLS作回歸分析。在做微生物群落分析時,需根據研究者重點考察的問題對象選擇相應分析方案,并建議在具體研究時,兩類分析方法協同并用。
2.3.5差異性分析
顧名思義,此分析用于檢驗屬于不同組的數量間是否有差異,以及衡量差異程度有多大。對于一元變量差異性分析,可借助均值或中位數比較各組數量占有高低。例如同一物種的相對豐度或序列數在不同組間差異性的比較屬于一元變量差異性分析,分析方法通常使用Anova或npAnova。但筆者發現,多數微生物群落研究者也許統計知識不足,數據列在不符合正態分布及方差齊性的情況下仍強制套用參數檢驗Anova作分析,導致結果很可能出現偏差。微生物群落研究中,所獲數據在做具體分析情形下,原始數列直接符合正態分布的情況很少,通常需要對原始數列做對數或標準化轉換,方可使用基于正態分布的統計方法。然而,多數情形下,數據即使做了轉換,仍舊不符合正態分布。非參數檢驗法不用考慮數據列的分布限制,適用范圍廣,因而此類方法也是被大量國際期刊頻繁使用、報道的原因。筆者建議,在處理龐雜的微生物群落數據時,組間差異性分析優先使用非參數檢驗法,然后針對需要重點考察或與預想偏差較大的結果,再次使用參數檢驗法。如果數列符合參數檢驗規則,分析結果以參數檢驗為準,這是因為非參數檢驗雖條件寬松,但包含信息量小,功效相比參數檢驗略遜色。至于多元變量組間差異性分析,目前微生物群落研究領域主要采用非參數分析法,如表4所示(Manova除外)。此處需要說明,基于限制排序法的組間差異性分析,可通過對干擾變量的限制隔離出目標分組所產的凈效應。例如,表2群落來自于不同發酵時期窖內酒醅樣品,并且樣品取自不同窖池、窖內不同深度。每個樣品還測得酒精含量、酸度、溫度3種理化參數。將樣本理化特征以及采樣信息錄入表3,則有3種分組模式(發酵時期、窖內深度、窖池區別),3種數值型環境變量(酒精含量、酸度、溫度),總共6個環境因子。現需要求得發酵時期是否對微生物群落成分有顯著性差異,且發酵時期單獨產生的差異有多大,則可以在分析時以發酵時期作解釋變量,另外5種因素作控制變量,以此排除控制變量對微生物群落產生的額外影響,從而獲得發酵時期的凈效應。
參考文獻:
[1]余乾偉.傳統白酒釀造技術[M].北京:中國輕工業出版社,2010.
[2]王旭亮,王德良,韓興林,等.白酒微生物研究與應用現狀[J].釀酒科技,2009(6):88-91.
[3]Xu J P.Microbial ecology in the age of genomics and metagenomics:concepts,tools,and recent advances[J]. Molecular Ecology,2006,15:1713-1731.
[4]馮佩英,陸春,朱國興.DGGE/TGGE技術在微生物基因分類鑒定中的應用[J].國外臨床醫學生物化學與檢測學分冊,2005 (26):95-97.
[5]王曉丹,謝曉麗,胡寶東,等.現代微生物分類鑒定技術在白酒釀造中的應用[J].中國釀造,2015(34):5-9.
[6]Smith C J,OsbornAM.Advantages and limitations of quantitative PCR(Q-PCR)-based approaches in microbial ecology[J].Fems Microbiology Ecology,2009,67:6-20.
[7]杜玲,劉剛,陸健,等.高通量測序技術的發展及其在生命科學中的應用[J].中國畜牧獸醫,2014(41):109-115.
[8]張金屯.數量生態學[M].北京:科學出版社,2004.
[9]Schloss P D,Westcott S L,Ryabin T,et al.Introducing mothur: open-source,platform-independent,community-supported software for describing and comparing microbial communities [J].Applied Environmental Microbiology,2009,75(23):7537-7541.
[10]Caporaso J G,Kuczynski J,Stombaugh J,et al.QIIME allows analysis of high-throughput community sequencing data[J]. Nature Methods,2010,7:335-336.
[11]Lozupone CA,Knight R.UniFrac:Anew phylogenetic method for comparing microbial communities[J].Applied Environmental Microbiology,2005,71(12):8228-8235.
[12]Faith D P,Minchin P R,Belbin L.Compositional dissimilarity as a robust measure of ecological distance[J].Vegetatio,1987,69,57-68.
[13]R Development Core Team.R:ALanguage and Environment for Statistical Computing[M].Vienna:the R Foundation for Statistical Computing,2015.
[14]Ter Braak C J F,Smilauer P.CANOCO Reference Manual and User's Guide to Canoco for Windows:Software for Canonical Community Ordination[R].Ithaca:Microcomputer Power,1998.
[15]Hartigan JA,Wong MA.AK-means clustering algorithm[J]. Applied Statistics,1979,28,100-108.
[16]Kaufman L,Rousseeuw P J.Finding Groups in Data:An Introduction to ClusterAnalysis[M].New York:Wiley,1990.
[17]Sneath P HA,Sokal R R.Numerical Taxonomy[M].San Francisco:Freeman,1973.
[18]Saitou N,Nei M.The neighbor-joining method:a new method for reconstructing phylogenetic trees[J].Molecular Biology and Evolution,1987,4:406-425.
[19]Segata N,Izard J,Waldron L,et al.Metagenomic biomarker discovery and explanation[J].Genome Biology,2011,12(6):R60.
[20]Jombart T,Devillard S,Balloux F.Discriminant analysis of principal components:a new method for the analysis of genetically structured populations[J].BMC Genetics,2010,11:94.
[21]LiawA,Weiner M.Classification and regression by Random Forest[J].R News,2002,2(3):18-22.
[22]Bartlett M S.Further aspects of the theory of multiple regression[J].Proceedings of the Cambridge Philosophical Society,1938,34:33-34.
[23]Cooley W W,Lohnes P R.Multivariate DataAnalysis[M]. New York:Wiley,1971.
[24]Gittins R.CanonicalAnalysis:AReview withApplications in Ecology[M].Berlin:Springer,1985.
[25]Husson F,Le S,Pages J.Exploratory MultivariateAnalysis by Example Using R[M].CRC Press,2010.
[26]Anderson M J,Willis T J.Canonical analysis of principal coordinates:a useful method of constrained ordination for ecology[J].Ecology,2003,84:511-525.
[27]Legendre P,Anderson M J.Distance-based redundancy analysis:testing multispecies responses in multifactorial ecological experiments[J].Ecological Monographs,1999,69:1-24.
[28]Benzecri J P.CorrespondenceAnalysis Handbook[M].New York:Dekker,1992.
[29]Mardia K V,Kent J T,Bibby J M.MultivariateAnalysis[M]. London:Academic Press,1979.
[30]Cailliez F.The analytical solution of the additive constant problem[J].Psychometrika,1983,48:305-308.
[31]Gower J C.Some distance properties of latent root and vector methods used in multivariate analysis[J].Biometrika,1966,53:325-338.
[32]Gower J C,Legendre P.Metric and Euclidean properties of dissimilarity coefficients[J].Journal of Classification,1986,3:5-48.
[33]Legendre P,Gallagher E D.Ecologically meaningful transformations for ordination of species data[J].Oecologia,2001,129:271-280.
[34]Legendre P,Legendre L.Numerical Ecology[M].2nd ed. Amsterdam:Elsevier Science BV,1998.
[35]Lingoes J C.Some boundary conditions for a monotone analysis of symmetric matrices[J].Psychometrika,1971,36:195-203.
[36]Minchin P R.An evaluation of relative robustness of techniques for ecological ordinations[J].Vegetatio,1987,69:89-107.
[37]Hill M O,Gauch H G.Detrended correspondence analysis:an improved ordination technique[J].Vegetatio,1980,42:47-58.
[38]Oksanen J,Minchin P R.Instability of ordination results under changes in input data order:explanations and remedies [J].Journal of Vegetation Science,1997,8:447-454.
[39]Legendre P,Legendre L.Numerical Ecology[M].3rd ed.Elsevier,2012.
[40]Ter Braak C J F.Canonical CorrespondenceAnalysis:a new eigenvector technique for multivariate direct gradient analysis [J].Ecology,1986,67:1167-1179.
[41]Chambers J M.Linear models[M]//Chambers J M,Hastie T J. Statistical Models in S.Chapman and Hall,1991.
[42]Wilkinson G N,Rogers C E.Symbolic descriptions of factorial models for analysis of variance[J].Applied Statistics,1973,22:392-399.
[43]DobsonAJ.An Introduction to Generalized Linear Models [M].London:Chapman and Hall,1990.
[44]Hastie T J,Pregibon D.Generalized linear models[M]// Chambers J M,Hastie T J.Statistical Models in S.Chapman and Hall,1991.
[45]McCullagh P,Nelder JA.Generalized Linear Models[M]. London:Chapman and Hall,1989.
[46]Venables W N,Ripley B D.ModernApplied Statistics with S [M].New York:Springer,2002.
[47]Laird N M,Ware J H.Random-effects models for longitudinal data[J].Biometrics,1982,38:963-974.
[48]Lindstrom M J,Bates D M.Newton-Raphson and EM algorithms for linear mixed-effects models for repeatedmeasures data[J].Journal of theAmerican Statistical Association,1988,83:1014-1022.
[49]Geladi P,Kowlaski B.Partial least squares regression: a tutorial[J].Analytica ChimicaActa,1986,185:1-17.
[50]Hoskuldsson,A.PLS Regression Methods[J].Journal of Chemometrics,1988,2:211-228.
[51]Bates D M,Watts D G.Nonlinear RegressionAnalysis and Its Applications[M].Wiley,1988.
[52]Bates D M,Chambers J M.Nonlinear models[M]//Chambers J M,Hastie T J.Statistical Models in S.Chapman and Hall,1991.
[53]Best D J,Roberts D E.AlgorithmAS 89:the upper tail probabilities of spearman's rho[J].Applied Statistics,1975,24:377-379.
[54]Hollander M,Wolfe DA.Nonparametric Statistical Methods [M].New York:John Wiley&Sons,1973:185-194.
[55]Gittins R.CanonicalAnalysis:AReview withApplications in Ecology[M].Berlin:Springer,1985.
[56]Clarke K R.Non-parametric multivariate analysis of changes in community structure[J].Australian Journal of Ecology,1993,18:117-143.
[57]Hand D J,Taylor C C.MultivariateAnalysis of Variance and Repeated Measures[M].Chapman and Hall,1987.
[58]Mielke PW,Berry K J.Permutation Methods:ADistance FunctionApproach[M].New York:Springer,2001.
[59]Anderson M J.Anew method for non-parametric multivariate analysis of variance[J].Austral Ecology,2001,26:32-46.
[60]Anderson M J.Distance-based tests for homogeneity of multivariate dispersions[J].Biometrics,2006,62:245-253.
[61]Bokulicha NA,Thorngated J H,Richardson P M,et al. Microbial biogeography of wine grapes is conditioned by cultivar,vintage,and climate[J].Proceedings of the National Academy of Sciences of the United States ofAmerica,2013,25:E139-E148.
優先數字出版時間:2016-04-01;地址:http://www.cnki.net/kcms/detail/52.1051.TS.20160401.1330.003.html。
中圖分類號:TS262.3;TS261.1;Q93-3
文獻標識碼:A
文章編號:1001-9286(2016)07-0088-09
DOI:10.13746/j.njkj.2016048
收稿日期:2016-02-18
作者簡介:趙亮(1983-),男,博士,從事環境微生物多樣性研究,已發表論文數篇,E-mail:20064827@qq.com。
Present Status in Research Technology of Liquor-making Microbial Communities&Next-generation Sequencing Data Analysis
ZHAO Liang,WANG Li,WANG Diqiang,WANG Heyu and YAN Songxian
(Technical Center of Maotai Distillery Co.Ltd.,Renhuai,Guizhou 564501,China)
Abstract:Liquor-making is essentially the process of microbial communities succession and microbial metabolites accumulation and transformation.To reveal the mystery of liquor,we should start from microbial research.Microbes in communities are,in general,advancing the fermentation of grains.The analysis of the composition and the succession of microbes is not only the premise to evaluate the yield and the quality of liquor,but also the basis for exploring the functions and metabolites of microbes.In this paper,aiming at the current application status of microbial research technology in liquor-making field,we found that culture-based approach and culture-independent DGGE/TGGE techniques are mainly applied in microbial community research nowadays,while next-generation sequencing technique is rarely adopted(reported only in foreign journals).Researchers not capable of understanding or manipulating the sequencing data might be the main reason for the poor use of nextgeneration sequencing technique.In view of such problem,systematical and straightforward interpretation of sequencing data were made in this review.Furthermore,five categories of multivariate analysis which could deeply and comprehensively present the microbial information were recommended,and we also provided the strategies and usages of these analytic approaches for reference.
Key words:Baijiu;next-generation sequencing;microbial diversity;multivariate statistical methods;liquor-making microbes