999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

宏基因組樣本數據的分析比較與分類

2016-06-23 13:49:50程福東丁嘯李晟孫嘯
生物技術通報 2016年5期
關鍵詞:分類特征分析

程福東 丁嘯 李晟 孫嘯

(東南大學生物科學與醫學工程學院 生物電子學國家重點實驗室,南京 210096)

綜述與專論

宏基因組樣本數據的分析比較與分類

程福東 丁嘯 李晟 孫嘯

(東南大學生物科學與醫學工程學院 生物電子學國家重點實驗室,南京 210096)

宏基因組學研究試圖通過測序并分析微生物群落的DNA序列,以理解環境微生物的組成及其與環境的交互作用。宏基因組學革命性地改變了微生物學,使得以免培養的方式研究復雜生物系統中的微生物群落成為可能。第二代測序技術的不斷進步和生物信息學的高速發展促進了高通量宏基因組研究的發展,大批高質量的宏基因組數據不斷產生并對科學界開放,宏基因組學的重要作用被科學界廣泛認可。與此同時,對應個體不同健康狀態和人體不同部位的大量宏基因組樣本數據不斷產生,使得比較和分類宏基因組樣本在微生物學研究上變得更加重要,比較宏基因組學成為宏基因組學的重要分支。主要介紹了宏基因組數據的分析比較,以及樣本分類的相關研究和算法。

宏基因組;樣本分析比較;樣本分類;分類特征

宏基因組學研究以微生物群落為單位,不經分離培養,直接從環境中提取所有微生物的遺傳信息,試圖通過測序等手段獲得并分析群落中微生物的DNA序列,以理解環境微生物的組成及其 與環境的交互作用[1]。大量的宏基因組學項目為研究不同微生物群落提供了寶貴的素材和新的視角。對宏基因組的研究聚焦于人類健康相關的環境微生物群落,環境可分為外環境和內環境,其中外環境包括空氣、水體及土壤等微生物生存環境;內環境包括人體口腔、呼吸道及腸道等人體內的微生物生存環境。

人體內環境的微生物群落對人體健康、行為和疾病非常重要。迄今為止的微生物組研究已表明其在個體化醫療上的重要影響。例如,某些藥物在一些個體上的失活[2],微生物代謝副產物可以提高心血管疾病的幾率[3]。這些細菌群落參與人類的新陳代謝、營養吸收、人體免疫[4]及具有其他一系列重要功能,目前已確認哮喘、二型糖尿病及炎癥性腸病[5]等多種疾病與人體微生物群落息息相關。因此越來越多的研究聚焦于人體微生物群落。

自2008年以來,美國國立衛生研究院(national institutes of health,NIH)資助的人類微生物組計劃(human microbiome project,HMP)[6]產生了一大批高質量的宏基因組數據并對科學界開放。這些對應于不同個體健康狀態和人體不同部位的大量宏基因組樣本不斷產生,使得比較和分類宏基因組樣本在微生物學研究上變得更加重要,比較宏基因組學[7]成為宏基因組學的重要研究方向。高質量的宏基因組數據誕生,也使得信息量更多,更全面的全宏基因組樣本數據取代16S rRNA數據成為新的研究熱點。

其中人類腸道宏基因組信息量大(150倍于人類基因組),所含物種復雜(約千種),分析難度大[8],是一項極具挑戰性的研究。人類腸道宏基因組對人體健康有著極其重要的影 響,被一些研究者稱為人類的“第二大腦”[9]。有研究表明,人類腸道微生物群落與克氏病[10]、潰瘍性結腸炎[10]、炎癥性腸病(inflammatory bowel disease,IBD)[8]、二型糖尿病(T2D)[5]及動脈粥樣硬化[11]等多種疾病相關,直接影響血糖和胰島素代謝。因此,如何更好的分析人類腸道宏基因組數據是一項重要的研究任務。

從研究方向上 看,宏基因組樣本的分析比較著力于揭示宏基因組所反映的環境微生物群落 結構,發現不同環境下微生物的差 異。宏基因組的樣本分類側重于歸納宏基因組樣本的共性,找出能夠鑒別樣本某種表型的特征。這些都離不開信息的提取,即從原始數據中找出表征某些方面信息的特征,并利用特征進行比較和分類。以下將就宏基因組樣本分析比較與宏基因組樣本分類兩個方面對比較宏基因組學進行較全面的介紹。

1 宏基因組樣本分析與比較

宏基因組學研究的基礎是宏基因組樣本的分析與比較,通過對宏基因組樣本數據的分析,可以獲得環境微生物樣本的分類學構 成、各類微生物的相對豐度及復雜微生物群落的功能等信息,在此基礎上的比較可以進一步發現不同環境下微生物的差異,揭 示微生物群落與環境的交互作 用。

1.1 基于16S rRNA數據的分析

對rRNA子單元,尤其是16S rRNA的測序,可以為研究不同環境中的不同微生物群落提供有價值的數據。16S rRNA廣泛存在于原核微生物中,由于它們在進化中的高度保守性,常用于系統發生學的研究,所以這一類的序列被統稱為標簽序列。

16S rRNA數據可以有效反應不同環境中的不同微生物群落組成特征。在基于16S rRNA的研究中,被測得的16S rRNA首先被聚集為不同的分類單元(operational taxonomic units,OTUs),然后每一個OTU通過比對已知的16S rRNA數據庫(常見數據庫如RDP、Greengene 和 SILVA[12])被分入特定分類項,即可獲得菌群的分類學目錄,通過設定比對的不同閾值可以調整OTU的精度。16S rRNA的數據集獲得成本低,通過對16S rRNA數據集的分析可以較為準確的獲得樣本所含的微生物種類及對應的豐度(以OUT頻率估計獲得),許多基于16S rRNA 的分類流程已經被廣泛使用,如mothur[13]、Qiime[14]及 the RDP pipeline[15]等。

通過對16S rRNA的分析,可以獲得微生物群落中菌種的組成和各自的豐度信息。但是,基于1 6S rRNA的研究所提供的信息有很多局限性,如此類數據集以OUT頻率為主要特征,只能提供微生物群落中的種群結構和豐度信息,無法獲得生物學研究者所關心的功能信息。此外,有研究者認為,由于擴增偏差的存在,基于OUT頻率特征所估計的物種相對豐度并不十分準確[16-18]。相較而言,全宏基因組數據可以針對微生物群落提供更全面的信息,可以使人們更深入的研究微生物群落與環境的交互作用。

1.2 基于全宏基因組數據的分析

隨著高通量測序技術的不斷發展,測序通量不斷提高,測序成本不斷降低,全宏基因組數據的獲得難度不斷降低。相比于單一的16S rRNA數據,全宏基因組數據包括了群落中菌群的全部遺傳信息,無疑能更好地表征環境微生物樣本。分析全宏基因組數據既可以獲得微生物群落的組成性信息,包括物種的組成和豐度等,又能獲得較全面的功能信息。例如,微生物蛋白質編碼基因,生物代謝反應的關鍵酶的表達,乃至更詳盡的代謝反應網絡。較高質量的全宏基因組數據還可以從中提取出特定的核酸序列,如有算法提出可以從全宏基因組數據中提取出16S rRNA數據[19],并能較好地避免擴增偏差。

全宏基因組數據分析的重要思路之一是基于比對,即利用blast算法(或是改進的比對算法如BWA[20]或DIAMOND[21])將宏基因組樣本中的測序片段(reads)與相關數據庫進行比對以獲得生物學研究者所關心的信息,結果可以表示為系統發生樹或反應網絡,以便使用主成分分析等算法得到進一步結論。例如,想要獲得微生物群落組成性方面的分析信息,可以與NCBI的分類學數據庫比對;要想得到群落的功能分析可以用SEED數據庫比對;要想提煉蛋白質編碼基因可能的功能信息,可以使用COG數據庫;使用KEGG數據庫則可以得到較為詳細的代謝網絡。目前使用較多的分析工具MEGAN[22],FCMM[23]等都是采用類似的算法流程。

這種方法得到的信息由其所比對的數據庫決定,其優點在于原理簡單,軟件使用難度低,可以較方便的得到一個初步的分析結果,但當前還存在一些短期內難以克服的缺陷。一個重要的問題是數據庫中信息的缺失與錯誤,這一點后面會有進一步的闡述。(2.1.1 基于比對的方式獲得分類特征)此外,樣本數據量太大時,比對花費時間較長,盡管比對算法在不斷改進。例如,最新的TreeSeq[24]算法在較傳統的blast算法比對效率提高了數倍,但在處理大規模數據時所花費的時間仍不令人滿意。MetaCV算法[25]通過重構序列和參考基因組,將比對效率提高了數百倍,是目前使用比對算法確定reads歸屬的最優方法之一,適用于大規模數據的分析。

另一類基于全宏基因組數據分析方法是通過免比對的方法進行分裝,即通過序列特征對測序片段依據種系關系進行歸類。高質量的分裝結果可以拼接出未知菌種的基因組[26],這種方式可以最大化的利用樣本的序列信息,但分析難度較大,目前尚沒有較權威的分析流程。目前應用廣泛的算法有Kislyuk等[27]提出的LikelyBin、Wu等[28]提出的AbundanceBin、Wang等[29,30]提出的MetaCluster等,但其在處理復雜樣本時準確率較低。Ding等[31]在2014年提出了一種基于組合序列特征(ICO和四聯核苷酸頻率)和譜聚類算法的無監督宏基因組分裝算法、HSS-bin 算法,使用不同的數據集測試,較目前常用的MetaCluster等算法準確率提高了5%-30%。但單純使用這類方法目前還無法完成復雜樣本中種屬級別的分裝。通過對全宏基因組數據的分析可以獲得微生物群落的物種組成和相對豐度,相關的蛋白質功能信息,以及代謝網絡的信息。盡管還有很多問題有待解決,但已經極大的促進了微生物學的發展。

由于宏基因組數據分析的復雜,已有研究者嘗試將單細胞測序技術應用于宏基因組研究[32]。隨著對微生物群落的研究不斷展開,對特定微生物的深入研究的需求也越來越多,單細胞測序技術有效地避免了宏基因組數據中裝配基因和分裝的難題[33]。在研究已知的特定基因功能和通路時,使用單細胞測序技術數據處理難度較低,由于測序的DNA/RNA取自同一個細胞,測序結果很好地避免了由于細胞間差異導致的異質性,可以獲得同一菌種的不同亞種[34]。單細胞測序技術擴展了宏基因組學的應用范圍,對于宏基因組中特定菌株的研究有很大幫助。這一技術的主要難度在于單細胞的隔離與分選,目前比較成熟的有熒光激活細胞分選技術(fluorescence-activated cell sorting,FACS)[35],但成本較高,儀器價格高昂。且如何由單細胞中擴 增獲得足夠的DNA樣本也是很有挑戰性的課題[36]。

1.3 宏基因組樣本比較

宏基因組樣本的比較是建立在樣本分析的基礎上的,通過對樣本數據的分析,提煉出有價值的信息作為樣本的一組特征,再通過不同樣本的比較直觀的反映樣本間的不同。因此,現有的樣本比較算法流程多是基于宏基因組樣本分析流程,對分析后的結果進行比較。典型的算法如MEGAN、FCMM[23]等。

隨著生物信息技術的不斷發展,人體微生物群落與人類健康的密切聯系得到了越來越廣泛的關注,研究者試圖比較疾病樣本與健康樣本 之間的區別,為部分疾病的診斷和治療提供新的思路。典型的研究有針對二型糖尿病患者的人類腸道宏基因組研究[5],研究者首先對疾病組和對照組中樣本數據做了初步的分析,獲得了3個量化的數據集:(1)功能基因的列表。(2)KEGG的同源性分析文件。(3)eggNOG同源性分析 文件。通過比較3個數據集,可以在基因組成和功能層面上相對全面的比較疾病組和對照組的區別,研究者通過比較疾病組和對照組的不同,確定了與二型糖尿病相關的52 484個基因標記(特征),并通過關聯性分析從中找出了47組相互關聯的基因群。通過比較這47個基因群,可以直觀的展示樣本間的差異。可以看出,比較的主要難點在于樣本分析時如何對數據信息進行特征化的提取。其他典型的研究有不同水域的宏基因組樣本比較,水體污染后環境微生物的變化[37]等。

此外,一些分析軟件,如FCMM[23],在多樣本比較時,會直接得到相同功能基因列表和某一樣本的特殊功能基因列表。由此得到的結果更有利于下一步的統計分析。當比較所獲得的信息較為復雜時,也可以采用主成分分析的方法得到主要特征,以便進行比較。

樣本數據的比較能夠較直觀的發現不同數據集的差異,所得到的結果可以方便的應用于生物學研究。但是,常規的比較方法在比較水體、土壤等較簡單的宏基因組數據時有很好的效果,但人體微生物群落更復雜多變,疾病對不同個體的影響也各不相同,樣本比較的結果往往很難得到有統計學意義的結論。

2 宏基因組樣本分類

相比于宏基因組樣本的分析與比較,宏基因組樣本分類更關注于如何識別樣本,因此樣本分類需要對信息進一步提煉,以獲得有區分度的分類特征。宏基因組樣本的分類,可以是按不同微生物群落類型將其分類。例如,不同的宏基因組樣本,可能是來自水體和土壤,也可能來自人體的不同部位。由于來自不同環境的宏基因組樣本差異往往較大,所以這種分類較為簡單。更復雜的問題是如何識別同樣環境下不同表型的宏基因組樣本,如對炎癥性腸炎患者與健康人群的腸道宏基因組進行分類。

宏基因組樣本的分類研究在高效組織與搜索高速膨脹的宏基因組樣本數據集,檢測臨床樣本的疾病表型,法醫學鑒定[38]上均可能有很好的應用。例如,建立宏基因組的大型數據庫,判定未知樣本的來源,通過宏基因組樣本推斷宿主的健康狀態等。然而,盡管分類技術已經在生物信息學領域廣泛應用,如微陣列癌癥樣本[39]、基因表達譜[40]及蛋白質組[41]分類等。但是,到目前為止復雜宏基因組樣本的分類問題尚未得到很好的解決。

目前宏基因組樣本分類的方法可以分為兩類,即基于比對的方法和免比對的方法,其區別主要在于分類特征的獲取方法。基于比對的方法通過樣本與數據庫的比對,通過對樣本數據的分析,提煉出有價值的信息作為樣本的一組分類特征,可能是微生物的豐度信息,也可能是蛋白質編碼基因的功能信息。使用機器學習的方法進行特征篩選,找到其中有識別度的分類特征進行樣本分類。免比對的方法,主要使用序列特征,即通過序列本身的固有性質,找出有區分度的特征參數,而不依賴數據庫。

針對宏基因組樣本分類研究的基本過程如下:(1)確定數據集:為了研究能夠反映樣本間差異的特征和分類方法,所選數據集中兩類樣本的數量應盡量大,正負樣本數偏差要小,數據集質量較高以包括足夠的信息。(2)分類特征獲取:有兩種常規途徑,一是從已有的相關研究資料中獲得較為可信的有區分度的樣本特征應用于樣本分類[42],為了提高特征的區分度,可以在此基礎上進行篩選(軟件或人工的方式);二是分析兩類樣本,使用特別的算法從分析比較后的數據中篩選出有區分度的特征[43]。(3)數據集的預處理:確定特征后,將數據集中的樣本進行特征化處理,用得到的多維特征代表各樣本,以便進行下一步計算 。(4)對于針對特征的研究,使用有監督或無監督的分類方法,對樣本進行分類,驗證特征的有效性。(5)對于針對分類算法的研究,使用被廣泛認可的特征,用模擬數據集和實際數據集驗證算法是否優于已有算法。

目前,國際上多數的針對宏基因組樣本分類的研究集中在分類特征的選取和分類算法的研究。宏基因組樣本分類研究的關鍵點在于分類特征和分類算法。

2.1 分類特征

分類特征的選取取決于宏基因組本身的性質以及對宏基因組樣本的分析比較。高區分度或有針對性的特征可以使樣本分類事半功倍。從特征的獲取方式上可以分為基于比對和免比對兩種 方式。

2.1.1 基于比對的方式獲得分類特征 基于比對的方式獲取特征,前期工作與樣本分析相似,通過樣本與不同的數據庫比對生成各樣本的分類學描述,功能分析圖表,化學反應網 絡等作為原始特征。由于分析的結果較為復雜,原始特征維數較高且區分度很低,很難直接用于分類,所以會使用多種 方式進行特征提取。

2014年,Pookhao等[43]針對比對分析結果設計了一種基于彈性網絡和邏輯回歸的特征提取方法,研究者選取了124個人類腸道宏基因組樣本[8],分為4個組,其中肥胖組42例,包含3例IBD樣本,瘦削組82例,包含22例IBD樣本,通過將樣本中的基 因豐度與NCBI的蛋白質直系同源簇(COGs)數據庫比對得到每組樣本中數百種蛋白質直系同源簇的豐度,作為原始的功能特征,通過研究者開發的特征提取算法確定了25個在4組中豐度差異最明顯的功能簇,由此找到了一組對IBD和肥胖的人類腸道宏基因組有區分度的特征。這個方法也可以應用于其他原始特征,如通過blast將數據比對到NCBI的微生物基因組庫,獲得樣本中微生物的豐度信息作為原始特征,同樣通過特征提取,可以獲得有區分度的特征。Shafiei等[44]設計了一個多層的貝葉斯網絡模型對樣本代謝網絡的分析結果進行歸類,研究者使用了同樣的IBD數據集,通過貝葉斯模型找出了對IBD患者有區分度的代謝子網絡,可以作為區分IBD樣本的特征。兩者用不同的特征提取方法從數據中都獲得了有高區分度的特征。2015年,Korem[10]及其同事使用了另一種思路,他們認為reads的覆蓋模式能夠反映微生物的生長(DNA復制)的速率,通過對高質量的數據集進行reads的覆蓋度分析,得到了一種新的特征——覆蓋度峰谷比(PTR),首次提出了從宏基因組樣本中獲得微生物動態信息的方法。

基于比對的方法最大限度的利用了已有的數據庫,可以利用數據庫中的已知信息解析樣本,直觀的展示樣本序列中隱藏的生物學信息。由此進一步處理可以得到有區分度的特征,此類特征往往表現為系統發生樹的某種特殊性,某幾種蛋白或反應的活躍,這些特征不僅能對兩類樣本進行很好的區分,更重要的是此類特征有較明確的生物學意義,有利于進一步研究其內在的生物學原理,甚至可以由已知的大量信息推導未知信息,由此對生物學實驗方向起指導性作用。這應該是基于比對的方法在宏基因組分析與分類中應用廣泛的重要原因。

但是,基于比對的方式其局限在于所得到的結果依賴數據庫,但目前數據庫中的數據并不全面,在宏基因組學出現前,微生物基因組學的研究局限在少數模式菌和不足1%的可培養微生物上,更嚴重的是,來自不同隔離群的同種微生物基因組經常表現出相當大的基因組異質性。這種變化可能來自于克隆偏差,環境適應性,或是培養過程中很可能發生的人工誤差[45]。因此,即使是十幾年后的今天,數據庫中的微生物基因組數據也僅能代表自然界中微生物的一小部分[45],閾值選取較嚴格的比對會去除超過50%的reads,相當部分的屬于未知菌種的序列會被忽視,這意味著在比對所獲得的組成信息是有大量缺失的。

比對所獲得的功能信息高度依賴于數據庫中基因組后期的注釋質量。許多情況下人們認為原核生物基因組結構簡單,因此目前數據庫如GenBank和EMBL中注釋的蛋白質編碼基因都是準確的。然而,近年越來越多的研究表明微生物基因組中蛋白質編碼基因預測問題遠沒有達到人們預期的準確度,數據庫中基因組的注釋質量也不斷地被人質疑。大量研究結果證明數據庫中微生物基因組已經注釋的蛋白質編碼基因并不都是真正的蛋白質編碼序列,而存在錯誤預測為編碼基因的隨機序列,這種現象被稱為過注釋[46]。Yu等[46,47]開發了一種基于改進的TN曲線(一種基于三聯體核苷酸的幾何分析方法)的微生物蛋白質編碼基因重注釋方法,可以提高微生物基因組的注釋質量。

另一個難解的問題是當樣本數據量極大時,其用于比對的計算量極大,計算時間也變得難以控制。比對算法仍在不斷改進,有算法聲稱其效率3倍于BLAST算法[24],極大提高了比對效率,但仍不令人滿意,比對算法效率上的改進仍未停止。

因此發現,提取關鍵的分類特征、比對算法效率上的改進和數據庫的完善是這方面研究的重點和難點,近年來備受關注,都是生物信息學中極有挑戰性的工作。

2.1.2 基于免比對的方式獲得分類特征 另一種特征以免比對的方式,即利用宏基因組或是微生物基因序列的本質屬性,從樣本中直接獲得多維序列特征。序列特征 辨識物種或者基因的能力直接影響分類方法的性能,基于統計的序列特征可分為組成性特征和關聯性特征。

簡單的序列組成性特征如單核苷酸頻率,即A、T、C、G四種核苷酸在序列中所占的比例,尤其是其中的GC含量特征很早就因其在不同基因組中差異較大且被應用于基因組分類[48],GC含量在不同環境的宏基因組樣本中同樣有很大差異,可以作為宏基因組數據分析的重要參數之一[49]。

為了更好的表征基因組,生物信息學研究者嘗試使用信息量更大的序列特征,如三聯核苷酸頻率(長度為3的堿基子串如AA A的頻率),四聯核苷酸頻率(長度為4的堿基子串如AATT的頻率)。已有文獻證實四聯核苷酸 頻率用于物種層級有最優的分類效果[50],四聯核苷酸頻率成為用于基因組識別分類的‘基因組特征’,而廣泛應用于宏基因組分裝[27,28,51]以聚類宏基因組片段。2009年,有研究試圖將此特征的使用拓展到宏基因組的比較與識別,取得了較好結果[42]。四聯核苷酸頻率作為一種“宏基因組特征”也得到了廣泛應用。

然而宏基因組樣本所包含的信息遠大于單個基因組,研究者嘗試計算長度更長的堿基子串頻率發現,其作為宏基因組特征有更好的分類效果。例如,堿基子串長度k=8時(如AAAAATTC),分類效果明顯強于四聯核苷酸頻率[52]。

隨著對特征研究的進一步深入,有研究者發現,單純使用組成性特征并 無法很好的完成宏基因組的分析與分類,處理復雜宏基因組樣本尤其困難[52],由此,一些基于堿基對關聯性的特征被開 發出來以應對新的挑戰。

序列關聯性特征則反映了基因組中兩兩組分之間或者多個組分之間的關聯信息。應用 較多的如二核苷酸相對豐度(偏性)(dinucleotide relative abundances,DRA)[42],研究人員計算不同二核苷酸的使用頻率之比(如AC/GT)作為特征,這一特征在某些表型中非常穩定,這意味著當某種二核苷酸的相對豐度出現差異時可以被快速識別出來。此種特征的信息量較小,只能應用于部分特殊情況,如估計環境微生物的被污染狀況[42]。

為了更好的表征宏基因組樣本,Ding等[31]提出了一種基于互信息的序列關聯性特征(intrinsic correlation of oligonucleotides,ICO),它反映了一個寡核苷酸中兩個連續組分之間的關聯信息。例如,對于一個四聯核苷酸,我們可以將它分割成一個單堿基和一個三聯核苷酸,或者分割成相鄰的兩個堿基對。那么,ICO特征向量就表示第一個單堿基和后續的三聯核苷酸,或者第一個三聯核苷酸和后續的單堿基,再或者是兩個堿基對之間關聯性的量化。將ICO 特征應用于宏基因組樣本分類,結果表明結合ICO特征后分類結果優于單獨使用多核苷酸頻率特征[52]。

免比對的方法近年來發展迅速,通過對不同長度堿基子串(k-mer)頻率的統計結合不同的統計學算法,使用免比對方法用4k維的特征空間可以表征序列所屬的物種,序列功能甚至表觀遺傳信息[53]。基于免比對的方式獲得分類特征仍有很多潛力有待挖掘。免比對的方法不依賴于數據庫,可在本地直接處理樣本得到分析結果,但很難就結果作出令人信服的生物學解釋。如果特征的計算方法復雜,其運算量與計算時間和基于比對的方式相比并不占優勢。

2.2 分類算法

分類算法是宏基因組樣本分類研究的另一重點,由于樣本本身的復雜性,為了更好地表征樣本,所使用的特征向量往往是高維度的。本文中所討論的分類方法都是便于處理高維度特征的機器學習算法。

機器學習是人工智能的核心部分,機器學習算法主要包括兩大類:無監督分類算法和有監督分類方法。無監督分類算法也稱聚類方法,可以看作觀察學習(learning from observation)。給定一些觀察對象,即一群客體,但是在無監督的情況下對客體進行分類,這種分類往往基于某種事先定義的距離。研究的目標是尋找模式的相似性,也即自動把這群客體分成若干組,屬于同一組的客體,彼此相似。有監督分類是一種示例學習,也即給定N個例子(訓練集),通過訓練確定判別規則,以測試集判斷判別規則是否高效準確。聚類在分類問題中很少單獨使用,但可以作為有力的輔助工具,典型的如HabiSign算法[54],提出了基于參考點的獨特特征,然后使用層次聚類法獲得了很好的分類效果。

有監督分類在比較宏基因組學[7]的一個較早的應用是,200 6年Yang等[7]使用支持向量機(support vector machines,SVM)和k近鄰算法分類不同環境下的土壤及水體沉淀樣本。2011年,Knights等[38]通過研究人體微生物的一些標準數據集驗證有監督分類技術應用在宏基因組/16S rRNA數據上的可行性。上述算法均證實有效的機器學習技術可以解決宏基因組/16S rRNA數據處理上的某些挑戰。此后多種有監督分類算法被引入宏基因組/16S rRNA數據處理,使 用較廣泛的有邏輯回歸模型(LR模型),貝葉斯方法,支持向量機(SVM)等。

MetaDistance[55]算法是第一個專用于人體微生物多類別分類的算法。這個算法結合使用基于實例和基于模型的算法(如k近鄰算法和SVM)的優勢,以同時滿足最小化的組內距離和最大化的組間距離,在算法設 計時考慮到了宏基因組相關特征的稀疏性,用于宏基因組多樣本識別和特征選擇都有不錯的效果。

2013年, Cui和Zhang[56]將一種改進的SVM(R-SVM)用于宏基因組樣本分類,其主要思路是使用堿基子串頻率(k-mer頻率)作為特征,使用R-SVM算法進行機器學習。研究者使用IBD數據集[8]作為真實數據集進行測試,分類準確率超過80%。R-SVM相較于傳統的支持向量機方法,其優勢在于機器學習的過程中對特征不斷進行篩選,k-mer的原始特征空間的維度為4k維,通過 R-SVM算法,可以篩 選出高區分度的20維特征作為分類特征。

2014年,Tanaseichuk等[57]使用系統發生樹作為分類特征,通過多項式LR模型訓練一個由分類特征到分類標簽的映射,通過這種方式可以得到一個高準確率的分類模型。與傳統的SVM、隨機森林(RF)等算法相比,錯誤率降低了約20%。這種方法的優勢是以微生物群落的系統發生關系作為特征的組織結構,將生物學信息引入機器學習過程,使得分類準確率明顯提高,而此前大多數研究將OUT頻率作為互相孤立的特征使用。

Ding等[52]于2015年也提出了一種分類方法,DectICO算法,這種算法結合了動態的 KPLS特征篩選算法和ICO序列特征,對原始特征進行多輪篩選,可以由用戶自行確定特征篩選的輪數,最后得到 的分類特征可以讓SVM分類器性能最優。該研究分別使用哮喘(asthma)數據集[58]、炎癥性腸炎 數據集[8]及二型糖尿病數據集[5]對算法進行驗證,證明DectICO 算法較同類算法有更好的通用性和穩定性,而動態的特征篩選算法明顯提高了分類算法的性能。

宏基因組樣本分類算法仍在不斷的發展中,彈性網絡(elastic net)[43]、決策樹及最近鄰等常見算法思想都可以應用于宏基因組樣本分類。

3 結語

宏基因組學是以對宏基因組數據本身的分析比較為基礎的,對宏基因組樣本比較和分類問題的研究可以加深對宏基因組數據的理解。宏基因組學近幾年來發展迅速,新的成果不斷出現,宏基因組樣本的分析與分類成為新的研究熱點,大量的機器學習算法和統計學相關理論知識被引入這一領域,許多簡明易用的生物信息學工具被開發出來投入使用,我們將宏基因組分析相關的部分軟件工具列在了表1中。但由于宏基因組數據的復雜性以及科學界目前對宏基因組數據本身了解的局限性,該領域仍有許多空白亟待填補。如對樣本分類問題的研究較少,幾乎所有的算法工具在關于腸道宏基因組的分類問題上準確率都不超過85%,在分析、比較的流程上大多數工具也都趨于同質化。這些問題的解決需要更高效的特征,更優秀的算法,同時也依賴于宏基因組學研究和生物信息學技術的進一步發展。

表1 部分算法工具的用途及獲取地址簡表

[1]Hu son DH, Mitra S, Ruscheweyh HJ, et al. Integrative analysis ofenvironmental sequences using MEGAN4[J]. Genome Research, 2011, 21(9):1552-1560.

[2]Ha iser HJ, Gootenberg DB, Chatman K, et al. Predicting and manipulating cardiac drug inactivation by the human gut bacterium Eggerthella lenta[J]. Science, 2013, 341(6143):295-298.

[3]Ko eth RA, Wang Z, Levison BS, et al. Intestinal microbiota metabolism of L-carnitine, a nutrient in red meat, promotes atherosclerosis[J]. Nat Med, 2013, 19(5):576-585.

[4]Ra makrishna BS. Role of the gut microbiota in human nutrition and metabolism[J]. J Gastroenterol Hepatol, 2013, 28(Suppl)4:9-17.

[5]Qin JJ, Li YR, Cai ZM, et al. A metagenome-wide association study of gut microbiota in type 2 diabetes[J]. Nature, 2012, 490(7418):55-60.

[6]Grou p NHW, Peterson J, Garges S, et al. The NIH human microbiome project[J]. Genome Res, 2009, 19(12):2317-2323.

[7]Yang CY, Mills D, Mathee K, et al. An ecoinformatics tool for microbial community studies:supervised classification of Amplicon Length Heterogeneity(ALH)profiles of 16S rRNA[J]. Journal of Microbiological Methods, 2006, 65(1):49-62.

[8]Qin J, Li R, Raes J, et al. A human gut microbial gene catalogue established by metagenomic sequencing[J]. Nature, 2010, 464(7285):59-65.

[9]Rida ura V, Belkaid Y. Gut microbiota:the link to your second brain[J]. Cell, 2015, 161(2):193-194.

[10]Kor em T, Zeevi D, Suez J, et al. Growth dynamics of gut microbiota in health and disease inferred from single metagenomic samples[J]. Science, 2015, 349(6252):1101-1106.

[11]Wan g Z, Roberts AB, Buffa JA, et al. Non-lethal inhibition of gut microbial trimethylamine production for the treatment of atherosclerosis[J]. Cell, 2015, 163(7):1585-1595.

[12]Qua st C, Pruesse E, Yilmaz P, et al. The SILVA ribosomal RNA gene database project:improved data processing and web-based tools[J]. Nucleic Acids Res, 2013, 41(Database issue):D590-D596.

[13]Sch loss PD, Westcott SL, Ryabin T, et al. Introducing mothur:open-source, platform-independent, community-supported software for describing and comparing microbial communities[J]. Appl Environ Microbiol, 2009, 75(23):7537-7541.

[14]Cap oraso JG, Kuczynski J, Stombaugh J, et al. QIIME allows analysis of high-throughput community sequencing data[J]. Nat Methods, 2010, 7(5):335-336.

[15]Col e JR, Wang Q, Cardenas E, et al. The Ribosomal Database Project:improved alignments and new tools for rRNA analysis[J]. Nucleic Acids Res, 2009, 37(Database issue):D141-D145.

[16]Bro oks JP, Edwards DJ, Harwich MD, et al. The truth about metagenomics:quantifying and counteracting bias in 16S rRNA studies[J]. Bmc Microbiology, 2015, 15:66.

[17]Soh n MB, An LL, Pookhao N, et al. Accurate genome relative abundance estimation for closely related species in a metagenomic sample[J]. Bmc Bioinformatics, 2014, 15:242.

[18]Xia LC, Cram JA, Chen T, et al. Accurate genome relative abundance estimation based on shotgun metagenomic reads[J]. PLoS One, 2011, 6(12):e27992.

[19]Yuan C, Lei J, Cole J, et al. Reconstructing 16S rRNA genes in metagenomic data[J]. Bioinformatics, 2015, 31(12):i35-43.

[20]Li H, Durbin R. Fast and accurate short read alignment with Burrows-Wheeler transform[J]. Bioinformatics, 2009, 25(14):1754-1760.

[21]Buchf ink B, Xie C, Huson DH. Fast and sensitive protein alignment using DIAMOND[J]. Nature Methods, 2015, 12(1):59-60.

[22]Huson DH, Richter DC, Mitra S, et al. Methods for comparative metagenomics[J]. BMC Bioinformatics, 2009, 10(Suppl)1:S12.

[23]Lee J, Lee HT, Hong WY, et al. FCMM:A comparative metagenomic approach for functional characterization of multiple metagenome samples[J]. J Microbiol Methods, 2015, 115:121-128.

[24]Winterm ans B, Brandt B, Vandenbroucke-Grauls C, et al. TreeSeq, a fast and intuitive tool for analysis of whole genome and metagenomic sequence data[J]. PLoS One, 2015, 10(5):e0123851.

[25]Liu J, Wang H, Yang H, et al. Composition-based classification of short metagenomic sequences elucidates the landscapes of taxonomic and functional enrichment of microorganisms[J]. Nucleic Acids Res, 2013, 41(1):e3.

[26]Alberts en M, Hugenholtz P, Skarshewski A, et al. Genome sequences of rare, uncultured bacteria obtained by differential coverage binning of multiple metagenomes[J]. Nature Biotechnology, 2013, 31(6):533-538.

[27]Kislyuk A, Bhatnagar S, Dushoff J, et al. Unsupervised statistical clustering of environmental shotgun sequences[J]. Bmc Bioinformatics, 2009, 10:316.

[28]Wu YW, Ye YZ. A novel abundance-based algorithm for binning metagenomic sequences using l-tuples[J]. Journal of Computational Biology, 2011, 18(3):523-534.

[29]Wang Y, Leung HCM, Yiu SM, et al. MetaCluster 5. 0:a tworound binning approach for metagenomic data for low-abundance species in a noisy sample[J]. Bioinformatics, 2012, 28(18):I356-I362.

[30]Wang Y, Leung HCM, Yiu SM, et al. MetaCluster-TA:taxonomic annotation for metagenomic data based on assembly-assisted binning[J]. Bmc Genomics, 2014( Suppl1)1:S12.

[31]Ding X, C ao CC, Sun X. Intrinsic correlation of oligonucleotides:a novel genomic signature for metagenome analysis[J]. J Theor Biol, 2014, 353:9-18.

[32]Rodrigue S, Malmstrom RR, Berlin AM, et al. Whole genome amplification and de novo assembly of single bacterial cells[J]. PLoS One, 2009, 4(9):e6864.

[33]Kodzius R, Gojobori T. Single-cell technologies in environmental omics[J]. Gene, 2016, 576(2 Pt 1):701-707.

[34]Kashtan N, Roggensack SE, Rodrigue S, et al. Single-cell genomics reveals hundreds of coexisting subpopulations in wild Prochlorococcus[J]. Science, 2014, 344(6182):416-420.

[35]Bergquist PL, Hardiman EM, Ferrari BC, et al. Applications of flow cytometry in environmental microbiology and biotechnology[J]. Extremophiles, 2009, 13(3):389-401.

[36]Lasken RS. Genomic sequencing of uncultured microorganisms from single cells[J]. Nat Rev Microbiol, 2012, 10(9):631-640.

[37]Paerl HW, Xu H, Hall NS, et al. Controlling cyanobacterial blooms in hypertrophic Lake Taihu, China:will nitrogen reductions cause replacement of non-N2 fixing by N2 fixing taxa?[J]. PLoS One, 2014, 9(11):e113123.

[38]Knights D, Kuczynski J, Charlson ES, et al. Bayesian communitywide culture-independent microbial source tracking[J]. Nat Methods, 2011, 8(9):761-763.

[39]Glaab E, Garibaldi JM, Krasnogor N. Learning pathway-based decision rules to classify micro array cancer samples[J]. German Conference on Conformations, 2010:123-134.

[40]Asyali MH, Colak D, Demirkaya O, et al. Gene expression profileclassification:a review[J]. Current Bioinformatics, 2006, 1(1):55-73.

[41]Yi G, Tho n MR, Sze SH. Supervised protein family classification and new family construction[J]. Journal of Computational Biology, 2012, 19(8):957-967.

[42]Willner D, Thurber RV, Rohwer F. Metagenomic signatures of 86 microbial and viral metagenomes[J]. Environ Microbiol, 2009, 11(7):1752-1766.

[43]Pookhao N, Sohn MB, Li Q, et al. A two-stage statistical procedure for feature selection and comparison in functional analysis of metagenomes[J]. Bioinformatics, 2015, 31(2):158-165.

[44]Shafiei M, Dunn KA, Chipman H, et al. BiomeNet:a bayesian model for inference of metabolic divergence among microbial communities[J]. Plos Computational Biology, 2014, 10(11):e1003918.

[45]Nielsen H B, Almeida M, Juncker AS, et al. Identification and assembly of genomes and genetic elements in complex metagenomic samples without using reference genomes[J]. Nature Biotechnology, 2014, 32(8):822-828.

[46]Yu JF, Xi ao K, Jiang DK, et al. An integrative method for identifying the over-annotated protein-coding genes in microbial genomes[J]. DNA Res, 2011, 18(6):435-449.

[47]Yu JF, Su n X. Reannotation of protein-coding genes based on an improved graphical representation of DNA sequence[J]. J Comput Chem, 2010, 31(11):2126-2135.

[48]Rocha EPC, Danchin A. Base composition bias might result from competition for metabolic resources[J]. Trends in Genetics, 2002, 18(6):291-294.

[49]Raes J, F oerstner KU, Bork P. Get the most out of your metagenome:computational analysis of environmental sequence data[J]. Current Opinion in Microbiology, 2007, 10(5):490-498.

[50]Pride DT, Meinersmann RJ, Wassenaar TM, et al. Evolutionary implications of microbial genome tetranucleotide frequency biases[J]. Genome Res, 2003, 13(2):145-158.

[51]Chatterji S, Yamazaki I, Bai Z, et al. CompostBin:a DNA composition-based algorithm for binning environmental shotgun reads[M]//Vingron M, Wong L, editor, RECOMB, LNIB 4955, 2008:17-28.

[52]Ding X, C heng F, Cao C, et al. DectICO:an alignment-free supervised metagenomic classification method based on feature extraction and dynamic selection[J]. BMC Bioinformatics, 2015, 16:323.

[53]Pinello L, Lo Bosco G, Yuan GC. Applications of alignment-free methods in epigenomics[J]. Brief Bioinform, 2014, 15(3):419-430.

[54]Ghosh TS, Mohammed MH, Rajasingh H, et al. HabiSign:a novel approach for comparison of metagenomes and rapid identification of habitat-specific sequences[J]. BMC Bioinformatics, 2011, 12 Suppl 13:S9.

[55]Liu Z, Hs iao W, Cantarel BL, et al. Sparse distance-based learning for simultaneous multiclass classification and feature selection of metagenomic data[J]. Bioinformatics, 2011, 27(23):3242-3249.

[56]Cui H, Zh ang X. Alignment-free supervised classification of metagenomes by recursive SVM[J]. BMC Genomics, 2013, 14:641.

[57]Tanaseich uk O, Borneman J, Jiang T. Phylogeny-based classification of microbial communities[J]. Bioinformatics, 2014, 30(4):449-456.

[58]Hinks TSC, Handley S, Keller B, et al. Analysis of the lung microbiome in human asthma using whole genome shot-gun metagenomics[J]. Thorax, 2013, 68:A14.

(責任編輯 李楠)

Analysis,Comparison and Classification of Metagenomic Samples

CHENG Fu-dong DING Xiao LI Sheng SUN Xiao
(State Key Laboratory of Bioelectronics,School of Biological Science & Medical Engineering,Southeast University,Nanjing 210096)

Metagenomics attempts to understand the diversity of the environmental microbial community and the interaction between microorganisms and environment by analyzing the sequence data of metagenomic samples. Microbiology has been revolutionized by metagenomics,which makes it feasible to research the microbial communities in complex biological systems without cultivating the microbes. The high-throughput metagenomic study is promoted by the rapid development of next-generation sequencing technology and bioinformatics. As a mass of high-quality metagenomic sequencing data are produced,also are accessible to the scientific community,the role of metagenomics has been recognized by various scientific areas. On the other sides,huge metagenomic data for individuals with different health status,or for different habitats of the human body makes the comparison and classification of metagenomic samples more important,leading the comparative metagenomics to become an important branch of metagenomics. This review mainly introduces the related researches and algorithms in the analysis,comparison and classification of metagenomic sequencing data.

metagenome;sample analysis and comparison;sample classification;classification feature

10.13560/j.cnki.biotech.bull.1985.2016.05.001

2015-11-26

國家自然科學基金項目(61472078)

程福東,男,碩士,研究方向:宏基因組學;E-mail:220143745@seu.edu.cn

孫嘯,男,教授,研究方向:生物信息學;E-mail:xsun@seu.edu.cn

猜你喜歡
分類特征分析
分類算一算
隱蔽失效適航要求符合性驗證分析
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
電力系統及其自動化發展趨勢分析
主站蜘蛛池模板: 天堂中文在线资源| 9丨情侣偷在线精品国产| 992tv国产人成在线观看| 国内精品视频| 99re在线免费视频| 国产成人啪视频一区二区三区| 99国产精品国产| 99热这里只有精品在线观看| 国产情侣一区二区三区| 国产欧美日韩专区发布| 国产一区二区色淫影院| 国产精品亚欧美一区二区| 精品视频第一页| 在线无码九区| 成人免费午夜视频| 欧洲免费精品视频在线| 91伊人国产| 久久香蕉国产线看精品| 国产精品视屏| 26uuu国产精品视频| 国产玖玖玖精品视频| 91久久国产热精品免费| 国产精品嫩草影院av| 一级黄色网站在线免费看| 国产精品思思热在线| 91精品情国产情侣高潮对白蜜| 国产美女91视频| 国产白浆视频| 中文字幕在线日本| 少妇精品久久久一区二区三区| 国产又粗又爽视频| 国产精品久久久精品三级| 午夜国产精品视频| 亚洲Av综合日韩精品久久久| 中文纯内无码H| h视频在线观看网站| 一级毛片免费不卡在线| 成人精品免费视频| 亚洲欧美h| 久久伊伊香蕉综合精品| 精品丝袜美腿国产一区| 国产丰满大乳无码免费播放| 亚洲免费成人网| 毛片免费高清免费| 亚洲黄网视频| 99热这里只有成人精品国产| 久久综合激情网| 久久福利片| 怡红院美国分院一区二区| 亚洲日本中文字幕天堂网| 国产毛片久久国产| 亚洲国产综合第一精品小说| 欧美精品导航| 国产成人精品18| 激情综合婷婷丁香五月尤物| 久久免费视频播放| 精品欧美视频| 亚洲第一色网站| 国产91在线|中文| 成人国产精品2021| 欧美国产日韩另类| 欧美色99| 国产午夜无码片在线观看网站| 精品一区国产精品| 中文字幕亚洲第一| 亚洲欧洲日产国产无码AV| 99这里只有精品免费视频| 国产精品久久久久婷婷五月| 亚洲精品色AV无码看| 国产三级国产精品国产普男人 | 欧美成人精品欧美一级乱黄| 久久一本日韩精品中文字幕屁孩| 在线免费看黄的网站| 亚洲国产成人精品一二区| 亚洲天堂2014| 成人午夜天| 99ri国产在线| 亚洲综合18p| 国产欧美日韩一区二区视频在线| 91尤物国产尤物福利在线| 亚洲有无码中文网| 久久国产成人精品国产成人亚洲|