基于腸道菌群多模態信息融合的疾病檢測方法

2024-07-05 10:59:12劉暢吳舜堯

青島大學學報(自然科學版) 2024年2期

劉暢吳舜堯

摘要：利用可操作分類單元（Operational Taxonomical Units，OTU）或擴增子序列變體（Amplicon Sequence Variants，ASV）推斷下游信息時，現有擴增子測序數據分析可能丟失不同物種譜構建法的多模態信息，為此，詳細分析了4種疾病的OTU和ASV數據集在腸道群落多樣性和群落結構方面的差異，提出了一種有效整合OTU與ASV用于疾病表征預測的方法：MDDMI（Microbiome-based Disease Detection with Multimodal Information）。實驗結果表明，MDDMI優于單模態數據分析法。

關鍵詞：圖卷積神經網絡；疾病預測；多模態；腸道菌群

中圖分類號：TP183

文獻標志碼：A

腸道菌群是人體內最大的微生物群落，與人體健康息息相關[1]，同時與多種疾病亦有緊密關聯，例如炎癥性腸病、肥胖、糖尿病、心血管疾病、神經系統疾病等。研究腸道菌群變化能夠預測相關疾病的發生，改善治療效果。利用微生物組學數據檢測疾病已成為生物醫學領域的研究熱門，例如將深度學習應用于人類腸道微生物組豐度表進行疾病預測[2-3]；利用自助法對16S rRNA序列進行子采樣，計算子采樣序列的k-mer并利用其多態性預測疾病[4]；將微生物系統發育樹和微生物分類群的相對豐度表示在單個矩陣中，使用卷積神經網絡（Convolutional Neural Networks，CNN）解決疾病預測問題[5]。這些預測方法只使用了單一模態數據，并未有效利用不同測序分析方法的多模態信息。從使用可操作分類單元（Operational Taxonomic Units，OTU）法轉為使用擴增子序列變體（Amplicon Sequence Variants，ASV）法進行微生物組學分析是近年來的發展趨勢[6-7]。OTU分析方法是將序列按照一個相似性閾值（通常為97%）使用匹配算法進行聚類[8-9]，無法考慮到較小生物學變異信息。最近相關研究通過ASV法克服這一缺點，與OTU聚類方法不同，ASV是基于序列的變異體（即序列的不同形式）進行聚類，在一定程度上減少了假陽性序列[10]。OTU或ASV法得出的生物學解釋和結論存在差異[11-15]，因此考慮將兩種方法得到的數據有效整合。已有研究融合腸道微生物多模態數據預測疾病，例如使用變分自編碼器融合宏基因組測序得到腸道微生物物種豐度和菌株標記物，在6種疾病的5個隊列中，AUC值比使用單一模態數據高[16]。本文提出了一種使用圖卷積神經網絡（Graph Convolutional Networks，GCN）融合OTU與ASV的方法，分別對美國腸道計劃（American Gut Project，AGP）[17]的4種疾病數據集的多模態數據進行融合驗證，并使用不同方法對4種疾病數據集得到的群落多樣性以及屬水平菌群結構差異進行分析。

1 AGP數據集中OTU與ASV法的差異

AGP數據集中共有21種疾病，選取其中患病樣本量較多且較為常見的4種疾病（Autoimmune、Cancer、Lung Disease、IBS）進行分析。

1.1 Autoimmune數據集中OTU與ASV法的差異

4種疾病中Autoimmune患病樣本量最多，且患病率最高，對比使用OTU與ASV法對該疾病得到的群落多樣性以及屬水平菌群結構差異。初步過濾后（去除所有樣本中都沒出現過的OTU和ASV），ASV數量比OTU少。隨后應用技術過濾去除偽序列（序列至少在3個獨立樣本中出現且每個樣本中至少有2個計數），ASV減少數量低于OTU，表明低豐度OTU占比較大（表1）。

隨機選取16個樣本對OTU與ASV數據集（下文記為o與a數據集）進行群落多樣性分析，a數據集的Shannon指數[18]低于o數據集，表明OTU法精確度有待進一步探究（圖1（a））。在測序深度達到15 000個序列后，a數據集的物種豐富度達到平臺期，而o數據集的物種豐富度繼續增加（圖2（a））。基于相同的測序深度， ASV法比OTU法得到的曲線收斂更快，表明ASV法在識別微生物群落時具有更高的分辨率和準確性，能夠高效識別原始測序數據中微生物的物種或亞物種。

使用OTU與ASV法分析Autoimmune數據集屬水平菌群，ASV法共獲得716個屬，OTU法共獲得893個屬，有670個重疊屬（圖3（a））。其中只存在于OTU法的223個屬豐度均較低，細菌群落中RA（Rel. Abundance）均小于0.5%，且RA小于0.1%的占多數，只存在于ASV法得到的屬的情況與之相似，在細菌群落中RA均較低。

對o與a數據集分別進行顯著性分析，ASV法得到的顯著屬數量較多（ASV：29，OTU：8），其中只有兩個與OTU法得到的顯著屬重疊，且OTU法得到的顯著屬大多豐度較低（RA<0.1%）。

由于兩種方法的差異主要來源于低豐度屬，對RA高于0.1%的屬進行重分析。應用0.1%閾值過濾后，OTU與ASV法分別得到4個和3個顯著屬，其中沒有顯著屬重疊。表明OTU與ASV法得到的生物學結論確實存在差異，與兩者原理本質不同有關。

1.2 其余3種數據集中OTU與ASV法的差異

為驗證Autoimmune數據集中得到的結論，使用OTU與ASV法對其余3種疾病得到的群落多樣性以及屬水平菌群結構差異進行分析。同Autoimmune數據集分析方法，初步過濾后，ASV數量均少于OTU。過濾偽序列后，ASV數量也均少于OTU（表1）。3種疾病的a數據集Shannon指數和豐富度均低于o數據集（圖1），豐度曲線收斂均快于o數據集（圖2）。3種疾病數據集中，使用OTU法檢測到的屬數量均多于ASV法，其中只存在于ASV法得到的屬與只存在于OTU法得到的屬RA均較低。OTU與ASV法對高豐度屬的檢測能力相近，例如對Cancer數據集進行過濾（RA<0.1%），使用OTU法得到79個屬，使用ASV法得到74個屬，其中66個重疊（圖3）。可知，不同方法產生的差異主要源于RA水平較低（<0.1%）的屬。

OTU或ASV法會得到不同的微生物多樣性、豐富度、組成結構和差異豐度，從而影響生物學結論。顯著性分析時，相較于OTU法，過濾RA低于0.1%和0.5%的屬后，ASV法得到的顯著屬數量仍較少。因此，對OTU法得到的數據集進行分析時建議嚴格過濾。兩種方法的差異主要源于低豐度屬，因此分析低豐度屬或種時需謹慎。AGP的4種疾病數據集中，a數據集的多樣性和物種豐富度均低于o數據集，這與高比例（約39.7%±6.1%）的ASV未能被準確注釋有關，這些未分配的ASV可能為新微生物變異體，或是數據庫中尚未記錄的微生物序列，而OTU法在全部序列聚類時，納入了數據庫中未包含的非生物序列或與目標微生物無關的序列。同時，使用ASV法得到的數據集豐富度-測序深度曲線收斂比OTU法快，因為ASV法能更好地捕獲物種信息，這也是a數據集α多樣性較低的原因。

同一數據集使用OTU與ASV法會得到不同群落組成，產生不同生物學結論，ASV法可以更準確地識別和分類微觀生物變異體，OTU法則可以更有效地識別和分類相似微生物種類，通過多模態融合，結合兩種方法的優勢，從而更準確地識別和分類樣本中的微生物群落，提高疾病預測效果。

2 MDDMI模型

2.1 模型輸入層

分別獲取OTU與ASV法得到的微生物轉移網絡中的所有樣本生物分類單元組成，使用parallel-meta[19]工具對OTU法得到的生物分類單元組成樣本及豐度進行整合，生成包含所有樣本OTU豐度信息的豐度矩陣。由于OTU與ASV豐度矩陣中存在大量豐度值為0的向量，直接用作節點特征可能影響預測結果，通過計算所有矩陣向量與節點標簽之間的相關性，剔除相關性較低的向量，獲取顯著節點并降維初始特征。

2.2 模型框架層

構建OTU與ASV微生物轉移網絡系統發育樹模型，記為G=（V，E），其中V表示節點，E表示節點之間的連邊，代表節點之間的相關性。

MDDMI按照屬信息構造OTU與ASV連邊，使用GCN獲取相關性。GCN是CNN的變形，可以解決CNN無法處理的非結構化數據。在GCN中，節點通過聚合其鄰居節點特征信息更新自身節點特征信息，通過損失函數，反向傳播更新所有網絡中的可學習參數，并以此學習節點的嵌入向量表示。GCN的原理為

H（l+1）=σ（D-12A～D-12H（l）W（l）+bl）（1）

其中，H（l）為圖內節點第l層的向量表示，D為圖的度矩陣，A～為圖的鄰接矩陣，W（l）為可訓練的線性變換權重參數，bl為偏置項，σ為非線性激活函數，例如ReLU，H（l+1）由H（l）計算。

將GCN學習到的圖嵌入向量與顯著屬信息（累加所有出現在顯著屬列表的特征豐度）添加至o與a數據集中，使用深度神經網絡（Deep Neural Networks，DNN）[2]進行疾病預測（圖4）。

2.3 預測層

DNN輸出的二維特征中第一維度特征值作為預測得分，使用binary_cross_entropy作為目標損失函數進行訓練

Loss=－1N∑Ni=1yi×log（p（yi））+（1－yi）×log（1－p（yi））（2）

其中，y為正負樣本標簽0或1，代表樣本是否患病，p（y）為輸出屬于y標簽的概率。預測得分越高，節點標簽為正樣本的概率越大，即該樣本為患病樣本的可能性越大。

3 實驗設置與結果討論

3.1 數據獲取與預處理

本文使用AGP調查問卷中29 346個樣本的表型數據作為標準判斷樣本是否患病，并處理調查問卷中的微生物樣本采集信息，使用Vsearch[20]獲取其中26 970個樣本的OTU組成信息，使用parallel-meta自動分析流程進行處理，生成包含26 970個樣本在內的OTU相對豐度表；同時使用Deblur[21]獲取樣本的ASV組成信息。

Autoimmune、Cancer、Lung Disease和IBS 4種疾病數據集創建方式如下：從表型數據中分別得到“Autoimmune”、“Cancer”、“Lung Disease”和“IBS”列中“被專家確診”的樣本作為患病樣本；在IBS、Autoimmune、Thyroid等二十余種疾病上都表現為健康表型的樣本作為健康樣本。將所有健康樣本分別與4種疾病數據集的患病樣本合并，得到4種疾病的初始樣本。由于不同居住環境會導致人體內菌群產生較大差異，為避免居住地等因素對樣本菌群組成產生影響，對4種疾病的樣本分別進行預處理，只保留居住地為“USA”的樣本以保證菌群組成整體相似性。篩選后的4種疾病樣本中，只保留健康樣本中1 500個作為最終健康樣本，以避免數據集不平衡。根據得到的4種疾病樣本編號從OTU、ASV組成信息中提取4種疾病數據集的o、a數據集。

3.2 實驗參數與比較模型

將MDDMI與兩種基礎方法（RF（Random Forest）[2]、DNN）進行比較。RF處理高維數據時性能良好，處理非線性關系的能力也較強，能夠自動處理特征選擇和數據平衡問題，具有較好魯棒性。DNN在各種任務中表現出色，能夠學習多個層次的抽象特征表示，具有較強建模能力，可以自動學習輸入數據中的復雜模式和關系，適用于處理大規模高維數據。

3.3 評估指標

評估指標反映模型對樣本數據的處理效果，通過對比模型預測結果與真實標簽，計算模型的預測準確率等指標，衡量模型解決問題的能力。接受者操作特征曲線是一種有效的二分類模型性能評估方法，通過設置閾值，將樣本分為患病和健康兩類，利用ROC曲線和AUC值衡量模型預測精度。采用五折交叉驗證法，使用sklearn中的StratifiedKFold包保證數據均勻分布和結果準確性。通過比較各個模型的AUC值評估疾病檢測模型性能表現。

3.4 結果對比與討論

Autoimmune數據集運行結果表明，兩種基礎模型預測得到的AUC值相當。為驗證物種注釋覆蓋率對使用a數據集訓練效果的影響（僅有60%的ASV被正確物種注釋），使用所有的ASV訓練兩種基礎模型，發現物種注釋覆蓋率對預測結果影響較小。此外，使用o數據集訓練基礎模型，預測得到的AUC值高于a數據集，使用MDDMI得到的AUC值高于使用任一單一模態數據集，提升至0.768（圖5（a））。上述AUC值為五次五折交叉驗證結果的均值。

為驗證模型泛化能力，繼續對AGP數據集的Cancer、Lung Disease和IBS進行預測（圖5（b）-（d））。僅在Lung Disease預測時，MDDMI效果低于單一使用o數據集效果，但與訓練效果相當。其余3種疾病中，MDDMI預測效果優于使用單一模態數據。

4 結論

對同一數據集使用不同方法得到的菌群結構以及多樣性存在差異，這與OTU、ASV工作原理的不同以及ASV法物種注釋覆蓋率低有關。數據分析結果表明，雖然ASV法更加精確，但相比OTU法，無法有效識別和分類相似微生物種類，影響低豐度物種分類結果，α多樣性較低；疾病預測結果表明，使用OTU數據集訓練兩種基礎模型，在4種疾病數據集中AUC值均高于ASV數據集，表明低豐度屬對疾病預測效果的影響較大。通過多模態融合，可得到更全面的視角，提高疾病預測效果。本文提出了一種使用圖卷積神經網絡融合OTU、ASV以獲取物種信息的方法：MDDMI，使用系統發育樹構造OTU與ASV異構網絡，利用圖卷積神經網絡獲取相關性，考慮顯著性分析結果，融合AGP中4種疾病的OTU與ASV數據集進行疾病預測，AUC值普遍高于單模態數據疾病預測結果。

參考文獻

[1]TAMBOLI C P， NEUT C， DESREUMAUX P， et al. Dysbiosis ininflammatory bowel disease[J]. Gut， 2004， 53（1）： 1-4.

[2]NGUYEN T H， CHEVALEYRE Y， PRIFTI E， et al. Deep learning for metagenomic data： using 2D embeddings and convolutional neural networks[DB/OL]. [2023-08-02]. https：//arxiv.org/abs/1712.00244.

[3]NGUYEN T H， PRIFTI E， CHEVALEYRE Y， et al. Disease classification in metagenomics with 2Dembeddings and deep learning[DB/OL]. [2023-08-02]. https：//arxiv.org/abs/1806.09046.

[4]ASGARI E， GARAKANI K， MCHARDY A C， et al.MicroPheno： Predicting environments and host phenotypes from 16S rRNA gene sequencing using a k-mer based representation of shallow sub-samples[J]. Bioinformatics， 2018， 34（13）： 32-42.

[5]REIMAN D， METWALLY A， SUN J， et al.PopPhy-CNN： A phylogenetic tree embedded architecture for convolutional neural networks to predict host phenotype from metagenomic data[J]. IEEE Journal of Biomedical and Health Informatics， 2020， 24（10）： 2993-3001.

[6]NEARING J T， DOUGLAS G M， COMEAU A M， et al. Denoising the denoisers：An independent evaluation of microbiome sequence error-correction approaches[J]. PeerJ， 2018， 6： e5364

[7]CALLAHAN B J， MCMURDIE P J， ROSEN M J， et al. DADA2： High-resolution sample inference from Illumina amplicon data[J]. Nature Methods， 2016， 13（7）： 581-583.

[8]BLAXTER M， MANN J， CHAPMAN T， et al. Defining operational taxonomic units using DNA barcode data[J]. Philosophical Transactions of the Royal Society of London， 2005， 360（1462）： 1935-1943.

[9]KNIGHT R， VRBANAC A， TAYLOR B C， et al. Best practices foranalysing microbiomes： Nature reviews[J]. Microbiology， 2018， 16（7）： 410-422.

[10] PRODAN A， TREMAROLI V， BROLIN H， et al. Comparing bioinformatic pipelines for microbial 16S rRNA amplicon sequencing[J]. PLoS ONE， 2020， 15（1）： e0227434.

[11] CARUSO V， SONG X， ASQUITH M， et al. Performance of microbiome sequence inference methods in environments with varying biomass[J]. mSystems， 2019， 4（1）： e00163-18.

[12] FORSTER D， LENTENDU G， FILKER S， et al. Improving eDNA-based protist diversity assessments using networks of amplicon sequence variants[J]. Environmental Microbiology， 2019， 21（11）： 4109-4124.

[13] MILANESE A， MENDE D R， PAOLI L， et al. Microbial abundance， activity and population genomic profiling with mOTUs2[J]. Nature Communications， 2019， 10（1）： 1014.

[14] PRODAN A， TREMAROLI V， BROLIN H， et al. Comparing bioinformatic pipelines for microbial 16S rRNA amplicon sequencing[J]. PLoS ONE， 2020， 15（1）： e0227434.

[15] PAUVERT C， BUE M， LAVAL V， et al. Bioinformatics matters： The accuracy of plant and soil fungal community data is highly dependent on the metabarcoding pipeline[J]. Fungal Ecology， 2019， 12（5）： 1064.

[16] GRAZIOLI F， SIARHEYEU R， ALQASSEM I， et al. Microbiome-based disease prediction with multimodal variational information bottlenecks[J]. PLoS Computational Biology， 2020， 18（4）： e1010050.

[17] MCDONALD D， HYDE E， DEBELIUS J W， et al. Americangut： An open platform for citizen science microbiome research[J]. mSystems， 2018， 3（3）： e00031-18.

[18] SHADE A. Diversity is the question， not the answer[J]. The ISME Journal， 2017， 11（1）： 1-6.

[19] SU X， XU J， NING K. Parallel-META：Efficient metagenomic data analysis based on high-performance computation[J]. BMC Syst Biol 6 （Suppl 1）， 2012， 16（1）： 4-8.

[20] ROGNES T， FLOURI T， NICHOLS B， et al. VSEARCH：A versatile open source tool for metagenomics[J]. PeerJ， 2016， 4： e2584.

[21] 鐘輝，劉亞軍，王濱花，等. 分析方法對細菌群落16S rRNA基因擴增測序分析結果的影響[J]. 生物技術通報， 2022， 38（6）： 81-92.

Multimodal Information Fusion of Gut Microbiome for Disease Detection Method

LIU Chang， WU Shun-yao

（College of Computer Science & Technology， Qingdao University， Qingdao 266071， China）

Abstract：

Current methods for analyzing amplicon sequencing data that utilize Operational Taxonomic Units （OTU） or Amplicon Sequence Variants （ASV） can lose multimodal information from various species spectrum construction methods. An analysis was conducted on the differences in community diversity and structure between OTU and ASV datasets across four diseases. An effective approach to integrate OTU and ASV for disease characterization prediction was proposed： MDDMI （Microbiome-based Disease Detection with Multimodal Information）. The results indicate that MDDMI is superior to the single-mode data analysis method.

Keywords：

graph convolutional networks; disease prediction; multimodal; gut microbiome

青島大學學報(自然科學版)2024年2期

青島大學學報(自然科學版)的其它文章: 現行消費稅、綠色投資對碳排放的影響研究; 基于循環生成對抗網絡和Transformer的單幅圖像去霧算法; 基于關系縮放模型的電商知識圖譜鏈接預測問題研究; 基于區塊鏈的視頻流邊緣計算卸載方案研究; 非離子有機顏料分散體從水中的分離性能研究; 基于網絡藥理學和分子對接技術的2，3-吲哚醌抗少弱精癥機制研究