中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A
Disease Prediction Algorithm Based on Host-microbial Network
LUO Wei-wen,WU Shun-yao
Abstract: An algorithm for disease prediction based on a host-microbe dual-layer network was proposed to address the issue microbial interactions being overlooked in disease prediction methods. Host-microbe networks were constructed by microbial sequencing data phylogenetic trees. The restart rom walk algorithm was applied to propagate signals across the network, disease-associated microbial motifs were identified with prior microbial knowledge. These motifs were converted into predictive features incorporated into a model for disease prediction. The experimental results show that in the detection colorectal cancer,the AUC value logistic regression increases from O.84 to O.90, the AUC value rom forest increases from O.88 to 0.92.
Keywords: network propagation;microbial markers;disease prediction;host state
隨著對腸道微生物群研究的深人,對腸道微生物群的作用也有新的了解。研究顯示,腸道微生物在宿主的多種疾病發(fā)展過程中扮演著至關(guān)重要的角色[1]。腸道微生物群是一個復(fù)雜的生態(tài)系統(tǒng),包含數(shù)萬億的微生物[2],不同物種通過共生關(guān)系維持宿主的代謝功能以及其他關(guān)鍵生理過程。因此,利用腸道微生物的豐度信息預(yù)測疾病,是當(dāng)前研究的重要方向。高通量測序技術(shù)能夠快速、準(zhǔn)確地識別宿主腸道中的微生物物種及其豐度信息[3],為構(gòu)建疾病預(yù)測模型提供數(shù)據(jù)基礎(chǔ)。基于高通量測序產(chǎn)生的微生物豐度信息,采用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)方法構(gòu)建疾病預(yù)測模型[4」,能以較高準(zhǔn)確度預(yù)測宿主的疾病狀態(tài)。傳統(tǒng)的豐度分析方法側(cè)重個體物種的豐度變化,忽視了微生物之間相互作用對宿主狀態(tài)的影響[5」。事實(shí)上,微生物通過協(xié)同、競爭和代謝交換等相互作用共同調(diào)控宿主狀態(tài),影響著疾病發(fā)展[6]。目前已有研究以微生物網(wǎng)絡(luò)的視角進(jìn)行疾病預(yù)測,例如,有研究基于結(jié)腸粘膜樣本的微生物豐度數(shù)據(jù),采用網(wǎng)絡(luò)分析方法,揭示物種相互作用與疾病狀態(tài)的相關(guān)性[7];另有研究通過識別微生物共現(xiàn)網(wǎng)絡(luò)模塊的差異來預(yù)測炎癥性腸病[8]。然而這些研究僅采用單層網(wǎng)絡(luò)分析,忽略微生物進(jìn)化關(guān)系與宿主相互作用的多層特性,同時(shí)依賴節(jié)點(diǎn)/邊級特征,缺乏對高階拓?fù)淠J降耐诰颉1疚奶岢鲆环N名為 Specmold 的疾病預(yù)測算法,通過構(gòu)建宿主—微生物網(wǎng)絡(luò),將微生物進(jìn)化關(guān)系與宿主狀態(tài)相結(jié)合,利用網(wǎng)絡(luò)傳播,深入挖掘微生物相互作用網(wǎng)絡(luò)中的微生物模體[9],構(gòu)造模體特征并應(yīng)用于疾病預(yù)測,探索微生物相互作用對疾病的影響。
1 構(gòu)建疾病預(yù)測算法
本文設(shè)計(jì)一種基于網(wǎng)絡(luò)傳播的方法來挖掘每個疾病中可能存在的微生物模體,利用其預(yù)測疾病。流程如圖1所示,分為基于宿主—微生物網(wǎng)絡(luò)的網(wǎng)絡(luò)傳播、模體檢測、疾病預(yù)測三部分。
圖1基于宿主一微生物網(wǎng)絡(luò)疾病預(yù)測流程

1.1基于宿主一微生物網(wǎng)絡(luò)的網(wǎng)絡(luò)傳播
獲取宿主的微生物組測序數(shù)據(jù)后,使用Metaphlan[10]分析序列數(shù)據(jù),生成微生物豐度矩陣。對矩陣中的微生物,通過其在系統(tǒng)發(fā)育樹中的信息構(gòu)建微生物網(wǎng)絡(luò)。系統(tǒng)發(fā)育樹[11]是表示微生物進(jìn)化關(guān)系的樹狀圖,通過比較微生物基因序列相似性,將進(jìn)化關(guān)系相近的微生物排列在相鄰節(jié)點(diǎn),兩個微生物的關(guān)系由其到共同祖先節(jié)點(diǎn)的路徑長度決定:路徑越短,基因相似性越高,進(jìn)化關(guān)系越緊密;路徑越長,基因差異越大,進(jìn)化關(guān)系越疏遠(yuǎn)[11]。Specmold算法通過系統(tǒng)發(fā)育樹構(gòu)建微生物網(wǎng)絡(luò),為微生物節(jié)點(diǎn)兩兩之間構(gòu)造連邊,通過微生物在系統(tǒng)發(fā)育樹中的距離計(jì)算連邊權(quán)重。假設(shè)兩個微生物都能在系統(tǒng)發(fā)育樹中找到,且在發(fā)育樹中的距離為d , dmax 為所有微生物之間距離的最大值,則兩個微生物節(jié)點(diǎn)在相互作用網(wǎng)絡(luò)中連邊權(quán)重 Esim 記為
Esim=dmax-d/dmax
該權(quán)重的設(shè)計(jì)基于進(jìn)化距離與功能關(guān)聯(lián)的負(fù)相關(guān)性假設(shè),進(jìn)化距離較小的微生物因功能互補(bǔ)性強(qiáng),提高其連邊權(quán)重 Esim 以表示強(qiáng)相互作用,進(jìn)化距離較大的微生物因功能互補(bǔ)性弱,則降低權(quán)重 Esim 以表示弱相互作用。在微生物相互作用網(wǎng)絡(luò)中添加宿主節(jié)點(diǎn),并將其與該宿主中所包含的微生物節(jié)點(diǎn)相連,構(gòu)建出與宿主數(shù)量相同的宿主—微生物網(wǎng)絡(luò)。Specmold算法使用重啟隨機(jī)游走算法[12]計(jì)算網(wǎng)絡(luò)中微生物節(jié)點(diǎn)的重要性。重啟隨機(jī)游走算法通過模擬網(wǎng)絡(luò)中的隨機(jī)游走過程,量化節(jié)點(diǎn)在網(wǎng)絡(luò)中的影響力。首先計(jì)算宿主—微生物網(wǎng)絡(luò)的鄰接矩陣 A ,然后對其歸一化處理,得到轉(zhuǎn)移概率矩陣 W

分配初始影響力向量 Y ,與宿主節(jié)點(diǎn)相連的微生物節(jié)點(diǎn)作為初始標(biāo)記節(jié)點(diǎn),初始影響力值均等分配,總和為1,非標(biāo)記節(jié)點(diǎn)的初始影響力為0

其中,S 是標(biāo)記節(jié)點(diǎn)的集合, ∣S∣ 是標(biāo)記節(jié)點(diǎn)的數(shù)量。基于重啟隨機(jī)游走模型計(jì)算穩(wěn)態(tài)影響力向量 Fsta
Fsta=α(I-(1-α)W)-1Y
其中, α 是重啟概率,表示每一步返回到初始節(jié)點(diǎn)的概率,
是單位矩陣, (I-(1-α)W)-1 表示矩陣的逆。通過反復(fù)模擬從初始節(jié)點(diǎn)出發(fā)的隨機(jī)游走過程,最終每個節(jié)點(diǎn)的影響力值收斂至穩(wěn)定分布。 Fsta 中數(shù)值高的節(jié)點(diǎn),其在網(wǎng)絡(luò)拓?fù)渲信c初始節(jié)點(diǎn)關(guān)聯(lián)緊密,對疾病預(yù)測的潛在貢獻(xiàn)大。超參數(shù) α 對穩(wěn)態(tài)向量的收斂性具有顯著影響,較小 α 值易過度全局化傳播,導(dǎo)致信息過度擴(kuò)散至非相關(guān)節(jié)點(diǎn),較大 α 值則限制傳播范圍,忽略潛在遠(yuǎn)程關(guān)聯(lián)。通過網(wǎng)格搜索( α={0.1,0.3,0.5,0.7} )結(jié)合五折交叉驗(yàn)證,最終選擇 α=0.3 。對于多個宿主一微生物網(wǎng)絡(luò),依次進(jìn)行網(wǎng)絡(luò)傳播,每個微生物得到 n 個評分,計(jì)算該微生物在不同網(wǎng)絡(luò)中的評分均值,得到其在疾病中的重要性分?jǐn)?shù),分?jǐn)?shù)越高代表該微生物對疾病的影響越顯著,結(jié)合先驗(yàn)微生物,尋找疾病的標(biāo)記微生物。
1.2 模體檢測
基于尋找到的標(biāo)記微生物,結(jié)合已知的微生物網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),檢測出疾病中存在的微生物模體。原始微生物網(wǎng)絡(luò)記為 G=(V,E) ,其中 V 是微生物節(jié)點(diǎn)的集合, E 為微生物節(jié)點(diǎn)的連邊集合。 M 為標(biāo)記微生物集合,Specmold 算法基于 M 在原網(wǎng)絡(luò)中的拓?fù)浣Y(jié)構(gòu),檢測出微生物模體。 G′ 表示只包含標(biāo)記微生物及其連邊的子圖,記為
G′=(M,E′)
其中, E′={(u,v)|u∈M,v∈M,(u,v)∈E} 。換言之, G′ 的節(jié)點(diǎn)集僅為標(biāo)記微生物 M ,如果在原網(wǎng)絡(luò) G 里兩個標(biāo)記微生物 u 與 v 之間存在連邊,則將連邊納入 G′ 中。尋找 G′ 中的連通分量,將每一個連通分量看作一個微生物模體。用集合 CG′ 表示所有連通分量: CG′={C1,C2,…,Ck} ,每個 Ci 表示 G′ 的一個連通分量,即疾病中的一個微生物模體。
1.3 疾病預(yù)測
利用微生物模體,結(jié)合已知的機(jī)器學(xué)習(xí)與深度學(xué)習(xí)模型預(yù)測疾病,并對比僅依靠豐度進(jìn)行預(yù)測的模型,量化微生物模體對疾病預(yù)測準(zhǔn)確率的提升效果。
2 實(shí)驗(yàn)設(shè)置與結(jié)果討論
2.1數(shù)據(jù)集獲取與預(yù)處理
實(shí)驗(yàn)使用美國國家生物信息中心(National Center for Biotechnology Information,NCBI)的PRJEB6070數(shù)據(jù)集[13]。首先從NCBI獲取每個樣本的初始序列數(shù)據(jù),通過 Metaphlan預(yù)處理獲取308個樣本的微生物序列信息,生成308個樣本的微生物相對豐度矩陣,并借助輔助調(diào)查問卷中的meta信息為每個樣本添加初始標(biāo)簽。為減少外部環(huán)境因素導(dǎo)致的數(shù)據(jù)誤差,Metaphlan處理每個樣本時(shí),均經(jīng)過了質(zhì)控和去宿主信息。
2.2 實(shí)驗(yàn)過程
為評估微生物模體特征對疾病預(yù)測的貢獻(xiàn),本研究采用4種模型:邏輯回歸[14](Logistic Regression,LR)隨機(jī)森林[15](Rom Forest,RF)、Graphormer[16]、MVIB[17],在 PRJEB6070數(shù)據(jù)集上預(yù)測疾病。每種模型分別測試3種輸入特征:僅微生物模體特征;僅微生物豐度;微生物豐度 + 模體特征組合,比較不同輸入特征的預(yù)測性能。
2.3 評估指標(biāo)
評估指標(biāo)反應(yīng)模型的預(yù)測效果。通過對比模型預(yù)測結(jié)果與真實(shí)標(biāo)簽的差異,驗(yàn)證引入模體特征后的模型性能。接收者操作曲線(Rerceiver Operating Curve,ROC)能有效評估二分類模型的性能,通過設(shè)計(jì)閾值,實(shí)現(xiàn)樣本狀態(tài)的二分類判別。AUC為ROC曲線下方的面積,通過比較預(yù)測結(jié)果與實(shí)際性狀間的差異衡量預(yù)測結(jié)果的準(zhǔn)確性。實(shí)驗(yàn)采取五折交叉驗(yàn)證,保證數(shù)據(jù)的均勻分布及結(jié)果的穩(wěn)定性[18]。對于單種疾病預(yù)測,使用 Specmold挖掘微生物模體,構(gòu)造模體特征并輸入模型,與僅使用豐度信息的模型進(jìn)行對比,結(jié)果見表1。采用Wilcoxon符號秩檢驗(yàn),評估同一模型在引入模體特征前后五折交叉驗(yàn)證的AUC值差異,驗(yàn)證性能提升的統(tǒng)計(jì)學(xué)顯著性。由表1可知,使用模體特征的模型預(yù)測效果均有所提升,其中 MVIB、Graphormer在添加微生物模體特征后,效果提升程度高于傳統(tǒng)的機(jī)器學(xué)習(xí)模型。Wilcoxon符號秩檢驗(yàn)結(jié)果表明,同一模型在引入模體特征后,其AUC值的提升具有統(tǒng)計(jì)學(xué)顯著性,證實(shí)Specmold方法能有效提升模型性能。
表1單種疾病引入模體特征預(yù)測效果

2.4 結(jié)果分析
利用Specmold檢測到的微生物模體,構(gòu)造模體特征作為模型的輸入,與使用全部相對豐度作為輸入的模型進(jìn)行性能比較,通過引人模體特征可更好地識別樣本內(nèi)不同微生物之間的相互作用[19],以提升疾病預(yù)測的準(zhǔn)確率。本研究模擬真實(shí)的疾病預(yù)測過程,將表1中的3種疾病合并為并發(fā)癥數(shù)據(jù)集,并將4種方法分別作用于疾病檢測。見表2,利用模體特征進(jìn)行多分類疾病預(yù)測的效果與使用豐度信息的效果基本一致,說明僅依靠Specmold挖掘到的微生物模體,就可有效識別疾病狀態(tài)。將原始豐度信息與構(gòu)造的模體特征相結(jié)合用于疾病預(yù)測,同時(shí)考慮微生物豐度與微生物模體的相互作用,多分類疾病預(yù)測的效果得到顯著提升。通過Wilcoxon符號秩檢驗(yàn),比較原始豐度 + 模體特征模型與兩種單一特征模型的AUC差異,驗(yàn)證聯(lián)合特征的顯著性優(yōu)勢。
表2多種疾病引入模體特征預(yù)測效果

深入挖掘模體中各個微生物相互作用的方式,計(jì)算同種疾病標(biāo)簽中模體內(nèi)微生物的 person 相關(guān)性[20]。如圖2所示,同一個模體內(nèi)的不同物種,在同種標(biāo)簽中有明顯的高相關(guān)性,而不同模體內(nèi)的微生物 person 相關(guān)性系數(shù)較低,說明模體中的物種之間有明顯的生物學(xué)關(guān)聯(lián),一種物種的豐度變化會引起其他物種的豐度隨之改變[21],多個物種豐度變化所產(chǎn)生的效應(yīng)會對疾病產(chǎn)生影響[22]。
基于微生物網(wǎng)絡(luò),計(jì)算不同疾病中模體微生物與非模體微生物的平均度中心性,如圖3所示,度中心性較高的微生物通常與其他微生物有更多的相互作用,因此在網(wǎng)絡(luò)中占據(jù)更重要的位置。當(dāng)微生物屬于某個模體時(shí),其平均度中心性明顯高于非模體微生物,表明模體微生物在網(wǎng)絡(luò)中更加活躍,與其他微生物的相互作用更為緊密,模體內(nèi)的微生物在內(nèi)部相互作用時(shí),通過對模體外的微生物施加作用,對疾病演變產(chǎn)生重要影響。
3結(jié)論
本研究提出的Specmold算法通過整合微生物相似性網(wǎng)絡(luò)和重啟隨機(jī)游走算法,系統(tǒng)性地挖掘微生物物種間復(fù)雜的相互作用關(guān)系,并將這些相互作用特征納入疾病預(yù)測模型。實(shí)驗(yàn)結(jié)果顯示,Specmold算法顯著提高了多種疾病的預(yù)測準(zhǔn)確率。基于微生物相互作用網(wǎng)絡(luò)的分析方法比傳統(tǒng)的豐度分析更能有效揭示微生物群落與宿主健康的關(guān)聯(lián)機(jī)制,因此,未來在微生物—疾病關(guān)聯(lián)研究中應(yīng)重視對微生物相互作用網(wǎng)絡(luò)的分析。
參考文獻(xiàn)
[1]QINJ,LIR,RAESJ,etal.AhumangutmicrobialgenecatalogueestablishedbymetagenomicsequencingJ]Nature,010,464(7285):59-65.
[2]TURNBAUGH PJ,LEYRE,HAMADY M,et al. The human microbiome project[J].Nature,2007,449(7164):804-810.
[3]劉倩,胡天芹,王成斌,等.腸道菌群與神經(jīng)系統(tǒng)自身免疫性疾病的研究進(jìn)展[J].國際神經(jīng)病學(xué)神經(jīng)外科學(xué)雜志,2024,51(3):81-89.
[4]HUTTENHOWER C,GEVERS D,KNIGHTR,etal.Humanmicrobiome project,structure,functiondiversity thehealthy hu-man microbiome[J].Nature,2012,486(7402):207-214.
[5]ZHAOL.Thegut microbiotaobesity:FromcorrelationtocausalityJ].NatureReviewsMicrobiology20l3,11(9):69-647.
[6]王高強(qiáng).口腔和腸道微生物群落與關(guān)節(jié)炎疾病的相關(guān)性研究[J].工業(yè)微生物,2024,54(1):20-22.
[7]NAQVI A,RANGWALA H,KESHAVARZIANA,etal.Network based modeling the human gut microbiome[J].ChemistryBiodiversity,2010,7(5):1040-1050.
[8]SHARMAA,OLAFJ,SZYMCZAKS,etalNetorkbasedquantitivetraitlinkageanalysismicrobiomecompositioninfl-torybowel disease families[J].Frontiers in Genetics,2023,14:1048312.
[9]CHATELIEREL,NIELSENT,QINJJ,etal.Richnesshuman gut microbiomecorelates with metabolic markers[J].Nature,2013,500(7464):541-546.
[10]BLANCOMA,BEGHNF,CUMBOF,etal.Extendingimprovingmetagenomictaxonomicpriling withuncharacterizedspeciesusingMetaPhlAn 4[J].NatureBiotechnology,2023,41(11):1633-1644.
[11]IGIC B.Phylogenetic trees made easy:A how-to manual[J]. Journal Heredity,20o5,96(4):469-470.
[12]TONGH,F(xiàn)ALOUTSOSC,PANJY.Romwalkwithrestart:Fastsolutionsaplications[J].KnowledgeInformationSys-tems,2007,14(3):327-346.
[13]QINJJ,IRQ,JEROENR,etal.AhumanguticrobialgenecatalogueestablishedbymetagenomicsequencingJ].Nature1464(7285),59-65.
[14]JANKOWKRKIS,LEEH,etal.Comparisonmacinelearingmethdswithlgisticeresionanalysisinreatingpdictiemodelsforriskiticalin-ospitaleventsinCOVD-19patintsonospitaladmisionBMCMedicalInformaticsDcisioaking,2022,22(1):497-505.
[15] BREIMAN L. Rom forests[J]. Machine Learning,2001,45(1): 5-32.