





摘要:
針對疾病檢測方法中忽略微生物潛在關聯(lián)問題,提出一種基于微生物轉移網絡的新型圖神經網絡算法(SAGE-O-N)用于疾病檢測。算法利用微生物測序信息的相似性特征構建微生物轉移網絡,使用圖結構數(shù)據(jù)挖掘算法發(fā)掘相似性與表型關聯(lián)。實驗結果表明,與傳統(tǒng)機器學習方法相比,SAGE-O-N在單種疾病上的受試者工作特征曲線面積(Area Under Curve,AUC)提高了約2%,在并發(fā)癥數(shù)據(jù)集中AUC提高約4%。
關鍵詞:
圖神經網絡;疾病檢測;人體菌群;微生物轉移網絡
中圖分類號:TP391
文獻標志碼:A
收稿日期:2023-08-25
基金項目:
山東省自然科學基金(批準號:ZR2019PF012)資助;山東省高等學校科技計劃(批準號:J18KA356)資助。
通信作者:
吳舜堯,男,博士,講師,主要研究方向數(shù)據(jù)挖掘與復雜網絡。E-mail: wushunyao@qdu.edu.cn
人體中微生物菌群的異常情況往往預示著存在潛在的健康問題或疾病[1]。微生物菌群與人體共生,能夠調節(jié)人體健康水平,因此通過研究微生物菌群的組成可以預知人體的健康狀況[2]。傳統(tǒng)的疾病檢測方法例如臨床問診、定期體檢等存在一定的缺陷,有時需要檢測多個指標,耗時較長且存在誤差,往往只能檢測出已經出現(xiàn)明顯癥狀的疾病,因此基于人體菌群的疾病檢測的智能算法研究對減少疾病發(fā)病率、節(jié)約醫(yī)療成本等具有重要意義[3]。目前,基于傳統(tǒng)的機器學習的微生物檢測方法主要根據(jù)生物學的先驗數(shù)據(jù)建立模型,常用方法例如隨機森林[3](Random Forest)、支持向量機[4](SVM)、K近鄰[5](KNN)等被廣泛應用于標簽分類和疾病檢測任務,將通過分析人體微生物或有機化合物的組成成分作為診斷人體是否患有疾病的依據(jù),使用與疾病強關聯(lián)的部分微生物作為患者的顯著特征分析和建模,從而實現(xiàn)判斷人體是否患病。隨著深度學習的不斷發(fā)展,神經網絡模型逐漸應用于疾病檢測領域。深度學習能充分利用神經網絡分析更加復雜的生物學特征,使用卷積映射處理原始特征,從高維特征中提取出更加精確的信息,極大簡化了數(shù)據(jù)處理過程,提升了疾病檢測任務的工作效率和準確率[6]。然而,無論基于機器學習還是深度學習的疾病檢測方法大多忽略了患者之間的關聯(lián),僅僅將微生物組成作為樣本特征實現(xiàn)樣本分類并假設樣本獨立,而忽略了患有同種疾病的患者往往具備高度相似的菌群結構[7]。基于菌群相似性的樣本特點,使用基于系統(tǒng)發(fā)育樹的相似性計算方式可以計算樣本的成對相似性[8],深度發(fā)掘不同樣本間的潛在關聯(lián),成為疾病檢測新的研究思路。本文提出了一種基于微生物轉移網絡的新型圖神經網絡算法(SAGE-O-N),在原有模型基礎上融合了包含人體菌群組成特征等信息,利用患者的菌群先驗信息重新構建患者間的相似性,并利用Node2vec圖結構數(shù)據(jù)挖掘算法轉換節(jié)點特征相似性,用于實現(xiàn)未知樣本的分類預測。
1 基于微生物轉移網絡的圖神經網絡算法(SAGE-O-N)
1.1 模型輸入層
基于微生物樣本間相似性關系構建微生物轉移網絡算法(SAGE-O-N)如圖1所示,利用網絡結構作為模型實現(xiàn)信息傳播和聚合。記微生物轉移網絡G=(V,E),其中V為節(jié)點集合,代表美國腸道計劃(American Gut Project,AGP)中的采樣樣本[9],E為鏈路集合,節(jié)點間的連邊代表成對樣本間的高相似性。
獲取微生物轉移網絡中所有樣本對應的生物分類單元組成(Operational Taxonomic Unit,OTU),使用parallel-meta[10]數(shù)據(jù)處理工具整合所有樣本及對應的OTU組成、OTU豐度,生成OTU豐度矩陣并將利用矩陣中的豐度信息作為所有樣本的原始節(jié)點特征。由于豐度矩陣中包含所有樣本的OTU豐度,因此對于單個樣本可能存在大量豐度值為0的豐度向量,直接使用豐度矩陣作為節(jié)點特征應用于下游任務處理時,可能無法精確捕捉與標簽相關性較高的向量,從而影響預測結果。為此,計算所有向量與節(jié)點標簽間的相關性,剔除與節(jié)點標簽相關性低的矩陣向量,以此實現(xiàn)降維并獲取更為顯著的節(jié)點降維初始特征。
采用經典的網絡嵌入方法Node2vec[11]隨機生成節(jié)點序列,通過Skip-gram模型得到節(jié)點的嵌入表示,提取疾病檢測網絡節(jié)點的低維特征表示作為節(jié)點隨機游走特征并實現(xiàn)預處理過程。在Node2vec方法的基礎上,充分考慮病患間的潛在關系,在所有樣本中選取相似性排名前30的鄰居節(jié)點,在已知的患病樣本中選取相似性排名前200的所有患病鄰居節(jié)點,最大可能保留了患病樣本間的已知聯(lián)系。Node2vec邊的權重定義為πvx=αpqt,x×ωvx,由兩部分組成,其中ωvx為邊的權重大小(默認權重為1),αpq(t,x)為控制隨機游走路徑的權重,受變量p、q控制,其中p為廣度優(yōu)先搜索權重,q為深度優(yōu)先搜索權重,t為當前節(jié)點所處位置,x為將要選擇的節(jié)點位置,權重表達式為
αpq(t,x)=1/p,dtx=01,dtx=11/q,dtx=2(1)
其中,dtx為節(jié)點t與節(jié)點x間的拓撲距離。本文調整了訓練集中已知的患病樣本節(jié)點的權重,放大了疾病節(jié)點vi與其鄰居節(jié)點vj的連邊權重,調整后的權重值用wij表示
wij=1,ifvi,vj∈H∪D
4,ifvjorvi∈D(2)
其中,H代表健康樣本的樣本集,D代表患病樣本的樣本集。
首先,將節(jié)點隨機游走特征作為輸入特征向量,并借助SAGEConv[12]圖神經網絡層完成兩次卷積操作,然后利用深度神經網絡模型處理卷積后的特征處理,將節(jié)點隨機游走特征映射成一維特征向量,并與經過特征相關性篩選后的降維特征拼接以作為節(jié)點最終的特征輸入信息。
1.2 SAGE-O-N模型框架層
SAGE-O-N算法基于圖神經網絡中的GraphSAGE[12]網絡模型實現(xiàn)節(jié)點分類任務。傳統(tǒng)的機器學習模型和深度學習模型大多基于節(jié)點自身特征完成分類任務,通過重復分解特征實現(xiàn)壓縮降維,然后使用激活函數(shù)進行特征映射并轉化為概率值,最終通過設置閾值完成正負樣本的分類判定,但是此類方法很難直接處理復雜的網絡結構。圖神經網絡是專門處理圖結構數(shù)據(jù)的神經網絡模型,基于網絡拓撲結構對節(jié)點特征實現(xiàn)采樣、聚合以提取節(jié)點自身的特征信息,并在訓練過程中定義損失函數(shù)衡量節(jié)點特征與標簽的一致性,使用反向傳播算法持續(xù)更新神經網絡中的可學習參數(shù),通過優(yōu)化損失函數(shù)使其學習最終的節(jié)點特征表示。
SAGE-O-N使用GraphSAGE算法對輸入節(jié)點特征實現(xiàn)后續(xù)處理,與GCN[13]不同,GraphSAGE是一種利用其鄰居節(jié)點的特征信息產生未知節(jié)點向量表示的歸納式學習方法,核心是將整張圖的采樣優(yōu)化為當前鄰居節(jié)點的采樣,解決了GCN每次采樣、聚合都需要更新全圖的問題。GraphSAGE模型對圖中一定比例的鄰域采樣來聚合節(jié)點特征信息。采樣函數(shù)為
hkv=σ(Wk·concat(hk-1v,hkN(v)))(3)
其中,N(v)為節(jié)點v的鄰居集合,concat(hk-1v,hkN(v))為hk-1v與hkN(v)的拼接,σ為所選非線性變換函數(shù),Wk代表當前第k層的權重矩陣;聚合函數(shù)為
AGG=σ(W·MEAN({hk-1v}∪{hk-1u,u∈N(v)}))(4)
其中,MEAN為均值聚合器,W代表當前狀態(tài)的權重矩陣。SAGE-O-N算法使用SAGEConv卷積層對輸入節(jié)點特征完成兩次卷積操作,SAGEConv的最終的拼接特征xi′為
xi′=W·concat(Aggregatej∈N(i)xj,xi)(5)
其中,Aggregate為所選聚合函數(shù)。
通過鄰居節(jié)點的特征采樣、聚合的方式更新自身節(jié)點特征,并借助了深度神經網絡模型(Deep Neural Network,DNN)實現(xiàn)圖神經網絡卷積后的特征再處理,通過特征映射實現(xiàn)節(jié)點特征降維至合適的維度用于后續(xù)的節(jié)點分類任務。深度神經網絡是基于感知機模型的深度學習方法,通過處理上一網絡層的輸出后作為下一網絡層的輸入,從而實現(xiàn)特征的線性轉換。DNN實現(xiàn)特征線性轉換z的過程為
z=∑mi=1wixi+b(6)
其中,w為線性關系系數(shù),b為偏置量。獲取上層轉換結果后,將上層的輸出結果經過神經元激活函數(shù)處理后作為下層的輸入。
1.3 預測層
選取二維特征中第一維度特征值作為預測得分,并使用binary_cross_entropy作為目標損失函數(shù)訓練,損失函數(shù)表示為
Loss function=-1N∑Ni=1yi×logp(yi)+(1-yi)×log(1-p(yi))(7)
其中,y是正負樣本標簽0或1,即代表樣本是否患病,p(y)是輸出屬于y標簽的概率,預測得分越高,節(jié)點標簽為正樣本的概率越大,即該樣本為患病樣本的可能性越大。
2 實驗設置與結果討論
2.1 數(shù)據(jù)獲取與預處理
使用美國腸道計劃[11]調查問卷中29 346個樣本的表型信息作為判斷樣本是否患病的標準。首先,對調查問卷中的微生物樣本的采集內容預處理,獲取26 970個樣本的OTU組成信息,使用parallel-meta自動分析流程處理所有信息,生成包含26 970個樣本在內的OTU相對豐度信息表。根據(jù)樣本組成信息生成不同樣本之間基于系統(tǒng)發(fā)育樹的相似性,保存每個樣本相似性排名前200的樣本集作為后續(xù)生成網絡連邊的依據(jù),并從每個樣本相似性排名前30的其他高相似性樣本中篩選連邊。借助調查問卷中的先驗信息輔助構建微生物相互作用網絡,調查問卷中已知表型信息為患病的樣本,盡最大程度保留該樣本與其他樣本間的連邊關系,使疾病樣本間更易相互聚合特征。基于上述理論,訓練集中的已知患病樣本額外添加了患病樣本連邊,而其他樣本依然使用相似性閾值0.9作為判斷是否存在連邊的依據(jù)。
為了減少外部環(huán)境因素導致的數(shù)據(jù)誤差,在使用AGP樣本構建數(shù)據(jù)集前篩選處理數(shù)據(jù)。不同居住環(huán)境導致人體菌群存在較大差異,為避免居住地等因素對樣本菌群組成產生影響,需過濾所有樣本數(shù)據(jù)。根據(jù)AGP的調查問卷反饋的信息,剔除居住地為非美國地區(qū)的部分樣本,以保證菌群組成層面上的整體相似性。其次,由于微生物采樣生境多樣化,人體不同器官的微生物群落組成也大不相同,需處理微生物采樣生境為糞便的樣本。對篩選后的數(shù)據(jù)集,統(tǒng)計調查問卷中展現(xiàn)的患病信息,所有樣本劃分為健康樣本和患病樣本兩種類型,其中健康樣本的判斷標準是在ibs、autoimmune、thyroid等20余種疾病上都表現(xiàn)為非患病表型的樣本。處理后的數(shù)據(jù)集按照正負樣本比例相同的標準劃分為5個分割數(shù)據(jù)集,其中4個分割數(shù)據(jù)集用于訓練,1個分割數(shù)據(jù)集用于測試評估。
首先針對單種疾病實現(xiàn)特定的疾病檢測,用于衡量疾病檢測模型的效果,分別選取ibd[14-15]、autoimmune[16]和thyroid[16]等幾種疾病上表現(xiàn)為患病的樣本與先前選取的健康樣本共同組成對應的疾病數(shù)據(jù)集用于實驗。患者就診時往往無法第一時間確定自己所患具體疾病,往往需先經過初診排查,然后再精細排查確定所患的具體疾病。為了模擬真實情況,整合了上述3種疾病的數(shù)據(jù)集,并將表現(xiàn)為患病表型的樣本統(tǒng)一視為患病樣本,以此粗略判斷患者是否存在疾病,綜合評估疾病檢測模型在疾病預診上的預測準確性。
2.2 實驗參數(shù)與比較模型
為驗證SAGE-O-N算法的檢測效果,與3種機器學習算法進行對比。
(1)邏輯回歸 (Logistic Regression,LR):這是一種常用于解決二分類問題的機器學習方法,基于線性回歸模型,通過添加Sigmoid非線性函數(shù)輸出線性回歸概率值,并設置閾值對樣本實現(xiàn)分類。
(2)隨機森林算法 (Random Forest,RF):使用Entropy Loss作為損失函數(shù)對原始OTU特征擬合訓練,采用預測概率與患病標簽的擬合情況評估預測效果。
(3)深度神經網絡[17](Deep Neural Network,DNN-O-N):由多個神經網絡層復合組成,上一層的輸出特征作為輸入傳遞給下層網絡層,通過逐層特征映射對初始特征訓練。
(4)SAGE-O-N:微生物轉移網絡,使用Node2vec方法獲取網絡嵌入表示向量處理節(jié)點特征,與先前處理的OTU特征完成拼接作為最終特征,使用Binary_Cross_entropy作為損失函數(shù)進行訓練,是基于GraphSAGE卷積層的圖神經網絡模型。
2.3 評估指標
評估指標反應模型對樣本數(shù)據(jù)的處理效果。通過對比模型預測的結果與真實的標簽結果的差異性,驗證模型預測的準確率。接收者操作特征曲線(Receiver Operating Characteristic Curve,ROC)能有效地估計二進制分類模型的性能,通過設置等級閾值,可以對某個樣本是患病樣本還是健康樣本實現(xiàn)二進制分類。AUC為ROC曲線下方的面積,表示預測的正例排在負例前面的概率。經過性狀分析,患病樣本視為正例樣本,健康樣本視為負例樣本,通過比較預測結果與實際性狀間的差異衡量預測結果的準確性。實驗采取五折交叉驗證,統(tǒng)一使用sklearn中的StratifiedKFold包劃分,保證數(shù)據(jù)的均勻分布及結果的穩(wěn)定性,對比實驗均通過AUC分數(shù)評估疾病檢測的模型性能。單種疾病的檢測對比結果見表1。
2.4 結果比較分析
SAGE-O-N方法在大多數(shù)單種疾病上表現(xiàn)優(yōu)異,相較于LR和RF方法,SAGE-O-N能夠更加精確的識別關鍵特征,相較于深度學習方法如DNN-O-N,SAGE-O-N能夠借助網絡結構特征,利用其獨特的聚合與采樣機制使節(jié)點充分學習鄰居節(jié)點的特征信息,提升疾病檢測準確率。本文模擬真實的疾病預診過程,將表1中涉及的3種疾病合并為并發(fā)癥數(shù)據(jù)集,并將4種方法分別用于疾病檢測,結果顯示SAGE-O-N仍具有不錯的效果(圖2)。
對原始OTU特征實現(xiàn)降維處理,通過計算每一維OTU特征與標簽的相關性,剔除相關性低的OTU特征維度,以提升原始特征的精簡性與準確性。如圖3所示,分別在3種疾病及并發(fā)癥數(shù)據(jù)集上使用RF方法測試了不同特征的效果對比,發(fā)現(xiàn)降維后的特征對于疾病檢測效果有明顯提升。
在Node2vec獲取節(jié)點低維表示特征時,傳統(tǒng)的方法默認網絡中連邊權重為1,以此保證隨機游走過程中相同可能性游走至每條連邊。對比發(fā)現(xiàn),與疾病節(jié)點相連接的待預測節(jié)點與疾病節(jié)點的相似性往往比無連接的節(jié)點更高,基于此,在隨機游走過程中應更加重視疾病節(jié)點的鄰居節(jié)點,通過設置疾病節(jié)點與其他節(jié)點間的連邊權重以提高目標連邊的重要性。如圖4所示,當權重大小為4時,可以獲得最佳的預測效果。
圖4 node2vec不同連邊權重對疾病檢測效果的影響
3 結論
SAGE-O-N算法通過表型信息與OTU豐度信息實現(xiàn)相關性篩選,保留了高相關性的特征值,解決了高維度特征的冗余問題。基于樣本的測序信息相似性構建的微生物樣本轉移網絡,可以使用Node2vec方法生成樣本的低維表示向量,并經過圖神經網絡卷積處理與經過篩選的特征拼接,實現(xiàn)節(jié)點分類預測,完成疾病檢測任務。SAGE-O-N疾病檢測模型充分考慮了菌群間的相似結構,融合了菌群組成特征與網絡結構特征,相較于傳統(tǒng)的機器學習方法如隨機森林模型、深度學習方法如深度神經網絡等模型,模型預測結果的AUC指標可以達到0.832,效果提高約2個百分點。
參考文獻
[1]ZHANG M,LI B,QIU G B. Application of next generation sequencing technology in clinical diagnosis of infectious disease[J].Chinese Journal of Laboratory Medicine,2017,40(7):492-494.
[2]JING G C,ZHANG Y F,LIU L,et al. A scale-free, fully connected global transition network underlies known microbiome diversity[J]. Msystems,2021, 6(4):e00394-21.
[3]高媛媛.基于多特征融合和機器學習的疾病基因檢測大數(shù)據(jù)分類模型[J].微型電腦應用,2023,39(3):25-27.
[4]CHERKASSKY V. The nature of statistical learning theory[J]. IEEE Transactions on Neural Networks,1997,8(6):1564.
[5]ZHENG W M,ZHAO L,ZOU C R. Locally nearest neighbor classifiers for pattern classification[J]. Pattern Recognition,2004,37(6):1307-1309.
[6]王忠闖,張富貴,謝建興,等.基于支持向量機的呼吸器肺炎檢測算法[J].貴州大學學報(自然科學版),2018,35(3):106-109.
[7]SU X Q,JING G C,SUN Z,et al. Multiple-disease detection and classification across cohorts via microbiome search[J]. Msystems,2020,5(2):00150-20.
[8]SU X Q,XU J,NING K. Meta-Storms:Efficient search for similar microbial communities based on a novel indexing scheme and similarity score for metagenomic data[J]. Bioinformatics,2012,28(19):2493-2501.
[9]MCDONALD D,HYDE E,DEBELIUS J W,et al. American gut:An open platform for citizen science microbiome research[J]. Msystems,2018,3(3):e00031-18.
[10] SU X Q,XU J,NING K. Parallel-META:Efficient metagenomic data analysis based on high-performance computation[J]. BMC Systems Biology,2012,6:S16. DOI:10.1186/1752-0509-6-S1-S16.
[11] GROVER A,LESKOVEC J. Node2vec:Scalable feature learning for networks[C]// 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco, 2016:855-864.
[12] SCARSELLI" FGORI" M. The graph neural network model[J]. IEEE Transactions on Neural Networks,2009,20(1):61-80.
[13] KRIZHEVSKY A, SUTSKEVER I, Hinton G. ImageNet classification with deep convolutional neural networks[J]. Communication of the Acm,2017,60(6):84-90.
[14] KOSTIC A D,XAVIER R J,GEVERS D. The microbiome in inflammatory bowel disease:Current status and the future ahead[J]. Gastroenterology,2014,146(6):1489-1499.
[15] CAMMAROTA G,IANIRO G,CIANCI R,et al. The involvement of gut microbiota in inflammatory bowel disease pathogenesis:Potential for therapy[J]. Pharmacology amp; Therapeutics,2015,149:191-212.
[16] COLLADO M C,RAUTAVA S,ISOLAURI E,et al. Gut microbiota:A source of novel tools to reduce the risk of human disease[J]. Pediatric Research,2015,77(1/2):182-188.
[17] SZE V,CHEN Y H,YANG T J,et al. Efficient processing of deep neural networks:A tutorial and survey[J]. Proceeding of the IEEE,2017,105(12):2295-2329.
Disease Detection Algorithms Based on Microbial Transfer Network
SUN Hong-jie, WU Shun-yao
(School of Computer Science and Technology,Qingdao University,Qingdao 266071,China)
Abstract:
A novel graph neural network algorithm (SAGE-O-N) based on microbial transfer network was proposed for disease detection, which addressed the problem of ignoring potential microbial associations in disease detection methods. The similarity features of microbial sequencing information was utilized to construct a microbial transfer network, and a graph-structured data mining algorithm was used to uncover similarity and phenotypic associations. Experimental results show that SAGE-O-N improves the area under curve (AUC) of subjects′ working characteristics on a single disease by about 2%, and the AUC in the comorbidity dataset by about 4%, compared with traditional machine learning methods.
Keywords:
graph neural network; disease detection; microbiota sequencing; microbial transfer network