999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖注意力網絡預測人類微生物與藥物關聯

2024-03-07 11:07:56史賽如
數理醫藥學雜志 2024年2期
關鍵詞:關聯模型

史賽如,孔 舒,張 冀

1. 河南科技大學數學與統計學院(河南洛陽 471023)

2. 北京建筑大學理學院(北京 102616)

人類微生物是一個復雜而多樣的群落,對人類健康有重要影響。成人體內大約有1 014 個細菌,相當于人類細胞總數的10 倍,這些細菌可以產生大量的基因產物支持人體內的各種生化或代謝活動[1]。微生物對人類健康起著重要作用,可能導致轉錄組、蛋白質組和代謝組的變化,從而進一步損害人體組織,最終導致各種疾病,如肥胖、癌癥和糖尿病等[2-4]。研究表明,微生物參與藥物的吸收和代謝,從而調節藥物的療效和毒性[5-7]。因此,微生物-藥物關聯(microbe-drug association, MDA)研究受到越來越多的關注。

大量潛在的微生物-藥物關系已被既往研究證實。Kovac 等證明了糞腸球菌和白色念珠菌菌株對環丙沙星輕微敏感[6]。Szczuka 等研究發現,環丙沙星可抑制表皮葡萄球菌生物膜的形成[7]。然而,傳統的濕實驗室實驗用于揭示微生物與藥物之間的關聯是費力且昂貴的。因此,有效和準確地預測MDA 的計算方法是對實驗方法的補充[8-11]。Sharma 等于2017 年開發了一種預測代謝酶和腸道細菌種類的計算方法,可用于藥物分子生物轉化[8]。Zhu 等提出了一種基于KATZ 測量的微生物-藥物預測模型[10]。Long 提出了一種基于圖卷積網絡的MDA 預測框架(GCNMDA),該框架應用條件隨機場可以確保相似的節點具有相似的表示[11]。雖然已經提出了許多預測MDA的計算方法,但在特征提取過程中無法保留微生物和藥物的綜合特征。為了解決上述問題,本研究基于圖注意力網絡(graph attention network,GAT)提出了一種新模型GATMDA,用于二分網絡中的MDA 預測。

1 資料與方法

1.1 數據來源

本研究數據來源于三個已知微生物與藥物關聯的數據集[11]。第一個數據集是MDAD 數據集,去除冗余信息后,包含1 373 種藥物和173 種微生物之間的2 470 種已知關聯;第二個數據集是aBiofilm,存儲了抗生物膜制劑的資源及其在抗生素耐藥性方面的潛在影響,其中挑選了2 884 種微生物-藥物對進行研究;第三個數據集是Drug Virus,記錄了多種人類病毒的相關化合物的活性及其發展,包含95 種病毒和175 種藥物間的933種關聯。上述三個數據集的詳細信息見表1。

表1 三個數據集的詳細數據Table 1. Detailed data for three datasets

1.2 方法

1.2.1 人類微生物與藥物的關聯

為了推測微生物-藥物網絡中的新關聯,本研究將問題框架視為一個生物二分網絡的關聯預測任務。在此網絡中,微生物和藥物分別被表示為兩類不同的節點。定義藥物Nd的節點集為A= a1,a2,… ,aNd,微生物Nm的節點集則被定義為B= b1,b2,… ,bNm。網絡中的邊是微生物與藥物之間的關聯,可以表示為鄰接矩陣 Y ∈ RNd×Nm 。當Yi,j=1 時,表示一個微生物bj(1 ≤j≤Nm)對應一個藥物ai(1 ≤i≤Nd)。相反,Yi,j=0 表示關聯未知。研究目標是生成一個與Y相同維度的預測矩陣F*來預測未知的關聯。圖1 展示了GATMDA 算法流程。

圖1 GATMDA算法的原理示意圖Figure 1. The schematic diagram of the GATMDA algorithm

1.2.2 構建異構網絡為了將網絡信息納入數據整合,根據鄰接矩陣Y構建了一個包括微生物網絡Sm、藥物網絡Sd和MDA 網絡的異構網絡[12]:

1.2.3 圖注意力網絡

GAT 是一個基于空間的圖卷積網絡,核心在于聚合鄰居特征的過程中聚焦更多重要鄰居的特征貢獻[13-14]。GAT 在本研究中被用于提取微生物和藥物特征。具體而言,對于上面定義的二進制網絡的鄰接矩陣,GAT 定義如下:

其中 H(l)是節點的l層嵌入,l=1, ...,L,σ (.) 是非線性激活函數 (ReLU),GAT 表示單個圖注意力層,整個L層GAT 架構由多個圖注意力層堆疊。初始輸入是一組節點特征其中n是節點的數量,F是每個節點中特征的數量。該層生成一組新的節點特征并且通過將權重矩陣 W ∈ RF'×F應用于每個節點。注意力系數為:

在通過softmax 函數進行歸一化之后,將系數變為:

將式3 代入式4,可以表示注意力機制的系數如下:

其中,a是注意力系數,表示參數化權重向量,LeakyReLU 表示激活函數,T表示矩陣轉置,| | 是連接運算,Ni是節點i的鄰居集合。在計算歸一化注意力系數后,每個節點的最終輸出特征可以計算為:

對于第一層構造初始嵌入H(0),如下所示:

1.2.4 多核融合

多層GAT 模型可以計算表示具有不同圖結構的信息的多個嵌入。由于不同的嵌入表示不同的結構信息,因此由不同嵌入組成的核將表示不同角度節點之間的相似性。結合現有的相似性矩陣,可以得到藥物空間 SD= Sd, Kh1d, … , KhLd和微生物空間 SM= Sm, Kh1m, … , KhLm的核集。 Khld和 Khlm分別是藥物和微生物嵌入的核矩陣。為了提高預測性能,分別在兩個空間中對上述核進行了多核融合,通過加權方法組合多個核矩陣。組合內核定義如下:

其中Sid和Sim是藥物和微生物核集中的第i個核,ai和bi是每個核對應的權值,L是對應的層數。

1.2.5 解碼器

最后,通過應用一個改進的對偶拉普拉斯正則化最小二乘(DLapRLS)框架來預測關聯,提高預測性能。DLapRLS 是基于兩個特征空間的核矩陣模型。在這項工作中,基于DLapRLS,將藥物-微生物特征空間組合納入最小二乘框架來構建一個新的目標函數。目標函數的定義如下:

DLapRLS 方法的目的是通過最小化以上目標函數尋找最優的預測結果。其中,‖.‖F是 Frobenius范數,Ytrain∈RNd×Nm是訓練集中的MDA 的鄰接矩陣;Kd∈RNd×Nd是可訓練矩陣;αd,αmT∈RNd×Nm和Km∈RNm×Nm分別是兩個特征空間中的融合核即微生物和藥物之間的相似性度量。Kdad代表在藥物空間下,藥物與微生物的關聯預測結果;Kmam代表微生物空間下,藥物與微生物的關聯預測結果。φ是用來平衡正則化項的衰減因子(Decay factor)。

由上述可得,Kdad和Kmam可以實現不同空間下的微生物和藥物關聯性的表示。故對兩個空間的預測結果進行平均融合作為最終預測結果,進而有效整合微生物-藥物的空間信息。因此,基于DLapRLS,來自兩個特征空間的MDA 的最終預測F*組合如下:

上述F*也作為模型GATMDA 的最終輸出結果,根據F*可以得到微生物和藥物的關聯預測矩陣,基于該矩陣的得分可以衡量微生物-藥物關聯性。

1.3 統計分析

采用Python 3.7 軟件進行數據分析。本研究建立GATMDA 模型以預測微生物與藥物的關聯性,K 折交叉驗證用于評估預測性能。在交叉驗證期間,所有關聯平均分為K 個部分。在每一次折疊中,選擇其中一個作為測試集,其余用作訓練集,用于訓練和驗證模型,總共 K 個折疊。模型的性能評估采用受試者工作特征(receiver operating characteristic, ROC)曲線和精確率-召回率(precision-recall, PR)曲線,評價指標為ROC 曲線下面積(area under the curve, AUC)和精確率-召回率曲線下的面積(area under the precision-recall curve, AUPR)。GATMDA 中重要的參數包括衰減因子(decay factor)φ、迭代時間(iteration time)N、學習率(learning rate)。

2 結果

2.1 參數敏感性分析

首先,在MDAD 數據集上使用5 折交叉驗證(5-fold cross-validation, 5-CV)選擇模型參數,設置默認參數層數L=3,嵌入維度分別為K1=256,K2=64,K3=32。衰減因子φ被用于調節公式(10)中正則化項的影響,φ的取值范圍為0.000 005 至0.5,步長設定為10。如圖2-A 和圖2-D 所示,參數φ對模型性能的影響較為有限,表明模型具備一定的魯棒性。當φ值為0.000 5時,模型達到最優性能。學習率也是一個非常重要的參數,當學習率太大時,模型很難收斂,較小的學習率可能會導致一個較長的訓練過程,一個合理的學習率可以使模型收斂到局部最小值。因此,學習率被設定在{1e-1, 1e-2, 1e-3, 5e-3,1e-4, 5e-4},并對GATMDA 在各個學習率下的性能進行了評估。如圖2-B 和圖2-E 所示,學習率1e-1 從提升至5e-4,GATMDA 的性能先提高后略有下降,當學習率為1e-3 時,模型展現出最佳效果。迭代次數對模型同樣至關重要,其決定了可訓練參數的更新頻率。本研究將N 的取值范圍設定為1 至12,以1 為步長。圖2-C 和圖2-F分別顯示了不同迭代次數下的AUC 值和AUPR值,當迭代次數為5 時,AUPR 值開始趨于穩定。為了使模型完全收斂,確定迭代次數為10。

圖2 GATMDA的參數靈敏度Figure 2. Parameter sensitivity of GATMDA

2.2 與現有預測方法的比較

將GATMDA 與現有的8 種生物二分網絡預測方法進行比較,如表2 所示,在MDAD 數據集上,GATMDA 模型的預測性能最好(AUC=0.988 6,AUPR=0.966 7),優于其他8 個模型;在aBiofilm數據集上,GATMDA 模型的AUC 值和AUPR 值均最高(AUC= 0.994 1,AUPR=0.986 9);在Drug Virus 數據集上 ,GATMDA 模型的AUC 值最高(AUC=0.983 6),AUPR 值排名第二(AUPR=0.879 5)。

表2 三個數據集上不同預測方法在5折交叉驗證下的性能比較Table 2. Performance comparison between different prediction methods on three datasets under 5-CV

本研究在2 折交叉驗證(2-fold crossvalidation, 2-CV) 和10 折交叉驗證(10-fold cross-validation, 10-CV)的設置下在三個數據集上對所有方法進行了比較,結果見表3 和表4。在2-CV 的條件下,GATMDA 模型在MDAD 數據集(AUC=0.982 6,AUPR=0.948 2)、aBiofilm數據集(AUC=0.984 1,AUPR=0.957 1)和Drug Virus 數據集(AUC=0.955 0)上展現出優于其他方法的預測性能。在10-CV 下,GATMDA 模型展示了最佳的預測性能,在MDAD 數據集上AUC值為0.989 3、AUPR 值為0.968 5;在aBiofilm 數據集上AUC 值為0.996 3、AUPR 值為0.984 4;在Drug Virus 數據集上AUC 值為0.986 3、AUPR值為0.904 0。GATMDA 在前兩個數據集上超越了其他8 種評估方法,證明GATMDA 是一個預測MDA 的高效且強大的模型。GATMDA 模型基于3 種交叉驗證方法在三個數據集上的ROC 曲線和PR 曲線見圖3。

圖3 GATMDA在MDAD、aBiofilm和Drug Virus數據集上的ROC和PR曲線Figure 3. The ROC and PR curves of GATMDA on the MDAD, aBiofilm and Drug Virus datasets

表3 三個數據集上不同預測方法在2折交叉驗證下的性能比較Table 3. Performance comparison between different prediction methods on three datasets under 2-CV

表4 三個數據集上不同預測方法在10折交叉驗證下的性能比較Table 4. Performance comparison between different prediction methods on three datasets under 10-CV

2.3 案例研究

通過Drug Virus 數據集的案例研究,進一步測試GATMDA 的預測效果。案例研究選擇HIV-1 測試模型的預測性能,并預測了可能有效治療的藥物。HIV 是一種逆轉錄病毒,可破壞CD4 T 細胞,是獲得性免疫缺陷綜合征的病原體。艾滋病毒分為兩種類型:HIV-1,引起全球流行病;HIV-2,致病性較弱,主要局限于西非。因此,選擇HIV-1 為案例進行試驗。在試驗中,Griffith 等測量了15 名HIV 感染患者中stavudine(2',3'-didehydro-3'-deoxythymine) 對HIV-1 的抗病毒功效,試驗結果顯示,stavudine 具有顯著而持久的抗病毒作用[19]。Enfuvirtide 是一種新型HIV-1 融合抑制劑,在體外和體內均具有針對HIV-1 的有效抗病毒活性[20]。如表5 所示,預測HIV-1 相關藥物中,前10 名藥物全部在文獻中得到支持;在預測的前20 種和30 種藥物中,95%和93%的藥物得到了文獻的支持,并被證明可以治療或預防HIV-1。選擇175 種預測藥物中和HIV-1 關聯的前30 種藥物測試GATMDA 的有效性,見圖4-A。通過繪制條形圖和散點圖可視化前30 種預測HIV-1 的藥物,見圖4-B 和圖4-C,這些預測結果證明了GATMDA 模型預測微生物-藥物網絡中潛在關聯的能力。

3 討論

居住在人體上的微生物在人類健康中起著關鍵作用[21]。預測MDA 可以促進個性化藥物的有效開發,并了解微生物和藥物之間的聯系。與傳統方法相比,計算方法能夠在全球范圍內識別靶向現有藥物或針對具有已知微生物的新藥的靶向微生物[22]。值得注意的是,MDA 預測也是生物二分網絡中的一個鏈接預測問題[23-24]。本研究提出了一個計算框架GATMDA,用于預測微生物-藥物的關聯。GATMDA 由兩部分組成,第一部分使用GAT 進行特征提取,實驗表明,利用該機制可以生成更可靠的推理信息;另一部分是利用改進的DLapRLS 進行預測,充分利用了微生物-藥物空間的信息進行預測。與傳統的多核學習不同,本研究通過多層GAT 提取各種嵌入特征來構建核矩陣,可以提供不同的核矩陣,并實現使用多種信息的目的[25]。與現有的生物二分網絡檢測模型相比, GATMDA 模型在三個MDA 數據集上表現出了較好的預測性能。此外,關于HIV-1 的案例研究表明,GATMDA 可以準確地發現新的MDA。

雖然GATMDA 具有良好的預測性能,但對于不同密度的數據集仍存在一定的偏差。如GATMDA 在Drug Virus 數據集上的表現弱于在MDAD 和aBiofilm 數據集,這表明GATMDA 模型的泛化性能仍有改進的空間。微生物對藥物治療過程的影響包括激活、鈍化和毒性,準確識別藥物上未知微生物的類型是藥物開發和精準醫學的基本要求,但GATMDA 無法預測微生物-藥物的類型。因此,為了更準確地了解微生物在藥物治療過程中的作用機制,建立一個有效的深度學習模型來預測微生物與藥物之間的關系有待進一步研究。

綜上,本研究通過構建GATMDA 模型,重點探討了人類MDA 預測。GATMDA 模型側重于結合GAT 和多核融合來探索微生物-藥物的空間信息,進而有效地整合微生物與藥物之間豐富的生物學信息,該模型具有捕捉微生物和藥物之間復雜關聯的能力,為預測微生物與藥物關聯提供了有效的新方法。

猜你喜歡
關聯模型
一半模型
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
“一帶一路”遞進,關聯民生更緊
當代陜西(2019年15期)2019-09-02 01:52:00
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 香蕉久久永久视频| 亚洲综合色婷婷中文字幕| 久久久久免费精品国产| 国产成人免费观看在线视频| 欧类av怡春院| 四虎永久在线| 欧美一级黄片一区2区| 久久中文字幕av不卡一区二区| 亚洲免费黄色网| 日本a级免费| 黄色网在线| www精品久久| 制服丝袜在线视频香蕉| 日韩欧美中文| 草草线在成年免费视频2| 国产精品视频久| 996免费视频国产在线播放| 欧美精品亚洲精品日韩专区va| 老司机午夜精品网站在线观看 | 亚洲第一网站男人都懂| 国产情侣一区| 中文字幕乱码二三区免费| 国产人碰人摸人爱免费视频| 天堂在线视频精品| 日韩经典精品无码一区二区| 亚洲欧美人成人让影院| 国产福利免费视频| 亚洲高清在线播放| aa级毛片毛片免费观看久| 精品视频第一页| 97超级碰碰碰碰精品| 欧美国产日韩另类| 91国内外精品自在线播放| 免费可以看的无遮挡av无码| 欧美日韩专区| 国产精品无码一二三视频| 午夜国产在线观看| 亚洲人成人无码www| 香蕉视频在线精品| 亚洲男人天堂久久| 激情在线网| 五月婷婷激情四射| 欧美综合中文字幕久久| 一本大道东京热无码av| 操国产美女| 国产无码性爱一区二区三区| 国产一区二区三区在线观看视频| 国产亚洲欧美日韩在线观看一区二区 | 国产成人亚洲毛片| 一本视频精品中文字幕| 色综合成人| 99久久精品国产自免费| 久久国产精品电影| 欧美精品色视频| 亚洲人人视频| 婷婷六月综合| 中国成人在线视频| 久久semm亚洲国产| 亚洲人成影院在线观看| 成人福利在线观看| 视频国产精品丝袜第一页| 自慰高潮喷白浆在线观看| 9966国产精品视频| 午夜综合网| 亚洲视频在线网| 国产精品漂亮美女在线观看| 国产精品不卡片视频免费观看| 第一区免费在线观看| 国产欧美在线视频免费| 欧美第一页在线| 热这里只有精品国产热门精品| 久久久亚洲色| 久久美女精品| 国产成人高精品免费视频| 乱系列中文字幕在线视频| 77777亚洲午夜久久多人| 国产免费怡红院视频| 丝袜无码一区二区三区| 2021国产乱人伦在线播放| 精品视频一区二区观看| 成年片色大黄全免费网站久久| 国产日韩精品欧美一区喷|