999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于生物信息學的病毒-宿主關聯預測方法研究進展

2024-01-01 00:00:00劉楊田真何新媛樊祥宇
濟南大學學報(自然科學版) 2024年6期

文章編號:1671-3559(2024)06-0713-08DOI:10.13349/j.cnki.jdxbn.20241011.001

摘要: 針對病毒-宿主關聯數據庫不完善以及現有病毒-宿主關聯預測方法的局限性,全面綜述當前應用于該領域的主要預測方法,包括基于序列比對的方法、 基于特征相似的方法、 基于機器學習的方法和集成方法; 根據每種方法所依據的技術原理,全面分析不同方法在預測性能、 計算資源等方面的優勢和劣勢。針對現有研究的狀況,指出未來的研究重點應聚焦于構建更加全面的病毒-宿主關聯樣本庫,并運用表征學習、 多模態學習等方法,同時在建模過程中應關注預測結果的可解釋性。

關鍵詞: 生物信息學; 病毒-宿主關聯預測; 序列比對; 表征學習; 多模態學習

中圖分類號: Q811.4

文獻標志碼: A

Research Progress on Virus-Host Association Prediction Methods Based on Bioinformatics

LIU Yang1a, TIAN Zhen2, HE Xinyuan1a, FAN Xiangyu1b

(1. a. School of Information Science and Engineering, b. School of Biological Science and Technology,

University of Jinan, Jinan 250022, Shandong, China;

2. Joint Laboratory for Translational Medicine Research, Liaocheng People’s Hospital, Liaocheng 252000, Shandong, China)

Abstract: Aiming at the incompleteness of virus-host association databases and the limitations of existing virus-host association prediction methods, the current major prediction methods were summarized, including sequence alignment based method, sequence feature based method, machine learning based method and ensemble method. According to the technical principles underlying each method, the advantages and disadvantages of different methods in terms of prediction performance and computing resources were comprehensively analyzed. In view of the current research situation, it is pointed out that the future research should focus on building a more comprehensive virus-host association sample database, and using representation learning, multi-mode learning and other methods, and pay attention to the inter-pretability of prediction results during the modeling process.

Keywords: bioinformatics; virus-host association prediction; sequence alignment; representation learning; multi-mode learning

病毒是一類微小而神秘的病原體,不同的生物體,例如人類、 動物、 植物和細菌等,都有它們相對應的病毒。病毒是地球上最普遍和最豐富的生物實體, 據統計, 地球上的病毒個數約為1031,超過其他所有生物個體總數[1]。病毒不僅數量眾多,而且在分布上也表現出極高的多樣性,廣泛存在于地球上各種生態系統內[2],并發揮控制宿主種群、 改變宿主代謝以及影響微生物群落的功能的重要作用[3]。此外,病毒廣泛分布在人體內部及皮膚表面,存在于人類口腔、 肺部、 皮膚、 腸道等微生物群落中,與人類的健康密切相關[4]。

病毒不具有獨立生活的能力,只能依賴其宿主繁殖后代,所以挖掘出病毒的潛在宿主信息對于防止病毒傳播、 保護生態等具有非常重要的意義。比如一些未知病毒可能具有感染人類的能力,如果可以判斷人類確定是其宿主,就可以有針對性地預防這種新型病毒。又比如一些噬菌體(細菌的病毒)的宿主范圍并不能確定,如果可以判斷其宿主僅僅是有害菌而不是有益菌,就可以確定噬菌體的安全性,將其應用到噬菌體療法中,甚至還能用作噬菌體保藏方法[5]。

目前研究病毒與宿主之間的關聯性主要是通過生物學實驗法和生物信息法。生物學實驗方法依賴于病毒其宿主的培養,主要方法有噬菌斑分析[6]、 基于檢測病毒和宿主熒光標記的方法[7]、 基于物理連接的標記方式[8]等實驗方法,但是這些實驗方法都存在一定的局限性,例如必須使用大量的材料和設備、 耗費大量的時間、 研究病毒種類的范圍有限等一系列問題。相比之下,生物信息法是一種利用計算方法和大規模數據分析來研究病毒-宿主關聯性的方法。這種方法不依賴于實驗室培養病毒及其宿主,而是通過分析已有的病毒和宿主基因組數據,預測病毒與宿主的關聯性。這種基于生物信息學的病毒-宿主關聯預測方法通過整合生物信息學、 系統生物學和機器學習等多學科,提高了病毒、 宿主鑒定研究的效率和準確性。本文中歸納總結了現有預測病毒-宿主關聯的生物信息學工具,并分析它們的優缺點,以期為病毒-宿主關聯預測工作提供參考。

1預測病毒-宿主關聯的生物信息學工具總覽

高通量測序技術的發展產生了海量脫氧核糖核酸(DNA)和核糖核酸(RNA)序列數據數據,極大地改變了人們對宏基因組和病毒組的研究方式,并催生了眾多生物信息學技術與工具,預測病毒-宿主關聯工具也在不斷更新。表1列出了目前預測病毒-宿主關聯的生物信息學工具。 由表可知,目前病毒-宿主關聯預測方法主要分為4類,即基于序列比對方法、 基于特征相似方法、 基于機器學習方法和集成方法。序列比對方法是依賴于對病毒與宿主基因組的序列分析。特征相似性方法是利用病毒、 宿主的生物學特征來分類和預測。機器學習方法則充分利用已有的病毒、 宿主數據集來構建預測模型,通過訓練模型來實現分類和預測。集成方法主要是集成多種不同的預測方法,以充分利用它們各自的優勢,提高預測性能。

2基于序列比對的病毒-宿主關聯生物信息學工具

基于序列比對的病毒-宿主關聯預測方法主要分為2類: 一類是依據查詢病毒與宿主基因組間的核苷酸相似性; 另一類是根據查詢病毒與已知病毒標記基因的相似性,即由感染特定宿主類別的病毒專門編碼的基因。

在通常情況下,基于查詢病毒與宿主基因組之間核苷酸相似性的預測方法要利用美國國家生物技術信息中心(NCBI)的參考序列(RefSeq)或等效數據庫中的細菌和古菌基因組作為宿主參考數據庫,以識別輸入病毒與潛在宿主的核苷酸序列相似性。這些相似性序列區域可能對應于整合前病毒、宿主編碼的規律成簇的間隔短回文重復(CRISPR)間隔區、輔助代謝基因(AMGs)或共享的轉運核糖核酸(tRNA),這些相似性序列區域反映了不同的進化或共同進化過程[26]。一般而言,較大的序列相似性區域通常源于與查詢病毒密切相關的前病毒在宿主基因組中的整合,這種前病毒可能仍然完整或僅部分降解[27]。由水平轉移基因或插入位點(如tRNAs)產生的短序列相似性區域,通常與過去的病毒感染以及病毒對細菌宿主的適應性相關[28]。與此相反,查詢病毒和細菌CRISPR間隔區之間的相似性反映了該細菌對密切相關病毒的成功防御,同時表明該細菌理論上能抵抗該病毒。病毒基因組和CRISPR間隔區之間的高水平序列相似性源于病毒和宿主之間的共同進化[29]。

核酸比對搜索程序(BLASTN)和核酸序列對蛋白質序列庫比對(BLASTX)[9]是用于識別序列相似性區域最常用的方法,通過相似度可靠性指標E值、 比特分數、 匹配長度和錯配數等定義的截止值確定預測的宿主。針對短匹配(如CRISPR間隔區或tRNA),必須使用特殊的序列相似性搜索策略或對局部相似性搜索工具(BLAST)來調整[10],包括使用BLASTN搜索短序列任務、 關閉低復雜度區域屏蔽(DUST)算法過濾器并應用嚴格的過濾標準,允許整個序列僅存在1~2個錯配[26]。采用嚴格標準時,基于序列比對方法的預測準確性較高,即正確的病毒與宿主配對比例很高,但召回率較低,即預測的病毒與宿主配對比例相對于輸入病毒的總數較低。最終宿主預測的分類級別取決于匹配的類型和分數。此外,可以考慮使用“最近共同祖先”方法來提高預測的準確性,該方法適用于每個查詢病毒匹配多個結果的情況,通過選擇一定數量的最優匹配結果,并尋找它們之間的共同祖先來確定預測宿主[10, 26, 30]。

除了RefSeq數據庫中的原核基因組,宿主參考數據庫可通過利用單細胞分選(SAGs)或宏基因組組裝基因組(MAG)、 宏基因組組裝基因組集(MAGs)分箱獲得的未培養微生物基因組進行擴充[31]。SAGs是從微生物單個細胞分選、擴增和測序獲得的基因組[32],通常不完整且碎片化,擴增步驟也容易導致交叉污染。MAGs包含一個或多個基因組,根據序列組成或基因組成特征分組,以表示某些基因屬于同一基因組。對于SAGs,將不相關的重疊群(contig)錯誤地聚集在同一個MAG中的污染可能導致宿主預測出現問題[33]。尤其是當重疊群部分或完全是病毒時,它們在MAG中的聚集經常是錯誤的。跨生物群落和分類學的全局分析表明,僅考慮沒有預測到的病毒區域或病毒區域長度小于2/3的重疊群時,可以顯著地減小與MAG污染相關的預測誤差[34]。經過適當的篩選和過濾后,SAGs和MAGs增加了宿主參考數據庫的多樣性,它們可能來自查詢病毒相同的生態系統、 采樣位置甚至樣品,因此更有可能代表真實的宿主[34-36]。此外,由于病毒基因組可以在從感染細胞中產生的SAG中被新組裝出來,因此這些基因組也可以用于新病毒發現。

除了基于查詢病毒與候選宿主基因組之間序列相似性的方法,另一類工具是基于查詢病毒與已知病毒標記基因的相似性預測。病毒-宿主關聯預測工具vHULK將病毒預測的蛋白質序列與原核病毒同源群(pVOGs)數據庫相關聯[37],針對每個查詢基因組,vHULK利用pVOGs列表作為2個深度神經網絡的輸入,分別預測宿主物種和屬,并提供預測置信度(即熵值)。VPF-Class則將病毒預測的蛋白質與一組病毒蛋白家族(VPFs)進行比較,根據這些VPFs在參考病毒基因組中的分布,分別為每個查詢基因組推斷出域、科和屬3個層級的預測及置信度得分[13]。隨機森林宿主預測工具RaFAH[11]通過比較預測的蛋白質與一個自定義數據庫來預測宿主,該數據庫使用了從已分離的病毒以及具有高置信度宿主預測的未培養病毒中獲取的隱馬爾可夫模型(HMM)配置文件。RaFAH使用每個查詢病毒的HMM配置文件列表作為隨機森林分類器的輸入,從而為每個可能的宿主提供從門到屬預測得分(介于0~1之間)。基于標記基因的方法具有較高的準確性,并在各自基準測試中具有中等或較高的召回率,但是測試結果可能受到參考數據庫中全新病毒數量相對較少的影響。盡管目前已在努力解決這種數據庫偏差問題,但與來自環境代謝組裝的新病毒相比,用于評估上述預測工具的測試集與參考病毒基因組之間的相似性更高。

總的來說,基于序列比對的預測使用了已知的宿主基因組和病毒基因組序列作為參考數據庫,這些數據是經過實驗驗證的,具有一定的準確性和可靠性,但是它們仍有一定的局限性。一方面,須要消耗大量的計算資源,特別是在較大的序列數據庫中比對時,可能需要較長的時間和高性能計算設備;另一方面,隨著生物信息學數據庫的不斷更新和擴充,用來比對的數據庫可能會陳舊過時,必須要定期更新以保持準確性。

3基于序列特征相似性的病毒-宿主關聯生物信息學工具

基于序列特征相似性方法是通過分析整個病毒與宿主基因組或蛋白質序列的組成特征來預測病毒與宿主相互作用對。 病毒和宿主基因組序列組成的相似性主要是因為病毒基因組適應了宿主的復制、 轉錄和翻譯機制[38]。 這種方法具有更廣泛的適用性, 原因是它們不要求數據庫中存在與病毒或宿主相近的序列, 但它們的準確性通常低于基于序列比對的方法。

基于序列特征相似性的方法通常利用序列組成特征來預測宿主。 最常用的方法是比較查詢基因組與參考數據庫的k-mer(堿基數為k的子序列)組成。HostPhinder通過比較查詢病毒和已知病毒基因組序列之間的16-mer組成來預測病毒與宿主相互作用[14],而其他大多數工具則是比較查詢病毒與宿主參考基因組數據庫的k-mer頻率。 具體而言,在獲得查詢病毒針對宿主基因組數據庫的一組相似性值或分數后,將這些結果匯總為一個單一的宿主預測,并評估其置信度。這種方法的前提是假設病毒和宿主基因組具有相似的序列組成和k-mer頻率。原核病毒宿主預測工具(PHP)[18]和VirHostMatcher(VHM)[16]分別比較查詢病毒和參考宿主基因組數據庫的4-mer頻率(見圖1)和6-mer頻率。 WIsH采用類似的k-mer頻率比較方法, 但它訓練了一個八階同質馬爾可夫模型, 該模型針對每個宿主基因組進行訓練, 并計算查詢重疊群在每個訓練好的馬爾可夫模型中的相似度[17]。 這種馬爾可夫模型方法旨在更好地處理短病毒重疊群, 因為對于這些短重疊群來說, k-mer頻率往往變得非常不規律。 ILMF-VH采用了一種混合方法, 通過比較查詢病毒與已知病毒數據庫的6-mer頻率, 同時將這些病毒與宿主分類網絡關聯。 該分類網絡建立在宿主6-mer頻率和相互作用配置文件的相似性的基礎之上,即如果2個宿主關聯的病毒列表相似,則這2個宿主更相似。這個相似性信息在ILMF-VH的宿主預測中被用來確定哪些宿主可能是與查詢病毒相關的潛在宿主[15]。

此外, VHM和WIsH提出了不同的閾值來過濾獲得的結果[12,16], 并使用最相似宿主的共識方法來提高整體預測準確性[17]。 WIsH還針對每個病毒-宿主對計算一個概率值, 該值是根據預先計算的多種病毒與每個宿主之間的高斯數據庫空值分布計算得到的。 此外, HTP[39]和VIDHOP[40]是推斷真核病毒特定宿主的工具, 可在域水平(即真核生物與原核生物)或在特定真核生物群體內的物種水平上預測宿主。

除了基因組k-mer頻率特征外,還有一些方法基于病毒和宿主蛋白質序列特征來預測,這些特征包括病毒和宿主蛋白質序列中各種氨基酸的頻率、蛋白質中特定化學元素(如碳、 氫、 氮、 氧和硫)的豐度以及蛋白質的相對分子質量。盡管這些蛋白質序列特征與從整個基因組提取的核苷酸k-mer頻率特征有顯著區別,但它們也能在不用序列比對的情況下預測宿主[20]。

總之,無論是在2個病毒基因組間還是在病毒和宿主基因組間,基于序列特征相似性方法都可以在不用序列比對的情況下快速計算,即使是在沒有明顯可檢測的序列相似性區域的情況下,也可以識別基因組組成中的相似性,但是所得到的結果可能很難解釋。此外,基于序列特征相似性方法可以捕捉更廣泛的序列特征,不僅僅局限于核苷酸相似性,還包括蛋白質結構、功能和生物學特征等,因此可以更全面地預測病毒與宿主的相互作用。

4基于機器學習的病毒-宿主關聯生物信息學工具

近年來,基于機器學習的方法在病毒與宿主相互作用預測方面得到了廣泛應用。總體而言,這類方法預測的可靠性相對較高,其中包括高斯模型[18]、 鄰域正則化邏輯矩陣分解[15]和深度卷積神經網絡等。HostG[21]與DeepHost[22]分別是基于圖卷積神經網絡與卷積神經網絡訓練模型來預測病毒與宿主的相互作用。這些方法的關鍵在于構建穩健且平衡的訓練集和測試集,這些數據集應盡可能地涵蓋各種病毒、 宿主和病毒與宿主相互作用關系,避免出現過擬合和欠擬合的問題。盡管人們已經提出了許多方法來平衡訓練和測試集;但這些方法仍然受到現有數據庫中病毒-宿主相互作用對數量和多樣性的限制,因此可能存在偏差。

與基于序列分析的方法相比,基于機器學習的方法通常具有較高的召回率,但準確率較低。大多方法的預測準確率為0.3~0.7[15-17, 39],并且由于目前尚無統一的基因組數據集用于測試不同工具的系統性基準[26],因此直接比較它們的預測效果較為困難。在處理來自不同數據集和生態系統中未培養的病毒時,基于機器學習的方法通常具有較高的召回率,即正確預測的宿主數量更多[35-36, 41],這與基于機器學習的方法可在無需特定比對區域情況下預測病毒-宿主關聯性的預期相符,具備預測全新病毒的能力。

5多種方法集成的病毒-宿主關聯生物信息學工具

為了預測病毒與宿主相互作用, 雖然有多種方法可供選擇, 但每種方法都存在特定的局限性。 為了最大化病毒-宿主關聯性預測的召回率和準確性, 人們整合多種方法開發新的預測工具, PHISDetector[23]和VirHostMatcher-Net[24]就是2種集成工具。這2種工具結合了基于序列比對方法和基于序列特征相似性方法的優點,并采用機器學習模型給單個病毒-宿主對的預測結果打分。2個工具整合了以下特征: 1)基于k-mer頻率的序列特征相似性; 2)病毒和宿主之間共享CRISPR間隔區的相似性; 3)基于比對方法的病毒與宿主序列匹配。其中VirHostMatcher-Net采用一個雙層網絡預測框架,并利用病毒與病毒、 宿主與宿主的相似性,而PHISDetector則引入細菌基因組中可能的附加區域與蛋白質相互作用等額外特征。與其他單一方法相比,VirHostMatcher-Net和PHISDetector的召回率和準確率均顯著提升。此外,iPHoP[25]也是一種集成工具,整合多種單一預測方法,如基于序列比對的方法、 基于k-mer頻率的方法等,在大規模病毒基因組數據集上測試結果表明,iPHoP可適用于更廣泛的病毒多樣性,尤其是對于新病毒。iPHoP還設計一種評分方式,可以評估不同方法對同一預測項目的支持程度。這些集成工具通過結合具有不同優勢和局限的方法來提高宿主預測準確性[23-24],具有廣闊的應用前景,但是它們在實際應用中的適用性仍須在廣泛的病毒、 宿主和生態系統中進一步評估,以便更好地了解可能存在的缺陷。

6病毒-宿主關聯預測方法案例解析

2014年,Dutilh等[41]從人類糞便微生物組的組裝中鑒定出一個名為crAssphage的交叉組裝病毒的新病毒基因組,大規模的讀取映射研究表明,這種病毒在人類腸道微生物組中豐度較高且普遍存在。進一步的元基因組分析顯示,crAssphage是較為廣泛的crAss類病毒家族的代表之一,可在不同的棲息地(包括動物、 植物和環境)中達到高豐度[42-43]。

利用基于序列比對的方法,已確定Bacteroidetes門的細菌,特別是Bacteroides、 Prevotella和Porphyromonas屬中的細菌,是crAss類病毒最可能的宿主[43-45]。crAss類病毒編碼的幾個基因可能與Bacteroidetes相關,包括DNA引物酶和預測蛋白,例如,通常位于N端(BACON)的編碼擬桿菌相關碳水化合物結合與Bacteroidetes相關的碳水化合物結合結構域的蛋白具有潛在聯系[43, 45]。

此外,CRISPR間隔序列匹配也將Bacteroidetes作為潛在宿主,然而,在crAssphage基因組的原始描述中,研究人員在Prevotella和Bacteroides基因組中鑒定到了2個與CRISPR間隔序列相符的位點;但比對過程中仍存在一些不匹配的位置,因此這些CRISPR匹配本身并未提供具有高置信度的宿主預測。另一種crAss類病毒在Porphyromonas基因組中的CRISPR間隔序列得到了完全匹配,從而獲得了高置信度的預測[43]。最后,通過讀取映射的共存分析,得出了crAssphage感染Bacteroidetes門的宿主的結論[44]。

對于幾種基于非比對的方法,它們并未提供可靠且一致的宿主預測。使用VHM方法結合人類腸道微生物組計劃(HMP)對發現的360個病毒宿主基因組進行預測時,與crAssphage最相似的菌株屬于Firmicutes門的Coprobacillus屬[16]。相反,WIsH預測幾種crAss病毒的宿主為Bacteroidetes門[45]。在這2種情況下,預測的置信度都較小,意味著預測結果存在較大的不確定性。

對于單一方法而言,大部分結果難以提供可靠且具有高置信度的宿主預測,然而,通過比較和整合多種獨立方法,類似于crAss病毒的宿主可被可靠地關聯到Bacteroidetes門內的多個屬[42, 46],該宿主預測的結果也得到了crAss-like家族的代表性病毒的實驗驗證[46-47]。這個案例表明,通過整合多種方法預測宿主,有助于確定從宏基因組組裝中獲得全新病毒的最可能宿主。

綜上所述, 機器學習方法能夠從大規模的數據中學習模式和特征, 因此在預測病毒與宿主的關聯性時通常具有較高的準確性, 但準確性比基于序列比對方法的稍差。 與傳統的方法相比, 機器學習方法和深度學習方法不用依賴事先定義的特征, 而是從數據中自動學習特征, 使得預測更加全面和自適應。 此外, 機器學習方法在處理大規模數據時具有較好的可擴展性, 能夠處理海量的序列數據, 適用于高通量測序等大數據應用場景。 機器學習方法在預測過程中通常是“黑盒子”, 預測結果可能難以解釋, 使得研究人員難以理解模型背后的原因和機制。 對于新發現的宿主或未知的宿主序列, 現階段的方法可能無法準確預測病毒與這些宿主的相互作用。

7總結與展望

盡管目前的病毒宿主基因組數據已經很龐大,但這些數據并不夠全面,原因是病毒、 宿主數據在某些方面的分布不均勻, 例如正樣本數據在已知的數據中占據了主導地位, 這些正樣本代表了已被驗證存在的病毒與宿主相互作用事件, 驗證方式包括實驗或其他可靠方法。 負樣本數據相對稀缺, 而負樣本數據應該包括已被證實不存在相互作用的病毒-宿主對, 但很少有此類信息的數據源。這種情況與真實生物學數據的分布相反,因為在實際生物學數據中,相互作用數據通常只占很小的一部分,更多的是不存在相互作用的數據,所以現階段正面臨如何將這些不完全的數據應用于深度學習中的問題。只有不斷完善數據集,開發更有效的神經網絡模型,才能解決這一問題。

表征學習方法是生物序列分析領域的有效方法,已經被廣泛用于病毒和宿主的相互作用、病毒識別等預測任務。例如,Ji等[48]提出基于雙向編碼器表征模型(BERT)的DNA序列語言模型DNABERT,利用預訓練的語言模型BERT來獲得DNA序列的通用嵌入表示,然后將這些表示應用于不同的下游任務。DNABERT是一個強大的預訓練語言模型,在DNA序列分析中,不僅提升了預測性能,還增強了可解釋性,為生物信息學研究者更深入地理解DNA語言和深層語義提供了有效的工具。另外,Mo等[49]也提出了基于BERT的語言模型GeneBERT,為了解決如何將不完全的數據應用于深度學習的問題,GeneBERT模型同樣采用自監督的預訓練方法,以獲取基因序列的通用表示。通過序列和區域的預訓練,該模型的魯棒性和泛化性能得到改善。過去的研究表明,表征學習方法在自然語言處理任務中效果顯著,成功捕捉了自然語言中的語法、 語義和知識,但是該方法在病毒與宿主相互作用的預測中的應用相對較少。

其次, 從計算機視覺、 自然語言等方面引入多模態學習方法, 為研究人員提供一個更全面的視角, 可以更好地理解病毒與宿主相互作用。 傳統的方法主要關注基因序列的信息, 然而, 當前的研究已經超越了這些基本層面。 多模態學習方法考慮了來自不同數據源的信息, 這些信息包括蛋白質與蛋白質相互作用網絡、 基因表達數據等多維度的信息。 多模態學習方法的優勢在于它能夠將不同類型的數據有機地融合在一起, 從而為病毒-宿主關聯預測提供更全面、 更準確的信息基礎。 通過同時考慮蛋白質與蛋白質之間的相互作用、 基因表達水平的變化以及其他生物信息學數據, 預測模型能夠更好地捕捉生物體內復雜的相互作用網絡, 不僅能提高預測的精度,還能夠增強模型的可解釋性, 使研究人員能夠更清晰地理解預測結果的生物學意義。

生物信息學研究者仍處于探索自然界病毒的初級階段,在預測病毒-宿主關聯方面還有相當大的改進空間。計算技術的進步和病毒與宿主基因組數據的積累,為病毒-宿主關聯預測提供了包括基于序列比對、 特征相似性和機器學習等多種方法,使研究人員不用培養所有可能的病毒-宿主對,有助于研究者更好地了解全球病毒生態,盡管如此,這些預測方法都存在一定局限性。未來病毒-宿主關聯預測還需要更多學科的交叉融合研究,例如引入宿主信息、 環境參數等構建整體模型。生物信息研究者也應意識到,預測僅是第一步,進一步的實驗驗證仍不可或缺。通過計算預測指導實驗,然后反饋實驗結果完善模型,經過反復循環才能使生物信息研究者對復雜的病毒-宿主關聯系統有更深的理解,從而更好地服務于公共衛生與社會進步事業。

參考文獻:

[1]BREITBART M, ROHWER F. Here a virus, there a virus, everywherethesamevirus?[J].TrendsinMicrobiology,2005,13(6): 278.

[2]PAEZ-ESPINOD,ELOE-FADROSHEA,PAVLOPOULOS G A, et al.UncoveringEarth’svirome[J].Nature, 2016, 536(7617): 425.

[3]ZHANGJJ,DONGX,LIUG H, et al. Risk and protective factors for COVID-19 morbidity, severity, and mortality[J]. Clinical Reviews in Allergy amp; Immunology, 2023, 64(1): 90.

[4]GUTIRREZ-GUTIRREZ F, PALOMO-LIGAS L. Change in the incidenceofintestinaldiseasescausedbyparasiticprotozoainthe Mexican population during the period (2015-2019) and its association with environmental and socioeconomic risk factors[J]. Parasitology Research, 2023, 122(4): 903.

[5]吳亞迪, 常嘉琪, 金何雨潔, 等. 噬菌體保藏方法研究綜述[J]. 聊城大學學報(自然科學版), 2023, 35(6): 86.

[6]ABEDON S T. Detection of bacteriophages: phage plaques[J]. Bacteriophages: Biology, Technology, Therapy, 2021: 507.

[7]DENGL,IGNACIO-ESPINOZAJC,GREGORYAC,etal. Viral tagging reveals discrete populations in Synechococcus viral genome sequence space[J]. Nature, 2014, 513(7517): 242.

[8]SAKOWSKI E G, ARORA-WILLIAMS K, TIAN F, et al. Interaction dynamics and virus-host range for estuarine actinophages captured by epicPCR[J]. Nature Microbiology, 2021, 6(5): 630.

[9]CAMACHO C, COULOURIS G, AVAGYAN V, et al. BLAST+: architecture and applications[J]. BMC Bioinformatics, 2009, 10: 1.

[10]ZHANGRS,MIRDITAM,LEVYKARINE,etal.SpacePHARER:sensitiveidentificationofphagesfromCRISPRspacersin prokaryotic hosts[J]. Bioinformatics, 2021, 37(19): 3364.

[11]COUTINHO F H, ZARAGOZA-SOLAS A, LPEZ-PREZ M, et al. RaFAH: a superior method for virus-host prediction[EB/OL]. (2020-09-27)[2023-09-01]. https://doi.org/10.1101/2020.09.25.313155.

[12]AMGARTEND,IHABKV,PIROUPOCM,etal. vHULK: a new tool for bacteriophage host prediction based on annotated genomic features and neural networks[J]. Phage, 2022, 3(4): 204.

[13]PONS J C, PAEZ-ESPINO D, RIERA G, et al. VPF-Class: taxonomic assignment and host prediction of uncultivated viruses basedonviralproteinfamilies[J].Bioinformatics,2021,37(13): 1805.

[14]VILLARROEL J, KLEINHEINZ K A, JURTZ V I, et al. HostPhinder:aphagehostpredictiontool[J].Viruses,2016,8(5):116.

[15]LIU D, WU Q N, CHEN W R, et al. A novel FK506 loaded nanomicellesconsistingofamino-terminatedpoly(ethylene glycol)-block-poly(D,L)-lacticacidandhydroxypropylmethylcelluloseforoculardrugdelivery[J]. International Journal of Pharmaceutics, 2019, 562: 1.

[16]AHLGRENNA,RENJ,LUYY,etal. Alignment-free d*2 oligonucleotidefrequencydissimilaritymeasureimprovesprediction of hosts from metagenomically-derived viral sequences[J]. Nucleic Acids Research, 2016, 45(1): 39.

[17]GALIEZC,SIEBERTM,ENAULTF,et al. WIsH: who is the host?:predictingprokaryotichostsfrom metagenomic phage contigs[J]. Bioinformatics, 2017, 33(19): 3113.

[18]LUCY,ZHANGZ,CAIZN,etal.Prokaryoticvirushostpredictor:aGaussianmodelforhostprediction of prokaryotic viruses in metagenomics[J]. BMC Biology, 2021, 19: 1.

[19]LEITE D M C, BROCHET X, RESCH G, et al. Computational predictionofinter-speciesrelationshipsthroughomicsdata analysis and machine learning[J]. BMC Bioinformatics, 2018, 19: 151.

[20]BOECKAERTSD,STOCKM,CRIELB,etal.Predictingbacteriophage hosts based on sequences of annotated receptor-binding proteins[J]. Scientific Reports, 2021, 11(1): 1.

[21]SHANGJY,SUNYN.Predictingthe hosts of prokaryotic viruses usingGCN-basedsemi-supervisedlearning[J].BMCBiology,2021, 19: 1.

[22]WANG R H, ZHANG-XIANG L L, WANG J P, et al. DeepHost: phage host prediction with convolutional neural network[J]. Briefings in Bioinformatics, 2022, 23(1): 1.

[23]ZHOU F X, GAN R, ZHANG F, et al. PHISDetector: a tool to detect diverse in silico phage-host interaction signals for virome studies[J].GenomicsProteomicsamp;Bioinformatics,2022,20(3): 508.

[24]WANGWL,RENJ,TANGKJ,etal.A network-based integrated framework for predicting virus-prokaryote interactions[J]. NAR Genomics and Bioinformatics, 2020, 2(2): 1.

[25]ROUX S, CAMARGO A P, COUTINHO F H, et al. iPHoP: an integratedmachinelearningframeworktomaximizehost prediction for metagenome-derived viruses of archaea and bacteria[J]. PLoS Biology, 2023, 21(4): e3002083.

[26]EDWARDS R A, MCNAIR K, FAUST K, et al. Computational approaches to predict bacteriophage-host relationships[J]. FEMS Microbiology Reviews, 2015, 40(2): 258.

[27]CANCHAYA C, FOURNOUS G, BRSSOW H. The impact of prophagesonbacterialchromosomes[J].MolecularMicrobiology, 2004, 53(1): 9.

[28]BREITBART M, BONNAIN C, MALKI K, et al. Phage puppet masters of the marine microbial realm[J]. Nature Microbiology, 2018, 3(7): 754.

[29]MAKAROVA K S, WOLF Y I, IRANZO J, et al. Evolutionary classificationofCRISPR-Cassystems:aburstofclass2andderived variants[J]. Nature Reviews Microbiology, 2020, 18(2): 67.

[30]MIZUNO C M, RODRIGUEZ-VALERA F, KIMES N E, et al. Expanding the marine virosphere using metagenomics[J]. PLoS Genetics, 2013, 9(12): 1.

[31]BOWERS R M, KYRPIDES N C, STEPANAUSKAS R, et al. Minimum information about a single amplified genome (MISAG) and a metagenome-assembled genome (MIMAG) of bacteria and archaea[J]. Nature Biotechnology, 2017, 35(8): 725.

[32]PACHIADAKI M G, BROWN J M, BROWN J, et al. Charting thecomplexityofthemarinemicrobiomethroughsingle-cell genomics[J]. Cell, 2019, 179(7): 1623.

[33]MUNSON-MCGEE J H, PENG S, DEWERFF S, et al. A virus or more in (nearly) every cell: ubiquitous networks of virus-host interactions in extreme environments[J]. The ISME Journal, 2018, 12(7): 1706.

[34]NAYFACHS,ROUXS,SESHADRIR,etal.AgenomiccatalogofEarth’smicrobiomes[J].NatureBiotechnology,2021,39(4):499.

[35]DALCIN MARTINS P, DANCZAK R E, ROUX S, et al. Viral andmetaboliccontrolsonhighratesofmicrobial sulfur and carbon cyclinginwetland ecosystems[J].Microbiome,2018,6(1):1.

[36]EMERSON J B, ROUX S, BRUM J R, et al. Host-linked soil viral ecology along a permafrost thaw gradient[J]. Nature Microbiology, 2018, 3(8): 870.

[37]GRAZZIOTINAL,KOONINEV,KRISTENSENDM.Prokaryotic virusorthologousgroups(pVOGs):aresourceforcomparativegenomicsandproteinfamilyannotation[J].NucleicAcidsResearch,2016, 45(1): 491.

[38]ROUX S, HALLAM S J, WOYKE T, et al. Viral dark matter and virus-host interactions resolved from publicly available microbial genomes[J]. Elife, 2015, 4: 1.

[39]GAN W, BAιK M, JAKUBOWSKA M. Host taxon predictor: a tool for predicting taxon of the host of a newly discovered virus[J]. Scientific Reports, 2019, 9(1): 3436.

[40]MOCK F, VIEHWEGER A, BARTH E, et al. VIDHOP: viral hostpredictionwithdeeplearning[J].Bioinformatics,2020,37(3): 318.

[41]ROUX S, BRUM J R, DUTILH B E, et al. Ecogenomics and potentialbiogeochemicalimpactsofgloballyabundantoceanviruses[J]. Nature, 2016, 537(7622): 689.

[42]YUTINN,BENLERS,SHMAKOVSA,etal. Analysis of metagenome-assembled viral genomes from the human gut reveals diverse putative CrAss-like phages with unique genomic features[J]. Nature Communications, 2021, 12(1): 1044.

[43]YUTIN N, MAKAROVA K S, GUSSOW A B, et al. Discovery of an expansive bacteriophage family that includes the most abundant viruses from the human gut[J]. Nature Microbiology, 2018, 3(1): 38.

[44]SKURNIKM,STRAUCHE.Phagetherapy:factsandfiction[J]. InternationalJournalofMedicalMicrobiology,2006,296(1): 5.

[45]DEJONGEPA,VONMEIJENFELDTFB,VAN ROOIJEN L E, etal.EvolutionofBACONdomaintandemrepeatsincrassphageandnovelgutbacteriophagelineages[J].Viruses,2019,11(12): 1085.

[46]GUERIN E, SHKOPOROV A N, STOCKDALE S R, et al. ""Isolation and characterisation of ΦcrAss002, a crAss-like phage from the human gut that infects bacteroides xylanisolvens [J]. Microbiome, 2021, 9: 1.

[47]SHKOPOROV A N, KHOKHLOVA E V, FITZGERALD C B, et al.ΦCrAss001representsthemostabundantbacteriophage family in the human gut and infects bacteroides intestinalis[J]. Nature Communications, 2018, 9(1): 4781.

[48]JIYR,ZHOUZH,LIUH,etal.DNABERT:pre-trainedbidirectionalencoderrepresentationsfromtransformers model for DNA-language in genome[J]. Bioinformatics, 2021, 37(15): 2112.

[49]MO S T, FU X, HONG C Y, et al. Multi-modal self-supervised pre-training for regulatory genome across cell types [EB/OL]. (2021-11-03) [2023-06-18]. https://arxiv.org/abs/2110.05231.

(責任編輯:于海琴)

收稿日期: 2023-09-18網絡首發時間:2024-10-11T10:41:08

基金項目: 山東省自然科學基金項目(ZR2021MC018); 山東省科技型中小企業創新能力提升工程項目(2022TSGC2305)

第一作者簡介: 劉楊(1999—),男,重慶人。碩士研究生,研究方向為人工智能。E-mail: 2577254925@qq.com。

通信作者簡介: 樊祥宇(1988—),男,山東濟南人。副教授,博士,碩士生導師,研究方向為環境病毒組、 噬菌體培養組。E-mail: fxysnd@126.com。

網絡首發地址: https://link.cnki.net/urlid/37.1378.N.20241011.0948.002

主站蜘蛛池模板: 欧美19综合中文字幕| 99久久国产精品无码| 日本午夜影院| 日韩欧美国产综合| 中文字幕欧美日韩高清| 自拍中文字幕| 一区二区三区四区精品视频| 全色黄大色大片免费久久老太| 国内精品91| 久久鸭综合久久国产| 一级福利视频| 亚洲色图欧美| 欧美激情伊人| 又爽又黄又无遮挡网站| 亚洲自偷自拍另类小说| 亚洲成a人片77777在线播放| 92精品国产自产在线观看| 国产制服丝袜无码视频| 综合五月天网| 毛片免费在线视频| 重口调教一区二区视频| 久久国产精品嫖妓| 91精品伊人久久大香线蕉| 国产h视频在线观看视频| 免费看的一级毛片| 91免费国产在线观看尤物| 超薄丝袜足j国产在线视频| 99精品福利视频| 99国产在线视频| 亚洲AV无码乱码在线观看裸奔| 在线视频亚洲欧美| 中文成人在线| 67194亚洲无码| 午夜日韩久久影院| 一本一道波多野结衣av黑人在线| 久久婷婷综合色一区二区| 欧美日韩国产一级| 午夜啪啪网| 一区二区理伦视频| 亚洲成人免费看| 亚洲天堂视频网| 四虎成人精品在永久免费| 免费aa毛片| 精品国产三级在线观看| 久久99热66这里只有精品一| 粉嫩国产白浆在线观看| 特级精品毛片免费观看| 免费一级大毛片a一观看不卡| 国产精品妖精视频| 成人日韩视频| 无码电影在线观看| 五月天福利视频| 精品無碼一區在線觀看 | 色妞永久免费视频| 亚洲天堂视频在线免费观看| 亚洲成a人片77777在线播放| 热久久国产| 日韩不卡高清视频| 国产情侣一区| 国产精品午夜福利麻豆| 日韩性网站| 国产熟睡乱子伦视频网站| 毛片基地视频| 91丨九色丨首页在线播放| 日韩AV手机在线观看蜜芽| 亚洲性日韩精品一区二区| 中文字幕亚洲乱码熟女1区2区| 四虎永久在线精品国产免费| 91热爆在线| 99热最新网址| 亚洲精品第1页| 乱色熟女综合一区二区| 亚洲综合片| 亚洲无卡视频| 97国产在线观看| 日本影院一区| 久久精品女人天堂aaa| 狼友视频国产精品首页| 亚洲不卡影院| 亚洲欧洲自拍拍偷午夜色| 伊人久久精品亚洲午夜| 91久久偷偷做嫩草影院免费看|