999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

抗微生物肽機器學習預測算法綜述

2022-12-04 07:38:28劉明友劉紅美張招方朱映雪
電子科技大學學報 2022年6期
關鍵詞:數據庫特征模型

劉明友,劉紅美,張招方,朱映雪,黃 健

(1. 貴州醫科大學生物與工程學院 貴陽 550025;2. 電子科技大學生命科學與技術學院 成都 610041;3. 泰禾云工程咨詢有限公司 貴陽 550081)

隨著新冠病毒的大流行,微生物感染造成的傷害越來越嚴重。世界衛生組織在 2017 年估計,僅流感每年就造成多達幾十萬人死亡,而新冠病毒大流行也已導致數百萬人死亡。病毒、耐藥細菌、真菌等微生物感染已成為人類面臨的嚴重健康威脅。傳統藥物在治療微生物感染性疾病時,會出現諸多問題,包括產生耐藥性、毒副作用等,急需開發安全高效的新型抗微生物感染藥物。抗微生物肽(antimicrobial peptides, AP) 是能抵抗微生物感染的多肽[1],包括抗菌肽、抗病毒肽、抗真菌肽等,具有高效、低毒、廣譜的抗微生物活性的優點且基本無耐藥性問題[2]。以抗菌肽為例,與抗生素相比,抗菌肽能快速殺死細菌,還有免疫調節作用等優點[3]??咕膶Ω叩葎游锏恼<毎緵]有毒性作用,還能抑制某些靶腫瘤細胞的生長。因此,抗菌肽已成為人類與動物醫學研究的熱點[4-5]。傳統識別抗微生物肽的方法通過生物實驗來進行,隨著高通量測序技術的發展和測序成本的持續降低,產生了海量的測序數據。用傳統方法從高通量序列中識別抗微生物肽工作量大、效率低、耗時費力、成本高昂??刮⑸镫念A測方法風生水起,這類方法通過對已有抗微生物肽數據的分析來挖掘出序列特征和抗微生物活性之間的關聯,從而做出定性或定量的推斷[6-7]。由于不依賴于生物實驗,其計算方法具有高效快捷、成本低廉等特點[8],非常適合大規模抗微生物肽的數據預測[9]。本文將從數據資源、數據處理方法、預測算法、性能評估等幾個模塊對抗微生物肽預測研究進行綜述。

1 數據資源

隨著生物醫學實驗與生物信息學的發展,相關學者已構建了一批抗微生物肽數據庫。這些數據資源的積累,為后續抗微生物肽預測算法研究提供了必不可少的數據支撐。抗微生物肽的詳細數據資源如表1 所示。

表1 抗微生物肽數據資源詳細列表

1.1 抗菌肽數據

APD (antimicrobial peptide database) 是一個以抗菌肽數據為主的抗微生物肽數據庫[10],收集并存儲了 2 169 條抗菌肽序列及其功能活性等特征信息。此外,該數據庫還收錄了172 條抗病毒肽[11]、80條抗寄生蟲肽和185 條抗癌肽。CAMP 抗菌肽數據庫[12]收錄了抗菌肽的序列、結構及家族特異性等方面的信息。升級版的CAMPR3 目前擁有10 247條序列,為研究抗菌肽的結構和功能信息提供了資源。DBAASPv3 抗菌肽數據庫[13]存儲了大量通過實驗驗證的抗菌肽及其靶標信息,該數據庫包含超過15 700 條序列記錄,包括超過14 500 條單體及近400 條同源和異源多聚體抗菌肽。 在單體抗菌肽(monomeric antimicrobial peptides, AMP) 中,超過12 000 條是合成的,約2 700 條是核糖體合成的,約170 條是非核糖體合成的。DRAMP 抗菌肽數據庫[14]收錄了普通抗菌肽、有專利的抗菌肽和經過臨床驗證的抗菌肽。DRAMP2.0 版本共收錄條目19 899 條 (新增條目2 550 條),其中一般條目5 084條、專利條目14 739 條、臨床驗證的條目76 條,與APD 和CAMP 相比,DRAMP包含14 040 條非冗余序列,DRAMP 已經更新到3.0 版本[15],包含22 259條抗菌肽記錄 (新增2 360 條),其中一般條目5 891條、專利條目16 110 條、臨床驗證的條目77 條、stapled 抗菌肽 181 條。dbAMP 抗菌肽數據庫[16]包括4 271 條經過實驗驗證的抗菌肽和8 118 條根據其功能活性推測的抗菌肽。升級后的dbAMP2.0[17]數據庫包含了來自3 044 個物種的26 447 條抗菌肽和2 262 條抗菌蛋白。

1.2 抗病毒肽數據

AVPdb 抗病毒肽數據庫[18]提供了60 余種經過醫學驗證了的能夠抵抗如流感病毒[19]、丙型肝炎病毒[20]、單皰疹病毒[21]、呼吸道合胞病毒[22]、乙型肝炎病毒[23]、登革熱病毒[24]、SARS 病毒[25]等感染的多肽序列。HIPdb 抗病毒肽數據庫[26]是一個手工管理的數據庫,收錄經過實驗驗證的981 條抗病毒肽,包含抗病毒肽的序列、長度、來源、靶標、細胞系等各方面的信息。AVPpred 數據庫[27]收集了1 245 條經過實驗驗證的能夠抵抗如流感、HIV、HCV 和SARS 等重要人類病毒的抗病毒肽記錄,同時還提供抗病毒肽預測服務。也有針對特定病毒的抗病毒肽數據庫,如最新的抗冠狀病毒肽數據庫ACovPepDB[28]。該數據庫收集了大量的抗冠狀病毒肽數據資源,主要來自于1972 ~ 2021 年間的2 199 篇已發表論文,還有部分抗冠狀病毒肽數據從AVPpred[27]和DPL[29]等數據庫收集而來。該數據庫共收錄了518 條抗冠狀病毒肽序列,其中214 條為非冗余序列,包括抗冠狀病毒肽的名稱、長度、來源、靶標等信息。該數據庫的構建為后期抗冠狀病毒肽的預測分析研究提供了資源。

1.3 抗真菌肽數據

在前述抗菌肽數據庫中,有的也收錄了不少抗真菌肽數據[30],如APD 數據庫除了收集大量抗菌肽數據外,還收錄了959 條抗真菌肽記錄,升級到APD3 后,抗真菌肽增加到了1 133 條。DRAMP數據庫中也有1 802 條抗真菌肽。PlantAFP[31]是一個植物源抗真菌肽數據庫,收集了經過實驗驗證的植物源抗真菌肽數據,該數據庫的當前版本包含2 585 條肽條目,每個條目都包含肽的綜合信息,包括肽序列、肽名稱、肽類別、肽長度、分子量、抗真菌活性和肽來源,并以 SMILES 格式存儲肽序列。為了方便用戶使用,該數據庫中集成了許多檢索工具,包括 BLAST 搜索、肽搜索、SMILES 搜索,且還包含肽圖。Antifp_main[32]也收集了大量抗真菌肽的研究數據,共計1 168 條抗真菌肽記錄。文獻[33]在抗真菌肽研究上做了大量工作,通過計算機輔助方法,從大量多肽序列中,定量預測了5 000 多條抗真菌肽數據。

2 抗微生物肽分析方法

2.1 傳統實驗方法

為了確定多肽的抗微生物活性,需要做許多實驗驗證的工作,如文獻[34]通過實驗確定了家蠅的防衛素 (Phormicin) 多肽[35]對金黃色葡萄球菌和耐甲氧西林金黃色葡萄球菌(Methicillin-resistant Staphylococcus aureus, MRSA)[36]的體內外抗感染作用。在小鼠燙傷模型中,經防衛素處理后,MRSA細菌載量明顯下降。在黑水虻幼蟲實驗中,該防衛素破壞了金黃色葡萄球菌和MRSA 生物膜的形成,表明家蠅防衛素通過影響生物膜和相關基因網絡,幫助宿主抑制 MRSA 感染。

通過實驗能夠確定多肽的抗微生物活性,但這樣的實驗需要耗費較多人力,所需時間和開銷也很大。面對高通量多肽數據,更適合的策略是開發快速高效的預測方法進行初篩,再對最為可能的候選抗微生物肽進行實驗驗證,這就需要對抗微生物肽數據進行特征提取。

2.2 計算機輔助特征工程

多肽序列由20 種氨基酸殘基序列組成,這20 種氨基酸分別為:甘氨酸 (Gly 縮寫G) 、丙氨酸(Ala 縮寫A) 、纈氨酸 (Val 縮寫V) 、亮氨酸 (Leu 縮寫L) 、異亮氨酸 (Ile 縮寫I) 、甲硫氨酸 (Met 縮寫M) 、脯氨酸 (Pro 縮寫P) 、色氨酸 (Trp 縮寫W) 、絲氨酸 (Ser 縮寫S) 、酪氨酸 (Tyr 縮寫Y) 、半胱氨酸 (Cys 縮寫C) 、苯丙氨酸 (Phe 縮寫F) 、天冬酰胺 (Asn 縮寫N) 、谷氨酰胺 (Gln 縮寫Q) 、蘇氨酸(Thr 縮寫T) 、天冬氨酸 (Asp 縮寫D) 、谷氨酸(Glu 縮寫E) 、賴氨酸 (Lys 縮寫K) 、精氨酸(Arg 縮寫R) 和組氨酸 (His 縮寫H),這20 種氨基酸是組成生命體中蛋白質的主要單元[37]。要進行肽功能的識別,首先需要提取多肽序列中的特征信息。

2.2.1 AAC 計算法

氨基酸組分 (amino acid composition, AAC)[38]是指在給定序列中,20 種天然氨基酸各自出現的頻率,然后計算每一種氨基酸在整個肽序列中的組分屬性,具體如下:

式中,i表示任意一種氨基酸;X(i)代表整個序列中第i種氨基酸出現的次數,如氨基酸序列 ‘KTCENLADTFRGPCFATSNC’,其中氨基酸A 出現了2 次,則其AAC 值為2/20=0.1,通過AAC 的分析提取肽序列中每種氨基酸的特征信息。

2.2.2 DPC 計算法

DPC (dipeptide composition) 二肽組分是AAC計算法的擴展,它統計氨基酸對出現的次數特征信息[39],如序列‘LFRLIKSLIKRLVSAFK’中LI 出現了2 次,則其計算特征為2/(17-1)=0.125。同理,可計算三肽出現的特征信息。

2.2.3 CKSAAP

CKSAAP 描述符[40]是 DPC 的進一步擴展。當k=0 時,該特征方法就是DPC,通過計算兩個氨基酸對之間間隔的氨基酸數來提取特征;當k=3 時,表示一對氨基酸之間間隔3 個氨基酸殘基, 該方法作為一個有效的特征描述符來表示短肽序列的特征信息,其計算公式為:

為了更細化地進行分析,CKSAAGP[41]將氨基酸按照其物理化學性質分成5 類,分別為:脂肪族氨基酸 (g1),芳香族氨基酸 (g2),帶正電荷氨基酸 (g3),帶負電荷氨基酸 (g4) 和不帶電氨基酸 (g5)。如“aliphatic.X.X.aromatic”,其中“X”表示任何出現在“脂肪族和芳香族”兩種氨基酸之間的氨基酸對,對于長度為L的氨基酸肽,如果k間隔殘基對在肽中出現了n次,則特征計算為n/(L-(k+1)),從而提取到氨基酸的CKSAAGP 特征信息。

類似這種氨基酸提取方法還有很多,這些特征選擇算法大部分都集成到iFeature 中[42-43],它能夠計算和提取包含 53 種不同類型的特征描述符。iFeature 還集成了 12 種不同類型的常用的特征聚類、選擇和降維算法,為后期的機器學習預測算法提供強大的支撐。

2.3 其他特征工程

隨著機器學習的演進,特征提取算法也出現了許多新變化,新的特征工程為特定的預測分析方法提供了更多選擇。

2.3.1 PEPred-Suite

PEPred-Suite[44]利用10 種常用的特征編碼方法對特征進行編碼,包括:AAC、DPC、GGAP[45]、ASDC[46]、組成-轉換-分布 (CTD)[47]、20 位特征(BIT20)、21 位特征 (BIT21)[48]、重疊屬性特征、信息論特征和物理化學特征 (188D)[49]。這些特征編碼信息作為特征數據集存儲在特征池中,然后運用隨機森林算法對特征進行學習,從而產生新的特征向量,將特征向量輸入最小冗余最大相關算法中進行特征排序[50],然后將排序靠前的特征作為后期隨機森林分類的學習特征。

2.3.2 Meta-iAVP

Meta-iAVP[51]進一步提出了新的特征選擇方法,該模型先利用前面的數學模型特征提取算法把多肽序列特征提取出來,然后將這些特征輸入隨機森林、支持向量機、KNN 等機器學習算法模型中進行進一步特征學習提取,將學習提取到的特征作為后期隨機森林分類算法的特征輸入。

2.3.3 iAMP-CA2L

iAMP-CA2L[52]使用了新的特征提取方法,首先將氨基酸按照二進制編碼進行轉化,20 種氨基酸按照5 位二進制編碼方法轉換成20 種二進制編碼,然后利用CAL 機制將二進制編碼轉換成圖片[53]。該方法的特點是圖片可以通過裸眼的方式區分不同多肽序列的差異之處,該方法轉換生成的圖片如圖1 所示。

圖1 CAL 轉換后的肽序列圖片

有了多肽序列圖片數據,就可以通過深度學習或神經網絡來進行圖像特征學習,iAMP-CA2L 采用卷積神經網絡 (convolutional neural network, CNN)來進行圖像特征學習,CNN 是一種前饋神經網絡,通過卷積運算提取特征,然后使用池化層學習數據的局部特征。它不需要對輸入數據進行大量預處理,可以學習到真實反映數據類型的內在相關性的特征信息[54]。然后將CNN 學習到的特征輸入到BiLSTM 模型中進行上下文特征提取,從而獲取到最終的多肽序列特征信息,將這些信息最終輸入支持向量機進行分類分析。BiLSTM 由前向 LSTM 和后向 LSTM 組成,BiLSTM 在自然語言處理任務中常用于處理上下文信息,使用LSTM 模型可以更好地捕捉長距離依賴,因為LSTM 在學習過程中可以學習到哪些信息要記住,哪些信息要忘記。BiLSTM 能夠有效地捕獲到前向和后向特征之間的關系,從而更好地學習到多肽序列特征之間的特征信息[55]。

3 抗微生物肽預測算法

近年來,隨著機器學習算法的日新月異,許多優秀的機器學習算法不斷運用到生物醫藥大數據的分析當中,加快了抗微生物肽的預測識別進程。

3.1 機器學習預測方法

3.1.1 隨機森林

最典型的機器學習預測方法就是隨機森林算法(random forest, RF)[56],RF 算法是一個包含多個決策樹的分類器。RF 模型基于許多弱分類和回歸樹(classification and regression tree, CART) 而成,其中每個分類器是使用獨立于輸入向量采樣的隨機向量生成的,以提高 CART 的預測性能[57]。

RF 已被廣泛用于模擬各種生物學問題當中[58]。文獻[59]首次運用RF 進行抗病毒肽的預測,該模型提取抗病毒肽序列的物理化學屬性作為特征選項,然后運用RF 算法進行分類學習,其準確率為90%,馬修斯相關系數 (Matthews correlation coefficient, MCC)[60]為0.79。另一個運用隨機森林進行抗病毒肽預測分析的模型是2019 年文獻[61]提出的AntiVPP,其準確率為93.00%,MCC 為0.87。同樣2019 年基于RF 的PEPred-Suite[44],其抗病毒肽預測性能為86.4%,MCC 系數為0.725?;赗F的 AMPfun[62]作為一個抗微生物肽分類模型,在獨立數據集上測試,其抗病毒肽預測準確率為86.13%,MCC 值為0.71,抗真菌肽預測準確率為74.58%,MCC 值為0.52。2021 年發表的PreAntiCoV[63]用于抗冠狀病毒肽的預測,考慮到數據的不平衡性,該模型引入非平衡隨機森林技術預測抗冠狀病毒肽的性能指標,其MCC 值為0.57。同樣,基于隨機森林的AVPIden[64]用來預測分析抗病毒肽,其準確率為91.50%。

3.1.2 支持向量機

支持向量機 (support vector machine, SVM) 模型[65]可以通過將輸入樣本映射到更高維空間,然后搜索用于構造分類器的超平面來解決由于使用小型訓練數據集而引起的過擬合問題。 為了對高維樣本進行線性分離,SVM 采用許多核函數將輸入從具有p維特征向量的樣本空間轉換為具有n維特征向量的特征空間,其中p<n。2012 年提出的AVPpred[66]模型運用支持向量機來進行抗病毒肽的預測,并構建了基準數據集,其抗病毒肽預測最高準確率為85.00%,MCC 為0.70。另外一個使用支持向量機構建的模型是2020 年的FIRM-AVP[67]模型,其預測抗病毒肽準確率為92.40%,MCC 值為0.84。2017 年發表的iAMPpred[68]也構建在支持向量機基礎之上,其抗菌肽預測準確率最高為94.69%,MCC 相關系數為0.89,其抗病毒肽預測準確率最高為90.08%,MCC 相關系數為0.80,其抗真菌肽預測最高準確率為93.35%,MCC 相關系數為0.87。

3.1.3 神經網絡

基于神經網絡的算法分為兩種,一種對氨基酸進行二進制編碼,然后將編碼信息輸入神經網絡進行特征學習,將學習到的抗微生物肽特征信息輸入分類算法進行識別。iAMP-CA2L[52]就是其中的典型算法之一,該算法用于識別抗菌肽的最高準確率為94.13%,然后在識別出的抗菌肽中分辨抗病毒功能,其分辨抗病毒肽準確率為80.57%。另一種是將傳統數學模型提取的特征信息輸入到神經網絡當中,通過神經網絡來進行學習,從而完成抗病毒肽的識別,典型代表是ENNAVIA[69]。該算法專門用來進行抗病毒肽和抗冠狀病毒肽的預測,算法模型基于深度神經網絡構建而成,其抗病毒肽最高準確率為93.90%,MCC 值為0.87。Deep-AntiFP[70]基于深度神經網絡技術,用來對抗真菌肽進行預測分析,在獨立數據集上進行測試,其準確率為89.08%,MCC 值為0.78。

3.1.4 其他分類模型

iAMP-2L[71]基于模糊k 最鄰近 (fuzzy k-nearest neighbor, FKNN) 網絡進行抗菌肽分類,該算法進行二階段分類識別,第一階段識別肽序列是否為抗菌肽,第二階段對識別到的抗菌肽進行功能區分,其抗菌肽識別最高準確率為92.23%,MCC 值為0.84。另一個抗菌肽預測模型是基于谷歌公司推出的BERT 模型[72],該模型是一個自然語言處理模型,能夠實現自然語言的上下文識別,該模型的抗菌肽識別最高準確率為95.94%,MCC 值為0.91。該模型第一階段利用網絡公開蛋白質數據集對模型進行預訓練,然后再用預訓練模型對抗菌肽進行識別。iAFPs-EnC-GA[73]是基于多個分類模型構建的抗真菌肽集成分類器,首先對氨基酸進行特征編碼,然后將抗真菌肽的編碼特征信息輸入FKNN、隨機森林 (RF) 模型、K 近鄰 (KNN) 模型以及SVM 模型進行分類,其抗真菌肽預測最高準確率為93.92%。

4 抗微生物肽回歸分析

文獻[33]通過支持向量機回歸模型 (support vector regression, SVR) 驗證了抗真菌肽對念珠菌屬等真菌的有效性,回歸分析中,其相關性系數R均大于 0.90,進一步證實了該模型在抗真菌活性預測分析方面的準確性。文獻[74]通過深度學習方法構建分類模型,然后對識別后的抗菌肽進行實驗驗證,在對小鼠進行體內感染實驗之前,評估了11 種c_AMP 對真核細胞的毒性,最終選擇了c_-AMP1043、c_-AMP593 和c_-AMP575 進行體內分析,使用感染肺炎克雷伯菌的小鼠模型,監測體重恢復數據情況。結果表明,3 種抗菌肽對肺部感染具有抗菌活性,對宿主無明顯不良影響。iAFPs-EnCGA 通過本地模型無關局部解釋技術 (local interpretable model-agnostic explanations, LIME) 分析解釋了單個特征對整體預測的貢獻,同時引入另一個黑盒模型事后歸因解析算法(shapley additive exPlanation, SHAP) 來衡量每個特征在建議模型中的貢獻。SHAP 是基于最佳 Shapley 值聚合的全局解釋方法,具有提供可解釋的預測的能力,還涵蓋了由于缺乏特征的方向性而發生的限制[73]。如果SHAP 值為正,這意味著該特征推動了對抗真菌肽的預測并產生了積極的影響。如果SHAP 值為負,則該特征會推動對非抗菌肽的預測并產生負面影響,LIME 分析測量單個特征,而 SHAP 分析測量整個模型特征??刮⑸镫念A測模型與工具如表2 所示。

表2 抗微生物肽預測模型與工具列表

5 模型性能評估方法

為評價模型的性能,引入眾多機器學習模型評價指標,進行模型之間的相互比較。列舉部分常用模型評估方法:1) true positive (TP):將正例預測為正例的個數;2) true negative (TN):將負例預測為負例的個數;3) false positive (FP):將負例預測為正例的個數,即誤報;4) false negative (FN):將正例預測為負例的個數,即漏報。通過評估混淆矩陣,就可以完成對模型性能的定量評估[75]。

5.1 分類模型性能評估

5.1.1 準確率

準確率 (accuracy, ACC) 表示識別準確的正例和負例占總體樣本的比例。通常而言,準確率越高,模型也越好。具體計算如下:

5.1.2 敏感性

敏感性 (sensitivity, Sn),用來表示正例預測為正占所有樣例預測為正的比例,用來測試將抗菌肽、抗病毒肽正確分類的能力,其計算公式如下:

在生物醫學數據分析中,敏感性是測試所有患者中成功定位了多少患者,敏感性越高,正確識別出患有疾病的患者判別能力越強。

5.1.3 特異性

特異性 (specificity, Sp)用來表示將負例預測為負例的個數,測試正確區分非抗菌肽和非抗病毒肽的能力。具體計算如下:

在生物醫學方面,特異性是測試所有健康人中有多少健康人被檢測為陰性,測試對沒有疾病的健康人群的識別能力。

5.1.4 馬修相關系數

馬修相關系數MCC 在機器學習中被用來衡量二分類和多分類的標準,它考慮了真值、假值、陽性和陰性等情況,通常被認為是一種平衡的度量措施,即使類別的數目大小不同,數據不平衡,也可以用來進行評估。MCC 本質上是-1~ +1 之間的相關系數值, +1 表示完美預測,0 表示平均隨機預測,-1 表示逆預測,其計算公式如下:

除此之外,還有很多評價指標,可以根據實際需求進行選擇,從而實現模型性能的進一步量化評估。

5.1.5 ROC 與AUC

受試者工作特征 (receiver operating characteristic,ROC) 通過繪制一條曲線,顯示各種截斷點的假陽性率 (x軸) 和真陽性率(y軸)之間的權衡。假陽性率和真陽性率的計算公式為:假陽性率(FPR) =FP/(TN+FP),真陽性率 (TPR) = TP/(TP+FN),ROC曲線的形狀提供了對模型性能的洞察,曲線越凸出,模型性能越好。曲線下面積 (area under the curve,AUC) 是度量ROC 曲線下面積的指標,AUC 接近1.0 表示預測接近完美,AUC 為0.5 則表示隨機猜測[76]。

5.2 回歸模型性能評估

回歸是估計一個因變量與一個或多個自變量之間關系的過程,通過比較預測結果與實際結果之間的差異率來評估回歸模型的性能。

5.2.1 平均絕對誤差

平均絕對誤差 (mean absolute error, MAE)[77]也叫平均絕對離差,這個指標先對真實值與預測值的距離求和,再取平均值。具體計算如下:

式中,f(xi) 為預測值;yi為真實值;m為數據量,平均絕對誤差可以準確地反映實際預測誤差的大小,但MAE 的缺點是不能顯示回歸模型擬合是優還是劣。

5.2.2 均方根誤差

均方根誤差RMSE 也稱標準誤差[77],是在均方誤差的基礎上進行開方運算,常用于衡量觀測值與真實值間的偏差,可以消除樣本數量對評價指標的影響,使得評估指標的大小不會太依賴于樣本數量,而是更多地反映模型誤差,具體計算如下:

5.2.3 決定系數R2

決定系數R2由3 個指標組成[78],分別為SSR(sum of squares of the regression), SST(total sum of squares)和SSE(sum of squares for error),具體表達式為:

決定系數R2通過計算SSR 與 SST 的比值,反應因變量y的全部變異能通過回歸模型被自變量x解釋的比例,如R2為0.9,則表示回歸關系可以解釋因變量 90% 的變異。具體表達式為:

決定系數R2越高,越接近1,模型的擬合效果就越好,反之,決定系數R2越接近0,則回歸直線擬合效果越差。

6 結 束 語

抗微生物肽是具有抗菌、抗病毒或者抗真菌功能的多肽[79-81],相較于傳統的抗生素或抗病毒藥物,抗微生物肽尚無耐藥等問題,可以作為傳統抗生素等藥物的替代品[82]。

目前,基于計算機輔助的抗微生物肽的預測方法已較為成熟,能提供較為可靠的預測結果,能減少大量的人力投入,成本更低、效率更高。

盡管機器學習預測抗微生物肽已經取得很大進步,但該領域依然存在諸多挑戰。1) 當前機器學習預測算法針對抗菌肽的預測較多[83-84],但是專門針對抗病毒肽的預測方法依然較少[85-86]。未來研究可以考慮將抗菌肽的預測分析方法遷移到抗病毒肽、抗真菌肽的研究當中。2) 抗微生物肽的機器學習預測算法研究雖然較多,但直接結合生物學意義進行可解釋性分析以及隨后開展生物學實驗驗證的研究較少[87-88]。目前,LIME、SHAP 等算法[89]能夠根據機器學習提取的特征進行t特征重要性排序,找出影響最終結果最多的氨基酸特征,從而為下一步的多肽功能的生物學特征研究提供參考。3) 當前抗菌肽數據庫較多,但是專門的抗病毒肽、抗真菌肽數據庫較少,如表1 所示,現存的抗病毒肽、抗真菌肽數據大多來源于論文附帶的數據。同時,不同的數據庫數據格式各異,導致通用性不高,需要專門的標準化的抗微生物肽數據庫[90]。4) 抗微生物肽的預測準確率有待進一步提高。最新的抗菌肽預測準確率達到95.94%,抗病毒肽預測準確率最高為93.90%,抗真菌肽預測準確率最高為93.35%。5) 目前有許多用于抗微生物肽預測的算法,大多基于傳統機器學習分類方法,如隨機森林、KNN、SVM 等,人工智能最新的預測分析算法還未完全引入抗微生物肽的預測當中。最新深度學習已經在生物信息學上進行了大量應用[91-92],對抗神經網絡也應用于最新分類研究[93],圖神經網絡[94-95]、自然語言處理模型也開始應用到生物學數據處理上[96],這些算法在抗微生物肽等生物醫學數據分析的潛力有待進一步挖掘運用。

綜上,基于對抗微生物肽的預測算法研究,目前仍需要進一步研究的3 個方向:1) 開發專門的標準化的抗微生物肽數據庫,收集大量分散的抗微生物肽序列,并歸類整理、動態更新,為將來的研究分析提供支撐;2) 開發通用的針對抗微生物肽的機器學習預測算法;3) 開發更多能夠解讀抗微生物肽機器學習預測分析結果的算法,為生物學家下一階段的實驗驗證提供理論依據。抗微生物肽的分析不僅是生物科學家的工作,更需要計算機、數學等相關行業專家積極參與、多方協作,才能完成抗微生物肽的分析、驗證、推廣、應用等一系列完整的生態系統研究。

猜你喜歡
數據庫特征模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
數據庫
財經(2017年2期)2017-03-10 14:35:35
3D打印中的模型分割與打包
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
主站蜘蛛池模板: 亚洲成AV人手机在线观看网站| 国模粉嫩小泬视频在线观看| 国产美女91视频| 色AV色 综合网站| 亚洲中文无码h在线观看 | 一区二区日韩国产精久久| 亚洲国产天堂久久综合226114| 日本成人在线不卡视频| 日本免费一区视频| 欧美区国产区| 亚洲Av激情网五月天| 日韩在线视频网| 国产女人综合久久精品视| 亚洲二区视频| 免费高清a毛片| a亚洲天堂| 中文字幕 91| 国产麻豆精品在线观看| 又大又硬又爽免费视频| 一本大道香蕉高清久久| 99人体免费视频| 夜夜操天天摸| 欧美综合成人| 亚洲va视频| 成人av专区精品无码国产| 特黄日韩免费一区二区三区| 超清无码一区二区三区| 97超碰精品成人国产| 71pao成人国产永久免费视频| 91探花国产综合在线精品| 亚洲一区黄色| 亚洲精品国产自在现线最新| 欧美不卡在线视频| 欧美国产日韩一区二区三区精品影视| 亚洲二三区| 999精品视频在线| 重口调教一区二区视频| 国产精品一区二区久久精品无码| 亚洲手机在线| 国产欧美专区在线观看| 亚洲欧美人成电影在线观看| 欧美一级爱操视频| 亚洲中文字幕av无码区| 99re这里只有国产中文精品国产精品 | a毛片在线播放| 欧美日韩动态图| 福利国产微拍广场一区视频在线| 国产成人免费高清AⅤ| 亚洲V日韩V无码一区二区| 国产精品冒白浆免费视频| 久久精品国产免费观看频道| 中文字幕欧美日韩高清| 亚洲码在线中文在线观看| 中国精品自拍| 国产色网站| 亚洲欧洲免费视频| 青青网在线国产| 欧美在线精品怡红院| 99精品这里只有精品高清视频| 激情五月婷婷综合网| 伊人激情综合网| 992tv国产人成在线观看| 欧美不卡在线视频| 热伊人99re久久精品最新地| 被公侵犯人妻少妇一区二区三区| 国产精品亚洲欧美日韩久久| 亚洲第一中文字幕| 久久黄色影院| 四虎精品黑人视频| 女人18一级毛片免费观看| 国产综合精品日本亚洲777| 欧美成在线视频| 91福利国产成人精品导航| 国产欧美日韩专区发布| 青草娱乐极品免费视频| 亚洲欧美日韩中文字幕在线一区| 精品久久久无码专区中文字幕| 最新国语自产精品视频在| 99ri国产在线| 999国内精品视频免费| 国产毛片高清一级国语 | 在线观看亚洲人成网站|