999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于InceptionV3_SVM 模型的蛋白質(zhì)-ATP 綁定位點(diǎn)預(yù)測(cè)

2024-06-26 07:57:45宋澤瑞宋初一宋佳智姜靜清
電腦知識(shí)與技術(shù) 2024年14期
關(guān)鍵詞:特征提取

宋澤瑞 宋初一 宋佳智 姜靜清

摘要:蛋白質(zhì)-ATP綁定位點(diǎn)預(yù)測(cè)作為近年來(lái)生物醫(yī)學(xué)領(lǐng)域的熱點(diǎn)研究之一,對(duì)于醫(yī)藥學(xué)的發(fā)展極其重要。為了提高蛋白質(zhì)-ATP綁定位點(diǎn)預(yù)測(cè)的準(zhǔn)確率,提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)融合(InceptionV3_SVM) 的預(yù)測(cè)方法。首先對(duì)蛋白質(zhì)序列進(jìn)行特征提取,再采用InceptionV3模型擴(kuò)大輸入數(shù)據(jù)感受野,對(duì)卷積神經(jīng)網(wǎng)絡(luò)提取到的深度特征應(yīng)用SVM分類器進(jìn)行訓(xùn)練,得到最終預(yù)測(cè)結(jié)果。實(shí)驗(yàn)結(jié)果表明,該預(yù)測(cè)方法能夠更精確的識(shí)別蛋白質(zhì)-ATP綁定位點(diǎn)。

關(guān)鍵詞: 蛋白質(zhì)-ATP綁定位點(diǎn);深度卷積神經(jīng)網(wǎng)絡(luò);蛋白質(zhì)序列;特征提取;SVM

中圖分類號(hào):TP18;Q51 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2024)14-0004-06 開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID) :

0 引言

在蛋白質(zhì)-ATP綁定位點(diǎn)的相關(guān)預(yù)測(cè)研究中,主要預(yù)測(cè)方法有基于生化實(shí)驗(yàn)的生物學(xué)方法和基于人工智能的計(jì)算預(yù)測(cè)方法等。其中應(yīng)用生物學(xué)方法已經(jīng)可以比較準(zhǔn)確地識(shí)別蛋白質(zhì)-ATP綁定位點(diǎn),但其所需要的時(shí)間和經(jīng)濟(jì)成本相對(duì)較大,很難滿足當(dāng)前大規(guī)模應(yīng)用的需求[4]。在計(jì)算預(yù)測(cè)方法中,應(yīng)用傳統(tǒng)機(jī)器學(xué)習(xí)算法預(yù)測(cè)蛋白質(zhì)-ATP綁定位點(diǎn)的方法主要有支持向量機(jī)(SVM) 、隨機(jī)森林(RondomForest) 等。2011年CHEN K等人提出了基于位置特異性得分矩陣(PSSM) 序列信息的支持向量機(jī)方法[5]、2015年石大宏提出結(jié)合加權(quán)下采樣與基于聚類的下采樣分別和支持向量機(jī)相結(jié)合的方法[6]、2015年余健浩等人采用基于支持向量回歸集成的方法[7]、2020年SONG J Z等人使用基于SMOTE算法和隨機(jī)森林分類器融合的方法[8],分別在蛋白質(zhì)-ATP綁定位點(diǎn)預(yù)測(cè)研究中的不平衡數(shù)據(jù)處理和精度預(yù)測(cè)等方面做出了相關(guān)研究。相比于傳統(tǒng)機(jī)器學(xué)習(xí)的預(yù)測(cè)方法,應(yīng)用深度學(xué)習(xí)算法預(yù)測(cè)蛋白質(zhì)-ATP綁定位點(diǎn)的方法主要有卷積神經(jīng)網(wǎng)絡(luò)(CNN) 、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN) 、自編碼器等。2019年郭麗萍等人基于自編碼器和卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建了深度學(xué)習(xí)預(yù)測(cè)模型[9]、2019年張?jiān)⒌热藢?shí)現(xiàn)了基于一維卷積神經(jīng)網(wǎng)絡(luò)的模型[10]、2022年劉桂霞等人提出了改進(jìn)的Inception卷積架構(gòu)的深度網(wǎng)絡(luò)模型[11],分別利用深度學(xué)習(xí)算法構(gòu)建多種網(wǎng)絡(luò)架構(gòu)的方式對(duì)蛋白質(zhì)-ATP 綁定位點(diǎn)進(jìn)行了預(yù)測(cè),并且預(yù)測(cè)結(jié)果得到了提升。

以往研究采用的分類算法主要為傳統(tǒng)的機(jī)器學(xué)習(xí)算法或深度學(xué)習(xí)算法,對(duì)蛋白質(zhì)-ATP綁定位點(diǎn)的預(yù)測(cè)做出了開(kāi)創(chuàng)性的貢獻(xiàn),但其預(yù)測(cè)精度仍有進(jìn)一步提升的可能,對(duì)于蛋白質(zhì)-ATP綁定位點(diǎn)預(yù)測(cè)研究中的生物數(shù)據(jù)分析和樣本分類預(yù)測(cè)性能仍有待加強(qiáng)。本文基于改進(jìn)的深度學(xué)習(xí)算法InceptionV3卷積網(wǎng)絡(luò)模型和機(jī)器學(xué)習(xí)算法相結(jié)合的思想,提出了Incep?tionV3_SVM分類架構(gòu),用以實(shí)現(xiàn)蛋白質(zhì)-ATP綁定位點(diǎn)的預(yù)測(cè)。最后的實(shí)驗(yàn)結(jié)果表明,InceptionV3_SVM 分類架構(gòu)可以有效提升預(yù)測(cè)方法的整體性能,對(duì)于蛋白質(zhì)和其他配體綁定位點(diǎn)的預(yù)測(cè)研究同樣具有重要意義。

1 數(shù)據(jù)集及評(píng)價(jià)指標(biāo)

1.1 數(shù)據(jù)集

本文所使用的數(shù)據(jù)集是ATP-388和ATP-41數(shù)據(jù)集[12],該數(shù)據(jù)集共有429條含有ATP綁定位點(diǎn)的蛋白質(zhì)序列。該數(shù)據(jù)集來(lái)自2016 年之前的PDB(ProteinData Bank) 中的數(shù)據(jù)記錄,通過(guò)使用CD-hit軟件去除蛋白質(zhì)記錄中同源性超過(guò)40% 的冗余序列,最終得到429條非冗余的蛋白質(zhì)序列數(shù)據(jù)。在這429條蛋白質(zhì)序列中,388條蛋白質(zhì)序列作為訓(xùn)練集,41條蛋白質(zhì)序列作為獨(dú)立測(cè)試集。

1.2 滑動(dòng)窗口

研究表明,蛋白質(zhì)序列中殘基的ATP結(jié)合特性不僅與其自身理化屬性相關(guān),同時(shí)也會(huì)受到其相鄰殘基理化屬性的影響。因此,一般使用滑動(dòng)窗口的方法把目標(biāo)殘基和鄰近殘基的特征值進(jìn)行整合作為一個(gè)目標(biāo)殘基的總特征值。滑動(dòng)窗口處理過(guò)程如圖1所示。當(dāng)滑動(dòng)窗口大小為L(zhǎng)時(shí),一個(gè)蛋白質(zhì)目標(biāo)殘基會(huì)整合其前(L-1)/2個(gè)相鄰殘基和后(L-1)/2個(gè)相鄰殘基的特征值作為總特征值,在目標(biāo)殘基前后的相鄰殘基不足(L-1)/2個(gè)時(shí),所缺少的殘基特征值全部用0補(bǔ)齊,其處理過(guò)程如圖1所示。在本文研究中,經(jīng)過(guò)多次實(shí)驗(yàn)嘗試,當(dāng)滑動(dòng)窗口大小L=17時(shí),預(yù)測(cè)方法可以獲得最優(yōu)性能。

1.3 特征提取

1.3.1 PSSM 位置特異性得分矩陣特征

PSSM(Position Specific Scoring Matrix, PSSM) 位置特異性得分矩陣可以反映蛋白質(zhì)序列中每個(gè)位置上不同堿基出現(xiàn)的頻率,矩陣的行表示蛋白質(zhì)序列的長(zhǎng)度,矩陣的列表示構(gòu)成蛋白質(zhì)序列的20種殘基,矩陣中的每個(gè)元素表示相應(yīng)位置上堿基出現(xiàn)的頻率。使用PSI-BLAST軟件將未知序列與Swiss-Prot數(shù)據(jù)庫(kù)中的序列進(jìn)行多輪迭代的多序列比對(duì),得到PSSM位置特異性得分矩陣,之后使用歸一化函數(shù)sigmoid對(duì)矩陣中的數(shù)據(jù)進(jìn)行歸一化處理。歸一化函數(shù)sigmoid計(jì)算公式如下:

其中x 代表矩陣中的原始數(shù)值,f(x)代表歸一化后的數(shù)值。在應(yīng)用大小為17的滑動(dòng)窗口后,PSSM位置特異性得分矩陣特征的總維數(shù)為20×17=340。

1.3.2 蛋白質(zhì)二級(jí)結(jié)構(gòu)特征

蛋白質(zhì)二級(jí)結(jié)構(gòu)(Protein Secondary Structure) 是指多肽主鏈骨架原子沿一定的軸盤旋或折疊而形成的特定構(gòu)象,即肽鏈主鏈骨架原子的空間位置排布,不涉及殘基側(cè)鏈。按照主流的分類方法,蛋白質(zhì)的二級(jí)結(jié)構(gòu)可分為三類,分別為:α-螺旋、β-折疊和無(wú)規(guī)卷曲。在本文中,使用PSIPRED工具預(yù)測(cè)蛋白質(zhì)序列中每個(gè)殘基屬于α- 螺旋、β-折疊和無(wú)規(guī)卷曲三種結(jié)構(gòu)的概率,得到三維的蛋白質(zhì)二級(jí)結(jié)構(gòu)特征數(shù)據(jù)。經(jīng)過(guò)滑動(dòng)窗口處理,該特征值總維數(shù)是3×17=51。

1.3.3 溶劑可及性特征

可及表面積(Acces?sible Surface Area, ASA) 或溶劑可及表面積(Solvent-Accessible Surface Area, SASA) 是溶劑可接觸的生物分子表面積。蛋白質(zhì)序列中的殘基溶劑可及性表面積越大,越有可能與核苷酸發(fā)生反應(yīng)。在本文中,使用ASAquick 工具預(yù)測(cè)蛋白質(zhì)序列中每個(gè)殘基的溶劑可及性表面積,預(yù)測(cè)結(jié)果以1位數(shù)值的形式給出。經(jīng)過(guò)滑動(dòng)窗口處理,該特征值總維數(shù)是1×17=17。

1.3.4 序列特征

根據(jù)蛋白質(zhì)序列中氨基酸的偶極子和側(cè)鏈數(shù)量,通過(guò)one-hot編碼將20種氨基酸分別標(biāo)識(shí),Ala、Gly和Val用0000001表示,Ile、Leu、The和Pro用0000010表示,His、Asn、Gln和Trp用0000100表示,Tyr、Met、Thr 和Ser 用0001000 表示,Arg 和Lys 用0010000 表示,Asp和Glu用0100000表示,Cys用1000000表示,劃分完后的氨基酸編碼特征值共有7維[11]。經(jīng)過(guò)滑動(dòng)窗口處理,該特征值總維數(shù)是7×17=119。

1.3.5 殘基的理化性質(zhì)

本文共用了殘基的支鏈, 分子量, 等電點(diǎn), 羧基解離常數(shù)和氨基解離常數(shù)5種理化性質(zhì)。對(duì)于以上五種理化性質(zhì),首先,根據(jù)殘基的支鏈性質(zhì)差異,可將20種殘基分為疏水性殘基、親水性殘基、堿性殘基、酸性殘基 。使用one-hot編碼來(lái)對(duì)每個(gè)殘基進(jìn)行分類編碼,該特征可用4維的one-hot值分別代表四種不同的殘基類別,0001代表疏水性殘基,0010代表親水性殘基,0100代表堿性殘基,1000代表酸性殘基。

其次,根據(jù)殘基的分子量, 等電點(diǎn), 羧基解離常數(shù), 氨基解離常數(shù)可構(gòu)成4維數(shù)據(jù),每1維數(shù)據(jù)都采用最大最小值歸一化方法進(jìn)行歸一化處理。最大最小值歸一化函數(shù)如下:

其中x 代表殘基的分子量(或等電點(diǎn), 羧基解離常數(shù), 氨基解離常數(shù))的數(shù)值,min 代表殘基的分子量(或等電點(diǎn), 羧基解離常數(shù), 氨基解離常數(shù))數(shù)值的最小值, max 代表殘基的分子量(或等電點(diǎn), 羧基解離常數(shù), 氨基解離常數(shù))數(shù)值的最大值。經(jīng)過(guò)滑動(dòng)窗口處理,該特征值總維數(shù)是8×17=136。

1.3.6 標(biāo)準(zhǔn)輸入數(shù)據(jù)處理

在對(duì)蛋白質(zhì)序列進(jìn)行不同方式的特征提取后,經(jīng)過(guò)滑動(dòng)窗口處理,得到了340維PSSM位置特異性得分矩陣特值、51維蛋白質(zhì)二級(jí)結(jié)構(gòu)特征值、17維溶劑可及性特征值、119維序列特征值和136 維殘基理化性質(zhì)特征值。所有特征值拼接后共663維,為了對(duì)應(yīng)深度卷積網(wǎng)絡(luò)的輸入形式,對(duì)663×1的特征值進(jìn)行數(shù)據(jù)變形處理,得到17×39×1的標(biāo)準(zhǔn)輸入數(shù)據(jù)。

1.4 評(píng)價(jià)指標(biāo)

本文研究的蛋白質(zhì)-ATP綁定位點(diǎn)預(yù)測(cè)是正負(fù)樣本不平衡的二分類問(wèn)題,通過(guò)比較預(yù)測(cè)結(jié)果與真實(shí)標(biāo)簽的數(shù)值,計(jì)算特異性(Specificity) 、敏感性(Sensitiv?ity) 、準(zhǔn)確性(Accuracy) 、馬修斯相關(guān)系數(shù)(MCC) 和ROC曲線下與坐標(biāo)軸圍成的面積(AUC) 共五種評(píng)價(jià)指標(biāo)來(lái)衡量本文提出的蛋白質(zhì)-ATP綁定位點(diǎn)預(yù)測(cè)方法的整體性能。在二分類問(wèn)題中,混淆矩陣可以比較直觀地反映模型性能,混淆矩陣的計(jì)算方法如表1 所示。

本文使用的評(píng)價(jià)指標(biāo),其計(jì)算方法為:

AUC(Area Under Curve) 被定義為ROC曲線與坐標(biāo)軸圍成的面積。ROC曲線不固定閾值,可反映訓(xùn)練模型在全閾值下的情況。由于本文所涉及的是樣本不平衡問(wèn)題,AUC作為一種不依賴閾值的分類指標(biāo),不受到數(shù)據(jù)集正負(fù)樣本比例的影響,能夠更加客觀全面地反映分類器的性能。

2 模型結(jié)構(gòu)與訓(xùn)練

2.1 模型結(jié)構(gòu)

本文采用InceptionV3 和SVM 相結(jié)合的模型結(jié)構(gòu),通過(guò)Inception V3網(wǎng)絡(luò)結(jié)構(gòu)對(duì)輸入數(shù)據(jù)進(jìn)行增維,SVM分類器對(duì)增維后的數(shù)據(jù)進(jìn)行線性分類得到最終的預(yù)測(cè)結(jié)果,整體的模型結(jié)構(gòu)如圖2所示。

數(shù)據(jù)輸入格式是17×39×1的張量,第一層是深度卷積層,由64個(gè)3×3卷積核、32個(gè)2×2卷積核、64個(gè)2×2卷積核、3×3的最大池化層、80個(gè)1×1卷積核、192 個(gè)2×2卷積核與3×3的最大池化層構(gòu)成。第二層是InceptionV3 模塊組,由256 個(gè)輸出節(jié)點(diǎn)的InceptionModule 1、768 個(gè)輸出節(jié)點(diǎn)的Inception Module 2 和2 048個(gè)輸出節(jié)點(diǎn)的Inception Module 3構(gòu)成,以上三種Inception Module的具體架構(gòu)將在后續(xù)進(jìn)行詳細(xì)描述。第三層是數(shù)據(jù)平鋪層,由3×3的平均池化層、保留率為0.5的Dropout層和通道數(shù)為1 000、輸出節(jié)點(diǎn)為2的全連接層組成。第四層是SVM分類層,對(duì)平鋪層處理后的數(shù)據(jù)進(jìn)行二分類,根據(jù)數(shù)據(jù)集中正負(fù)樣本數(shù)量比例計(jì)算得到正負(fù)樣本權(quán)重分別為13.322 和0.519,正負(fù)樣本將乘以相對(duì)應(yīng)的權(quán)重,使得模型在訓(xùn)練過(guò)程中更加關(guān)注權(quán)重更高的正樣本類,最后通過(guò)SVM分類器得出預(yù)測(cè)結(jié)果。

本文通過(guò)將InceptionV3和SVM兩種分類算法進(jìn)行結(jié)合,完成對(duì)蛋白質(zhì)-ATP綁定位點(diǎn)的預(yù)測(cè)任務(wù),下面將分別對(duì)兩種分類算法進(jìn)行簡(jiǎn)要介紹。

2.1.1 InceptionV3網(wǎng)絡(luò)結(jié)構(gòu)

InceptionV3深度卷積網(wǎng)絡(luò)通過(guò)把一個(gè)N×N的大卷積核拆分成多個(gè)1×N、N×1或者M(jìn)×M(M

本文InceptionV3網(wǎng)絡(luò)結(jié)構(gòu)的詳細(xì)參數(shù)如表2所示。Inception V3網(wǎng)絡(luò)結(jié)構(gòu)采用不同大小的卷積核提高數(shù)據(jù)識(shí)別能力,提取更加有效的局部特征,最后的數(shù)據(jù)拼接可以將不同尺度的特征進(jìn)行融合,在改變不同網(wǎng)絡(luò)層結(jié)構(gòu)單一的基礎(chǔ)上,提高了網(wǎng)絡(luò)結(jié)構(gòu)的計(jì)算能力。

其中InceptionV3 模塊組中3 種Inception Module 的網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示,從上到下依次是InceptionModule 1、Inception Module 2和 Inception Module 3。

2.1.2 支持向量機(jī)(Support Vector Machines, SVM)

SVM是一類按監(jiān)督學(xué)習(xí)(supervised learning) 方式對(duì)數(shù)據(jù)進(jìn)行二元分類的廣義線性分類器(generalizedlinear classifier) ,其決策邊界是對(duì)學(xué)習(xí)樣本求解的最大邊距超平面(maximum-margin hyperplane) 。在蛋白質(zhì)-ATP 綁定位點(diǎn)預(yù)測(cè)研究方面,已經(jīng)有很多采用SVM分類器的方法[5-7],并取得了良好的預(yù)測(cè)結(jié)果,但在模型改進(jìn)和方法融合方面仍有待提升。本文通過(guò)Inception V3網(wǎng)絡(luò)結(jié)構(gòu)對(duì)輸入數(shù)據(jù)進(jìn)行增維,將提取到的深層特征作為SVM分類器的輸入,應(yīng)用SVM優(yōu)秀的分類性能,以達(dá)到更好的預(yù)測(cè)效果。使用的SVM 中詳細(xì)參數(shù)如下所示:

對(duì)于邊界點(diǎn)的懲罰系數(shù)C取值為0.8,C越大代表這個(gè)分類器對(duì)在邊界內(nèi)的噪聲點(diǎn)的容忍度越小,分類準(zhǔn)確率高,但是容易過(guò)擬合,泛化能力差。所以一般情況下,適當(dāng)減小C,對(duì)在邊界范圍內(nèi)的噪聲有一定容忍。

由于使用的數(shù)據(jù)集不是線性可分的,需要利用核函數(shù)將數(shù)據(jù)集映射到高維空間,核函數(shù)采用高斯核函數(shù),如公式(7) 所示:

其中x,y 是輸入樣本數(shù)據(jù),γ 是超參數(shù),一般取值為樣本特征數(shù)的倒數(shù),本文取值為0.5,|| x - y ||表示向量的范數(shù),可以理解為向量的模,k 表示兩個(gè)向量之間的關(guān)系,結(jié)果為一個(gè)具體的值。

啟發(fā)式收縮方式shrinking設(shè)置為True,由于SVM 分類器接受的數(shù)據(jù)是經(jīng)過(guò)Inception V3網(wǎng)絡(luò)結(jié)構(gòu)處理后的數(shù)據(jù),能預(yù)知到哪些變量對(duì)應(yīng)著支持向量,在不影響訓(xùn)練結(jié)果的基礎(chǔ)上有助于迅速求解,起到一個(gè)加速訓(xùn)練的效果。停止訓(xùn)練的誤差精度tol 設(shè)置為0.001。預(yù)測(cè)結(jié)果概率probability取值為True,使SVM 分類器以概率值的形式輸出正負(fù)預(yù)測(cè)值,以便于最后的損失函數(shù)更加精確的計(jì)算損失值。

2.2 模型訓(xùn)練

2.2.1 樣本不平衡處理

由于訓(xùn)練集正負(fù)樣本的數(shù)量極不平衡,導(dǎo)致蛋白質(zhì)-ATP綁定位點(diǎn)預(yù)測(cè)成為一類典型的不平衡學(xué)習(xí)問(wèn)題。對(duì)于解決該問(wèn)題的常用方式有上采樣、下采樣、設(shè)定類別權(quán)重(class_weight) 、設(shè)定樣本權(quán)重(sample_weight) 等。上采樣方法是通過(guò)向少數(shù)類的樣本中增加新的樣本的方式實(shí)現(xiàn)正負(fù)樣本平衡,但是新的樣本中可能存在冗余數(shù)據(jù),影響訓(xùn)練準(zhǔn)確性。下采樣方法是從多數(shù)類樣本中選取一些樣本進(jìn)行舍棄,這種方法的缺點(diǎn)是被舍棄的樣本可能包含一些重要信息,致使學(xué)習(xí)出來(lái)的模型效果不好。sample_weight主要解決的是樣本質(zhì)量不同的問(wèn)題,class_weight主要解決數(shù)據(jù)不平衡問(wèn)題。因此本文采用設(shè)定類別權(quán)重的方法,通過(guò)設(shè)定class_weight參數(shù)來(lái)解決訓(xùn)練集正負(fù)樣本不平衡問(wèn)題,在充分利用所有數(shù)據(jù)的基礎(chǔ)上,將不同的類別映射為不同的權(quán)值,該參數(shù)用來(lái)在訓(xùn)練過(guò)程中調(diào)整損失函數(shù)(只用于模型訓(xùn)練過(guò)程)。通過(guò)計(jì)算數(shù)據(jù)集中正負(fù)樣本的數(shù)量比例,得出正負(fù)樣本類別權(quán)重分別為13.322和0.519。該參數(shù)在處理非平衡的訓(xùn)練數(shù)據(jù)(正類的訓(xùn)練樣本數(shù)很少)時(shí),可以使得損失函數(shù)對(duì)樣本數(shù)不足的數(shù)據(jù)更加關(guān)注,從而通過(guò)訓(xùn)練得到更精確的分類模型。

2.2.2 損失函數(shù)

正負(fù)樣本不平衡帶來(lái)的問(wèn)題主要表現(xiàn)為樣本中會(huì)存在大量的易分類樣本,易分類負(fù)樣本在分類器模型訓(xùn)練過(guò)程中對(duì)損失函數(shù)的loss值影響較大,網(wǎng)絡(luò)結(jié)構(gòu)從正樣本數(shù)據(jù)中獲取的信息較少,影響損失函數(shù)的梯度變化方向,無(wú)法對(duì)所有樣本進(jìn)行準(zhǔn)確分類。由于本文研究的蛋白質(zhì)-ATP綁定位點(diǎn)預(yù)測(cè)問(wèn)題是二分類問(wèn)題并且正負(fù)樣本數(shù)量極不平衡,為了使模型在訓(xùn)練時(shí)更多地關(guān)注難分類正樣本,可以使用Focal_ Loss(如公式(8)所示)與平衡交叉熵 balanced cross entropy(如公式(9)所示)相結(jié)合的損失函數(shù),如公式(10)所示,其中p_t和α的定義如公式(11)和公式(12)所示。

其中p 是模型的預(yù)測(cè)值,y 是樣本標(biāo)簽的真實(shí)值,α、γ 是超常,為常數(shù),當(dāng)α=1,γ=0時(shí),F(xiàn)L 和普通交叉熵?fù)p失函數(shù)一致。α 權(quán)重因子的大小決定正負(fù)樣本在損失函數(shù)中的比重,即負(fù)樣本越多,給它的權(quán)重越小,這樣就可以降低負(fù)樣本的影響。

根據(jù)本文數(shù)據(jù)集中正負(fù)樣本比例,α 取值為0.25,圖4展示了當(dāng)α=0.25時(shí),γ 在不同的取值情況下,F(xiàn)L 的函數(shù)圖像。本文通過(guò)多輪實(shí)驗(yàn)對(duì)比,當(dāng)α=0.25,γ<2 時(shí),損失函數(shù)的收斂速度較慢,模型學(xué)習(xí)效率較低;當(dāng)α=0.25,γ>2時(shí),損失函數(shù)的收斂速度較快,loss 值在迭代早期降得太快,訓(xùn)練后期容易過(guò)擬合;當(dāng)α=0.25,γ=2時(shí),損失函數(shù)的收斂效果和模型訓(xùn)練效果最佳。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 InceptionV3 與RondomForest 和SVM 分別結(jié)合的分類架構(gòu)性能對(duì)比

為了驗(yàn)證InceptionV3深度神經(jīng)網(wǎng)絡(luò)模型與不同機(jī)器學(xué)習(xí)算法相結(jié)合的分類架構(gòu)在蛋白質(zhì)-ATP綁定位點(diǎn)預(yù)測(cè)方面的訓(xùn)練泛化效果。本文對(duì)比了Incep?tionV3深度神經(jīng)網(wǎng)絡(luò)模型與支持向量機(jī)(SVM) 和隨機(jī)森林(RondomForest) 分別結(jié)合后的分類架構(gòu)在ATP-388數(shù)據(jù)集上的預(yù)測(cè)性能。采用5折交叉驗(yàn)證方法將ATP-388數(shù)據(jù)集分為訓(xùn)練集和驗(yàn)證集,訓(xùn)練100輪次結(jié)束,以驗(yàn)證集的AUC 值作為第一評(píng)估指標(biāo),選取AUC值最高的一組結(jié)果作為實(shí)驗(yàn)結(jié)果進(jìn)行比較。表3 展示了兩種不同分類架構(gòu)在ATP-388驗(yàn)證集上的預(yù)測(cè)性能。

從表3中可以看出,InceptionV3_SVM分類架構(gòu)在ATP-388 驗(yàn)證集上獲得的AUC 值與MCC 值分別是0.886和0.629,比InceptionV3_RondomForest分類架構(gòu)獲得的AUC(0.885) 與MCC(0.627) 高出0.1% 和0.2%,表明InceptionV3_SVM分類架構(gòu)在ATP-388驗(yàn)證集上的預(yù)測(cè)性能優(yōu)于InceptionV3_RondomForest分類架構(gòu)的預(yù)測(cè)性能,模型泛化能力更好。

3.2 InceptionV3_SVM 分類架構(gòu)與不同卷積網(wǎng)絡(luò)的性能對(duì)比

從表4 中,很容易發(fā)現(xiàn)本文提出的Incep?tionV3_SVM分類架構(gòu)在ATP-388數(shù)據(jù)集上的預(yù)測(cè)性能明顯優(yōu)于普通卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)和InceptionV3深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)的預(yù)測(cè)性能。本文方法在ATP-388驗(yàn)證集上獲得的AUC值與MCC值分別是0.887 和0.632,比普通卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)獲得的AUC(0.816) 與MCC(0.615) 高出7.1% 和1.7%,比InceptionV3深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)獲得的AUC(0.879) 與MCC(0.619) 高出0.8% 和1.3%。從比較結(jié)果上可以看出,本文提出的Incep?tionV3_SVM分類架構(gòu)是一種泛化能力更好,預(yù)測(cè)精度更高的蛋白質(zhì)-ATP綁定位點(diǎn)的分類架構(gòu)。其性能提升的主要來(lái)源在于,傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)全連接層到輸出層間通過(guò)數(shù)據(jù)加權(quán)求和的分類函數(shù)進(jìn)行數(shù)據(jù)降維分類,而本文在全連接層和輸出層之間加入SVM分類器,依靠SVM優(yōu)秀的二分類能力,對(duì)InceptionV3網(wǎng)絡(luò)增維后的數(shù)據(jù)構(gòu)建最優(yōu)分類超平面,提高分類器的預(yù)測(cè)性能,其分類能力要強(qiáng)于直接應(yīng)用全連接層的降維方式。

3.3 本文方法與已有預(yù)測(cè)方法在ATP-41 獨(dú)立測(cè)試集上的實(shí)驗(yàn)結(jié)果比較

由表5中數(shù)據(jù)可知,本文方法在獨(dú)立測(cè)試集的預(yù)測(cè)結(jié)果為:AUC指標(biāo)達(dá)到0.886,通過(guò)選取最佳閾值,Acc指標(biāo)達(dá)到0.972,Spe指標(biāo)達(dá)到0.993,Sen指標(biāo)達(dá)到0.542,Mcc指標(biāo)達(dá)到0.635。在與以往預(yù)測(cè)方法的性能比較中,本文提出的InceptionV3_SVM分類架構(gòu)預(yù)測(cè)方法在主要評(píng)價(jià)指標(biāo)AUC上超過(guò)了其他對(duì)比方法,Acc和Spe指標(biāo)值也達(dá)到了較高水平。Sen和Mcc指標(biāo)值略低于ATPseq方法,但與其他預(yù)測(cè)方法相比具有顯著提升,其主要原因在于,ATPseq 方法使用SSITE和TM-SITE方法的輸出作為一類特征,S-SITE 是一種使用基于模板的序列圖譜檢測(cè)蛋白質(zhì)綁定位點(diǎn)的方法,TM-SITE是一種基于結(jié)構(gòu)模板查詢通用蛋白質(zhì)綁定位點(diǎn)的方法。相比而言,本文方法的特征均來(lái)源于蛋白質(zhì)原始序列信息,在預(yù)測(cè)方法易用性和可行性方面具有優(yōu)勢(shì)。實(shí)驗(yàn)結(jié)果表明本文提出的分類架構(gòu)方法能夠準(zhǔn)確預(yù)測(cè)蛋白質(zhì)-ATP綁定位點(diǎn),且在預(yù)測(cè)性能上相比以往方法具有一定程度的提升。

3.4 獨(dú)立測(cè)試集預(yù)測(cè)樣例結(jié)果分析

為了驗(yàn)證InceptionV3_SVM 分類模型在蛋白質(zhì)-ATP綁定位點(diǎn)預(yù)測(cè)方面的黑盒測(cè)試能力,從ATP-41 獨(dú)立測(cè)試集中選取PDB_ID為3J8Y_K的蛋白質(zhì)序列進(jìn)行樣例分析。通過(guò)對(duì)3J8Y_K蛋白質(zhì)序列進(jìn)行特征提取,用InceptionV3_SVM架構(gòu)分類模型得出的預(yù)測(cè)結(jié)果如圖5所示。其中折線代表InceptionV3_SVM分類模型預(yù)測(cè)出的綁定位點(diǎn)概率值連成的線,虛點(diǎn)直線代表進(jìn)行類別判定時(shí)取值為0.3的閾值,第一行標(biāo)記點(diǎn)代表3J8Y_K蛋白質(zhì)序列中真實(shí)綁定位點(diǎn)的位置標(biāo)簽值,第二行標(biāo)記點(diǎn)代表3J8Y_K蛋白質(zhì)序列在Incep?tionV3_SVM分類模型處理后預(yù)測(cè)的綁定位點(diǎn)位置標(biāo)簽值。

3J8Y_K蛋白質(zhì)序列330個(gè)氨基酸中,有15個(gè)綁定位點(diǎn)和315個(gè)非綁定位點(diǎn)。從圖5中可以看出,通過(guò)InceptionV3_SVM架構(gòu)分類模型預(yù)測(cè)出的結(jié)果中,有14個(gè)綁定位點(diǎn),316個(gè)非綁定位點(diǎn),其中真陽(yáng)性結(jié)果有14個(gè),假陽(yáng)性結(jié)果有0個(gè),真陰性結(jié)果有315個(gè),假陰性結(jié)果有1個(gè)。通過(guò)評(píng)價(jià)指標(biāo)公式進(jìn)行計(jì)算,得出的Acc 指標(biāo)為0.997,Spe 指標(biāo)為1,Sen 指標(biāo)為0.933,Mcc指標(biāo)為0.965。從評(píng)價(jià)指標(biāo)計(jì)算結(jié)果可以看出, InceptionV3_SVM分類模型在進(jìn)行新蛋白質(zhì)綁定位點(diǎn)預(yù)測(cè)時(shí),其模型性能和預(yù)測(cè)結(jié)果都有一定的有效性,該模型表現(xiàn)出較優(yōu)的數(shù)據(jù)識(shí)別能力和數(shù)據(jù)處理能力,可以實(shí)現(xiàn)對(duì)蛋白質(zhì)數(shù)據(jù)庫(kù)中未知蛋白質(zhì)序列的ATP綁定位點(diǎn)進(jìn)行預(yù)測(cè)。

4 討論

本文主要研究了蛋白質(zhì)-ATP 綁定位點(diǎn)預(yù)測(cè)問(wèn)題,首先對(duì)蛋白質(zhì)序列進(jìn)行特征提取獲得標(biāo)準(zhǔn)輸入張量,通過(guò)設(shè)定class_weight參數(shù)解決訓(xùn)練集正負(fù)樣本不平衡問(wèn)題,然后基于InceptionV3卷積神經(jīng)網(wǎng)絡(luò)模型和SVM分類器提出InceptionV3_SVM分類架構(gòu),用以識(shí)別蛋白質(zhì)-ATP綁定位點(diǎn)。實(shí)驗(yàn)結(jié)果表明本文提出的方法具有良好的預(yù)測(cè)性能,對(duì)于蛋白質(zhì)-ATP綁定位點(diǎn)預(yù)測(cè)、蛋白質(zhì)功能探索、生物醫(yī)學(xué)和藥物研發(fā)等相關(guān)領(lǐng)域的研究具有推動(dòng)作用。

參考文獻(xiàn):

[1] 楊榮武.分子生物學(xué)[M].2版.南京:南京大學(xué)出版社,2017.

[2] BECK J,NASSAL M.Hepatitis B virus replication[J].World Jour?nal of Gastroenterology,2007,13(1):48-64.

[3] SCAGGIANTE B,KAZEMI M,POZZATO G,et al.Novel hepato?cellular carcinoma molecules with prognostic and therapeutic?potentials[J].World Journal of Gastroenterology,2014,20(5):1268-1288.

[4] CHEN H B,GU Z J,AN H W,et al.Precise nano?medicine for intelligent therapy of cancer[J].Sci?ence China Chemistry,2018,61(12):1503-1552.

[5] CHEN K,MIZIANTY M J,KURGAN L.ATPsite:sequence-based prediction of ATP-binding residues[J].Proteome Science,2011,9(Suppl 1):S4.

[6] 石大宏.基于序列的蛋白質(zhì)—核苷酸綁定位點(diǎn)預(yù)測(cè)研究[D].南京:南京理工大學(xué),2015:22-34.

[7] 余健浩,孫廷凱.基于隨機(jī)下采樣和SVR的蛋白質(zhì)-ATP綁定位點(diǎn)預(yù)測(cè)[J].現(xiàn)代電子技術(shù),2015,38(4):19-24.

[8] SONG J Z,LIU G X,SONG C Y,et al.A novel sequence-based?prediction method for ATP-binding sites using fusion of?SMOTE algorithm and random forests classifier[J].Biotechnol?ogy & Biotechnological Equipment,2020,34(1):1336-1346.

[9] 郭麗萍.基于深度學(xué)習(xí)的蛋白質(zhì)-ATP綁定位點(diǎn)預(yù)測(cè)研究[D].長(zhǎng)春:東北師范大學(xué),2019:21-40.

[10] 張?jiān)ⅲ稏|軍.基于一維卷積神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)-ATP綁定位點(diǎn)預(yù)測(cè)[J].計(jì)算機(jī)應(yīng)用,2019,39(11):3146-3150.

[11] 劉桂霞,裴志堯,宋佳智.基于深度學(xué)習(xí)的蛋白質(zhì)-ATP結(jié)合位點(diǎn)預(yù)測(cè)[J].吉林大學(xué)學(xué)報(bào)(工學(xué)版),2022,52(1):187-194.

[12] HU J,LI Y,ZHANG Y,et al.ATPbind:accurate protein-ATP binding site prediction by combining sequence-profiling and structure-based comparisons[J].Journal of Chemical Informa?tion and Modeling,2018,58(2):501-510.

【通聯(lián)編輯:李雅琪】

基金項(xiàng)目:國(guó)家自然科學(xué)基金(項(xiàng)目編號(hào):62162050) ;內(nèi)蒙古民族大學(xué)博士科研啟動(dòng)基金項(xiàng)目(項(xiàng)目編號(hào):KYQD23006) ;三亞學(xué)院中青年教師(科研類)培養(yǎng)項(xiàng)目(項(xiàng)目編號(hào):USYJSPY24-52)

猜你喜歡
特征提取
特征提取和最小二乘支持向量機(jī)的水下目標(biāo)識(shí)別
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
基于DNN的低資源語(yǔ)音識(shí)別特征提取技術(shù)
Bagging RCSP腦電特征提取算法
一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
基于DSP的直線特征提取算法
基于改進(jìn)WLD的紋理特征提取方法
淺析零件圖像的特征提取和識(shí)別方法
基于CATIA的橡皮囊成形零件的特征提取
主站蜘蛛池模板: 欧美啪啪视频免码| 无码丝袜人妻| 亚洲欧洲日产国码无码av喷潮| 国产精品2| 91色在线观看| 成人午夜亚洲影视在线观看| 国产农村妇女精品一二区| 日韩高清欧美| 亚洲无码高清视频在线观看| 在线无码私拍| 婷婷亚洲视频| a级毛片免费网站| 在线看片免费人成视久网下载| 麻豆精品在线视频| 久草视频一区| 国产一级做美女做受视频| 国产日本视频91| 欧美亚洲欧美区| 9cao视频精品| 欧美翘臀一区二区三区| 91精品国产无线乱码在线| 粉嫩国产白浆在线观看| 91区国产福利在线观看午夜| 9丨情侣偷在线精品国产| 国产福利不卡视频| 69精品在线观看| 青青草a国产免费观看| 色悠久久久久久久综合网伊人| 国产成人久视频免费| 无码免费试看| 幺女国产一级毛片| 国产草草影院18成年视频| 亚洲精品视频免费| 精品福利网| 国产美女视频黄a视频全免费网站| 国产精品2| 色综合天天综合中文网| 国产精品毛片一区视频播| 婷婷色婷婷| 国产午夜看片| 国产美女无遮挡免费视频| 亚洲精品少妇熟女| 国产99视频精品免费视频7| 亚洲热线99精品视频| 欧美激情视频在线观看一区| 久久综合婷婷| 国产精品冒白浆免费视频| 一本一道波多野结衣av黑人在线| 亚洲婷婷在线视频| 国产微拍一区| 国产又大又粗又猛又爽的视频| 亚洲av无码片一区二区三区| 国产手机在线小视频免费观看| 欧美亚洲欧美区| 五月丁香伊人啪啪手机免费观看| 丰满人妻一区二区三区视频| 欧美伊人色综合久久天天| 欧美国产综合视频| 色婷婷狠狠干| 青草国产在线视频| 国产免费怡红院视频| 亚洲无码91视频| 2021国产乱人伦在线播放| 色综合中文| 99视频在线精品免费观看6| 996免费视频国产在线播放| 中美日韩在线网免费毛片视频| 中文字幕资源站| 网友自拍视频精品区| 乱人伦中文视频在线观看免费| 999精品色在线观看| 五月婷婷伊人网| 国产日韩精品一区在线不卡| 九九免费观看全部免费视频| 国产丝袜无码一区二区视频| 成人在线观看不卡| 五月婷婷精品| 国产亚洲精品91| 亚洲妓女综合网995久久| 欧美一级夜夜爽www| 亚洲天堂成人在线观看| 中文字幕 91|