999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多源特征和雙向門控循環單元的抗高血壓肽識別

2023-07-28 04:20:52賀興時梁蕓蕓
西安工程大學學報 2023年3期
關鍵詞:精確度特征提取特征

賀興時,李 錦,梁蕓蕓

(西安工程大學 理學院,陜西 西安 710048)

0 引 言

高血壓作為最普遍的慢性疾病,影響著全球1/4以上的人口[1],高血壓與心力衰竭、腎衰竭等一系列的疾病有關[2]。越來越多的人們遭受高血壓的困擾,雖然有α和β受體阻滯劑、利尿劑和腎素抑制劑等新的藥物,但這些藥物都有血管性水腫、腹瀉、皮疹等不同程度的副作用。因此,為減少或消除與高血壓相關的病痛,研發更安全、副作用小,可有效抑制高血壓的藥物意義重大。

深度學習[3]是機器學習中的一種新興技術,近年來已廣泛應用于生物信息學的研究[4-5]。基于計算方法的抗高血壓肽識別利用統計分析、數據挖掘方法提取蛋白質的序列信息,并通過機器學習算法來識別預測。WANG等提出了一種通過偏最小二乘回歸方法識別蛋白質的預測模型[6]。KUMAR等設計了基于氨基酸組分、原子組成和化學描述的模型,該模型使用支持向量機對多肽進行預測[7]。WIN等提出了采用隨機森林結合多種計算方法預測AHTPs 的PAAP模型[8]。MANAVALAN等構建了采用8種特征提取方法和集成分類器預測AHTPs 的mAHTPred模型[9]。ZHUANG等提出了基于預處理編碼算法和卷積神經網絡捕獲抗AHTPs特征的模型[10]。SHI等提出一種新的AHTPs識別預測模型,該模型采用5種方法進行特征提取,合并卷積神經網絡和門控循環單元(gated recurrent units,GRU)為分類器對AHTPs進行預測[11]。但這些模型存在識別精度低、過預測等缺點。

本文基于深度學習構建iAHTPs-BiGRU的AHTPs識別模型。采用多源特征提取方法從不同維度提取肽序列的信息,包括新增強分組氨基酸組分(NEGAAC)、約簡的二肽組分(RDPC)、二肽頻率與預期平均值之間的偏差(DDE)、氨基酸理化性質的距離變換(AAP-DT)和BLOSUM62編碼,并將得到的特征信息輸入到雙向門控循環單元(BiGRU)中,識別蛋白質序列是否是抗高血壓肽,并采用10-折交叉驗證對基準數據集和獨立數據集進行性能評估。

1 實 驗

1.1 數據集

為了開發預測模型,方便與其他識別模型進行比較,采用構建的基準數據集和獨立數據集[7]。正樣本使用KUMAR等構造的抗高血壓肽非冗基準余數據集[5],數據集中的所有序列均從數據庫AHTPDB[12]和BIOPEP[13]得到,且都是經實驗驗證的正樣本序列。因為較短的序列難以生成有用的信息特征,所以刪除長度小于5個氨基酸殘基的肽序列,剩余913條肽序列作為基準數據集的正樣本。然后從Swiss-Prot中選擇913條隨機肽作為負樣本。獨立數據集是從AHTPDB和BIOPEP數據庫中通過人工提取實驗驗證的正樣本。此外,負樣本仍然是從Swiss-Prot中隨機肽產生。應用CD-HIT[14]刪除獨立數據集中與基準數據集中的序列一致度大于90%的序列,得到386個正樣本和386個負樣本。

1.2 特征提取方法

在基準數據集和獨立數據集中,小肽、中肽和大肽等肽序列的大小不同,但是在特征提取部分,部分方法需要相同長度的肽序列。為使肽序列信息保持完整,根據最長肽序列的長度采用虛擬氨基酸“X”補齊所有序列。

1.2.1 NEGAAC方法

EGAAC將20種氨基酸分為5組[15],并已應用于病毒翻譯后修飾位點預測[16]、賴氨酸琥珀酰化位點預測[17]。本文采用新的分組方法對EGAAC方法進行改進,將20種氨基酸根據親疏水性分為6組[18],提出NEGAAC方法。新的分組為m1:R, D, E, N, Q, K, H;m2:L, I, V, A, M, F;m3:S, T, Y, W;m4:P;m5:G;m6:C。

使用滑動窗口n沿著序列進行掃描,NEGAAC計算公式為

式中:R(m,n)為基于NEGAAC的肽序列特征;W(m,n)為滑動窗口n中第m組氨基酸的數量;L為肽序列長度。通過式(1)得到(L-n+1)×6維的特征信息。

1.2.2 RDPC特征提取

RDPC是一種有效的特征提取方法,已應用于抗癌肽的識別[19]。根據氨基酸化學結構和極性將氨基酸分為r1:A, G, I, L, M, V;r2:F, W, Y;r3:H, K, R;r4:D, E;r5:C, N, P, Q, S, T等5組,即

(2)

式中:hi(i=1,2,…,25)為二肽出現的概率;ci為二肽的出現次數。

1.2.3 DDE特征表現

DDE特征表示方法[20]是將肽序列轉化為數值信息,已廣泛應用于蛋白質翻譯后的修飾位點[21]的預測。主要步驟如下:

第一步:計算蛋白質序列二肽組分(D),計算公式為

(3)

式中:D(b,d)為氨基酸的二肽組分;wbd為氨基酸對b,d的數量。

第二步:計算肽序列的理論均值(M)和理論方差(V),計算公式為

(4)

(5)

式中:M(b,d)為肽序列的理論均值;V(b,d)為肽序列的理論方差;Ab和Ad分別為第1個氨基酸和第2個氨基酸的密碼子數;Aw為氨基酸密碼子的總數。

第三步:由D、M、V計算肽序列的DDE,計算公式為

(6)

式中:PDDE為基于DDE的肽序列特征。

1.2.4 AAP-DT特征方法

根據氨基酸的9種理化性質[22]將肽序列轉換為數值序列。對物理化學性質的值進行標準化,基于標準化之后的數據,將每個肽序列轉換為一個性質矩陣(A),即

A=(ai,j)L×9

(7)

式中:ai,j為第i個氨基酸的第j個理化性質的值。最后根據距離變換方法將理化性質矩陣轉換為肽序列的特征,即

(8)

式中:PAAP-DT為基于AAP-DT方法的氨基酸特征;j1與j2為2種理化性質。根據肽序列的長度,設ε的最大值為10。

1.2.5 BLOSUM62編碼

蛋白質替換計分矩陣BLOSUM是計算氨基酸之間的替換相對頻率和概率,反映肽序列的進化信息,BLOSUM62由一致度大于62%的序列計算得到,已應用于原核生物賴氨酸乙酰化預測[23]、肽識別[24]等領域。基于BLOSUM62矩陣,每個氨基酸可編碼為20維的特征向量。

1.3 BiGRU神經網絡

為準確識別AHTPs,采用深度學習構建一個具有混合架構的神經網絡。BiGRU神經網絡包含輸入層、BiGRU[25]、全連接層、dropout層和輸出層,將數字信息矩陣輸入到神經網絡中。

BiGRU由前向學習和后向學習2層GRU[26]組成,故在BiGRU(記為XBiGRU)中,t時刻的隱藏狀態,即

(9)

本文共設置3層BiGRU,每層的神經元個數分別為32、16和8。經過BiGRU網絡得到輸入矩陣的高級特征,隨后將這些特征輸入到全鏈接層進一步判別。同時為了避免過擬合,在每層的BiGRU網絡中引入Dropout[27]機制,Dropout以一定的概率刪除部分神經元。模型中全連接層的神經元個數分別為32、16和16,加入Dropout層提高了模型整體的泛化能力,Dropout層的參數設為0.1。全鏈接層為正向和反向傳播,用于不斷迭代更新參數和計算輸出結果。采用校正線性單元[28]作為激活函數,整個網絡中使用Adam[29]算法進行優化。Softmax函數以概率的形式表示分類結果,故輸出層使用Softmax函數計算最終輸出。

1.4 模型評估

為證明所構建的識別模型的有效性,采用10-折交叉驗證方法進行性能評估并輸出敏感度(Sn)、特異度(Sp)、準確度(Acc)、馬修相關系數(CMC)4個評價指標,即

(10)

(11)

(12)

-1≤CMC≤1

(13)

2 結果和討論

2.1 NEGAAC中滑動窗口n的取值

在NEGAAC中,滑動窗口n值分別取2、3、4、5、6、7、8,計算2組數據集的識別精度,不同n值的精確度如圖1所示。當n=5時,基準數據集和獨立數據集的識別度達到84.37%和94.65%,因此最優參數n取5。

圖 1 不同n值的精確度Fig.1 Accuracy of different n value

2.2 特征提取方法

為避免所得到的特征信息過于簡單,使用 NEGAAC、RDPC、 DDE、AAP-DT和BLOSUM62編碼從氨基酸的理化性質和進化信息等角度表達肽序列的有效信息。為體現每個特征提取方法的識別性能,不同特征組的識別精確度結果如圖2所示。

圖 2 不同特征組的識別精確度Fig.2 Accuracy of different feature groups

從圖2可以看出,在基準數據集中,單個特征組的識別精確度在68.63%~87.47%之間,拼接后的特征其識別準確度也達到96.78%。在獨立數據集中,單個特征組的識別精確度在75.95%~96.66%之間,拼接后的特征其識別準確度達到96.78%。說明針對本文所使用的數據集,該方法識別抗高血壓肽的效果相對較好,且提取的特征比單一特征識別性能更高。

對于NEGAAC特征提取方法,改進后的精確度分別達到84.37%和96.65%,比改進前分別高2.68%和2.85%,表明由NEGAAC提取出的特征更有效,更加具有識別性。

2.3 模型識別性能及不同分類器的比較

為了有效識別AHTPs,構建基于深度學習的iAHTPs-BiGRU識別模型,iAHTPs-BiGRU模型基于多源特征和深度學習對肽序列進行識別,得到了滿意的結果。分類器是預測模型中的關鍵部分,選擇不同的分類器對模型的最終輸出影響較大。為選擇最合適的分類器,選擇9種有代表性的分類學習算法與BiGRU進行比較,其中XGboost、LGBM、ET、RF、GBDT為機器學習算法,LSTM、CNN、GRU、DNN等4種為深度學習算法,模型識別性能及不同分類器的比較見表1。

表 1 模型識別性能及不同分類器的比較

從表1可以看出,基于10-折交叉驗證,在基準數據集上,評價指標A、Sn、Sp、CMC分別達到96.78%、97.06%、96.48%、93.60%。在獨立數據集上,評價指標A、Sn、Sp、CMC分別達到98.72%、97.95%、99.49%、97.51%,評價指標的值都相對較高,表明iAHTPs-BiGRU模型對于識別預測AHTPs具有較好的效果。基于10-折交叉驗證,BiGRU在基準數據集和獨立數據集上的識別準確率分別超過其他分類器3.34%~34.89%和0.5%~13.33%,同時Sn和Sp的值相較于其他分類器也有明顯的提高,進一步說明iAHTPs-BiGRU模型所使用的分類器識別性能相對較高。

2.4 識別模型性能比較

為了更加準確、公正地評價iAHTPs-BiGRU識別模型的性能,將iAHTPs-BiGRU模型性能與AHTpin_AAC[7]、 AHTpin_ATC[7]、 PAAP[8]、mAHTPred[9]、SHI等[11]5個識別模型在相同的數據集中進行比較,不同模型的精確度如圖3所示。

圖 3 不同模型的精確度Fig.3 Accuracy comparison of different models

從圖3可以看出,在基準數據集上,iAHTPs-BiGRU模型的識別準確度超出其他5個模型0.55%~18.72%;在獨立數據集上,雖然比SHI等的模型識別精度低0.38%,但可以降低過擬合現象使泛化能力更強,進一步表明iAHTPs-BiGRU模型是一個有效的、可遷移性強的識別工具。

3 結 論

1) 由NEGAAC、RDPC、 DDE、AAP-DT和BLOSUM62編碼等5個特征提取方法組成的多源特征信息充分表達了序列信息,提高了識別效果。

2) 基于深度學習的BiGRU算法利用多層的結構表示特征信息中的抽象特征,預測效果優良。

猜你喜歡
精確度特征提取特征
“硬核”定位系統入駐兗礦集團,精確度以厘米計算
如何表達“特征”
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于MED和循環域解調的多故障特征提取
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
易錯題突破:提高語言精確度
Walsh變換在滾動軸承早期故障特征提取中的應用
軸承(2010年2期)2010-07-28 02:26:12
主站蜘蛛池模板: 黄色网站在线观看无码| 国产亚洲一区二区三区在线| 国产精品偷伦视频免费观看国产| 天堂av综合网| 色亚洲激情综合精品无码视频| 欧美成人午夜视频免看| 高清视频一区| 老司机久久99久久精品播放| 久久久久夜色精品波多野结衣| www.精品国产| 久久久久88色偷偷| www.亚洲天堂| 国产尤物jk自慰制服喷水| 国产青榴视频在线观看网站| 99久久婷婷国产综合精| 日韩免费无码人妻系列| 国产av无码日韩av无码网站| 亚洲国产欧美自拍| 欧美一区福利| 国产精品免费p区| 在线观看欧美精品二区| 国产精品无码一二三视频| 91视频99| 99久久成人国产精品免费| 国产成人麻豆精品| 国产经典免费播放视频| www.狠狠| 她的性爱视频| 国产精品区网红主播在线观看| 日本高清成本人视频一区| 国产91精选在线观看| 国产在线高清一级毛片| 欧美啪啪精品| 欧美一级视频免费| 99久久免费精品特色大片| 亚洲免费毛片| 亚洲大尺码专区影院| 欧美一级高清免费a| 国产激情第一页| 无码国内精品人妻少妇蜜桃视频| 国产噜噜噜视频在线观看| 在线观看免费国产| 欧美视频在线观看第一页| 在线色国产| 久久国产精品娇妻素人| 国产人人乐人人爱| 九九线精品视频在线观看| 911亚洲精品| 国产乱人激情H在线观看| 青青草原国产一区二区| 日本免费新一区视频| 婷婷色一二三区波多野衣| 女人毛片a级大学毛片免费| 久久精品66| 91在线精品免费免费播放| 日本免费一级视频| 亚洲成年人网| 国产日韩欧美在线播放| 欧美日韩成人| 夜夜爽免费视频| 久久99国产综合精品女同| 成人在线观看一区| 国产欧美日韩免费| 精品久久久久久中文字幕女| 丰满的少妇人妻无码区| 国产高潮视频在线观看| 美女亚洲一区| 国产精品欧美激情| 国产一级裸网站| 亚洲码在线中文在线观看| 久久99国产综合精品1| 欧美在线国产| 国产成人精品在线| 亚洲精品在线观看91| 国产精品嫩草影院av| 97se亚洲综合| 国产爽歪歪免费视频在线观看| 日韩黄色大片免费看| 国产在线高清一级毛片| A级全黄试看30分钟小视频| 特级毛片免费视频| 欧美精品H在线播放|