賀興時,李 錦,梁蕓蕓
(西安工程大學 理學院,陜西 西安 710048)
高血壓作為最普遍的慢性疾病,影響著全球1/4以上的人口[1],高血壓與心力衰竭、腎衰竭等一系列的疾病有關[2]。越來越多的人們遭受高血壓的困擾,雖然有α和β受體阻滯劑、利尿劑和腎素抑制劑等新的藥物,但這些藥物都有血管性水腫、腹瀉、皮疹等不同程度的副作用。因此,為減少或消除與高血壓相關的病痛,研發更安全、副作用小,可有效抑制高血壓的藥物意義重大。
深度學習[3]是機器學習中的一種新興技術,近年來已廣泛應用于生物信息學的研究[4-5]。基于計算方法的抗高血壓肽識別利用統計分析、數據挖掘方法提取蛋白質的序列信息,并通過機器學習算法來識別預測。WANG等提出了一種通過偏最小二乘回歸方法識別蛋白質的預測模型[6]。KUMAR等設計了基于氨基酸組分、原子組成和化學描述的模型,該模型使用支持向量機對多肽進行預測[7]。WIN等提出了采用隨機森林結合多種計算方法預測AHTPs 的PAAP模型[8]。MANAVALAN等構建了采用8種特征提取方法和集成分類器預測AHTPs 的mAHTPred模型[9]。ZHUANG等提出了基于預處理編碼算法和卷積神經網絡捕獲抗AHTPs特征的模型[10]。SHI等提出一種新的AHTPs識別預測模型,該模型采用5種方法進行特征提取,合并卷積神經網絡和門控循環單元(gated recurrent units,GRU)為分類器對AHTPs進行預測[11]。但這些模型存在識別精度低、過預測等缺點。
本文基于深度學習構建iAHTPs-BiGRU的AHTPs識別模型。采用多源特征提取方法從不同維度提取肽序列的信息,包括新增強分組氨基酸組分(NEGAAC)、約簡的二肽組分(RDPC)、二肽頻率與預期平均值之間的偏差(DDE)、氨基酸理化性質的距離變換(AAP-DT)和BLOSUM62編碼,并將得到的特征信息輸入到雙向門控循環單元(BiGRU)中,識別蛋白質序列是否是抗高血壓肽,并采用10-折交叉驗證對基準數據集和獨立數據集進行性能評估。
為了開發預測模型,方便與其他識別模型進行比較,采用構建的基準數據集和獨立數據集[7]。正樣本使用KUMAR等構造的抗高血壓肽非冗基準余數據集[5],數據集中的所有序列均從數據庫AHTPDB[12]和BIOPEP[13]得到,且都是經實驗驗證的正樣本序列。因為較短的序列難以生成有用的信息特征,所以刪除長度小于5個氨基酸殘基的肽序列,剩余913條肽序列作為基準數據集的正樣本。然后從Swiss-Prot中選擇913條隨機肽作為負樣本。獨立數據集是從AHTPDB和BIOPEP數據庫中通過人工提取實驗驗證的正樣本。此外,負樣本仍然是從Swiss-Prot中隨機肽產生。應用CD-HIT[14]刪除獨立數據集中與基準數據集中的序列一致度大于90%的序列,得到386個正樣本和386個負樣本。
在基準數據集和獨立數據集中,小肽、中肽和大肽等肽序列的大小不同,但是在特征提取部分,部分方法需要相同長度的肽序列。為使肽序列信息保持完整,根據最長肽序列的長度采用虛擬氨基酸“X”補齊所有序列。
1.2.1 NEGAAC方法
EGAAC將20種氨基酸分為5組[15],并已應用于病毒翻譯后修飾位點預測[16]、賴氨酸琥珀酰化位點預測[17]。本文采用新的分組方法對EGAAC方法進行改進,將20種氨基酸根據親疏水性分為6組[18],提出NEGAAC方法。新的分組為m1:R, D, E, N, Q, K, H;m2:L, I, V, A, M, F;m3:S, T, Y, W;m4:P;m5:G;m6:C。
使用滑動窗口n沿著序列進行掃描,NEGAAC計算公式為
式中:R(m,n)為基于NEGAAC的肽序列特征;W(m,n)為滑動窗口n中第m組氨基酸的數量;L為肽序列長度。通過式(1)得到(L-n+1)×6維的特征信息。
1.2.2 RDPC特征提取
RDPC是一種有效的特征提取方法,已應用于抗癌肽的識別[19]。根據氨基酸化學結構和極性將氨基酸分為r1:A, G, I, L, M, V;r2:F, W, Y;r3:H, K, R;r4:D, E;r5:C, N, P, Q, S, T等5組,即
(2)
式中:hi(i=1,2,…,25)為二肽出現的概率;ci為二肽的出現次數。
1.2.3 DDE特征表現
DDE特征表示方法[20]是將肽序列轉化為數值信息,已廣泛應用于蛋白質翻譯后的修飾位點[21]的預測。主要步驟如下:
第一步:計算蛋白質序列二肽組分(D),計算公式為
(3)
式中:D(b,d)為氨基酸的二肽組分;wbd為氨基酸對b,d的數量。
第二步:計算肽序列的理論均值(M)和理論方差(V),計算公式為
(4)
(5)
式中:M(b,d)為肽序列的理論均值;V(b,d)為肽序列的理論方差;Ab和Ad分別為第1個氨基酸和第2個氨基酸的密碼子數;Aw為氨基酸密碼子的總數。
第三步:由D、M、V計算肽序列的DDE,計算公式為
(6)
式中:PDDE為基于DDE的肽序列特征。
1.2.4 AAP-DT特征方法
根據氨基酸的9種理化性質[22]將肽序列轉換為數值序列。對物理化學性質的值進行標準化,基于標準化之后的數據,將每個肽序列轉換為一個性質矩陣(A),即
A=(ai,j)L×9
(7)
式中:ai,j為第i個氨基酸的第j個理化性質的值。最后根據距離變換方法將理化性質矩陣轉換為肽序列的特征,即
(8)
式中:PAAP-DT為基于AAP-DT方法的氨基酸特征;j1與j2為2種理化性質。根據肽序列的長度,設ε的最大值為10。
1.2.5 BLOSUM62編碼
蛋白質替換計分矩陣BLOSUM是計算氨基酸之間的替換相對頻率和概率,反映肽序列的進化信息,BLOSUM62由一致度大于62%的序列計算得到,已應用于原核生物賴氨酸乙酰化預測[23]、肽識別[24]等領域。基于BLOSUM62矩陣,每個氨基酸可編碼為20維的特征向量。
為準確識別AHTPs,采用深度學習構建一個具有混合架構的神經網絡。BiGRU神經網絡包含輸入層、BiGRU[25]、全連接層、dropout層和輸出層,將數字信息矩陣輸入到神經網絡中。
BiGRU由前向學習和后向學習2層GRU[26]組成,故在BiGRU(記為XBiGRU)中,t時刻的隱藏狀態,即
(9)

本文共設置3層BiGRU,每層的神經元個數分別為32、16和8。經過BiGRU網絡得到輸入矩陣的高級特征,隨后將這些特征輸入到全鏈接層進一步判別。同時為了避免過擬合,在每層的BiGRU網絡中引入Dropout[27]機制,Dropout以一定的概率刪除部分神經元。模型中全連接層的神經元個數分別為32、16和16,加入Dropout層提高了模型整體的泛化能力,Dropout層的參數設為0.1。全鏈接層為正向和反向傳播,用于不斷迭代更新參數和計算輸出結果。采用校正線性單元[28]作為激活函數,整個網絡中使用Adam[29]算法進行優化。Softmax函數以概率的形式表示分類結果,故輸出層使用Softmax函數計算最終輸出。
為證明所構建的識別模型的有效性,采用10-折交叉驗證方法進行性能評估并輸出敏感度(Sn)、特異度(Sp)、準確度(Acc)、馬修相關系數(CMC)4個評價指標,即
(10)
(11)
(12)
-1≤CMC≤1
(13)

在NEGAAC中,滑動窗口n值分別取2、3、4、5、6、7、8,計算2組數據集的識別精度,不同n值的精確度如圖1所示。當n=5時,基準數據集和獨立數據集的識別度達到84.37%和94.65%,因此最優參數n取5。

圖 1 不同n值的精確度Fig.1 Accuracy of different n value
為避免所得到的特征信息過于簡單,使用 NEGAAC、RDPC、 DDE、AAP-DT和BLOSUM62編碼從氨基酸的理化性質和進化信息等角度表達肽序列的有效信息。為體現每個特征提取方法的識別性能,不同特征組的識別精確度結果如圖2所示。

圖 2 不同特征組的識別精確度Fig.2 Accuracy of different feature groups
從圖2可以看出,在基準數據集中,單個特征組的識別精確度在68.63%~87.47%之間,拼接后的特征其識別準確度也達到96.78%。在獨立數據集中,單個特征組的識別精確度在75.95%~96.66%之間,拼接后的特征其識別準確度達到96.78%。說明針對本文所使用的數據集,該方法識別抗高血壓肽的效果相對較好,且提取的特征比單一特征識別性能更高。
對于NEGAAC特征提取方法,改進后的精確度分別達到84.37%和96.65%,比改進前分別高2.68%和2.85%,表明由NEGAAC提取出的特征更有效,更加具有識別性。
為了有效識別AHTPs,構建基于深度學習的iAHTPs-BiGRU識別模型,iAHTPs-BiGRU模型基于多源特征和深度學習對肽序列進行識別,得到了滿意的結果。分類器是預測模型中的關鍵部分,選擇不同的分類器對模型的最終輸出影響較大。為選擇最合適的分類器,選擇9種有代表性的分類學習算法與BiGRU進行比較,其中XGboost、LGBM、ET、RF、GBDT為機器學習算法,LSTM、CNN、GRU、DNN等4種為深度學習算法,模型識別性能及不同分類器的比較見表1。

表 1 模型識別性能及不同分類器的比較
從表1可以看出,基于10-折交叉驗證,在基準數據集上,評價指標A、Sn、Sp、CMC分別達到96.78%、97.06%、96.48%、93.60%。在獨立數據集上,評價指標A、Sn、Sp、CMC分別達到98.72%、97.95%、99.49%、97.51%,評價指標的值都相對較高,表明iAHTPs-BiGRU模型對于識別預測AHTPs具有較好的效果。基于10-折交叉驗證,BiGRU在基準數據集和獨立數據集上的識別準確率分別超過其他分類器3.34%~34.89%和0.5%~13.33%,同時Sn和Sp的值相較于其他分類器也有明顯的提高,進一步說明iAHTPs-BiGRU模型所使用的分類器識別性能相對較高。
為了更加準確、公正地評價iAHTPs-BiGRU識別模型的性能,將iAHTPs-BiGRU模型性能與AHTpin_AAC[7]、 AHTpin_ATC[7]、 PAAP[8]、mAHTPred[9]、SHI等[11]5個識別模型在相同的數據集中進行比較,不同模型的精確度如圖3所示。

圖 3 不同模型的精確度Fig.3 Accuracy comparison of different models
從圖3可以看出,在基準數據集上,iAHTPs-BiGRU模型的識別準確度超出其他5個模型0.55%~18.72%;在獨立數據集上,雖然比SHI等的模型識別精度低0.38%,但可以降低過擬合現象使泛化能力更強,進一步表明iAHTPs-BiGRU模型是一個有效的、可遷移性強的識別工具。
1) 由NEGAAC、RDPC、 DDE、AAP-DT和BLOSUM62編碼等5個特征提取方法組成的多源特征信息充分表達了序列信息,提高了識別效果。
2) 基于深度學習的BiGRU算法利用多層的結構表示特征信息中的抽象特征,預測效果優良。