基于特征融合的DNA- 蛋白質結合位點預測

2020-06-28 14:20:40薛廣富

科學技術創新 2020年16期

薛廣富

（景德鎮陶瓷大學，江西景德鎮333000）

1 概述

蛋白質與DNA 的相互作用是分子生物學的核心問題之一，在基因調控、轉錄、DNA 復制和DNA 修復等一系列基生命物活動中發揮著重要作用[1]。了解DNA 結合殘基的結合特異性和親和力不僅有助于理解蛋白質-DNA 復合物的識別機制，還可以為蛋白質功能注釋提供線索[2]。

為了了解蛋白質-DNA 復合物的識別機理，研究者往往將研究重點放在蛋白質-DNA 結合位點，特別是與DNA 結合的殘基上。例如電泳移動性測定分析（EMSAs），常規染色質免疫沉淀（ChIP）等。然而這些實驗方法既耗時又昂貴，隨著大量的蛋白質序列數據的可用，迫切需要開發從蛋白質序列中識別DNA- 蛋白質結合位點的計算方法。

現如今，DNA 和蛋白質相互作用的機理尚未明確，因此使用生物信息學的方法從海量的蛋白質序列中提取有用的信息,并解釋DNA 和蛋白質相互作用的機理不失為有效的途徑[3]。盡管已經進行了大量研究，但是準確識別蛋白質-DNA 結合位點的問題仍然有很大的改進空間。由于蛋白質中與DNA 結合的和非結合的氨基酸殘基數量極不平衡，因此存在訓練樣本不平衡的問題，這將導致模型在預測時的過度擬合從而導致較差的性能[4]。

2 數據集和特征提取方法

2.1 數據集。為了測試特征提取方法的有效性，使用了PDNA-224 蛋白質序列數據集。它包括224 個蛋白質序列，并以25%的序列相似性作為指標，去除了任意兩個序列之間的冗余度。該數據集中有3778 個DNA 結合位點和53570 個非DNA 結合位點。

2.2 特征提取。使用兩種特征提取方法：位置特異性打分矩陣（Position Specific Scoring Matrix，PSSM）以及獨熱（One-hot）編碼來提取每個蛋白質序列的特征。同時采用滑窗的方法分割序列的特征矩陣。

通過設定固定大小的滑窗大小K，可以把長短不一的氨基酸序列分割成固定的長度。滑窗的中心位置作為靶點，從第一個氨基酸開始，將其作為靶點，則左邊周期性補齊末端的氨基酸序列，從而得到一個長度為K 的氨基酸序列。由此，一個長度為L 的氨基酸序列，可以得到L 個長度為K 的樣本。若靶點位置為DNA-蛋白質結合位點，則將該樣本設為正樣本，靶點位置非結合位點則全都設為負樣本。滑窗過程如圖所示。

滑窗處理氨基酸序列示意圖

PSSM被廣泛的應用在基于蛋白質序列的相關預測模型中，作為蛋白質序列的描述矩陣，PSSM能夠表示某個特定的氨基酸占據蛋白質序列中某個位置的頻率，因此在PSSM中，每個序列位置都由20 個值表示。

通過運行PSI-BLAST 程序對非冗余（NR）數據庫進行三次迭代，設E 值為0.001，從而獲得蛋白質序列的PSSM方面的進化信息。每一條蛋白質序列都被由L×20 大小的PSSM矩陣表示，L是蛋白質序列的長度。

One-Hot 編碼也被稱為一位有效編碼，表示某個數據點屬于某一個類別,或具有某一種類的特性。其使用了N 位狀態寄存器來對N 個狀態進行編碼，每個狀態都有獨立的寄存器位，并且在任意時候只有一位有效。這首先要求將所有的狀態值映射到某一個整數值。然后將每一個整數值編碼為一個二進制向量，除了狀態的索引之外，它都是零值，它被標記為1。

本文中，將二十種氨基酸作為20 種狀態，分別進行One-Hot編碼，各個氨基酸由一個二十位的二進制向量表示。通過One-Hot 編碼，可以將蛋白質序列編碼成L×20 大小的矩陣。

本文設定滑窗大小為23，因此無論是用PSSM 矩陣和One-Hot 編碼提取氨基酸的特征，每一條序列進過滑窗處理后得到的樣本維數為23×20。

在此，提出特征融合方法，通過對每個樣本的PSSM 和One-Hot 編碼進行拼接，可以得到一個維數為23×40 的特征融合矩陣來表示每一個樣本。

3 結果評估

近年來，深度學習技術與其他機器學習方法相比，已經顯示出了提高識別力的能力，并在生物信息學領域得到了廣泛的應用[5]。

使用全連接層神經網絡和經典的LeNet-5 卷積神經網絡對樣本進行訓練和預測。同時采用五折交叉驗證來劃分訓練集和測試集。

本文采用Keras 框架進行模型構建和訓練，使用的全連接層神經網絡包含三個隱藏層，隱藏層的節點數量分別為512、256 和128，采用Adam 梯度下降算法，迭代次數為30，批次大小為256；在LeNet-5 卷積神經網絡中，第一個卷積層的卷積核數量為16且大小為3×3，第一個池化層的池化大小為，第二個卷積層的卷積核數量為32 且大小為5×5，第二個池化層的池化大小為，緊接著的三個全連接層的節點數量分別為800、120 和84，采用Adam 梯度下降算法，迭代次數為30，批次大小為256。

在二分類問題中，通常使用六個典型的指標來評估模型的訓練效果：靈敏度（SN）、特異性（SP）、準確性（ACC）、F1 分數Matthews 相關系數（MCC）。這五個指標可以通過以下公式計算：

在這些等式中，TP，FP，TN 和FN 分別表示真陽性的數目，假陽性的數目，真陰性的數目和假陰性的數目。由于數據集中的不平衡問題，主要用靈敏度（SN）和特異性（SP）進行模型的評估。

不同網絡結構模型的預測結果如下：

表1 全連接神經網絡模型的預測結果

表2 LeNet-5 卷積神經網絡模型的預測結果

由以上結果可以看出，無論是使用全連接神經網絡還是使用LeNet-5 卷積神經網絡，融合了One-hot 編碼與PSSM矩陣兩個序列特征的結果優于單個特征。

4 結論

在這項研究中，提出了一種新的基于序列的DNA- 蛋白質結合位點預測方法。該方法在PDNA-224 數據集上使用PSSM、One-Hot 編碼進行特征提取。通過構建全連接神經網絡和LeNet-5 卷積神經網絡，在訓練數據集上的實驗結果表明了該特征融合方法的有效性。在今后的工作中，將進一步研究用不同的特征融合方法對DNA- 蛋白質結合位點進行預測。

科學技術創新2020年16期

科學技術創新的其它文章: 淺談煤灰熔融性測定影響因素; 制氫鋁合金專利技術分析; 撫育間伐強度對遼東地區日本落葉松林分生長量影響的研究; 農田水利工程建筑物的安全評價研究; 淺談基于電子平板的基礎性地理國情監測外業調查技術; 基于Spark 的海量數據冗余檢測方法