基于門控單元的農(nóng)作物蛋白質(zhì)磷酸化預(yù)測模型研究

2024-08-06 00:00:00段旭福李重

軟件工程 2024年8期

關(guān)鍵詞：深度學(xué)習(xí);生物信息學(xué);蛋白質(zhì)磷酸化;計算生物學(xué)

中圖分類號：TP389.1 文獻(xiàn)標(biāo)志碼：A

0 引言（Introduction）

近年來，植物病理學(xué)的深入研究，極大地增進(jìn)了我們對植物與病原菌相互作用機(jī)制的認(rèn)知，也揭示了蛋白質(zhì)磷酸化在諸多生物學(xué)過程中的關(guān)鍵作用，為農(nóng)作物病害的防控提供了新的視角[1]。對蛋白質(zhì)磷酸化的迅速判斷，對農(nóng)作物病害的有效防治也變得愈發(fā)重要。

然而，傳統(tǒng)的蛋白質(zhì)磷酸化的檢測分析多采用實驗方法，如液相色譜串聯(lián)質(zhì)譜、放射性化學(xué)標(biāo)記和免疫檢測、鄰近連接分析、染色質(zhì)免疫沉淀和蛋白質(zhì)印跡[2]。這些技術(shù)通常耗時且勞動強(qiáng)度大。整個實驗過程耗時較長，并且需要實驗人員具備較高的專業(yè)技能和經(jīng)驗，這在一定程度上限制了蛋白質(zhì)磷酸化研究的規(guī)模和效率。隨著技術(shù)的進(jìn)步和新計算方法的涌現(xiàn)，研究人員開發(fā)了許多基于智能算法的工具，這些工具極大地豐富了該領(lǐng)域的研究手段[3]。但是，目前的計算方法通常無法同時滿足使用簡單、快速檢測、高精度等需求，本研究致力于開發(fā)一種高效、精準(zhǔn)且操作簡便的計算方法，旨在實現(xiàn)磷酸化位點的快速檢測。

1 相關(guān)理論（Related theory）

1.1 蛋白質(zhì)磷酸化

蛋白質(zhì)磷酸化是一種生物學(xué)過程，其中磷酸基團(tuán)被共價地添加到蛋白質(zhì)分子的特定氨基酸殘基上。這一修飾過程通常通過激酶酶類催化，其在細(xì)胞內(nèi)發(fā)揮著關(guān)鍵的調(diào)控作用。磷酸基團(tuán)的添加可以改變蛋白質(zhì)的結(jié)構(gòu)、功能和相互作用機(jī)制，影響其在細(xì)胞內(nèi)的活性和穩(wěn)定性[4]。通常，酪氨酸（Tyr）、絲氨酸（Ser）和蘇氨酸（Thr）是常見的磷酸化位點，在這些磷酸化位點上，氨基酸的OH 基團(tuán)與ATP的γ-磷酸基團(tuán)形成磷酸酯，而這些位點是磷酸化研究中受到廣泛研究的對象。

1.2 磷酸化位點預(yù)測

在蛋白質(zhì)工程領(lǐng)域，深度學(xué)習(xí)的應(yīng)用日益凸顯其重要性，它依托于蛋白質(zhì)序列和結(jié)構(gòu)等豐富數(shù)據(jù)作為輸入，通過生成特征并采用不同的算法進(jìn)行模型構(gòu)建和優(yōu)化。這一方法為更精確地分類和尋找磷酸化位點提供了新的途徑。隨著生物大數(shù)據(jù)集的構(gòu)建和計算能力的提升，越來越多的計算方法被提出并用于磷酸化位點的預(yù)測。KHALILI等[5]使用處理表格數(shù)據(jù)的深度學(xué)習(xí)模型訓(xùn)練了一個大豆蛋白磷酸化預(yù)測器。LV等[6]使用卷積神經(jīng)網(wǎng)絡(luò)-長短期記憶網(wǎng)絡(luò)（CNN-LSTM）識別感染SARS冠狀病毒2型（SARS-CoV-2）的宿主細(xì)胞中的磷酸化位點。WANG等[7]提出了一個名為TransPhos的預(yù)測器，用于預(yù)測磷酸化位點。這些研究表明，深度學(xué)習(xí)方法在磷酸化位點預(yù)測方面取得了顯著的進(jìn)展。

1.3 門控機(jī)制

門控機(jī)制在神經(jīng)網(wǎng)絡(luò)中的應(yīng)用由來已久，常使用Sigmod 函數(shù)或Tanh函數(shù)控制信息流的比例，是一個決定特征是否繼續(xù)流入下一層的控制器。gMLP[8]是一種基于MLP與門控機(jī)制的簡單的神經(jīng)網(wǎng)絡(luò)架構(gòu)，它融合了線性空間投影和乘法門控機(jī)制，在掩碼語言建模方面取得了出色的結(jié)果，甚至在參數(shù)更少的情況下其性能超過了一些基于Transformer的模型。在增加數(shù)據(jù)和計算能力的情況下，具有類似gMLP這樣簡單的空間交互機(jī)制的模型，已經(jīng)展現(xiàn)出了與Transformer相媲美的強(qiáng)大性能。gMLP主要依靠靜態(tài)參數(shù)化的通道映射（channelprojections）和空間映射（spatial projections），由L 個相同結(jié)構(gòu)和大小的模塊組成，X∈ n×d 代表長度為n 且序列維度是d 的向量表示，每個模塊可以表示為

2 方法概述（Methodology overview）

2.1 數(shù)據(jù)預(yù)處理

在以往的研究中，通常遵循3個原則進(jìn)行數(shù)據(jù)預(yù)處理：①作為陽性樣本的磷酸化位點經(jīng)過實驗驗證;②使用聚類工具刪除序列相似性過高的蛋白質(zhì)序列;③隨機(jī)選取的陰性位點，完整的蛋白質(zhì)序列中至少有3個已確認(rèn)陽性位點。

真核生物磷酸化位點數(shù)據(jù)庫（Eukaryotic PhosphorylationSite Database，EPSD）由LIN等[9]重新整理，是近期更新的最具體和最全面的磷酸化位點數(shù)據(jù)庫之一，本研究采用該數(shù)據(jù)庫作為主要的數(shù)據(jù)來源，并延續(xù)以往的經(jīng)驗，采用相似的數(shù)據(jù)處理過程。為避免陽性和陰性數(shù)據(jù)集中存在同源序列導(dǎo)致預(yù)測模型的性能被高估，利用CD-HIT（一種用于聚類相似生物序列的工具）[10]以40%的序列相似性為標(biāo)準(zhǔn)，對磷酸化蛋白質(zhì)序列進(jìn)行聚類，具有中心為絲氨酸、蘇氨酸和酪氨酸殘基及經(jīng)實驗驗證的磷酸基團(tuán)的肽鏈，被視為陽性樣本，并選擇15作為采樣窗口大小（在選定的磷酸化位點上左、右各取15個氨基酸組成肽鏈），隨機(jī)選擇一部分與陽性樣本數(shù)量相當(dāng)?shù)姆侨哂嗟年幮詷颖荆云胶鈹?shù)據(jù)集。

根據(jù)上述條件進(jìn)行樣本提取時，可能存在大量的經(jīng)實驗驗證的磷酸化位點在肽鏈中排列過于緊密，導(dǎo)致同一個肽段反復(fù)被添加到陽性樣本中，本研究采用一種新的采樣方式，即在同一個采樣窗口內(nèi)僅采樣一次，跳過那些在同一個窗口中過于密集的肽段。在第一個采樣窗口中，選中一個磷酸化位點后，右邊的窗口中符合要求的陽性樣本將不再被考慮，陰性樣本同理，同時選取陰性樣本時，還要考慮不與陽性樣本的窗口重疊。圖1為數(shù)據(jù)處理流程。

2.2 序列特征

實驗中涉及的氨基酸包括構(gòu)成生物體的20種標(biāo)準(zhǔn)氨基酸和由基因密碼子直接編碼的2種非標(biāo)準(zhǔn)氨基酸，以數(shù)字1～22 對其進(jìn)行編碼。在蛋白質(zhì)研究中，為了方便計算機(jī)處理和分析，研究者通常將不同類型的氨基酸以數(shù)字形式進(jìn)行編碼。這種編碼方式的選擇是為了將具有不同性質(zhì)的氨基酸轉(zhuǎn)化為統(tǒng)一的數(shù)字表示，從而將目標(biāo)肽鏈轉(zhuǎn)化為L×1的向量（L 表示肽鏈的長度）。每一個數(shù)字都代表特定的氨基酸類型。

2.3 蛋白質(zhì)內(nèi)在無序性得分

近年來的研究表明，蛋白質(zhì)中存在一些并沒有固定結(jié)構(gòu)的無序區(qū)域，這些區(qū)域在許多細(xì)胞過程中發(fā)揮著重要的功能作用，并且與蛋白質(zhì)之間的相互作用密切相關(guān)[11]。本研究采用IUPred3（Intrinsically Unstructured Protein Predictor）[12]工具獲取蛋白質(zhì)內(nèi)在無序性得分，它依賴于能量估計方法，能預(yù)測每個氨基酸處于無序區(qū)域的趨勢。對于長度為m 的氨基酸序列S，構(gòu)建一個m×3的向量，分別代表短無序評分（缺乏穩(wěn)定的三維結(jié)構(gòu)且長度不超過30個殘基的肽段）和長無序評分（長度超過30個殘基的肽段）及ANCHOR（Analyzing the Chainof Ordered Regions）分?jǐn)?shù)。

2.4 方法整體架構(gòu)

本研究構(gòu)建了一個網(wǎng)絡(luò)架構(gòu)，以gMLP作為編碼層。將蛋白質(zhì)轉(zhuǎn)為數(shù)據(jù)特征后經(jīng)過gMLP編碼，得到的語義信息將與內(nèi)在無序性得分進(jìn)行拼接。為了提升模型的表達(dá)能力，對數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化。對數(shù)據(jù)依次進(jìn)行卷積、池化等操作，其中卷積操作有助于提取蛋白質(zhì)的語義特征，而池化操作則可以減小特征圖的尺寸。

為了將提取的特征有效地映射到最終的輸出空間，引入了線性層。采用Sigmoid激活函數(shù)將輸出映射到0～1，以便進(jìn)行二分類。這樣的設(shè)計不僅能有效地處理蛋白質(zhì)序列的語義信息，還能充分利用內(nèi)在無序性得分，為蛋白質(zhì)研究和分類任務(wù)提供更為有效的工具。圖2為本文方法的整體框架。

3 實驗和結(jié)果（Experiment and result）

3.1 數(shù)據(jù)集劃分

本研究按照64%、16%、20%的比例將數(shù)據(jù)劃分為訓(xùn)練集、驗證集和測試集（按照五倍交叉驗證的原則，即1∶4的比例劃分測試集和訓(xùn)練集，再將訓(xùn)練集的20%劃為驗證集），數(shù)據(jù)劃分如圖3所示，并在此基礎(chǔ)上進(jìn)行模型的訓(xùn)練和評估。

在模型訓(xùn)練的過程中，引入學(xué)習(xí)率調(diào)度器，在訓(xùn)練的不同階段動態(tài)地調(diào)整學(xué)習(xí)率，以更好地適應(yīng)數(shù)據(jù)分布的變化。將初始學(xué)習(xí)率設(shè)置為0.001，并設(shè)定了每隔10個批次，學(xué)習(xí)率以0.9的比例進(jìn)行衰減。采用這一學(xué)習(xí)率調(diào)整策略旨在訓(xùn)練初期使用較大的學(xué)習(xí)率使模型更快收斂，隨著訓(xùn)練的進(jìn)行，逐漸減小學(xué)習(xí)率，有助于模型更精細(xì)地學(xué)習(xí)數(shù)據(jù)的特征。

3.3 評價指標(biāo)

本研究中所用評價指標(biāo)包括準(zhǔn)確率（Accuracy，ACC）、AUC-ROC曲線下面積（Area Under the Curve，AUC）、特異性（Specificity，SP）、精確率（Precision，PRE）、召回率（Recall）、F1 分?jǐn)?shù)（F1 Score，F(xiàn)1）和馬修斯相關(guān)系數(shù)（Matthews CorrelationCoefficient，MCC）。

ACC 是分類模型正確預(yù)測的樣本數(shù)占總樣本數(shù)的比例，表示正確分類樣本占總樣本數(shù)的百分比;AUC 是AUC-ROC 曲線下的面積，用于度量二分類模型的性能，范圍為0～1，數(shù)值越大，表示模型性能越好;Recall（真正例率）是真正例在實際正例中的比例，表示在所有實際正例中，模型正確預(yù)測為正例的比例;SP（真負(fù)例率）是真負(fù)例在實際負(fù)例中的比例，表示在所有實際負(fù)例中，模型正確預(yù)測為負(fù)例的比例;PRE（真正例率）表示在模型預(yù)測為正例的樣本中，實際為正例的比例;F1 是精確率和召回率的調(diào)和平均值，用于綜合考慮分類模型的性能衡量模型在精確率和召回率之間的平衡;MCC是衡量二分類模型性能的綜合指標(biāo)，常用于衡量模型的綜合性能，尤其在不平衡數(shù)據(jù)集中更具優(yōu)勢。

3.4 在不同物種數(shù)據(jù)集上的性能比較

針對不同的農(nóng)作物品種蛋白質(zhì)，采用相同的數(shù)據(jù)處理方式分別進(jìn)行訓(xùn)練。所用的數(shù)據(jù)均從EPSD[9]數(shù)據(jù)庫中獲取，以小麥、水稻亞種-粳稻、水稻亞種-秈稻、玉米及大豆為例，表1中展示了使用本文模型訓(xùn)練上述數(shù)據(jù)集在五倍交叉驗證下的準(zhǔn)確率、AUC-ROC曲線下面積、特異性、精確率、召回率、F1分?jǐn)?shù)及馬修斯相關(guān)系數(shù)。正、負(fù)樣本的篩選與比例，以及訓(xùn)練集、驗證集和測試集的劃分均按照前文描述的方法進(jìn)行。各農(nóng)作物所使用的訓(xùn)練樣本數(shù)量詳見表2。

3.5 與其他方法的比較

為了評估本研究提出模型的預(yù)測能力，將其與另外3種方法進(jìn)行了比較，包括DeepIPs、TabNet和TransPhos，并采用五倍交叉驗證進(jìn)行了驗證。

DeepIPs[6]是一個專門用于識別SARS-CoV-2感染宿主細(xì)胞中磷酸化位點的深度學(xué)習(xí)模型，通過詞嵌入方法和CNNLSTM架構(gòu)進(jìn)行特征提取和分類。

TabNet模型由ARIK等[13]提出，主要用于表格數(shù)據(jù)集，KHALILI等[5]首次將其用于處理和分析生物數(shù)據(jù)，并取得了良好的效果。

TransPhos[7]是一個專門用于預(yù)測蛋白質(zhì)磷酸化位點的深度學(xué)習(xí)模型，由基于Transformer編碼器和密集連接的卷積神經(jīng)網(wǎng)絡(luò)塊構(gòu)成。

以玉米磷酸化位點的預(yù)測為例，本研究使用相同的數(shù)據(jù)進(jìn)行5種方法的訓(xùn)練。正、負(fù)樣本的總數(shù)分別為7 729個，其中Ser/S、Thr/T和Tyr/Y的數(shù)量分別為12 244個、2 724個、490個。使用相同的隨機(jī)種子，表3展示了使用不同方法訓(xùn)練玉米數(shù)據(jù)集在五倍交叉驗證下的部分關(guān)鍵指標(biāo)。

3.6 消融實驗

為探索該模型不同部分的貢獻(xiàn)，本研究進(jìn)行了一系列實驗，評估了該方法在缺失不同內(nèi)容時對整體性能的影響。本研究對使用gMLP與否和使用無序性得分作為特征與否進(jìn)行了組合驗證。圖4中為五倍交叉驗證中的ACC、AUC、SP、PRE、Recall、F1分?jǐn)?shù)的平均值。這些實驗結(jié)果也驗證了在模型中引入內(nèi)在無序性得分和gMLP的有效性，并為其在實際應(yīng)用中的可靠性提供了有力支持。

4 結(jié)論（Conclusion）

在本研究提出的方法中，使用gMLP作為特征提取器，引入門控機(jī)制，更高效地利用了蛋白質(zhì)語義信息流;同時，優(yōu)化了數(shù)據(jù)采樣方式，每個窗口內(nèi)僅采樣一次，避免了同源肽段被頻繁添加至訓(xùn)練集;此外，引入內(nèi)在無序性得分作為特征，使模型能夠?qū)W習(xí)到更多的蛋白質(zhì)語義關(guān)聯(lián)信息。實驗結(jié)果表明，該方法能夠有效提升預(yù)測精度，并且優(yōu)于基于Transformer模型的方法，僅使用從序列中提取的特征，避免了復(fù)雜的特征提取操作，顯著降低了計算成本，對計算資源沒有較高的要求且操作簡單。該方法相較于目前先進(jìn)的計算方法（如DeepIPs、TabNet、TransPhos）在磷酸化位點預(yù)測上的表現(xiàn)更為出色，為農(nóng)作物病害的深入研究和治理提供了一種更為高效和可行的途徑。

作者簡介：

段旭福（1998-），男，碩士生。研究領(lǐng)域：深度學(xué)習(xí)，蛋白質(zhì)組學(xué)。

李重（1975-），男，博士，教授。研究領(lǐng)域：計算生物學(xué)，人工智能與數(shù)據(jù)分析，圖形圖像與虛擬現(xiàn)實。

軟件工程2024年8期

軟件工程的其它文章: 基于隨機(jī)游走的圖擴(kuò)散模型; 基于高頻分量引導(dǎo)生成的古陶器模型紋理修復(fù)方法; 基于改進(jìn)集合經(jīng)驗?zāi)B(tài)分解的信號處理方法研究趙斯琪; 基于深度神經(jīng)模糊系統(tǒng)的交通事故嚴(yán)重程度預(yù)測研究; 基于OpenCL的多標(biāo)靶加速定位方法; 基于多目標(biāo)遺傳算法的電梯維保路徑規(guī)劃方法研究