





關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);結(jié)合位點(diǎn)預(yù)測;TCR-多肽相互作用;深度學(xué)習(xí)
中圖分類號(hào):TP311.5 文獻(xiàn)標(biāo)志碼:A
0 引言(Introduction)
蛋白質(zhì)-蛋白質(zhì)相互作用(PPI)在細(xì)胞生物學(xué)中占有重要地位,對(duì)揭示蛋白質(zhì)功能和解釋細(xì)胞生物學(xué)特性具有深遠(yuǎn)的影響。其中,約四成的蛋白質(zhì)-蛋白質(zhì)相互作用是由相對(duì)較小的多肽介導(dǎo),這些多肽介導(dǎo)的相互作用涉及多種異常細(xì)胞行為,有可能引發(fā)腫瘤、神經(jīng)退行性疾病等。在攻克這些疾病時(shí),人體的免疫系統(tǒng)發(fā)揮著核心作用,并且對(duì)抗原的識(shí)別和應(yīng)答至關(guān)重要。T細(xì)胞受體(TCR)與抗原多肽的結(jié)合作為蛋白質(zhì)多肽相互作用中關(guān)鍵的一環(huán),是免疫反應(yīng)不可或缺的步驟之一。因此,準(zhǔn)確預(yù)測TCR與特定多肽結(jié)合的位點(diǎn)不僅有助于相關(guān)疾病的藥物設(shè)計(jì),還對(duì)探究疾病的潛在分子基礎(chǔ)有著深遠(yuǎn)的意義。
1 研究現(xiàn)狀(Research status)
當(dāng)前,已有多個(gè)數(shù)據(jù)庫,例如蛋白質(zhì)功能數(shù)據(jù)庫BioLip[1]和蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(PDB)[2]為實(shí)驗(yàn)測定的TCR-多肽相互作用位點(diǎn)提供查詢服務(wù)。然而,傳統(tǒng)生物學(xué)實(shí)驗(yàn)測定相互作用位點(diǎn)的過程耗費(fèi)了巨大的資源和時(shí)間。因此,利用各類計(jì)算方法如機(jī)器學(xué)習(xí)或深度學(xué)習(xí)預(yù)測蛋白質(zhì)及其配體結(jié)合位點(diǎn)具有重要的影響。鑒于TCR-多肽相互作用的構(gòu)象復(fù)雜性和高度特異性,目前尚未出現(xiàn)專門用于TCR-多肽結(jié)合位點(diǎn)的預(yù)測工具,仍以更通用的蛋白質(zhì)-多肽結(jié)合位點(diǎn)預(yù)測工具為主。這些算法模型主要分為兩大類,即基于蛋白質(zhì)序列信息的算法模型和基于蛋白質(zhì)結(jié)構(gòu)信息的算法模型。
基于蛋白質(zhì)序列信息的算法模型從蛋白質(zhì)的氨基酸序列出發(fā),利用氨基酸序列的獨(dú)特性質(zhì)進(jìn)行結(jié)合位點(diǎn)的預(yù)測。TAHERZADEH等[3]提出的SPRINT-Seq采用基于序列的特征,包括編碼后的氨基酸種類信息、進(jìn)化信息、結(jié)構(gòu)信息和理化性質(zhì),用于預(yù)測與肽結(jié)合的殘基。除此之外,已有研究表明,蛋白質(zhì)與肽的結(jié)合與蛋白質(zhì)的內(nèi)在無序性密切相關(guān)[4],PepBind[5]方法首次引入了基于共識(shí)的內(nèi)在無序性概念。
基于蛋白質(zhì)結(jié)構(gòu)信息的算法模型是使用每條蛋白質(zhì)對(duì)應(yīng)的結(jié)構(gòu)信息作為輸入特征,包括蛋白質(zhì)的二級(jí)結(jié)構(gòu)和三級(jí)結(jié)構(gòu)。ABDIN等[6]提出的PepNN-Struct采用圖學(xué)習(xí)方法,引入圖注意模塊編碼蛋白質(zhì)結(jié)構(gòu)的上下文,通過多頭注意模塊整合肽序列的上下文信息,并確定與肽和蛋白質(zhì)嵌入的結(jié)合殘基。但是,目前許多蛋白質(zhì)結(jié)構(gòu)仍是未知的,限制了基于蛋白質(zhì)結(jié)構(gòu)信息的算法模型的應(yīng)用范圍。
盡管前人的研究在蛋白質(zhì)-多肽的結(jié)合位點(diǎn)預(yù)測領(lǐng)域取得了一定進(jìn)展,但依舊存在改進(jìn)的空間。通過巧妙地結(jié)合序列和結(jié)構(gòu)特征,可以開發(fā)更可靠的預(yù)測方法,因此本研究提出了一種基于深度學(xué)習(xí)的TCR-多肽相互作用位點(diǎn)的預(yù)測模型,充分利用TCR序列和結(jié)構(gòu)信息對(duì)氨基酸進(jìn)行特征編碼以提升模型的預(yù)測性能。此外,為解決當(dāng)前研究中TCR-多肽結(jié)合位點(diǎn)數(shù)據(jù)集稀缺的問題,本研究綜合多個(gè)文獻(xiàn)及數(shù)據(jù)庫整理了一個(gè)TCR-多肽結(jié)合位點(diǎn)數(shù)據(jù)集并進(jìn)行預(yù)處理,以期為后續(xù)研究提供便利。
2 基于雙卷積神經(jīng)網(wǎng)絡(luò)預(yù)測模型的構(gòu)建(Construction of prediction model based ondual-module convolutional neural network)
2.1TCR-多肽結(jié)合位點(diǎn)數(shù)據(jù)集的構(gòu)建
由于目前的研究大多聚焦于蛋白質(zhì)序列上的多肽結(jié)合位點(diǎn)預(yù)測,忽略了TCR的相關(guān)內(nèi)容,因此本研究從蛋白質(zhì)結(jié)合位點(diǎn)數(shù)據(jù)庫PEPBDB[7]收集了一個(gè)TCR-多肽結(jié)合位點(diǎn)數(shù)據(jù)集,設(shè)置篩選條件為蛋白質(zhì)類別中的TCR鏈且該序列上的結(jié)合殘基的原子距離小于3.5 ?。在經(jīng)過去重等數(shù)據(jù)預(yù)處理之后,最終得到一個(gè)具有113個(gè)不同的TCR的298條鏈的序列數(shù)據(jù)和對(duì)應(yīng)的結(jié)合位點(diǎn)標(biāo)簽,將這298條鏈的序列數(shù)據(jù)按照8∶2的比例劃分為訓(xùn)練集和測試集,分別命名為Training_Dataset_tcr和Testing_Dataset_tcr。利用這個(gè)數(shù)據(jù)集訓(xùn)練了一個(gè)深度學(xué)習(xí)模型用于預(yù)測TCR序列上的肽結(jié)合位點(diǎn)。
Training_Dataset_tcr包括238條TCR序列,含有3 871個(gè)結(jié)合位點(diǎn)和49 297個(gè)非結(jié)合位點(diǎn)。Testing_Dataset_tcr包括60條TCR序列,含有1 100個(gè)結(jié)合位點(diǎn)和12 276個(gè)非結(jié)合位點(diǎn)。此外,本研究采用了SPRINT-Str中收集的蛋白質(zhì)-多肽結(jié)合位點(diǎn)數(shù)據(jù)集Testing_Dataset_pro Ⅱ作為一個(gè)獨(dú)立測試集,用于判斷模型對(duì)TCR上的結(jié)合位點(diǎn)預(yù)測的準(zhǔn)確性。
所有數(shù)據(jù)集對(duì)應(yīng)的詳細(xì)信息如表1所示。
2.2 特征提取
在構(gòu)建機(jī)器學(xué)習(xí)或深度學(xué)習(xí)模型進(jìn)行預(yù)測時(shí),需要將輸入數(shù)據(jù)轉(zhuǎn)換為數(shù)值型,以便計(jì)算機(jī)進(jìn)行有效的處理。對(duì)于本研究的目標(biāo)數(shù)據(jù),即TCR序列,采用特殊的特征提取方法將原始的fasta格式的TCR序列編碼為數(shù)值型向量或張量,方便計(jì)算機(jī)讀取。
2.2.1 位置特異性矩陣特征
位置特異性矩陣特征(Position-Specific Scoring Matrix,PSSM)是在生物信息學(xué)和計(jì)算生物學(xué)領(lǐng)域廣泛應(yīng)用的方法,用于描述DNA(脫氧核糖核酸)、RNA(核糖核酸)或蛋白質(zhì)序列中的位置特異性模式。這些模式通常與特定的生物學(xué)功能或結(jié)構(gòu)關(guān)聯(lián),對(duì)理解基因調(diào)控、蛋白質(zhì)結(jié)構(gòu)與功能,以及其他生物學(xué)過程至關(guān)重要。對(duì)于一條長度為N 的TCR序列,利用經(jīng)過注釋的蛋白質(zhì)序列數(shù)據(jù)庫Swiss-Prot[8],運(yùn)行PSI-BLAST[9]后通過3次E-value值為0.001的迭代,生成每條序列對(duì)應(yīng)的PSSM矩陣。
2.2.2 二級(jí)結(jié)構(gòu)
蛋白質(zhì)二級(jí)結(jié)構(gòu)指的是由氨基酸殘基之間的內(nèi)部氫鍵相互作用形成的局部結(jié)構(gòu)模式。在蛋白質(zhì)結(jié)構(gòu)中,氨基酸殘基通常有α 螺旋、β 折疊和無規(guī)則卷曲(random coil)3種主要形式排列。現(xiàn)有研究存在兩種分類蛋白質(zhì)二級(jí)結(jié)構(gòu)的方法,一種是每個(gè)氨基酸有3種可能的二級(jí)結(jié)構(gòu),另一種是每個(gè)氨基酸對(duì)應(yīng)8種可能的二級(jí)結(jié)構(gòu)。有研究表明,蛋白質(zhì)的二級(jí)結(jié)構(gòu)與蛋白質(zhì)及其配體的結(jié)合特性相關(guān),這同樣適用于TCR-多肽的結(jié)合。本研究采用spider3[10]獲取每條TCR序列對(duì)應(yīng)的8類二級(jí)結(jié)構(gòu)特征文件。每個(gè)氨基酸對(duì)應(yīng)一個(gè)八維的向量。
2.2.3 氨基酸的理化特性和物理特性
考慮到氨基酸的化學(xué)性質(zhì)、構(gòu)象性質(zhì)、側(cè)鏈性質(zhì)和疏水性等特性是蛋白質(zhì)序列編碼的關(guān)鍵影響因素。氨基酸的理化特性[11]為每條長度為N 的蛋白質(zhì)序列生成一個(gè)N ×7的二維特征矩陣,物理特性利用氨基酸的原子數(shù)、靜電電荷和潛在氫鍵為每條長度為N 的蛋白質(zhì)序列生成一個(gè)N ×3的二維特征矩陣。這些特性提供的有價(jià)值的信息,有助于數(shù)值化表示和功能預(yù)測。
2.3 基于雙模塊卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型
2.3.1 構(gòu)建滑動(dòng)窗口讀取TCR特征
滑動(dòng)窗口法是深度學(xué)習(xí)中常用的數(shù)據(jù)處理和特征提取技術(shù),主要用于處理具有序列結(jié)構(gòu)的數(shù)據(jù)。該方法通過將輸入的序列劃分為固定大小的窗口,將這些窗口作為模型的輸入,實(shí)現(xiàn)在維持序列信息的同時(shí)引入局部上下文的相關(guān)性。
窗口的大小是滑動(dòng)窗口法的一個(gè)關(guān)鍵參數(shù),它決定了每個(gè)窗口中包含的元素?cái)?shù)量。在判斷輸入序列中氨基酸殘基是否為多肽結(jié)合位點(diǎn)時(shí),目標(biāo)殘基的領(lǐng)域信息對(duì)預(yù)測結(jié)果有顯著影響。滑動(dòng)窗口過大或過小都可能導(dǎo)致模型性能下降。因此,滑動(dòng)窗口大小的選擇是影響預(yù)測結(jié)果的一個(gè)重要因素。為了比較不同大小的滑動(dòng)窗口對(duì)TCR-多肽結(jié)合位點(diǎn)預(yù)測模型性能的影響,本研究將滑動(dòng)窗口的大小設(shè)定在[7,15]的區(qū)間進(jìn)行對(duì)比實(shí)驗(yàn),最終得出最佳的滑動(dòng)窗口大小為11。
2.3.2 卷積神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建
本文的深度學(xué)習(xí)架構(gòu)采用不同的模塊捕捉不同的信息。如圖1所示,該模型包含兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNN)模塊,分別接收經(jīng)過滑動(dòng)窗口讀取的PSSM和二級(jí)結(jié)構(gòu)的融合特征,以及氨基酸理化性質(zhì)和物理性質(zhì)的融合特征。通過Flatten(扁平)層和全連接層對(duì)前兩個(gè)組件的輸出進(jìn)行解碼,從而獲得目標(biāo)殘基的分類結(jié)果。該模型的一個(gè)顯著特點(diǎn)是其利用滑動(dòng)窗口法采用的多對(duì)一結(jié)構(gòu),即利用許多殘基的信息預(yù)測中心單個(gè)殘基的結(jié)合傾向。對(duì)于預(yù)測目標(biāo)的每個(gè)氨基酸,以該氨基酸位置為中心,使用大小為11的窗口收集鄰近10個(gè)殘基的信息幫助預(yù)測。序列的開頭和結(jié)尾部分通過零填充。多對(duì)一結(jié)構(gòu)是一種數(shù)據(jù)增強(qiáng)技術(shù)。深度學(xué)習(xí)模型需要大量數(shù)據(jù)訓(xùn)練,在數(shù)據(jù)有限的蛋白質(zhì)組學(xué)中,在訓(xùn)練過程中多次使用每個(gè)殘基的特征有助于模型更好地學(xué)習(xí)。
2.3.3 針對(duì)不平衡數(shù)據(jù)集的訓(xùn)練策略
(1)Focal Loss 損失函數(shù)。Focal Loss[12]的提出旨在解決樣本數(shù)據(jù)失衡的問題,它是一種基于對(duì)標(biāo)準(zhǔn)交叉熵?fù)p失函數(shù)的修改而改進(jìn)的損失函數(shù)。當(dāng)數(shù)據(jù)集中正例或負(fù)例的數(shù)量占據(jù)絕對(duì)優(yōu)勢時(shí),會(huì)導(dǎo)致訓(xùn)練效果低下。Focal Loss損失函數(shù)通過減小易分類樣本的權(quán)重,使得模型在訓(xùn)練過程中更專注于難以分類的樣本,其公式如式(1)所示:
(2)過采樣。過采樣(Oversampling)是一項(xiàng)用于應(yīng)對(duì)分類問題中樣本不平衡挑戰(zhàn)的技術(shù)。在分類問題中,樣本不平衡表現(xiàn)為不同類別的樣本數(shù)量存在顯著差異,從而導(dǎo)致模型在訓(xùn)練和預(yù)測過程中對(duì)少數(shù)類別的分類性能下降。
過采樣的核心思想是通過增加少數(shù)類別的樣本數(shù)量,使其與多數(shù)類別的樣本數(shù)量相當(dāng),從而實(shí)現(xiàn)數(shù)據(jù)集的平衡。這一方法的優(yōu)勢在于提高模型對(duì)少數(shù)類別的學(xué)習(xí)能力,進(jìn)而改善分類的精確度和召回率指標(biāo),模型能夠更有效地捕捉少數(shù)類別的特征,從而提升對(duì)整個(gè)數(shù)據(jù)集的分類性能。
2.4 評(píng)價(jià)指標(biāo)
對(duì)于蛋白質(zhì)多肽結(jié)合和非結(jié)合位點(diǎn)預(yù)測,結(jié)合和非結(jié)合位點(diǎn)分別由陽性和陰性樣本表示。本文使用5個(gè)測量評(píng)估指標(biāo):召回率(Recall)、精確度(Precision)、馬修斯相關(guān)系數(shù)(MCC)、ROC曲線下面積(AUROC)和精確召回曲線下面積(AUPRC)對(duì)本文提出的模型性能進(jìn)行評(píng)估,并與其他類似模型進(jìn)行了比較。馬修斯相關(guān)系數(shù)、精確度、召回率的方程如公式(2)至公式(4)所示:
對(duì)于二分類問題,TP 為真陽性,表示結(jié)合位點(diǎn)預(yù)測被正確預(yù)測為結(jié)合;TN 為真陰性,表示非結(jié)合位點(diǎn)預(yù)測被正確預(yù)測為非結(jié)合;FP 為假陽性,表示將非結(jié)合位點(diǎn)預(yù)測被錯(cuò)誤預(yù)測為結(jié)合;FN 為假陰性,表示將結(jié)合位點(diǎn)錯(cuò)誤預(yù)測為非結(jié)合。AUROC表示ROC曲線下面積,主要用于衡量模型的泛化能力,即分類器效果的好壞。AUROC作為一個(gè)數(shù)量值,相較于ROC曲線,具有可比性,可以進(jìn)行定量比較。
3 實(shí)驗(yàn)結(jié)果與分析(Experimental result andanalysis)
3.1 不同蛋白質(zhì)表示特征均發(fā)揮作用
為了深入了解不同蛋白質(zhì)特征對(duì)模型性能的個(gè)體貢獻(xiàn),本文對(duì)提出的模型進(jìn)行了多方面的實(shí)驗(yàn),分別使用位置特異性矩陣(PSSM)、二級(jí)結(jié)構(gòu)特征,以及氨基酸的理化特性和物理特性進(jìn)行獨(dú)立訓(xùn)練和測試。此外,本文構(gòu)建了一個(gè)綜合模型,該模型同時(shí)使用三個(gè)特征表征蛋白質(zhì)序列并進(jìn)行訓(xùn)練和測試。不同特征對(duì)模型性能的影響如表2所示。值得注意的是,在所有的特征設(shè)置中,PSSM的各類指標(biāo)表現(xiàn)出顯著的優(yōu)越性。與其他特征相比,僅使用理化特性信息無法充分捕捉到TCR序列與多肽結(jié)合的相關(guān)特征。實(shí)驗(yàn)結(jié)果表明,將PSSM、SS、理化特性3類特征有效結(jié)合,有助于協(xié)同增強(qiáng)整體模型的性能及對(duì)蛋白質(zhì)的準(zhǔn)確表征。
3.2 氨基酸類別對(duì)多肽結(jié)合的影響
本文通過使用氨基酸的結(jié)合傾向衡量不同氨基酸類別對(duì)多肽結(jié)合的影響,氨基酸的結(jié)合傾向被定義為特定殘基在界面上的百分比與界面殘基總百分比之間的比率,具體定義如公式(5)所示:
如表3和圖2所示,酪氨酸的結(jié)合傾向最大,大約是結(jié)合概率最低的氨基酸的9倍。這可能與酪氨酸的側(cè)鏈結(jié)構(gòu)包含芳香環(huán)和羥基,其具有多樣性的化學(xué)性質(zhì)相關(guān)。這種多樣性可能使酪氨酸在蛋白質(zhì)-多肽結(jié)合事件中具有較高的親和性和特異性,從而成為結(jié)合位點(diǎn)中的優(yōu)勢氨基酸。對(duì)于TCR(T細(xì)胞受體)與多肽結(jié)合來說,酪氨酸的高頻出現(xiàn)可能影響了TCR的結(jié)合特異性,進(jìn)而調(diào)控T細(xì)胞對(duì)抗原的識(shí)別和響應(yīng)。
3.3 深度學(xué)習(xí)方法與傳統(tǒng)方法的性能比較分析
為深入評(píng)估本文提出的深度學(xué)習(xí)模型在多肽結(jié)合預(yù)測任務(wù)中的表現(xiàn),將其與多個(gè)經(jīng)典機(jī)器學(xué)習(xí)算法包括XGBoost(極端梯度提升)、Logistic Regression(邏輯回歸)、SVM(支持向量機(jī))、KNN(K近鄰)以及RandomForest(隨機(jī)森林)在測試集Testing_Dataset_tcr上進(jìn)行了全面比較,實(shí)驗(yàn)結(jié)果如表4所示,本文提出的深度學(xué)習(xí)模型在Testing_Dataset_tcr上取得了最顯著的效果。與傳統(tǒng)機(jī)器學(xué)習(xí)算法相比,該模型僅有MCC和Recall略微遜色于隨機(jī)森林分類器,但隨機(jī)森林算法的AUROC遠(yuǎn)遠(yuǎn)遜色于本文所提模型。綜合實(shí)驗(yàn)結(jié)果得出,本文提出的模型更準(zhǔn)確地捕捉了氨基酸類別對(duì)多肽結(jié)合的影響,整體預(yù)測性能更好。
3.4TCR與多肽的相互作用具有更高的特異性
為驗(yàn)證模型是否具有預(yù)測多肽結(jié)合位點(diǎn)的特異性,從YAN等[13]和WANG等[14]的研究中收集了30個(gè)DNA結(jié)合蛋白、30個(gè)RNA結(jié)合蛋白和30個(gè)碳水化合物結(jié)合蛋白,為方便討論,分別記為DNA30、RNA30、CBH30和Testing_Dataset_pro Ⅱ,將它們作為測試集。測試結(jié)果如圖3所示,本文提出的模型在TCR-多肽數(shù)據(jù)集上的AUROC遠(yuǎn)高于其他配體數(shù)據(jù)集,表明該模型在預(yù)測TCR-多肽結(jié)合位點(diǎn)時(shí)具有顯著的特異性。
4 結(jié)論(Conclusion)
本文構(gòu)建了一個(gè)深度學(xué)習(xí)框架Propep-TCR 用于預(yù)測TCR-多肽結(jié)合位點(diǎn),該方法通過同時(shí)結(jié)合輸入TCR序列的特征以及對(duì)應(yīng)的結(jié)構(gòu)信息進(jìn)行編碼,將序列特征和結(jié)構(gòu)特征輸入兩個(gè)不同的二維卷積神經(jīng)網(wǎng)絡(luò)模塊進(jìn)行預(yù)測。實(shí)驗(yàn)結(jié)果表明,本文提出的方法在與機(jī)器學(xué)習(xí)算法以及類似工具進(jìn)行比較后取得了優(yōu)異的效果,可以從TCR序列中尋找到潛在的多肽結(jié)合位點(diǎn)。同時(shí),為了幫助推進(jìn)此領(lǐng)域的研究進(jìn)展,本研究收集并整理了一個(gè)全新的結(jié)合位點(diǎn)數(shù)據(jù)集,給后續(xù)TCR與多肽相互作用研究領(lǐng)域提供了新的基準(zhǔn)數(shù)據(jù)集。
在后續(xù)的研究中,可以在已有的二級(jí)結(jié)構(gòu)的基礎(chǔ)上擴(kuò)展到TCR及其配體的3D結(jié)構(gòu)特征,這對(duì)TCR-多肽結(jié)合位點(diǎn)以及廣譜的蛋白質(zhì)-配體相互作用的預(yù)測,將會(huì)起到至關(guān)重要的作用。此外,用于訓(xùn)練人工智能的模型的結(jié)合位點(diǎn)數(shù)據(jù)集的擴(kuò)大,將有助于提升模型性能,挖掘出更多樣本中的隱藏特征。
作者簡介:
高 媛(1999-),女,碩士生。研究領(lǐng)域:生物信息學(xué)。
魯曼曼(1995-),女,碩士生。研究領(lǐng)域:生物信息學(xué)。
林 勇(1978-),男,博士,副教授。研究領(lǐng)域:智能醫(yī)學(xué)信息處理。本文通信作者。
謝 鷺(1968-),女,博士,教授。研究領(lǐng)域:生物信息學(xué)。