蔡 標,葛 成,徐 晴,陸 翼,孔 韌,常 珊
(江蘇理工學院生物信息與醫藥工程研究所,常州 213001)
每年有數百萬人死于癌癥[1-2]。傳統的物理和化學方法,包括靶向治療、化療和放射治療,仍然是治療癌癥的主要方法,這些方法側重于殺死癌細胞,但正常細胞也會受到不利影響,導致嚴重的副作用。更重要的是,這些治療方法昂貴且低效。抗癌肽(ACPs)是一系列由10~60個氨基酸組成的短肽,其具有較強的陽離子特性,是一種新的癌癥治療方法[3]。抗癌肽具有多種優勢,包括高特異性、易于合成和修改、生產成本低等[4-6]。抗癌肽只能與癌細胞的陰離子細胞膜成分相互作用,因此,它們可以選擇性地殺死癌細胞[7],而對正常細胞幾乎沒有傷害。近年來,抗癌肽治療方法成為研究熱點,用于治療不同臨床階段中的不同類型的腫瘤[8-10]。然而,只有很少一部分的抗癌肽能夠最終被用于臨床治療。此外,通過實驗方法識別潛在的新抗癌肽的過程耗時、昂貴,并且實驗室資源有限。因此,迫切需要開發高效的抗癌肽預測技術。
目前,已有一些關于抗癌肽預測的研究。Tyagi等[11]開發了一個支持向量機(SVM)模型,并以氨基酸組成和二肽組成作為特征信息輸入到SVM模型進行抗癌肽預測。Hajisharifi等[12]開發了兩種預測抗癌肽的機器學習方法,使用Chou[13]提出的偽氨基酸組成模型(pseudo amino acid composition,PseAAC)和本地對齊核(local alignment kernel)方法得到特征信息,結合SVM模型進行預測。Vijayakumar等[14]提出了一種使用支持向量機和蛋白質相關度測量特征向量的計算方法預測蛋白質中的抗癌肽。Chen等[15]提出將二肽組成和偽氨基酸組分信息作為特征,結合支持向量機構建了抗癌肽的預測算法,是當時最優的抗癌肽預測模型。LeYi等[16]采用了氨基酸組成、二肽組成、氨基酸理化性質以及每種氨基酸在序列中的出現頻率等信息,結合支持向量機構建了40個子模型,再以40個子模型的輸出作為輸入來搭建模型進行抗癌肽的預測。近幾年來,深度學習技術發展迅速,基于深度學習的抗癌肽預測方法成為了研究熱點。Yi等[17]將抗癌肽序列使用獨熱編碼和K-mer稀疏矩陣進行特征表示,再結合長短期記憶[18](long short-term memory,LSTM)神經網絡模型進行抗癌肽預測。
雖然這些方法取得了很好結果,但是它們都需要提前將肽序列通過復雜的特征提取算法映射為特征向量,再輸入到機器學習模型或深度學習模型中進行抗癌肽預測,整個過程十分繁瑣,并且其性能在很大程度上依賴于特征提取算法的設計。因此,迫切需要一種更加簡單、高效的抗癌肽預測方法。值得注意的是,方春等[19]提出了一種僅使用LSTM神經網絡進行抗癌肽預測的方法,該方法不需要額外的特征提取算法,僅將肽序列作為輸入,采用文本處理中的字符嵌入方法,自動將序列映射到特征向量表示,模型自行抽取特征進行訓練和預測。但是該方法最終的結果較基于特征提取算法結合機器學習的方法相比,并沒有提升。Ahmed等[20]使用二進制輪廓信息(BRF)、基于物理化學的信息(AAIs)表示和基于進化信息(BLO62)的表示三種氨基酸序列特征,利用多頭神經網絡解決抗癌肽分類問題。
本文提出了一種使用深度學習Transformer網絡模型來預測抗癌肽的方法。該方法僅需要將肽序列作為輸入,模型自動將序列信息通過字符嵌入的方法映射為特征向量,無需使用復雜的特征表示方法,實現了使用Transformer網絡模型來自動識別抗癌肽和非抗癌肽,并在兩個數據集上對模型進行了評估實驗。此外,本文還將模型與現有的機器學習模型,如SVM、隨機森林(RF)、樸素貝葉斯(NB)和深度學習模型ACP-DL進行了比較,五倍交叉驗證實驗結果表明,本文方法能夠有效地預測抗癌肽,明顯優于現有方法。模型的工作流程如圖1所示。
為了將本文方法與ACP-DL方法進行比較,使用了Yi等[17]公布的兩組抗癌肽數據集,數據集的詳細信息如表1所示,每個數據集都包括相同數量的正樣本和負樣本,其中正樣本表示該樣本是抗癌肽,負樣本表示該樣本非抗癌肽。

表1 數據集的統計
兩組抗癌肽數據集肽序列的長度分布統計如圖2所示。ACP240數據集中肽序列長度分布在10~209個殘基之間,樣本的平均長度為30.5個殘基;ACP740數據集中肽序列長度分布在10~97個殘基之間,樣本的平均長度為26.4個殘基。因此,在接下來對序列進行字符嵌入時,每個序列被填充或者截斷為接近平均長度的固定值30。
本研究使用的方法不需要額外設計復雜的算法來提取特征,如氨基酸理化性質,氨基酸組成特征等,只需將肽序列作為輸入,具體的序列表征流程如圖3所示。創建了一個氨基酸與其對應編號的字典,每個氨基酸都有一個整數可與之對應,因此輸入的肽序列首先會被整數編碼;之后將序列固定統一長度,不夠固定長度的序列需要在末尾位置補0,超過固定長度的序列將會被截斷,舍棄超出的部分;然后通過Transformer進行詞嵌入訓練,使20種氨基酸中每個氨基酸都能由一組向量表示。如圖3所示,假設輸入的肽序列為“FALAKA-LKKAL”,首先需要將序列用整數進行編碼,此時的序列長度為11,如果設置固定長度為12,那么序列的末尾位置將會自動補0至固定長度。通過神經網絡的不斷訓練,每個氨基酸都會由一組向量唯一表示。最終,每條肽序列可被編碼為M×N矩陣,M為設置的固定長度,N為設置的特征向量維度。
Transformer最早用于自然語言處理方面的研究,如今被大范圍地應用與拓展[21-22]。在這之前,自然語言處理的相關研究主要采用循環神經網絡(RNN),LSTM和GRU等模型。Transformer與LSTM等模型的最大區別在于LSTM等模型的訓練過程是迭代的、串行的,需要逐一處理輸入字符。而Transformer的訓練是并行的,即所有字符是同時訓練的,這樣就大大提高了計算效率。由于Transformer模型沒有LSTM的迭代操作,所以需要將每個字符的位置信息傳給Transformer,從而識別出序列中的順序關系,即需要對序列進行位置編碼,以獲取順序信息。完整的Transformer包括編碼和解碼兩部分,主要用來進行自然語言處理方面的工作,如機器翻譯,語言建模等。本文研究屬于文本分類的范疇,所以只需要用到Transformer的編碼部分。完整的編碼部分主要包括字符嵌入、位置編碼、自注意力機制、殘差連接和全連接層。
本文提出的算法流程如圖4所示。首先,將肽序列進行字符嵌入得到序列的嵌入矩陣,并將其與位置編碼后的矩陣進行疊加,得到特征矩陣。接著,特征矩陣經過N次重復的多頭注意力機制與殘差連接,以及線性映射與殘差連接模塊。最后,通過全連接層和Sigmoid激活函數層得到一個概率值,設定一個閾值,當概率值大于該閾值時,輸出為1;反之,輸出為0,其中1表示該肽序列為抗癌肽,0表示該肽序列為非抗癌肽。
本研究采用五倍交叉驗證來評估Transformer模型的性能。在每次驗證中,數據集被隨機分成5等份:4等份數據作為訓練數據,其余1等份數據作為測試數據。確保訓練數據與測試數據之間沒有重疊。最終驗證結果取五倍交叉驗證結果的平均值。為了便于比較,采用與ACP_DL相同的評價指標,包括準確性(accuracy,Acc)、敏感性(sensitive,Sens)、特異性(specificity,Spec)、精確率(precision,Prec)和馬修斯相關系數(Matthews correlation coefficient,MCC),定義如下:
其中,TN表示真反例,TP表示真正例,FN表示假反例,FP表示假正例。同時,也采用了ROC曲線和AUC來評估性能。
本文采用Keras深度學習框架,在一臺Tesla K80機器上進行訓練,其顯存為11 G。抗癌肽的預測實質是二分類問題,因此,本文選擇模型的損失函數為binary_crossentropy,優化函數選擇adam,激活函數為sigmoid,批大小設置為2。通過多次參數調優,在ACP240上的訓練輪數設置為200,在ACP740上的訓練輪數設置為100。
為了將本文模型與ACP-DL模型以及其他機器學習模型進行比較,在相同的數據集上執行了本文模型,如表2所示。

表2 實驗設置
模型都采取五倍交叉驗證,并取五次的平均值進行比較。需要注意的是,三個機器學習模型與ACP-DL模型的五倍交叉驗證結果在Yi[31]的論文中已經給出,這里不再進行重復實驗。
本文模型在ACP740和ACP240數據集上的五倍交叉驗證結果如表3所示。從表3可以看到,在ACP740數據集上,模型的平均準確率(Acc)為83.75%,標準差為5.97%;平均敏感性(Sens)為84.89%,標準差為7.64%;平均特異性(Spec)為85.26%,標準差為3.27%;平均精確率(Prec)為82.06%,標準差為9.37%;平均馬修斯相關系數(MCC)為67.39%,標準差為12.13%。其ROC曲線下面積(AUC)為0.898,如圖5所示。在ACP240數據集上,模型的平均準確率為87.92%,標準差為2.72%;平均敏感性為85.93%,標準差為4.87%;平均特異性為93.05%,標準差為1.65%;平均精確率為82.06%,標準差為6.82%;平均馬修斯相關系數為76.04%,標準差為5.08%。其ROC曲線下面積為0.910,如圖6所示。模型在ACP740上的訓練損失函數和訓練正確率如圖7所示,在ACP240上的訓練損失函數和訓練正確率如圖8所示,可以看出模型的訓練損失整體呈下降趨勢。

表3 模型在兩個數據集上的五倍交叉驗證結果
模型在ACP240數據集上的訓練損失出現多個短暫峰值,這是由于該數據集的樣本數量相對較少,導致訓練波動。表4展示了不同方法在同一數據集下的性能比較。從表4可以看出,與其它四種模型相比,本文模型提升顯著。這表明該模型能夠很好地完成抗癌肽預測任務,并且不需要額外設計復雜的特征提取算法,較其他模型相比更加簡單、高效、高準確率。

表4 不同方法在同一數據集下的性能比較
本文提出了一種基于Transformer模型的抗癌肽預測方法。該方法具有如下特點:
(1)與現有方法相比,具有較優的抗癌肽預測性能;
(2)僅需將肽序列作為輸入,模型自動將序列信息通過字符嵌入的方法映射為特征向量,無需復雜的特征表示方法,實現了使用Transformer網絡模型來自動識別抗癌肽和非抗癌肽。