999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT和CNN的基因剪接位點識別

2023-10-21 07:55:00左敏王虹顏文婧張青川
計算機應用 2023年10期
關鍵詞:模型

左敏,王虹,顏文婧,張青川*

基于BERT和CNN的基因剪接位點識別

左敏1,2,王虹1,2,顏文婧1,2,張青川1,2*

(1.北京工商大學 農產品質量安全追溯技術及應用國家工程研究中心,北京 100048; 2.北京工商大學 電商與物流學院,北京 100048)( ? 通信作者電子郵箱zqc1982@126.com)

隨著高通量測序技術的發展,海量的基因組序列數據為了解基因組的結構提供了數據基礎。剪接位點識別是基因組學研究的重要環節,在基因發現和確定基因結構方面發揮著重要作用,且有利于理解基因性狀的表達。針對現有模型對脫氧核糖核酸(DNA)序列高維特征提取能力不足的問題,構建了由BERT(Bidirectional Encoder Representations from Transformer)和平行的卷積神經網絡(CNN)組合而成的剪接位點預測模型——BERT-splice。首先,采用BERT預訓練方法訓練DNA語言模型,從而提取DNA序列的上下文動態關聯特征,并且使用高維矩陣映射DNA序列特征;其次,采用人類參考基因組序列hg19數據,使用DNA語言模型將該數據映射為高維矩陣后作為平行CNN分類器的輸入進行再訓練;最后,在上述基礎上構建了剪接位點預測模型。實驗結果表明,BERT-splice模型在DNA剪接位點供體集上的預測準確率為96.55%,在受體集上的準確率為95.80%,相較于BERT與循環卷積神經網絡(RCNN)構建的預測模型BERT-RCNN分別提高了1.55%和1.72%;同時,在5條完整的人類基因序列上測試得到的所提模型的供體/受體剪接位點平均假陽性率(FPR)為4.74%。以上驗證了BERT-splice模型用于基因剪接位點預測的有效性。

剪接位點識別;BERT;卷積神經網絡;深度學習;脫氧核糖核酸

0 引言

近年,高通量測序技術產生了海量的基因組序列,在增加生物序列數量的同時,擴大了對自動化序列分析計算技術的需求,給基因結構注釋領域的研究帶來了機遇和挑戰[1]。剪接位點識別是基因結構注釋研究領域的重要方向。在真核生物中,一個基因由多個外顯子和內含子組成,外顯子與內含子的邊界稱為剪接位點,基因剪接是基因表達中的重要過程,可以影響蛋白質翻譯的結果和人體生命活動。因此,正確識別剪接位點可以更好地了解基因表達過程,在生物醫學研究中發揮重要作用。

一個脫氧核糖核酸(DeoxyriboNucleic Acid, DNA)分子可以看作是由A、C、G和T這4個字組成的序列,分別代表腺嘌呤、胞嘧啶、鳥嘌呤和胸腺嘧啶這4種堿基。剪接位點的結構規則遵從“GT-AG”規則,即外顯子到內含子的邊界稱為供體剪接位點,通常表現為一個保守的二核苷酸——鳥嘌呤和胸腺嘧啶(Guanine and Thymine, GT);內含子到外顯子的邊界稱為受體剪接位點,通常表現為一個保守的二核苷酸——腺嘌呤和鳥嘌呤(Adenine and Guanine, AG),如圖1所示。

圖1 剪接位點示意圖

傳統的生物檢測方法檢測DNA剪接位點的成本高、耗時長,而機器學習方法識別剪接位點是一種更經濟、有效的解決方案。一條DNA序列包含大量GT/AG,因此供體/受體剪接位點的識別通常被轉化為兩個不同的二元分類問題,即區分一條DNA序列是否包含真剪接位點。近年,在DNA結構注釋研究領域廣泛使用的機器學習方法包括支持向量機(Support Vector Machine, SVM)[2-4]、馬爾可夫模型(Markov Model, MM)[5-6]、隨機森林(Random Forest, RF)[7-8]、貝葉斯網絡(Bayesian Network, BN)[9]和條件隨機場(Conditional Random Field, CRF)[10]等,均取得了良好效果。最近,相關領域引入了深度學習方法可以基于大量數據集的訓練自動提取最相關的特征,解決了機器學習方法需要手動定義特征集、捕捉DNA序列高維特征難的缺點,呈現很強的端到端預測能力[11]。大多數深度學習方法基于卷積神經網絡(Convolutional Neural Network, CNN),如DSSP(Deep Splice Site Prediction system)[12]、SpliceRover[13]、SpliceFinder[14]、SpliceAI[15]、Spliceator[16]和Deep Splicer[17],預測剪接位點;其他一些工具[18]專注于DNA的序列特征,采用基于循環神經網絡(Recurrent Neural Network, RNN)模型,如長短期記憶(Long Short-Term Memory, LSTM)和門控循環單位(Gated Recurrent Unit, GRU),捕捉狀態之間的依賴性。雖然這些工具在剪接位點預測取得良好的效果,但是CNN提取局部特征的能力受濾波器大小的限制,通常無法捕獲上下文中的語義依賴關系。RNN模型(如LSTM、GRU)雖然具有學習長期依賴的能力,但當輸入序列較長時,由于對過去所有的狀態順序處理,且壓縮上下文信息,存在梯度消失和效率低的問題。因此需要一種既能夠提取局部特征,又能夠全面考慮所有上下文信息的方法,從而更好地模擬DNA序列。

此外,深度學習方法依賴于相關研究問題的高質量數據集,在剪接位點的預測研究中,大多采用HS3D數據集[19]。該數據集的剪接位點位于中間,樣本長度為140核苷酸(nucleotide, nt),后續研究[20-22]大都沿用了該數據集。近期,研究人員探究了剪接位點預測任務所使用數據集的最佳輸入長度,如SpliceFinder測試了40~400 nt的序列長度,發現在擴大負樣本集前,長度對準確率的影響較小,擴大負樣本集后,更長的序列有助于模型保持良好的性能,研究任務最終選擇400 nt作為較優輸入長度。Spliceator測試了從20~600 nt長度的數據集,發現序列長度增加至200 nt后,預測精度較高。Deep Splicer將神經網絡的輸入長度分別設置為261、401、1 001和2 001,發現401 nt和1 001 nt作為輸入訓練的模型比其他模型假陽性更少,但考慮到精度和計算成本,最終認為401 nt長度可以在計算成本和準確率中取得平衡。

基于上述討論,本文設計了由BERT(Bidirectional Encoder Representations from Transformer)和平行CNN組合而成的剪接位點預測模型——BERT-splice;同時,基于模型的學習機制觀測,為剪接位點預測任務的最優輸入序列長度提供指導。通過集合DNA序列特性與深度學習技術,解決了DNA序列特征的表示和提取問題,實現了對供體/受體剪接位點的準確預測。

1 BERT?splice模型

基于DNA序列、蛋白質序列等生物序列與文本信息的相似之處,一些研究人員在DNA注釋研究領域引入自然語言處理技術,以文本的形式從生物數據中學習有用的特征,并取得了較好的效果[23-25]。BERT-splice模型是一種基于預訓練DNA語言模型編碼的混合模型架構。首先,使用BERT層通過查詢字向量表將DNA序列中的每個核苷酸轉換為一維向量,作為模型輸入;其次,提取BERT層中最后一層Transformer的輸出作為CNN層的輸入;最后,將剪接位點的檢測問題轉換為二分類問題。分類由全連接層(Fully Connected layer, FC)實施,該層將BERT字向量和多個平行CNN提取的特征映射為輸出。使用Sigmoid函數輸出預測概率,以確定是否是剪接位點。BERT-splice模型的框架見圖2。

圖2 BERT-splice模型框架

1.1 DNA預訓練模型

本文使用BERT預訓練提取DNA序列的高維“語義”特征,BERT通過自我監督的方式使用未標記數據學習DNA的基本“語法”和“語義”,并促進下游任務的繼續訓練。BERT由12個相同的Transformer編碼塊串接,每個Transformer編碼塊由一個多頭自注意機制和一個全連接的前饋神經網絡構成,如圖3所示。

注意力函數Attention可以描述為值向量的加權和,其中分配給每個值向量的權重通過查詢向量與相應鍵向量的相似性函數計算,計算公式如式(1)所示:

其中M為K的維度。

多頭注意機制執行不同的可學習線性投影,將、和集合平行地轉換為個子空間。獨立注意力輸出被連接并再次投射到集合的同一個維度,從而產生多頭注意值:

自注意力層的輸出在進入前饋神經網絡之前會經過殘差連接與歸一化層,歸一化之后的文本向量送入前饋神經網絡,它主要包含一個線性變換和一個采用ReLU(Rectified Linear Unit)激活函數的非線性變換兩層結構,如式(4)所示:

其中:為前饋神經網絡的輸入;1、2為權重向量;1、2為偏置。

1.2 剪接位點預測模型

本文構建了一個基于預訓練BERT模型所形成的DNA語義模型,結合多個平行CNN的分類器識別剪接位點,如圖4所示。

圖4 平行CNN結構

由于DNA序列中有意義的片段(motif)沒有明確的長度,因此采用多尺度的特征有助于模型學習。本文使用不同濾波尺度的平行CNN結構,提取DNA序列中的特征,再拼接多尺度特征,實現基于多尺度特征的有效識別。首先序列輸入基于BERT預訓練的DNA語言模型,獲得合理的初始值作為CNN的輸入,使得繼續訓練的CNN分類器可以在樣本數有限的情況下快速收斂,同時微調BERT模型。BERT的結構與DNA預訓練模型相同(見1.1節),多個平行的CNN包括輸入層、卷積層、池化層、ReLU層和全連接層。本文設置了6個平行的多尺度卷積層,每層有256個濾波器,卷積層的維度分別設置為3、4、5、9、10和11。

1.3 損失函數

本文使用二值交叉熵(Binary Cross Entropy)計算預測結果x和真實結果y的損失。計算公式如下:

2 實驗過程

2.1 實驗數據集

本文實驗使用了獨立構建的數據集。參考基因組hg19數據集(FASTA文件)和相應序列的注釋(BED文件)(從UCSC下載),最終構造了用于訓練DNA語言模型的數據集1和用于訓練剪接位點預測模型的數據集2。

數據集1將hg19數據集隨機切分為512 nt的長度,最終生成164萬條序列用于預訓練DNA語言模型。

數據集2由兩個子集組成,分別是供體數據集(Donor Splice Sites, DSS)、受體數據集(Acceptor Splice Sites, ASS)。由于剪接位點相鄰的核苷酸在剪接機制中發揮著重要作用,為了減少因序列長度導致剪接位點附近外顯子/內含子信息的缺失,在構造數據集時將剪接位點周圍外顯子/內含子相同長度的基因片段包含在內,即保證剪接位點上下游序列長度相等。本文以剪接位點二核苷酸為中心截取特定長度的基因片段,去除非標準剪接位點,刪除重疊樣本,作為正樣本數據集。正樣本序列的構建將剪接位點位于序列中間位置,并保持內含子與外顯子序列長度均等。正樣本數據集最終包含供體剪接位點數為74 192,受體剪接位點數為80 704。負樣本選取基因區域與正樣本集非重疊部分,隨機截取與正樣本相同的長度,保證二核苷酸GT/AG與供體/受體剪接位點位于相同的位置,負樣本數與正樣本數相等。最終將數據集按8∶1∶1劃分為訓練集、驗證集和獨立測試集,如表1所示。為了研究不同輸入長度對模型的影響,本文通過改變截取外顯子/內含子長度25~200 nt作為輸入,即模型輸入長度為50~400 nt,如圖5所示。

表1 數據集2的統計信息

圖5 選擇不同長度的DNA序列

2.2 BERT預訓練

本文將每一個核苷酸看作一個字,將數據集1按照單個堿基進行分詞,作為預訓練DNA語言模型的輸入。

本文采用掩碼語言模型(Masked Language Model, MLM)方法,該模型簡單隨機地將一部分輸入替換為掩碼標記,通過預測這些掩碼標記實現訓練策略(如圖6所示)。本文將語料庫中15%的區域隨機替換為掩碼令牌,其中這些掩碼令牌中,只有80%被真正替換為掩碼標記,10%未被替換,為了防止預測中先驗信息的泄漏將剩余10%替換為隨機信息。

圖6 采用MLM方法訓練BERT

2.3 超參數設置

本文的實驗環境如下:操作系統為Windows10、64 bit,處理器為Intel Core i7-1165G7 CPU,顯卡為NVIDIA GeForce RTX3060,顯存為12 GB。編程環境為Python3.9,PyTorch1.9.1。模型參數設置如表2所示。

表2 模型參數設置

在模型訓練過程中還使用了“提前停止(Early Stopping)”技巧,即當驗證集上的損失不再下降時及時停止訓練,以此避免過擬合、不收斂等,并提高模型訓練效率。

2.4 評價指標

本文利用準確率(accuracy)、敏感性 (Sensitivity, Sn) 、特異性 (Specificity, Sp)、假陽性率(False Positive Rate, FPR)、Matthew相關系數(Matthews Correlation Coefficient, MCC)、ROC(Receiver Operating Characteristic)曲線下面積(Area Under Curve, AUC)和Top-準確率(Top-acc)評估模型性能。計算公式如下:

其中:真陽性表示正確預測剪接位點的數量;真陰性表示正確預測非剪接位點的數量;假陽性表示將非剪接位點預測為剪接位點的數量;假陰性表示將剪接位點預測為非剪接位點的數量。

MCC考慮、、和檢查二元分類的質量,+1表示完美預測,0表示平均隨機預測,-1表示逆預測。

ROC曲線表示真陽性率(True Positive Rate, TPR)與假陽性率的關系。它描述了真陽性和假陽性之間的相對權衡,可以在整個類分布范圍內比較分類器的性能。AUC計算ROC下的區域。如果AUC接近0.5,則性能接近隨機;如果AUC接近1,則性能接近完美。

因為DNA序列中的大多數位置不是剪接位點,所以也評估了Top-準確率:假設在基因組序列中,有個位置是供體或受體位點,在使用BERT-splice預測基因中每個二核苷酸GT/AG的類別后,降序排列它的預測概率,從預測概率的有序列表中選擇前個核苷酸位置,這個核苷酸中正確分類的核苷酸的比例被稱為Top-準確率。本文計算了Top-50%準確率,即計算二核苷酸列表中前50%二核苷酸內正確分類的比例。

3 實驗與結果分析

3.1 測試不同長度的輸入

為了選擇最適合訓練的區域,本文使用50~400 nt長度的序列作為模型的輸入,如表3所示。在獨立測試集上,對于供體位點,所有長度的平均準確率為96.40%。當長度為300 nt時,準確率最高為96.88%。對于受體剪接位點,相較于供體剪接位點平均準確率有所下降,為95.24%。當序列長度為300 nt時,準確率為95.80%。由此得出,更長的序列有助于模型保持良好的性能。因此在接下的實驗中,本文使用300 nt的序列長度預測供體和受體位點。

表3 不同輸入長度的序列在獨立測試集上的準確率和AUC

3.2 不同特征提取模型的性能比較

本文使用BERT模型、Word2Vec[26]和fastText[27]生成序列特征嵌入信息。為了對性能進行公平的比較,將預先訓練好的特征嵌入模型與相同結構的平行CNN進行連接。特征嵌入模型的預訓練均使用數據集1,剪接位點預測任務使用數據集2,在獨立測試集上性能評估的結果如表4所示。

如表4所示,基于BERT特征嵌入的預測器獲得了最好的性能,表明BERT生成的嵌入信息可以提供最有效的DNA理解,有利于促進下游分類器獲得更好的效果。

表4 不同模型在獨立測試集上的性能比較

3.3 不同分類模型的性能比較

為了評估BERT-splice的預測性能,本文選取了不同的分類器替換平行CNN作為對比基線算法,包括BERT、BERT與雙向長短期記憶(Bi-directional Long Short-Term Memory, BiLSTM)網絡結合的BERT-BiLSTM[28]、BERT與循環卷積神經網絡(Recurrent Convolutional Neural Network, RCNN)結合的BERT-RCNN[29]。

不同模型在數據集2獨立測試集上的預測結果如表5所示。可以看出,本文提出的BERT-splice無論在供體剪接位點還是受體剪接位點上的測試結果均為最優,在DNA剪接位點供體集上的預測準確率為96.55%,在受體集上的準確率為95.80%,相較于BERT-RCNN分別提高了1.55%和1.72%。BERT-splice模型的分類效果優于對比模型。結果充分說明,BERT-splice能夠對DNA序列特征進行更高效的利用,能夠提升預測效果。

3.4 人類基因序列測試

本節通過預測人類基因序列上的剪接位點進一步驗證模型的泛化性能,所采用的驗證基因,沒有在模型訓練和繼續訓練過程中使用,所選擇基因序列上供體/受體剪接位點數不少于4個。由于基因序列含有大量的GT/AG二核苷酸位點,對于測試的每一條基因,正負樣本數高度不平衡(如表6所示)。通過以GT/AG為中心的滑動窗口,選取300 nt長度的序列作為模型輸入,預測每一個GT/AG位點,判斷滑動窗口中心的二核苷酸是供體或是其他通用核苷酸/受體,或是其他通用核苷酸。一旦預測了每個序列,則利用預測概率將供體和受體的預測位點按降序排列。評估Top-50%準確率、模型預測的假陽性,實驗結果如表6所示。可以看出,供體和受體剪接位點平均Top-50%準確率為95.37%,平均假陽性率為4.74%。總體上,BERT-splice適用于預測基因序列剪接位點預測。

表5 本文模型與常用的分類模型在獨立測試集上的性能比較

表6 基于BERT-splice模型的人類基因預測結果

4 結語

剪接位點的識別在真核生物基因結構預測中至關重要,本文提出了一種剪接位點預測模型BERT-splice。BERT-splice模型使用BERT的預訓練對DNA序列進行高維特征體系表示,實現對人類基因組序列上下文動態關聯特征的有效嵌入;同時,集成多個平行CNN,進一步提取局部相關特征,實現了對DNA剪接位點的準確識別;最后,基于深度學習的決策機制,為剪接位點預測任務的最優輸入長度提供指導。實驗結果表明,基于預訓練語言模型的BERT-splice提取的向量表示在應用上效果優于Word2Vec和fastText的特征向量;同時,與其他分類模型(BERT-BiLSTM和BERT-RCNN)相比,多個平行的CNN在處理剪接位點識別的任務上性能最優。本文基于多種序列的長度測試,認為長度為300 nt的序列可以涵蓋所需決策信息,在準確率和計算成本消耗上達到一定平衡。最后,本文預測了完整的基因序列,取得了良好的效果。在剪接位點預測模型成功構建的基礎上,下一步工作將涉及將該模型應用于其他物種和其他生物元件的識別。這是為了擴大模型的適用范圍,提供準確的預測和識別工具,為相關研究提供更全面的支持。

[1] WAINBERG M, MERICO D, DELONG A, et al. Deep learning in biomedicine[J]. Nature Biotechnology, 2018, 36(9): 829-838.

[2] DEGROEVE S, SAEYS Y, DE BAETS B, et al. SpliceMachine: predicting splice sites from high-dimensional local context representations[J]. Bioinformatics, 2005, 21(8):1332-1338.

[3] SONNENBURG S O R, SCHWEIKERT G, PHILIPS P, et al. Accurate splice site prediction using support vector machines[J]. BMC Bioinformatics, 2007, 8(S10): No.S7.

[4] MAJI S, GARG D. Hybrid approach using SVM and MM2 in splice site junction identification[J]. Current Bioinformatics, 2014, 9(1): 76-85.

[5] PASHAEI E, YILMAZ A, OZEN M, et al. A novel method for splice sites prediction using sequence component and hidden Markov model[C]// Proceedings of the 38th Annual International Conference of the IEEE Engineering in Medicine and Biology Society. Piscataway: IEEE, 2016: 3076-3079.

[6] ZHANG Q, PENG Q, ZHANG Q, et al. Splice sites prediction of Human genome using length-variable Markov model and feature selection[J]. Expert Systems with Applications, 2010, 37(4): 2771-2782.

[7] PASHAEI E, OZEN M, AYDIN N. Splice site identification in human genome using random forest[J]. Health and Technology, 2017, 7(1): 141-152.

[8] MEHER P K, SAHU T K, RAO A R. Prediction of donor splice sites using random forest with a new sequence encoding approach[J]. BioData Mining, 2016, 9: No.4.

[9] CHEN T M, LU C C, LI W H. Prediction of splice sites with dependency graphs and their expanded bayesian networks[J]. Bioinformatics, 2005, 21(4): 471-482.

[10] SUN S, DONG Z, ZHAO J. Conditional random fields for multiview sequential data modeling[J]. IEEE Transactions on Neural Networks and Learning Systems, 2022, 33(3): 1242-1253.

[11] LeCUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.

[12] NAITO T. Human splice-site prediction with deep neural networks[J]. Journal of Computational Biology, 2018, 25(8): 954-961.

[13] ZUALLAERT J, GODIN F, KIM M, et al. SpliceRover: interpretable convolutional neural networks for improved splice site prediction[J]. Bioinformatics, 2018, 34(24): 4180-4188.

[14] WANG R, WANG Z, WANG J, et al. SpliceFinder: ab initio prediction of splice sites using convolutional neural network[J]. BMC Bioinformatics, 2019, 20(S23): No.652.

[15] JAGANATHAN K, PANAGIOTOPOULOU S K, McRAE J F, et al. Predicting splicing from primary sequence with deep learning[J]. Cell, 2019, 176(3): 535-548.e24.

[16] SCALZITTI N, KRESS A, ORHAND R, et al. Spliceator: multi-species splice site prediction using convolutional neural networks[J]. BMC Bioinformatics, 2021, 22: No.561.

[17] FERNANDEZ-CASTILLO E, BARBOSA-SANTILLáN L I, FALCON-MORALES L, et al. Deep Splicer: a CNN model for splice site prediction in genetic sequences[J]. Genes, 2022, 13(5): No.907.

[18] CANATALAY P J, UCAN O N. A bidirectional LSTM-RNN and GRU method to exon prediction using splice-site mapping[J]. Applied Sciences, 2022, 12(9): No.4390.

[19] POLLASTRO P, RAMPONE S. HS3D, a dataset of Homo Sapiens Splice regions, and its extraction procedure from a major public database[J]. International Journal of Modern Physics C, 2002, 13(8): 1105-1117.

[20] TAYARA H, TAHIR M, CHONG K T. iSS-CNN: identifying splicing sites using convolution neural network[J]. Chemometrics and Intelligent Laboratory Systems, 2019, 188: 63-69.

[21] DASARI C M, BHUKYA R. InterSSPP: investigating patterns through interpretable deep neural networks for accurate splice signal prediction[J]. Chemometrics and Intelligent Laboratory Systems, 2020, 206: No.104144.

[22] DU X, YAO Y, DIAO Y, et al. DeepSS: exploring splice site motif through convolutional neural network directly from DNA sequence[J]. IEEE Access, 2018, 6: 32958-32978.

[23] DO D T, LE T Q T, LE N Q K. Using deep neural networks and biological subwords to detect protein S-sulfenylation sites[J]. Briefings in Bioinformatics, 2021, 22(3): No.bbaa128.

[24] HAMID M N, FRIEDBERG I. Identifying antimicrobial peptides using word embedding with deep recurrent neural networks[J]. Bioinformatics, 2019, 35(12): 2009-2016.

[25] 張海豐,曾誠,潘列,等. 結合BERT和特征投影網絡的新聞主題文本分類方法[J]. 計算機應用, 2022, 42(4): 1116-1124.(ZHANG H F, ZENG C, PAN L, et al. News topic text classification method based on BERT and feature projection network[J]. Journal of Computer Applications, 2022, 42(4): 1116-1124.)

[26] ASGARI E, MOFRAD M R K. Continuous distributed representation of biological sequences for deep proteomics and genomics[J]. PLoS ONE, 2015, 10(11): No.e0141287.

[27] JOULIN A, GRAVE E, BOJANOWSKI P, et al. Bag of tricks for efficient text classification[C]// Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2, Short Papers. Stroudsburg, PA: ACL, 2017: 427-431.

[28] GRAVES A, JAITLY N, MOHAMED A R. Hybrid speech recognition with deep bidirectional LSTM[C]// Proceedings of the 2013 IEEE Workshop on Automatic Speech Recognition and Understanding. Piscataway: IEEE, 2013: 273-278.

[29] LAI S, XU L, LIU K, et al. Recurrent convolutional neural networks for text classification[C]// Proceedings of the 29th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2015: 2267-2273.

Gene splice site identification based on BERT and CNN

ZUO Min1,2, WANG Hong1,2, YAN Wenjing1,2, ZHANG Qingchuan1,2*

(1?,,100048,;2?,,100048,)

With the development of high-throughput sequencing technology, massive genome sequence data provide a data basis to understand the structure of genome. As an essential part of genomics research, splice site identification plays a vital role in gene discovery and determination of gene structure, and is of great importance for understanding the expression of gene traits. To address the problem that existing models cannot extract high-dimensional features of DNA (DeoxyriboNucleic Acid) sequences sufficiently, a splice site prediction model consisted of BERT (Bidirectional Encoder Representations from Transformers) and parallel Convolutional Neural Network (CNN) was constructed, namely BERT-splice. Firstly, the DNA language model was trained by BERT pre-training method to extract the contextual dynamic association features of DNA sequences and map DNA sequence features with a high-dimensional matrix. Then, the DNA language model was used to map the human reference genome sequence hg19 data into a high-dimensional matrix, and the result was adopted as input of parallel CNN classifier for retraining. Finally, a splice site prediction model was constructed on the basis of the above. Experimental results show that the prediction accuracy of BERT-splice model is 96.55% on the donor set of DNA splice sites and 95.80% on the acceptor set, which improved by 1.55% and 1.72% respectively, compared to that of the BERT and Recurrent Convolutional Neural Network (RCNN) constructed prediction model BERT-RCNN. Meanwhile, the average False Positive Rate (FPR) of donor/acceptor splice sites tested on five complete human gene sequences is 4.74%. The above verifies that the effectiveness of BERT-splice model for gene splice site prediction.

splice site identification; Bidirectional Encoder Representations from Transformers (BERT); Convolutional Neural Network (CNN); deep learning; DeoxyriboNucleic Acid (DNA)

This work is partially supported by National Natural Science Foundation of China (61873027).

ZUO Min,born in 1973, Ph. D., professor. His research interests include food big data, deep learning.

WANG Hong, born in 1997, M. S. candidate. Her research interests include natural language processing.

YAN Wenjing, born in 1985, Ph. D., lecturer. Her research interests include intelligent processing of biological information, deep learning, image recognition.

ZHANG Qingchuan, born in 1982, Ph. D., associate professor. His research interests include natural language processing, deep learning, information extraction.

1001-9081(2023)10-3309-06

10.11772/j.issn.1001-9081.2022091447

2022?09?29;

2022?12?22;

國家自然科學基金項目資助項目(61873027)。

左敏(1973—),男,安徽銅陵人,教授,博士,主要研究方向:食品大數據、深度學習; 王虹(1997—),女,山西大同人,碩士研究生,主要研究方向:自然語言處理; 顏文婧(1985—),女,安徽淮南人,講師,博士,主要研究方向:生物信息智能處理、深度學習、圖像識別; 張青川(1982—),男,河北石家莊人,副教授,博士,主要研究方向:自然語言處理、深度學習、信息抽取。

TP399

A

2023?01?03。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产精品成人观看视频国产 | 视频在线观看一区二区| 国产主播一区二区三区| 国产日韩欧美中文| 无码AV日韩一二三区| 99激情网| 91国内外精品自在线播放| 国产无遮挡裸体免费视频| 囯产av无码片毛片一级| 亚洲日韩AV无码精品| 在线另类稀缺国产呦| 国产白浆一区二区三区视频在线| 免费精品一区二区h| 亚洲有码在线播放| 国产传媒一区二区三区四区五区| 99在线小视频| 国产一区二区免费播放| 福利在线一区| 99偷拍视频精品一区二区| 色综合久久无码网| 天天色天天综合| 中文字幕久久精品波多野结| 国产成人精品一区二区| 777午夜精品电影免费看| 欧美日韩第三页| 久久天天躁狠狠躁夜夜2020一| 国产亚洲欧美日韩在线一区二区三区| 丰满人妻中出白浆| 91精品人妻一区二区| 天天色天天综合网| 欧美啪啪精品| 午夜毛片福利| 人与鲁专区| 国产亚洲高清视频| 伊人无码视屏| 在线观看精品国产入口| 亚洲九九视频| 美女免费精品高清毛片在线视| a级毛片一区二区免费视频| 午夜限制老子影院888| 久久精品无码国产一区二区三区| www.精品国产| 亚洲精品无码av中文字幕| 国产在线日本| 91原创视频在线| 国产一区二区福利| 久久99国产综合精品女同| 亚洲天堂啪啪| 欧美狠狠干| 色偷偷av男人的天堂不卡| 欧美一区二区自偷自拍视频| 综合人妻久久一区二区精品 | 日韩国产欧美精品在线| 成人年鲁鲁在线观看视频| 精品国产一区91在线| 婷婷综合色| 欧美视频在线第一页| 亚洲精品久综合蜜| 欧洲精品视频在线观看| 国产网站黄| 国产青青草视频| 亚洲第一视频区| 久热中文字幕在线观看| 亚洲第一视频网| 中字无码av在线电影| 亚洲日韩Av中文字幕无码| 久久午夜夜伦鲁鲁片不卡| 草草影院国产第一页| 天堂岛国av无码免费无禁网站| 免费国产高清视频| 久久网欧美| 国内精品久久久久久久久久影视| 国产人妖视频一区在线观看| 国产一区二区色淫影院| 久草热视频在线| 国产香蕉在线视频| 亚洲国产成人综合精品2020| 永久在线精品免费视频观看| 国产男女XX00免费观看| 国产一二三区在线| 欧美在线导航| 制服无码网站|