王 帥 蔡磊鑫 顧 倜 呂 強,2
1(蘇州大學計算機科學與技術學院 江蘇 蘇州 215006)2(蘇州大學江蘇省計算機信息處理技術重點實驗室 江蘇 蘇州 215006)
運用雙向LSTM擬合RNA二級結構打分函數
王 帥1蔡磊鑫1顧 倜1呂 強1,2
1(蘇州大學計算機科學與技術學院 江蘇 蘇州 215006)2(蘇州大學江蘇省計算機信息處理技術重點實驗室 江蘇 蘇州 215006)
RNA二級結構的打分函數在RNA二級結構預測中扮演著越來越重要的角色。目前對RNA二級結構的打分函數并沒有很好地抓住RNA的折疊機制。我們認為遞歸神經網絡層與層之間的信息傳遞方式和RNA 的折疊方式有相似之處。提出使用雙向LSTM(Long Short term Memory)神經網絡對RNA二級結構進行打分。在數據集ASE(長度小于500),以及CRW(大部分長度大于1 000)上,進行了三項實驗。通過擬合SEN(Sensitivity)與PPV(Specificity)打分函數確定了在目標函數為mean_squared_error時擬合效果最好;進而對比較復雜的打分函數MCC(Matthews correlation coefficient)進行擬合;最后實驗得出雙層雙向LSTM模型的結果優于單層雙向LSTM模型的結果。通過實驗,得到的打分函數包含了堿基序列的全局屬性。實驗結果表明LSTM深度神經網絡模型可以很好地擬合RNA二級結構的打分函數。
RNA 打分函數 二級結構 雙向LSTM
眾所周知,四種核糖核苷酸以氫鍵聯接堿基(A對U;G對C)形成RNA的二級結構。RNA作為生物遺傳信息傳遞和復制的重要組成部分,其結構非常復雜。RNA分子式在生物體內參與各種如細胞分化、代謝、記憶存儲等重要生命活動的一類大分子,其常見種類有rRNA、mRNA、tRNA。 其中除tRNA分子量較小外,其余RNA分子都具有非常大的分子量且結構復雜。傳統的物理、化學結構預測方法只適用于測量分子量較小的RNA。 而針對大分子量的RNA二級結構預測,使用計算機技術預測是一條行之有效的方法。預測RNA 二級結構[1]一般采用最小自由能模型。該模型假定真實的RNA 會折疊成一個具有最小自由能[3]的二級結構。而二級結構中的每段模體[6]都有相應的自由能計算方法。一般莖區[6-7]的自由能為負值,環區自由能為正值,莖區越長其自由能越小,因此可以近似的認為,配對的堿基[4]使自由能降低,沒有形成配對的堿基使自由能升高。
常用的數據擬合方法有線性擬合、曲線擬合、二次函數擬合、數據的n次多項式擬合等,但這些方法不能擬合出比較好的RNA二級結構打分函數?;谛蛄械臋C器學習方法有神經網絡、支持向量機和隱馬爾可夫模型等,尤其是遞歸神經網絡,在基于序列的機器學習方法中取得了比較好的成果。例如:Oriol Vinyals等[24]使用遞歸神經網絡在人工智能連接計算機視覺和自然語言處理方面做出了卓越貢獻,在Pascal數據集上BLEU分數由25提高到59;Ilya Sutskever等[25]使用遞歸神經網絡在機器翻譯領域作出了重大貢獻,在WMT-14數據集中英文翻譯中文的BLEU分數從33.3提高到36.5。因為本文的生物信息特征都是基于序列提取的,所以使用雙向LSTM[2,8]來對每個RNA序列的整條鏈信息進行建模,為了避免機器學習過程中出現過擬合現象,本文在模型訓練過程中加入了處理過擬合的Dropout技術。實驗結果表明,基于雙向LSTM[2,8]的深度神經網絡明顯提高了RNA二級結構打分函數的準確率,另外,Dropout對防止過擬合也起了重要作用。
1.1 數據集和評估方法
本文使用ASE以及CRW數據集作為實驗的研究對象,在ASE數據集中,總共有450條RNA,RNA序列的長度在200到500之間,每條RNA都有6 000種結構,也就是有2 700 000條序列作為實驗對象,在CRW數據集中總共有上千條RNA,本文取其中的100條作為實驗對象,序列的長度在1 000以上,每條RNA都有5 000種結構,有500 000條序列作為實驗對象。在機器學習和模式識別領域中:訓練集是用來估計模型的;驗證集是用來確定網絡結構或者控制模型復雜程度的參數;測試集則是檢驗最終選擇最優模型的性能。本文將訓練集和驗證集,以及測試集按照8∶1∶1的方式分配。
對于預測結果的評估,現階段對RNA二級結構的打分函數絕大多數文獻使用的是敏感性SEN(真實結構中所有的堿基對中被正確預測到的百分比)跟特異性PPV(在所有預測到的堿基對中正確預測的百分比)進行測量。一般的預測方法很難兩者兼顧,總是偏向于一邊,因此通常用馬休茲相互作用系數MCC折中衡量。另一種打分函數叫作MEA(MaxExpect Accuracy),MEA的預測包括了最優結構(擁有最高的堿基配對的準確性期望)和次優結構兩種研究對象。
但是MEA作為對RNA二級結構的打分函數并不準確,因為對于同一RNA結構,在其他標準打分函數(MCC、SEN、PPV)高的同時,MEA并不一定同樣高,所以能夠得到一種比較精確的打分函數是目前亟待解決的問題。本文中對于此模型主要的評估指標有MCC、SEN以及PPV。
1.2 特征提取以及計算目標變量
本文對每條RNA的幾千種結構都進行了特征提取,以及對目標變量的計算。
對特征的提取使用的是四種堿基類型A(腺嘌呤核糖核苷酸)、T(胸腺嘧啶核糖核苷酸)、U(尿嘧啶核糖核苷酸)、G(鳥嘌呤核糖核苷酸)作為對RNA二級結構打分的第一個特征屬性,輸入時使用四種數字分別表示這四類堿基;另一個特征屬性為RNA序列的配對情況,哪兩個堿基互相配對,特征表示為與此堿基配對堿基的序號,沒有形成配對的堿基用零來表示。
目標變量主要包括SEN、PPV和MCC,其計算公式如下:


式中,TP表示正確預測堿基對的個數;FN表示真實結構中存在但沒有被正確預測出的堿基對個數;FP表示真實結構中不存在卻被錯誤預測的堿基對個數;TN表示正確預測的不配對的堿基的個數。
1.3 模型及訓練
LSTM是對傳統遞歸神經網絡的改進,它用記憶單元替換了傳統遞歸神經網絡的隱函數。這樣的改進使LSTM可以記憶比傳統遞歸神經網絡更長范圍的上下文。本文使用的LSTM模型表述如下:
it=σ(Wxixt+Whiht-1+bi)
(1)
ft=σ(Wxfxt+Whfht-1+bf)
(2)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)
(3)
ot=σ(Wxoxt+Whoht-1+bo)
(4)
ht=ottanh(ct)
(5)
(6)
式中,σ表示sigmoid激活函數,it、ft、ot分別代表輸入門、遺忘門、輸出門。ct代表記憶細胞,ht代表隱層輸出。記憶細胞存儲了序列的過去信息,輸入門控制信息的輸入,也就是控制當前輸入的信息是如何影響記憶細胞的。
眾所周知,單向的遞歸神經網絡[10]只是從序列的一端向另一端逐個讀取輸入數據,所以在任意的時刻,遞歸神經網絡里存儲的數據只有當前和過去的信息。然而向RNA序列上的一個堿基,它既與它前面的堿基相關,也會與它后面的堿基相關。對于這樣的問題遞歸神經網絡的每個時間點的輸出應該包含兩個方向的信息,所以單向的遞歸神經網絡是不適合對RNA序列進行建模的。


圖1 展開的雙向LSTM圖
本文使用的模型是基于Theano[5]和Keras(http://keras.io/)編寫的。圖2為模型整體架構圖:模型中包含了兩層雙向LSTM,第一層的隱節點數為40,第二層的隱節點數為20。第二層雙向LSTM的輸出再輸入給Dense全連接層,Dense層的輸出為擬合后的打分值。為了避免過擬合現象,全連接層的后面加入了Dropout層[11],Dropout的比率為0.5,最后還有一個Logistic層[12]用于分類。對迭代次數的設置為:外層設為20,內層設為動態迭代次數,當訓練集的損失函數與驗證集的損失函數相差小于0.5%時內層迭代停止。

圖2 模型架構圖
常規模型一般應用于等長序列的訓練,并且均為單層模型,對激活函數也并未做出適當調整,極易出現過擬合現象。所以本文設計的模型架構不同于一般模型,訓練過程也和一般模型的訓練過程有所不同。另外由于每次訓練的序列長度不等,所以運用了隨機逐條的方法進行訓練,每條序列有幾千種結構。優化算法使用Keras實現的Adam[13],Adam的學習速率設為0.005,目標函數設為mean_squared_error(均方誤差公式)、mean_squared_logarithmic_error(均方對數誤差公式),其他參數保持默認值。
按照此模型在本地機器上(CPU:Intel(R) Xeon(R) E5-2620 v2 @ 2.10 GHz 內存:64 GB)訓練一個batch數據平均需要1~3分鐘。
2.1 在ASE數據集上對回歸目標變量為SEN與PPV的結果分析
因為CRW數據集上的RNA序列長度都大于1 000,有的序列長度甚至達到了3 000,所以雙向LSTM模型對CRW數據集上的擬合需要對模型節點數進行增加,對迭代次數也要進行相應的提高,總體效果與ASE數據集相差不大。所以下面本文著重對ASE數據集進行結果分析。
本文根據皮爾森相關系數PCC[20](Pearson correlation coefficient),以及標準差SD(Standard Deviation)作為對擬合打分函數前后的評價標準來評價模型對目標變量擬合的好壞。
在目標函數為mean_squared_error下,擬合SEN后的分數與SEN的PCC在[0.2,0.5]之間,SD由SEN的0.02左右降為擬合SEN目標變量的0.005左右。在目標函數為mean_squared_logarithmic_error下,擬合后SEN的分數與SEN的PCC在[0.1,0.3]之間,SD由SEN的0.02左右降為擬合數據的0.005左右。
在目標函數為mean_squared_error下,擬合PPV后的分數與PPV的PCC在[0.05,0.2]之間,SD由PPV的0.02左右降為擬合PPV目標變量的0.01左右。在目標函數為mean_squared_logarithmic_error下,擬合后PPV的分數與PPV的PCC在[0.05,0.2]之間,SD由PPV的0.02左右降為擬合數據的0.005左右。
為了進一步觀察兩個目標函數的優劣性,本文比較了兩者在訓練集、驗證集,以及測試集上的loss值。圖3描述了在目標函數為mean_squared_error下擬合SEN的測試集與驗證集的loss變化,訓練集與驗證集的loss值最終趨于相同,同時測試集的Test score為0.023 945 9,比訓練集與驗證集的loss值低了一些;圖4描述了在目標函數為mean_squared_error下擬合PPV的測試集與驗證集的loss變化,訓練集與驗證集的loss值最終趨于相同,同時測試集的Test score為0.001 214 16,比訓練集與驗證集的loss值低很多,起到了明顯的擬合效果。

圖3 在mean_squared_error下SEN測試集與驗證集的loss變化

圖4 在mean_squared_error下PPV測試集與驗證集的loss變化
2.2 在ASE數據集上對目標變量為MCC的結果分析
本文在與SEN跟PPV相同的數據集上擬合MCC目標變量,因為MCC的計算公式囊括了SEN與PPV的內容,并復雜于上述兩種打分函數,所以在同一模型的情況下擬合MCC的打分函數并不是很理想。因此將模型的外層迭代次數增加到40,結果有了一些提升,最終與其他兩種打分函數的擬合情況相差并不是很大。
在目標函數為mean_squared_error下,擬合MCC后的分數與MCC的PCC在[0.05,0.35]之間,相關性沒有SEN的相關性好,但是高于PPV的相關性。SD由MCC的0.02左右降為擬合數據后的0.005左右。表1代表了兩層雙向LSTM對MCC打分函數的擬合情況。

表1 在分數為MCC下的雙層雙向LSTM的擬合情況
為了進一步觀察擬合MCC打分函數的情況,本文對其訓練集,以及驗證集的loss進行分析。圖5描述了在目標函數為mean_squared_error下擬合MCC的訓練集與驗證集的loss變化,同時測試集的Test score為0.001 435 58,比訓練集與驗證集的loss值低,起到了明顯的擬合效果。

圖5 在mean_squared_error下MCC測試集與驗證集的loss變化
2.3 在ASE數據集上對兩層雙向LSTM與單層雙向LSTM模型的結果比較
一般情況下,對擬合行為應用雙向LSTM只需要單層的雙向LSTM即可,但為了能夠得到更好的擬合效果,并對兩層的雙向LSTM與單層的雙向LSTM進行性能的比較,本文對同樣的數據集也進行了單層的雙向LSTM實驗。由于數據集比較大,每條RNA的測試集的目標變量個數已經達到600,所以在做表時提取了測試集的六十分之一作為代表。表2給出了兩層雙向LSTM與單層雙向LSTM對打分函數為SEN的擬合情況;表3給出了兩層雙向LSTM與單層雙向LSTM對打分函數為PPV的擬合情況,本文提取出數據集中的同一條RNA序列,并且在兩個模型的其他條件均相同的情況下,可以明確地看出兩層的雙向LSTM的擬合效果優于單層的雙向LSTM擬合效果。

表2 在分數為SEN下的雙層雙向LSTM與單層雙向LSTM模型的比較

表3 在分數為PPV下的雙層雙向LSTM與單層雙向LSTM模型的比較
同時,本文對兩個模型進行了皮爾森相關系數以及標準差的分析,在相同條件的情況下,擬合SEN后的分數與SEN的PCC由雙層雙向LSTM的區間[0.2,0.5]降為單層雙向LSTM的區間[0.1,0.35],相關性下降;擬合PPV后的分數與PPV的PCC由雙層雙向LSTM的區間[0.05,0.2]降為單層雙向LSTM的區間[0.05,0.15],相關性下降。SD由擬合SEN的雙層雙向LSTM的0.005左右增長為單層雙向LSTM的0.01左右;擬合SEN的雙層雙向LSTM的0.005左右增長為單層雙向LSTM的0.008左右,穩定性增強。
雙層雙向LSTM優于單層雙向LSTM的主要原因在于數據集的第一維為300左右,第二維為2,若是只有一層雙向LSTM的模型,則維度直接降為10×10,維度變化太過陡峭;若是有兩層雙向LSTM模型的話,在第一層雙向LSTM維度可以減為20×20,繼而再進入第二層雙向LSTM時維度變為10×10,這樣可以令維度變化比較舒緩,可以更好地訓練數據集,進而對結果能夠得到更大的優化。
2.4 在ASE數據集上Linear regression、雙向GRU(Gated Recurrent Unit)、雙向LSTM與改進的雙向LSTM四種算法的結果比較
本文提到了對RNA二級結構的打分函數有MEA(MaxExpect Accuracy),此打分函數擁有最高堿基配對的準確性期望。MEA[16]計算公式如下:

(7)
Pbp(i,j)為形成配對堿基i與j的概率,Pss(k)為未形成配對的堿基k的概率。
由于MEA對RNA二級結構的打分并不是很準確,所以本文將配對堿基概率與單鏈堿基概率按照堿基類型分別在A、G、C、U這四類堿基上分別加上參數,總共是八個參數,利用批量梯度下降算法[17]訓練上述參數,進而對打分函數進行擬合。
另一種為雙向GRU[19](Gated Recurrent Unit)模型,它比LSTM模型簡單易于實現,兩者在不同問題上各有優勢,兩個模型主要區別在于記憶單元內部的構造不同。實現公式如下:
rt=σ(Wxrxt+Whrht-1+br)
(8)
zt=σ(Wxzxt+Whzht-1+bz)
(9)

(10)

(11)
式中,rt和zt分別代表重置門和更新門,ht類似于LSTM的記憶細胞ct。此模型允許丟棄與未來不想關的信息,從而產生更加簡潔的輸入信息。此模型與雙向LSTM相比其他參數不變。
本文還將雙向LSTM算法進行了改進,傳統的雙向LSTM是將前饋神經網絡(forward)與后饋神經網絡(backward)的輸出進行了簡單的加和,本文將其運算轉換為加和的sigmoid函數,具體公式如下:

(12)
同時對模型節點數進行了適當的增加,迭代次數也增加到60。表4給出了四種算法的結果比較,可以明確地看出改進后的雙向LSTM算法比另外三種算法效果要好5%左右。

表4 Linear regression、雙向GRU、雙向LSTM與改進的雙向LSTM四種算法在目標變量為MCC上的結果比較
皮爾森相關系數值越大,其與原分數的相關性越強,標準差越小說明分數擺動幅度越小,越穩定。從表4可以看出,改進后的雙向LSTM的相關性是這四種算法中最好的,穩定性也是最好的,并且這四種算法的相關性與穩定性在原分數的基礎上都有所增強。
3.1 對于含假結的RNA的實驗驗證以及適用程度
在數據集為RNASTRAND中,含有特殊結構(假結[18]Pseudoknots)的RNA有ASE_00001-ASE_00009以及ASE_00011,本文圍繞含有假結的RNA進行了實驗結果比對,假結結構如圖6所示。

圖6 含有假結的RNA序列
本文應用違反率VR(Violation rate)來對經過改進后的雙向LSTM模型得出的打分函數與SEN、PPV和MCC三種標準打分函數進行比較。違反率是在標準打分函數排序的情況下所對應模型輸出結果排序的違反情況。表5給出了三條含假結的RNA在四種算法上的違反率,可以看出LR算法表現比較差,經過改進后的雙向LSTM效果最好。

表5 含假結的RNA在四種算法上MCC違反率的情況
如表5所示,模型越復雜、模型節點數越多、對特征信息記憶得越好其違反率就會越低。ASE_00004與ASE_00006經過改進后的雙向LSTM效果變好了一些,但是在ASE_00005上效果會反彈,造成這種現象的原因有兩點:第一點ASE_00005此序列的天然結構中含有兩個假結結構,在模型訓練時,訓練集中并不是所有的結構都會含有兩個假結,所以模型在訓練時會因假結結構造成困擾,以至于經測試集得出的打分函數會出現反彈的現象;第二點在訓練模型時,所用的數據集是經過遺傳算法[21]以及隨機拆取RNA序列的配對情況得出的,而遺傳算法有隨機性,所以得到的結構也具有隨機性。因此結果會出現反彈的情況。
表6給出了三條含假結的RNA在改進的雙向LSTM模型上對三種標準打分函數的優劣情況,可以看出改進后的雙向LSTM對SEN打分函數的擬合效果比較好一些,對PPV的擬合效果比較差一些。造成此類效果的原因是:在醫學上,高敏感性與高特異性不可兼得,高敏感性則低特異性,高特異性則低敏感性。在本文所使用的訓練集中大部分的SEN值是比較高的,所以出現了擬合打分函數高敏感性低特異性的現象,然而馬修茲相互作用系數MCC是兩者的折中衡量,在經過2.2節中迭代次數的增加得出了介于兩者之間的結果。

表6 含假結的RNA在改進后的雙向LSTM模型上三種打分函數的違反率情況
3.2 對RNA STRAND中最常見的RNA類型的實驗驗證以及適用程度
在數據集為RNASTRAND中,含有原核生物的三種核糖體RNA[22],分別為:CRW_00020-CRW_00029十條RNA序列的16S Ribosomal RNA;CRW_00467-CRW_00476十條RNA序列的23S Ribosomal RNA;CRW_00548-CRW_00557十條RNA序列的5S Ribosomal RNA。其中S為沉降系數[23],本文訓練的數據集包括了這三種比較常見的核糖體RNA。表7代表了在三種核糖體RNA中,改進后的雙向LSTM對三種打分函數的擬合情況。

表7 在三種核糖體RNA中,改進后的雙向LSTM對三種打分函數的擬合情況
如表7所示,在5S Ribosomal RNA上擬合效果最好,在23S Ribosomal RNA上擬合效果最差,造成這樣的原因主要兩點:其一,序列長度越短,其擬合情況越好;序列長度越長,擬合效果就越差,5S的序列長度一般在120左右,而23S的序列長度達到了2 900以上。其二,在RNA的二級結構中,序列比較長的RNA會出現各種環以及假結的概率很大,對模型的訓練造成了一定的困難;而序列比較短的RNA出現假結的概率比較低,模型的訓練就會比較順利,進而擬合出的打分函數也相對比較準確。
本文基于雙層雙向LSTM的深度神經網絡對RNA的二級結構進行打分,在ASE以及CRW數據集上分別對SEN、PPV和MCC三種打分函數進行了擬合。本文提出的模型很大的一個特點是它可以接受不同長度的RNA序列作為輸入,這樣模型就能夠抓住每個堿基的全局信息,并且此模型同樣適用于帶假結的RNA二級結構預測。實驗中通過在模型的全鏈接層后面添加Dropout層來減輕過擬合現象。由于本文的數據集是由序列長度小于500以及大于1 000的RNA序列組成。由于長序列在模型訓練時對堿基的特征信息的疊加比較繁雜,所以在預測長度超過1 000的RNA序列時,預測結果往往沒有預測長度小于500的RNA序列準確率高。所以,下一步我們通過增加數據集里的RNA數量。以及對模型的進一步改進來提升模型的精度。
[1] Mathews D H,Sabina J,Zuker M,et al.Expanded sequence dependence of thermodynamic parameters improves prediction of RNA secondary structure[J].Journal of Molecular Biology,1999,288(5):911-940.
[2] Informatik F F,Schmidhuber J.LSTM Can Solve Hard Long Time Lag Problems[C]//Advances in Neural Information Processing Systems,1999:473-479.
[3] Heffernan R,Paliwal K,Lyons J,et al.Improving prediction of secondary structure,local backbone angles,and solvent accessible surface area of proteins by iterative deep learning[R].Scientific Reports,2015,5:11476.
[4] Cheng J,Randall A Z,Sweredoski M J,et al.SCRATCH:a protein structure and structural feature prediction server[J].Nucleic acids research,2005,33(S2):W72-W76.
[5] Bastien F,Lamblin P,Pascanu R,et al.Theano:new features and speed improvements[J].arXiv preprint arXiv:1211.5590,2012.
[6] Batey R T,Rambo R P,Doudna J A.Tertiary Motifs in RNA Structure and Folding[J].Angewandte Chemie,1999,38(16):2326.
[7] Gorodkin J,Stricklin S L,Stormo G D.Discovering common stem-loop motifs in unaligned RNA sequences[J].Nucleic Acids Research,2001,29(10):2135-2144.
[9] Bj?rkholm P,Daniluk P,Kryshtafovych A,et al.Using multi-data hidden Markov models trained on local neighborhoods of protein structure to predict residue-residue contacts[J].Bioinformatics,2009,25(10):1264-1270.
[10] Tieleman T,Hinton G.Lecture 6.5-rmsprop:Divide the gradient by a running average of its recent magnitude[J].COURSERA:Neural Networks for Machine Learning,2012,2.
[11] Schmidhuber J,rgen.Learning unambiguous reduced sequence descriptions[C]//International Conference on Neural Information Processing Systems.Morgan Kaufmann Publishers Inc,1991:291-298.
[12] Cutlip D E,Windecker S,Mehran R,et al.Clinical end points in coronary stent trials:a case for standardized definitions[J].Circulation,2007,115(17):2344-2351.
[13] Moody J,Hanson S,Krogh A,et al.A simple weight decay can improve generalization[J].Advances in neural information processing systems,1995,4:950-957.
[14] Srivastava N,Hinton G,Krizhevsky A,et al.Dropout:A simple way to prevent neural networks from overfitting[J].The Journal of Machine Learning Research,2014,15(1):1929-1958.
[15] Schuster M,Paliwal K K.Bidirectional recurrent neural networks[J].Signal Processing,IEEE Transactions on,1997,45(11):2673-2681.
[16] David H Mathews.Using an rna secondary structure partition function to determine confidence in base pairs predicted by free energy minimization[J].Rna,2004,10(8):1178-1190.
[17] Nicolaos B Karayiannis.Reformulated radial basis neural networks trained by gradient descent[J].Neural Networks,IEEE Transactions on,1999,10(3):657-671.
[18] Cao S,Chen S J.Predicting RNA pseudoknot folding thermodynamics[J].Nucleic Acids Research,2006,34(9):2634-2652.
[19] Chung J,Gulcehre C,Cho K H,et al.Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling[J].Eprint Arxiv,2014.
[20] Arthur,Miranda,Neto.Pearson’s Correlation Coefficient:A More Realistic Threshold for Applications on Autonomous Robotics[J].Computer Technology and Application,2014(2):69-72.
[21] Deb K,Pratap A,Agarwal S,et al.A fast and elitist multiobjective genetic algorithm:NSGA-II[J].IEEE Transactions on Evolutionary Computation,2002,6(2):182-197.
[22] Schloss P D,Gevers D,Westcott S L.Reducing the Effects of PCR Amplification and Sequencing Artifacts on 16S rRNA-Based Studies[J].Plos One,2011,6(12):e27310.
[23] Schuck P,Rossmanith P.Determination of the sedimentation coefficient distribution by least-squares boundary modeling[J].Biopolymers,2000,54(5):328-341.
[24] Manning C D.Computational linguistics and deep learning[J].Computational Linguistics,2015,41(4):701-707.
[25] Dean J,Corrado G S,Monga R,et al.Large scale distributed deep networks[C]//International Conference on Neural Information Processing Systems.Curran Associates Inc,2012:1223-1231.
FITTINGTHERNASECONDARYSTRUCTUREOFSCORINGFUNCTIONWITHBIDIRECTIONALLSTM
Wang Shuai1Cai Leixin1Gu Ti1Lü Qiang1,21
(SchoolofComputerScienceandTechnology,SoochowUniversity,Suzhou215006,Jiangsu,China)2(ProvincialKeyLaboratoryforComputerInformationProcessingTechnology,SoochowUniversity,Suzhou215006,Jiangsu,China)
RNA Scoring Function plays a more and more important role in the RNA second structure prediction. At present, some scoring functions of RNA secondary structure do not have a good grasp of RNA folding mechanism. We believe that this mechanism and the way of information transmission between layers on recurrent neural network have similar aspects. Therefore, bidirectional Long Short Term Memory (LSTM) neural network was used to score the RNA secondary structure. We conducted three experiments based on the dataset ASE (length less than 1 000) and CRW (most of the length was greater than 1 000). By fitting the sensitivity (SEN) and specificity (PPV) scoring functions, it was determined that the fitting function was the best when the objective function is mean_squared_error. Then, we fitted the more complex scoring function Matthews Correlation Coefficient (MCC). Finally, the results of the two-layer bidirectional LSTM model were better than those of the single-layer bidirectional LSTM model. This article got the scoring function which contained global properties of the base sequence through experiments. Our approach shows that LSTM neural network model can fit the scoring function of RNA secondary structure well.
RNA Scoring function Secondary structure Bidirectional LSTM
TP391.4
A
10.3969/j.issn.1000-386x.2017.09.046
2016-11-27。國家自然科學基金項目(61170125)。王帥,碩士生,主研領域:生物信息計算。蔡磊鑫,碩士生。顧倜,碩士生。呂強,教授。