摘要:RNA作為生物遺傳信息傳遞和復制的重要組成部分,其結構非常復雜。使用計算機算法預測大分子量的RNA二級結構將是一個行之有效的途徑。本文將介紹目前常用的幾種RNA二級結構預測算法,并對其特點進行初步的比較分析。
關鍵詞:RNA二級結構;算法;自由能;莖區
中圖分類號:Q522文獻標識碼:A文章編號:1006-8937(2012)05-0042-02
RNA分子是生物體內參與各種如細胞分化、代謝、記憶存儲等重要生命活動的一類大分子,其常見種類有:rRNA、mRNA、tRNA。其中除tRNA分子量較小外,其余RNA分子都具有非常大的分子量且結構復雜。傳統的物理、化學結構預測方法只適用于測量分子量較小的RNA。而針對大分子量的RNA二級結構預測,使用計算機技術預測是一條行之有效的方法。本文主要介紹基于系統發育比較和自由能最小兩種技術的RNA二級結構預測算法,并對算法的特點做出簡單的闡述。
1RNA二級結構的預測方法
從1960年fresco等提出第一個RNA二級結構預測算法開始,RNA二級結構的預測算法經歷了近半個世紀的發展,已日趨成熟。1987年Von heijin對各種預測RNA二級結構的方法進行了綜述[1]。1971年Tinoco et.al首次估算了與二級結構相關的能量,包括雙鏈區中堆疊堿基對相關的穩態能量和未配對區域的穩定影響。1975年Pipas和McMahon開發出計算機程序可以列出tRNA序列中所有可能的螺旋區。直到1980年Nussinov和Jacobson首次設計出一個用于預測二級結構的精確而有效的算法,該算法運用了類似動態規劃的相關技術,產生了兩個記分矩陣,用于記錄推測出的RNA分子中堿基的相關信息。目前,研究人員開發出多種RNA二級結構預測方法。但總體來說,這些方法可以從研究的數據量出發將其分為兩大類:基于系統發育比較技術的預測算法和基于自由能最小技術的預測算法。
1.1基于系統發育比較技術的預測算法
基于系統發育比較技術的預測算法即序列比較分析方法(comparative sequence analysis),或稱系統發育方法(phylogenetic methods)。該方法對多條序列進行互補堿基的共變連配(covariant alignment)在已知序列的數據庫中搜尋被考察序列的相似序列,并利用各類統計分析技術及序列上下文語義分析來推斷出待測序列的二級結構。具體算法包括:Eddy和Durbin提出的協同變異模型及Sakakibara提出的利用隨機上下文無關文法(SCFG)預測RNA二級結構的方法等[1,2]。
協同變異分析方法的結構預測算法將對待測序列進行優化排序和多重序列的對位排序,從而查找出其潛在的二級結構。然后對特定堿基對行統計分析,找出其出現頻率的期望值。再對堿基對進行共有信息記分。通過對堿基對的記分信息的比較。找出16種堿基對所有組合的期望值。最終推測出該RNA二級結構的詳細信息。從基于協同變異模型預測RNA二級結構的算法仿真實驗結果中可看出,該算法在用于小分子量基因如tRNA時,顯示出良好的性能,但在用于較大基因組搜索時則顯得相當緩慢。
Sakakibara提出的基于SCFG技術的RNA二級結構預測算法從形式語言的角度出發,以字符方式標記RNA分子中的堿基,并規定了終結字符、非終結字符、產生式等來描述RNA二級結構中的不同子結構類型。其利用產生式的規則構造出的語法樹即代表了一個可能的二級結構。由于不用產生式的概率不同,因此,該技術應用動態變成算法計算出其概率,從而構造出最可能的語法樹。該類算法的缺點就于其具有計算上的復雜性[3]。
從以上兩個具體算法可以看出,基于系統發育比較技術的RNA二級結構預測算法具有很好的預測精確度,但是,對于序列的樣本要求卻很高。一般來說,依靠這種技術預測RNA二級結構需要一定數量的相關序列樣本,并要求序列樣本間具有一致的二級結構和一些共同的基本結構單元。對于小樣本或來源差異大的序列,其比較結構就不大可靠了。此外,多序列聯配是該預測技術的核心,但卻非常消耗系統資源。
1.2基于自由能最小技術的預測算法
研究證明,自然的RNA二級結構應該是穩定的,根據熱力學理論,當物體處于穩定態時其自由能最小[4]。根據這一理論,基于自由能最小技術的預測算法將對待測RNA序列進行自由能分析,從中找出自由能最小的結構,并將其接近于待測序列的真實二級結構。因此,由于不需要大量樣本序列數據庫支持,基于最小自由能技術的預測算法,成為了當今RNA二級結構預測算法發展的主流方向。該技術主要包含三類:基于矩陣運算的動態規劃算法、基于莖組合的啟發算法和基于隨機搜索的進化算法。
基于矩陣運算的動態規劃算法利用矩陣的形式表現出堿基對在二級結構中分布信息。并結合動態規劃算法和能量規則推導出自由能最小的RNA二級結構即近似真實二級結構。基于該技術的算法首先由Nussionv和Jacobson于1980年提出——最大堿基匹配數結構的預測算法,該算法將產生兩個記分矩陣,用于表示某兩點間任意間隔中形成的堿基對的最大數目,以及特定堿基的互補堿基的位置。然后通過一個回溯的過程推導出具有最大可能堿基對數目的二級結構。之后,Zuker和Stiegler于1981年提出了最小自由能結構的預測算法。該方法以結構的能量大小作為其評分標準,比較RNA分子中所有可能的配對堿基及其能量值,直到所有的核酸都被比較過后,利用記分矩陣預測出所有可能結構并發現出最合適的能量。該類算法對于一些小分子RNA的預測結果非常可靠,但隨著序列長度的增加,其可靠性隨之下降。同時,由于最小自由能結構的預測算法的時間復雜度為,空間復雜度為,其中n表示RNA分子中的堿基數,因此當RNA分子量增大時,該算法所面臨的問題規模時無法控制的。
基于莖區組合的優化算法其RNA二級結構預測思路主要源于RNA分子的二級結構特征。簡單來說, RNA二級結構就是一連串莖區串聯而成的組合,因此根據不同的莖區能量,找出總自由能最小的莖區組合,也就找到了穩定的RNA二級結構[5]。目前相關的主要算法有Pipas提出的求解莖區所有可能組合中最小自由能結構的預測算法,以及Benedetti提出的莖區最優堆積算法。該算法的主要思想就是給定一條序列,它首先列出其中所有可能的莖區,并根據中心極限定理,用Monte Carlo隨機試驗的方法估計出每一莖區的出現概率,然后在每一步迭代當中挑選莖區列表中概率較大自由能最小的那一個加到當前結構上并消除產生沖突的情況,直到再也沒有莖區可加了,則當前結構就作為RNA序列的最終二級結構[6]。該類算法總能夠計算出結構穩定的RNA二級結構,但由于對莖區的選擇上依賴于莖區出現的概率和莖區的排序,因此會導致當自由能最小的莖區沒有按最大概率出現時,該莖區將會被漏選。
目前遺傳算法等一類基于隨機搜索的啟發式搜索技術也已用于預測二級結構,這一類算法具在面對大樣本,環境復雜的問題時常常會有良好的表現。該類算法模擬了生物的進化原理,能夠在一個種群數量龐大的樣本空間中,自適應地利用選擇、交叉、變異等手段對樣本空間進行篩選,優化,最終依據篩選規則找出最優解。在對RNA二級結構的預測中,面對數量龐大的堿基對組合方式,可以根據其能量規則,利用進化算法找出自由能最小的結構。該類算法的突出優點在于它可以解決含有假結的RNA二級結構預測問題。但缺點是該類算法的整個運行過程是一個自適應過程,因此隨意性比較大,結果容易出現局部最優解,導致運行結果不易控制。
2結語
無論是基于上述那類技術設計的RNA二級結構預測算法,在開始階段,研究人員為簡化RNA二級結構預測難度,大多數預測算法都未考慮RNA二級結構中的假結、相吻發夾等復雜情況,然而這些結構均常出現在真實的RNA二級結構中。因此,在今后的算法改進中,研究人員還需周全考慮真實二級結構中的各類構造情況,并聯系RNA分子間相互作用對結構穩定性的影響因素,找出更為精確的預測模型,完成對RNA二級結構的預測,盡力縮小因人為因素導致的預測誤差。
參考文獻:
[1] 李巍.生物信息學導論[M].鄭州:河南醫科大學出版社,
2004.
[2] Jacques Cohen.Bioinformatics—An Introduction for Computer
Scientists[J].ACM Computing Surveys,2004,36(4):122-185.
[3] 寧正元,林世強.RNA二級結構預測方法福建農林大學學
報(自然科學版),2007,36(1):60-63.
[4] 廖波,王天明.RNA二級結構的最小自由能算法.生物數學
學報,2003,18(3):364-368.
[5] 李伍舉,吳加金.基于螺旋區隨機堆積的RNA二級結構的
預測.生物物理學報,1996,12(2):213-218.
[6] 劉海軍,史定華.翼飛日新月異的RNA二級結構預測[J].自
然雜志,2003,25(6):314-322.