丁 輝,鄧恩澤,陳 偉,林 昊
?
細菌s54啟動子序列分析與預測
丁 輝1,鄧恩澤1,陳 偉2,林 昊1
(1. 電子科技大學生物信息學中心 成都 610054; 2. 河北聯合大學基因組學與計算生物學中心 河北唐山 063000)
對實驗確定的168條σ54啟動子序列進行保守性分析,獲得兩個保守的區域-24區域和-12區域,均為最保守的功能元件。選取保守性最大的17個保守位點的三聯體頻數作為參數,引入偽計數構建位置權重矩陣,對168條σ54啟動子進行預測,分別從編碼區和匯聚非編碼區共選取168條序列組成陰性集。使用Jackknife交叉驗證法對模型進行檢驗,整體準確度達到82.0%,為σ54啟動子的理論和實驗研究提供新信息。
細菌; 保守性; 位置權重矩陣; 啟動子
啟動子通常定義為轉錄起始位點(transcription start site, TSS)上游鄰近的功能區域。細菌的σ啟動子分為兩大家族,一類在進化上與大腸桿菌管家因子σ70相似,另一類在結構上與可變因子σ54同源。σ54因子能夠形成關閉的啟動子復合物,但不能自發進行轉錄,聚合酶依賴于另外的轉錄因子和附加的增強子結合蛋白來開始RNA合成[1]。許多不同的細菌使用依賴于σ54啟動子的轉錄來控制許多環境響應進程,如趨化性傳感器的表達和運動性器官的裝配[2]。σ54啟動子主要控制一些輔助的進程,包括甲苯和二甲苯的降解、二羧酸的輸送、菌毛蛋白的合成、氮固定、氫攝取、鞭毛組裝、精氨酸分解、藻蛋白酸鹽生成、鼠李糖脂生成、乙偶姻分解、甘露糖攝取和脯氨酸亞氨基肽酶激活[3]。
σ70和σ54啟動子具有豐富的序列多樣性,σ70啟動子在轉錄起始位點上游-10和-35位置均有保守區 域[4],而σ54啟動子的保守區域則分布在轉錄起始位點上游的-12和-24位置[3]。目前關于-12/-24區域的編譯和分析是重要的研究方向,因此準確識別σ54啟動子對研究并探索σ54啟動子功能和調控有重要的作用。基于分子生物學實驗的方法分析和鑒定啟動子是進行啟動子研究的主要途徑。然而,實驗方法費時、費錢,且效率低下。隨著對啟動子的序列特征以及結構功能的逐步認識,利用生物信息學方法,通過計算來預測基因啟動子的相關信息獲得越來越多的應用。
目前對于原核基因組中啟動子的預測方法主要有隱馬爾可夫模型(HMM)[5]、人工神經網絡(ANN)[6]、支持向量機(SVM)[7]等算法。然而,這些算法主要應用于σ70啟動子的預測,由于各大數據庫中實驗證實的σ54啟動子序列較少,對σ54啟動子的生物信息學研究尚處于起步階段。
因此,本文在搜集足夠的σ54啟動子序列的基礎上,對σ54啟動子的序列位點保守性進行了分析,進而使用位置評分函數對該類啟動子進行分類預測。Jackknife驗證顯示,基于位置打分函數的模型能夠獲得82.0%總體預測精度。該模型為進一步進行理論和實驗研究σ54啟動子提供幫助,位置權重矩陣也將會在更多關于生物序列的分析中得到運用。
1.1 數據庫的建立
大腸桿菌σ54啟動子序列數據集來源于RegulonDB數據庫[8]和文獻[3],從RegulonDB中獲取了92條σ54啟動子序列,從文獻[4]得到了76條σ54啟動子序列,每條序列長81 bp(-60…+20,TSS作為0位置)。非啟動子序列在大腸桿菌全基因組序列中的編碼區和匯聚(convergent, CON)非編碼區(兩側基因的轉錄末端位于該非編碼區)選取[9]。為了避免正負集序列數目相差過大,本文隨機選取84條編碼區和84條CON非編碼區序列作為非啟動子數據集,每條序列長度也為81 bp。
1.2 保守性算法
為了提取每段序列中最具有代表性的特征,本文計算任意一位點處的保守性值為:

式中,代表使用聯體進行保守性分析;p()代表在位點處第種聯體片段出現的概率,對于聯體共有4種片段。易證,保守性值M()服從卡方分布。
1.3 位置權重矩陣
對于標準樣本集,定義位置權重矩陣為=(P)×L,其中為聯體的種類數,為序列的長度,P代表某種聯體在位置出現的概率,即P=n/,為樣品集中序列的總數。然而在計算過程中,某種片段可能出現概率為0的情況,進而導致后續計算公式沒有意義。因此在計算過程中引入了偽計數,隨著的增加,偽計數的增加逐漸減小,對概率的影響也減小。由于偽計數的加入,更新的位置權重矩陣公式為:

式中,0為背景頻率,對于聯體,其背景頻率為1/4。
根據位置權重矩陣,定義位置關聯評分函數為:

不同的序列將對應不同的F值,因此用F值的大小來評估一條序列與標準樣本集中啟動子序列的相似程度,F值越大,則這條序列是啟動子序列的可能性越高。
1.4 精確度評價
本文使用下列參數來評價算法的預測性能:敏感性(Sn),特異性(Sp),準確度(ACC)。

(5)
(6)
式中,TP代表正確預測的啟動子數目;FP代表非啟動子被預測為啟動子的數目;FN代表啟動子被預測為非啟動子的數目;TN代表正確預測的非啟動子數目。
利用Mn()對168條大腸桿菌的σ54啟動子進行保守性分析,發現其保守位點與σ70啟動子具有很大的差異。σ54啟動子的保守位點在-24和-12區域,如圖1a所示。便于比較,σ70啟動子的保守性曲線如圖1b所示。

a. σ54啟動子序列五聯體的保守性曲線
b. σ70啟動子序列五聯體的保守性曲線
圖1 五聯體的曲線
圖1描述了五聯體的保守性曲線。由圖可以發現,σ54啟動子兩個主要峰值在-24區域和-12區域,而σ70啟動子兩個主要峰值在-35區域和-10區域。本文也研究了σ54啟動子單堿基到4聯體的保守性,發現隨著從單體到五聯體的變化,多聯體的種類數也以指數形式增長,其n()~曲線的光滑程度也逐漸增加,然而峰值的位置沒有變?;谝陨戏治隹芍瑘D中描述的保守區域即為之前文獻中報道的-24和-12區域[3]。
本文使用MEME[10]來分析大腸桿菌的σ54啟動子的保守基序,獲得的結果如圖2所示,其中橫坐標代表啟動子序列位點,縱坐標代表信息熵。正如先前文獻報道的一樣,在-24元件和-12元件周圍找到了最保守的區域。在-24元件附近找到了5個高度保守的核苷酸,其序列為TGGCA。在-12元件附近同樣找到了3個高度保守的核苷酸,其序列為TGC。另外還找到了一些保守性稍弱的核苷酸,綜合的正則表達式為[CT]TGGCA[CT][GA][AGC][ACTG][TA] [CTA]TTGC[AT][TA]。

圖2 σ54啟動子序列-24元件和-12元件的基序
通過對聯體的保守型分析,根據每個位點的M()值的大小為標準,選取特征位點,利用位置評分函數進行預測。首先,選取最大M()值的位點的聯體(=1, 2, 3, 4, 5),以啟動子和非啟動子分別構建兩個位置權重矩陣,使用Jackknife檢驗方法,對于每一條序列,分別利用兩個位置權重矩陣對其打分,測試樣本在哪一個矩陣中獲得的分值較高,就屬于哪一類別;其次,選取最大和次大M()值的位點,利用Jackknife檢驗進行模型精度評估;如此循環,直到所有位點都被選入,比較所有預測模型獲得的預測精度,選擇能夠獲得精度最高的位點的聯體作為構建最終預測模型的參數。聯體和位點數兩個參數需要調整。表1列出了不同聯體獲得的最佳預測結果。

表1 位置評分函數對σ54啟動子預測結果
由表1可以看出,隨著聯體數目的增加,Sn有著明顯的增加,而Sp先增加后減少。這種現象表明在不同聯體預測過程中,敏感性的增加所付出的代價是特異性的降低。為了達到一個平衡狀態,本文選取總體精度最高的三聯體作為預測模型,17個最優位點分別為-31,-29,-28,-27,-26,-25,-24,-23,-22,-19,-16,-15,-14,-13,-12,-11,-10。該模型能夠很好地平衡各個預測評價指標,使模型是最優的。
本文通過使用位置權重矩陣對大腸桿菌σ54啟動子進行了預測,根據結果顯示,引入多聯體和偽計數能夠對啟動子序列有更好的識別。堿基的短程關聯是所有物種基因組的共性,特別是緊鄰與次緊鄰關聯。本文使用三聯體模式作為參數,不僅考慮了堿基的構成,還考慮了位置的關聯特性。偽計數的引入是為了排除堿基頻率計數時,由樣本帶來偏差所造成的影響,偽計數的大小與計數的標準偏差成正比。由于偽計數是一種根據先驗概率對矩陣中每個位點堿基頻率的估計,因此在矩陣中不會出現零,避免了求對數時可能會遇到的困難。使用Jackknife交叉檢驗對啟動子預測算法進行評價,預測模型準確率和特異性都達到了80%。該模型的開發為進一步研究σ54啟動子提供了理論工具。
[1] MORETT E, SEGOVIA L. The sigma 54 bacterial enhancer-binding protein family: mechanism of action and phylogenetic relationship of their functional domains[J]. J Bacteriol, 1993, 175(19): 6067-6074.
[2] BERNARDO L M, JOHANSSON l , SKARFSTAD E, et al. Sigma54-promoter discrimination and regulation by ppGpp and DksA[J]. J Biol Chem, 2009, 284(2): 828-838.
[3] BARRIOS H, VALDERRAMA B, MORETT E. Compilation and analysis of sigma(54)-dependent promoter sequences[J]. Nucleic Acids Res, 1999, 27(22): 4305-4313.
[4] LI Q Z, LIN H. The recognition and prediction of sigma70 promoters in Escherichia coli K-12[J]. J Theor Biol, 2006, 242(1): 135-141.
[5] LIN J C. Prediction of prokaryotic promoters based on prediction of transcriptional units[J]. Acta Biochim Biophys Sin, 2003, 35(4): 317-324.
[6] DEMELER B, ZHOU G W. Neural network optimization for E coli promoter prediction[J]. Nucleic Acids Res, 1991, 19(7): 1593-1599.
[7] GORDON L, CHERVONENKIS A Y, GAMMERMAN A J, et al. Sequence alignment kernel for recognition of promoter regions[J]. Bioinformatics, 2003, 19(15): 1964-1971.
[8] SALGADO H, PERALTA-GIL M, GAMA-CASTRO S, et al. RegulonDB v8.0: Omics data sets, evolutionary conservation, regulatory phrases, cross-validated gold standards and more[J]. Nucleic Acids Res, 2013, 41: D203-D213.
[9] BLATTNER F R, PLUNKETT G R D, BLOCH C A, et al. The complete genome sequence of escherichia coli K-12[J]. Science, 1997, 277: 1453-1462.
[10] BAILEY T L, ELKAN C. Fitting a mixture model by expectation maximization to discover motifs in biopolymers[J]. Proc Int Conf Intell Syst Mol Biol, 1994, 2: 28-36.
編 輯 黃 莘
The Sequence Analysis and Prediction of σ54Promoter in Bacteria
DING Hui1, DENG En-ze1, CHEN Wei2, and LIN Hao1
(1. Center of Bioinformatics, University of Electronic Science and Technology of China Chengdu 610054; 2. Center for Genomics and Computational Biology, Hebei United University Tangshan Hebei 063000)
By analyzing the 168 experimental-confirmed σ54promoter sequences, two conservative regions that are-24 and-12 regions are obtained. The trimer frequency at 17 positions in these conservative regions is selected as inputting parameter. By adding pseudo-count into position weight matrix, the σ54promoter can be predicted. The 168 negative sequences are extracted from coding regions and convergent intergenic regions. In Jackknife cross-validation, the overall accuracy reaches to 82.0%, suggesting that the model can be further used in the theoretical and experimental study of σ54promoter.
bacteria; conservative; position weight matrix; promoter
Q61
A
10.3969/j.issn.1001-0548.2015.01.025
2013-11-23;
2014-12-19
國家自然科學基金(61202256, 61301260, 61100092);中央高校基本科研業務費(ZYGX2012J113, ZYGX2013J102)
丁輝(1979-),女,副教授,主要從事系統生物學方面的研究.