杜耀華 倪青山 王正志
摘要:啟動子預測是研究基因轉錄調控的重要環節,但現有算法的預測正確率偏低。在深入分析啟動子生物特征的基礎上,提出了一種基于支持向量機的枯草桿菌啟動子預測算法,在啟動子序列的組成特征、信號特征和結構特征中選取9種典型特征作為預測的依據,對于信號特征,除了利用保守模式的一致序列,還考慮了間隔距離的分布信息。首先通過特征描述模型分別計算每種特征在啟動子序列和非啟動子序列中的得分,將特征得分組合成9維特征向量,再利用支持向量機在特征向量集上進行訓練和判別。對實際數據集進行的刀切法測試驗證了算法的有效性。對σA啟動予的預測,平均正確率達到了90.7%;對幾種其它σ因子啟動子的預測,平均正確率也超過了80%。算法不但有廣泛的適用性,還有良好的可擴展性,能夠方便的容納新特征,使識別性能不斷提高。
關鍵詞:枯草桿菌;啟動子預測;組合特征;支持向量機;刀切法
中圖分類號:Q527
文獻標識碼:A
文章編號:1007—7847(2005)04—0319—08