摘要:利用分散量的數學理論,提出了基于最小分散增量的蛋白質序列辨識方法,通過多種特征聯合對蛋白質序列進行編碼,并建立基于最小分散增量的分類器MID_OMP,應用于革蘭氏陰性細菌外膜蛋白序列辨識,在數據集上的Jackknife測試中,MID_OMP辨識外膜蛋白和α螺旋跨膜蛋白的準確率達到95.7%,辨識外膜蛋白和球狀蛋白的準確率達到91.0%;在14個細菌基因組內挖掘結果顯示,MID_OMP具有較高的敏感性和特異性,預測結果的可信度明顯優于另外一種OMPs挖掘工具TMBETA-GENOME。
關鍵詞:外膜蛋白;分散量;分散增量;挖掘
中圖分類號:Q516 文獻標識碼:A 文章編號:1007-7847(2008)04-0303-06