摘要:蛋白質二級結構預測問題,是生物信息學領域中最為重要的任務之一,歷經三十多年的研究,已取得了一些進展,尤其是近來集成預測模型與混合預測模型的引入,為預測精度帶來了一定程度的提高,然而其離從二級結構推導三級結構的目標,仍然存在很大差距。為了有效提高蛋白質二級結構預測精度,以KDTICM理論的擴展性研究與KDD*模型為基礎,使用基于KDD*模型的關聯分析蛋白質二級結構預測方法KAAPRO,提出一種基于支持度與可信度的復雜距離度量的CBA(classmcation based on association)算法,并以該算法為核心構建逐步求精、多層遞階的合成金字塔模型,該模型整體貫穿領域知識,并采用因果細胞自動機選擇有效物化屬性。在對偏alpha、beta型蛋白質的預測實驗中,改進型cBA算法較好地完成了對結構特征不明顯氨基酸的預測,獲得了較優的預測效果。
關鍵詞:關聯規則;蛋白質二級結構預測;KDD*;合成金字塔模型;基于關聯分類算法
中圖分類號:TP182 文獻標志碼:A 文章編號:1001-3695(2009)12-4617-04