摘要:在生物信息學中,對給定氨基酸序列的蛋白質進行分類,檢測細微的蛋白質序列相似性或遠同源性對于準確預測蛋白質功能和結構都非常重要。提出一種新的基于半監督支持向量機的遠同源性檢測方法,通過定義序列概率剖面,充分利用大型數據庫的非標記數據,并行構筑支持向量機核函數,并結合最近鄰分類器實現對任何數據的全覆蓋。實驗表明,該方法能夠大幅提高蛋白質序列分類器的性能與效率。使用并行技術將總體計算時間控制在一定范圍,推動了半監督支持向量機分類器的廣泛應用。
關鍵詞:半監督學習;支持向量機;并行計算;分類器
中圖分類號:TP338.6 文獻標志碼:A 文章編號:1001-3695(2009)12-4624-04