車凱 郭茂祖 劉曉燕 滕志霞
摘要: 植物抗性基因識別中的從頭預測方法可以看作機器學習中的分類問題。通常情況下,一個分類器的訓練需要正確標記的正例和反例。然而,抗性基因識別中可用的信息僅有少數人工標記的抗性基因,且不具有抗性功能的基因也不明確。為了消除由于正例太少和錯誤的反例帶來的抗性基因識別的影響,基于抗性基因和其他基因在蛋白質相互作用網中的距離,提出了一種新的樣本選擇方法,并對提出的樣本選擇方法和通常樣本選擇方法分別在四種分類器上進行了10倍交叉驗證。結果表明,文中方法的SN值平均提高了6.9%,SP值平均提高了13.1%。因此,就敏感性和特異性而言,提出的方法獲得了更高效、更可靠的結果。
關鍵詞:
中圖分類號:TP391文獻標識碼:A文章編號:2095-2163(2012)04-0031-04