摘要:基因(特征)數遠大于條件(樣本)數,基因表達數據中往往存在大量噪聲,并且生物學或醫學工作者期望能從大量的基因中挑選出與疾病診斷有關的標志基因,因此,應用基因表達數據進行疾病分類預測的關鍵環節是基因選擇。目前常用的方法有過濾法和纏繞法。結合過濾法和纏繞法的優點,提出基因選擇的多目標分布估計算法(MOEDA)。首先通過打分函數確定MOEDA的候選基因集合,在確定候選基因后,MOEDA通過對KNN分類器的多個性能指標及基因數目等多個目標進行優化,從候選基因中選取綜合區分能力最強的特征基因子集。兒童小圓藍細胞腫瘤數據SRBCT上的實驗結果表明,本方法在不需要設置復雜參數的情況下,從2000個基因中僅選取了7個基因,就使分類器在獨立測試集上的分類精度達到95%。 關鍵詞:分類預測;基因選擇;多目標演化 中圖分類號:TP301 文獻標志碼:A 文章編號:1001-3695(2009)08-2891-04