馮潔


摘要:在生物信息學的研究過程當中,經(jīng)常會遇到二分類的問題。例如RNA甲基化預測、蛋白質(zhì)相互作用預測、蛋白質(zhì)中二硫鍵的預測等都屬于二分類問題。要解決二分類問題,目前在機器學習中提到了很多算法。比較常用的有支持向量機(sVM)和隨機森林(RF)算法。文章在研究一般RF算法的同時,進一步討論了集成RF算法對于處理非平衡數(shù)據(jù)起到的突出作用,最后分析總結(jié)了一般隨機森林算法和集成隨機森林算法的優(yōu)缺點。
關(guān)鍵詞:生物信息學;二分類;隨機森林;集成隨機森林;非平衡數(shù)據(jù)
中圖分類號:TP311
文獻標識碼:A
文章編號:1009-3044(2017)10-0186-02
隨著后基因組時代的到來,高通量測序技術(shù)的運用,使得基因數(shù)據(jù)庫和蛋白質(zhì)數(shù)據(jù)庫中累加了巨量的新測定的序列,而通過傳統(tǒng)的實驗手段去剖析它們的結(jié)構(gòu)、功能以及遺傳信息就顯得十分的耗時和費力。因此人們就寄希望于通過計算機的手段去分析這些序列的相關(guān)信息。在此基礎(chǔ)上,人們開發(fā)了很多有針對性的計算機算法模型去預測相關(guān)信息,而建立這些模型的基礎(chǔ)算法有KNN、SVM以及RF等等。在本文當中我們主要討論RF算法在生物信息學當中的應(yīng)用。
1.一般隨機森林算法
由于數(shù)據(jù)集當中的樣本數(shù)都比較大、噪音比較多,導致單一的分類器構(gòu)建的預測模型的預測分類效果不好,因此為了提高預測分類結(jié)果,現(xiàn)在大多數(shù)情況下都采用分類器集成(En-semble)的方式來構(gòu)建預測模型。隨機森林就是一種集成的分類器。……