敖培 張紀 李明 楊百順
摘 要:由于基于蛋白質結晶的X射線晶體成像技術存在成功率較低的問題,因此引入計算方法篩選容易結晶的蛋白質序列對于節約測定蛋白質序列實現成本意義重大。該文提出一種基于旋轉森林的集成極端學習機分類方法,用以提高蛋白質結晶偏好預測的準確性。選擇蛋白質序列及序列衍生的信息和蛋白質相關的物理、化學等性質在內的20個特征作為分類特征,采用旋轉森林增加集成極端學習機基分類器之間的差異性。實驗結果表明,該文方法具有較高預測精度。
關鍵詞:旋轉森林 極端學習機 蛋白質結晶
中圖分類號:TP311 文獻標識碼:A 文章編號:1674-098X(2015)01(c)-0023-01
該文選擇蛋白質序列及序列衍生的信息和蛋白質相關的物理、化學等性質在內的20個特征作為分類特征,采用旋轉森林增加集成極端學習機基分類器之間的差異性,建立了集成改進的極端學習機蛋白質結晶偏好預測模型,以有效提高預測的準確性。
1 極端學習機
極端學習機[1](ELM,Extreme Learning Machine)在隨機給定輸入權值與神經元參數的基礎上,將傳統前饋神經網絡參數訓練問題轉化為求解線性方程組,以直接計算輸出權值的最小二乘解的方式完成網絡訓練過程。
2 旋轉森林算法
旋轉森林[2](ROF,Rotation Forest)主要是對集成分類器的原始樣本特征進行處理,通過一定的特征提取變換獲得集成所需的新樣本,并且在保證分類準確性的前提下,增加集成分類器個體間的差異性。
3 基于ROF的極端學習機集成預測算法
為了提高集成系統中各分類器之間的差異性,該文提出了一種是用ROF集成多個ELM神經網絡分類器的方法。具體步驟如下。
步驟1:訓練數據集輸入初始樣本集X,樣本包括D個特征,集成ELM神經網絡分類器個數L。
步驟2:對X的D個特征進行等劃分,獲得K個具有不同特征的樣本子集,Xk表示第D個樣本子集每個子集具有D個特征:M=D/K。
步驟3:對K個子集進行如下處理:
對Xk進行bootstrap重抽樣,獲得新樣本Xknew;
采用主成分分析對Xknew進行變換處理,獲得主成分系數向量:ak1,ak2,…,
(M*≤M);
循環步驟1)和2),獲得K組主成分系數,合并得主成分系數組R。
步驟4:對R重新排列的R*,獲得新樣本Xnew:Xnew=XR*。
步驟5:用Xnew作為ELM神經網絡分類器的樣本訓練一個集成子分類器Cl(l=1,…,l),循環次獲得集成ELM神經網絡分類器組:Ω={C1,…,Cl}。
步驟6:分別使用個ELM神經網絡分類器對測試樣本集進行分類,獲得預測函數{fl}和預測標記{hl}。
步驟7:對預測函數和預測標記進行投票處理,獲得ELM神經網絡集成分類器最終預測標記Hend。
4 基于集成改進ELM的蛋白質結晶偏好預測
該文實驗數據來源于PepcDB數據庫中的蛋白質鏈,特征選取和計算方法見參考文獻[2]。經過篩選,分別選擇952條不可結晶數據和可結晶數據集合。從這1904條數據集中隨機抽取1522條數據作為訓練集,其余的作為測試集。采用第4部分所提出的的方法進行預測。為了驗證采用本文算法進行預測的效果,選擇集成RBF神經網絡模型進行對比,集分類器個數均選擇為10,如表1所示。從表1中可以看出,采用本文方法的平均預測準確率達到85.24%,而集成RBF神經網絡模型的測試準確率僅為79.04%。
5 結語
該文采用旋轉森林算法提高集成極端學習機基分類器之間的差異性,并將改進后的集成分類器用于對蛋白質結晶偏好進行預測。實驗結果表明,與集成RBF神經網絡模型相比,該文方法具有較高預測精度。
參考文獻
[1] YU Q,MICHE Y,EIROLA E, et al.Regularized extreme learning machine for regression with missing data[J].Neurocomputing,2013,102:45-51.
[2] 毛莎莎,熊霖,焦李成,等.利用旋轉森林變換的異構多分類器集成算法[J].西安電子科技大學學報:自然科學版, 2014,41(5):55-61.endprint