王淑芬 (石河子大學理學院,新疆 石河子 832003)
王 衛 (新疆生產建設兵團化工綠色過程重點實驗室(石河子大學),新疆 石河子 832003)
基于二層規劃的改進RBF算法在iris數據集分類中的應用
王淑芬 (石河子大學理學院,新疆 石河子 832003)
王 衛 (新疆生產建設兵團化工綠色過程重點實驗室(石河子大學),新疆 石河子 832003)
基于二層規劃上下層相互制約、各自獨立決策的性質,融合遺傳算法的選擇、交叉算子,采用交叉驗證方法,動態改善RBF算法的精度,使奇異樣本以較大概率落在下層,以得到精度較高的訓練網絡。研究表明,改進RBF算法可以提高訓練網絡的泛化能力,并能以較大概率得到預測集中的奇異樣本。
二層規劃;神經網絡;遺傳算法;uic數據庫;分類
模型精度的優劣是評判模型的重要指標。交叉驗證是評價模型精度的常用方法。交叉驗證通常有3種,即Hold-Out Method、K-fold Cross Validation和Leave-One-Out Cross Validation,其中K-fold Cross Validation可以有效地避免過學習以及欠學習狀態的發生,具有較高的可靠性。筆者結合二層規劃上下層相互制約、各自獨立決策的性質,在徑向基函數神經網絡(Radial Basis Function,RBF)模型訓練中引入K-fold Cross Validation交叉驗證,動態選擇訓練數據集,使得到的訓練模型具有更高的網絡泛化能力。
1.1二層規劃基本理論
二層規劃是一種具有二層遞階結構的決策優化問題[1]。上層和下層各有目標函數和約束條件,上層問題的目標函數和約束條件,不僅與上層決策變量有關,而且還依賴于下層問題的最優解或最優值。下層問題的最優解又受上層決策變量的影響,其解(或最優值)反饋到上層而影響上層規劃問題的最優解。
1.2RBF算法簡介
人工神經網絡(Artificial Neural Net- works,ANN)模仿動物神經網絡行為特征,通過調整內部大量節點之間相互連接的關系,從而達到處理信息的目的。由于人工神經網絡具有非線性適應性信息處理能力,因而在神經專家系統、模式識別、智能控制等領域得到廣泛應用[2-5]。常用的ANN模型中,多層感知器神經網絡使用反向傳播(Error Back Propagation,BP)訓練算法,存在收斂速度慢、過多調整參數等問題[6]。徑向基函數神經網絡(Radial Basis Function,RBF)可以根據具體問題確定相應的網絡拓撲結構,具有自學習、自組織、自適應功能,它對非線性連續函數具有一致逼近性,可以進行大范圍的數據融合,并行高速地處理數據。目前,RBF神經網絡已經成功地用于非線性函數逼近、時間序列分析、數據分類、模式識別、信息處理、圖像處理、系統建模、控制和故障診斷等。
在RBF網絡模型訓練中,訓練集的選擇直接影響訓練后網絡的精度,導致網絡泛化能力較差。通過二層規劃模型上下層相互協調,采用遺傳算法的自適應、自學習性,動態進行訓練集的選擇,進而改進算法,提高網絡的泛化能力[6]。
2.1改進算法步驟
1)將訓練樣本隨機分為2層,即上層和下層(每層樣本個數任意給定,通常上層個數遠多于下層個數)。
2)對上層訓練樣本進行訓練。
3)利用上層樣本數據進行訓練,得到網絡對下層樣本數據進行測試,觀察誤差是否達到要求,若達到要求,則輸出網絡,對測試集進行測試,否則繼續進行4)和5)。
4)將上下層樣本數據分別代入訓練模型,計算上下層樣本誤差,進行排序。
5)選擇上層排序誤差較大的n個和下層排序后誤差較小的n個樣本進行交換,返回2)。
2.2一個奇異樣本的算法分析
訓練集中存在一個奇異樣本情況下,設“輸出網絡”為事件E,用P(E)表示其概率。假定網絡訓練中的其余參數已達到最優,只考慮奇異樣本對輸出網絡的影響,若奇異樣本不在上層,通過訓練能輸出理想網絡,若奇異樣本在上層,通過進行修正使其落到下層以得到理想訓練網絡。
1)對訓練集分層,設訓練集樣本個數N,上層樣本個數為N1,下層樣本個數N2(N1+N2=N)。根據奇異樣本落在所在層,整個樣本被分成2個對立事件,即Ai,i=0,1,Ai表示恰有i個奇異樣本分到了上層。


4)奇異樣本在A0條件下,得到理想網絡的概率為1,即P(E|A0)=1。

2.3多個奇異樣本的算法分析
訓練集中存在m個奇異樣本情況下,設“輸出網絡”為事件E,用P(E)表示概率。

2)隨著奇異樣本個數的增加,全部落到下層的概率非常小,即P(A0)為小概率事件。奇異樣本在A0條件下,得到理想網絡的概率為1,即P(E|A0)=1。
3)在事件Ai,i=1,2,…,m的條件進行網絡訓練,對上層樣本進行修正,此時由于m個奇異樣本在上下層的分布具有隨機性,如果沿用一個奇異樣本的修正策略,會產生很多的無效修正。引入競爭機制,將上下層樣本的預測誤差排序,既提高了計算效率,同時避免了無效的交叉循環。
4)選擇上層排序后誤差較大的n個和下層排序后誤差較小的n個樣本進行交換,經過一定進化代數,得到較好的網絡。據實際推斷原理,則P(E/Ai) 隨著修正次數的增大無限接近1。
綜上所述,在訓練集存在多個奇異樣本的條件下,改進的RBF算法通過競爭機制的引進,不斷的調整上下層奇異樣本的個數,使上層奇異樣本個數逐漸減少,得到較好訓練網絡的概率P(E)也非常大。
3.1iris數據集驗證
采用uic數據庫的iris(鳶尾花)數據集進行算法可行性驗證。iris數據集共150個樣本,每個樣本含4個屬性,共分為3類。試驗中,在150個原始數據集中隨機選擇3組數據進行測試,在iris數據集中隨機選擇3組測試集,每組40個數據,其余110個數據作為訓練集使用:
第1組:11,15,19,20,24,26,36,38,42,46,47,50,52,60,63,71,72,73,75,76,79,80,81,82,86,87,98,101,104,114,117,118,119,124,124,128,131,139,142,150。
第2組:7,8,9,15,17,22,23,28,33,35,39,44,47,49,50,62,64,68,73,80,81,93,98,100,102,110,114,117,119,120,125,126,128,129,133,135,137,142,144,150。
第3組:1,4,6,8,9,11,16,17,18,21,28,30,32,33,38,40,41,44,49,50,70,73,75,77,78,80,83,84,88,98,101,103,115,123,124,126,127,133,134,145。

表1 RBF算法和改進RBF算法準確率比較
對1組測試集隨機進行100、200和500次預測,結果如表1所示。從表1可以看出,改進RBF算法比原有算法的準確率高,說明改進的RBF算法能提高測試集預測精度。
3.2對iris預測集結果統計分析奇異樣本
分別對iris數據集隨機選擇的上述3組測試集各進行500次試驗,如圖1所示。從圖中可以看出,第1組數據中序號為18、33、38的樣本預測結果較差,第2組數據中序號為29、30、36的樣本預測結果較差,第3組數據中序號為22、25、28的樣本預測結果較差。

圖1 數據500次測試各樣本誤差次數
第1組的18號與第3組的22號同為原始數據的73號樣本。第1組的33號和第2組的29號同為原始數據的119號樣本。3組數據的隨機分類包含了85個不同的原始數據,在每組進行500次試驗中,原始數據的73號樣本和119號樣本出錯的次數較多,說明150個原始樣本數據中73號和119號成為奇異樣本的概率很大。
根據二層規劃各層變量獨立決策、相互影響的性質并融合遺傳算法的遺傳算子,提出動態選擇訓練集的改進RBF算法。通過iris數據集的驗證表明,改進的RBF算法能獲得優良的訓練網絡,從而提高預測的準確率。大量隨機試驗結果顯示,某些樣本誤差出現的次數非常高,為奇異樣本的概率很大。因上,上述研究對疾病診斷、生物制藥、基因變異等相關領域的研究會起到積極作用。
[1]滕春賢,李智慧.二層規劃的理論與應用[M].科學出版社,2002.
[2]鮑鴻,黃心漢,李錫雄.廣義模糊推理與廣義模糊RBF神經網絡[J].控制與決策,2000,15(2):205-208.
[3]薛富強,葛臨東,王彬.基于改進遞階遺傳算法的RBF神經網絡分類器[J].系統仿真學報,2010(2):399-402.
[4]葉健,葛林東,吳月嫻.一種優化的RBF神經網絡在調制識別中的應用[J].自動化學報,2007,33(6):652-654.
[5]梁斌梅,韋琳娜.改進的徑向基函數神經網絡模型預測[J].計算機仿真,2009,26(11):191-194.
[6]李杰,韓正之.一種估計人工神經網絡泛化誤差的新方法[J].控制理論與應用,2001,18(2): 257-259.
10.3969/j.issn.1673-1409(N).2012.08.044
TP274
A
1673-1409(2012)08-N134-03
2012-05-12
新疆生產建設兵團博士基金項目(2011BB011)。
王淑芬(1979-),女,2002年大學畢業,碩士,講師,現主要從事遺傳算法、神經網絡理論及應用方面的教學與研究工作。
[編輯] 李啟棟