桑慶兵 鄧趙紅 王士同 吳小俊
①(江南大學物聯網工程學院 無錫 214122)
②(江南大學數字媒體學院 無錫 214122)
在目前的建模方法中,徑向基函數神經網絡(Radius-Basis-Function Neural-Network, RBF-NN)建模是有效的方法之一[1?3]。經典的RBF-NN模型訓練主要是基于最小平方誤差準則的。該類訓練算法存在的一個明顯不足是:對于小樣本數據集或存在噪聲的數據集,訓練容易過擬合,所得RBF-NN泛化能力較差[1,3]。因而,針對此問題探討魯棒的RBFNN訓練新算法是一個很有意義的工作。
最經典的一類RBF-NN訓練學習算法是基于梯度下降學習策略的。該類算法的缺點是由于學習步長選擇的不合理或者由于基于經驗風險陷入局部極值或過擬合而使受訓網絡的泛化性降低[1,3]。關于RBF-NN訓練學習的最新重要研究進展是極速學習訓練方法[4?10],文獻[4,11]指出輸入層權值和隱層閾值任意選取的包含N個隱結點的單隱層前饋網絡(SLFN)能夠以任意小的誤差逼近N個不同的觀測值?;谝陨侠碚摚墨I[4]針對單隱層神經網絡提出了極速學習機(Extreme Learning Machine, ELM)算法,并進一步提出了各種改進的極速學習算法。ELM算法與常規的梯度下降學習算法相比,簡單快速,在獲得小的訓練誤差的同時,能獲得較好的泛化能力。但是,針對小樣本數據集和噪聲,ELM算法依然魯棒性較差,容易導致過擬合問題。
針對經典學習方法對小樣本數據集和噪聲數據容易過擬合而使得受訓RBF-NN泛化能力較差的問題,本文通過引入e-不敏感學習度量[2,12?16]和結構風險項[2,13,15]來構造新的目標函數,并把提出的新目標函數求解轉化為經典的二次規劃問題。本文提出的方法由于引入了不敏感學習度量和結構風險項,能有效地克服經典訓練算法針對小數據集容易過擬合和對噪音敏感之缺陷,顯示出了較好的魯棒性。在模擬和真實數據集上的試驗亦證實了上述優點。
經典的徑向基神經網絡模型如圖1所示[4]。徑向基網絡能完成非線性映射f:Rd→R1,其數學表達式為

圖1 RBF神經網絡模型結構


其中di為寬度值。
上述的徑向基神經網絡模型中,要學習的參數有3種,即隱層中心點,隱層徑向基函數寬度值di,隱層和輸出層的連接權值wi。對于徑向基神經網絡的各參數,最經典的一類訓練學習算法是基于梯度下降學習策略的。但該類算法由于基于經驗風險易于陷入局部極值或過擬合從而使受訓網絡泛化能力降低,而且此類算法由于是迭代算法,常具有很高的時間復雜度。另一類近年來較受關注的算法是極速學習機(ELM)算法。ELM算法與梯度下降學習算法相比,簡單快速,在獲得小的訓練誤差的同時,能獲得較好的泛化能力。但是,針對小樣本數據集和噪聲,ELM依然魯棒性較差,容易導致過擬合問題。針對此挑戰,在后面一節,本研究將探討一種魯棒的基于不敏感準則和結構風險的徑向基函數神經網絡參數學習方法。
對于徑向基神經網絡的隱層中心點參數ci=和寬度參數di,一種常用的估計方法是聚類法。例如,利用模糊C均值(FCM)聚類技術,可利用下式來估計。

這里ujk表示 FCM 聚類方法得到的樣本xj=對于第i類的模糊隸屬度[1,3];參數h是一個可調的縮放參數。
對于徑向基函數神經網絡,一旦隱層參數被估計,那么令

此時式(1)所示的徑向基網絡映射函數可表示為

由式(6)可知,當徑向基網絡的隱層節點被估計后,網絡的輸出可表示為一個線性模型的輸出,此時網絡參數的學習轉化為線性模型之參數學習問題?;诖司€性模型,本文通過引入e-不敏感誤差準則和結構風險來構建新的徑向基網絡學習算法。
徑向基神經網絡訓練時,常采用式(7)所示的最小平方差誤差準則[1,3]:

一般情況下,利用此準則能取得較好的效果?;谧钚∑椒讲钫`差準則的經典RBF-NN訓練算法有基于梯度學習的方法[1,3]和極速學習方法[4?10]。但當數據樣本較少且噪音較大時,此準則學習得到的網絡對噪音較敏感,容易過擬合?;诖瞬蛔悖疚囊肓瞬幻舾姓`差度量來設計新的徑向基網絡訓練準則函數來增強網絡的魯棒性。
給定標量g和向量, 相應的e-不敏感損失分別具有式(8),式(9)所示的形式[12?16]:

對于式(6)所示的線性模型,其對應的e-不敏感損失誤差準則可定義如下:


利用式(11),式(10)所示的準則函數可等價地表示為

進一步地,參照支撐向量機等核方法[2],引入結構風險正則化項,式(12)可改進為

結構風險思想的引入,可進一步使得新算法像許多核方法一樣,在小樣本訓練集環境下,所受訓得到的網絡具有較好的泛化能力,有效地避免過擬合問題。這里t>0用來平衡經驗誤差項和表示結構風險的正則化項的影響。
在式(13)中有兩個參數需要給定,即t,e需要給定。如何確定其最優值,目前還沒有理論的解析公式可用。實際應用中,一個簡單有效的策略是利用交叉驗證法在某個參數集中來確定最優值。特別地,這里對不敏感參數e給出如下說明:該參數類似于支撐向量回歸(SVR)方法中的不敏感參數e。SVR中該參數的理論研究表明[17,18]:該參數的最優值和數據中的噪聲的方差呈現近似正比的關系,即噪聲越大,該參數通常需采用較大的值來獲得好的訓練效果。在試驗部分4.2節,我們對此結論給出了相關的實驗驗證。
特別地,對于式(13),利用拉格朗日優化可得到其對偶問題(證明略):

根據對偶理論,利用式(14)得到的最優解λ??,λ+?,可得到式(13)對應的最優解為

根據上面推導和分析可以看出:通過引入e-不敏感誤差準則和結構風險項,RBF網絡訓練可以視為一個二次規劃優化問題。因而已有的各種二次規劃算法可以直接用來對RBF-NN 進行訓練。
基于如上分析,容易給出基于e-不敏感準則和結構風險的RBF-NN訓練新算法,如表1所示。

表1 基于ε-不敏感準則和結構風險的RBF神經網絡訓練算法
本節對提出的新RBF-NN訓練算法(表示為e-RBF)進行了試驗測試。為了有效地評估算法性能,本文提出的算法和經典的基于平方誤差準則的梯度學習算法(表示為LS-RBF)和極速學習算法(ELM)進行了比較。試驗安排如下:(1)4.1節利用模擬數據集對算法性能進行了測試。(2)4.2節利用真實的煤氣爐建模數據集對算法性能進行了測試。試驗中,利用訓練集采用了5倍交叉驗證策略在集合中分別確定參數t,e的合適取值。
為有效評估該算法性能,采用了如下性能指標:

這里N是測試樣本集的尺度;yi是第i個測試樣本的采樣輸出,是第i個樣本對應的神經網絡輸出,并且。J越小,表示建模(泛化)性能越好。
為了充分測試各算法對于噪聲數據的魯棒性,試驗中對訓練數據集加入了不同程度的高斯白噪聲來進行魯棒性測試。
本試驗所用的數據集采樣于如下的sinc函數[1]:

N( 0,s)表示均值為0,標準差為s的白噪聲。利用式(17)產生包含200個數據的訓練集,同時產生一個包含1000個數據且不含噪聲的測試集。利用訓練集來進行訓練,然后利用測試集進行測試。上述過程重復10次,得到的平均測試結果來評價算法的性能。
圖2和表2示出了噪音環境下3種算法在sinc數據集上的試驗結果。從圖 2和表 2,我們可得出如下的觀察結果:
(1)當噪聲較小時,幾種不同方法展現出了可比較的泛化性能。
(2)隨著噪聲程度的增加,幾種不同方法的泛化能力都逐步下降。
(3)在幾種方法中,提出的基于e-不敏感準則和結構風險的新訓練算法隨著噪聲的增加,泛化能力減弱的程度最小。特別是當噪聲程度較大時,其泛化能力明顯優于其它兩種方法。
根據如上觀察結果可知,針對該模擬數據提出的新算法在噪聲環境下展現出了更好的適應能力。
本試驗研究了 Box-Jenkins(B-J)煤氣爐建模問題[19,20]。煤氣爐控制輸入u(k)表示氣體進入熔爐的量,輸出y(k)表示煤氣爐中CO2的輸出量,數據樣本每隔9 s采樣一次,共得到296組輸入輸出樣本對。根據文獻[1]中的方法,試驗中選擇u(k? 3)和y(k?1)作為輸入變量,y(k)作為輸出量重新構造數據集,得到290個有效數據對。把數據集隨機分為訓練集和測試集兩部分,其中訓練集和測試集尺寸分別為 145。對訓練數據集加不同程度的噪聲并利用訓練集來進行訓練,然后利用測試集進行測試。上述過程重復10次,得到的平均試驗結果如圖3和表3所示。正如同前一試驗得到的觀察結果,從圖3和表3同樣可以看出類似的實驗效果:(1)采用不同數目的隱節點,提出的新訓練算法在噪聲較小時,展現了與經典的方法可比較的性能;(2)但當噪聲加大時,提出的新算法展現了更好的魯棒性,泛化性能明顯優于其它兩種經典算法。因而,在煤氣爐真實數據集的試驗結果表明,本文提出的基于e-不敏感準則和結構風險的RBF-NN訓練算法,較之于經典的訓練算法在噪聲環境下展現出了更有希望的性能。

圖2 采用不同數目隱節點時3種方法在sinc數據集上得到的的平均性能比較

表2 采用不同數目隱節點時3種方法在sinc數據集上得到的的平均性能比較

圖3 采用不同數目隱節點時3種方法在煤氣爐建模數據集上得到的的平均性能比較

表3 采用不同數目隱節點時3種方法在煤氣爐建模數據集上得到的的平均性能比較
正如3.3節所述,文獻[17,18]表明不敏感參數e的合適取值和噪聲有一定的正比關系。這里我們利用實驗進行簡單驗證。表4給出了實驗中得到的最優不敏感參數e和噪聲標準差s之間的關系。從表中我們容易看出,隨著噪聲的增加,最優的e取值也逐漸增加,即它們之間呈現近似的正比關系。值得指出的是,這里我們僅給出了簡單的實驗驗證結果,如何從理論上證明上述結論是一個較復雜的工作,這需要借鑒文獻[19,20]的相關研究思路來進行嚴格的數學分析,未來的工作中我們將對此作深入探討。

表4 最優的不敏感參數ε和噪聲之間σ的關系
本文通過引入e-不敏感準則和結構風險,把RBF-NN訓練轉化為線性回歸問題,進而轉化為經典的二次規劃優化問題,提出了一種新的徑向基神經網絡建模方法。通過模擬和真實數據集進行仿真試驗,提出的算法較之于傳統的基于最小平方誤差準則的算法對噪聲數據集顯示出了更魯棒的性能。進一步地,基于計算智能研究方面的最新進展,提出適宜于大規模數據集的基于e-不敏感準則和結構風險的徑向基神經網絡快速訓練算法值得探討,未來的工作中,我們將對此進行深入研究。
[1] Jang J S R, Sun C T, and Mizutani E. Neuro-Fuzzy and Soft-Computing. Upper Saddle River, NJ, Prentice-Hall, 1997:125-134.
[2] Vapnik V. Statistical Learning Theory. New York: Wiley,1998: 256-396.
[3] 王士同, 等. 神經模糊系統及其應用. 北京: 北京航空航天大學出版社, 1998: 198-224.Wang S T,et al.. Neural Fuzzy System and Its Application.Beijing: Beijing University of Aeronautics and Astronautics,1998: 198-224.
[4] Huang G B, Zhu Q Y, and Siew C K. Extreme Learning Machine: Theory and Applications.Neurocomputing, 2006,70(1-3): 489-501.
[5] Cao J W, Lin Z P, and Huang G B. Composite function wavelet neural networks with differential evolution and extreme learning machine.Neural Processing Letters, 2011,33(3): 251-265.
[6] Huang G B and Wang D H. Advances in extreme learning machines (ELM2010).Neurocomputing, 2011, 74(16): 2411-2412.
[7] Lan Y, Soh Y C, and Huang G B. Two-stage extreme learning machine for regression.Neurocomputing, 2010, 73(16-18):3028-3038.
[8] Lan Y, Soh Y C, and Huang G B. Constructive hidden nodes selection of extreme learning machine for regression.Neurocomputing, 2010, 73(16-18): 3191-3199.
[9] Cao J W, Lin Z P, and Huang G B. Composite function wavelet neural networks with extreme learning machine.Neurocomputing, 2010, 73(7-9): 1405-1416.
[10] Huang Guang-bin, Ding Xiao-jian, and Zhou Hong-ming.Optimization method based extreme learning machine for classification.Neurocomputing, 2011, 74(1-3): 155-163.
[11] Huang G B. Learning capability and storage capacity of two-hidden-layer feed-forward networks.IEEE Transactions on Neural Networks, 2003, 14(2): 274-281.
[12] Leski J. Towards a robust fuzzy clustering.Fuzzy Sets and Systems, 2003, 12(2): 215-233.
[13] Leski J. TSK-fuzzy modeling based one-insensitive learning.IEEE Transactions on Fuzzy Systems, 2005, 13(2):181-193.
[14] 鄧趙紅, 王士同. 魯棒的模糊聚類神經網絡. 軟件學報, 2005,16(8): 1415-1422.Deng Z H and Wang S T. Robust fuzzy clustering neural networks.Journal of Software, 2005, 16(8): 1415-1422.
[15] Deng Z H, Choi K S, Chung F L,et al.. Scalable TSK fuzzy modeling for very large datasets using minimal-enclosing-ball approximation.IEEE Transactions on Fuzzy Systems, 2010,18(2): 210-226.
[16] Deng Z H, Choi K S, Chung F L,et al.. Enhanced soft subspace clustering integrating within-cluster and betweencluster information.Pattern Recognition, 2010, 43(3):767-781.
[17] Kwok J T and Tsang I W. Linear dependency between epsilon and the input noise in epsilon-support vector regression.IEEE Transactions on Neural Networks, 2003,14(3): 544-553.
[18] Wang S T, Zhu J G, Chung F L,et al.. Theoretically optimal parameter choices for support vector regression machines with noisy input.Soft Computing, 2005, 9(10): 732-741.
[19] Box G E P and Jenkins G. M. Time Series Analysis,Forecasting and Control. 2nd Ed, San Francisco, CA, Holden Day, 1976: 355-390.
[20] Chung F L, Deng Z H, and Wang S T. From minimum enclosing ball to fast fuzzy inference system training on large datasets.IEEE Transactions on Fuzzy Systems, 2009, 17(1):173-184.