摘 要: 針對基于ELM學習算法的單隱含層前饋神經網絡需要較大的網絡規模、影響網絡泛化能力的問題,基于新皮層內神經元的連接特點,在前饋神經網絡中引入不同層神經元之間的跨越連接,構造跨越前饋神經網絡。同時,基于ELM學習算法設計適用于跨越前饋神經網絡的學習算法,提高網絡的學習能力。Image Segmentation多分類問題及直線一級倒立擺系統控制的實驗研究表明,該方法能夠提高網絡的學習能力,具有明顯的優勢。
關鍵詞: 神經網絡; 跨越連接; 極速學習機; 倒立擺系統
中圖分類號: TN711?34;TP183 文獻標識碼: A 文章編號: 1004?373X(2013)15?0108?04
Span feedforward neural network based on ELM and its application
SHI Hong?wei, YANG Ming?hong
(Beijing China Coal Mine Engineering Co., Ltd., Beijing 100013, China)
Abstract: The single?hidden layer feedforward neural network (SLFN) based on ELM needs larger?scale network structure to solve practical applications, which will influence the generalization capability. In order to solve the problem, a span feedforward neural network (SFN) is proposed based on the characteristic of neocortex neurons. The span connections between any two non?adjacent layers were introduced into this network. At the same time, an improved learning algorithm based on ELM is presented, the proposed approach of span feedforward neural network and improved ELM learning algorithm is used for some benchmark problems. The study on Image Segmentation multi?classification problem and linear 1?stage inverted pendulum system control show that the proposed approach performs better than SLFN and ELM, and it could improve the learning ability of the nerwork.
Keywords: neural network; span connection; extreme learning machine; inverted pendulum system
0 引 言
人工神經網絡是對生物神經網絡結構和功能的一種模擬,主要包含網絡結構和學習算法兩個部分。單隱含層前饋網絡(Single?hidden Layer Feedforward Neural Network,SLFN)由于其通用逼近能力及其簡單的結構,在理論研究和實際應用領域均得到了廣泛的關注[1?3]。為了提高網絡的學習速度及性能,涌現出了大量的學習方法。其中,Huang等人提出的ELM(Extreme Learning Machine)[4?5]學習算法采用一次學習的思想實現SLFN參數的學習,并在其他類型的網絡中得到了應用和推廣。該方法無需梯度下降的迭代調整,而是在輸入層到隱含層權值隨機賦值的基礎上通過一步計算解析出網絡的輸出權值,提高了網絡的學習速度。然而,此方法要求網絡結構達到一定規模時才能充分發揮優勢,而過大的網絡規模則影響網絡泛化能力的提高。
1 SLFN及ELM基礎知識
具有多入多出的單隱含層前饋神經網絡SLFN的結構如圖1所示,由輸入層、隱含層和輸出層組成,其中不同層內的神經元通過權值進行前饋連接,同層內的神經元無連接。定義隱含層神經元的激活函數為[f(·),]而輸入神經元和輸出神經元為線性的,因此,SLFN的系統輸出為:
[y=k=1mωkj?oj-θ1=k=1mωkj?fi=1nωji?xi-θ1] (1)
式中:[θ1]表示隱含層的偏差神經元;[i][∈][[1,n]]表示輸入神經元,[j][∈][[1,h]]表示隱含層神經元,[k][∈][[1,m]]表示輸出神經元;[ωij]和[ωkj]分別表示輸入神經元[i]到隱含層神經元[j]以及隱含層神經元[j]到輸出神經元[k]之間的連接權值;[oj]表示隱含層神經元[j]的輸出;[x]和[y]分別表示神經網絡的輸入和輸出。
圖1 SLFN網絡結構
假設有[P]組有效樣本,[xip=x1p,x2p,…,xnpT][∈][Rn]表示第[p]組樣本[(p][∈[1,P])]的輸入,[tkp=t1p,t2p,…,tmpT][∈][Rm]表示對應于輸入[xip]的期望輸出。若[h=P,]則SLFN在理論上能夠以任意精度逼近[P]組樣本。即:
[k=1mωkj?fi=1nωji?xip-θ1=tkp] (2)
SLFN的訓練實際上等價于求解[ω*ki,ω*ji]及[θ*1]使得代價函數[E]最小。
[E=p=1Pk=1mωkj?fi=1nωji?xip-θ1-tkp2] (3)
式(2)所示的方程組可以改寫為如下矩陣形式:
[Hβ=T] (4)
式中:[H]稱為神經網絡的隱層輸出矩陣,[H(ωji,θ1,xi)]的第[j]列表示第[j]個隱含層神經元對應于輸入[x]的輸出[4],[b=ωTkj,T=tTkp] 。
研究表明,在網絡學習過程中,輸入權值[ωji]及偏差[θ1]無需調整,而[ωji]及[θ1]一旦確定則[H]基本上保持不變。基于上述發現,Huang等人將SLFN的學習過程簡化為求解線性系統[Hb=T]的最小二乘解[4][b*],即:
[Hβ*-T=minβHβ-T] (5)
由于當且僅當[h=P]時[H]才是可逆方陣,而通常情況下[h?P,]所以線性系統[Hb=T]的范數最小的最小二乘解為:
[β*=H?T] (6)
其中,[H?]為矩陣[H]的Moore?Penrose廣義逆。
2 跨越前饋神經網絡
神經網絡自提出以來經歷了漫長而曲折的發展過程,盡管得到了長足的發展但多局限于一些簡單的網絡模型之上。近年來,基于生物系統的復雜網絡研究得到了眾多學者的關注。然而,若要從根本上提高網絡的性能,只能模擬、提取大腦內的智能,即參考天然的智能引擎——新大腦皮層(Neocortex)[6]進行神經網絡設計研究。新大腦皮層是大腦的重要組成部分,具有典型的分層結構[7],同時占絕大多數的錐體神經元能夠跨越不同的皮層進行信息的傳輸[8]。因此,借鑒新皮層內神經元的跨越連接特性,在前饋網絡的基礎上引入不同層神經元之間的跨越連接,并基于ELM學習算法提高網絡的性能。不失一般性,考慮如圖2所示的單隱含層的跨越前饋神經網絡(Single?hidden Layer Span Feedforward neural Network,SLSFN)。在SLSFN網絡中,由于僅有一個隱含層,所以跨越連接僅僅體現在輸入層到輸出層之間的連接[ωki。]此時,網絡的系統輸出為:
[t=k=1mωkj?oj-θ1+k=1mωki?xi=k=1mωkj?fi=1nωji?xi-θ1+k=1mωki?xi] (7)
圖2 SLSFN網絡結構
式(7)方程組可改寫為如下矩陣形式:
[t=ωkjωkiojxi] (8)
由上述分析可知,可以將SLSFN的跨越連接權值[ωki]及隱層輸出權值[ωkj]根據ELM算法進行求解,而隱含層權值[ωji]則由系統隨機生成。因此,基于ELM的SLSFN的權值學習為:
[α*=Ξ?T] (9)
式中:[α=ωTkjωTki;][Ξ=oTjxTi;][T=[tTkp]。]
3 實驗研究
為了驗證本文所提方法的性能,選取UCI數據集[9]中的Image Segmentation多分類問題及直線一級倒立擺系統的控制問題進行研究。
3.1 Image Segmentation多分類問題
為了對于基于ELM的SLFN和SLSFN的性能,選用具有19個屬性、7個類別的Image Segmentation多分類問題進行實驗研究,隨機選取其中的1樣500組樣本進行訓練,剩余的810組樣本用于網絡測試。為避免隨機權值對網絡性能的影響,獨立運行50次取平均值作為網絡的性能。實驗結果如表1所示[10?11]。
表1 Image Segmentation分類性能對比
[網絡?算法\訓練
時間\學習精度\隱層神經
元數目\訓練 /%\測試 /%\SLFN?E?ELM\154.1\96.37±0.49\95.27±1.56\70\SLFN?LM\4 745.7\97.35±0.32\86.27±1.80\100\SLFN?ELM\1.401 5\97.35±0.32\95.01±0.78\200\OS?ELM
\2.647 2
\97.06±0.33
\94.82±0.73
\180
\SLSFN?ELM\0.131 3\96.56±0.31\96.01±0.39\150\0.169 7\97.26±0.25\96.22±0.46\180\0.196 3\97.59±0.17\96.24±0.41\200\]
由實驗結果可知,當SLSFN?ELM選用200個隱含層神經元時,能夠獲得最高的正確分類率:訓練樣本正確分類率為97.59%,測試樣本的正確分類率為96.24%;而同樣規模的SLFN?ELM方法獲得的正確分類率分別為97.35%和95.01%。說明,同樣規模的SLFN和SLSFN相比,SLSFN具有更好的學習能力。當SLSFN?ELM的網絡規模減小到150個隱含層神經元時,其泛化精度仍能達到96.01%,而200個隱含層神經元SLFN的泛化精度僅為95.01%,充分說明了SLSFN能以較小規模的網絡結構達到并超越SLFN較大規模的網絡性能,說明改進的SLSFN能夠明顯提高網絡的泛化能力。
3.2 直線一級倒立擺系統的控制研究
考慮如圖3所示的直線一級倒立擺系統。
圖3 一級倒立擺系統
圖3中,[F]為施加到小車上的外力,[x]為小車的位置,[θ]為擺桿與垂直方向的夾角。根據受力分析及運動方程線性化得到系統的狀態方程如下:
[xx??=01000-I+ml2bIM+m+Mml2m2gl2-I+ml2bIM+m+Mml2000010-mlbIM+m+Mml2mglM+mIM+m+Mml20xx??+][0I+ml2IM+m+Mml20I+ml2IM+m+Mml2u] (10)
其中:[M]=0.5 kg為小車的質量;[m=]0.2 kg為擺桿的質量;[I=0.006 kg?m2]為擺桿慣量;[l]為擺桿的長度;[b=]0.1 N/(m/s)為小車受到的摩擦系數;[g=]9.8 m/s2為重力加速度;[T=]0.05 s為采樣時間。將數據代入上式可得系統的狀態方程為:
[x=010031.181 800-0.454 500012.672 700-0.181 8x+04.545 501.181 2uy=1000010000100001x] (11)
構造可控性判別矩陣[Qc=]ctrb(A,B)及可觀測性判別矩陣[Qo=]obsv(A,C),由返回結果rank[Qc]=4,rank[Qo]=4可知該倒立擺系統是完全能控和完全能觀測的系統。由此可知,該系統能夠進行有效的控制。
為對比基于ELM的SLFN與SLSFN的網絡性能,將其應用于直線一級倒立擺的控制之中。系統初始狀態為:[x(0)=0,x(0)=0,?(0)=0.1,?(0)=0。]其中,擺角用弧度單位表示。期望狀態為:
[x(0)=0,x(0)=0,?(0)=0,?(0)=0]
采用SLFN和SLSFN對倒立擺系統的小車位置(CartPos)、小車速度(CartVel)、擺桿角度(Angle)及擺桿角速度(AngleRate)控制輸出如圖4所示,其中,“CartPos”表示基于ELM的SLFN控制輸出,“CartPos2”表示基于ELM的SLSFN控制輸出。
圖4 基于SLFN及SLSFN的倒立擺系統控制
由圖4可知,基于ELM學習的SLFN和SLSFN均能實現對小車位置的有效控制,并取得較好的控制效果,而基于ELM的SLSFN在調節時間和超調量的控制上均優于SLFN的控制效果。此外,在小車速度、擺桿角度及角速度的控制上,SLSFN的控制效果也明顯優于SLFN的控制效果。該實驗進一步說明了SLSFN具有優于SLFN的學習能力。
4 結 論
針對神經網絡的結構設計問題,基于新皮層內神經元的連接特點設計了具有跨越連接的前饋神經網絡(SLSFN),并基于ELM學習算法設計相應的參數調整方法。通過對多分類問題及倒立擺系統的控制實驗研究表明,改進的SLSFN能夠明顯提高網絡的學習能力,同時能夠以較小規模的網絡結構獲得較好的泛化能力,說明對于復雜問題的求解具有較好的潛力。
參考文獻
[1] DAVANIPOOR M, ZEKRI M, SHEIKHOLESLAM F. Fuzzy wavelet neural network with an accelerated hybrid learning algorithm [J]. IEEE Transactions on Fuzzy Systems, 2012, 20(3): 463?470.
[2] MOALLEM P, AYOUGHI S A. Removing potential flat spots on error surface of multilayer perceptron (MLP) neural networks [J]. International Journal of Computer Mathematics, 2011, 88(1): 21?36.
[3] HE H B, NI Z, FU J. A three?network architecture for on?line learning and optimization based on adaptive dynamic programming [J]. Neurocomputing, 2012, 78(1): 3?13.
[4] HUANG G B, ZHU Q Y, SIEW C K. Extreme learning machine: theory and applications [J]. Neurocomputing, 2006, 70(1?3): 489?501.
[5] HUANG G B, WANG D H, LAN Y. Extreme learning machines: a survey [J]. International Journal of Machine Learning and Cybernetics, 2011, 2(2): 107?122.
[6] HAWKINS J, BLAKESLEE S. On intelligence [M]. United States:Times Books, 2004.
[7] LORENTE DE Nó R. Cerebral Cortex: architecture, intracortical connections, motor projections [J]. Physiology of the nervous system, 1938: 274?313.
[8] PETERS A, SETHARES C. Myelinated axons and the pyramidal cell modules in monkey primary visual cortex [J]. The Journal of Comparative Neurology, 1996, 365(2): 232?255.
[9] BLAKE C L, MERZ C J. UCI repository of machine learning databases [EB/OL]. [[1998?05?25].] http://www.ics.uci.edu/~mlearn/MLRepository.html.
[10] ZHU Q, QIN A K, SUGANTHAN P N, et al. Evolutionary extreme learning machine [J]. Pattern recognition, 2005, 38(10): 1759?1763.
[11] LIANG N, HUANG G, SARATCHANDRAN P, et al. A fast and accurate online sequential learning algorithm for feedforward networks [J]. IEEE Transactions on Neural Networks, 2006, 17(6): 1411?1423.