王 博
(西北大學現代學院 系部發展中心,陜西 西安710130)
人工神經網絡是由大量簡單的處理單元(神經元)相互連接,通過模擬人類大腦處理信息的方式,以并行、分布、協同方式完成復雜計算任務.函數逼近及泛化能力是衡量神經網絡的重要性能[1-4].前向神經網絡是神經網絡中一種典型分層結構,輸入信號從輸入層進入網絡后逐層向前傳遞至輸出層.由于它對非線性映射具有極強的模擬能力,并且對連續函數而言,前向神經網絡就是一個萬能逼近器,因此是迄今為止研究最為廣泛的一類網絡模型.
許多前向神經網絡模型已在數學上證明是全局逼近的,如傳統多層感知(Multilayer perceptron machine,MLP)網絡[5],RBF網絡[6],模糊網絡[7]等.但是,傳統的神經網絡學習算法(其中最具有代表性的算法為BP算法)由于使用基于梯度的方法來訓練網絡,且在訓練過程中要求調整網絡中的全部參數,因而學習速度緩慢、易陷入局部極小.文獻[8]于2006年進一步提出了“極限學習機”(Extreme learning machine,ELM),在該算法中,隨機選取輸入層與隱層之間的連接權重與閾值,而隱層與輸出層之間的連接權重則由最小范數最小二乘解確定.采用隨機選取隱變量不僅減少了網絡參數設置和選擇,且無需迭代的學習模式大大提高了學習速率并保證了網絡的泛化能力.但是該算法需要人為通過多次實驗比較誤差來確定隱節點個數.使得整個訓練不僅耗時,而且無法保證選取到最優的隱結點個數.在此基礎上,文獻[9]又提出一系列調整網絡結構的新算法——I-ELM算法.I-ELM算法是通過逐個添加隱單元以逼近給定目標函數,避免了ELM算法需經過多次實驗比較誤差選取合適的隱節點個數的缺陷,從而表現出比原始ELM算法更優的網絡結構.在I-ELM算法的進一步發展中,文獻[10-11]又提出了CI-ELM算法和EI-ELM算法.CI-ELM算法采用Barron凸優化理論[12]調整輸出權值,當添加新的隱單元后,重新調整已有隱單元的輸出權重,使得網絡結構更緊湊.理論及實驗結果證明,當激活函數滿足分段連續時,CIELM算法所產生函數序列可以以任意精度逼近給定的連續目標函數.但文獻[10]對CI-ELM算法的逼近能力只是從定性上進行描述,而對其定量的研究并不完善.本文將基于Cauchy-Schwarz不等式對CIEL算法的逼近階進行更進一步的分析,并給出具體的CI-ELM逼近階.
文中考慮具有一個線性輸出節點的單隱層前向神經網絡,所有的分析結果都可推廣為多個非線性輸出節點的情況.一個含有d個輸入,n個隱節點以及一個線性輸出的單隱層前向神經網絡的數學模型可表示為

式中,ai表示輸入層與第i個隱節點之間的連接權值,bi表示第i個隱節點的閾值,βi表示第i個隱節點和輸出節點之間的連接權值,fn(x)表示第n步所得的網絡,gi(x)=G(x,ai,bi)表示i個隱節點的輸出.
單隱層前向神經網絡中,通常考慮兩種類型的隱節點在激活函數g(x)下的輸出,這兩種類型分別為

增量極限學習機的迭代公式為fn(x)=fn-1(x)+βngn(x).在增量極限學習機中,隱節點逐個增加,每增加一個新的隱節點gn(x)時,其對應的隱單元參數ai與bi服從某種連續概率分布隨機選取,新增隱節點與輸出層的連接權值βn則按照

計算,已有隱節點與輸出層的連接權值則保持不變.其中en=fn(x)-f表示誤差函數.
CI-ELM是在增量學習機的基礎上,結合Barron凸優化理論的一種改進算法.與I-ELM不同的是,該算法在添加新的隱單元后,已有隱單元的輸出權重需要重新計算.這一改進使得所獲網絡結構更加緊湊且泛化能力更好.理論及實驗結果表明,當激活函數滿足任意分段連續時,CI-ELM所產生的網絡序列可以以任意精度逼近給定的連續目標函數.其迭代公式為

在凸增量極限學習機中,當新增隱節點gn時,所有隱節點與輸出層的連接權值同時按照下述公式進行重新調整:

文獻[10]中已經證明了凸增量極限學習機的全局逼近能力,具體結論如下.
引理1[8]給定可加型隱節點形式的激活函數g(x)=a·x+b.若g(x)不是多項式函數,則span{G(x,a,b)=g(a·x+b),a∈Rd,b∈R}在L2中稠密.
引理2[8]給定RBF型隱節點形式的激活函數g(x)=b‖x-a‖.若g(x)是有界可積的連續函數,則span{G(x,a,b)=g(a·x+b),a∈Rd,b∈R}在L2中稠密.
定理1[9]給定任意非恒值逐段連續函數g:R→R.如果span{g(a·x+b)}在L2中稠密,則對于任意連續目標函數f和任意隨機產生的函數序列{gn(x)=g(an·x+bn)}時,當



命題得證.

結合上式可得

凸增量極限學習機是在增量極限學習機的基礎上,結合Barron凸優化理論計算輸出權值的一種改進算法.但對CI-ELM算法的逼近能力分析只是從定性上進行描述,而對其定量的研究并不完善.針對激活函數g(x)所生成的函數序列,定義了一個特殊的規范激活函數空間D,并在D上構造目標函數空間A1(D),利用Cauchy-Schwarz不等式給出具體的CI-ELM逼近階為O(n-1/2).還可以看出,對凸增量極限學習機的逼近能力的定量分析是建立在目標函數空間A1(D)上的,這使得所得結果具有局限性.因此,如何使得結果具有通用性,需要進一步的研究.
[1] ZHANG Rui,LAN Yuan,HUANG Guangbin,et al.Universal approximation of extreme learning machine with adaptive growth of hidden nodes[J].IEEE Transactions on Neural Networks and Learning Systems,2012,23(2):365-371.
[2] XU Zongben,CAO Feilong.The essential order of approximation for neural networks[J].Science in China,2004,47(1):97-112.
[3] KIMK K K,PATORN E R,BRAATZ R D.Universal approximation with error bounds for dynamic artificial neural network models:A tutorial and some new results[J].IEEE International Symposium on Computer-Aided Control System Design.Denver:IEEE,2011:834-839.
[4] 徐柳,賀興時.基于 HS算法的 Markov模型及收斂性分析[J].西安工程大學學報,2013,27(6):155-159.XU Liu,HE Xingshi.Markov model and convergence analysis based on harmony search algorithm[J].Journal of Xi′an Polytechnic University,2013,27(6):155-159.
[5] BARRON A R.Universal approximation bounds for superpositions of a sigmoidal function[J].IEEE Transactions on Information Theory,1993,39(3):930-945.
[6] NONG Jifu.Conditions for radial basis function neural networks to universal approximation and numerical experiments[C]//第25屆中國控制與決策會議論文集.貴陽:IEEE,2013:2193-2197.
[7] DAI Shilu,WANG Cong,WANG Min.Dynamic learning from adaptive neural network control of a class of nonaffine nonlinear systems[J].IEEE on Transactions Neural Networks and Learning Systems,2014,25(1):111-123.
[8] HUANG Guangbin,ZHU Qinyu,SIEW C K.Extreme learning machine:A new learning scheme of feedforward neural networks[J].Neural Networks,2004(2):985-990.
[9] HUANG Guangbin,CHEN Lei,SIEW C K.Universal approximation using incremental constructive feedforward networks with random hidden nodes[J].IEEE Transactions on Neural Networks,2006,17(4):879-892.
[10] HUANG Guangbin,CHEN Lei.Convex incremental extreme learning machine[J].Neurocomputing,2007,70(16/18):3056-3062.
[11] HUANG Guangbin,CHEN Lei.Enhanced random search based incremental extreme learning machine[J].Neurocomputing,2008,71(16/18):3460-3468.
[12] BARRPM A R,COHEN A.Apprpximation and learning by greedy algorithms[J].Annals of Statistics,2008,36(1):64-94.