曾國斌 冉兆春 海口經濟學院
基于貝葉斯算法的神經網絡優化方法研究
曾國斌 冉兆春 海口經濟學院
貝葉斯算法是一種近似建模的前饋網絡訓練方法,這一算法可以對未知量的具體構造進行分布驗證,從而得到對應于后驗分布的最大值的權值向量,其建立的模型穩定、精度高。對于人工神經網絡而言,其具有很好的非線性逼近特點,具有良好的并行式分布結構在很多領域都能應用。下面就分析貝葉斯算法的神經網絡優化方法,該方法的成功使用可以有效提高網絡建設效率。
貝葉斯算法 神經網絡 優化方法
當前人工神經網絡應用范圍非常廣,在應用中BP算法是前饋網絡的重要學習方法,操作簡單,計算量小,因此在實際使用中使用頻率最多。但是這一算法存在致命的缺點,例如其實際收斂速度非常慢,容易陷入局部極小掉等缺陷,為了解決這一問題,相關技術人員引入了貝葉斯算法,這一算法以BP算法為基礎,對其加以改進和優化,下面就對其進行深入的分析。
對于神經網絡而言,其含有隱層前饋神經網絡,因此能夠作為一個函數逼近器,當其具有足夠的隱層單元時,這一網絡就可以通過任何精度逼近所有的連續函數,當其隱層越多時,在網絡中需要的隱單元就越少,為了深入了解這方面的內容,可以參考下圖進行分析。對于當前使用的前饋神經網絡訓練算法而言,反向傳播是是以最廣泛的一種算法,假設從n個輸入,m個輸出節點的BP網絡,其實際輸入和輸出的關系可以視為一個n維歐氏空間到m維歐氏空間的映射,具體關系是F:Y=f(x),在這一公式中,XY是輸出和輸入的向量。但是這種BP網絡算法有一定的缺點,收斂速度很慢,而且還存在局部極小點,相關人員對其進行了改進,但是只增加其收斂速度,導致網絡建模精度無法保證。下面就深入對網絡模型進行研究,分析不同算法的優點和缺點,進而提出了一種貝葉斯模型算法。

圖1 :含有兩個隱層的前饋網絡結構模型權
貝葉斯算法也是一種概率算法,是ThomasBayes創建的,其主要應用到了自我學習的智能技術,使用貝葉斯算法時需要考慮權值,了解權值在權空間內的具體分布情況,當沒有足夠的數據作為支撐時,這一分布屬于先驗分布P(w),當存在數據之后,分布就屬于后驗分布。通過下圖可以了解貝葉斯具體的學習過程,當沒有足夠的數據時,權分布情況只有很少的知識,由此可見,先驗分布時一個非常寬的分布,其表示在網絡中非常基礎的性質,但是當有了相關數據之后,就能夠將其轉化為后驗分布P(w|D),后驗分布是非常緊湊的,表明只能在很小的范圍內的權值才能夠和網絡映射達成一致。

圖2 :貝葉斯先驗分布和后驗分布情況
先建立一組模型,其可以是結構大小不同的前饋網絡,或者是RBF網絡,通過貝葉斯定理就能夠寫出給定的數據后模型的后驗概率。P(Hi|D)=P(D/Hi)P(Hi),P(D|Hi)P(D|H2)P(D|H3)DD0,通過下圖可以了解貝葉斯模型的選擇情況。研究人員一定要清楚,P(Hi)屬于模型Hi的先驗概率,P(D Hi)則可以稱之為模型的顯著度,這一模型的選擇思路就是設H1、H2、H3分別表示越來越復雜的模型,其顯著度開始增加,當模型越復雜時,能夠描述的數據范圍就越廣泛,但具體的分布必須要歸一化.對于模型的顯著度而言,可以通過公式p(D| Hi)=∫p(D| w,Hi)p(w |Hi)dw.進行表示,需要考慮某一個權限制,當w.在一個權空間中時,這一權的后驗分布將會集中在最可能值WMP的附近,那么上述公式就可以寫成p(D |Hi)≈p(D|wMP,Hi)p(wMP |Hi)Δw后驗.當認為先驗分布存在一個較大的范圍內,而且屬于均勻分布時,上述的公式就可以寫成p(D/Hi)≈p(D|WMP,Hi){Δw后驗/Δw先驗},在這一公式中,第一個因子在最可能權值位置的似然值,其中第二個因子稱之為“奧克姆因子”,這一數值總小于1,主要作用是對過于復雜的模型進行懲罰,如果一個模型包括很多個參數時,其中的每一個參數會包含很多參數,而其中的每個參數都會產生一個奧克姆因子,這樣使顯著度下降.因此模型應在較大似然值和相對大的奧克姆因子間取合理折中,為了求解顯著度的最大值,可以將這一公式寫為:p(D |Hi)=p(D|α,β,Hi)p(α,β|Hi)dαdβ,在這一公式中,α和β屬于超參數,p(D|α,β,Hi)是α和β的顯著度,使用高斯分布近似為p(D|α,β,Hi)對β積分,同時可以認為Inβ在圍繞βMP并包含β的概率分布中主要區域的一個很廣區間。這些結論都可以應用到不同的模型中,各個模型可以是結構不同的網絡,輸出也是所有單個模型輸出的線性組合,還可以不使用各個模型輸出的組合,可以結合后驗概率的大小選擇一個最可能的輸出作為結果。

圖3:貝葉斯模型的選擇
對于貝葉斯算法在神經網絡中的應用而言,主要是對模型當中的未知量構造其后驗分布,實際操作中可以利用積分求取待求變量的邊際分布,這些待求變量可以是對變量的預測值,或者是模型中的參數θ,設模型為:P(θ|D)=P(D|θ)P(θ)/∫P(θ)P(D|θ)dθ.為了得到一般化,將x設置為某個隨機的向量,其具體分布是π(x),x是模型參數或要預測的變量,這樣就能夠將問題進行簡化,這樣就得到E[f(x)]=∫f(x)π(x)dx/∫π(x)dx,這種MCMC逼近原理中,在各態經歷中馬爾可夫的性質和初始狀態沒有關系,最后一個將會收斂在一個靜態的極限分布中,在這種情況下只要隨機給定一個初態,通過一段時間的跳轉之后,這一馬爾可夫鏈采到的樣本就一定服從于靜態分布π(x),同時還滿足下面的平衡方程:P(x′|x)π(x)=P(x |x′)π(x),這一公式中x和x′分別是當前和下一時刻的狀態,因此絕大部分馬爾可夫蒙特卡羅方法都遵循上述平衡方程,這為選擇轉移概率提供了依據,傳統的分析問題轉化為概率模型,利用隨機模擬的計算方法得到概率意義下的近似最優解。
對一個兩輸入單輸出的非線性函數進行建摸,respo nse(p1,p2)=[c1r+c2sin(c3πr)][c4sin(c5θ)],在 這 一 公 式 中,r=(p1+p2)1/2,θ=arctan(p2/p1),c1= 0.8,c2= 0.35,c3= 1.2,c4=1.5,c5= 1.3。結合試驗設計25個樣本,將其作為訓練樣本,使用BP算法和貝葉斯算法訓練神經網絡,非線性神經元數目可以設置為12,建立模型仿真圖如下,BP算法訓練的過程中,將最大訓練步數設置為500,在貝葉斯算法中,以50步作為訓練過程,演化了1000代,對比分析發現貝葉斯算法需要的時間長,下圖近似模型顯然更接近于原始的非線性函數。

圖4:基于貝葉斯算法近似模型
通過以上分析發現傳統的BP算法的神經網絡具有收斂速度慢的缺陷,通過仿真試驗結果可以了解,當網絡結構復雜度相同時,貝葉斯算法的收斂速度快,改進之后神經網絡收斂速度有了很大的提高。
[1]徐建偉,劉桂芬.基于貝葉斯正規化算法的BP神經網絡泛化能力研究[J].數理醫藥學雜志,2017,20(3):293-295.
[2]徐剛,黃先玖.一種粒子群優化的神經網絡綜合訓練算法研究[J]. 計算機工程與應用,2011,47(11):37-38.
[3]楊春生,牛紅濤,隋良紅,等.基于貝葉斯正則化算法BP神經網絡釩電池SOC預測[J].現代電子技術,2016,39(8):158-161.
曾國斌(1980.9--),男,漢族,湖南平江,碩士研究生,副教授,研究方向:教學方法論與數學模型設計,工作單位:海口經濟學院;冉兆春(1970-),男,漢族,陜西西安,碩士研究生,副教授,研究方向:系統分析算法設計,工作單位:海口經濟學院。
海南省自然科學基金項目,項目編號:20156231。