







摘要:多隱含層長短期記憶神經網絡(long short-term memory,LSTM)循環(huán)神經網絡權值與閾值更新依賴梯度下降算法,模型收斂速度慢,網絡節(jié)點的權值計算易出現(xiàn)局部極值,導致LSTM 神經網絡模型不能得到全局最優(yōu),網絡模型泛化能力下降,限制LSTM 循環(huán)神經網絡的應用。因此,利用加速粒子群優(yōu)化算法(accelerated particle swarm optimization,APSO)的優(yōu)化能力,提出一種改進LSTM 神經網絡模型。該模型將均方根誤差設計為適宜值函數(shù),并利用APSO 算法構建尋優(yōu)策略,對各神經元節(jié)點間的權值進行全局優(yōu)化,提升模型的泛化和預測性能。通過經典DataMarket 及UCI 數(shù)據(jù)集的實驗結果表明,APSO-LSTM 模型的預測精度較傳統(tǒng)LSTM 模型有顯著提升,驗證了APSO-LSTM模型的有效性和實用性。
關鍵詞:神經網絡;權值優(yōu)化;適宜值;APSO-LSTM模型
中圖分類號:TP183 文獻標志碼:A 文章編號:1000-582X(2024)08-103-09
隨著深度學習的迅猛發(fā)展,人工智能已成為眾多學者研究的熱點之一[1]。目前,神經網絡模型已被廣泛運用于語音識別[2]、機器翻譯[3?4]、視頻動作識別[5?6]及時序預測等任務。而循環(huán)神經網絡RNN(recurrent neuralnetworks)作為神經網絡模型的重要分支,也在各領域取得了巨大成就。RNN 適合處理時序數(shù)據(jù)及其潛在的時序聯(lián)系,但仍存在梯度消失及梯度爆炸等缺陷[7?8],為此,Hochreiter 等[9]于1997 年提出了長短期記憶神經網絡模型LSTM,用于改進傳統(tǒng)的RNN 模型,即通過3 個門控單元有針對性丟棄冗余并抑制梯度消失。但LSTM神經網絡模型仍存在學習效率不高、隱層過多時出現(xiàn)梯度消失等缺陷,故眾多學者不斷對LSTM(longshort-term memory)模型予以改進。如門控循環(huán)神經網絡(gated recurrent unit,GRU)是在LSTM 基礎上優(yōu)化了網絡結構,由3 個門控單元變?yōu)? 個門控單元,GRU 模型現(xiàn)已在工業(yè)生產中被普遍運用。2018 年,Li 等[10]結合CNN(convolutional neural networks)與LSTM 模型,用以新聞文本分類,有顯著成效。Song 等[11]提出一種改進的深度LSTM神經網絡,該模型在一定程度上能預測趨勢。
上述大多是以改進LSTM 的網絡結構為目標,當隱含層數(shù)過多時,LSTM 神經網絡的收斂速度較慢,模型參數(shù)的修正往往只能得到局部最優(yōu)。目前,已有越來越多的研究著眼于群體智能算法,并用其優(yōu)化神經網絡的權值及閾值等參數(shù)。Lin 等[12]提出了一種基于遺傳算法優(yōu)化的LSTM神經網絡模型(GA-LSTM)用于股票分析。ElSaid 等[13]提出基于蟻群算法優(yōu)化的LSTM 神經網絡模型(ACO-LSTM)等。APSO 算法是由Yang等[14]在2010 年提出的改進粒子群優(yōu)化算法,較標準的PSO(particle swarm optimization)算法[15-16],APSO 更易獲取全局最優(yōu)解,且收斂速度更快。王永貴等[17]針對算法易陷入早熟收斂的問題,修改了慣性權重的變化規(guī)律,避免早熟收斂,使種群在后期也有豐富特性。夏學文等[18]提出具備反向學習和局部學習能力的粒子群優(yōu)化算法,該算法將每次迭代中的最差粒子位置和每個個體的歷史最差位置記錄下來,當算法陷入停滯時,對部分粒子采用反向學習策略,向這些較差的信息學習,使粒子脫離局部最優(yōu)。
本文提出基于APSO 算法優(yōu)化的LSTM神經網絡模型APSO-LSTM(accelerated particle swarm optimizedlongshort-term memeroy),該模型通過將LSTM 神經網絡的預測結果的均方根誤差設計為適宜值函數(shù),并利用APSO 算法構建尋優(yōu)空間,對LSTM 中網絡節(jié)點間的權重值進行全局優(yōu)化,提升模型泛化能力。同時,利用所提的APSO-LSTM神經網絡模型在經典數(shù)據(jù)集上建立預測模型,驗證該模型的有效性。