王 博,彭 碩
(井岡山大學電子與信息工程學院,江西吉安 343009)
支持向量機(SVM)具有良好的魯棒性,已廣泛應用于模式識別、回歸分析、趨勢預測等領域。由于支持向量機模型中的兩個正則函數與核參數具有優化改進的空間,例如文獻[1-3]提出對正則參數使用參數優化算法,并對傳統的支持向量機進行改進,取得了良好效果。其中,游仕洪等[3]注意到,傳統支持向量機在進行訓練時,輸出的誤差項包含大量可再次學習的信息,因此提出新的混合回歸預測模型來提取這些信息,并再次訓練輸出,得到了更優的輸出;文獻[4-6]則對核參數進行優化;文獻[7-9]采用ARIMA-SVM(混合時間序列預測算法)將數據的線性訓練數據與非線性預測誤差相結合,得到最終預測結果;文獻[10]建立支持向量機與泰勒時間預測混合模型,對殘差項重新進行優化訓練,對支持向量機的預測值進行修正。
然而,上述混合模型受限于訓練數據的線性要求,使模型應用范圍受到限制。本文嘗試將最小二乘支持向量機與經過粒子群算法優化的RBF 神經網絡相結合,建立混合回歸預測模型(LSSVR-IPSO-RBFNN),并將該模型用于流域水生態環境的水質預測,取得了良好效果。
支持向量機理論基于結構風險最小化原則,利用樣本信息,在提高特定訓練樣本學習精度及任意樣本識別精度的需求中尋找最佳點,以解決受約束的二次規劃問題,具有較好的預測能力。由于支持向量機本身的特性,其在回歸分析、模式識別等領域得到了廣泛應用,并取得了很好的效果[11-13]。
以下函數常被用來描述支持向量機的優化問題:

利用拉格朗日法對上述公式進行優化求解,將其轉化為二次規劃問題。

雖然支持向量機具有較好的預測能力,但訓練過程復雜、計算速度較慢。最小二乘支持向量機模型將整個訓練過程簡化為求解一個線性方程組,可有效避免求解二次規劃問題,因此減少了計算量,提高了計算速度。最小二乘支持向量機相較于標準支持向量機過程更加簡單,建模速度更快。具體公式如下:

在此基礎上引入拉格朗日公式,表現為以下形式:

進一步推出優化條件為:

轉換為矩陣,表示為以下形式:

式中,I是n×n 的單位矩陣,,。消除權重因子與松弛因子后,可得到如下等式:

式中,Φ=ZZT為n × n單位矩陣,結合式(8)、式(9),可得到:

其中,K(xk,xi)是核函數。上式用核函數形式來表現,則:

至此,可得到最小二乘支持向量機(LSSVR)模型為:

在該LSSVR 模型中,最重要的兩個參數分別為正則化參數(gam)與核函數參數(sig2)。
人工神經網絡可通過網絡進行學習與訓練,不斷調整權值和閾值,利用非線性函數將輸入的數據映射到高維空間,加權后輸出最終結果[14-15]。典型的神經元結構由3 層組成,具體神經元模型如圖1 所示。

Fig.1 Neural net model圖1 神經元模型
在神經元模型中,xj,j=1,2,…N為輸入層輸入數據,wij為連接權重,θi為第i 個神經元閾值,f(·)代表激勵函數,yi代表第i 個神經元的輸出值。
將徑向基函數引入神經網絡,建立徑向基神經網絡(RBF),使得神經網絡具有更好的泛化能力及更快的收斂速度。RBF 神經網絡結構如圖2 所示[16]。

Fig.2 RBF nueral network圖2 RBF 神經網絡
在模型中,數據條件屬性的維數決定了輸入層節點個數,預測目標值則通過一個輸出層節點進行輸出。滿足徑向基函數特性的函數有3 個,具體公式如下[17-18]:

將高斯函數引入徑向基函數后,其表現形式為[19]:

其中,N 表示隱藏層個數,ci表示第i個隱藏層節點中心向量,σi表示第i 個隱藏層節點半徑,連接權重W 為:

則RBF 網絡輸出y 可表示為:

以上3 個參數ci、σi、wi常采用梯度下降法進行優化。
RFB 的優化目標函數為[20]:

βi表示遺忘因子,yi表示實際值,為預測值。E對ci、σi、wi的偏導數為:

ci、σi、wi根據以上公式不斷進行訓練并循環調整,使網絡預測值達到期望值。

式中,yi表示實際值,Δi表示誤差項。本文嘗試使用粒子群算法與最小二乘支持向量機的混合回歸預測算法,從Δi中提取未被學習與利用的有效信息,以進一步提高回歸預測模型精度。
假設訓練與測試數據集具有相似的誤差,則可使用測試數據集誤差的估計值對支持向量機預測值進行修正,具體公式如下:

為避免f(Xi)出現過擬合或欠擬合的情況,本文使用改進的粒子群算法對最小二乘支持向量機的兩個關鍵參數——正則化參數(gam)與核函數參數(sig2)進行優化。
粒子群算法中每一個粒子具有兩個重要特征值,即全局最優值與局部最優值,由這些粒子組成的粒子群可在搜索空間中搜索最優位置。
在n 維空間中,第i 個粒子經過k 次迭代后,其位置Xi(k)與速度Vi(k)為:

則在第k+1 次迭代時,粒子的位置和速度可表示為:

其中,r1、r2為[0,1]的隨機數,c1、c2為 學習因子,μ為 慣性權重。
由于慣性權重μ對全局搜索與局部搜索能力的平衡具有重要影響,可避免粒子群算法陷入局部最優,因此本文采用動態調整公式對慣性權重μ進行優化:

式中,μmax表示慣性權重最大值,μmin表示慣性權重最小值,tmax表示最大迭代次數。
粒子群算法優化過程如圖3 所示。
因為支持向量機訓練產生的殘差值Δi與訓練集的條件屬性具有關聯性,所以可將兩者結合為新的訓練數據集來訓練RBF 神經網絡模型,使RBF 神經網絡能夠進一步提取Δi中未被利用的信息,從而提高支持向量機預測精度。LSSVM-RBF 算法流程如圖4 所示。

Fig.3 Particle swarm algorithm optimization process圖3 粒子群算法優化過程

Fig.4 LSSVM-RBF algorithm flow圖4 LSSVM-RBF 算法流程
在以上算法流程基礎上,可構建基于最小二乘向量機與粒子群優化RBF 神經網絡的混合回歸預測模型。利用該模型對估計值與殘差進行預測。具體步驟如下:
(1)根據圖3 的算法優化過程,采用改進的粒子群算法對LSSVR 參數進行優化。

在流域生態環境趨勢預測中,其中的水環境預測十分重要。根據文獻[20]的研究,水中葉綠素a 的濃度高低可體現水質富營養化程度。本文采用混合回歸預測模型,通過對水中葉綠素a 的濃度預測,以更好地了解該流域的水生態環境趨勢,并選取總磷(TP)、總氮(TN)、PH 值、高錳酸鹽(CODmn)、溶解氧(DO)幾個與葉綠素a 相關的條件屬性。
為了對結果進行客觀評價,選取4 個常用模型進行對比,包括:RBF 神經網絡模型、?-SVR模型、LSSVR 模型、IPSO-LSSVR 模型。經過數據集訓練后,各模型預測誤差如表1 所示。葉綠素a 濃度預測值如圖5 所示。

Table 1 Comparison of prediction error of each model表1 各模型預測誤差比較

Fig.5 Predicted value of chlorophyll a concentration圖5 葉綠素a 濃度預測值
從表1 與圖5 可以看出,本文提出的混合預測回歸算法相比其他4 種模型誤差更小。從擬合曲線可知,混合預測回歸算法的擬合程度更高,可得到更高的預測精度。
本文采用粒子群算法對最小支持向量機中的正則參數與核函數進行優化,并結合RBF 神經網絡對原訓練結果殘差項的有效信息重新進行組合與訓練,該訓練結果可用來修正最小支持向量機的預測結果。實驗結果表明,本文提出的混合回歸預測算法是可行、有效的。