朱宗玖,趙藝偉
(安徽理工大學 電氣與信息工程學院,安徽 淮南 232001)
空氣污染不僅會對身體健康產生威脅,嚴重者將會影響國家的長遠發展,不能以犧牲環境來換取一時的利益[1]。空氣質量主要受CO、SO2、NO2、O3、PM2.5和PM10這六種因素影響,將其與空氣質量指數(air quality index, AQI)結合可以直觀地反映空氣質量[2]。在預測模型中,支持向量機(SVM)和最小二乘支持向量機(LSSVM)的使用較為廣泛,但其均不能準確選擇參數。因此,何柳等[3]通過改進的灰狼算法(DEGWO)對SVM模型的懲罰參數和核函數進行尋優,建立最優DEGWO-SVM診斷模型對電力變壓器進行故障診斷;韓旺龍等[4]通過魚群優化算法進行參數γ和σ的尋優,采用徑向基函數作為核函數,建立土壤水分流失預測模型;彭軍龍等[5]采用麻雀搜索算法(SSA)對LSSVM模型的正則化參數c和核函數參數σ進行優化,以彌補LSSVM模型參數確定困難的缺陷;王紅雨[6]通過海鷗算法(SOA)對LSSVM模型進行優化,得到壓降預測模型;欒洲等[7]通過灰狼優化(GWO)算法進行懲罰因子c和核函數參數σ的尋優,再通過隨機森林(RF)計算每個特征的重要性和GWO-LSSVM共同建立預測模型,對地表下沉系數進行預測。相比于SVM模型來說,LSSVM模型在一定程度上降低了求解難度,更能適合于求解大規模問題,可以獲得較快的速度和較高的精度,因此,選擇選取最小二乘支持向量機進行預測。上述文獻中,雖然各模型都能實現預測,但精度不高,容易擴大尋優范圍使迭代次數增加,不利于尋找最優解。綜上,提出一種基于多個子種群,可以利用不同時間段的信息對搜索空間進行徹底的探索,追求更強的搜索能力,以避免陷入局部最優的蜣螂優化算法(DBO)。本研究將LSSVM模型與蜣螂算法相結合,形成DBO-LSSVM預測模型,旨在探索開發一種新型高效率、高精度的預測模型。將該模型應用于空氣質量指數預測具有一定的重要意義與應用價值。
最小二乘支持向量機(least squares support vector machine, LSSVM),LSSVM是SVM(支持向量機)的一種改進算法,它是將傳統的支持向量機中的不等式約束改為等式約束,且將誤差平方和損失函數作為訓練集的經驗損失,把解二次規劃問題轉化為求解線性方程組問題,提高求解問題的速度和收斂精度,是機器學習中應用較廣泛的一種建模方法[8-10]。
LSSVM模型常采用的核函數有高斯徑向基核函數(radial basis function, RBF)、線性核函數和多項式核函數。
蜣螂優化(Dung Beetle Optimizer, DBO)算法是2022年11月,由提出麻雀搜索算法(SSA)的東華大學沈波教授團隊提出的一種全新群智能優化算法。對蜣螂的滾球、覓食、偷竊和繁殖行為進行數學建模,提出了DBO算法也可稱為蜣螂優化器。該算法將種群中的蜣螂進行了分配,完成這四個不同的行為。DBO算法主要包括四個過程:滾球、繁殖、覓食和偷竊[11]。
蜣螂滾球行為分為有障礙物模式和無障礙物模式。
當處于無障礙模式中時,蜣螂利用太陽導航,此時光源的強度會對其位置產生影響,位置更新如式(1)所示。
xi(t+1)=xi(t)+akxi(t-1)+
b|xi-xw|
(1)
式(1)中,t表示當前迭代次數,xi(t)表示種群中第i只蜣螂在第t次迭代時的位置。α為1時表示路線無偏差,-1時表示偏離原方向。xw表示種群中的最差位置,|xi-xw|用來表示光強的變化,數值越大光源越弱。k為偏轉系數,b為(0,1)的一個常數值。
當處于有障礙模式時,蜣螂需要通過跳舞來獲得新的前進方向,算法提出者使用了切線函數來模仿跳舞行為,得到新的滾動方向,此時位置更新表達式如式(2)所示。
xi(t+1)=xi(t)+tan(θ)|xi(t)-
xi(t-1)|
(2)
式(2)中,θ為偏轉角,|xi(t)-xi(t-1)|為第t-1次和第t次的位置之差。
蜣螂為了給后代提供安全的環境,通常會選擇合適的產卵地點。因此,提出了模擬蜣螂產卵的區域邊界選擇策略,如式(3)所示。
(3)
Bi(t+1)=xb+b1(Bi(t)-Lb*)+
b2(Bi(t)-Ub*)
(4)
式(4)中,Bi(t)為第i個卵在第t次迭代時的位置,b1和b2是大小為1×D的獨立隨機向量,D為優化問題的維數。
一些蜣螂會從地下出來尋找食物,其最佳覓食區域是動態更新的,如式(5)所示。
(5)
式(5)中,R與前文相同,xg為當前種群的局部的最優位置,Ubg和Lbg分別為出來覓食的蜣螂活動范圍上下界,此時出來覓食的蜣螂位置更新如式(6)所示。
xi(t+1)=xi(t)+C1(xi(t)-Lbg)+
C2(xi(t)-Ubg)
(6)
式(6)中,C1為服從正態分布的隨機數,C2為1×D的屬于(0,1)之間的隨機向量。
在種群中,有一些蜣螂會偷取其他蜣螂的糞球,在迭代過程中,偷竊者的位置更新如式(7)所示。
xi(t+1)=xg+Sg(|xi(t)-
xb|+|xi(t)-xg|)
(7)
式(7)中,g為服從正態分布的大小為1×D的隨機向量,S是一個常數。
綜上所述,與其他算法相比不同的是,它不是基于雙種群的,而是基于多個子種群,每個子種群執行不同的搜索方式,算法的提出者將其劃分成了四個子種群。因此,DBO算法在探索或開發方面比其他算法更具競爭力,可以利用不同時間段的信息對搜索空間進行徹底的探索,追求更強的搜索能力,以避免陷入局部最優;R參數具有動態變化的特點,可以進一步激發算法的探索和開發狀態;不同的區域搜索策略,可以促進算法的利用行為;不同的更新規則,可以保證所開發的算法在局部和全局搜索能力之間保持足夠的平衡。
LSSVM以徑向基函數(RBF)為模型預測的內核,而參數的選擇對模型的影響較大,人為的對參數進行確定,會使該模型的精度以及預測性能降低。而利用蜣螂優化算法來選擇合適的參數,使人為選參致使的誤差變大問題得以解決。參數選擇的步驟如下。
(1)初始化蜣螂群和DBO優化算法運行參數初值;
(2)根據目標函數計算出所有agent的適應度值;
(3)更新所有蜣螂位置;
(4)判斷每個agent是否超出邊界;
(5)更新當前最優解及其適應度值;
(6)根據設定的迭代次數或結束運行條件,對
上述步驟進行循環;
(7)得到最優解。
根據以上步驟構建DBO-LSSVM預測模型如圖1所示。

圖1 DBO-LSSVM預測模型流程圖
選擇四個標準函數來驗證DBO算法的有效性,F1-F3為單峰函數,F4為多峰函數,測試函數具體內容如表1所示。將DBO和灰狼優化算法(GWO)、麻雀搜索算法(SSA)、鯨魚優化算法(WOA)、北方蒼鷹優化算法(NGO)進行對比,設置每種算法種群規模為30,最大迭代次數500,在MATLAB 2022b中進行算法編程和運行仿真,每個算法獨立運行30次。

表1 標準函數信息
將算法進行對比觀察其收斂性能和尋優精度,取得的數據如表2所示,根據最優值和平均值來考察算法的性能。在求解函數F2時,DBO算法對比其余算法至少提高了5個數量級;在求解函數F3時,DBO算法對比其余算法至少提高了35個數量級;在求解函數F4時,均接近理論最優值。實驗結果表明,DBO算法具有較好的精度和收斂性,其穩定性也相對較好。

表2 各算法對應測試結果
使用的實驗數據來自中國環境監測總站的全國城市空氣質量實時發布平臺發布的成都市公開數據,包括PM2.5、PM10、SO2、NO2、CO、O3和AQI指數等指標。除此之外,使用成都市2021年3月至2022年3月間的每天的數據作為數據集,按照7:3來劃分訓練集和測試集在MATLAB R2022b軟件上進行仿真實驗。
使用決定系數R2(coefficient of determination)平均絕對誤差MAE(mean absolute error)和均方誤差MSE(mean square error)三種評估指標來更好的對模型的預測效果進行評估,如式(8)-式(10)所示。
(8)
(9)
(10)

設置種群數量為30、迭代次數為50時,DBO-LSSVM模型的收斂曲線如圖2所示。

圖2 DBO-LSSVM模型收斂圖
將處理后的數據輸入模型,以七三來劃分訓練集和測試集,對DBO-LSSVM模型進行訓練如圖3所示。通過結果圖可以得出結論:無論是在訓練集還是測試集,曲線波動走向近乎一致,空氣質量指數的預測值和真實值都非常貼近。這就說明此模型對空氣質量指數的預測誤差小且精確度較高。

(a)訓練集對比圖
為驗證對于空氣質量指數預測,DBO-LSSVM模型是否相對具有優勢,將LSSVM模型和灰狼算法優化最小二乘支持向量機模型(GWO-LSSVM)與其進行比對。將LSSVM和GWO-LSSVM和DBO-LSSVM模型在測試集上的預測評價指標進行記錄,并且將三種模型預測值與真實值的擬合程度分析進行對比,如表3和圖4所示。

表3 評價指標數據表

(a)LSSVM模型擬合程度圖
從表3和圖4中可以清晰的看出,提出的DBO-LSSVM模型的MSE、MAE值均低于另外兩個模型,分別為3.5440和1.3385。其中MAE、MSE值較LSSVM模型分別降低了0.3727、3.1161;較GWO-LSSVM模型降低了0.2027、1.1568;除此之外,R2值和擬合程度分析圖也均為最佳。由此可得,LSSVM模型通過DBO尋找最優參數,最終得到了更為精準的AQI預測效果。
提出了一種基于蜣螂優化算法對最小二乘支持向量機的空氣質量指數預測模型,蜣螂優化算法是新提出的算法,其性能優于SSA、GWO、WOA等算法。通過仿真實驗證明了與其他兩種模型相比較DBO-LSSVM模型不僅預測精度較高,而且速度也得到了改善,三種評價指標值皆為最佳且誤差波動最小。綜上所述,此模型對空氣質量指數可以提供更為精確的預測,算法穩健性和預測精度較其他模型可以達到更高。