武新燕,卞希慧,*,楊 盛,徐 沛,王海濤
(1.天津工業(yè)大學 省部共建分離膜與膜過程國家重點實驗室,環(huán)境科學與工程學院,天津 300387;2.天津工業(yè) 大學 化學與化工學院,天津 300387;3.紹興市柯橋區(qū)污染物總量控制中心,浙江 紹興 312030)
近紅外光譜因其快速、方便、低成本以及無損等優(yōu)勢,已廣泛應用于諸多領域[1-7]。然而,近紅外光譜同時存在變量維度高,多重共線性,包含冗余信息和高頻噪聲等問題,直接構建預測模型不但增加建模復雜度,同時也會影響模型的預測性能和泛化能力[8]。因此選擇信息最豐富的變量或剔除信息不豐富的變量變得尤為重要。隨著人工智能和計算機技術的迅速發(fā)展及應用,變量選擇的方法研究也取得了較大的進展。主要有基于統(tǒng)計學的變量選擇方法[9-11],基于單一指標的波長選擇方法[12-13]和群體智能優(yōu)化算法[14-18]。其中群體智能優(yōu)化算法因其強大的全局搜索能力,使得其在特征變量篩選方面具有巨大的潛力。
灰狼優(yōu)化(Gray wolf optimizer,GWO)算法是由Mirjalili等[19]于2014年開發(fā)的一種群體智能優(yōu)化算法。GWO模擬灰狼群體捕食行為的特性,其主要設計思想是基于狼群按個體的能力劃分社會等級,選出狼群的領導者,通過狼群追蹤、包圍、追捕、狩獵獵物等過程達到優(yōu)化搜索的目的,狩獵過程即算法尋優(yōu)過程。與其它群體智能優(yōu)化算法相比,GWO算法因參數少,結構簡單,易于實現,在求解優(yōu)化問題上具有很好的局部搜索能力和求解精度,受到研究者的廣泛關注[20],并廣泛應用于多種領域的理論研究和實際生產中[21-23]。由于GWO算法目前在光譜分析領域應用較少,本文探討了GWO算法在近紅外領域應用的可行性。選用玉米樣品的近紅外光譜,考察了優(yōu)化過程中狼群性能的變化,迭代次數及狼群數量對模型性能的影響,將參數優(yōu)化后的GWO算法用于玉米中蛋白質、脂肪、水分及淀粉組分的變量選擇,并建立偏最小二乘(PLS)模型。結果表明,與全光譜的PLS模型相比,GWO-PLS算法不僅采用的變量少,而且可以明顯提高模型的預測精度。

圖1 灰狼算法原理圖Fig.1 Schematic diagram for GWO algorithm
GWO算法靈感來自于犬科的灰狼。灰狼群居,在捕獵過程中它們分工明確、共同合作進行捕獵。領導能力最強的灰狼被記為α,主要負責捕獵過程中的決策部分及管理狼群。剩下的灰狼個體按社會等級被依次記為β、δ和ω。其中β狼和δ狼是等級依次排在后面的兩個個體,捕獵中它們會協(xié)助α狼對灰狼群進行管理及輔助參與捕獵過程中的決策問題。剩余的狼群被定義為ω,其主要職責是平衡灰狼種群的內部關系及協(xié)助α、β、δ對獵物進行攻擊。在整個捕獵過程中,首先由α狼帶領狼群搜尋、追蹤獵物,當距離獵物足夠近時,α指揮β、δ狼對獵物進行圍攻,并召喚周圍的ω狼對獵物進行攻擊,當獵物移動時,狼群包圍圈也隨之移動,直到捕獲獵物。GWO算法的原理圖如圖1所示。圖中Dα、Dβ、Dδ表示獵物到α、β、δ狼的距離,C1、C2、C3表示狼的位置對獵物影響的隨機權重,a1、a2、a3表示收斂因子。
算法通過包圍、追捕、攻擊三個階段進行捕獵,最終捕獲獵物即獲得全局最優(yōu)解。具體算法描述如下:
第1步:狼群尋找獵物,當發(fā)現獵物可能出現的位置時,狼群會慢慢地包圍獵物。
第2步:對獵物進行包圍后,β、δ狼在α狼的帶領下對獵物進行追捕,在追捕過程中狼群個體的位置會隨獵物的逃跑改變,而后可以根據α、β、δ的更新位置重新確定獵物的位置。
第3步:向獵物攻擊。攻擊是捕獵過程的最后階段,狼群對獵物進行攻擊并捕獲獵物,即得到最優(yōu)解。
本文將GWO算法運用于近紅外光譜數據,并以0和1分別代表是否選取該波長點,將與波長點相等的1、0組成的向量作為灰狼算法的輸入,交叉驗證均方根誤差(RMSECV)作為灰狼算法參數優(yōu)化的衡量標準獲取最優(yōu)參數。

圖2 M5儀器采集的玉米樣品的近紅外光譜圖Fig.2 Near infrared spectra of corn samples collected by M5 instrument
為驗證GWO算法的有效性,本文對網上公開的玉米數據進行分析。該數據集下載網址為http://software.eigenvector.com/Data/Corn/index.html,由3種光譜儀(M5、MP5、MP6)測定近紅外光譜和相應的蛋白質、脂肪、水分及淀粉的含量組成。本文采用M5儀器的光譜,對4種組分進行考察,其中灰狼算法參數討論以蛋白質組分為主。光譜的波長范圍為1 100~2 498 nm,采樣間隔為2 nm,共700個波長點(如圖2所示)。將80個樣品按照Kennard-Stone方法進行分組,選取53個樣品用于建立模型,27個樣品用于驗證模型的性能。
為了考察狼群性能隨迭代次數的變化情況,選取狼群數量為20,迭代次數分別為10、30、60、100、300來表示狼群的尋優(yōu)趨勢,并以RMSECV為預測指標將20匹狼的預測性能顯示在圖3。從圖中可以看出迭代次數為10時(圖3a),20匹狼整體的RMSECV相近;當迭代次數為30時(圖3b),每匹狼的性能差異較大,且整體的RMSECV相比10次迭代時下降;當迭代次數增至60時(圖3c),每匹狼的性能差異明顯變小且RMSECV整體下降明顯;當迭代次數增至100時(圖3d),20匹狼的RMSECV雖有下降,但與60次迭代時相比下降幅度不大;而當迭代次數達到300時(圖3e),狼群整體的RMSECV相比迭代次數為100時下降明顯,且每匹狼的RMSECV幾乎相等。說明最優(yōu)目標值基本尋找到,20匹狼的位置均接近最優(yōu)解。每個子圖中的箭頭對應的狼為α狼,可以看出,α狼的位置隨著迭代次數的變化而不斷變化,在整個尋優(yōu)過程中α狼不斷地更新以靠近目標位置,直至找到最佳位置。

圖3 蛋白質組分不同迭代次數中20匹狼的運行結果和α狼的位置Fig.3 The running results of 20 wolves and the position of α wolf in different iterations of the protein a.10 th,b.30 th,c.60 th,d.100 th,e.300 th

圖4 玉米樣品蛋白質組分的平均RMSECV隨迭代次數的變化Fig.4 Variation of the mean RMSECV with the number of iterations for protein of corn samples

圖5 蛋白質組分的RMSECV(a)及運行時間(b) 隨狼群數量的變化圖Fig.5 Variation plots of RMSECV(a) and runtime(b) with number of wolves for protein

圖6 玉米樣品波長變量的選擇分布Fig.6 Distribution of wavelength variable for corn samples
當灰狼算法的迭代次數達到一定值后,算法整體的結果基本趨于穩(wěn)定。由于每匹狼的性能有差異,為了進一步考察整體狼群性能,將迭代次數從1變化到500,選取20匹狼的平均RMSECV作為評價標準,得到了玉米樣品中蛋白質組分的平均RMSECV隨著迭代次數的變化圖(如圖4)。可以看出,當迭代次數在1~50范圍內時,20匹狼的平均RMSECV下降很快。在50~300范圍內,20匹狼的平均RMSECV下降趨勢較快,并出現較大波動。300次以后,狼群的平均RMSECV不再隨著迭代次數變化,說明所有狼匹都聚集在獵物上,即已經尋找到最佳值。因此,迭代次數確定為300。類似可以得到脂肪、水、淀粉的最佳迭代次數分別為350、340、340。
狼之所以能夠戰(zhàn)勝體形更大的生物,是因為狼群體協(xié)作的結果,因此狼群的數量會影響狼的作戰(zhàn)效果。同理,在GWO算法中,狼群數量也會影響GWO算法的性能。為了考察狼群性能與狼群數量的關系,將狼群以間隔為5的數量從5變化到100,以模型預測的RMSECV以及運行時間作為評價模型預測的參數,并得到了RMSECV以及運行時間隨著狼群數量的變化圖。如圖5所示,可以看出RMSECV隨灰狼數量的變化波動較大,整體呈下降趨勢。當灰狼數量為65時,RMSECV值達到最低,當灰狼數量超過65時,RMSECV值隨灰狼數量的增加開始上升。由此可見當灰狼數量為65時可得到滿意的結果。同理,可得到玉米樣品中其它組分的最佳狼群數量,即脂肪、水、淀粉組分的最佳狼群數分別為100、35、65。另一方面,從運行時間來看,雖然運行時間隨著狼群數量的增加基本呈直線上升,但即使灰狼數量高達100時,運行時間也不超過50 s,說明灰狼算法非常高效。因此,在選擇狼群數量時,主要參考RMSECV指標,選取65為最佳狼群數量。
圖6顯示了玉米樣品不同組分變量選擇的分布圖,從上到下依次為蛋白質、水、脂肪、淀粉組分。與未經變量選擇的波長相比,蛋白質組分經過變量選擇后保留的變量數為19,水組分的變量數為14,脂肪組分的變量數為19,淀粉組分的變量數為34。而未經變量選擇則有700個變量數。表明使用灰狼算法優(yōu)化后,每個組分的變量數明顯減少。這是由于變量選擇將原本存在于全波譜的與建模無關的變量剔除,保留了可用于建立模型的相關變量。經過變量選擇后模型的預測精度有所提高,也大大簡化了模型計算量,從而驗證了算法的可靠性。
采用GWO算法優(yōu)選波長變量,通過對灰狼算法的參數進行優(yōu)化可得玉米樣品中蛋白質、脂肪、水、淀粉4個組分的最佳迭代次數分別為300、350、340、340,最佳狼群數量分別為65、100、35、65。與直接進行PLS建模的變量數相比,玉米樣品的蛋白質、脂肪、水、淀粉這4個組分保留下來的波長數分別為19、19、14、34。將通過GWO算法進行波長選擇保留下的變量數建立的PLS校正模型與全光譜建立的PLS校正模型進行比較。模型性能指標主要有預測均方根誤差(RMSEP)和相關系數(R)。RMSEP用于衡量預測值與真實值之間的偏差,R則用于反映變量之間相關關系密切程度的統(tǒng)計指標。RMSEP和R值能反映模型的預測能力。RMSEP值越大,R越小,則模型的預測能力越好。計算結果如表1所示。玉米樣品的蛋白質、脂肪、水、淀粉組分在進行波長選擇前后RMSEP分別從0.245 8、0.122 4、0.339 8、1.105 8下降到0.147 7、0.080 1、0.176 2、0.739 8,RMSEP分別下降了40%、35%、48%、33%。相應的R值在進行波長選擇前后分別從0.876 9、0.748 9、0.665 8、0.593 5提高到0.957 0、0.896 1、0.876 9、0.730 7,R值分別提高了8%、16%、24%、19%。數據顯示經過波長選擇保留的變量數建模后,RMSEP有很大程度的下降,而R值也有一定程度的提升。由此表明經過變量選擇后的建模效果更好,模型的預測能力也得到提高。

表1 玉米數據不同建模方法結果的比較Table 1 Comparison of the results of different modeling methods for corn dataset
本文提出了基于GWO波長選擇的算法結合PLS建立的玉米樣品近紅外光譜模型,探究了全譜校正模型以及優(yōu)化組合校正模型對預測結果的影響。該方法以1/0組成的向量表示波長點的選擇與否,并作為GWO算法的輸入,從而選出需要進行建模的最佳變量數,并同時優(yōu)化灰狼算法的種群數及迭代次數。在最佳的變量數和優(yōu)化參數下分別對蛋白質、脂肪、水分和淀粉組分進行定量預測。結果表明,使用GWO波長選擇后的少量變量建模比全波長的PLS模型有更低的RMSEP值和更高的R值,運行效率也更高。因此,GWO算法有望廣泛應用于近紅外光譜的變量選擇。