摘 要:為克服單一模型的局限性、提高模型魯棒性,針對(duì)小型造紙廠(chǎng)單一工段的廢水處理數(shù)據(jù)集,首先利用核主成分分析(KPCA)降維技術(shù),有效提取數(shù)據(jù)關(guān)鍵特征,再采用裝袋集成 (Bagging) 算法集成多個(gè)可有效建模廢水時(shí)間序列特征的長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM) 學(xué)習(xí)器,建立 KPCA-Bagging-LSTM 造紙廢水出水指標(biāo)預(yù)測(cè)模型。結(jié)果表明,KPCA-Bagging-LSTM 模型的決定系數(shù) (R2) 達(dá)0.76,顯著優(yōu)于其他方法;均方根誤差(RMSE)和平均絕對(duì)百分比誤差(MAPE)分別為3.55 mg/L和4.01%,表明該模型具有更低的預(yù)測(cè)誤差和更高的精度。本研究通過(guò)特征降維和集成學(xué)習(xí)提升了KPCA-Bagging-LSTM模型的性能,為造紙廢水COD等出水指標(biāo)預(yù)測(cè)提供了有效的解決方案。
關(guān)鍵詞:造紙廢水過(guò)程處理;數(shù)據(jù)降維;長(zhǎng)短期記憶網(wǎng)絡(luò);集成學(xué)習(xí);軟測(cè)量模型
中圖分類(lèi)號(hào):TS736+. 4 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10. 11981/j. issn. 1000?6842. 2025. 02. 173
隨著我國(guó)經(jīng)濟(jì)快速增長(zhǎng)和社會(huì)生活水平提高,人們對(duì)紙制品的需求不斷增加[1-2]。根據(jù)中國(guó)造紙協(xié)會(huì)的調(diào)查數(shù)據(jù)顯示,截至2024年,全國(guó)約有2 600家紙和紙板生產(chǎn)企業(yè),2024 年全國(guó)紙及紙板的生產(chǎn)量達(dá)13 625 萬(wàn) t,較 2023 年增長(zhǎng)了 5.09%。制漿造紙過(guò)程需消耗大量能源和水資源,并產(chǎn)生一定廢水和固體廢物。隨著紙制品生產(chǎn)規(guī)模的擴(kuò)大,造紙過(guò)程所帶來(lái)的環(huán)境污染問(wèn)題也日益凸顯。
制漿造紙企業(yè)通常采用一系列設(shè)備和方法監(jiān)測(cè)造紙廢水化學(xué)需氧量 (chemical oxygen demand,COD)和生物需氧量(biological oxygen demand,BOD)等出水指標(biāo)。在線(xiàn)監(jiān)測(cè)[3]、定期取樣分析等傳統(tǒng)的監(jiān)測(cè)方法存在數(shù)據(jù)延遲、人為誤差等缺點(diǎn),缺乏準(zhǔn)確性和實(shí)時(shí)性[4]。相較而言,軟測(cè)量模型作為一種新興的監(jiān)測(cè)技術(shù),具有實(shí)時(shí)性強(qiáng)、成本低、準(zhǔn)確性高、智能化程度高等優(yōu)勢(shì)[5],已逐步被應(yīng)用于造紙廢水出水指標(biāo)的監(jiān)測(cè)分析。
基于大數(shù)據(jù)的軟測(cè)量通常采用統(tǒng)計(jì)學(xué)方法、機(jī)器學(xué)習(xí)算法或深度學(xué)習(xí)技術(shù)[6],通過(guò)分析數(shù)據(jù)模式和關(guān)聯(lián)性建立模型,并對(duì)關(guān)鍵指標(biāo)進(jìn)行預(yù)測(cè)。常用于造紙廢水出水指標(biāo)監(jiān)測(cè)的多元統(tǒng)計(jì)方法包括主成分分析(principal component analysis,PCA)[7-9] 和偏最小二乘(partial least squares,PLS) 法[10-12];機(jī)器學(xué)習(xí)算法包括人工神經(jīng)網(wǎng)絡(luò) (artificial neural network,ANN)[13-17]和支持向量回歸(support vector regression,SVR)[17-20];深度學(xué)習(xí)技術(shù)包括卷積神經(jīng)網(wǎng)絡(luò) (convolutional neu?ral network, CNN)[21-23] 和 長(zhǎng) 短 期 神 經(jīng) 網(wǎng) 絡(luò) (long short term memory,LSTM)[21-22,24-26]。然而,單一模型往往無(wú)法實(shí)現(xiàn)復(fù)雜多樣的數(shù)據(jù)處理,且難以滿(mǎn)足不斷提高的預(yù)測(cè)需求。因此,應(yīng)結(jié)合多種模型或算法,利用各自?xún)?yōu)勢(shì),建立軟測(cè)量混合模型以提高預(yù)測(cè)的準(zhǔn)確性和魯棒性。
鑒于此,本研究以廣東東莞某造紙廢水處理廠(chǎng)為研究對(duì)象,以造紙廢水出水 COD 為預(yù)測(cè)指標(biāo),通過(guò)引入與出水 COD 密切相關(guān)的輔助變量,結(jié)合核主成分 分 析 (kernel principal component analysis,KPCA)與裝袋集成(Bagging)算法,建立造紙廢水出水COD的最佳預(yù)測(cè)模型,并與傳統(tǒng)機(jī)器學(xué)習(xí)模型進(jìn)行對(duì)比,以驗(yàn)證本方法的有效性和優(yōu)越性,從而為造紙工業(yè)廢水建模及過(guò)程優(yōu)化提供新思路和實(shí)踐依據(jù)。
1 實(shí) 驗(yàn)
1. 1 研究對(duì)象與數(shù)據(jù)來(lái)源
本研究數(shù)據(jù)采集于廣東東莞某造紙廢水處理廠(chǎng)的好氧工段。該廠(chǎng)的廢水處理工藝具體包括以下工段:格柵、均衡池、初沉池、高效反應(yīng)器、水解厭氧池、曝氣浸沒(méi)生物膜和二沉池。
數(shù)據(jù)采樣周期為2006年3月15日至2006年12月21日,每2~3天對(duì)進(jìn)水及出水指標(biāo)進(jìn)行監(jiān)測(cè),共計(jì)采集170個(gè)樣本,如圖1所示。每個(gè)樣本包括7個(gè)變量,分別為流量(Q)、pH值、進(jìn)水固體懸浮物(suspended sol?ids,SS)、溫度 (temperature,T)、溶解氧 (dissolved oxygen,DO)、進(jìn)水COD及出水COD。本研究以造紙廢水出水COD為預(yù)測(cè)變量,其余6個(gè)變量為響應(yīng)變量。
1. 2 實(shí)驗(yàn)方法
1. 2. 1 KPCA
PCA可通過(guò)線(xiàn)性映射對(duì)數(shù)據(jù)進(jìn)行降維處理,但其僅能處理線(xiàn)性相關(guān)的數(shù)據(jù)[27]。KPCA 是PCA的擴(kuò)展,其通過(guò)將原始數(shù)據(jù)投射到高維特征空間,并在該空間內(nèi)執(zhí)行PCA,從而實(shí)現(xiàn)非線(xiàn)性數(shù)據(jù)的降維[28]。
輸 入 矩 陣 X = [ x1,x2,…,xn ]T∈ Rn × m ,其 中 xi表示第 i 個(gè)樣本的觀(guān)測(cè)向量。通過(guò)非線(xiàn)性映射函數(shù)?(.) 可將 X 中的向量 xi 轉(zhuǎn)換到高維特征空間 F 中[29] ,如式(1)所示。

核函數(shù)分為多項(xiàng)式核、Sigmoid 核和高斯核。本研究通過(guò)高斯核函數(shù)計(jì)算得到內(nèi)積,如式(2)所示。

1. 2. 2 Bagging算法
Bagging算法是機(jī)器學(xué)習(xí)中的一種集成學(xué)習(xí)算法,最初由 Breiman[30] 于 1996 年提出。Bagging 算法通常通過(guò)一種有放回的自助抽樣法實(shí)現(xiàn),即對(duì)于一個(gè)給定大小m的訓(xùn)練集,Bagging算法會(huì)從中選擇t個(gè)大小m’的子集作為新訓(xùn)練集[31],并以此訓(xùn)練得到多個(gè)模型;再通過(guò)取平均值、取多數(shù)票等方法,得到Bagging 算法集成結(jié)果。
1. 2. 3 LSTM
隨著訓(xùn)練時(shí)間延長(zhǎng)和網(wǎng)絡(luò)層數(shù)量增加,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)易出現(xiàn)梯度爆炸或消失,因此其難以處理 較 長(zhǎng) 的 數(shù) 據(jù) 序 列,無(wú) 法 進(jìn) 行 長(zhǎng) 距 離 數(shù) 據(jù) 學(xué) 習(xí)。LSTM是一種獨(dú)特的RNN,在處理時(shí)間序列數(shù)據(jù)方面具有顯著效果[32]。LSTM 單元結(jié)構(gòu)見(jiàn)圖 2。如圖 2 所示,LSTM 在 RNN 的基礎(chǔ)結(jié)構(gòu)上增加了輸入門(mén) (i)、t輸出門(mén)(o)t 和遺忘門(mén)(f),t 在這3個(gè)邏輯控制單元中,每個(gè)單元均連接1個(gè)數(shù)字乘法單元。通過(guò)調(diào)整神經(jīng)網(wǎng)絡(luò)存儲(chǔ)單元與其他元件連接邊緣的權(quán)重,可以管理信息流的輸入、輸出及單元格狀態(tài)[33]。
對(duì)于給定前向網(wǎng)絡(luò)中 LSTM 模塊的輸入序列 xt ,由其處理得到輸出序列ht的過(guò)程如式(3)~式(8)所示。

遺忘門(mén)ft用于調(diào)節(jié)1個(gè)值在單元ct中的停留時(shí)間;輸入門(mén)it用于調(diào)節(jié)進(jìn)入單元ct的數(shù)據(jù)量;輸出門(mén)ot用于調(diào)節(jié)單元ct中的值,以計(jì)算LSTM模塊當(dāng)前時(shí)刻的輸出激活序列 ht。完全連接層繼續(xù)處理輸出序列 ht,并描述短期信息xt和長(zhǎng)期信息ht - 1。
1. 2. 4 模型建立
本研究基于 RPCA、Bagging 算法和 LSTM,提出KPCA-Bagging-LSTM模型,具體實(shí)現(xiàn)步驟如下。
1)從東莞某造紙廢水處理廠(chǎng)采集造紙廢水的入水指標(biāo)并進(jìn)行數(shù)據(jù)清理,建立模型的輸入和輸出矩陣。數(shù)據(jù)集以 8∶2 劃分為訓(xùn)練集和測(cè)試集,使用Min-Max 方 法 對(duì) 數(shù) 據(jù) 進(jìn) 行 歸 一 化 處 理 , 如 式(9)所示。

2) 通過(guò) KPCA 對(duì)訓(xùn)練集和測(cè)試集數(shù)據(jù)進(jìn)行降維處理。累積解釋方差率設(shè)為80%,即所得核主成分占原始數(shù)據(jù)總信息量的80%。
3) 在訓(xùn)練LSTM 弱學(xué)習(xí)器后,通過(guò)Bagging 算法框架進(jìn)行集成,并使用網(wǎng)格搜索法尋找最佳參數(shù),以最小化模型誤差。
4) 使用測(cè)試集驗(yàn)證 KPCA-Bagging-LSTM 模型對(duì)造紙廢水出水COD的預(yù)測(cè)性能。
5) 為評(píng)估KPCA-Bagging-LSTM模型的預(yù)測(cè)性能,以決定系數(shù)(determination coefficient,R2)、均方根誤差(root mean square error,RMSE)、平均絕對(duì)百分比誤差(mean absolute percentage error,MAPE)和運(yùn)行時(shí)間為預(yù)測(cè)變量的精度指標(biāo),其定義如式(10)~式(12)所示。

此外,引入一些基準(zhǔn)模型用于與 KPCA-Bagging LSTM模型進(jìn)行比較,包括傳統(tǒng)機(jī)器學(xué)習(xí)模型 (SVR、ANN)、基于樹(shù)模型的集成學(xué)習(xí)模型(RF、AdaBoost)及獨(dú)立深度學(xué)習(xí)模型(CNN、LSTM)。
2 結(jié)果與討論
2. 1 KPCA數(shù)據(jù)降維
核函數(shù)、核參數(shù)和核主成分個(gè)數(shù)是KPCA的3個(gè)要素。本研究以高斯核為核函數(shù),通過(guò)網(wǎng)格搜索法確定核參數(shù)γ為3,核主成分個(gè)數(shù)的選取原則為累積解釋方差率達(dá)80%。將響應(yīng)變量Q、pH值、SS、T、DO和進(jìn)水COD均輸入KPCA核函數(shù)中進(jìn)行數(shù)據(jù)降維。圖3的折線(xiàn)圖為各核主成分的單獨(dú)解釋方差率,柱狀圖為累積解釋方差率。從圖3可看出,當(dāng)核主成分個(gè)數(shù)為4時(shí),累積解釋方差率gt;80%。因此,將采用前4個(gè)核主成分作為后續(xù)建模的輸入變量。


2. 2 模型參數(shù)尋優(yōu)
超參數(shù)會(huì)影響KPCA-Bagging-LSTM模型性能,需在訓(xùn)練前進(jìn)行設(shè)置。超參數(shù)調(diào)優(yōu)是神經(jīng)網(wǎng)絡(luò)尋找超參數(shù)最佳值的過(guò)程,其可提高神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確性和有效性。
首先,對(duì)Bagging-LSTM模型中的LSTM弱學(xué)習(xí)器進(jìn)行調(diào)優(yōu)。圖4顯示了LSTM弱學(xué)習(xí)器中不同批大小(即每次參數(shù)更新所用樣本數(shù)量) 與隱藏層神經(jīng)元個(gè)數(shù)組合下的RMSE。由圖4可看出,隨隱藏層神經(jīng)元個(gè)數(shù)的增加,RMSE總體呈下降趨勢(shì);隨批大小的增加,RMSE總體呈上升趨勢(shì)。當(dāng)批大小為16、隱藏層神經(jīng)元個(gè)數(shù)為64時(shí),RMSE達(dá)最小,為3.55 mg/L。
除批大小和隱藏層神經(jīng)元個(gè)數(shù),LSTM模型的激活函數(shù)和優(yōu)化器也是重要的超參數(shù)。激活函數(shù)能夠?yàn)槿B接層引入非線(xiàn)性關(guān)系,從而增強(qiáng)模型的表達(dá)能力。在 LSTM 模型中,常見(jiàn)的激活函數(shù)包括 Sigmoid、Tanh、修正線(xiàn)性單元和泄漏修正線(xiàn)性單元;常見(jiàn)的優(yōu)化器包括隨機(jī)梯度下降、自適應(yīng)梯度算法、自適應(yīng)估計(jì)和均方根傳播。表1和表2為不同激活函數(shù)與優(yōu)化器下KPCA-Bagging-LSTM模型的預(yù)測(cè)性能對(duì)比。測(cè)試過(guò)程采用單變量控制法,未調(diào)優(yōu)的參數(shù)保持常規(guī)默認(rèn)設(shè)置。由表1和表2可看出,當(dāng)以修正線(xiàn)性單元為激活函數(shù)、自適應(yīng)估計(jì)為優(yōu)化器時(shí),KPCA-Bagging LSTM模型的預(yù)測(cè)性能達(dá)到最佳,R2為0.76,RMSE為3.56 mg/L,MAPE為4.01%。
當(dāng)完成LSTM弱學(xué)習(xí)器的超參數(shù)調(diào)優(yōu)后,需使用Bagging算法對(duì)其進(jìn)行集成,進(jìn)一步調(diào)節(jié)LSTM弱學(xué)習(xí)器個(gè)數(shù)及樣本抽樣比例。圖5為不同LSTM弱學(xué)習(xí)器個(gè)數(shù)與抽樣比例組合下的RMSE。由圖5可看出,當(dāng)抽樣比例為80%、LSTM弱學(xué)習(xí)器個(gè)數(shù)為10時(shí),RMSE最低,為3.55 mg/L。


2. 3 模型預(yù)測(cè)性能分析
2. 3. 1 KPCA數(shù)據(jù)降維有效性分析
為評(píng)估KPCA數(shù)據(jù)降維在Bagging-LSTM模型預(yù)測(cè)造紙廢水出水 COD 中的有效性,本研究分別基于:①未經(jīng) KPCA 降維的原始樣本數(shù)據(jù)集、②KPCA 降維數(shù)據(jù)集,通過(guò)Bagging-LSTM模型和基準(zhǔn)模型預(yù)測(cè)造紙廢水出水COD。2種情況下各模型的真實(shí)值與預(yù)測(cè)值對(duì)比見(jiàn)圖6和圖7。
從圖6可看出,對(duì)于出水COD變化趨勢(shì)較為平緩的樣本區(qū)間 (如樣本 6~10),除 KPCA-AdaBoost 模型外,大部分模型的擬合程度較好。對(duì)于樣本集中的極端值 (如樣本 1、20、25、26 及 30),基準(zhǔn)模型的預(yù)測(cè)值均出現(xiàn)了較大誤差,而本研究構(gòu)建的 KPCA Bagging-LSTM模型仍能夠較好地?cái)M合這些極端值的變化趨勢(shì)。從圖7可看出,對(duì)于變化趨勢(shì)平緩的樣本區(qū)間,大部分模型的預(yù)測(cè)值與真實(shí)值間均存在較大誤差;相比于圖6,Bagging-LSTM模型的擬合程度變差,這表明對(duì)樣本數(shù)據(jù)進(jìn)行KPCA降維處理,能夠提高模型對(duì)出水COD預(yù)測(cè)的準(zhǔn)確性。
為更直觀(guān)比較各模型的預(yù)測(cè)性能,對(duì)預(yù)測(cè)參數(shù)的精度指標(biāo)R2、RMSE和MAPE進(jìn)行定量分析。表3和表4分別為各模型基于KPCA降維數(shù)據(jù)集及未降維原始樣本數(shù)據(jù)集預(yù)測(cè)的精度指標(biāo)結(jié)果。由表 3 和表 4 可知,對(duì)樣本數(shù)據(jù)進(jìn)行 KPCA 降維處理后,KPCA-Bagging-LSTM 模 型 的 預(yù) 測(cè) 精 度 提 升 , R2 為 0.76, 相 較 于Bagging-LSTM模型提高了18.75%;RMSE為3.55 mg/L,降低了17.63%;MAPE為4.01%,降低了11.09%。此外,在對(duì)樣本數(shù)據(jù)進(jìn)行KPCA降維處理后,基準(zhǔn)模型的預(yù)測(cè)性能也有明顯優(yōu)化,R2提高了8.62% (KPCA SVR模型)~23.40%(KPCA-ANN模型),RMSE下降了6.00% (KPCA-SVR 模型) ~17.65% (KPCA-AdaBoost模型),MAPE也下降了6.50% (KPCA-CNN模型) 至32.14% (KPCA-AdaBoost 模型)。綜上,對(duì)造紙廢水進(jìn)水指標(biāo)數(shù)據(jù)進(jìn)行 KPCA 降維處理,在提高 Bagging LSTM模型的預(yù)測(cè)性能方面具備有效性。


2. 3. 2 集成深度學(xué)習(xí)策略分析
通常,深度學(xué)習(xí)模型 (如 CNN、LSTM) 相對(duì)于傳統(tǒng)機(jī)器學(xué)習(xí)模型(如SVR、ANN)具有更好的預(yù)測(cè)性能。但在本研究中,由表 3 和表 4 可得,CNN、LSTM模型與SVR、ANN模型的預(yù)測(cè)性能接近,這可能是由于采集樣本數(shù)據(jù)量較小,深度學(xué)習(xí)模型較難展示出優(yōu)勢(shì)。此外,KPCA-LSTM 模型的預(yù)測(cè)性能稍強(qiáng)于KPCA-CNN模型,主要是由于前者引入了門(mén)機(jī)制,改善了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)中存在的長(zhǎng)期依賴(lài)問(wèn)題,并在一定程度上緩解了梯度消失現(xiàn)象。
基于深度學(xué)習(xí)的集成學(xué)習(xí)策略相比基于決策樹(shù)模型的集成學(xué)習(xí)策略(如RF、AdaBoost)具有更好的預(yù)測(cè)效果。由表 3 可知,KPCA-AdaBoost 模型的預(yù)測(cè)結(jié)果最差,說(shuō)明本研究采集的數(shù)據(jù)集并不適合利用自適應(yīng)提升的方法進(jìn)行集成。相比而言,KPCA-RF 模型與本研究提出的KPCA-Bagging-LSTM模型均具有較優(yōu)的預(yù)測(cè)性能,這是因?yàn)槎咴硐嗨疲腔谘b袋思維對(duì)弱學(xué)習(xí)器進(jìn)行集成,該結(jié)果表明Bagging 算法更適用于本研究中數(shù)據(jù)集的集成。其中,以L(fǎng)STM為弱學(xué)習(xí)器的 KPCA-Bagging-LSTM 模型預(yù)測(cè)性能最好,說(shuō)明其可以更好地挖掘時(shí)間序列的隱藏信息。
2. 3. 3 KPCA-Bagging-LSTM模型有效性分析
為評(píng)估KPCA數(shù)據(jù)降維和Bagging集成增強(qiáng)LSTM模型的有效性,本研究進(jìn)一步比較了LSTM、Bagging LSTM、KPCA-LSTM 和 KPCA-Bagging-LSTM 4 個(gè)模型的預(yù)測(cè)性能。如表3和表4所示,相對(duì)于LSTM模型,基 于 KPCA 降 維 數(shù) 據(jù) 構(gòu) 建 的 KPCA-LSTM 模 型 R2 提高 了 12.96%、RMSE 降 低 了 6.98%、MAPE 降 低 了17.09%;利用 Bagging 集成的 Bagging-LSTM 模型 R2提高了 18.52%、RMSE 降低了 11.50%、MAPE 降低了22.91%;與 KPCA-LSTM 模 型 相 比,KPCA-Bagging LSTM模型的R2提高了24.59%、RMSE降低了21.63%、MAPE 降低了17.32%。上述結(jié)果表明,KPCA 數(shù)據(jù)降維和Bagging集成對(duì)LSTM模型的預(yù)測(cè)性能均具有一定增強(qiáng)作用,其中Bagging集成的增強(qiáng)效果更明顯。
KPCA數(shù)據(jù)降維可減少建模工作中由非關(guān)鍵特征引起的計(jì)算量,從而提升效率并使后續(xù)參數(shù)優(yōu)化更具針對(duì)性;在處理非線(xiàn)性特征提取問(wèn)題時(shí),KPCA可通過(guò)核函數(shù)成功保留原始數(shù)據(jù)特征,使數(shù)據(jù)集特征更多、質(zhì)量更高。Bagging 算法可利用多個(gè)不同模型,從而減少單個(gè)模型過(guò)擬合的風(fēng)險(xiǎn),同時(shí)降低模型方差,提高模型穩(wěn)定性。因此,基于LSTM模型對(duì)時(shí)間序列數(shù)據(jù)良好的建模能力,從數(shù)據(jù)維度和模型結(jié)構(gòu)2個(gè)角度考量,通過(guò)KPCA數(shù)據(jù)降維和Bagging集成增強(qiáng)LSTM模型是有效的。


2. 4 模型在造紙廢水多指標(biāo)預(yù)測(cè)中的可行性分析
基于COD的預(yù)測(cè)結(jié)果,KPCA-Bagging-LSTM模型在造紙廢水出水指標(biāo)預(yù)測(cè)中展現(xiàn)出良好性能。為進(jìn)一步驗(yàn)證模型在其他出水指標(biāo)預(yù)測(cè)任務(wù)中的可行性和適用性,本研究采集了 2023 年廣東廣州某污水處理廠(chǎng)的造紙廢水生產(chǎn)數(shù)據(jù),共計(jì) 1000 個(gè)樣本,其中訓(xùn)練集與測(cè)試集數(shù)據(jù)比例為8∶2。需說(shuō)明的是,由于溫度和相對(duì)濕度傳感器的探頭需在水中適應(yīng)一段時(shí)間,因此舍去前5 min的采集數(shù)據(jù),僅以剩余200個(gè)樣本為測(cè)試集,結(jié)果見(jiàn)圖8。
如圖8所示,每個(gè)樣本包括6個(gè)變量,分別為溫度、濕度、Q、pH值、總氮及總磷。本研究以總氮為預(yù)測(cè)變量,溫度、相對(duì)濕度、Q及pH值為響應(yīng)變量。
在對(duì)數(shù)據(jù)進(jìn)行清理和KPCA降維后,本研究提出的模型與其他模型的表現(xiàn)結(jié)果對(duì)比見(jiàn)表5。如表5所示,KPCA-Bagging-LSTM模型在各評(píng)價(jià)指標(biāo)上均表現(xiàn)出色,與 KPCA-ANN 模型相比,R2提高了 14.75%,RMSE 和 MAPE 分 別 降 低 了 12.07% 和 11.48%; 與KPCA-SVR 模 型 相 比,R2 提 高 了 55.56%,RMSE 和MAPE 分別降低了 26.09% 和 31.82%;此外,相比于KPCA-CNN、 KPCA-LSTM、 KPCA-AdaBoost、 KPCA RF 等模型,KPCA-Bagging-LSTM 模型均展現(xiàn)出一定優(yōu)勢(shì),進(jìn)一步驗(yàn)證了其在處理復(fù)雜非線(xiàn)性關(guān)系數(shù)據(jù)方面的可行性和優(yōu)越性。



3 結(jié) 論
由于造紙廢水質(zhì)量數(shù)據(jù)具有非線(xiàn)性和時(shí)變性的特點(diǎn),單一模型較難得到準(zhǔn)確的預(yù)測(cè)結(jié)果。以東莞某造紙廢水處理廠(chǎng)為研究對(duì)象,本研究提出了一種結(jié)合核主成分分析 (KPCA)、裝袋集成 (Bagging) 算法和長(zhǎng)短期神經(jīng)網(wǎng)絡(luò) (LSTM) 的 KPCA-Bagging-LSTM 軟測(cè)量模型。
3. 1 為提高數(shù)據(jù)質(zhì)量和結(jié)構(gòu),使用 KPCA 提取合適的核主成分作為新的輸入變量,并通過(guò)LSTM學(xué)習(xí)時(shí)間序列數(shù)據(jù)特征、Bagging 算法處理多個(gè)弱學(xué)習(xí)器,從而實(shí)現(xiàn)模型優(yōu)化。
3. 2 與其他建模方法相比,將 KPCA-Bagging-LSTM模型應(yīng)用于造紙廢水出水指標(biāo)預(yù)測(cè)時(shí),具有較高R2和較低RMSE、MAPE值,其對(duì)出水COD和總氮的預(yù)測(cè)性能均較優(yōu),表明本研究提出的模型具備有效性和廣泛的應(yīng)用潛力。
3. 3 通 過(guò) 特 征 降 維 和 集 成 學(xué) 習(xí) 能 夠 提 高 KPCA Bagging-LSTM模型性能,并且在解釋廢水質(zhì)量數(shù)據(jù)的復(fù)雜性方面更具適應(yīng)性。未來(lái)造紙廢水處理過(guò)程的出水質(zhì)量監(jiān)測(cè)可考慮使用KPCA-Bagging-LSTM模型以替代傳統(tǒng)硬件傳感器。
參 考 文 獻(xiàn)
[1] 趙 越. 我國(guó)造紙工業(yè)現(xiàn)狀、節(jié)能成效和方向[J]. 節(jié)能與環(huán)保,
2022(11):42-44.
ZHAO Y. Current Situation, Energy Saving Effect and Direction of
China’s Paper Industry [J]. Energy Conservation amp; Environmental,
2022(11):42-44.
[2] INCE B K, CETECIOGLU Z, INCE O. Pollution Prevention in the
Pulp and Paper Industries [J]. Environmental Management in Prac?
tice,2011,5:224-246.
[3] BOURGEOIS W, BURGESS J E, STUETZ R M. On-line Monitor?
ing of Wastewater Quality: A Review [J]. Journal of Chemical Tech?
nology amp; Biotechnology,2001,76(4):337-348.
[4] 劉鴻斌,宋留. 相關(guān)向量機(jī)對(duì)廢水處理系統(tǒng)出水水質(zhì)的預(yù)測(cè)[J].
中國(guó)造紙學(xué)報(bào),2019,34(2):53-59.
LIU H B, SONG L. Prediction of Effluent Quality in Wastewater
Treatment Systems Using Relevance Vector Machine [J]. Transac?
tions of China Pulp and Paper,2019,34(2):53-59.
[5] 劉鴻斌,李祥宇,楊 沖. 基于PCA降維模型的造紙廢水處理過(guò)
程軟測(cè)量建模[J]. 中國(guó)造紙學(xué)報(bào),2018,33(4):50-57.
LIU H B, LI X Y, YANG C. Soft Sensor Modeling of Papermaking
Waste Water Treatment Process Using PCA Dimensional Reduction
Models [J]. Transactions of China Pulp and Paper,2018,33(4):
50-57.
[6] SHANG C, YANG F, HUANG D, et al. Data-driven Soft Sensor De?
velopment Based on Deep Learning Technique [J]. Journal of Pro?
cess Control,2014,24(3):223-233.
[7] 張 翔,李 愫. 基于主成分分析的北洛河水質(zhì)時(shí)空分布特征
及污染源解析[J]. 水土保持通報(bào),2022,42(4):153-160.
ZHANG X, LI S. Spatial and Temporal Distribution Characteristics
of Water Quality in Beiluo River and Pollution Sources Based on
Principal Component Analysis [J]. Bulletin of Soil and Water Con?
servation,2022,42(4):153-160.
[8]呂欣格,田劍南,王超,等. 基于主成分分析法的黃河呼和浩
特段水環(huán)境質(zhì)量評(píng)價(jià)[J]. 環(huán)境與發(fā)展,2016,28(5):15-20.
LYU X G, TIAN J N, WANG C, et al. Water environment quality
assessment Based on Principal Component Analysis of the Yellow
River, Huhhot [J]. Environment and Development,2016,28(5):
15-20.
[9] 林卉,李楠,黃伯當(dāng),等. 基于主成分分析的南流江水質(zhì)評(píng)
價(jià)[J]. 廣東化工,2020,47(4):144-146.
LIN H, LI N, HUANG B D, et al. Water Quality Evaluation of Nan?
liu River Based on Principal Component Analysis [J]. Guangdong
Chemical Industry,2020,47(4):144-146.
[10] P?RH? H, TOMPERI J, SORSA A, et al. Data-based Modelling of
Chemical Oxygen Demand for Industrial Wastewater Treatment [J]
Applied Sciences, DOI:10. 3390/app13137848.
[11] SINGH K P, OJHA P, MALIK A, et al. Partial Least Squares and
Artificial Neural Networks Modeling for Predicting Chlorophenol Re?
moval from Aqueous Solution [J]. Chemometrics and Intelligent
Laboratory Systems,2009,99(2):150-160.
[12] 楊 浩,莫衛(wèi)林,熊智新,等. 基于RPLS的造紙廢水處理過(guò)程
軟測(cè)量建模[J]. 中國(guó)造紙,2016,35(10):31-35.
YANG H, MO W L, XIONG Z X, et al. Soft Sensor Modeling of Pa?
permaking Effluent Treatment Process Using RPLS [J]. China Pulp
amp; Paper,2016,35(10):31-35.
[13] HAMED M M, KHALAFALLAH M G, HASSANIEN E A. Predic?
tion of Wastewater Treatment Plant Performance Using Artificial Neural
Networks [J]. Environmental Modelling amp; Software,2004,19(10):
919-928.
[14] 龔國(guó)勇. 基于神經(jīng)網(wǎng)絡(luò)和人工蜂群算法的污水處理水質(zhì)預(yù)測(cè)模
型研究[J]. 宜春學(xué)院學(xué)報(bào),2016,38(12):97-100.
GONG G Y. Water Quality Prediction Model of Wastewater Treat?
ment Based on Neural Network and Artificial Bee Colony Algorithm [J].
Journal of Yichun University,2016,38(12):97-100.
[15] 汪 瑤,徐 亮,殷文志,等. 基于ANN和LSSVR的造紙廢水處
理過(guò)程軟測(cè)量建模[J]. 中國(guó)造紙學(xué)報(bào),2017,32(1):50-54.
WANG Y, XU L, YIN W Z, et al. Soft Sensor Modeling of Papermak?
ing Wastewater Treatment Processes Based on ANN and LSSVR [J].
Transactions of China Pulp and Paper,2017,32(1):50-54.
[16] MATHERI A N, NTULI F, NGILA J C, et al. Performance Predic?
tion of Trace Metals and COD in Wastewater Treatment Using Artifi?
cial Neural Network [J]. Computers amp; Chemical Engineering, DOI:
10. 1016/j. compchemeng. 2021. 107308.
[17] ALNUWAISER M A, JAVED M F, KHAN M I, et al. Support Vec?
tor Regression and ANN Approach for Predicting the Ground Water
Quality [J]. Journal of the Indian Chemical Society, DOI:10. 1016/
j. jics. 2022. 100538.
[18] RIBEIRO D, SANFINS A, BELO O. Wastewater Treatment Plant
Performance Prediction with Support Vector Machines[C]//Advances
in Data Mining Applications and Theoretical Aspects:13th Industrial
Conference. Berlin: Springer,2013:99-111.
[19] GUO H, JEONG K, LIM J, et al. Prediction of Effluent Concentra?
tion in a Wastewater Treatment Plant Using Machine Learning Mod?
els [J]. Journal of Environmental Sciences,2015,32:90-101.
[20] 劉 堅(jiān),李 健,于廣平 . 基于機(jī)器學(xué)習(xí)算法的印染廢水出水
COD預(yù)測(cè)[J]. 廣東化工,2020,47(10):83-84.
LIU J, LI J, YU G P. Effluent COD Prediction of Printing and Dye?
ing Wastewater Based on Machine Learning Algorithm [J]. Guang?
dong Chemical Industry,2020,47(10):83-84.
[21] LI X, YI X, LIU Z, et al. Application of Novel Hybrid Deep Learn?
ing Model for Cleaner Production in a Paper Industrial Wastewater
Treatment System [J]. Journal of Cleaner Production, DOI:10. 1016/
j. jclepro. 2021. 126343.
[22] 楊潞霞,王夢(mèng)冉,林興亮,等. 基于CNN-LSTM的工業(yè)出水水質(zhì)
預(yù)測(cè)模型[J]. 凈水技術(shù),2024,43(5):143-149.
YANG L X, WANG M R, LIN X L, et al. Prediction Model of In?
dustrial Effluent Quality Based on CNN-LSTM [J]. Water Purifica?
tion Technology,2024,43(5):143-149.
[23] GUO Z, YANG C, WANG D, et al. A Novel Deep Learning Model
Integrating CNN and GRU to Predict Particulate Matter Concentra?
tions [J]. Process Safety and Environmental Protection,2023,173:
604-613.
[24] CHENG T, HARROU F, KADRI F, et al. Forecasting of Wastewa?
ter Treatment Plant Key Features Using Deep Learning-based Mod?
els: A Case Study [J]. IEEE Access,2020,8:184475-184485.
[25] WAN X, LI X, WANG X, et al. Water Quality Prediction Model
Using Gaussian Process Regression Based on Deep Learning for Car?
bon Neutrality in Papermaking Wastewater Treatment System [J].
Environmental Research, DOI:10. 1016/j. envres. 2022. 112942.
[26] 陳湛峰,李曉芳. 基于注意力機(jī)制優(yōu)化的BiLSTM珠江口水質(zhì)預(yù)
測(cè)模型[J]. 環(huán)境科學(xué),2024,45(6):3205-3213.
CHEN Z F, LI X F. Water Quality Prediction Model for the Pearl River
Estuary Based on BiLSTM Improved with Attention Mechanism [J].
Environmental Science,2024,45(6):3205-3213.
[27] 劉鴻斌,陳 琴,張 昊,等. 廢水處理系統(tǒng)的動(dòng)態(tài)過(guò)程監(jiān)測(cè)[J].
中國(guó)造紙,2019,38(2):46-53.
LIU H B, CHEN Q, ZHANG H, et al. Dynamic Process Monitoring
of Wastewater Treatment Systems [J]. China Pulp amp; Paper,2019,
38(2):46-53.
[28] SCH?LKOPF B,BURGES C J C, SMOLA A J,et al. Kernel Princi?
pal Component Analysis [M]// Advances in Kernel Methods: Support
Vector Learning. London: The MIT Press,1999:327-352.
[29] MIKA S, SCH?LKOPF B, SMOLA A, et al. Kernel PCA and De
noising in Feature Spaces [J]. Advances in Neural Information Pro?
cessing Systems 1998,536-542.
[30] BREIMAN L. Bagging Predictors [J]. Machine Learning,1996,
24:123-140.
[31] SUTTON C D. Classification and Regression Trees, Bagging, and
Boosting [J]. Handbook of Statistics,2005,24:303-329.
[32] HOCHREITER S, SCHMIDHUBER J. Long Short-term Memory [J].
Neural Computation,1997,9(8):1735-1780.
[33] GRAVES A, GRAVES A. Long Short-term Memory [J]. Supervised
Sequence Labelling with Recurrent Neural Networks,2012:37-45.