預測造紙廢水出水指標的隨機森林建模方法

2019-09-11 06:49:34劉鴻斌

中國造紙 2019年8期

辛辰劉鴻斌，2，*

（1.南京林業大學林業資源高效加工利用協同創新中心，江蘇南京，210037；2.華南理工大學制漿造紙工程國家重點實驗室，廣東廣州，510640）

在造紙廢水處理工藝中，往往需要根據出水指標來及時調整工藝條件，達到對污水的安全排放。然而考慮到造紙廢水處理過程中大多包含具有時變性與復雜性的化學過程，傳統化學成分檢測儀表存在價格高昂、維護成本高以及檢測不靈敏等缺點。近年來，基于數據驅動的軟測量建模方法可通過建立輸入與輸出數據的關系來完成易測變量對難測變量的預測[1]，也可以對造紙廢水處理過程中出現的故障進行檢測[2]，因而得到廣泛的應用。

常見的軟測量建模方法有人工神經網絡（Artificial Neural Networks,ANN）、支持向量回歸（Support Vector Regression,SVR）、偏最小二乘法（Partial Least Squares,PLS）[3]。PLS具有克服變量相關性和噪聲干擾等優點，因此PLS在工業生產過程中應用較廣，但該方法屬于線性方法，對于具備典型非線性特征的造紙廢水處理過程，其預測精度明顯下降。基于此，楊浩等人[4]在PLS的基礎上研究改進得到了遞歸偏最小二乘法（RPLS），有效地提高了模型的預測精度。ANN模型的工作方式類似于人腦神經元處理信息的方式[5]，Zeng等人[6]提出將ANN預測模型應用于造紙廢水處理過程。李曉東等人[7]利用ANN模型對城市廢水排放量進行了預測研究。雖然ANN對于預測過程中的非線性特征具備較強的解釋能力，但該方法也存在一定的缺點。如為了得到最好的網絡結構，需要通過大量的排列組合去尋優；網絡權值在線調整比較困難，可能出現訓練過早結束，權值衰退現象[8]；此外，模型的過擬合問題也難以避免[9]。相比ANN模型，SVR模型在輸入數據中有選擇的尋找有限向量，比ANN對全體樣本迭代計算速度快[10]。汪瑤等人[11]通過粒子群優化算法對SVR模型進行參數優化，優化后的模型相比ANN模型預測精度顯著提高。張世峰等人[12]以溶解氧為控制對象，提出一種支持向量機（SVM）與PID結合的復合控制系統。支持向量機模型除了可以用于預測真實數據外，還可以在已知故障分類下預測數據的故障類型[13]。但當樣本離散程度較高且樣本數過少時，模型難以有效還原總體的全部信息，預測精度不高[14]。

隨機森林（Random Forest，RF）模型是由Leo Breiman與Adele Cutler在2001年提出的一種統計學習模型[15]，是一種結合Bagging和隨機選擇特征的高效新型的組合方法，廣泛用于樣本數據的分類和回歸預測。相比于上述機器學習模型，RF模型泛化能力更強，在不結合其他優化方法的前提下仍有較高的預測精度，且建模過程中需要調整的參數較少。RF模型在金融學、生物學、醫學、電力通信領域中有著廣泛的應用[16-18]，但在廢水出水指標預測方面并未得到應用。因此，本課題應用RF模型對出水化學需氧量（COD）與出水固形物含量（SS）進行預測并分析預測效果，同時對比了ANN、SVR、PLS方法的預測效果。

1 RF模型建模原理和評價指標

1.1 建模原理

RF模型由K棵決策樹{h=(X,θK),K=1,2,…,k}組成，其中{θK,K=1,2,…,k}是一個隨機變量序列。當模型用于分類時，RF模型中的決策樹使用分類樹（一般使用C4.5），最終通過少數服從多數的原則決定分類結果，當模型用于回歸預測時，決策樹使用回歸樹（一般用CART），最終將所有決策樹輸出值的平均值作為預測結果[15]。RF模型最大的優勢便是其多樣性，依照集成學理論來說，基學習器的多樣性越強，其泛化能力就越好。RF模型的隨機思想主要體現在以下兩方面。

（1）Bagging思想[15]

在原始訓練集中，利用Bootstrap抽樣方法有放回地抽取若干個大小相同的數據集樣本。原始訓練集中每個樣本未被抽到的概率為(1-1/N)N，所以當N足夠大時，(1-1/N)N將收斂于1/e≈0.368。這部分占比接近37%的數據即為袋外數據，使用這些袋外數據可以對已有模型進行檢驗。于是，每棵決策樹對應一個誤差率，即OOB(out-of-bag)誤差率，根據誤差率可進一步優化模型。

（2）隨機特征思想[19]

為保證RF模型的隨機性最大化，每棵樹在節點分裂的過程中，都會從所有特征中選出最優特征作為參考指標。對于RF模型而言，如果選擇過少的特征，則會導致模型的精度降低。如果選擇的特征過多，則會弱化模型在分裂節點處的隨機性[20]。本課題采用基尼指數（Gini）[21]作為選擇依據選出最佳特征數。

1.2 RF模型的建模步驟

（1）在原始訓練集S中，通過Bootstrap重抽樣的方法取出n個數據集樣本，然后將每個數據集樣本分為抽中樣本即袋內數據（in-bag）和未被抽中樣本即袋外數據（out-of-bag）。

（2）從樣本的所有屬性中隨機抽取m個屬性，根據Gini指標進行節點分裂，用袋內數據訓練構建CART樹。在構建的過程中不進行修剪，使得每一棵CART樹充分地生長。

（3）用未參與建模的袋外數據去檢驗對應的CART樹，通過袋外數據的預測誤差確定最佳決策樹數量。

（4）利用建好的模型去預測測試集中的新數據，將所有CART樹的預測結果平均值作為最終的預測結果。

RF模型建模流程圖如圖1所示。

1.3 預測模型的性能評價指標

實驗引入相關系數（r）、平均絕對百分比誤差（MAPE）與均方根誤差（RMSE）作為模型評價指標，通過對比其他預測模型，發現RF模型在預測性能方面有明顯優勢。其中r越大，MAPE與RMSE越小，表明模型的預測效果越好，對應的計算公式如公式(1)所示。

圖1 隨機森林建模流程

式中，yt為測量值，為模型預測值分別為yt與的平均值。

2 實驗過程與結果

2.1 造紙廢水數據分析

實驗通過利用如圖2所示的某造紙廢水處理廠的170組樣本數據進行研究，每組數據包括8個變量，分別為：廢水總流量Q、進水懸浮固形物含量SSin、溫度T、進水化學需氧量CODin、pH值、溶解氧含量DO、出水化學需氧量CODeff、出水懸浮固形物含量SSeff。將CODeff、SSeff作為預測模型的輸出變量，Q、SSin、CODin、pH值、T、DO作為輸入變量。按照時間先后的順序，將前120組數據作為訓練集樣本，后50組數據作為測試樣本，建立RF回歸模型，確立預測變量與其影響變量之間的非線性關系。

圖2 造紙廢水處理過程數據

2.2 RF模型及其對比模型的建立

2.2.1 RF模型的建立

建模的主要函數為R語言中randomForest包中的randomForest函數。該函數中需要尋優的主要參數有2個，分別為決策樹的棵數n_tree與樹節點的變量個數m_try，其默認參數分別為n_tree=500，m_try=M/3（M為變量總個數）。參數的可調范圍分別為n_tree∈[1,500]，m_try∈[1,M]。考慮到較少的決策樹使得模型效果無法完全發揮，模型錯誤率偏高，而較多的決策樹則會提升模型復雜程度，使得模型訓練與預測速度下降，并有可能出現輕微的過擬合現象。本課題通過調用R語言自帶函數plot對模型錯誤率與決策樹數量的關系可視化處理如圖3所示。由圖3可知，RF模型中樹的棵數n_tree取200時，OOB（out-of-bag）誤差波動已經趨于穩定，即實驗可以選用n_tree=200。選出最優決策樹棵數后繼續做了補充驗證實驗，即不斷增加決策樹的棵數到500棵并觀察模型預測效果。結果表明，模型預測效果變化不明顯甚至有輕微下降的趨勢，證明了決策樹最優棵數為200。樹節點預選的變量數m_try根據基尼指數選取最優值，基尼指數越大表明樣本屬于某類的不確定性就越大。因為本次實驗數據的變量個數較少，所以依次計算了不同變量數對應的基尼指數，基尼指數最小時對應的節點變量數為m_try=4。為了進一步驗證所選的節點變量數為最優變量數，后續補充實驗分別用m_try=1、m_try=2、m_try=3、m_try=5、m_try=6進行建模,觀察模型最后的預測效果即相關系數（r）、平均絕對百分比誤差（MAPE）與均方根誤差（RMSE）等指標，結果同樣表明當m_try=4時，預測效果最好。

圖3 模型錯誤率與決策樹數量關系圖

2.2.2 對比模型的建立

建立3種對比模型前先需要將數據標準化處理，之后用前120組數據進行建模，后50組數據用來檢驗預測效果。SVR模型所利用的主要程序包為R語言中的rminer包，其中模型參數選用SVM。ANN模型建模所利用的程序包主要為AMORE包。通過大量的實驗選出構建模型的最佳參數為：模型的網絡總層數為3層，包含1個輸入層、1個隱含層和1個輸出層，其中輸入層節點數為6，隱含層節點數為2，輸出層節點數為1，隱含層采用tansig激活函數，輸出層采用purelin激活函數。根據赤池信息量準則，PLS模型最終選擇了3個與預測變量相關度最大的自變量作為輸入變量，分別為CODin、SSin、DO。

2.3 結果與討論

經過模型的建立及后續的優化后，表1列出了RF模型與其他3種模型的預測結果。對測試集CODeff的預測效果進行比較，相關性方面，RF模型對應的r為 0.7954，ANN、SVR、PLS，對應的r分別為0.6936、0.7183、0.7305；誤差方面，RF模型對應的RMSE與MAPE最小，分別為4.2471和5.2606，相比于ANN、SVR、PLS，其RMSE與MAPE分別降低了19.18%和7.55%、19.20%和15.75%、12.06%和7.67%。對測試集SSeff的預測效果進行比較，相關性方面，RF模型對應的r為0.8551,ANN、SVR、PLS對應的r分別為0.6538、0.6882、0.7408；誤差方面，RF模型對應的RMSE與MAPE最小，分別為0.6687和 2.0633，相比于 ANN、SVR、PLS，其RMSE與MAPE分別降低了20.69%和26.21%、17.03%和29.83%、17.35%和28.60%。

表1 不同模型對CODeff和出水SSeff的預測結果

總體而言，RF模型在預測精準度方面都優于其他3種常用的回歸預測模型，圖4為RF模型對CODeff和SSeff的預測效果圖。

RF模型比其他3種模型預測效果好的主要原因在于RF模型的泛化能力更強，實驗中所用到的RF模型包含200棵決策樹，而每棵決策樹的生長只利用了訓練集中的一部分樣本，同時只抽取樣本屬性中的部分屬性。采用該方法極大地提高了決策樹的多樣性，弱化了各棵決策樹的相關性。同時，RF模型需要調整的主要參數只有2個，即決策樹的棵數與樹節點預選的變量個數，且易于尋找最優參數。

圖4 RF模型對SSeff和CODeff的預測結果

相比之下，雖然ANN模型具有較強的非線性擬合能力，但在構建模型的過程中，所要考慮的參數種類過多，在初始值、動量因子、網絡結構、節點個數等參數方面沒有統一規范的尋優方法，嘗試通過原理推導或實驗結果比較進行尋找最優參數是一件耗時費力的工作，往往會出現訓練集預測效果較好，但測試集預測效果時好時壞的情況，容易出現過擬合現象，模型的泛化能力一般。SVR雖然相比于ANN過擬合現象得到了弱化，但根據實驗預測效果來看并不是很理想，想要進一步提升預測效果還需要在原始模型上增添優化函數。PLS模型預測效果雖然比ANN模型與SVR模型好，但其線性模型的本質限制了它進一步優化的空間，且實驗結果證明PLS模型只適合選擇3個自變量作為輸入變量，并不能充分地利用收集到的數據所蘊含的信息。

ANN、SVR、PLS在進行預測前，也都需要對數據進行標準化處理，實驗中統一用z-score方法標準化，目的就是為了在建模過程中讓不同的自變量具有相同的尺度，對因變量的影響程度基本相同。RF模型與上述3種方法相比省去了這一步驟，因為每棵決策樹的生成過程都是依次用到部分自變量，所以不同尺度的自變量之間互不影響。

3 結論

本課題分別采用隨機森林（RF）模型、偏最小二乘（PLS）模型、支持向量回歸（SVR）模型與人工神經網絡（ANN）模型對造紙廢水中的CODeff與SSeff指標進行了回歸預測。

3.1 通過與其他3種模型的預測結果比較得出：基于隨機森林回歸模型的預測效果最好，預測值與真實值之間不僅相關性更高，且誤差更小，泛化能力更強。

3.2 隨機森林回歸模型相比其他3種模型，數據無需標準化處理，尋找最優參數時所要調整的參數較少且容易尋優，易于進一步的推廣。