張凱
(上海市安全生產(chǎn)科學(xué)研究所,上海 200233)
混凝沉淀環(huán)節(jié)在凈水廠水處理工藝中屬于核心環(huán)節(jié),混凝劑的投加流量不僅影響出水水質(zhì)而且決定水廠的運(yùn)行成本〔1〕。由于混凝過程涉及復(fù)雜反應(yīng)以及具備處理時(shí)滯特性,再加上外部條件如原水水質(zhì)、水量的變化,導(dǎo)致混凝劑投加難以實(shí)現(xiàn)精確判斷與控制。
隨著大數(shù)據(jù)、人工智能等技術(shù)的發(fā)展,數(shù)字化、精細(xì)化控制勢(shì)必成為未來混凝劑投加的發(fā)展趨勢(shì)〔2〕,其中混凝劑投加流量控制的關(guān)鍵是建立準(zhǔn)確的預(yù)測(cè)模型。當(dāng)前,關(guān)于預(yù)測(cè)模型的研究主要分為兩大類,分別為機(jī)理模型類〔3〕、數(shù)據(jù)模型類〔4〕,而后者因其采用機(jī)器學(xué)習(xí)〔5〕、神經(jīng)網(wǎng)絡(luò)〔6〕等算法具備較強(qiáng)的自學(xué)習(xí)、自適應(yīng)特性,在響應(yīng)水質(zhì)變化、提升預(yù)測(cè)效果方面優(yōu)勢(shì)明顯。但部分模型在實(shí)際應(yīng)用中對(duì)底層傳感設(shè)備要求高,導(dǎo)致水廠信息化改造成本較大,且在模型訓(xùn)練過程中對(duì)混凝劑投加合理程度未進(jìn)行評(píng)估。因此,本研究通過引入除濁率、時(shí)序特征對(duì)訓(xùn)練數(shù)據(jù)和模型輸入進(jìn)行改進(jìn),在保證預(yù)測(cè)準(zhǔn)確度的前提下降低模型輸入對(duì)現(xiàn)場(chǎng)傳感設(shè)備的要求,并采用多模型Stacking集成學(xué)習(xí)框架進(jìn)一步提升模型預(yù)測(cè)性能。
1.1.1 混凝機(jī)理及影響因素
混凝是水中膠體顆粒以及微小懸浮物的聚集過程,可以通過添加化學(xué)藥劑改變膠體顆粒的表面特性,使分散的膠體顆粒聚集形成大顆粒而沉淀,屬于給水、污水處理工藝的關(guān)鍵環(huán)節(jié)之一,不僅可以去除原水中的濁度和色度,而且可以去除部分有機(jī)污染物和無(wú)機(jī)有毒污染物。
混凝劑的混凝效果除了與處理水的流量相關(guān)外,還受到原水水質(zhì)、溫度、沉降工藝等因素的影響。水量、濁度是影響混凝劑投加流量的重要參數(shù),在水廠混凝劑投加控制系統(tǒng)中需要進(jìn)行實(shí)時(shí)監(jiān)測(cè);溫度則是影響混凝效果的主要參數(shù),溫度過低會(huì)使水的黏度變大,增大膠體顆粒間的運(yùn)動(dòng)阻力,即布朗運(yùn)動(dòng)減弱,不利于膠體顆粒脫穩(wěn)而導(dǎo)致混凝沉降效果變差。
1.1.2 投加控制技術(shù)
混凝沉淀過程具有非線性、強(qiáng)耦合、干擾因素多等特點(diǎn),其反應(yīng)機(jī)理較為復(fù)雜,為保證凈水廠出水水質(zhì)合格,需要不斷根據(jù)外界因素變化及時(shí)調(diào)整混凝劑投加流量〔7〕。根據(jù)投加控制系統(tǒng)自動(dòng)化程度的不同,可以將其投加控制技術(shù)劃分為:人工控制、自動(dòng)控制、智能控制。目前水廠主流控制方式為自動(dòng)控制,智能控制則是近年來的研究熱點(diǎn)及發(fā)展方向。其中,自動(dòng)控制主要采用前饋、反饋或兩者結(jié)合的方式,側(cè)重控制結(jié)構(gòu)的優(yōu)化和改進(jìn);而智能控制集成和整合多學(xué)科知識(shí)(人工智能、控制理論、信息理論等),產(chǎn)生預(yù)測(cè)控制、模糊控制、專家控制和神經(jīng)網(wǎng)絡(luò)等新型控制策略,側(cè)重上層分析、建模。因此,將人工智能技術(shù)與水廠實(shí)際控制系統(tǒng)相結(jié)合,對(duì)實(shí)現(xiàn)混凝劑科學(xué)、精準(zhǔn)投加具有重要意義。
前饋控制相比于反饋控制,可以及時(shí)響應(yīng)原水水質(zhì)突變情況并消除其影響,對(duì)于保障水廠安全生產(chǎn)至關(guān)重要。因此,采用前饋控制理論〔8〕建立原水水質(zhì)、進(jìn)水量與混凝劑投加流量之間的非線性關(guān)系,同時(shí)將沉淀池出水濁度作為模型訓(xùn)練數(shù)據(jù)篩選的重要依據(jù),對(duì)混凝劑投加的合理性進(jìn)行后期評(píng)估,使模型預(yù)測(cè)性能得到不斷優(yōu)化。
考慮原水水質(zhì)、進(jìn)水量等特征具有一定的周期性和隨機(jī)性,且機(jī)器學(xué)習(xí)模型在不斷的數(shù)據(jù)學(xué)習(xí)過程會(huì)開啟遺忘機(jī)制,為對(duì)其遺忘范圍進(jìn)行部分約束,從算法結(jié)構(gòu)層面將系統(tǒng)模型分為長(zhǎng)期模型、中期模型和短期模型。其中,長(zhǎng)期模型收集的為近3 a數(shù)據(jù),中期模型收集的為近1 a數(shù)據(jù),短期模型收集的為近30 d數(shù)據(jù)。各模型均采用Stacking集成學(xué)習(xí)框架〔9〕,分別根據(jù)收集數(shù)據(jù)進(jìn)行模型訓(xùn)練,預(yù)測(cè)結(jié)果通過3部分加權(quán)計(jì)算得出。其中,設(shè)置Stacking初級(jí)學(xué)習(xí)器分別為L(zhǎng)inearRegressor(LR)、RidgeRegressor(Ridge)、LassoRegressor (Lasso)、KNeighborsRegressor(KNR),次級(jí)學(xué)習(xí)器為GradientBoostingRegressor。具體架構(gòu)見圖1。

圖1 模型集成學(xué)習(xí)框架設(shè)計(jì)Fig.1 Design of model integrated learning framework
模型算法流程主要分為3部分,分別是數(shù)據(jù)預(yù)處理、特征工程、模型訓(xùn)練與預(yù)測(cè),具體流程見圖2。

圖2 模型算法流程Fig.2 Flow of model algorithm
1)數(shù)據(jù)預(yù)處理。對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,包括缺失值填補(bǔ)、異常數(shù)據(jù)刪除。水廠生產(chǎn)過程中往往存在過量投加的情況,雖然出水濁度滿足規(guī)定要求,但是造成藥耗增加,若以此歷史運(yùn)行數(shù)據(jù)進(jìn)行模型學(xué)習(xí),僅能保障模型預(yù)測(cè)投藥量滿足基本出水水質(zhì),卻無(wú)法達(dá)到節(jié)省藥耗的目的。因此,引入除濁率〔10〕作為過量投加數(shù)據(jù)的剔除標(biāo)準(zhǔn),篩選合理投加數(shù)據(jù),計(jì)算過程如式(1)。
式中,t為當(dāng)前時(shí)刻,Δt為水力停留時(shí)間平均值。由于混凝-沉淀過程具有非線性、大滯后特點(diǎn),沉淀池出水濁度需要綜合考慮水力停留時(shí)間,即沉淀池出水時(shí)刻=沉淀池進(jìn)水時(shí)刻+水力停留時(shí)間。
2)特征工程。通過數(shù)據(jù)相關(guān)性分析,篩選得到高度相關(guān)的特征,避免將過多低相關(guān)特征納入模型輸入,提升模型性能同時(shí)降低水廠信息化改造成本。考慮混凝劑投加時(shí)間序列的連續(xù)性,對(duì)其進(jìn)行自相關(guān)、偏相關(guān)分析,添加時(shí)序特征作為模型輸入。
3)模型訓(xùn)練與預(yù)測(cè)。首先,將樣本數(shù)據(jù)依據(jù)一定比例劃分為訓(xùn)練集和測(cè)試集;然后,設(shè)定Stacking模型參數(shù)并輸入訓(xùn)練集樣本進(jìn)行訓(xùn)練,當(dāng)模型輸出預(yù)測(cè)結(jié)果滿足誤差要求時(shí)停止,保存模型訓(xùn)練參數(shù);最后,將測(cè)試集樣本輸入已訓(xùn)練好的模型中,輸出預(yù)測(cè)值并對(duì)其進(jìn)行評(píng)價(jià)。
選取南方某水廠2018年7月至2021年7月的運(yùn)行數(shù)據(jù),采樣間隔為10 min,共計(jì)約15萬(wàn)條數(shù)據(jù)。特征數(shù)據(jù)包括進(jìn)水流量、原水水質(zhì)指標(biāo)(原水濁度、原水pH)、混凝劑投加流量、沉淀池出水濁度、出廠水濁度,其相關(guān)特征概覽見圖3。

圖3 相關(guān)特征概覽Fig.3 Overview of relevant features
由圖3可得,水廠進(jìn)水量在7月至11月處于較高水平,符合該城市在大多數(shù)年份出現(xiàn)秋冬干旱情況,導(dǎo)致水廠供水需求增大;原水濁度在五月份的平均值明顯高于全年其他月份,存在高溫高濁現(xiàn)象;原水pH全年均值接近,11月份、12月份略高;混凝劑投加流量變化趨勢(shì)與進(jìn)水量變化趨勢(shì)一致,全年先增加再降低。
使用灰色關(guān)聯(lián)度分析對(duì)原水指標(biāo)和混凝劑投加流量之間的關(guān)聯(lián)程度進(jìn)行分析,其中R值越大代表關(guān)聯(lián)程度越高,在混凝劑投加流量的分析中,即代表原水指標(biāo)的重要程度越高。分析結(jié)果見圖4。

圖4 關(guān)聯(lián)度熱力圖Fig.4 Heat map of correlation degree
由圖4可得,與混凝劑加藥量聯(lián)系最為緊密的原水指標(biāo)為進(jìn)水量(R=0.95),其次為原水濁度(R=0.22),而原水pH呈現(xiàn)弱相關(guān)(R=0.03)。進(jìn)水量改變后,生產(chǎn)必然對(duì)混凝劑投加流量進(jìn)行調(diào)整,同時(shí)流量的改變會(huì)帶來反應(yīng)池水流速度的變化,對(duì)混凝效果的影響至關(guān)重要。濾前濁度是衡量混凝劑沉淀效果的指標(biāo),原水濁度作為混凝劑投加過程需要降低的主要目標(biāo),但由于該水廠原水濁度常年波動(dòng)較小,導(dǎo)致在實(shí)際數(shù)據(jù)分析中相關(guān)性較低。隨機(jī)選取8 d運(yùn)行數(shù)據(jù)并對(duì)其進(jìn)行標(biāo)準(zhǔn)化處理,見圖5,其變化趨勢(shì)與相關(guān)性分析結(jié)論一致。可以判定,水廠混凝劑投加主要是依據(jù)進(jìn)水量進(jìn)行投加。

圖5 相關(guān)特征曲線Fig.5 Curves of relevant features
依據(jù)水力停留時(shí)間(混凝時(shí)間+沉淀時(shí)間約2.3 h),對(duì)數(shù)據(jù)進(jìn)行錯(cuò)位處理并計(jì)算除濁率,其中將除濁率大于80%作為數(shù)據(jù)篩選標(biāo)準(zhǔn),剔除不合理數(shù)據(jù)(占比約24.8%)。對(duì)混凝劑投加時(shí)間序列進(jìn)行自相關(guān)與偏相關(guān)分析,如圖6和圖7所示,t時(shí)刻混凝劑投加流量qt與t-10、t-20、t-30時(shí)刻混凝劑投加流量qt-10、qt-20、qt-30關(guān)聯(lián)性較強(qiáng),將其作為時(shí)序特征添加到模型輸入。

圖6 自相關(guān)分析Fig.6 Autocorrelation analysis

圖7 偏相關(guān)分析Fig.7 Partial correlation analysis
因此,模型輸入特征為進(jìn)水量、原水濁度、原水pH、t-10時(shí)刻混凝劑投加流量qt-10、t-20時(shí)刻混凝劑投加流量qt-20、t-30時(shí)刻混凝劑投加流量qt-30,標(biāo)簽為t時(shí)刻混凝劑投加流量。將各子模型預(yù)測(cè)結(jié)果與實(shí)際值進(jìn)行線性擬合,得出多模型預(yù)測(cè)權(quán)重比例為7∶2∶1,其中短期模型權(quán)重0.7、中期模型權(quán)重0.2、長(zhǎng)期模型權(quán)重0.1。
通過測(cè)試集對(duì)比時(shí)序特征添加前后以及多模型與單模型,其混凝劑投加流量的預(yù)測(cè)效果與評(píng)價(jià)指標(biāo)平均絕對(duì)誤差(MAE)、均方根誤差(RMSE)、平均絕對(duì)百分比誤差(MAPE)、R2分別見圖8和表1。

表1 模型預(yù)測(cè)指標(biāo)對(duì)比Table 1 The comparison of model prediction indicators

圖8 模型預(yù)測(cè)效果對(duì)比Fig.8 Comparison of model prediction effect
由圖8、表1可知,模型輸入增加時(shí)序特征后,單模型Stacking預(yù)測(cè)性能得到顯著提升,在此基礎(chǔ)上建立多模型Stacking架構(gòu),可將模型擬合相關(guān)系數(shù)R2進(jìn)一步提升至0.96,均方根誤差RMSE由33.56降至29.01。通過與混凝劑實(shí)際投加值對(duì)比,其藥耗節(jié)省率約為3.82%,即實(shí)現(xiàn)精準(zhǔn)投加的同時(shí)降低水廠藥耗成本。
本研究提出一種集成框架下的混凝劑投加預(yù)測(cè)方法,為及時(shí)響應(yīng)原水水質(zhì)變化,采用前饋控制理論建立進(jìn)水水質(zhì)、水量與混凝劑投加流量非線性關(guān)系,并引入除濁率對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行篩選,通過增加時(shí)序特征以及搭建多模型Stacking等方式,最小化模型輸入要求,充分利用水廠現(xiàn)有傳感采集設(shè)備,避免因過度信息化改造導(dǎo)致水廠成本大幅度增加,可提升模型預(yù)測(cè)性能并降低水廠藥耗。后續(xù)研究將側(cè)重預(yù)測(cè)模型與邊緣網(wǎng)關(guān)結(jié)合,同時(shí)與水務(wù)云平臺(tái)實(shí)現(xiàn)協(xié)同,參與水廠的實(shí)際生產(chǎn)運(yùn)行,不斷對(duì)模型進(jìn)行訓(xùn)練、優(yōu)化。