喻洋,王艷艷,李加強,劉學淵,何超,魏恒,吉江林
(1.西南林業(yè)大學機械與交通學院,云南 昆明 650224;2.云南省高校高原山區(qū)機動車環(huán)保與安全重點實驗室,云南 昆明 650224)
柴油機具有較高的動力性和燃油經濟性,但是過高的NOx排放限制了柴油車在國內的推廣和普及。準確預測柴油車在實際行駛過程中的瞬時NOx排放,有助于柴油車尾氣后處理裝置SCR根據(jù)NOx實際排放調整尿素噴射量,進而降低NOx排放。
近年來,機器學習算法被廣泛應用于各個領域,并取得了較好的實際效果。利用機器學習算法分析了解機動車在實際道路行駛過程中,車輛各個運行參數(shù)和排放之間的因果關系,建立其相關模型變得尤為重要。通過機器學習可以不用考慮研究對象背后復雜的物理知識和化學知識,在擁有足夠多數(shù)據(jù)的支持下,機器學習模型可以加入任何額外的復雜性[1],這是使用傳統(tǒng)基于理化性質和經驗[2]、半經驗假設無法完成的[3]。同時,機器學習模型可以通過更改運行參數(shù),更為直觀地了解NOx排放情況;機器學習模型可以嵌入到ECU等汽車小的計算單元中,以便實時觀測NOx排放情況。目前,文華等使用遺傳算法優(yōu)化BP神經網絡權值對柴油機NOx瞬態(tài)排放進行預測,其模型的相對誤差相對較小,相關系數(shù)R為0.95。Liu等[4]使用組合算法,包括主成分分析(Principal Component Analysis,PCA),遺傳算法(GA)和支持向量機的集成方法,建立了柴油機瞬態(tài)NOx排放預測模型,該模型在訓練和測試數(shù)據(jù)集方面表現(xiàn)出了較高的準確率,RMSE為51.12×10-6,R2為0.98。Alcan等[5]采用基于S型的非線性自回歸外生輸入(Nonlinear Autoregressive With Exogenous,NARX)模型預測穩(wěn)態(tài)和瞬態(tài)下的NOx排放,建立不同參數(shù)值的模型,分析模型對參數(shù)變化的敏感性,找到最佳參數(shù),其瞬態(tài)預測結果驗證精度在70%左右。
從目前國內外的研究狀況來看,大部分研究基于模型參數(shù)優(yōu)化來提高預測精度,工作量大,且模型實用性和穩(wěn)定性差。因此,本研究提出基于CEEMDAN-SVR的柴油車NOx排放預測模型,實現(xiàn)柴油車NOx濃度瞬態(tài)變化的準確預測。
自適應噪聲完備集合經驗模態(tài)分解(CEEMDAN)是針對經驗模態(tài)分解(EMD)和集合經驗模態(tài)分解(EEMD)的不足提出的一種自適應白噪聲數(shù)據(jù)分析算法[6],適合于柴油機NOx瞬態(tài)排放這種非線性和非平穩(wěn)的時間序列數(shù)據(jù)[7]。CEEMDAN算法的基本原理是通過EMD分解NOx數(shù)據(jù),獲得本征模態(tài)函數(shù)(Intrinsic Mode Function,IMF),在IMF中自適應添加白噪聲;將殘余量重復上述過程,計算其余IMF分量,其計算公式如下:
Xi(t)=X(t)+wi(t),
(1)

(2)

(3)
式中:X(t)為NOx瞬時排放數(shù)據(jù);wi(t)為第i階白噪聲,i=1,2,…n;E1(·)為序列分解的第一個IMF;εk-1為設置的每個階段的信噪比。
支持向量回歸(SVR)是支持向量機二分類的一個分支,通過尋找一個超平面,以間隔最大化原則將樣本點分為不同類別[8]?;貧w問題的思想是確定一個可以精確逼近未來值的函數(shù),支持向量回歸可用于函數(shù)估計、曲線擬合和時間序列預測。
SVR最終使用的預測函數(shù)是

(4)
式中:αi為拉格朗日乘數(shù);xi為NOx排放數(shù)據(jù)的特征向量,包括發(fā)動機轉速、油門踏板開度百分比、瞬時油耗、發(fā)動機負荷百分比和速度;b為常數(shù);C是懲罰因子,表示對異常值的關注度,并確定αi的范圍,C的值越大,離群值越多;核函數(shù)由K(xi,x)表示,是SVR模型中最重要的函數(shù)之一。常見的核函數(shù)有4種,高斯徑向基函數(shù)是最常用的,因其在建模過程中具有較好的有效性和速度。
高斯徑向基函數(shù)可以表示為
K(xi,x)=exp(-g‖x-xi‖2)。
(5)
式中:g為核函數(shù)的參數(shù),與懲罰因子C一樣重要;x和xi表示自變量。
柴油機NOx排放濃度序列數(shù)據(jù)受多種因素影響,是一種非平穩(wěn)信號,由于CEEMDAN可以對非平穩(wěn)、非線性的時間序列進行平穩(wěn)化處理,所以本研究把自適應噪聲完備集合經驗模態(tài)分解和支持向量回歸機結合(CEEMDAN-SVR),建立基于CEEMDAN-SVR的柴油機NOx排放濃度的預測模型,對NOx排放濃度進行預測。建立CEEMDAN-SVR的柴油機NOx排放濃度預測模型流程見圖1。具體步驟如下:
1) 通過CEEMDAN對NOx排放濃度序列數(shù)據(jù)進行分解,產生多個本征模態(tài)函數(shù)(IMF)和一個殘余量(RES);
2) 把CEEMDAN產生的多個IMF和RES分別進行SVR建模,初始化SVR的參數(shù),將汽車尾氣監(jiān)控平臺獲得的發(fā)動機轉速、油門踏板開度、瞬時油耗、發(fā)動機負荷百分比和速度作為輸入變量,CEEMDAN分解的子序列作為輸出;
3) 把上一步驟各IMF分量和RES通過SVR模型預測獲得的結果整合,得到CEEMDAN-SVR模型預測NOx排放濃度的最終結果。

圖1 CEEMDAN-SVR預測流程
本研究數(shù)據(jù)來源于機動車尾氣在線監(jiān)控平臺,其由NOx傳感器、OBD(車載診斷器)和無線數(shù)據(jù)傳輸單元等組成,NOx傳感器用于NOx實時排放的測量,OBD可以提供精確的車輛運行參數(shù)。本研究通過機動車尾氣在線監(jiān)控平臺獲取一輛昆明市國Ⅳ柴油公交車NOx實際道路排放數(shù)據(jù),公交車柴油機參數(shù)見表1。為避免交通流量的影響,試驗測試數(shù)據(jù)中包含了高峰時段和非高峰時段數(shù)據(jù),該柴油公交車行駛路線包括了主城區(qū)和市郊路線,囊括公交車怠速、加速、勻速、減速和停車等各個工況數(shù)據(jù),采集參數(shù)包括發(fā)動機轉速、燃油消耗、油門踏板開度、扭矩百分比、車速和NOx排放體積分數(shù)。

表1 柴油機基本參數(shù)
在數(shù)據(jù)采集過程中,由于操作不當、設備故障和傳感器異常等原因,數(shù)據(jù)中會存在一些異常值,異常值直接影響模型的精度和效果,因此,有必要對異常值進行分析和去除。
對于公交車各個參數(shù)中的異常值,主要存在部分數(shù)據(jù)離群和偏離樣本中心較大等問題,因此,本研究使用箱型圖判斷數(shù)據(jù)是否為異常值[9],箱型圖結構見圖2。箱型圖根據(jù)數(shù)據(jù)組最小值、第一四分位數(shù)(Q1)、中位數(shù)(Q2)、第三四分位數(shù)(Q3)、最大值判斷數(shù)據(jù)分布情況,定義Q3-Q1=IQR為四分位距。由于離群值偏離數(shù)據(jù)中心較大,本研究根據(jù)排放數(shù)據(jù)實際情況,分別選取Q1-3·IQR和Q3+3·IQR作為異常值判斷邊界,刪除小于Q1-3·IQR和大于Q3+3·IQR的數(shù)據(jù)。

圖2 箱型圖結構
經箱型圖判斷,在收集的試驗樣本中,存在55個異常值,占樣本總數(shù)比例較少,但數(shù)據(jù)存在連續(xù)空值,因此,本研究采用均值對缺失數(shù)據(jù)進行填充。
為證明模型的實際效果,選取隨機森林(RF)[10]、貝葉斯網絡(Bayes)[11]、CEEMDAN-SVR、CEEMDAN-RF、CEEMDAN-Bayes五種模型進行試驗對比。
本研究采用均方根誤差(RMSE)、決定系數(shù)(R2)、平均絕對誤差(MAE)和標準均方根誤差(nRMSE)去評價模型性能,計算公式如下:

(6)

(7)

(8)

(9)

經過異常值處理后的數(shù)據(jù),使用CEEMDAN對數(shù)據(jù)進行分解,分解加入0.4的標準噪聲差,允許的最大篩選迭代次數(shù)為20 000次,通過多次迭代充分去除數(shù)據(jù)中加入的噪聲。CEEMDAN分解獲得了13個IMF和1個殘余量,結果見圖3。隨著分解次數(shù)的增加,序列的波動頻率更加平緩,其中,IMF1到IMF6的子序列中包含較多的信息,復雜度依舊較高,最后一個殘余量僅僅包含了一個單一趨勢項,基本不包含有用數(shù)據(jù)信息。對子序列的預測結果見表2。
在試驗中,子序列IMF1和IMF2由于復雜性依舊較高,通過SVR模型計算出R2僅為0.43和0.75,表明在分解過程中可能將噪聲或者異常值分解進入了IMF1和IMF2中。隨著分解次數(shù)的增加,子序列中含有噪聲數(shù)據(jù)逐漸降低,SVR模型預測穩(wěn)定性明顯增強,R2接近1,表明預測值和實際值已經非常接近,預測效果良好。
SVR模型的建立基于Python的機器學習庫sklearn實現(xiàn),采用網格搜索尋找最佳超參數(shù)[12],搜索參數(shù)包括核函數(shù)、誤差項懲罰參數(shù)和不敏感系數(shù)。經過網格搜索,最終確定模型核函數(shù)為RBF、誤差項懲罰參數(shù)為0.8、不敏感系數(shù)為0.05時能獲得較高準確性。為了確保模型的可靠性和重復性,使用交叉驗證,70%的數(shù)據(jù)作為訓練集,15%的數(shù)據(jù)作為評估集,15%的數(shù)據(jù)用于模型效果驗證。

圖3 CEEMDAN分解結果

表2 子序列預測結果
表3列出了各個模型預測性能對比結果,6個模型的預測結果見圖4??梢钥闯?,對于RF、Bayes和SVR模型,經過CEEMDAN分解處理過后,模型的性能有明顯提升,RMSE分別提高了39.14%,45.65%和58.87%,MAE分別提高了26.79%,48.81%和53.94%,對數(shù)據(jù)的擬合效果R2分別提高了6.64%、8.28%和8.24%。表明CEEMDAN可以有效降低柴油機NOx瞬態(tài)排放的非平穩(wěn)性,避免原始數(shù)據(jù)中噪聲的影響,充分挖掘數(shù)據(jù)中隱藏的有用信息,有效預測柴油機NOx瞬時排放。

表3 模型性能參數(shù)對比



圖4 模型預測結果
圖5示出各個模型預測結果與測量值之間的絕對誤差。觀察發(fā)現(xiàn)與實際值偏差最大的點主要由RF、Bayes和SVR模型貢獻,經過CEEMDAN算法處理后模型的絕對誤差明顯減少,誤差值主要集中在100×10-6以內,表明CEEMDAN能有效提高模型預測穩(wěn)定性和預測性能。在6個模型的預測絕對誤差結果中,CEEMDAN-SVR表現(xiàn)最優(yōu),絕對誤差主要集中30×10-6以下,具有更好的回歸性和收斂性。

圖5 模型絕對誤差
總體來說,基于CEEMDAN-SVR的柴油車NOx瞬態(tài)排放模型比其他模型具有更高的預測精度,能明顯提高柴油車的NOx瞬態(tài)排放預測結果,其穩(wěn)定性也比單一模型更強。
利用CEEMDAN對實際道路行駛中的柴油車NOx排放數(shù)據(jù)進行了分解,將非平穩(wěn)、非線性和非正態(tài)的原始數(shù)據(jù)平穩(wěn)化,通過子序列提取數(shù)據(jù)中的局部特征信息,然后利用SVR模型對柴油車NOx排放進行建模預測,分解獲得的子序列更有利于機器學習算法學習數(shù)據(jù)特征。
提出的基于CEEMDAN-SVR柴油車瞬態(tài)NOx排放預測模型具有較好的預測效果和穩(wěn)定性,能較好地擬合發(fā)動機參數(shù)、車輛行駛等參數(shù)和NOx排放之間的關系,提高了柴油車NOx瞬時排放預測精度,為實際道路行駛中柴油車的NOx排放預測提供了一種新的思路和方法。