陳天鍇,王貴勇,申立中,姚國仲
(昆明理工大學云南省內燃機重點實驗室,云南 昆明 650500)
“2030實現碳達峰,2060年實現碳中和”意味著柴油機發展正處于一個挑戰與機遇并存的時代,柴油機作為非道路工程機械與國防裝備的主要動力,在各類先進技術引領下,朝著節能減排的目標邁進。各類新技術應用提高了柴油機的復雜程度,高度集成的ECU系統控制參數日益增加。柴油機作為一種多輸入多輸出、高復雜度與耦合度系統,難以用精確的物理與化學模型準確描述。柴油機性能預測通常采用熱力學與流體力學結合經驗公式進行建模,如GT-Power,AVL CruiseM,AVL Boost等,上述模型在仿真精度與仿真時間上往往是矛盾的,且建模需要大量發動機參數與試驗數據,時間與經濟成本較高。
近年來,在跨學科領域融合的趨勢下,興起了使用機器學習來解決各領域前沿問題的熱潮,其理論和方法已被廣泛應用于解決工程應用和科學領域的復雜問題,在分類與回歸預測方面具有極高的性能。文獻[6]對比了熱力學模型與機器學習方法性能預測的精度。神經網絡在發動機有效燃油消耗率(BSFC)和NO預測方面精度更高,且計算所需時間較短。在硬件在環研究與柴油機參數虛擬標定研究問題上,機器學習預測模型具有準確度與精度高、時間與經濟成本少,易于結合遺傳算法等優化方法等特點。
在柴油機性能預測方面,目前研究主要采用ANN(Artificial Neural Network,人工神經網絡)和SVM(Support Vector Machine,支持向量機)方法。國內外學者使用ANN、SVM等多種機器學習方法進行了柴油機經濟性、排放性預測的研究。研究表明,ANN和SVM在BSFC、熱效率、CO、HC和NO預測上都具有優秀的性能,各方法擬合程度在0.823~0.994之間。
雖然ANN和SVM在處理復雜非線性柴油機系統問題中具有優越的性能,但也暴露出一些問題。ANN存在學習收斂速度慢、訓練容易陷入局部極小值非最優解、網絡模型泛化能力差,針對不同發動機機型適用性差,神經元與網絡層數難以確定等問題。SVM泛化能力強,但性能受核函數與參數影響較大。兩種模型均需要對構造函數與模型參數進行大量調試與計算尋優。國內外學者通過結合遺傳算法等方式嘗試改進ANN和SVM,目前也取得了一定進展。
文獻[23]基于汽車、醫學、農業等不同領域的71個數據集比較了多種機器學習算法的預測性能,在研究中發現GBDT(Gradient Boosting Decision Tree,梯度提升決策樹)在預測性能上優于支持向量機,同時在預測效率方面是最快的算法。
GBDT是一種基于梯度下降的優秀機器學習算法,在多元非線性回歸問題方面有較高的精確度與穩定性。目前,該算法還較少應用于發動機領域。GBDT算法可有效處理混合類型特征與參數缺失值,對異常數據具有魯棒性,可擴展性強,可并行計算,是一種解決柴油機類復雜黑箱系統問題的全新思路。本研究基于GBDT算法,對1臺4缸高壓共軌柴油機進行建模分析與性能預測,為發動機性能預測提供了一種行之有效的方法。
試驗采用配備渦輪增壓器的某4缸高壓共軌柴油機。發動機具體參數見表1。進氣中冷采用流量可控的水冷卻,試驗臺架如圖1所示。主要測試設備及參數如表2所示。

表1 發動機主要技術參數

圖1 柴油機臺架示意

表2 測試設備參數
采用試驗設計(Design of Experiment,DoE),通過最少的試驗次數來獲得最大的發動機有效信息量,避免重復試驗,縮短試驗周期,降低試驗成本。試驗設計點的分布原則:在試驗空間內試驗點應均勻分布且正交,避免不同試驗點攜帶重復的試驗數據,試驗點能有效提供周邊空間的信息。
有效的試驗設計決定了柴油機性能預測模型特征輸入數據量,直接影響模型預測精度和擬合程度。空間填充試驗設計基于疏密相等原則,通過數學方法將試驗點均勻填充于試驗空間中,保證試驗次數與有效數據量的平衡。空間填充設計適用于任意維度的試驗空間,其試驗點生成僅與約束條件形成的樣本空間有關,不會受到柴油機真實性能與建模方法的影響。基于Sobol Sequence空間填充算法得出柴油機試驗填充空間。利用該方法得到的測試數據點具有高均勻性、可重復、獨立特征參數生成等特點,極大增加了訓練數據試驗組中輸入因素水平,保證獲取最大試驗信息量。
對于生成個影響因素的次數Sobol Sequence填充,記第個特征矩陣為=(,,…),則生成多項式組為

(1)



(2)

(3)


(4)

選取轉速、扭矩、主噴正時、預噴正時、預噴油量為特征參數,BSFC經濟性參數、NO和CO排放參數為響應參數。為保證模型在發動機運行范圍內均具較高精度,試驗數據均勻分布且覆蓋900~3 000 r/min,20%~100%負荷范圍。
基于Sobol Sequence算法生成640組試驗矩陣。根據臺架去除部分不合理試驗組,最后實際特征組為574。采用GBDT算法進行柴油機性能預測是一次全新的嘗試,目前研究中,采用機器學習方法建立高精度預測模型試驗數據量為100~600組。為研究訓練數據量與模型準確度關系,進行了盡可能多的試驗以保證模型搭建成功,同時,大量試驗數據也可用于研究訓練數據量對模型精度的影響。其次,為了將GBDT模型應用于柴油機ECU硬件在環及虛擬標定研究,模型需要同時滿足實時性與精度要求,為盡量提高模型精度以便于后續研究,避免因試驗誤差造成的影響,采用了574組工況試驗數據進行訓練預測。而在實際建模過程中,約100組試驗數據即可達到較高模型精度,如圖2所示,因此,GBDT柴油機預測模型實際只需要較少的數據量便可建模,且精度較高。

圖2 試驗數據量與模型擬合程度關系
GBDT梯度提升決策樹算法是目前較為先進的機器學習策略之一,本質為一種優秀的Boosting集成學習算法,廣泛運用于分類、回歸問題和推薦系統。通過結合決策樹與Gradient Boosting算法,在每次迭代過程中通過梯度下降減少損失,將弱學習器決策樹集成進行迭代提升為強學習器。每個決策樹在前一個決策樹基礎上進行學習,最后綜合所有決策樹的預測值產生最終結果。GBDT算法在回歸與分類問題上具有優異的性能。
GBDT算法表達式為

(5)
式中:為發動機訓練樣本點;為GBDT算法模型參數;為回歸決策樹;為每棵決策樹的權重系數。為第棵子回歸決策樹(=0,1,…)。
給定柴油機試驗數據訓練集:

(6)
式中:為轉速特征參數;為扭矩特征參數;為主噴正時特征參數;為預噴正時特征參數;為預噴油量特征參數。特征空間邊界條件由真實發動機參數可控范圍定義。為BSFC特征參數;NO為NO特征參數;為CO特征參數。
迭代模型為
()=-1()+。
(7)
式中:-1()為上一代迭代模型;為本輪迭代決策樹;為本輪迭代后模型。
初始化父節點決策樹():

(8)
式中:為使父節點決策樹損失函數最小的值。迭代生成子節點決策樹=0,1,…。損失函數為(,())。
對于=1,2,…,計算第棵決策樹對應的損失函數負梯度殘差:

(9)
式中:為負梯度殘差。對于=1,2,…,利用CART(Classification And Regression Tree)回歸樹擬合數據(,,),得出第棵回歸樹,其對應的葉子節點區域為,,其中=1,2,…,為第棵回歸樹葉子節點個數。
對于個葉子節點區域=1,2,…,計算出擬合值:

(10)
更新強學習器:

(11)
得出GBDT強學習器表達式為

(12)
GBDT柴油機模型建立后,需對loss(損失函數),learning_rate(決策樹權重縮減系數),n_estimators(決策樹最大迭代次數),subsample(決策樹子采樣比例),max_depth(樹節點最大深度)等參數調優,以更好地擬合柴油訓練集數據,提高模型訓練速度與預測精度,防止弱擬合與過擬合。
基于柴油機訓練數據集數據量,采用GridSearchCV網格搜索算法,通過網格搜索和交叉驗證,采用指定步長遍歷優化參數空間,得出最優模型參數組合。
將試驗數據集的80%劃分為訓練集,20%劃分為測試集。為提高模型精度,采用K折交叉驗證對原始柴油機數據進行劃分。將柴油機數據集隨機劃分為5份,每次選取4份進行訓練,剩余1份作為測試集,重復5次,取5次準確率均值作為模型評價指標。K折交叉驗證可以防止小數據集造成的模型欠擬合,同時避免模型超量迭代造成過擬合。
對GBDT模型進行多次迭代訓練后,基于5折交叉驗證測試集計算模型的RMSE(Root Mean Square Error,均方根誤差)、MAE(Mean Absolute Error,平均絕對誤差)、(R-Square模型決定系數)、MRE(Mean Relative Error,平均相對誤差)評價指標。

(13)

(14)

(15)

(16)
式中:為真實值;為預測值;為實際響應的平均值。
仿真平臺參數為CPU-AMD 3600X,GPU-RX580。模型代碼基于Python3.8實現。圖3示出模型訓練迭代收斂曲線。可以看出,在迭代次數24次時,預測模型擬合程度已經高于90%,模型訓練、驗證和預測計算總時間為0.071 s,迭代次數在105次時模型超過95%,計算時間0.096 s。可見模型收斂速度較快,用時較少。

圖3 模型訓練迭代R2收斂曲線
將測試集數據BSFC,NO,CO真實值與模型預測值進行對比驗證。
圖4至圖6分別示出BSFC,NO,CO預測值回歸驗證。從圖中可以看出,測試集模型BSFC,NO,CO預測值均處于95%置信區間中,測試點密集分布于回歸線=附近,模型敏感性和可信度較高,對BSFC,NO,CO輸出具有良好響應。=0.981,NO=0.993,=0.992。決定系數表征模型擬合程度,反映預測值[,NO,]浮動受預測模型輸入影響程度,即表示BSFC,NO,CO響應值變異中百分比受特征變量[,,,,]控制。取值為(0,1),越接近1,模型擬合程度越高。通過對112組測試集進行預測,可以看出模型整體離散程度密集,預測精度高,具有較高的穩定性。

圖4 BSFC回歸測試集驗證

圖5 NOx回歸測試集驗證

圖6 CO回歸測試集驗證
圖7至圖9分別示出模型BSFC,NO,CO預測值與真實值的擬合程度對比。從圖中可以看出,BSFC,NO和CO預測值均具有較高擬合程度,跟隨程度高,預測值與柴油機真實輸出趨勢一致,在準確度與趨勢上均能滿足要求。可見GBDT模型能夠準確預測該柴油機的BSFC,NO和CO數據。

圖7 BSFC預測值與真實值對比

圖8 NOx預測值與真實值對比

圖9 CO預測值與真實值對比
圖10至圖12分別示出BSFC,NO,CO預測值相對誤差分布。由圖可知,模型相對誤差分布波動較小。112組測試數據集中,BSFC預測值5個最大相對誤差分別為3.82%,-3.63%,-3.18%,-3.01%,-2.83%,平均相對誤差為0.81%;NO預測值5個最大相對誤差分別為7.84%,-7.38%,7.37%,-7.01%,6.94%,平均相對誤差為3.68%;CO預測值5個最大相對誤差分別為-5.97%,5.80%,5.79%,5.68%,-5.32%,平均相對誤差為2.95%。可見GBDT柴油機模型具有較高準確度與穩定性。

圖10 BSFC預測值相對誤差分布

圖11 NOx預測值相對誤差分布

圖12 CO預測值相對誤差分布
模型性能評價指標如表3所示。可以看出,GBDT柴油機預測模型具有較高的可行性與可信度。

表3 模型性能評價指標
將主噴正時、預噴正時、預噴油量MAP作為特征參數矩陣輸入GBDT模型進行計算,得出基于轉速和扭矩的BSFC,NO,CO響應圖(見圖13至圖15)。通過將主噴正時、預噴正時、預噴油量固定為常量進行降維處理,每個轉速和扭矩下噴油參數由原機MAP決定,得到基于轉速和扭矩的BSFC,NO,CO預測值三維曲(見圖16至圖18)。基于少量試驗數據點繪制原機真實物理響應圖與預測曲面進行對比,可以看出,GBDT模型生成的BSFC,CO,NO響應過渡平滑,與真實數據高度擬合,變化趨勢一致。

圖13 BSFC試驗數據插值響應

圖14 NOx試驗數據插值響應

圖15 CO試驗數據插值響應

圖16 BSFC基于轉速和扭矩的三維預測曲面

圖17 NOx基于轉速和扭矩的三維預測曲面

圖18 CO基于轉速和扭矩的三維預測曲面
a)GBDT柴油機預測模型在迭代24次后,>0.90,迭代105次后>0.95,模型收斂速度較快,用時較短;GBDT方法雖具有較高的預測精度,但由于采用了梯度下降全局求解方法,針對不同的預測問題需要對迭代步長和訓練次數等算法參數進行優化,以提高模型擬合程度和準確度,減少模型訓練時間;
b)基于GBDT算法建立的柴油機性能預測模型,在BSFC,NO,CO預測方面具有較高的準確度和穩定性;擬合程度=0.981,NO=0.993,=0.992;預測值平均相對誤差分別為0.81%,3.68%,2.95%;
c)GBDT算法對柴油機建模有較高的適應度,能夠有效解決多特征高維非線性柴油機性能預測問題,為柴油機性能預測建模提供了一種行之有效的方法。