基于Q學習的純電動重型商用車智能換擋控制策略研究

2021-10-19 03:20:50尹燕莉張劉鋒周亞偉王瑞鑫馬什鵬

重慶理工大學學報(自然科學) 2021年9期

尹燕莉，張劉鋒，周亞偉，王瑞鑫，馬什鵬

(1.重慶交通大學機電與車輛工程學院，重慶 400074；2.包頭北奔重型汽車有限公司，內蒙古包頭 014000)

目前，隨著汽車工業的快速發展，汽車為人們交通出行帶來了便利，同時也加劇了能源消耗與空氣污染。為了降低能源消耗與環境污染，中國開始大力發展節能與新能源汽車[1]。相比傳統重型商用車，混合動力重型商用車由于其可以有效降低化石燃料消耗和排放污染，得到了各大重卡車企的廣泛關注。而對于短行程物流運輸，可以通過采用純電動重型商用車進一步降低整車的運行成本和排放污染。對于純電動重型商用車的研發，動力性是基礎，在保證其動力性的基礎上提高經濟性。純電動重型商用車動力性與經濟性主要受限于動力電池技術與傳動系統技術[2]。機械式自動變速器(automated mechanical transmission，AMT)中不同擋位的傳動比與換擋策略，決定了純電動重型商用車的動力性與經濟性。因此，在擋位傳動比確定的條件下，純電動重型商用車的動力性、經濟性主要與換擋策略有關。

根據是否應用智能算法確定換擋點，換擋策略可分為：傳統換擋策略和智能換擋策略。傳統換擋策略是指在選定換擋控制參數后，按照某些性能最優的原則，通過動力學模型，計算得到最佳相鄰兩擋換擋點的換擋策略。智能換擋策略是指應用智能算法，優化獲得某些性能最優下的換擋點的換擋策略。換擋策略從優化目標的角度，又可分為經濟性換擋策略、動力性換擋策略和綜合換擋策略。

傳統換擋策略制定簡單，換擋控制平穩，但未考慮到工況的影響。因此，為了進一步提高整車的動力性與經濟性，智能換擋策略被研究人員廣泛應用。相比傳統換擋策略，智能換擋策略采用不同優化算法，獲得了最佳換擋策略，可以有效地解決傳統換擋策略未考慮工況及其他因素的問題，從而改善了整車性能。

基于智能算法優化的經濟性換擋策略包含了動態規劃算法[3-6]、粒子群算法[7-8]和模糊控制[9]等。在對整車經濟性換擋策略優化時，考慮整車效率和各工況特性，建立經濟性換擋模型，應用智能算法最終獲得優化后的經濟性換擋策略。相比優化前的換擋策略，優化后的換擋策略有效提升了整車的經濟性。以整車動力性為目標，確定最佳換擋點的換擋策略稱為動力性換擋策略。褚園民等[10]提出了模糊換擋控制策略，該策略以車速和油門踏板開度為換擋參數，提升了整車的動力性。通過設置兼顧動力性與經濟性的換擋目標，確定最佳換擋點的換擋策略稱為綜合換擋策略。目前針對綜合換擋策略優化的智能算法有：遺傳算法[11-12]、分層引力搜索算法[13]、粒子群算法[14-15]和動態規劃算法[16]。以上智能算法換擋策略的應用為實車換擋策略的制定提供了理論基礎，利用智能算法的計算效率和優化精度，建立了考慮工況信息的換擋優化模型，獲得相比傳統換擋策略更優的控制性能。本文應用Q學習算法對一款純電動重型商用車的綜合換擋策略進行了優化。

Q學習算法是強化學習方法中的一種由數據驅動的智能算法[17]。該算法以控制系統為智能體，除控制系統外為環境，控制變量為動作。智能體選擇不同的動作，與環境進行交互，通過不斷迭代學習，最終獲得最優決策序列，能夠有效地解決模型已知與模型未知的非線性優化問題，具有魯棒性強的特點。該方法不受固定模式結構的限制，以數據為驅動，從數據中自動提取特征并進行分析，利用數據不斷改善自身性能，表現出良好地準確性和適用性。因此，該算法被廣泛應用于解決新能源汽車的能量管理問題。結合Q學習算法將狀態時域轉化為狀態空間域的特點，本文針對一款純電動重型商用車，提出了基于Q學習的純電動重型商用車智能綜合換擋控制策略。該方法基于馬爾科夫理論，構建需求功率轉移概率模型。以電能消耗與加速度量綱歸一化最大為加權目標，建立綜合性能換擋策略優化模型，運用Q學習算法，得到不同車速下的需求功率、SOC、速比三者關系的MAP圖，制定出整車智能綜合換擋策略。

1 純電動重型商用車模型

1.1 車輛結構與參數

本文研究的純電動重型商用車，其主要部件包括：動力電池、電動機、離合器和4擋AMT變速器等。在驅動工況時，電動機提供動力驅動車輪；在制動工況時，電動機作為發電機回收制動能量。整車的主要參數如表1所示。

表1 純電動重型商用車參數

1.2 需求功率模型

整車驅動時需求功率由滾動阻力、空氣阻力和加速阻力的功率組成，這里忽略坡度阻力。

Preq=(Ff+Fw+Fj)v

(1)

Ff=fmg

(2)

(3)

(4)

式中：Preq為整車需求功率；Ff為滾動阻力；Fw為空氣阻力；Fj為加速阻力；v為車速；f為滾動阻力系數；m為整車質量；CD為空氣阻力系數；A為汽車迎風面積；δ為旋轉質量換算系數。

1.3 電機模型

電動機是純電動重型商用車的主要動力源，驅動時由電動機單獨驅動車輛，制動時也可以作為發電機給電池充電。電動機功率可以表示為：

(5)

式中：Pm為電動機功率；Tm為電動機轉矩；nm為電動機轉速；ηm為電動機效率，它是電動機轉矩和轉速的函數。電動機效率可以通過實驗得到，如圖1所示。

圖1 電動機的效率圖

1.4 電池模型

電池是純電動汽車的重要部件之一。純電動重型商用車中電池的主要作用：為電機提供能量驅動車輪和再生制動時進行能量回收。不考慮電池壽命和溫度變化的影響，通過試驗得到了電池的電動勢和內阻模型。

(6)

式中：ESOC為當前狀態下的電動勢；E0為電池電動常數擬合系數；SOC為電池的荷電狀態。

(7)

式中：RSOC為當前狀態下的內阻；δ0為內阻隨電流變化的補償系數；R0為電池的內阻常數；λi為擬合系數。

電池的SOC計算過程如公式所示：

(8)

(9)

由此可得，

(10)

式中：I為電池的電流；Qbat為電池容量；Pbat為電池功率。

2 傳統換擋策略

傳統換擋策略的制定，主要在已知整車參數的條件下，根據車輛動力學理論，建立換擋模型，依據優化目標不同，可以分為：傳統動力性換擋和傳統經濟性換擋策略。

2.1 傳統動力性換擋策略

動力性換擋策略可以獲得車輛最大動力時的換擋點集合。從車速與加速度踏板開度的角度考慮，傳統動力性換擋策略的制定方法如下：在某一加速度踏板開度下，以相鄰擋位純電動商用車加速度曲線的交點作為換擋點，即an=an+1；若相鄰兩擋加速度曲線未出現交點，則選擇較低擋的邊界車速作為該踏板開度下的升擋點。為了防止頻繁換擋，降擋點應與升擋點設置一定的換擋速差，根據經驗一般取2～8 km/h，這里取換擋速差為4 km/h。圖2為根據整車參數獲得的傳統動力性換擋曲線。

圖2 傳統動力性換擋曲線

2.2 傳統經濟性換擋策略

為了提升純電動汽車換擋經濟性，要求換擋策略應使車輛盡量運行在電機高效率區域。與傳統動力性換擋策略制定方法相似，不同的是換擋點的目標不同。純電動汽車傳統經濟性換擋策略制定方法，是將計算得到的各加速度踏板開度下相鄰擋位電機效率曲線交點作為經濟性換擋點。

與傳統動力性換擋規律相同，在制定傳統經濟性降擋策略時，也應設置降擋速差，圖3為最終獲得的傳統經濟性換擋曲線。

圖3 傳統經濟性換擋曲線

2.3 傳統綜合換擋策略

以單一目標(動力性或者經濟性)制定的換擋策略不能同時兼顧整車的動力性與經濟性，對于純電動重型商用車需在保證動力性的基礎上，盡可能地降低能量消耗，為了解決該問題需制定出兼顧動力性與經濟性的綜合換擋策略。一般中小加速度踏板開度以保證經濟性為主，兼顧動力性；較高的加速度踏板開度以動力性為主。

以加速度踏板開度為40%時為界限，低于該值時采用傳統經濟性換擋策略，反之，則采用傳統動力性換擋策略。由以上制定的傳統動力性與經濟性換擋策略制定出兼顧動力性與經濟性的綜合換擋策略，圖4表示最終獲得的傳統綜合換擋曲線。

圖4 傳統綜合換擋曲線

3 基于Q學習算法的綜合換擋控制策略

3.1 Q學習算法

Q學習算法是強化學習方法中的一種由數據驅動的智能算法，該算法基于馬爾科夫決策過程，以控制系統為智能體，除控制系統外為環境，控制變量為動作。根據當前狀態s，智能體通過選擇動作a與環境進行交互，產生新的狀態st+1，同時獲得當前狀態動作對的回報r，并評估回報以此來更新Q表。每個動作都有相應的回報，回報不僅考慮當前的利益，還考慮對未來利益的期望，因此，Q學習是兼顧全局的優化算法。通過評估動作獲得的獎勵，智能體選擇每一個狀態下最大獎勵對應的動作，更新最優動作選擇策略；智能體交互的過程也稱為學習的過程，經過不斷的迭代學習，直至Q表收斂，最終獲得當前狀態的最優策略。與基于時間域角度優化的算法相比，Q學習算法將狀態從時間域轉化狀態空間域，使得優化結果不受時間維度的影響，一定程度上對工況進行了解耦，提高了優化結果的適應性。因而本文制定了基于Q學習算法的純電動重型商用車智能綜合換擋策略。

3.2 需求功率轉移概率模型

在工況數據確定后，由整車動力學式(1)～(4)可知，工況時間速度序列可等效為時間需求功率序列。由馬爾科夫決策過程可知，下一時刻需求功率只與當前時刻需求功率有關，與以往需求功率無關。由此，建立需求功率轉移概率矩陣模型，采用最鄰近法和最大似然估計法，計算需求功率的轉移概率如式(11)(12)：

(11)

(12)

選取重型商用車常用工況C-WTVC作為仿真工況，在工況數據已知的前提下，由式(11)計算不同平均車速下的需求功率轉移概率矩陣。圖5為C-WTVC工況數據圖，圖6表示平均車速分別為10、20、30、40 km/h的需求功率轉移概率矩陣圖。

圖5 C-WTVC工況數據

圖6 需求功率概率轉移矩陣圖

3.3 目標函數的確定

該策略以速比ig作為控制變量，車速v、電池SOC和需求功率Preq作為狀態變量。

(13)

應用Q學習算法優化速比，目的是找到最優策略π使得整車的總回報期望最大，如式(14)所示。

(14)

式中：γ取值[0，1]，表示折扣因子。在Q學習算法中，狀態變量從時間域轉化為空間域，控制變量以空間域的角度優化。在一定車速下，加速度不受時間維度影響，不同速比對應不同的加速度，能夠反映控制變量的動力性差異，因此，在Q學習算法中，選擇加速度作為動力性評價函數，選擇電能變化量作為經濟性評價函數。利用線性加權方法構建上式中的回報函數rt：

(15)

式中：kd和kj為動力性和經濟性加權系數，為了與動作a區分，選擇u表示加速度，ΔSOC表示電能變化量。

由于兩者符號不同，不能直接相加減。因此，需要分別對2個評價函數進行量綱歸一化處理，從有量綱到無量綱[18]，如式(16)(17)所示。

u′=(u-umin)/(umax-umin)

(16)

ΔSOC′=(ΔSOC-ΔSOCmin)/(ΔSOCmax-ΔSOCmin)

(17)

式中：u′與ΔSOC′分別表示量綱歸一化處理后2個分評價函數，umax為當前狀態不同控制變量下動力性評價函數的極大值，umin為當前狀態不同控制變量下動力性評價函數的極小值，ΔSOCmax為當前狀態不同控制變量下經濟性評價函數的極大值，ΔSOCmin為當前狀態不同控制變量下經濟性評價函數的極小值。式(15)可以寫為：

(18)

不同組合的加權系數，可以體現出駕駛員對整車不同的性能需求。文獻[18]針對純電動公交車，對不同組合的加權系數優化結果進行了分析，該分析結論依然適用于本文的研究對象。考慮到本文研究對象為純電動重型商用車，在確保動力性的基礎上提高經濟性。因此，動力性權重系數應大于經濟性權重系數，但兩者不應相差較大，若較大，則經濟性提高不明顯?；谝陨戏治?，本文設置kd為0.6，kj為0.4。

為了使優化結果能確保各部件運行在允許范圍內，需滿足以下約束條件：

(19)

式中：SOCmin與SOCmax為電池SOC的上下限；Pb，min與Pb，max為電池功率的上下限；Tm，min與Tm，max為電機轉矩的上下限；nm，min與nm，max為電機的最小轉速與最大轉速。

3.4 基于Q學習算法的智能綜合換擋優化控制流程

基于Q學習算法的純電動重型商用車智能綜合換擋策略的算法步驟如下。基于Q學習的智能綜合換擋控制策略流程如圖7所示。

圖7 基于Q學習的智能綜合換擋控制策略流程框圖

步驟1初始化Q學習算法參數：探索率ε、學習率α和折扣因子γ，設置迭代次數N；

步驟2選擇車速v，電池SOC和Preq作為狀態變量，AMT速比ig作為控制變量；

步驟3構建兼顧動力性與經濟性的綜合回報函數(式(18))；

步驟4根據構建的綜合回報函數，應用ε-greedy策略(式(20))尋找最大Q(s，a)值對應的動作，計算當前狀態s和動作a的回報r和下一時刻狀態s′；

(20)

步驟5基于greedy策略選擇下一時刻動作a′，應用式(18)更新當前狀態動作的Q(s，a)值；

Q(s，a)←Q(s，a)+α[r+γmaxQ(s′，a′)-Q(s，a)]

(21)

步驟6判斷當前狀態是否為最終狀態，若為最終狀態，繼續下一步；反之重復步驟2、3、4和5；

步驟7計算相鄰迭代次數的Q(s，a)值的絕對值之差是否小于閾值，如小于閾值表明策略收斂，結束迭代；反之重復步驟2、3、4、5和6；

步驟8將收斂后的Q(s，a)值對應的策略作為最優策略。

3.5 優化結果

基于C-WTVC工況，運用Q學習算法，優化純電動重型商用車綜合換擋策略。圖8顯示了車速分別為10、20、30 km/h時，整車速比優化MAP圖。

圖8 基于Q學習算法的不同車速下的速比MAP圖

由圖8中的(a)和(c)可知，在車速為10 km/h和30 km/h時，速比穩定分布無波動。車速為10 km/h時速比穩定分布在4.5，也即是在該車速下，基本穩定選擇1擋，這與運行在較低車速時選擇較低擋策略吻合。隨著車速增加，當車速在30 km/h時，速比穩定分布在2.5，表示隨著車速逐漸增加，擋位也隨之升高。由圖8中的(b)可知，當車速為20 km/h時，速比分布出現了波動，在同一車速下隨著需求功率的增加，速比降低，擋位從1擋升至2擋，這是因為隨著需求功率的增加，電機轉矩與轉速也發生變化，升擋后電機運行在效率較高區域；同時速比分布的波動，也表明20 km/h處于1擋與2擋的換擋重疊區域。從 20 km/h的優化結果，可以看出1擋與2擋的換擋點在20 km/h附近。

由Q學習優化得到的速比MAP圖，運用Matlab插值方法，獲得C-WTVC工況下的每一時刻速比變化，并轉化為擋位分布，如圖9所示。

圖9 基于Q學習優化的C-WTVC擋位分布

由Q學習優化結果，獲得基于Q學習的智能綜合換擋曲線，如圖10所示。

圖10 基于Q學習的智能綜合換擋曲線

4 基于Cruise仿真分析

基于Cruise軟件，構建純電動重型商用車整車仿真模型，選取C-WTVC循環工況，進行整車仿真，整車仿真模型如圖11所示。

圖11 純電動重型商用車仿真模型

采用變速器控制程序和控制模塊(gear box program 與gear box control)，根據前文中制定的換擋策略定義整車的換擋過程，以C-WTVC工況下的電能消耗評價換擋策略的經濟性。對于Q學習算法，先是將狀態從時間域轉化為空間域，優化獲得最優速比MAP圖，最后，將狀態空間域回歸時間域，基于速比MAP圖，獲得工況的速比時間序列。因此，在Cruise仿真中，為了便于分析與比較2種策略的動力性，選擇0～50 km/h的加速時間評價換擋策略的動力性。在模型中設置計算任務，包含循環工況計算和全負荷加速計算，初始SOC設置為0.95。圖12為基于Q學習的智能綜合換擋策略與傳統綜合換擋策略的仿真對比，2種策略的動力性與經濟性仿真結果如表2所示。

表2 2種綜合換擋策略仿真對比

圖12中，藍色實線表示基于Q學習的智能綜合換擋策略優化結果，紅色虛線表示傳統綜合換擋策略優化結果。從圖12(b)可以看出，2種策略的擋位分布相差較大，這是因為運用Q學習算法優化綜合換擋策略時，考慮每個狀態的全局最優性，傳統綜合換擋策略只考慮了瞬時最優。圖12(c)為2種策略驅動時的電機轉矩曲線，由于2種策略擋位分布不同，相應的電機轉矩分布也不相同，不同換擋策略對應的電池SOC也相應發生變化，如圖12(d)所示，基于Q學習的智能綜合換擋策略最終SOC為0.84，ΔSOC=0.11；基于傳統綜合換擋策略的最終SOC為0.834，ΔSOC=0.116。相比傳統綜合換擋策略，基于Q學習的智能綜合換擋策略的SOC變化量減少了5.2%。

圖12 2種綜合換擋策略仿真對比

由表2可見，從動力性角度看，基于Q學習的智能換擋策略的0～50 km/h加速時間為25.15 s，相比傳統綜合換擋策略的26.37 s，基于Q學習的智能綜合換擋策略的0～50 km/h加速時間減少了1.22 s，加速時間縮短了4.6%。從經濟性角度看，在C-WTVC工況下，基于Q學習的智能換擋策略電能消耗為26.45 kW·h，相比傳統綜合換擋策略的27.92 kW·h減少了1.47 kW·h，能量消耗率降低了5.3%。以上分析可以得到，本文采用Q學習算法獲得的智能綜合換擋策略是有效的。

圖13為中國典型城市公交循環(CCBC)數據，表3表示，在CCBC工況下的2種綜合換擋策略仿真對比，仿真結果表明，基于Q學習的智能綜合換擋策略0～50 km/h的加速時間為26.17 s，相比傳統換擋策略的26.56 s，加速時間減少了0.39 s。基于Q學習的智能綜合換擋策略的電能消耗為6.11 kW·h，相比傳統綜合換擋策略的6.18 kW·h減少了0.07 kW·h，能量消耗率降低了1.1%。CCBC工況的仿真結果進一步驗證了基于Q學習的智能綜合換擋策略的可行性。

圖13 CCBC工況數據

表3 CCBC工況2種綜合換擋策略仿真對比

5 結論

1) 根據整車換擋策略對動力性與經濟性的影響，利用動力學公式，分別獲得了傳統最優動力性換擋策略與經濟性換擋策略，通過設置加速度踏板開度閾值，提取了傳統綜合換擋策略，為后續制定基于Q學習算法的智能綜合換擋控制策略提供了理論基礎。

2) 選擇車速、SOC、需求功率Preq為狀態變量，選擇速比為控制變量，分別以加速度與電能消耗作為動力性與經濟性的評價函數，對二者評價函數進行無量綱歸一化，構建兼顧動力性與經濟性的綜合回報函數，最后，運用Q學習算法優化得到智能綜合換擋策略?；贑ruise軟件，建立了純電動重型商用車仿真模型，分別對基于Q學習算法的智能綜合換擋策略與傳統綜合換擋策略進行了綜合性能仿真。仿真結果表明：相比傳統綜合換擋策略，基于Q學習算法的智能綜合換擋策略能夠有效地改善整車的經濟性與動力性。