劉偉霞,程淑雋,肖家勇,常 偉,李 源
(1.北京新能源汽車股份有限公司,北京 100176;2.上海覺云科技有限公司,上海 200030)
動力電池作為車輛的核心部件,直接關系到車輛的行駛安全[1]。于電池而言,最危險的失效為熱失控,電池發熱超過額定使用溫度后,溫度一般線性上升,雙極晶體管的結溫過高,嚴重時會導致自燃[2]。因此,文章致力于預測電池何時熱失控[3-5],進而為電動汽車使用方提供溫度異常預警信息。
為此,文章構建了由5 個子模型構成的集成模型,以預測未來時間點發生電池熱失控的概率。該集成模型由平均誤報率與召回率兩個指標進行評估,各子模型應用機器學習算法,并通過網格搜索選擇超參數。
此次研究的新能源電池數據為實際工況下采集而得,數據來自三類車型共計30 輛汽車。由于數據采集直接影響預測模型的泛化性能,為保證數據來源的一般性,選取的車輛為同一品牌,車型一、車型二、車型三分別產于2019 年、2016年和2017 年。數據采集規則為每10 s 收集一次數據,總體數據采集時間跨度為3 個月,每輛汽車收集約700 000 個樣本,總體共計收集約2 100 萬個數據樣本,樣本的數據字段內容如表1 所示。

表1 數據類型及精確度
數據處理的步驟主要包括:
(1)數據預處理:由于三類車型的數據字段名稱和分布有所差異,尤其單體電壓和單測溫點的數量差異較大,但處理邏輯相似,且都保留列名。
(2)數據轉換:(a)去掉數據的列名中無關符號,僅保留有效字符串內容;(b)將數據的時間列轉化為標準時間格式。
(3)快慢充數據片段提取:根據整車state(狀態機編碼)對車的狀態進行處理,其中當數據中出現連續的170 時,視為快充片段;數據中連續出現110 時,視為慢充片段。最后對提取出來的快慢充片段和原始數據進行核驗處理。
(4)刪除異常片段:(a)將間隔大于10 s的數據剔除;(b)對于單體電壓,對出現0 的個數大于4 次的數據進行剔除;(c)對于溫度測溫點,出現小于0的數據進行剔除;(d)對于單體電壓,剔除車型一出現1.44的數據以及車型三出現1.42的數據。
(5)數據整合:(a)將時間數據處理后的整體數據按照時間列排序;(b)將數據的行索引(index)轉化為從0 開始,間隔為1的數據行索引。
通過對數據集的先行分析,文章認為溫度、電流、SOC等變量與熱失控關聯較大。基于豐富的實車數據,本文在多個維度上對每個變量進行拓展分析。例如,對于電壓和溫度變量,文章不僅關注其本身的數據值,也研究其變化量;對單體電壓和測溫點溫度,通過信息熵衡量其一致性;對于高精度數據,使用合適的分布來判斷離群值等。在建模過程中,文章主要提取表2 所列特征。

表2 數據特征提取
為探究各項指標對熱失控的影響,確保模型具有良好的泛化性,文章結合指標特性,建立了集成模型。該集成模型由五個子模型組成:基于概率密度的電壓模型;基于概率密度的溫度模型;基于分布的異常電流識別模型;基于信息熵的單體一致性確定模型以及基于SOC過度充電和恒定因素的風險評估模型。集成模型得分計算方式如式(1):

式中:Score為模型得分;Vd為電壓密度;Td為溫度密度;Cu為電流分布得分;Ea為熵一致性得分;SOCocr為電池使用行為得分;C為由電池型號確定的常數;β1,β2,β3,β4,β5分別為各變量的系數。
此外,基于網格交叉驗證進行對最優參數的獲取,考慮到不同模型的復雜性,文章假設各模型之間相互獨立,并為每個模型構建其權重體系。各模型簡要列舉如下:
2.1.1 基于概率密度的電壓和溫度模型
對于電壓和溫度值以及兩時刻間的差值,結合專家庫知識,對其設置數個區間。基于歷史數據,計算每個區間在歷史數據中的概率密度,計算方法如式(2):

正常值的數據量大,概率密度大,因而異常值的概率密度小。由于重點關注異常值變化,針對樣本中的電壓和溫度概率密度,分別選擇概率密度較低的10 個樣本,應用邏輯回歸進行電壓和溫度模型的訓練。
2.1.2 基于分布的異常電流識別模型
動力電池充放電流為關鍵指標,受SOC和溫度的影響較大,因此文章考慮在不同的溫度和SOC的條件下識別異常電流,實際電流隨SOC和溫度的變化示例如圖1。

圖1 車輛充電溫度與電流曲線
文章提取其數值以及兩個時刻間的增量,使用EM 算法擬合不同的分布,同時從均方誤差(MSE)、絕對誤差(MAE)、擬合優度(R-squared)、可解釋方差等多個維度評價分布擬合的優劣。常見分布有Half-normal、Log-normal、Wald、Lomax 以及Exponential 等。文章選取Lomax 分布進行實驗驗證擬合的結果,通過設置分位數,依據表3 所示的判別指標,判定電流異常的閾值,其擬合結果如圖2 所示。

表3 數據特征提取

圖2 Lomax擬合曲線
2.1.3 基于信息熵的單體一致性判定模型
文章采用信息熵作為單體一致性判斷的依據,將單體電壓和溫度測溫點的信息熵組合成單點,而后將數據點作為OneClassSvm 算法模型的輸入,訓練出包含所有正常數據點的模型。當新的數據點傳入后,模型將判斷該點是否異常,判別示意如圖3,文章對其進行了熵異常的測試。對正常點,模型將判斷每條電壓溫度信息熵組成的數據是否在分割超平面內,若在分割超平面內,則返回一個大于0 的數值,代表正常數據;若在分割超平面外,則會返回一個小于0 的數值,表示異常數據,其大小代表異常程度。

圖3 熵異常檢測圖示
各樣本的信息熵通過式(3)、(4)計算:

式中:InfoEn表示信息熵,信息熵的總和用以表示無序度;count(val)表示輸入電壓或溫度值為當前數值val的次數;count(all)表示數據中電壓或溫度出現的總次數;pi表示val出現的概率。
2.1.4 基于SOC 的過充風險評估模型
熱失控的危險系數通過兩個指標衡量:(1)當前的SOC:對SOC大于等于90%的數據返回1,否則返回0;(2)歷史的過充次數:文章根據當前SOC在90%~100%之間的取值不同,得到不同的危險系數。而后根據不同的歷史過充次數得到電池損耗程度,最后結合以上兩個指標得到最終發生熱失控的系數,建立過充風險評估模型。
2.1.5 模型集成
五個子模型分別建立后,通過線性方式對五個模型進行組合,并根據網格搜索以及專家建議尋找最佳模型參數,各子模型結構以及集成算法結構如圖4 所示。

圖4 子模型與集成模型圖示
各型車輛配置的電池,均為同型號的三元鋰電池。模型的主要評估指標為故障識別率與正常車輛的故障誤報率,較高識別率一般導致高誤報率,本文將在實際驗證中平衡兩項指標并得到更合理的結果。對于異常車輛,每種型號車輛的故障識別率驗證結果如表4 所示。據表中結果可知,相比于車型一與車型三,預測車型二車輛的故障識別率較高。剔除部分數據質量較差的汽車異常數據后,總體車輛的模型召回率達到66.7%。

表4 故障識別率驗證結果
文章亦驗證了正常車輛的故障誤報率,為保證數據的隨機性同時縮短模型預測時間,對每輛車做截取最后10 000 條數據的處理,驗證結果如表5 所示。綜合三型車輛的故障誤報率驗證結果,平均誤報率約為0.165。

表5 故障誤報率驗證
文章對實際發生熱失控的車輛數據進行了7 次模型驗證測試,驗證結果如表6,其中提前預測熱失控的成功率為85.7%。圖5 為額外驗證的結果可視化顯示,其中多條顏色曲線表示不同單體的預測電壓以及測溫點溫度變化趨勢,紅色陰影區域表示發生熱失控。該實際車輛的數據驗證結果顯示,模型開始預警時間為14 時01 分48 秒,發生熱失控的時間為14 時09 分,因而可提前7 min 發出溫度異常預警信息。

圖5 可視化實車熱失控數據驗證

表6 實車熱失控預測驗證
基于大數據驅動的方法尚未廣泛應用于電池熱失控的預測,文章通過動態訓練大型實車數據集,嘗試緩解傳統基于模型的方法的局限性。實驗結果表明,文章所述的預測算法通過平臺實時執行,可覆蓋較多熱失控場景,預期為電池使用方發出溫度異常預警信息,以減少人員傷亡和財產損失發生的機率。此外,通過使用達到國家標準的企業數據,文章研究的模型可涵蓋主流的熱失控故障機制,并逐步探索將基于數據的標準特征推廣應用到更多數量的當前車型。在后續研究中,將對來自不同品牌車輛的更多數據應用于模型的實用性進行測試并改進,優化算法相關參數,以提高預測模型的適用性。