鄭國峰,林 鑫,張承偉,肖 攀,張學東
(1.中國汽車工程研究院股份有限公司, 重慶 401122;2.重慶交通大學 機電與車輛工程學院, 重慶 400074)
汽車駕駛過程中的典型行駛工況對整車的耐久性能有著顯著影響。在整車耐久性規范制定或修訂時,用戶典型工況的比例,直接決定規范能否反應用戶實際駕駛情況,典型工況的識別顯得尤為重要。在傳統的整車耐久規范開發與修訂中,典型行駛工況往往通過整車GPS信號獲取,但GPS所包含的典型道路的信息,嚴重依賴于圖商的后臺數據,在缺乏相關數據庫的前提下,對整車典型行駛工況的識別顯得較為困難。但隨著人工智能算法的出現,基于用戶車聯網數據的典型行駛工況識別方法逐漸得到關注。
基于人工智能算法的整車典型行駛工況識別方法,國內外相關學者做了相關的研究,較為典型的有:詹森等[1-2]提出了基于聚類算法的工況識別方法,以優化整車能量管理策略。林歆悠等[3]采用學習向量量化(LVQ)神經網絡模型對典型行駛工況進行在線識別,結合動態規劃算法,制定了基于工況識別的控制策略。田毅等[4]基于模糊神經網絡模型對典型行駛工況進行識別,結合模糊控制策略和遺傳算法改善了混合動力汽車的燃油經濟性和排放性。羅婷等[5]分別采用模糊C均值聚類、概率神經網絡、LVQ神經網絡和BP神經網絡的工況識別方法進行了典型行駛工況分類,為能量管理策略提供了基礎。Langari等[6]在設計混動汽車能源管理系統時,植入了基于LVQ神經網絡模型的駕駛工況在線識別算法。以上研究均采用人工智能算法進行典型行駛工況識別,助力新能源汽車能量管理,實現整車能量優化,對于商用車耐久性規范開發時的典型行駛工況識別,鮮有文獻報道。此外文獻報道的智能算法主要以速度和加速度作為輸出,進行模型的訓練,但在實際情況中,典型行駛工況除與速度相關外,還與用戶的駕駛習慣密切相關,在進行模型訓練時需要考慮,以提高模型訓練的精度[7]。
針對商用車耐久性規范開發或修訂的問題,提出基于主成分分析-學習向量量化(PCA-LVQ)神經網絡的典型工況識別算法。基于用戶車聯網數據,首先對速度、剎車頻次、駕駛時間等多維度特征參數進行主成分分析(PCA),實現輸入信息降維處理,避免冗余信息帶來的識別誤差。其次將降維后的信息輸入到LVQ神經網絡模型中進行訓練,并將模型用于用戶典型駕駛工況的識別,分別對模型識別的影響因素進行了研究。結果表明:基于PCA-LVQ神經網絡的典型駕駛工況識別方法能夠有效地進行工況識別,工況識別的精度與運動學片段長度相關,還受訓練樣本量和識別量的影響,但不受工況順序影響。
通過用戶的駕駛數據,可反映典型駕駛工況的類型,但需要經過預處理后才能用于典型駕駛工況的識別,見圖1。用戶實車采集的數據記為Xi(tj),其中i=1,2,…,N為采集通道的數量,j表示單個通道采集數據的總量。

圖1 典型駕駛工況識別的用戶數據預處理示意圖
由于實車數據采集通道較多,并且通道之間存在相關性,為了能夠準確地提取工況信息,首先采用PCA法,對多維通道數據進行降維處理,再將降維后的數據按照等距離原則,將通道數據分塊為M個塊工況,計算每個通道下塊工況的特征參數。以特征參數作為訓練參數,構建PCA-LVQ典型駕駛工況識別模型,用于工況識別。
PCA基本思想是使用正交變換將一組可能相關的變量轉換為一組線性不相關的獨立變量。通過正交變換,采用較少的獨立變量指標來最大程度地反映原多個指標才能表達的信息,實現數據壓縮的目的。其基本步驟如下:
1) 對輸入矩陣進行標準化,使其均值為0,標準差為1,得到標準化矩陣。
2) 計算標準化矩陣的相關系數矩陣。
3) 計算相關系數矩陣的特征值,將矩陣的特征值按降序排列,并求出每個特征值對應的特征向量。
4) 計算主成分貢獻率和累計貢獻率。其中第一個主成分的貢獻率最大,表明第一主成分的獨立性最強,綜合表達原始變量的能力最好。
為了能夠更好地識別典型駕駛工況,取累積貢獻率達到90%以上的特征值,從而識別出眾多變量中的主成分。
對于復雜非線性問題的分類識別問題,LVQ神經網絡表現出優異而準確的模式識別性能,因而得到廣泛應用。算法通過尋找輸入與輸出數據之間的某種密切關系,實現特征提取和統計分類,見圖2。

圖2 LVQ網絡結構
LVQ主要由輸入層、競爭層和輸出層3層神經元組成。輸入層將信息依次完全傳遞到競爭層,而競爭層部分傳遞到輸出層。競爭層將對輸入信息進行分類,輸出層將競爭層傳遞過來的分類信息轉換為用戶所定義的期望類別。
LVQ神經網絡是一種結合了競爭學習規則和有教師學習規則的算法,其對網絡的訓練需要一組有教師信號的樣本。利用訓練樣本集對網絡進行訓練,訓練完畢后再進行模式的識別。當某個有待識別的模式輸入到網絡時,與輸入模式距離最近的競爭層神經元將被激活,競爭神經元狀態為1,而其他神經元的連接權值均為0。被激活的競爭神經元將會使輸出層神經元的權值為1,而其他未被激活的競爭神經元將會使輸出層神經元的權值為0[8-9]。
商用車車聯網數據量豐富,通過PCA算法將豐富的數據信息進行降維處理,提取典型駕駛工況識別的主要通道信息,并輸入到LVQ中進行典型駕駛工況模式識別,算法的主要步驟如下:

2) 將每個通道的特征參數組成矩陣形式,并作為算法輸入。輸入數據維度為i×k的矩陣,表示為X=(xnp)i×k(n=1,2,…,i;p=1,2,…,k),其中i為通道數量,k為變量指標的數量。
3) 對輸入矩陣X=(xnp)i×k進行標準化,使其均值為0,標準差為1,得到標準化矩陣Y=(ynp)i×k,標準化矩陣中的每個元素為:
ynp=(xnp-minxp)/(maxxp-minxp)
(1)
4) 標準化矩陣Yi×k的相關系數矩陣R的求解。相關系數矩陣的每個元素rnp的值為:
(2)
5) 相關系數矩陣R的特征值求解。將矩陣R的特征值λ按降序排列,并求出每個特征值對應的特征向量。
6) 計算輸入矩陣主成分貢獻率和累計貢獻率:

(3)
其中有q個主成分,則累計貢獻率可表達為:
(4)
取累積貢獻率達到90%以上的特征值,采用λm(m≤i)表示對應的m個主成分對應的特征值,從而將眾多變量中的主成分識別出來。
7) 將PCA后的矩陣X=(x1p,x2p,…,xqp)作為LVQ的輸入層數據。并初始化輸入層與競爭層之間的權值ωab(其中下表a表示輸入層的編號,b表示競爭層的編號),給定訓練時的初始學習率η0(η0>0)和訓練的目標次數t′。
8) 計算競爭層神經元與輸入向量的距離:
(5)
9) 選擇與輸入向量距離最小的競爭層神經元。若‖ndist‖c最小,記與之連接的線性輸出神經元的類標簽為dc。
10) 記訓練樣本對應的類標簽為de,若dc=de,則用如下方法調整權值:
ωab_new=ωab_old+η(x-ωab_old)
(6)
否則,按如下方式進行權值更新:
ωab_new=ωab_old-η(x-ωab_old)
(7)
11) 更新網絡學習速率:
(8)
12) 當滿足t 13) 經過以上訓練得到PCA-LVQ工況識別模型。將待識別的工況數據按照訓練時的格式進行輸入,進行工況識別。 14) 由于工況識別受樣本量等因素的影響,PCA-LVQ模型需根據實際情況進行算法修正。 以商用物流車為研究對象進行用戶典型駕駛工況的識別。商用物流車用戶駕駛,其中高速、國道2種典型工況占目標里程95%以上,是影響整車耐久性的關鍵因素。用戶目標里程下高速、國道工況的占比輸入,將對整車耐久性規范開發精度產生重要影響。 基于商用車車聯網大數據平臺,隨機抽取某一定時間段內某用戶的駕駛數據。這些數據包含:駕駛累計總里程、剎車信號、踏板信號、整車速度、油耗等27個信號數據,以及由GPS傳感器同步輸出的經、緯度和海拔等信號數據。 用戶駕駛路線起點為河南省新鄉市,沿G4高速經湖北、湖南到達廣州,從廣州出發經貴州到達四川成都,在成都沿318國道和京藏高速到達拉薩市,全程8 636 km。以其中200 km的高速工況駕駛數據為例,整車速度、油門和剎車踏板信號隨里程的變化見圖3。 圖3 整車速度、油門和剎車踏板信號隨里程的變化 圖3中整車速度為0~100 km/h變化的信號,相應油門踏板信號在0~100%變化,剎車踏板為0、1信號。基于整車速度信號,還可計算其加減速信息,以及在每個運動片段內的最大/最小速度信息。 2.2.1用戶數據的PCA 以實車采集高速和國道工況下的信號,作為神經網絡工況識別模型的訓練樣本,其中高速工況下里程為1 380 km,國道工況下里程為745 km。 文獻多數選擇平均速度、最大速度/加速度/減速度、勻速/加速/減速時間比等與速度相關的參數維度作為訓練參數[10]。對于訓練參數的維度,并非越多越好。訓練參數的維度越多越容易造成信息的冗余,導致所訓練的模型對某些維度參數出現識別誤差。 考慮到整車在不同典型駕駛工況下,相同駕駛里程內的駕駛時間、剎車頻次、油門踏板百分比、整車速度、油耗等均有所不同,這里不僅采用速度相關的參數(平均速度Vm、最大速度Vmax、最小速度Vmin、最大加速度Amax)進行訓練,還將采用剎車頻次Fb、油門踏板累計頻次Fp、相同距離內的駕駛時間t、發動機最大/最小轉速RPMmax/RPMmin、相同距離內的油耗E、以及整車z向加速度信號Az等作為訓練參數[11-12]。 基于PCA-LVQ典型駕駛工況識別模型,首先對以上11個維度的輸入信息進行降維處理。得到的主成分及貢獻率如表1所示。 表1 各主成分貢獻率及累計貢獻率 根據表1,前6個主成分特征值的貢獻率達到90%以上,能夠獨立地代表所輸入的11個維度的變量信息,因此選取前6個主成分進行分析。 此外,為了能夠判斷6個主成分所代表的維度信息,將6個主成分下每個維度的相關系數矩陣元素進行總結,如表2所示。 表2 主成分相關系數矩陣元素 根據表2相關系數的情況,可以判斷:第一主成分主要反映平均速度和最大速度;第二主成分主要反映剎車頻次;第三主成分主要反映相同距離內的駕駛時間;第四主成分主要反映整車z向加速度信息;第五主成分主要反映發動機最大轉速;第六主成分主要反映最大加速度。 根據主成分與特征參數的相關性可以判斷,能夠反映典型工況的主要維度包含:平均速度Vm、最大速度Vmax、最大加速度Amax、相同距離內的駕駛時間t、發動機最大轉速RPMmax、油門踏板累計頻次Fp、以及整車z向加速度信號Az。 2.2.2典型工況識別 設置LVQ神經網絡工況識別模型的學習率為0.02,系統誤差閾值為0.01。按照1.3節的樣本學習算法對典型工況識別模型進行訓練,當工況識別模型的系統誤差下降到0.01以下,認為完成識別工況模型的訓練,可以運用到實際工況的識別中。 (9) 以實車采集高速工況下250 km和國道工況下170 km的數據作為工況識別對象,輸入到2.2節的PCA-LVQ工況識別模型中。定義工況識別的精度: (10) 其中:Ca(l)為第l個有待識別塊工況的實際對應的典型道路工況,Cr(l)為LVQ神經網絡工況識別模型所識別出的第l個塊工況對應的典型道路工況,L為塊工況的總數量。 2.3.1PCA-LVQ與LVQ工況識別結果對比 PCA-LVQ工況識別算法是在LVQ神經網絡工況識別的基礎上,為了避免由于信息冗余帶來的識別誤差,增加了PCA算法,對輸入信息實現降維處理。為了對比改進算法的優勢,利用相同的信息分別對PCA-LVQ與LVQ工況識別算法進行訓練,并利用相同的輸入信號進行典型工況的識別。 考慮到訓練的塊工況長度對識別結果的影響,分別采用不同長度的塊工況對PCA-LVQ和LVQ工況識別模型進行訓練。 根據圖4(a)和(b),可得到如下結論: 圖4 不同算法下工況識別結果隨塊工況長度變化情況 1) 基于PCA-LVQ模型得到的工況識別精度比LVQ模型顯著提高。主要在于PCA-LVQ通過降維,消除了工況識別輸入的冗余信息,使得工況的識別精度有所提高。 2) 塊工況長度對識別精度有顯著影響。隨著塊工況長度的增加,高速和國道工況下的識別精度均呈現先增高后減小的趨勢。說明在進行駕駛工況識別時,所劃分的運動學片段長度,對典型駕駛工況識別的精度有顯著影響。 3) 有一個最優的塊工況長度,使得識別精度最高。對比PCA-LVQ模型的識別結果,塊工況長度為5 km時高速工況識別精度最高,塊工況長度為6 km時國道工況識別精度最高,分別為97.96%和100.00%。 4) 與國道工況相比,高速工況識別精度更為穩定。與國道工況相比,高速工況的駕駛環境較好,其駕駛數據更為穩定,采用不同塊工況長度劃分后,識別得到的工況精度也更加穩定。國道工況由于駕駛環境較差,駕駛員操作頻繁,識別得到的工況精度有一定的浮動。 2.3.2PCA-LVQ誤識別分析 以塊工況長度5 km為例,基于PCA-LVQ工況識別算法得到的識別結果見圖5。其中高速工況用標簽“1”表示,國道工況用標簽“2”表示。 圖5 塊工況長度5 km的工況識別結果 根據圖5,序號為1~49的塊工況為高速工況,序號為50~83的塊工況為國道工況。在高速工況下,訓練的模型將1號塊工況誤識別為國道工況;在國道工況下,訓練的模型將68號塊工況誤識別為高速工況。 為了判斷工況誤識別的原因,繪制部分參數的分布,并判斷誤識別塊工況的相應參數(駕駛平均速度、剎車頻次、油門踏板百分比)在分布圖中的位置情況,將誤識別工況的相關參數在圖中標記,具體見圖6。 根據圖6可知,整體分布來看:高速工況的最高車速較大,最大加速度較小,油門踏板的平均行程較高;而國道工況最高車速較小,最大加速度較高,油門踏板的平均行程較低。 將誤識別工況標記在圖6中,其中紅色粗點為1號誤識別工況,黑色粗點為68號誤識別工況。圖6標記的誤識別工況表明:1號塊工況的最大速度偏低,最高加速度較大,油門踏板平均行程較小,這是該工況被誤識別的主要原因;而68號塊工況的最大速度雖較低,但最高加速度較小,油門踏板平均行程較高,導致該工況被誤識別為高速工況。 圖6 誤識別工況的參數標記 誤識別的核心原因在于:高速和國道工況各特征參數的分布有較多交叉區域,通過某個或某幾個特征參數較難實現工況的準確識別,但過多的特征參數信息輸入又將導致信息冗余,造成識別誤差。因此所提出的PCA法能夠有效解決以上問題。 2.3.3典型工況順序對工況識別精度的影響 由于商用物流車的實際運行工況中,高速與國道工況是交叉進行的,為了分析工況順序對識別精度的影響,將圖5所示的典型工況的順序進行調整,以驗證算法對工況順序的魯棒性。 將序號為50~83的國道工況前置,序號為1~49的高速工況后置,識別結果如圖7(a)所示;將國道工況和高速工況分段混合,識別結果如圖7(b)所示。 圖7 不同工況順序下的模型識別結果 根據圖7可知,基于PCA-LVQ模型的高速工況和國道工況的識別精度沒有發生變化,并且誤識別的工況與圖5所示工況保持相同。結果表明:2種工況相互混合交叉,基于PCA-LVQ典型駕駛工況識別模型的精度不變,不因順序的不同而發生變化。 2.3.4模型訓練樣本量對工況識別精度的影響 根據神經網絡模型訓練的性質可知,網絡訓練的樣本量越大,所得到的模型越精確,識別出的工況結果則越準確。以識別量與訓練樣本量之比為橫坐標,不同駕駛工況識別精度的變化情況見圖8。 圖8 不同駕駛工況識別精度的變化情況 根據圖8,2種典型工況下,隨著識別樣本量的增加,典型駕駛工況識別的精度呈現下降趨勢,在識別樣本量與訓練樣本量比值為1附近趨于平穩,保持在79%左右。主要原因在于:隨著識別樣本量的增加,識別的誤差逐漸累計,當識別樣本量與訓練樣本量比值大于1后,累計誤差趨于平穩。因此要求識別的效果越好,需要提供大量的訓練樣本量,但在實際工程中,訓練樣本量不可能無限大,反而是識別的樣本量要求較多。結果表明:在模型訓練樣本與典型工況識別樣本量相當時,典型工況的識別精度保持在79%左右,能夠有效地對典型工況進行識別。 1) 所提出的典型駕駛工況識別方法和流程,普適于各類車型耐久規范開發中的典型工況識別,但模型訓練的輸入信號等有所差異。 2) 基于PCA-LVQ典型駕駛工況識別模型,識別結果精度與用戶試車數據的塊工況劃分的長度相關。最優的塊工況長度為一個運動學片段的長度,具體需要根據實測數據進行分析判斷。 3) 典型駕駛工況識別精度還受訓練樣本量和識別量的影響,當識別樣本量與訓練樣本量相當后,累計誤差趨于平穩。可以對算法進行修正,將識別的正確工況作為訓練集輸入到模型中,可進一步提高算法精度。 4) 將不同工況相互混合交叉,基于PCA-LVQ典型駕駛工況識別模型的識別精度,以及誤識別的工況塊不變,可見模型不受工況順序影響。2 工況識別與驗證
2.1 數據采集與預處理

2.2 工況識別






2.3 識別結果與分析






3 結論