邵云飛,許 沖,胡惠晴
(1.上海理工大學機械工程學院;2.上海理工大學管理學院,上海 200093)
汽車行駛工況(Driving Cycle)通常用速度和時間序列表示,可以代表某一區域的行駛行為[1]。汽車行駛工況是量化汽車排放的重要指標,其主要目的是通過模擬真實的駕駛模式來評估汽車的污染排放和油耗。近幾十年來,汽車行駛工況一直被用來完成新車的排放認證程序。中國一直采用歐洲排放認證標準測試循環,《世界輕型車測試程序》(World Light Vehicle Test Procedure,WLTP)將取代《新歐洲駕駛循環》(New European Driving Cycle,NEDC)成為新型輕型車排放認證標準測試循環(圖1、圖2 分別展示了NEDC 行駛工況和WLTC 行駛工況)。然而,隨著中國汽車數量的快速增長,近年來中歐之間的駕駛狀況差異越來越大。駕駛周期能否充分反映汽車的真實駕駛情況,并提供更準確的估計,越來越受到關注。而且,我國幅員遼闊,各城市道路建設、人口密度及交通狀況各異,導致各城市的汽車行駛工況特征具有明顯差異。因此,基于城市自身的汽車行駛數據進行城市汽車行駛工況構建研究也越發迫切,希望所構建的汽車行駛工況與該市汽車的行駛情況盡量吻合,理想情況是完全代表該市汽車行駛情況(也可以理解為對實際行駛情況的濃縮)。目前,北京、西安、沈陽等都已經構建了各自城市的汽車行駛工況[2-4]。

Fig.1 Driving cycle of NEDC圖1 NEDC 行駛工況

Fig.2 Driving cycle of WLTC圖2 WLTC 行駛工況
汽車行駛工況構建本質上屬于模式識別在實際工程中的一種應用[5]。目前對于汽車能量管理控制策略的工況識別方法中,主流方法有神經網絡[6-7]、聚類分析[8-9]。文獻[10]采用神經網絡模型進行工況識別,但其特征提取不夠全面,模型訓練樣本較少,且泛化能力較差;文獻[11]采用聚類分析法構建了道路汽車行駛工況。文獻[12]利用聚類分析方法識別工況,然后基于馬爾可夫原理對不同工況進行拼接,構建出代表性工況;文獻[13]基于聚類分析法構建出行駛工況,并基于相關系數法對構建的行駛工況進行評價;文獻[14]采用聚類分析法構建汽車行駛工況,但未能給出合理的評價體系。
在上述研究背景下,本文根據某城市輕型汽車實際道路行駛采集的數據(采樣頻率1Hz),基于主成分分析和Kmeans 聚類方法構建汽車行駛工況曲線。首先,基于運動學片段原理對采集到的數據進行劃分;然后,選取運行時間、運行速度、平均加速度、怠速時間比、速度的標準偏差等可以描述和評價這些片段的特征參數并進行相應計算,利用主成分分析法對于選取的運動學片段的特征參數進行降維處理,減少計算量;然后將降維以后得到的4 個主成分作為研究變量,利用K-means 聚類對所有運動學片段進行分類,得到3 類代表不同汽車行駛特征的片段,最后提出了基于總體特征參數偏差最小的片段選取方法,對備選工況片段進行篩選,構建出汽車行駛工況圖。以原始數據和所構建的行駛工況的特征參數誤差作為汽車運動特征評估指標,用來評估所構建的汽車行駛工況的合理性。得到的誤差結果越小,說明最終構建出的汽車行駛工況的代表性越強。
主成分分析(Principal Component Analysis,PCA)[15]由Pearson 與1901 年第一次提出,用于數據分析及模型建立,它是一種基礎的、常用的分析方法。它基于降維理論,將原始的多變量指標經過線性變換,重新組建一組線性無關的綜合指標替代原始指標。
給定n個樣本,每個樣本中含有p個變量,構成一個n×p階數據矩陣:

其中,x1,…,xp為原變量指標,z1,…,zm為新變量指標,方程組中系數的確定需滿足以下原則:①zi,zj,(i≠j,i,j=1,2,…,m) 相互無關;②z1是x1,…,xp所有線性組合中方差最大的,z2是與z1無關的x1,…,xp的所有線性組合中方差最大的;zm是與z1,…,zm-1均不相關的x1,…,xp所有線性組合中方差最大的,則所組建的新指標z1,…,zm分別是原來變量指標x1,…,xp的第1,第2,…,第m主成分。
K-means 聚類是著名的劃分聚類算法,因簡潔和高效而得到了廣泛應用[16]。K-means 的基本思想是:在給定k值和k個初始聚類簇中心點的情況下,將每個樣本點分到離其最近的簇中,之后重新計算每一個簇的中心點(取其平均值),再迭代進行分配點和更新類簇中心點步驟,直至類簇中心點變化很小,或者達到指定的迭代次數。
K-means 聚類的具體計算步驟如下:
(1)首先確定一個k值,即原始數據集經過聚類后得到k個集合。
(2)從原始數據集之間隨機選擇k個數據點作為聚類中心。
(3)對數據集中的每一個點,計算其與每一個聚類中心的距離(如歐式距離),離哪個聚類中心近,就劃分到哪個聚類中心所屬的集合。
對于兩點之間的距離計算,有以下幾種方式:
歐式距離:

(4)將所有數據歸好集合后,一共有k個集合,然后重新計算每個集合的中心。
(5)如果新計算出來的聚類中心和原來聚類中心之間的距離小于某一個設置的閾值(表示重新計算的聚類中心的位置變化不大,趨于穩定,或者說收斂),可以認為聚類已經達到期望結果,算法終止。
(6)假如新的聚類中心和原來聚類中心距離變化很大,需要迭代步驟(3)—步驟(5)。
運動學片段指汽車從怠速狀態初始階段到下一個怠速狀態初始階段之間的行車速度區間,如圖3 所示。可以看出,一個相對完整的運動學片段應該包含怠速、加速、勻速和減速階段。其中,勻速階段不是必須階段,因為在一段實際的行駛過程中,可能沒有充足的勻速駕駛條件。

Fig.3 Kinematic segment definition圖3 運動學片段定義
本文以某城市的典型道路為對象,采集輕型汽車不同時間段內在實際道路上行駛的數據(包含3 個數據文件,每個數據文件為同一輛車在不同時間段內所采集的數據),采集的部分實驗數據所呈現的速度、加速度如圖4、圖5 所示。

Fig.4 Speed-time diagram of test data圖4 實驗數據呈現的速度—時間關系

Fig.5 Acceleration-time diagram of test data圖5 實驗數據所呈現的加速度—時間關系
一個有效的運動學片段應該包含4 個正常行駛狀態,即怠速狀態、加速狀態、勻速狀態和減速狀態,且一般不少于30s。汽車的速度—時間曲線通常情況下可以視為由若干個運動學片段組合而成,而汽車在不同交通狀況下、不同路線段、不同時間段都會得到不同的運動學片段。利用相應的聚類算法可以將反映相似交通特征的運動學片段進行歸類,以此形成幾類典型的片段庫,再從片段庫中挑選最優的片段構建代表性工況。
將試驗數據依據運動學片段原理進行劃分,得到若干運動學片段。在這些運動學片段中存在一些短時間片段和無效片段,如果不對這些異常片段進行處理,將會導致后續的特征值分析結果出現很大誤差,最終導致建立的汽車行駛工況缺乏有效性。因此,如果一個運動學片段的總時長小于30s,則將該片段剔除。
根據上述原則進行運動學片段的劃分和篩選后,所得運動學片段數目如表1 所示。部分運動學片段如圖6 所示。

Table 1 Number of kinematic segments表1 運動學片段劃分數目

Fig.6 Partial kinematic segment圖6 部分運動學片段
每一個運動學片段都包含了若干個速度—時間點,每個運動學片段也都有各自的運動學特征。工況構建是從每一類運動學片段庫中,按照特定的選取規則挑選出符合要求的候選片段,然后進行組合拼接形成最終工況。要描述和評價一個運動學片段,需要選取相應的運動學特征參數,這些運動學特征參數能夠盡可能全面地將運動學片段根據其運行狀態進行描述并形成基于運動學片段的數學模型。挑選適宜的運動學片段構建汽車行駛工況以及對所構建的代表性汽車行駛工況進行評價有其基本準則可行。為了便于運動學片段分類,本文將運行時間、運行速度、平均加速度、怠速時間比、速度的標準偏差等18 個運動學片段特征參數作為評價指標。表2 是本文選擇的運動學片段特征參數以及它們的符號表示。計算出汽車行駛數據處理后得到的2 400 個運動學片段中每個片段的特征參數值,得到的特征值矩陣如表3 所示。

Table 2 Characteristic parameters of kinematic segments表2 運動學片段的特征參數

Table 3 Kinematic segment eigenvalue matrix表3 運動學片段特征值矩陣
基于主成分分析原理,給出主成分分析對于數據的計算步驟,如下:
(1)首先對變量進行標準化處理,去除量綱影響,即:

其中,μ=E(xi),σi=Var(xi)。
(3)計算特征值和特征向量,利用|λI-R|=0 求解,并將得到的特征值按照其大小進行排列,然后分別求出它們對應的正交化特征向量ei,滿足‖ei‖=1。
(4)建立回歸方程計算貢獻率,當累積貢獻率達到一定百分比時,則認為這些主成分可以綜合表示所有指標所要表達的信息,從而達到降維目的。
貢獻率這一指標指第i個主成分的方差在全部成分方差中所占比重;累計貢獻率指前i個主成分的綜合能力,用描述。
(5)提取出主成分,計算每一個主成分的得分。
根據上述定義,經程序計算得到各主成分的特征參數值、貢獻率和累計貢獻率,如表4 所示。

Table 4 Principal component contribution rate and cumulative contribution rate表4 主成分貢獻率及累計貢獻率
由主成分分析法的原理可知,主成分特征值的大小表示該主成分反映原來特征參數能力的大小,特征值越大,表明該主成分能較大程度地替代原始變量。貢獻率代表一次性表示原來多個特征參數所反映信息量的能力,貢獻率越高,說明該主成分能反映特征參數的數目越多。在本文中,當累計貢獻率超過80% 時,即可認為這幾個主成分能夠完全反映原理所有的特征參數。從表4 可以看出,前4 個主成分的累計貢獻率已達到80%,因此將這4 個主成分當作運動學片段新的特征,能夠大大減少計算量。經主成分分析計算后還得到了一個主成分載荷矩陣,該矩陣中的每一列元素都是原來特征參數與該列所代表的主成分的相關程度,數越大代表該特征與主成分關系越緊,能很大程度地反映主成分的信息量。前4 個主成分的載荷矩陣(主成分系數矩陣)如表5 所示。

Table 5 Component load matrix表5 主成分載荷矩陣
從表5 可以看出,第1 個主成分主要反映了平均速度、平均行駛速度、怠速時間比、加速時間比、減速時間比、速度標準差、最大速度、勻速時間共8 個特征參數;第2 個主成分反映了平均加速度、平均減速度、加速度標準差、最大加速度、最大減速度共5 個特征參數;第3 個主成分反映了怠速時間比、加速時間比、減速時間比、片段總時間共4 個參數;第4 個主成分主要反映了平均減速度、最大加速度2 個特征參數。還可以得出,這4 個主成分能夠全部反映本文所列的運動學片段的所有特征參數,將主成分載荷系數矩陣與標準化后的樣本數據矩陣相乘即可得到運動學片段的主成分得分矩陣。在此,本文選取前4 個主成分的得分值作為K-means 聚類的研究變量。
利用K-means 聚類法對由主成分分析最終得到的4個主成分得分矩陣進行分類,2 400 個運動學片段被分為3類:第1 類有1 234 個片段,第2 類有980 個片段,第3 類有186 個片段。計算每一類總的特征參數,以便更好判斷處于該類情形下的汽車行駛狀態,如表6 所示。

Table 6 Comprehensive characteristic parameters of each class表6 各類綜合特征參數
每一個特征參數都或多或少可以反映該車運行狀態,在第1 類中,各特征參數大都處于比較中間的區間,可判斷該車處于相對中速情況中;在第2 類中,怠速時間比是3類中最大的,但平均速度最低,最大加速度和最小減速度也是這種情況,說明汽車一直進行加減速操作,可判斷該車處于頻繁堵車的實際路況中,是低速情況;在第3 類中,平均速度相對最高,且勻速行駛時間最長,說明道路比較暢通,汽車處于相對高速狀況。
通過以上簡單分析,可以大致了解到此輛汽車大多數情況下都處于較低速度狀態,通過主成分分析法得到的主成分可以使分類過程簡化、效率提高,分類效果也較理想。
將運動學片段分好類后,還要構建最終的行駛工況曲線,其目的是盡可能真實地反映汽車在不同情況下的行駛狀況。由于每一類片段包含了一種或幾種特征參數,若從每一類片段中挑選若干個片段,再組合起來,就能構建出符合要求的工況曲線,因此有必要選擇合理的片段挑選方法,這關系到所構建工況的準確程度。
常用的選取方法有隨機選擇法[17]、最佳增量法[18]、VA 矩陣法[19]、小波變換法[20]等,隨機法思路簡單,挑選的片段具有隨機性,組合后誤差難以保證;最佳增量法在進行比較時,步驟繁瑣,計算量較大;V-A 矩陣法通過聯合概率密度分布矩陣挑選相關性最大的片段;小波變換法使用場景受限,但處理效果好。每種方法都有其適用范圍和限制,本文采用基于總體特征參數偏差最小的片段選取方法,該方法科學合理,易于以程序實現。最終構建的汽車行駛工況如圖7 所示。

Fig.7 Curve of final driving cycle圖7 最終行駛工況曲線
工況組合后,要判斷所構建的汽車行駛工況是否合理,只需要將構造前的運動學片段總的特征參數與構造好的工況曲線的特征參數進行相應比較,并計算兩者之間的相對誤差,才能對構造的好壞有量值評價,構建前后各特征參數及誤差如表7 所示。
可以清楚看出,實驗數據和構建工況的特征參數之間差異很小,而且誤差都在8% 以內,說明構建的行駛工況比較合理,能夠較為全面地反映該城市實際道路行駛狀況。

Table 7 Characteristic parameter and error before and after construction表7 構建前后各特征參數及誤差
本文以所得輕型汽車實際道路行駛數據為例,將大量行駛工況的數據劃分為運動學片段,選出18 個特征參數進行研究。首先基于主成分分析法對運動學片段特征參數進行降維處理,然后利用K-means 聚類方法對其進行分類,最后基于總體特征參數偏差最小的片段選取方法,在構建出一條具有代表性的行駛工況曲線的同時,形成一個完善的汽車運動特征評價體系。
分析結果表明,本文利用城市汽車行駛數據進行行駛工況的構建研究,所使用的模型可靠便捷,所構建曲線與實際工況具有較高的吻合度,在保證計算準確度的同時具有一定科學價值,可為后續研究提供良好思路。