李春生,余 虎
(東北石油大學 計算機與信息技術學院,黑龍江 大慶 163318)
汽車行駛工況的構建對汽車的研發具有重要的作用,不僅是汽車測試汽車能耗排放的方法,也是汽車行業的重要技術。其構建過程呈現出行駛的運動學特征,并且是汽車各種性能指標優化的重要基準[1-2]。當今許多汽車行業發展迅速的國家,設計出符合國情的汽車行駛工況,并已完善使用,如Nyberg等[3]將驅動循環等效公式算法應用在汽車行駛工況的構建中,把行駛循環轉化為等價循環;Nguyen等[4]提出了基于馬爾可夫鏈理論的行駛循環構建過程;Fotouhi等[5]、John Brady等[6]均采用K均值聚類算法進行汽車行駛工況的研究。
目前,國內相關學者在汽車行駛工況構建的研究中,依據ECE工況[7-9],完善符合國內汽車行駛工況的構建方式。為了更好地反映國內汽車和路況的運行特點,王國林等[10]提出基于短行程法的行駛工況構建;秦大同等[11]和彭育輝等[12]使用K均值聚類算法進行城市循環工況構建;董恩波等[13]將自組織特征映射神經網絡算法與K均值聚類算法相結合構建車輛行駛工況,但聚類中最優K值如何選擇尚未確定;高建平等[14]在汽車行駛工況的構建中使用全局K均值聚類算法進行改進,但處理樣本數據的時間較長。
針對以上分析,該文提出改進的K均值聚類算法,降低算法迭代次數,減少聚類運行消耗的時間。再以CH指標數作為最優聚類數的選擇標準,并依據聚類后的結果構建汽車行駛工況,通過比較實際數據,檢驗該方法的有效性和準確性。
以某城市汽車行駛的實際數據為例,采集真實數據(采樣頻率1 Hz),采集的樣本數據集通常存在一些因外界引起的異常數據,異常數據會對實驗結果的準確性造成影響,因此需要對異常數據進行合理的分析處理。根據樣本數據的采集方式、采集環境等可能引起數據異常的原因,總結出以下5種異常數據類型:
(1)時間異常。
當汽車行駛通過隧道或者較高建筑物時,可能導致GPS信號異常,傳輸的時間數據存在不連續。通過編寫程序將時間不連續的數據點進行缺失值標注,將其篩選出來,采用平均值法對其進行數據修補。
(2)加、減速度異常。
加、減速度異常指的是速度瞬間過大產生的數據,因為在正常行駛過程中,汽車出現突然加速度變大的概率較小,所以對于這樣的異常數據可以采用線性插值法來平滑處理。
(3)長期停車異常(長時間怠速異常)。
停車異常的現象是在停車熄火和不熄火時,設備采集器仍然運行的現象,數據出現長時間的怠速段,這種狀況下造成采集數據異常。對于這樣長時間的怠速段數據,為了避免誤差,采用刪除的方法來減少此數據對實驗的影響。
(4)堵車及低速過長異常。
汽車長時間保持在10 km/h以下,以及汽車在長時間堵車的狀態下,設備繼續采集數據,這樣的異常通常可按怠速情況處理。
(5)怠速時間超過180秒異常。
通常來說怠速時間超過180秒為異常情況,并且怠速的最長時間段可按照180秒處理。
針對以上數據誤差分析,根據異常數據的種類不同采用不同的處理方式,處理完成后使用T4253H濾波算法[15]進行數據處理。T4253H濾波器不僅在處理非線性數據時,能夠更好地發揮其性能,而且在解決非高斯干擾產生的問題中,能夠更好地抵制干擾。他是一種非線性的濾波器,其特點是吉布斯反彈與低通轉移,具體公式如下所示:
依據公式(1)~公式(4)將數據序列分別進行2、4、5、3的中心移動處理,其中median(X)表示中位數函數,其中X在公式中不僅是原始數據序列,也是一個向量。當median(X)選取X值為中間值,此時向量的維數是奇數;當median(X)選取X中間兩個數的均值,此時向量的維數是偶數,Z表示在數據處理的過程中,獲得的中間變量序列。
(1)
式中,j=2,3,…,n-2
(2)
式中,j=2,3,…,n-1
(3)
式中,j=3,4,…,n-2
(4)
式中,j=2,3,…,n-1
再以Hanning為權重,經過移動平均處理計算,其中計算公式如下:
(5)
式中,j=2,3,…,n-1
(6)
式中,j=1,2,…,n。
(7)
式中,j=1,2,…,n。
通過T4253H濾波算法處理后,對原始數據中變化幅度較大的數據、加減速異常等行駛數據進行了處理和刪除,最后將原始數據中加速度的范圍設定在-4 m/s2和4 m/s2之間,正常行駛中多數汽車達到這種加速度的幾率很小,這里視為無效值。因此,需要結合道路狀況與汽車的行駛狀況,把超出這種加速度的數據進行刪除,減少汽車行駛工況的構建對其產生影響。
對于汽車行駛工況的構建,需要根據汽車實際行駛狀況選擇合適的運動學片段,通過選取合理的特征參數對運動學片段進行評價和歸納。通過研究分析運動學片段,該文對特征參數的選取包括兩個方面,一方面是對運動學片段進行分類,另一方面是判斷運動學片段的有效性。準確地選取特征參數,不僅能夠保障構建過程中的準確性,而且能夠降低數據運算帶來的誤差,提高分析數據的能力。
不同的特征參數對汽車行駛狀況的描述不同,并且由于實際情況,導致在汽車行駛狀況的構建過程中,特征參數的選擇數量也不同。因此,該文通過研究國內外現狀,總結特征參數選取情況,針對實際情況選擇特征參數,總共選取11個特征參數,具體包含:運行時間T、平均速度Vm、最大速度Vmax、最大加速度amax、最小減速度amin、加速段平均加速度aam、減速段平均減速度adm、怠速比例Pi、加速比例Pa、減速比例Pd、勻速比例Pc。通過這11個特征參數來描述運動學片段的基本信息。
依據上述選取的特征參數進行計算,將特征參數公式依次在Matlab軟件中編寫運算,計算運動學片段的特征參數,具體計算結果如表1所示。

表1 運動學片段特征參數
較多的特征參數會影響分析問題的復雜程度,為了更多地反映原始數據的信息,對選取的特征參數進行進一步的分析。
通過文獻學習,在原始數據降維這一方面選擇主成分分析法,該方法在降低問題的復雜程度的同時提高準確性,通過分析刪除重復的變量,重新建立新的變量,保證這些變量之間的關系不相關[16]。在數學領域中,主成分分析法的原理是對數據進行降維處理,通過降維減少原始變量的數量,用新的變量對信息進行描述[17]。汽車行駛狀況涉及的數據具有相互的聯系,通過選取過多的特征參數進行計算過于繁瑣,并且各個變量攜帶的信息是冗余的。
因此,原始數據首先利用主成分分析法進行降維處理[18],然后再利用pcacov函數分析數據的主成分,最終得出11個主成分,通過主成分與特征值、貢獻率和累計貢獻率之間的關系進行比較,選擇最佳的主成分,具體內容如表2所示。

表2 主成分貢獻率和積累貢獻
依據文獻[19],為了降低丟失信息對汽車行駛工況構建的影響,以累計貢獻率在85%以上,并且貢獻率在1以上為選擇標準,依據此標準選擇主成分結果,能夠更好地反映原始數據的信息。從表2得出,表中滿足選擇標準的主成分結果共有四個主成分。因此,可以獲得四個主成分與原始特征參數的主成分載荷矩陣。最終,通過將特征參數矩陣和主成分載荷矩陣相乘,得出關于短行程的主成分得分矩陣,通過對短行程片段進行分析,獲得汽車行駛狀況的描述信息。因傳統K均值聚類算法在聚類過程中收斂速度較慢,并且過于復雜,該文采用改進K均值聚類算法,并且對短行程主成分得分矩陣進行聚類分析。
改進的K均值聚類算法是在傳統K均值聚類算法迭代的基礎上,應用層次結構的思想,通過數據分層次聚類分析。在迭代過程中通過判斷當前聚類結果是否合適,再決定是否繼續進行聚類分析。依據該方法能夠自適應地獲得最佳的聚類數,減少因經驗選擇k值產生的影響,改進算法流程如下所示:
步驟1:選定初始聚類個數k,數據集χ,其中χi={χ1,χ2,…,χn}(i=1,2,…,n),隨機選擇k個初始化聚類中心進行一次迭代。
步驟2:采用平方歐氏距離,通過計算原始數據與各個類之間的距離,在聚類后,根據該距離計算聚類測度值J。
步驟3:在每次迭代之后,聚類中心在全部簇中找出最大半徑的簇,并且在此簇中選取距離較遠的點當作新的聚類中心。
步驟4:將步驟3獲得的新的聚類中心,與其他的聚類中心重新進行迭代計算,并且計算聚類測度值之比,具體公式如下所示:
(8)
其中,t為迭代次數。
步驟 5:判斷ε是否大于Δ值,如果大于,則返回步驟3繼續執行;否則輸出聚類結果。
對3 124個短行程分別采用傳統K均值聚類算法、全局K均值聚類算法和改進K均值聚類算法進行實驗分析,算法的性能分析如圖1和圖2所示。
從圖1和圖2可以得出,改進K均值聚類算法在運行時間和迭代次數方面都優于傳統K均值聚類算法和全局均值聚類算法,通過改進K均值聚類算法,降低計算復雜度,減少運算時間,提高聚類性能。因此采用改進K均值聚類算法進行聚類分析,但需要選取聚類數有效指標,判定聚類前的K值最優。對聚類數的有效性進行驗證,該文從指標DI、CH、Wint等進行選擇,通過分析評價結果的穩定性,選擇CH為評價指標。CH值越大,類本身就越緊密,與其他類關系就越分散。選擇最大的CH值,其對應類數為最優,通過Matlab編程進行指標計算,具體分析結果如圖3所示。
從圖3得出,當聚類數為3時,CH評價指標最大,此時聚類數也是最佳聚類數。并且當聚類數為3時,改進K均值聚類算法的迭代次數和運行時間最少,所以將短行程分為3類最為合理。3類短行程反映了不同的道路交通狀況,因此經過聚類,3 124個短行程被分為3類。
通過聚類分析后短行程速度界限較為明顯,其中三類短行程被分為以下三種,第一種為低速行駛工況,其速度范圍在[0,35]內;第二種為中速行駛工況,其速度范圍在[35,70]內;第三種為高速行駛工況,其速度范圍在[70,120]內。通過計算部分特征參數,分析其與短行程的關系,具體內容如表3所示。

表3 三類短行程部分特征參數
通過計算特征參數與三類短行程的結果進行分析,總結出以下內容:
(1)第一類短行程中怠速狀態占全部數據的比例較高,平均速度最低,而且勻速狀態比例最少。因此,第一類短行程反映出汽車在行駛過程中道路狀況較為擁堵的情形。
(2)第二類短行程中怠速狀態比較低,平均速度處于33.45 km/h,而且加速與減速狀態的比例相差較小。因此,第二類短行程反映出汽車在行駛過程中道路狀況比較暢通,反映了道路的綜合交通情況。
(3)第三類短行程中怠速狀態最低,加速、減速和勻速狀態的比例都比較高,反映出汽車在道路行駛過程中為高速行駛。
通過改進的K均值聚類算法計算,對結果進行分析,把三類運動學片段庫分成低速區、中速區和高速區,在此基礎上,從每一類運動學片段庫中選擇運動學片段,構建車輛行駛工況。
通過計算各個運動學片段與聚心之間的歐氏距離,根據其值大小進行分類。并且在整體運動學片段庫中計算每一類運動學片段庫所占的比例值。最后依據汽車行駛工況的時間,按照公式(9)進行計算,獲得每類運動學片段的工況時間。
(9)
式中,ti為第i類工況在構建的車輛行駛工況中的持續時間,Ti為第i類工況中運動學片段總的持續時間,TS為全部運動學片段持續時間,tc為構建汽車的行駛工況持續時間。
在最終構建工況時,通過計算得到最終的三類運動學片段的時間占比和各自所占的時長。其中第一類時長為405 s,時間占比為34.8%;第二類時長為590 s,時間占比為50.4%;第三類時長為205 s,時間占比為14.8%。
根據三類工況的計算結果,首先選擇聚類中心,選擇方法是通過挑選每類運動學片段庫中最具有代表性的運動學片段。其次,以運動學片段和聚類中心距離最短為原則,挑選運動學片段。最后,將挑選出來的運動學片段以低速工況、中速工況和高速工況進行合成,汽車行駛工況合成之后,能夠有效地描述道路的擁堵狀況。
總的汽車持續時間為1 200 s,因此將合成的低速工況、高速工況和中速工況進行連接,也就是汽車在道路行駛的總工況信息,圖4為最后構建的汽車行駛工況。可以看出低速工況反映出道路較為擁堵;中速工況表示道路的綜合情況,速度有高有低;高速工況表示道路十分暢通。
針對該文研究的方法進行檢驗,驗證所構建的汽車行駛工況的可行性,判斷其構建方法的合理性。將汽車合成工況數據與原始數據的特征參數統計結果進行對比[20],通過相對誤差驗證其有效性,結果如表4所示。

表4 結果對比
通過對比結果可以得出,該文提出的改進K均值聚類算法提高了算法的準確性,減少了因聚類中心選擇錯誤帶來的誤差。特征參數中平均速度的相對誤差基本都控制在0.36%以內,平均誤差為4.071%。最大誤差為7.4%。所以,從統計結果看,利用該方法進行汽車行駛工況的構建能夠滿足需求,準確地反映樣本總體的特征。
使用某市輕型汽車實際行駛數據,采用T4253H濾波器對原始數據進行處理,并結合主成分分析法和改進K均值聚類算法進行汽車行駛工況的構建。研究結果顯示,經過改進K均值聚類算法,使得數據在聚類過程中的運行時間和迭代次數得到提高,同時,聚類分析的實效性也比較強。
仿真實驗結果對比表明,所構建的汽車行駛工況中特征參數的相對誤差均小于7.4%,所提方法能夠構建與真實工況更加接近的典型行駛工況,表明所構建的工況是可行的。