李經緯 趙治國 沈沛鴻 郭秋伊
(同濟大學新能源汽車工程中心,上海201804)
主題詞:駕駛員 駕駛風格K-means聚類 識別HEV
駕駛風格(Driving Style)用來表征駕駛員在實車運行環境中對車輛操作的行為特征,通過對駕駛員操作習慣和汽車行駛數據的分析,動態識別出駕駛員的駕駛風格,并對控制參數進行自適應調節,對于改善車輛的燃油經濟性有重要意義[1]。
國內外學者對于駕駛風格的識別進行了相關研究,如,Constantinescu等[2]應用主成分分析和分層聚類分析方法對駕駛風格進行分類和識別;Aljaafreh等[3]設計了模糊推理系統,將在一定長度時間窗中的車輛縱向加速度和橫向加速度的歐式范數以及平均車速作為輸入,實現了駕駛風格識別;Nadezda等[4]利用K最近鄰算法、神經網絡、決策樹、隨機森林等方法對駕駛員風格進行了識別,并對各種識別方法準確度進行了比較;Meiring等[5]對在駕駛風格識別中用到的人工智能算法進行了總結,指出模糊邏輯推理系統、隱馬爾可夫模型和支持向量機在駕駛風格識別方面有更好的應用前景。
上述研究大多只針對單一車型,并沒有對駕駛風格識別方法在不同車型上的通用性與適應性進行研究。為此,本文設計了基于K-means的駕駛風格識別方法,并采集了商用車與乘用車行駛數據,驗證了所提出的方法對于不同車型識別的有效性。
為研究基于K-means聚類的駕駛風格識別方法對于不同車型的有效性,采集了不同駕駛員所駕駛的商用車和乘用車的行駛數據。
商用車選擇了上海市浦東993路混合動力公交車,該車從東昌路渡口站出發,經過58站到達德翔路新德西路終點站,全程38 km,包含城市公路及內、外環城市快速路等多種復雜路況。乘用車選擇了重慶市某混合動力(HEV)車型,在市區、郊區、高速、擁堵、通暢等不同路況下,分別由不同駕駛風格的3位專業駕駛員操控汽車完成試驗。采集的部分原始數據如圖1所示。

圖1 采集的部分原始數據
由圖1可看出,原始車速、加速踏板開度和制動踏板開度波動頻率較大,數據包含高頻噪聲,同時個別點加速度值超過了汽車的合理加速度范圍,這些點是異常點。為此,通過離群點檢測[6]進行數據清洗,使用滑動均值濾波法[7]濾除原始數據中的噪聲,數據預處理前、后的車速和加速踏板數據如圖2所示。由圖2可看出,預處理后的曲線沒有異常點,可用于進一步的分析。
在進行駕駛風格識別前,需要構建駕駛風格特征參數,用以對各識別片段的駕駛風格進行描述。構建的駕駛風格特征參數通常是一些與行駛信息有關的統計量,數目較多且彼此間存在相關性,需要使用主成分分析方法對其進行降維處理。

圖2 車速與加速踏板開度濾波前、后對比
采集得到的數據均為連續數據,為獲得更好的聚類效果,需要對原始數據進行特征參數構建。構建的特征參數不能太少或太多,為此,綜合相關文獻[1,2,8]選取了10個具有代表性的特征參數,見表1。

表1 特征參數
在計算特征參數時,需要確定駕駛風格識別周期的長度[9]。根據經驗[8,9],設定駕駛風格識別周期為 8 s,并對原始數據進行識別片段的劃分,其中每個識別片段長度等于駕駛風格識別周期長度。
主成分分析是統計學中常用的降維方法,它通過構造原變量的線性組合,將原來眾多具有相關性的變量化為少數幾個相互獨立的綜合變量,同時盡可能多地保留原數據的信息[10]。在主成分求解之前,為消除量綱的差異,必須對其進行標準化處理,將每個特征參數對應的數據都變成均值為0、方差為1的高斯分布。
定義識別片段矩陣為:

將識別片段的特征參數矩陣標準化后得到標準矩陣:


式中,i為標準矩陣(特征參數矩陣)的行下標;j為標準矩陣的列下標;p為行數,代表特征參數的數目,為10;n為列數,代表按駕駛風格識別周期劃分的片段數;E為期望運算符;D為方差運算符。
對特征參數進行主成分分析,首先建立標準矩陣Y的系數矩陣:


表2 兩種車型統計值主成分分析結果
K-means聚類算法采用距離作為相似性的評價指標,從初始聚類中心開始交替進行分配步和更新步直至聚類完成。在分配步中,將每一個觀測量分配到對應的類簇,使得所有的觀測點到其對應聚類中心的歐氏距離之和最短;在更新步中,用分配步得到的結果計算新的聚類中心,當聚類中心收斂時聚類結束[11]。K-means聚類方法對駕駛風格識別流程如圖3所示。
在進行駕駛風格識別前需要對駕駛風格進行分類。因駕駛風格是駕駛員在實車運行環境中對車輛操作的行為特征[1],其分類數目與車型無關,因此利用K-means聚類方法對重慶市某HEV乘用車試驗數據進行聚類分析,并確定合理的分類數目。為確定駕駛風格類型,將樣本數據分別聚成2類、3類和4類,不同聚類數目的駕駛風格識別結果如圖4所示。

圖3 K-means聚類方法對駕駛風格識別流程

圖4 不同聚類數目的駕駛風格識別結果
由圖4可看出,隨著聚類數目的增加,不斷有新的類簇從舊的類簇中產生,同時原有類簇之間的界限也發生了變化。對各類簇所對應樣本的變化進行了統計,結果如表3所列。

表3 樣本數目隨聚類數目的變化
當聚類數目為2時,兩類簇樣本數目差別巨大,第2類簇內的樣本數目達到總樣本數目的65.47%,比例超過了50%。這是因為所選的聚類數目偏少,分類不充分導致的欠分類問題;聚類數目為3時,各類簇樣本數目的差距開始變小;聚類數目為4時,各類簇樣本數目的差距繼續變小,但第2類簇內樣本數目占總樣本數目的比例已不足15%,這是由于聚類數目過多帶來的過分類問題。
為了研究駕駛風格分類中的欠分類與過分類問題,對隨著聚類數目的變化各類簇間樣本數目的轉移進行了統計,如表4和表5所示。

表4 聚類數目從2變化到3時樣本在類簇間的轉移結果
由表4可知,當聚類數目從2變為3時,第1類簇的樣本數目略微下降,有少量屬于第1類簇的樣本被分到了第3類簇,同時第1類簇與第2類簇間的界限幾乎沒有變化,第2類簇內超過60%的樣本被分到了新出現的第3類簇中,占第3類簇總樣本數的96%。因此聚類數目為2時無法充分分類,存在欠分類。

表5 聚類數目從3變化到4時樣本在類簇間的轉移結果
由表5可知,當聚類數目從3變到4時,原第1類簇、第2類簇和第3類簇包含的樣本數均有大幅下降。其中第1類簇損失的樣本全部流向了第4類簇;第2類簇的損失樣本主要流向第4類簇;第3類簇損失的樣本也主要流向了第4類簇。因此第4類簇的產生與第3類簇的產生有本質的不同,是明顯的過分類,其樣本來源于前面所有的類簇,且較大地改變了第2類簇與第3類簇間的界限。
綜上所述,駕駛風格分為3類具有較好的分類效果,且各類簇具有合理的樣本數與清晰的界限。
利用K-means聚類算法將駕駛風格分為3類,則993路公交車的駕駛風格識別結果如圖5所示,重慶市某HEV的駕駛風格識別結果如圖6所示。

圖5 993路公交車的駕駛風格識別結果

圖6 重慶市某HEV的駕駛風格識別結果
由圖可看出,兩種車型的行駛數據被清晰地分為3類,這表明對于不同車型的行駛數據,K-means聚類方法都可以實現駕駛風格的有效識別。
前述分析中將駕駛風格分為了3類,但沒有將駕駛風格識別結果與人們對駕駛風格的定性認知結合起來。根據相關文獻[1,2,4,5,8],按照駕駛員駕駛車輛激進程度的從弱到強將駕駛風格定性分為冷靜型、普通型和激進型3種。經計算,兩種車型對應3種駕駛風格的駕駛特征參數均值如表6所列。
由表6可知,對于商用車,在3種駕駛風格中,從冷靜型到激進型,加速度均值、加速度標準差、沖擊度均值、沖擊度標準差都是從小到大,這與越激進的駕駛風格越傾向于急加速和急減速的定義一致。因此用KMeans聚類對商用車駕駛風格進行識別是合理的。對于乘用車,加速度與沖擊度的相關參數是3種駕駛風格的重要特征,它們數值越大表征駕駛風格越趨向激進型,這與993路公交車數據得到的結論一致,因此基于K-means的駕駛風格識別方法對乘用車同樣有效。

表6 兩種車型對應3種駕駛風格的駕駛特征參數均值
為研究駕駛風格識別方法,采集了上海市浦東993路公交車和重慶市某HEV實際運行數據,參考已有研究構建了10個特征參數并確定駕駛風格識別周期為8 s。綜合使用主成分分析和K-means聚類方法對駕駛風格進行了識別,結果表明,將駕駛風格分為3類具有較好的聚類效果,且基于K-means的駕駛風格識別方法對乘用車和商用車均具有較好的識別效果,也進一步表明了該方法的通用性和有效性。