宋函錕
基于NGSIM數據庫的駕駛風格聚類研究
宋函錕
(長安大學 汽車學院,陜西 西安 710064)
駕駛風格用于表征駕駛人的行為特性,對發展自動駕駛技術、制定個性化的駕駛策略具有重要價值。文章基于美國NGSIM數據庫中的車輛行駛狀態數據,選取橫向速度絕對值均值、橫向速度絕對值標準差、縱向速度絕對值的標準差等九個統計量作為特征變量,利用主成分分析降維算法及K-means聚類算法對行駛數據進行駕駛風格分類研究。將駕駛風格分為保守型、一般型及激進型三個類別,數據分析表明,保守型駕駛人的橫向速度均值、縱向加速度均值、橫縱向沖擊度均值等統計量均為三種類型中的最小值,而激進型駕駛人的對應統計量為三者中的最大值,一般型駕駛人居中,驗證了本次聚類結果的合理性。
數據處理;特征選擇;駕駛風格聚類;NGSIM數據庫
駕駛風格用來表征駕駛人在車輛運行過程中對車輛的操作行為特征。不同駕駛風格的駕駛人在相同的道路環境下具有不同的行為特性,通過對駕駛人駕駛風格的分析,有助于分析駕駛人的行為,進一步開發自動駕駛技術。目前國內外針對駕駛員風格分析的方法主要有[1]基于問卷調查的駕駛員風格分析方法和基于駕駛行為特征的駕駛員風格分析方法。基于問卷調查的方法具有一定的主觀性,可能對駕駛風格的識別分析產生較大影響;基于駕駛行為特征的方法通常采用數據分析技術和機器學習算法,且數據采集來源于真實交通場景,對駕駛風格的識別研究具有較高的可靠性。
本文提出了一種基于車輛狀態數據的駕駛風格分類及識別方法,通過對NGSIM(Next Genera- tion Simulation)數據集中車輛行駛數據的分析,實現了不同駕駛人駕駛風格的分類與識別,對自動駕駛技術的研究具有一定的參考價值。
本文選用的駕駛數據來源為美國聯邦公路管理局發布的NGSIM交通流數據集,其中包括US101,I-80,Lankershim Boulevard和Peachtree Street四條路段的車輛行駛數據,本文選取I-80路段部分車輛數據進行駕駛風格的分類研究。
相機以0.1 s的時間間隔記錄行駛的車輛信息,主要數據信息如表1所示。

表1 NGSIM主要數據信息
駕駛風格的聚類研究首先要對數據進行處理,并選擇特征變量,特征變量的選擇通常是與車輛狀態信息及駕駛人操作信息相關的統計量參數[2],并且為降低變量間的相關性,需要對特征變量進行降維處理,最后得到用于聚類的特征矩陣。
車輛的運動控制通常包括橫向與縱向控制,且二者均能在一定程度上體現駕駛人的駕駛特性,因此本文選擇在行駛過程中進行過換道行為的車輛作為研究對象,將其數據作為聚類的初始數據。
在原始數據采集過程中會不可避免地出現數據噪聲、數據缺失及異常等現象,影響數據的真實性。因此,需要對數據進行預處理,減少異常數據的干擾。本文首先采用Savitzky-Golay平滑方法對數據進行降噪處理,平滑窗口為21,平滑前后某車輛的橫向軌跡對比如圖1所示。

圖1 原始數據與平滑后數據對比
由于對原始軌跡數據處理后,車輛的軌跡數據與當前速度、加速度數據不一致,為保證數據精度,對處理后的軌跡進行重新求導,如式(1)、式(2)所示。


式中,為時間步長,單位為0.1 s,()為車輛的軌跡數據。求導法得到新的橫向、縱向速度及加速度如圖2—圖5所示。

圖2 求導計算后的車輛橫向速度

圖3 求導計算后的車輛縱向速度

圖4 求導計算后的車輛橫向加速度

圖5 求導計算后的車輛縱向加速度
從圖中可以看出,對速度加速度重新求導后,其曲線變得較為平滑,但仍存在較多異常值,因此,還需進一步檢測異常值并進行修正。本文參考相關文獻[3],將縱向加速度范圍限定在[?8 m/s, 8 m/s],將橫向加速度范圍限定在[?2 m/s2, 2 m/s2],即超出以上范圍的數據點均視為異常點,刪除后在原位置采用三次樣條插值對其進行修正處理,得到新的速度數據后,求導得到橫、縱向加速度數據。進行異常值處理后的橫、縱向速度及加速度與處理前的數據對比如圖6—圖9所示。
從圖中可以看出,處理后的數據異常點明顯減少,并且變得更加平滑,可用于最終特征矩陣的構建。

圖6 處理前后的橫向速度對比

圖7 處理前后的縱向速度對比

圖8 處理前后的橫向加速度對比

圖9 處理前后的縱向加速度對比
在進行駕駛風格識別前,需要選擇駕駛風格特征變量,用于描述不同的駕駛風格。由于在車輛行駛過程中,速度、加速度、沖擊度、跟車距離等狀態參數通常是反映駕駛人操作激進程度的重要變量,可以通過這些狀態參數的相關統計量表征不同駕駛人的駕駛風格,得到特征矩陣,特征變量的選擇如表2所示。

表2 聚類特征變量
其中沖擊度為加速度的導數[4],沖擊度的計算如式(3)所示。

式中,為車輛的沖擊度,為車輛的加速度。
由于選取的特征變量數目較多且彼此間存在一定的相關性,為降低數據的冗余,提高聚類效果,需要使用主成分分析方法對其進行降維處理[5]。主成分分析法是一種統計分析、簡化數據的方法,它利用正交變換來對一系列可能相關的變量值進行線性變換,從而投影為一系列線性不相關變量的值,這些不相關變量稱為主成分。主成分分析的目標是通過某種線性投影,將高維的數據映射到低維的空間中,并期望在所投影的維度上數據的信息量最大,以此使用較少的數據維度,同時保留住較多的原數據點的特性。由于其計算簡單,并且是一種以方差衡量信息的無監督學習方法,其使用不受樣本標簽的限制,因此,被廣泛應用。
在進行主成分分析前,考慮到各變量的量綱和數值范圍不同,直接用于聚類對結果的影響較大,因此,需要進行數據歸一化處理,歸一化公式為

式中,為數據樣本,min()為樣本中的最小值,max()為樣本中的最大值。
歸一化完成后,對特征變量進行主成分分析并計算各主成分的貢獻度,選擇累積貢獻度之和超過85%的前三個主成分,如表3所示,與原特征矩陣相乘后得到最終用于聚類的矩陣。

表3 主成分分析結果
得到最終用于聚類的矩陣后,可通過聚類算法進行聚類分析。聚類算法屬于無監督算法,其特點在于原始數據沒有標簽,需要經過聚類分析為數據貼上標簽,常用的聚類算法有K-means、層次聚類、譜聚類以及高斯混合模型等,其中K-means算法較為經典且應用廣泛[6],本文采用K-means算法進行駕駛風格的聚類分析。
K-means算法的思想很簡單,對于給定的樣本集,按照樣本之間的距離大小,將樣本集劃分為K個簇,讓簇內的點盡量緊密的連在一起,而讓簇間的距離盡量的大,每個簇內所有樣本的均值即為聚類中心,也稱為“質心”,該算法通過計算各樣本點與“質心”間的距離進行歸類,具有聚類效果較優、可解釋度較強、收斂速度快等優點,其原理如圖10所示。

圖10 K-means算法原理
通過主成分分析降維處理后,選擇前三個主成分系數,與原矩陣相乘得到用于聚類的特征矩陣。采用K-means聚類時,首先定義本次聚類中心個數為3,隨機生成三個聚類中心后,按照樣本與中心間的距離劃分類別,并更新聚類中心,反復迭代后當聚類中心不再變化或誤差平方和最小時,聚類完成。本次駕駛風格聚類結果如圖11所示。

圖11 駕駛風格聚類結果
以上分析中將駕駛風格聚類結果分為了3類,但還沒有將其定義為不同駕駛人具有的特定風格。查閱相關文獻[7],對駕駛風格的研究通常按照駕駛員駕駛車輛激進程度從弱到強將駕駛風格類型分為保守型、一般型和激進型3種,不同駕駛風格類型車輛對應的特征參數如表4所示。

表4 不同駕駛風格類型對應的特征參數
由表4可知,保守型駕駛人的橫向速度均值、縱向加速度均值、橫縱向沖擊度均值等統計量均為三種類型中的最小值,而激進型駕駛人的對應統計量為三者中的最大值,一般型駕駛人居中,表明本次聚類結果較為合理,符合實際情況。
本文通過對NGSIM數據庫中的數據提取與處理,選擇了包括橫向速度絕對值均值、橫向速度絕對值標準差等特征變量,利用主成分分析及K-means聚類算法將駕駛風格分為保守型、一般型及激進型,并驗證了聚類結果的合理性,實現了對不同駕駛人駕駛風格的分析與研究,對制定個性化的駕駛策略具有一定的指導作用,有利于自動駕駛技術的進一步發展。
[1] 王科銀,楊亞會,王思山,等.駕駛風格聚類與識別研究[J].湖北汽車工業學院學報,2021,35(3):1-6,10.
[2] 金輝,李昊天.基于駕駛風格的前撞預警系統報警策 略[J].汽車工程,2021,43(3):405-413.
[3] 李曉陽,劉樹偉.駕駛風格研究綜述[J].時代汽車, 2020(15):189-190.
[4] 張一恒.基于駕駛風格辨識和運動預測的換道風險評估及決策方法[D].西安:西安理工大學,2020.
[5] 王慶昕.考慮駕駛員特性的車輛行駛風險度評估方法[D].長春:吉林大學,2020.
[6] 李經緯,趙治國,沈沛鴻,等.駕駛風格K-means聚類與識別方法研究[J].汽車技術,2018(12):8-12.
[7] 詹森.基于工況與駕駛風格識別的混合動力汽車能量管理策略研究[D].重慶:重慶大學,2016.
Research on Driving Style Clustering Based on NGSIM Database
SONG Hankun
( School of Automobile, Chang’an University, Xi’an 710064, China )
Driving style is used to represent the behavior characteristics of drivers. It is of great value to develop automatic driving technology and formulate personalized driving strategies. Based on the vehicle driving state data in the American NGSIM database, this paper selects nine statistics such as the mean of the absolute value of transverse speed, the standard deviation of the absolute value of transverse speed and the standard deviation of the absolute value of longitudinal speed as the characteristic variables, and uses the dimension reduction algorithm of principal component analysis and K-means clustering algorithm to classify the driving style of the driving data, and divides the driving styles into conservative, general, radical three types.The data analysis shows that the statistics of the mean transverse speed, the mean longitudinal acceleration and the mean transverse and longitudinal impact of the conservative driver are the minimum of the three types, while the corresponding statistics of the radical driver is the maximum of the three, and the general driver is in the middle, which verifies the rationality of this clustering result.
Data processing;Feature selection;Driving style clustering;NGSIM database
U495
A
1671-7988(2022)24-40-06
U495
A
1671-7988(2022)24-40-06
10.16638/j.cnki.1671-7988.2022.024.007
宋函錕(1997—),男,碩士研究生,研究方向為車輛動力學控制,E-mail:shk19971231@163.com。