999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于駕駛行為生成機制的智能汽車類人行為決策*

2022-12-27 08:24:40宋東鑒韓嘉懿劉彥辰
汽車工程 2022年12期
關鍵詞:策略

宋東鑒,朱 冰,趙 健,韓嘉懿,劉彥辰

(吉林大學,汽車仿真與控制國家重點實驗室,長春 130022)

前言

隨著汽車智能化技術的不斷發展,如何使智能汽車決策規劃系統像人類駕駛員一樣駕駛車輛已成為一項重要的研究內容[1-2]。類人決策規劃能夠有效提高智能汽車的社會認同度以及用戶信任度和接受度,降低由人機差異造成的事故風險,對提高交通系統尤其是智能汽車與人工駕駛汽車并存的混合交通系統的安全性、協調性以及通行效率具有重要意義[3]。

智能汽車的決策規劃又可進一步劃分為行為決策和運動規劃,行為決策層基于環境信息輸出離散化的行為指令,例如車道保持(lane keeping,LK)、換道(lane changing,LC)以及加減速等;而運動規劃層負責在行為決策層的指導下給出行為指令對應的具體運動軌跡。傳統的非數據驅動行為決策方法包括有限狀態機(finite state machine,FSM)[4]、博弈論[5]、貝葉斯網絡決策[6]、模糊推理[7]等。該類方法依靠人工構建規則、機理抽象或注入專家經驗等手段構建具有良好可解釋性的經驗或半經驗策略,場景遍歷廣度高,但是對復雜場景理解深度不足,且先驗知識難以有效覆蓋駕駛行為生成機制中蘊含的隱式語義信息,在實現類人行為決策上存在原理性瓶頸。

而數據驅動方法以駕駛人數據為范本,基于學習型算法學習駕駛人特性與行為模式,在實現類人駕駛上具有天然優勢。按照其實現層級的不同,數據驅動的決策規劃可分為如下兩類。

第1類是結果驅動型。其本質上屬于結果導向而非問題導向,根本任務是基于駕駛人數據,通過直接模仿學習[8-9]或自學習[10-12]等方法建立起從客觀世界到駕駛人行為之間的黑盒映射模型,在結果級實現對駕駛人行為的復現。但結果驅動型存在“知其然,不知其所以然”的問題,策略可解釋性和泛化性等仍待提升。

第2類是特征驅動型。這是一種問題導向的策略,通常假定駕駛人是客觀世界中,具有某種理智思考范式和一定隨機不確定性的主觀多目標協同優化者,其核心思想是從專家示教中推斷類人的優化目標或獎勵函數,在特征級實現可解釋的類人駕駛,往往能夠達到“知其然,且知其所以然”的效果。Xu等[13]面向換道行為構建獎勵函數,使用有限內存下的BFGS算法優化獎勵函數權重,實現了匹配駕駛人特性的決策規劃。Silver等[14]利用最大邊際規劃框架學習到考慮駕駛人不同風格的成本函數,有效解決了行駛環境和駕駛偏好的耦合問題。逆強化學習(inverse reinforcement learning,IRL)近年來被廣泛應用于特征驅動的類人決策規劃,并被證明相比于其他多目標優化算法,IRL更善于從示教數據中恢復類人獎勵函數[15-16]。Wu等[17]使用最大熵逆強化學習(maximum entropy inverse reinforcement learning,ME-IRL),通過時空解耦與彈性采樣提高了ME-IRL的采樣效率,實現了入環島場景下的類人決策規劃。Huang等[18]進一步將車間交互引入ME-IRL,建立了高速公路駕駛人模型。Sun等[19]基于循環神經網絡估計動作獎勵值,在IRL架構下實現了類人換道。

目前基于IRL的類人駕駛尚存有待探索的問題:在策略構建過程中缺少對駕駛行為機制的深入分析,獎勵函數的構造缺少對駕駛人認知特性的匹配,限制了策略向機理層下探的可能;在IRL中,高維度的采樣空間能夠細化策略的動作輸出,但過高的維度會影響策略的泛化能力且可能引發維數災難[20];通過離散化處理能夠降低采樣空間維度,但過高的離散化程度則會導致采樣空間難以覆蓋駕駛人的真實駕駛行為,導致策略類人性不足。為解決上述問題,本文在ME-IRL基礎上,提出了一種基于駕駛行為生成機制的類人行為決策策略(human-like behavior decision-making strategy,HBDS)。

本文的主要貢獻可概括為:(1)分析了駕駛行為生成機制,構建了類人行為決策策略架構,并設計了能夠表征駕駛人認知特性的獎勵函數;(2)利用MEIRL和玻爾茲曼理性噪聲模型(Boltzman noisilyrational model,BNM)建立了類人獎勵與類人行為之間的量化關系,從機理層面實現了特征驅動的類人行為決策;(3)構建離散化的預期軌跡空間,基于統計學規律和安全約束進行空間壓縮和剪枝,提升了策略的采樣效率,并通過引入交通車軌跡預測增加策略與環境交互的真實性,提升了類人獎勵函數權重提取的準確性。

1 策略架構與問題建模

1.1 駕駛行為生成機制分析與行為決策策略框架

駕駛人執行何種駕駛行為本質上是由其認知特性和行為特征決定的,如圖1所示。本文將駕駛行為生成機制中蘊含的語義信息表達為:在來自人-車-環境耦合系統的復雜不確定性約束下,駕駛人根據自身認知特性,從提高通行效率、降低跟馳負荷等驅動誘因出發生成行為動機,并評估該行為的舒適性損失、需承受的風險以及對其他交通參與者的影響等可行性指標,進而擇取并執行匹配自身認知特性和行為特征的駕駛行為。

圖1 基于駕駛行為生成機制的智能汽車類人行為決策抽象步驟

進一步地,可將駕駛行為生成機制解析為如下過程:(1)駕駛人接收人-車-環境耦合系統的多源信息,感知當前交通態勢;(2)在交通態勢刺激下生成行為動機,并在腦海中生成行為動機對應的預期行駛區域,這些區域通常包含左換道(lane changing to left,LCL)、車道保持(lane keeping,LK)、右換道(lane changing to right,LCR)以及加速、勻速、減速等駕駛行為;(3)基于交通態勢評估預期行駛區域的行車風險和決策行為可行性;(4)遵從“趨利避害”的基本原則完成行為決策。駕駛人認知特性和行為特征的差異將體現在行為動機生成和行為可行性評估上,不同駕駛人在相同環境下可能產生不同的個性化行為決策。

基于對駕駛行為生成機制的語義表達和解析,本文中構建了如圖1下半部分所示的智能汽車類人行為決策策略框架:(1)將駕駛人對交通態勢的感知表達為對與自車(ego vehicle,EV)存在交互依賴關系的相關交通車的軌跡預測,以獲取相關交通車在決策時域內的運動狀態;(2)將駕駛人在腦海中生成的抽象預期行駛區域建模為由有限條預期軌跡組成的具象預期軌跡空間;(3)通過構建類人獎勵函數來描述駕駛人的行為動機生成和行為可行性評估過程,HBDS從預期軌跡空間中采樣,計算每條預期軌跡的累積獎勵,其中獎勵函數子項包含動機類和評估類兩種;(4)利用BNM為各條預期軌跡分配與其累積獎勵相關的被選概率,從而表征駕駛人在進行駕駛行為決策時的隨機性。HBDS需基于ME-IRL進行離線訓練,ME-IRL能夠從自然駕駛數據中學習類人獎勵函數權重矩陣,從而匹配駕駛人認知特性和行為特征,進而實現基于駕駛行為生成機制的智能汽車類人行為決策。

1.2 智能汽車行為決策問題建模

將智能汽車行為決策建模為1階馬爾可夫決策過程MDP(S,A,P,R)。其中S為狀態空間,A為動作采樣空間,P為狀態轉移概率,R為累積獎勵。時間步t的狀態st∈S由EV狀態以及周圍交通車狀態組成,包含可基于現有傳感技術獲得的EV和周圍交通車的位置、速度、加速度等基本運動學信息。如圖2所示,通常認為EV的當前車道前車(currentlane front vehicle,CFV),當前車道后車(currentlane rear vehicle,CRV),左車道前車(left-lane front vehicle,LFV),左車道后車(left-lane rear vehicle,LRV),右車道前車(right-lane front vehicle,RFV),右車道后車(right-lane rear vehicle,RRV)會對EV的行為決策產生影響,因此對于該MDP,時間步t的狀態st可寫作:

圖2 影響EV行為決策的周圍交通車

EV動作at所從屬的動作空間A實際上即為預期軌跡空間,可理解為某條預期軌跡執行過程中須施加給車輛的縱側向控制量。因此,一條長度為V的離散化軌跡可寫成V組狀態-動作對的形式:

預期軌跡空間中的任意軌跡ξi均可寫成式(2)的形式。而在該行為決策MDP中,除初始狀態s1為已知外,其他時間步的狀態均須根據預期軌跡ξi進行運動學推導或預測。對于ξi執行過程中的時間步t,EV狀態可根據預期軌跡直接獲取,而周圍交通車的狀態則須基于交通車運動軌跡預測獲得。將給定st的獎勵函數r(st)定義為線性結構:

式中:F(st)=[f1(st),f2(st),...,fL(st)]為狀態st下的獎勵函數子項向量;ω=[ω1,ω2,...,ωL]T為與獎勵函數子項匹配的權重矩陣。則軌跡ξi的累積獎勵R(ξi,ω)可寫作:

式中F(ξi)為整條軌跡的獎勵函數子項向量。本文將在第3節中詳述獎勵函數子項的構造以及如何基于ME-IRL學習類人的權重矩陣ω。

得到ω后,便可獲得預期軌跡空間中任意軌跡的累積獎勵R(ξi,ω),而要想實現行為決策,還須建立預期軌跡被選概率與其累積獎勵之間的映射關系。根據最大熵原理,可假定預期軌跡被選概率隨其累積獎勵的增加呈指數型增長,本文中基于BNM構建行為決策概率與累積獎勵的映射關系[21],在給定權重矩陣ω時,預期軌跡ξi被選擇的概率為

式中:N為預期軌跡空間中所包含的軌跡數量。基于式(6)可得預期軌跡中每條軌跡被選擇的概率,遵循理智駕駛人“趨利避害”的原則,參考貪婪算法思想,HBDS會在每個狀態下選擇累積獎勵最大的預期軌跡所對應的駕駛行為作為此時智能汽車的行為決策結果。

2 預期軌跡空間生成

2.1 預期軌跡空間生成

預期軌跡空間作為行為決策MDP的動作采樣空間,應涵蓋駕駛人在常規交通場景中的各種駕駛行為。本文使用多項式擬合和智能駕駛員模型(intelligent driver model,IDM)[22]生成包含LCL、LK、LCR這3類駕駛行為的預期軌跡簇,并對預期軌跡空間進行壓縮和剪枝以提升采樣效率。

2.1.1 換道預期軌跡簇生成

通常駕駛人在腦海中預規劃換道軌跡時,會考慮期望車速、換道耗時等因素,為體現這些因素對換道軌跡的影響,使用多項式擬合換道預期軌跡。在全局坐標系xoy下,分別使用四次多項式和五次多項式擬合換道過程中EV縱向和側向位置隨時間的變化,即

給定換道起始和終止時刻的邊界條件即可求得式(7)中的系數。設換道起始時刻和終止時刻的邊界條件分別為和其中,換道初始時刻的邊界條件可由駕駛人示教數據中EV的初始運動狀態直接獲得。對于終止時刻的邊界條件,通常假定換道結束后車輛已能在目標車道進行穩定的車道保持,故取,取yend為目標車道中心線的側向位置。那么影響多項式換道軌跡擬合的變量即為換道持續時間TLC和換道終點車速,使用不同的TLC和的取值組合即可生成包含不同形狀軌跡的換道軌跡簇。

2.1.2 車道保持預期軌跡簇生成

若不考慮車道保持過程中EV的側向運動,則車道保持預期軌跡的生成實際上就是EV縱向加速度的擬合。引入IDM描述車道保持過程中EV的縱向加速度axe(t):

式中:vxe(t)為EV車速;vˉxe為期望速度;dCFVdes(t)為期望跟車距離。而最小安全車距dsafe,期望跟車時距t0,最大加速度amax和最大減速度amin均為可標定的常數項。EV的車道保持預期軌跡形狀由期望縱向速度vˉxe和車道保持持續時間TLK決定,且為保證車道保持和換道預期軌跡累積獎勵計算時的公平性,車道保持預期軌跡和換道預期軌跡共享相同的變量取值空間,即

2.2 預期軌跡空間壓縮與剪枝

2.2.1 基于統計學規律的預期軌跡空間壓縮

預期軌跡空間包含的軌跡數量由換道持續時間TLC和換道終點縱向速度張成的二維空間決定,為提升HBDS對預期軌跡的采樣效率以及預期軌跡空間構造的合理性,對NGSIM(next generation simulation)數據集中乘用車在不同換道初始速度下的TLC以及γ進行統計分析。其中,γ為相比于的變化率,即

如圖3所示,使用正態分布分別擬合TLC和γ的概率密度,μ1、μ2和σ1、σ2分別為TLC和γ正態分布的均值和方差,其取值如表1所示。

圖3 不同初始速度下TLC與γ概率密度分布

表1 正態分布參數表

由圖3(a)可知,TLC的基本變化規律是換道初始速度越大,換道持續時間越短,不同換道初始速度下的TLC分布具有一定差異但并不明顯,因此可將不同初始速度的TLC分布進行合并。相比之下,在圖3(b)中,γ的概率密度分布對換道初始速度變化非常敏感,初始速度越大,換道終點速度變化越小且分布越集中,而當初始速度低于6 m/s時,換道終點速度普遍具有較大提升,說明駕駛人通過執行換道行為實現了較大幅度的提速。如表2所示,基于概率密度分布,本文為不同換道初始速度下的TLC和γ劃定取值區間,并給出取值粒度。因此根據駕駛人示教數據的初始狀態,可以為預期軌跡空間匹配不同的邊界與大小,提升策略采樣效率的同時使預期軌跡更接近駕駛人軌跡。

表2 TLC和γ取值區間與粒度

2.2.2 基于安全約束的預期軌跡空間剪枝

在上述預期軌跡空間基礎上,對不符合安全性和動力學約束的預期軌跡進行剪枝。首先對所生成軌跡進行基于幾何輪廓的碰撞檢測,去除掉所有發生碰撞的軌跡;其次,評估所規劃軌跡的縱、側向動力學穩定性,給定縱向加速度極限[-0.8μg,0.8μg]以及側向加速度極限[-0.3μg,0.3μg],去除所有超出上述極限,可能引發車輛失穩的軌跡。圖4給出了按照NGSIM數據集中某次駕駛人換道的初始狀態所生成的預期軌跡空間。假定路面附著狀態良好,取路面附著系數μ為0.8。

圖4 壓縮與剪枝后的預期軌跡空間

3 面向行為決策的交通車軌跡預測

預期軌跡累積獎勵R(ξi,ω)的計算需要已知周圍交通車的運動狀態,若ξi的執行不會對交通車運動狀態產生影響,則其運動狀態可直接從自然駕駛數據中獲取,否則須預測ξi執行過程中交通車如何運動。為此本文構建了可同時預測周圍6臺交通車未來軌跡的預測模型,模型結構如圖5所示。在當前時刻t,模型的輸入序列X和輸出序列Y分別為

圖5 交通車軌跡預測模型結構

式中:H和F分別為歷史時窗和預測時窗長度,取H為6 s,而為匹配不同的預期軌跡長度,根據表2,F取為3~8 s。xe、ye和vxe、vye分別為全局坐標系下EV的縱側向位置和縱側向速度,xje和yje分別為交通車j相對EV的縱側位置,vxj和vyj分別為交通車j的縱側向絕對速度。

如圖5所示,交通車軌跡預測模型使用了具有注意力(attention)機制的編碼器(encoder)-解碼器(decoder)結構。在每個編碼時間步th,encoder的每個LSTM cell接收來自前一編碼時間步的隱狀態和當前編碼時間步的輸入,輸出當前編碼時間步的隱狀態,直至將整個輸入序列X編碼為語義向量(context vector)。與encoder結構基本相同的decoder接收語義向量,并在每個解碼時間步tf輸出6臺交通車的軌跡預測值,直至完成整個預測時間窗F上的交通車軌跡預測。

此外,在每個解碼時間步tf,attention機制通過計算decoder在上個解碼時間步的隱狀態和encoder隱狀態序列之間的相關性,為不同編碼時間步的encoder隱狀態分配權重,進而通過加權求和得到語義向量。attention機制的引入使軌跡預測模型能充分提取輸入序列X中的時空依賴特征,提升軌跡預測精度。模型基于NGSIM數據集進行訓練和測試,表3給出不同F下,測試集上的軌跡預測均方根誤差RMSE。

表3 不同預測時窗長度下的RMSE

從表3可知,交通車軌跡預測誤差隨時間的累積效應較明顯,尤其是F=7~8 s時,RMSE值較大。但考慮到HBDS中交通車的軌跡預測是為表征駕駛人對交通態勢的認知,最終目標是進行行為決策,而非規劃EV的具體運動軌跡,因此對預測精度要求并不高,表3中的精度已可滿足本文的研究需要。

4 基于ME-IRL的類人權重矩陣離線學習

如第1節所述,HBDS實現類人行為決策的關鍵在于構建匹配駕駛人認知特性的類人獎勵函數,本節將詳述獎勵函數子項的構造以及ME-IRL如何學習獎勵函數類人權重矩陣。

4.1 獎勵函數構造

獎勵函數是溝通客觀環境與駕駛人主觀認知的關鍵。基于對駕駛行為生成機制的解析,將獎勵函數劃分為兩大類:一是動機型獎勵,對應于駕駛行為動機生成過程,是駕駛人短暫觀察交通環境后即可明確的獎勵,本質上屬于駕駛行為的驅動誘因;二是評估型獎勵,對應于駕駛行為可行性評估過程,需要駕駛人對交通態勢和駕駛行為的執行過程進行綜合分析,本質上屬于駕駛行為的限制條件。對于任意軌跡ξ,各獎勵函數子項如下。

(1)通行效率 代表駕駛人對盡可能高效快速行車的期望,可用EV與跟馳對象的車速差表征。通行效率屬于動機型獎勵,是刺激駕駛行為產生的驅動誘因,定義為

式中:ΔvCFV(t1)和ΔvTFV(t1)分別為初始狀態下EV與CFV和 目 標 車 道 前 車(target-lane front vehicle,TFV)的速度差。如果不存在CFV或TFV,則fEff(ξ)可近似為當前車道限速值與自車速度的差值。

(2)跟馳負荷 代表駕駛人跟馳前車過程中的駕駛負荷,Balal等[7]指出,相比于速度或跟車時距等參數,駕駛人在跟馳過程中往往對車距的敏感性更高,跟馳負荷也很大程度上由車距決定。跟馳負荷屬于動機型獎勵,是刺激駕駛行為產生的驅動誘因,例如當駕駛人觀察到旁車道前車與EV具有更大的縱向車距可供EV加速或進行更加輕松的跟馳時,駕駛人往往會換至旁車道。跟馳負荷定義為

式中dCFV(t1)和dTFV(t1)分別為初始狀態下EV與CFV和TFV的縱向車距。如果不存在CFV或TFV,則fLoad(ξ)取為d0,d0為駕駛人在正常能見度下的平均可視距離,高速公路場景下通常取d0=150 m[23]。

(3)舒適性 屬于評估型獎勵。駕駛人在產生行為動機后會評估該駕駛行為執行過程中的舒適性損失。車輛的變速運動會影響駕乘舒適性,因此通過預期軌跡的縱向加速度axe和側向加速度aye來描述舒適性:

(4)行車風險 屬于評估型獎勵。安全是一切駕駛行為順利執行的先決條件,因此行車風險是駕駛人評估某駕駛行為即某預期軌跡是否可行的關鍵因素。駕駛人在評估風險時,會綜合考量周圍相關交通車的位置、車速、運動趨勢以及與EV之間的交互關系,故駕駛人對行車風險的認知是連續且動態,僅使用跟車時距、碰撞時間等離散化指標難以對其進行準確描述。

為此,通過構建各向異性行車風險場來描述周圍交通車施加給EV的風險。對于軌跡ξ中的任意時間步t,EV周圍某交通車j在EV處產生的風險場場強Eje(t)定義為

式中:(t)為在交通車j的Frenet坐標系下,EV與交通車j之間的車距矢量;kd為車距放縮因子;(t)和(t)分別為交通車j沿其前進方向的加速度和法向加速度;μR為風險場的場強峰值,場強峰值出現在交通車j的質心位置(t)和(t)分別為d(t)與交通車j前進方向和法向的夾角;pX′和pY′為加速度系數。Mj(t)為交通車j的等效質量,即

式中:mj和vj(t)分別為交通車j的真實質量與車速矢量;bm和km為常數項。通過引入固連在交通車j上的Frenet坐標系,同時實現了場強Eje沿交通車j前進方向和法向的非對稱分布,并考慮了加速度大小和方向對場強分布的影響,形成了風險場的各向異性。

圖6給出本文所建立的行車風險場場強分布,可以看到該風險場模型能有效表征交通車在周圍環境中產生的風險分布,且能通過場強形狀的變化反映交通車加減速以及換道對風險分布的影響:加速行駛的車輛在其車頭前方產生的場強大于后方;減速行駛的車輛在其車尾產生的場強大于前方;左換道和右換道車輛則在其法向加速度方向上呈現出更大場強,基本符合駕駛人對風險的認知特性。

圖6 不同運動狀態的交通車風險場場強分布

駕駛人對風險的認知除具有連續性外,還具有截斷性,即如果交通車施加給EV的場強值低于某一閾值,駕駛人會認為該交通車不會對EV產生安全威脅,據此駕駛人對行車風險的認知可描述為

當EV執行LK時,由于車道線對場強的截止效應,EV受到的風險主要來自于CFV和CRV;當EV執行LC時,駕駛人則主要關注來自目標車道前車TFV和 目 標 車 道 后 車(target-lane rear vehicle,TRV)。式(17)中,Ethr是駕駛人不會對風險做出響應的臨界場強,τrc為風險超過閾值的持續時間。故如圖7所示,fRisk(ξ)實際上表征的是ξ執行過程中,駕駛人感知到的對行車安全有威脅的風險在時間上的積分。

圖7 fRisk(ξ)的構造原理

(5)行車侵略度 屬于評估型獎勵。理智型駕駛人尤其是較為禮貌友好的駕駛人在行為決策時通常會考慮EV的行為對周圍交通車產生的影響,本文定義行車侵略度對其進行描述。交通車因EV的行為而產生的額外駕駛響應是EV對該交通車侵略度的顯式體現,例如TRV因為EV的cut in行為而減速避讓,這種駕駛響應來源于EV施加給交通車的風險,本質上屬于一種風險響應。故參考對EV行車風險的建模,行車侵略度可定義為

式中Eje(t)為EV施加給交通車j的場強,其計算公式與Eje(t)相同。

將式(12)~式(14)、式(17)~式(18)代入式(4)即可得軌跡ξ的累積獎勵R(ξ,ω)。上述獎勵函數子項能夠同時描述駕駛行為生成機制中的動機生成和行為評估,并考慮車間交互,在獎勵函數構造上實現了對駕駛人認知特性的匹配。

4.2 最大熵逆向強化學習

設ΞD為從自然駕駛數據中提取的駕駛人行為決策示教軌跡數據集,ΞD中包含M條示教軌跡,ΞD=[ξ?1,ξ?2,...,ξ?M]。則ME-IRL的目標即是通過求解權重矩陣ω,使示教軌跡獲得的累積獎勵最大。由式(6)可知,累積獎勵最大意味著軌跡被選擇的概率最大,也就意味著HBDS能夠以最大的概率做出類人的行為決策。示教軌跡中關于權重矩陣ω的對數似然函數為

則ME-IRL對最優ω*的求解可描述為

將式(6)代入式(19)可將L(ω)進一步寫作:

式中E(F(ξj))為整個預期軌跡空間獎勵函數的期望值,因此?ωL(ω)可視為駕駛人示教軌跡獎勵與預期軌跡簇期望獎勵的差值。基于式(22)使用梯度上升算法即可實現對ω的迭代優化,從而基于ME-IRL學習到對于HBDS而言最優的權重矩陣ω*。

5 策略驗證與結果分析

5.1 駕駛人示教數據提取與處理

使用NGSIM數據集進行HBDS的訓練和測試。NGSIM[24]由美國聯邦公路局采集,包含在公路I-80和US-101上于不同時間段采集的數據,數據采集時長共90 min,采樣周期為0.1 s,包含這期間出現在兩條道路上所有車輛的基本信息。NGSIM中每輛車的平均持續行駛時間為40~70 s,基本符合提取駕駛人認知特性和行為特征對數據長度的需要。本文中對NGSIM數據集的處理過程如下。

(1)提取同時包含LK和LC行為的車輛。

(2)上下匝道不屬于本文研究內容,且駕駛人在匝道區域的認知特性和行為特征相比常規路段會發生變化,會對駕駛行為的學習產生影響,因此本文去除涉及匯入及駛出匝道區域和存在明顯誤差的數據。

(3)使用Savitzky-Golay濾波器對原始數據中的車輛位置進行濾波處理,并基于濾波后的位置數據求取速度和加速度信息。

(4)按照駕駛行為將每輛車的數據劃分為換道數據和車道保持數據:

①對于LK數據,提取持續時間5 s的LK行為,并要求其在LK開始前3 s和結束后3 s范圍內無LC行為,采用滑動時窗提取LK數據;

②對于LC數據,按照文獻[25]中方法提取LC起始點和終止點,在換道起始點處向前擴展3 s的LK數據,將其與換道起始點和終止點之間的數據一起組合為完整的換道行為數據。

NGSIM中的每輛車平均可提取出30~50組數據,每輛車均按照80%和20%的比例劃分訓練集和測試集。

(5)駕駛人軌跡數據規則化處理。在自然駕駛數據中,由于駕駛人的操作隨機性以及數據采集誤差,駕駛人軌跡往往難以與多項式和IDM生成的預期軌跡相匹配,這會造成策略訓練過程中難以收斂。因此本文根據駕駛人軌跡實際的初始狀態、終止狀態及持續時間,對駕駛人軌跡進行基于多項式的規則化處理。圖8為駕駛人軌跡經規則化處理后的效果。

圖8 駕駛人軌跡規則化處理

5.2 策略驗證

5.2.1 行為決策結果

考慮到不同駕駛人認知特性和行為特征差異造成的駕駛行為生成機制異質性,使用每位駕駛人的數據分別訓練個性化的HBDS。當HBDS在測試集上運行時,它會基于學習到的類人獎勵函數權重計算每個初始狀態下每條預期軌跡的累積獎勵,并依據式(6)所示的BNM得出每條預期軌跡的被選概率。由于在生成預期軌跡時,LCL、LK、LCR 3類駕駛行為包含的軌跡數量相等,因此所包含軌跡的被選概率之和最高的那一類行為即為此時行為決策結果。

(1)為驗證本文引入各向異性行車風險場的有效性,建立了對比策略HBDS-TTC。該對比策略使用車間的碰撞時間(time to collision,TTC)代替式(17)和式(18)中的各向異性行車風險場場強。除行車風險獎勵函數和行車侵略度獎勵函數外,HBDSTTC的其他獎勵函數子項以及策略架構、訓練和測試數據等均與HBDS保持一致。表4給出了HBDSTTC和HBDS在訓練集和測試集上的表現對比。由于本文旨在實現類人行為決策,因此正確的行為決策定義為:在自然駕駛數據中駕駛人實際的行為切換點前后3 s的時間范圍內,策略能夠輸出與駕駛人相同的行為決策。為進一步衡量策略在類人決策上的表現,定義行為決策時間誤差,即策略輸出正確行為決策的時間點與駕駛人實際行為切換點之間時間差的絕對值,該值越小表明策略的類人性越強。

表4 有無各向異性行車風險場策略表現對比

由表4可知,HBDS-TTC的類人性低于HBDS,說明所建立的各向異性行車風險場能夠更好地表征駕駛人對風險的認知,從而得到更加合理行車風險獎勵函數和行車侵略度獎勵函數。

(2)為驗證基于統計學規律的預期軌跡空間壓縮和基于安全約束的預期軌跡空間剪枝的有效性,設置3組對比試驗,并在表5中給出了各組試驗中獎勵函數收斂即策略收斂所需的平均回合數對比。由表5可知,基于統計學規律的預期軌跡空間壓縮能有效提升策略采樣效率,顯著降低策略收斂所需回合數,相比之下基于安全約束的預期軌跡空間剪枝對采樣效率的提升幅度較小,其主要作用在于提升數據驅動的HBDS安全性。

表5 策略收斂回合數對比

(3)本文在HBDS的離線訓練過程中引入了交通車軌跡預測,即預測自車按照某一預期軌跡行駛過程中周圍交通車將如何運動,從而建立更加真實的策略訓練環境。為驗證引入交通車軌跡預測的有效性,建立無交通車軌跡預測的對比策略(HBDSwithout prediction,HBDS-WP)。在HBDS-WP的訓練過程中,所有交通車均按照數據集中的原始軌跡行駛,而不會根據自車的不同行為做出交互響應。對比結果如表6所示。

表6 有無交通車軌跡預測策略表現對比

由表6可知,沒有交通車軌跡預測的HBDS-WP無法考慮自車不同行為對周圍交通車的交互影響,使策略提取的類人獎勵函數權重精度較差,從而導致策略類人性下降,證明了本文在HBDS中引入交通車軌跡預測的有效性。

(4)為證明HBDS相比于現有類人行為決策策略的性能提升,本文額外建立了2組策略與HBDS進行對比驗證:①基于NGSIM數據集標定文獻[4]中FSM的狀態轉移條件,構建行為決策策略;②采用與HBDS相同的MDP,以LCL、LK、LCR為動作,基于深度Q網絡(deep Q network,DQN)構建行為決策策略。DQN使用與HBDS完全相同的獎勵函數子項,但各獎勵函數子項權重未經ME-IRL標定,各子項權重均取1。表7給出HBDS和2組對比模型在包含500位駕駛人數據的訓練集和測試集上的平均表現。

表7 HBDS與其他策略表現對比

從表7可知,HBDS具有最高的行為決策準確率和最小的行為決策時間誤差。雖然經過自然駕駛數據集的標定,但完全基于先驗知識和手寫規則的FSM在類人決策上的表現仍不理想,且相比訓練集,FSM在測試集上表現降低較為明顯;使用與HBDS相同MDP的DQN行為決策準確率高于FSM,且測試集相對訓練集的掉點幅度較小,也側面證明了本文所設計的獎勵函數的合理性。但由于缺少對類人獎勵函數權重的離線學習,使用均一化權重的DQN表現弱于HBDS,證明了本文將駕駛行為機制引入HBDS,從自然駕駛數據中挖掘類人獎勵函數權重的有效性。

5.2.2 軌跡分析

HBDS除能夠輸出累積獎勵最高即最類人的行為決策(LCL/LK/LCR)外,還能輸出該類行為對應的軌跡空間中與人類駕駛員最接近的軌跡。圖9給出兩個案例中HBDS概率最高的軌跡與規則化后的駕駛人軌跡對比,可以看到軌跡匹配度較高。

圖9 HBDS概率最高軌跡與規則化處理的真實軌跡對比

由于HBDS的預期軌跡空間是基于軌跡持續時間和軌跡終點速度張開的,因此HBDS在行為決策的同時還能給出這兩個決定軌跡具體形狀的重要參數,對后續的運動軌跡規劃具有重要意義。表8給出在測試集上,與駕駛人真實軌跡相比,HBDS輸出的換道軌跡持續時間、軌跡終點速度以及軌跡縱向跨度的平均絕對誤差MAE。可以看到在相同初始狀態下,HBDS能給出與駕駛人十分接近的換道持續時間、軌跡終點速度和縱向跨度。而如果進一步細化表2中的取值粒度,HBDS的類人性可進一步提升,但這會降低采樣效率。因此HBDS在實際應用時,應綜合考量算力消耗和駕駛類人性來選定預期軌跡空間的取值粒度。

表8 概率最高軌跡與真實軌跡關鍵指標MAE

6 結論

面向類人駕駛這一汽車智能化技術領域的重要研究內容,對駕駛行為生成機制進行系統分析和抽象描述,提出了一種基于駕駛行為生成機制的類人行為決策策略HBDS。HBDS具有匹配駕駛行為生成機制的策略架構以及匹配駕駛人認知特性的獎勵函數,并通過統計學規律與安全約束對離散化的策略采樣空間進行壓縮和剪枝,避免了高維連續空間的維數災難以及預期軌跡與駕駛人實際軌跡相差較大的問題。交通車軌跡預測的引入進一步保證了HBDS的離線訓練效果和在線使用性能表現。HBDS通過ME-IRL學習類人的獎勵函數權重,基于BNM建立行為概率與其累積獎勵的映射關系。在自然駕駛數據集上的驗證結果表明,HBDS能夠較好地匹配駕駛人的個性化認知特性和行為特征,并實現類人行為決策。作為一種特征驅動的類人行為決策策略,HBDS為智能汽車類人駕駛向機理層下探和策略白盒化提供了新思路。但目前HBDS中未考慮獎勵函數的動態時變,且高速公路的應用場景相對簡單。在后續研究中,將在環島和十字路口等更為復雜的工況下,進一步探索駕駛人認知特性和行為特征隨交通環境、自身狀態等因素的變化,構建時變型獎勵函數及其自適應匹配體系,并與類人運動規劃結合形成完整的特征驅動下智能汽車決策規劃策略。

猜你喜歡
策略
基于“選—練—評”一體化的二輪復習策略
幾何創新題的處理策略
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
“我說你做”講策略
數據分析中的避錯策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
“唱反調”的策略
幸福(2017年18期)2018-01-03 06:34:53
價格調整 講策略求互動
中國衛生(2016年8期)2016-11-12 13:26:50
主站蜘蛛池模板: 漂亮人妻被中出中文字幕久久| 国产69精品久久久久孕妇大杂乱 | 国产成人高精品免费视频| 国产白浆在线| 亚洲久悠悠色悠在线播放| 在线播放国产99re| 中文字幕不卡免费高清视频| 久精品色妇丰满人妻| 国产精品视频第一专区| 思思热精品在线8| 欧美日本二区| 幺女国产一级毛片| 欧美另类一区| 国产H片无码不卡在线视频| 欧美一区精品| 亚洲天堂2014| 一级香蕉视频在线观看| 成人字幕网视频在线观看| 日韩精品无码一级毛片免费| 午夜三级在线| 国产成人AV综合久久| 国产黄在线观看| 亚洲人成影院午夜网站| 亚洲一区二区在线无码| 国产成人精品综合| 亚洲中文字幕手机在线第一页| 亚洲欧美日韩成人在线| 黄色网站在线观看无码| 91久久夜色精品国产网站| 欧洲成人在线观看| 亚洲乱码视频| 91欧美亚洲国产五月天| 中文字幕人成人乱码亚洲电影| 最新加勒比隔壁人妻| 99热亚洲精品6码| 福利在线不卡| 日本不卡在线| 精品国产自| 五月综合色婷婷| 四虎在线观看视频高清无码 | 国产精品不卡永久免费| 一区二区三区毛片无码| 国产福利一区在线| 国产成人夜色91| 夜夜操天天摸| 久久精品人人做人人| 狠狠操夜夜爽| 色偷偷一区二区三区| 手机在线免费不卡一区二| Jizz国产色系免费| 欧美成人午夜视频免看| 国产福利大秀91| 成人欧美在线观看| 永久毛片在线播| 久久人妻系列无码一区| 波多野吉衣一区二区三区av| 日韩区欧美国产区在线观看| 午夜免费小视频| 五月婷婷精品| 国产午夜福利亚洲第一| 欧美一级夜夜爽www| 亚洲永久色| 亚洲欧美日韩综合二区三区| 久久这里只有精品国产99| 日本欧美一二三区色视频| 久久综合结合久久狠狠狠97色| 日本高清视频在线www色| 欧美激情一区二区三区成人| 国产丝袜第一页| 日韩无码视频播放| 久久精品国产电影| 免费 国产 无码久久久| 成年女人a毛片免费视频| 手机在线看片不卡中文字幕| 欧美一级在线| 久精品色妇丰满人妻| 精品乱码久久久久久久| 亚洲成人福利网站| 国产丝袜啪啪| 被公侵犯人妻少妇一区二区三区| 久久久久国产精品熟女影院| 又黄又湿又爽的视频|