基于深度時空Q網絡的定向導航自動駕駛運動規劃

2020-08-06 08:28:18胡學敏陳國文張若晗童秀遲

計算機應用 2020年7期

胡學敏，成煜，陳國文，張若晗，童秀遲

（湖北大學計算機與信息工程學院，武漢 430062）

（*通信作者電子郵箱huxuemin2012@hubu.edu.cn）

0 引言

自動駕駛技術可以有效降低司機的行車勞累程度，提高交通系統的運作效率和安全性。自動駕駛中的運動規劃是在已獲取車輛狀態、環境、交通規則等數據的條件下，為車輛從當前狀態到下一目的狀態做出合理的駕駛動作，是自動駕駛最核心的技術之一。因此，研究自動駕駛的運動規劃，對提高自動駕駛的智能性和可靠性有重要意義。

目前應用較為廣泛的傳統運動規劃算法主要有快速搜索隨機樹算法［1］、啟發式搜索算法［2］、人工勢場法［3］和基于離散優化算法［4］。此類傳統的路徑規劃算法在自動駕駛中取得了較好的應用效果，但是在實現過程中需要根據已知環境和規則來建立相應的數學模型，因此在這些規則之中可以獲得較好的效果，卻難以適應新的環境。

近年來，隨著機器學習技術的發展，采用基于機器學習的方法來解決復雜的運動規劃問題成為了研究熱點。這類方法主要分為基于模仿學習［5］的方法和基于強化學習［6］的方法。前者主要通過深度神經網絡獲取所需圖像或其他環境感知信息，實現感知數據到運動指令的函數映射。其中，在訓練深度神經網絡時，需要大量帶標注的樣本來對模型進行監督學習，從而有效地擬合從感知數據到運動指令的端到端的規劃函數。美國伍斯特理工學院提出了一種自動駕駛汽車的端到端學習方法，能夠直接從前視攝像機拍攝的圖像幀中產生適當的方向盤轉角［7］。Waymo 公司設計的遞歸神經網絡ChauffeurNet，通過專業駕駛數據學習自動駕駛策略，可以處理模擬中的復雜情況［8］，這類基于模仿學習的方法具有較強的運動規劃和道路識別能力，但是需要大量多樣化、帶標注的樣本數據，并且由于樣本的限制其泛化能力有限。

強化學習是智能體通過從環境中感知狀態，在可選的動作中選擇一個最大回報的動作并執行，來到達下一個狀態的學習策略。智能體在不斷地探索學習中學會如何在當前環境中獲得最大回報，由此來尋找最優策略。強化學習方法有較強的決策能力，且不需要大量帶標注的樣本，但是傳統的強化學習缺乏環境感知能力，難以得到準確清晰的環境特征。將深度學習和強化學習結合起來得到的深度強化學習，既有較強的特征提取能力，也有較高的決策能力。其代表模型深度Q 網絡（Deep Q-Network，DQN）［9］和深度確定性策略梯度（Deep Deterministic Policy Gradient，DDPG）［10］可以通過提取圖像或是視頻的特征來進行實時決策，并在諸多領域已經超越了人類的表現［11］。然而，目前原始的深度強化學習算法DQN 和DDPG 僅僅利用卷積神經網絡（Convolutional Neural Network，CNN）［12］提取圖像的空間信息，沒有關聯時間信息，從而導致在學習過程中容易忘記之前所學習的信息，在長期信息學習中效果不好。此外，NVIDIA 公司研究的自動駕駛運動規劃算法［13］和其他基于深度強化學習的自動駕駛算法［7］都只達到了避障、循跡和單一的轉彎目的，沒有利用全局路徑信息，導致在定向導航的自動駕駛場景中表現不佳。

針對目前基于深度強化學習的自動駕駛運動規劃方法沒有關聯時間信息、沒有利用全局路徑信息且無法實現定向導航的問題，本文提出了一種將深度強化學習和長短期記憶（Long Short-Term Memory，LSTM）網絡［14］相結合的深度時空Q網絡（Deep Spatio-Temporal Q-Network，DSTQN）。該模型通過由CNN 和LSTM 構成的深度時空神經網絡提取車載相機獲取的連續幀圖像的空間和時間信息，并輸入Q 網絡中選擇合適的駕駛指令。此外，為有效利用全局路徑信息，在網絡輸入的環境信息中加入指向信息，將全局路徑信息以可視化圖形的方式融入到駕駛場景圖像中，實現在全局路徑下定向導航的自動駕駛運動規劃。本文提出的方法既解決了自動駕駛模型訓練需要大量帶標注樣本，以及強化學習在長期信息學習方面存在的難題，同時也使自動駕駛車輛能夠利用全局路徑信息實現定向導航，為強化學習算法在運動規劃領域的應用提供了新的思路。

1 基于深度時空Q網絡定向導航運動規劃算法

本文設計的基于深度時空Q網絡的定向導航運動規劃算法在原始的DQN 算法中融入LSTM，采用CNN 和LSTM 提取空間與時間信息，將時空信息輸入Q網絡得到轉向與加速（包含油門與剎車）的決策動作，然后反作用于環境。為實現定向導航，將環境信息送入神經網絡前對其添加指向信息來實現車輛的定向導航。算法結構如圖1所示。

圖1 定向導航深度時空Q網絡算法結構Fig.1 Structure of deep spatio-temporal Q-network with directional navigation

1.1 DQN算法

深度Q 網絡是深度強化學習的一種經典算法，它將深度學習中的卷積神經網絡和強化學習中的Q 學習（Q-Learning）［15］結合起來，利用CNN 估計值函數。其中，將環境圖像數據作為狀態輸入CNN中，輸出從狀態中提取的環境特征，然后建立強化學習模型，其核心是三元組：狀態、動作、獎勵。智能體通過獲取的當前環境狀態來選取一個動作，并觀察得到的獎勵和下一個狀態，再由得到的信息不斷更新網絡，從而使智能體學會選擇更優的動作，獲取更大的獎勵。

在DQN 實現中，通過將從環境中獲取的信息輸入到主訓練Q 網絡，經過Q 函數的計算，獲得一系列動作a與Q值相對應的序列，讓智能體選取Q值最大的動作，由這個動作來產生新的狀態環境并獲得獎勵［9］；并且在訓練的同時，將智能體與環境交互所獲得的數據存放到回放經驗池中，然后在后續訓練中隨機抽取數量固定的數據樣本送入網絡中訓練，通過計算損失函數，使用梯度下降方法反向傳播來更新Q 網絡的權重參數θ，重復訓練，直至損失函數收斂，尋找到最優策略。損失函數如式（1）所示：

計算Q值如式（2）所示：

其中：s為智能體所處的當前狀態，s'為智能體完成動作后的下一個狀態；a為當前做出的動作，a'為下一個選擇的動作；r為當前做出動作所獲得的獎勵；θ為主網絡權值參數，θ'為目標網絡權值參數；γ為折扣因子。

1.2 深度時空Q網絡

由于DQN 只利用CNN 提取圖像空間特征，而沒有考慮時間關聯性，而在自動駕駛的場景圖像中，既包含了靜態的當前幀圖像的空間信息，又包含了動態的前后幀圖像的時間信息，因此如果直接采用原始的DQN 會導致時間特征的丟失，降低運動規劃指令預測的準確性。由于LSTM 能夠處理較長的時間序列，因此本文采用LSTM作為深度時空Q網絡的時間特征提取層，提取自動駕駛場景序列圖像的前后幀圖像的長期時間信息，解決強化學習在長期學習中存在的問題。本文設計的DSTQN特征提取模型由CNN與LSTM兩部分組成。

為兼顧提取駕駛場景圖像特征和網絡的輕量化問題，本文以文獻［16］的網絡為原型，設計本文的CNN結構，如圖2所示。該網絡一共有4 層，輸入圖像是將從車載相機中獲取的連續4 幀圖像，加入定向導航的指向信息處理后，將每幀圖像轉化成84×84 的8 位單通道彩色圖像，并堆疊起來構成一組84×84×4的圖像信息。接下來是3個卷積層，卷積核大小依次為8×8、4×4 和3×3，卷積核的數量分別為32、64 和64。第4 層為全連接層，輸出4×1×512的節點映射集合。

圖2 CNN結構Fig.2 CNN structure

本文采用的LSTM 結構源于文獻［14］，如圖3（a）所示，LSTM 神經元通過三個門來控制細胞狀態：遺忘門、輸入門和輸出門。遺忘門以上一層神經元的輸出ht-1和本層輸入的數據xt為輸入，通過Sigmoid 層處理得到ft，表示上一層細胞狀態Ct-1被遺忘的概率；輸入門第一部分是ht-1和xt通過Sigmoid 層（如圖3（a）中σ 所示）處理后輸出it，第二部分使用tanh 激活函數（如圖3（a）中tanh 所示），輸出為C't，it×C't表示多少新信息被保留；將舊細胞狀態Ct-1×ft加上it×C't，得到新的細胞狀態Ct；第三階段即輸出門，首先將ht-1和xt輸入Sigmoid 層，處理得到［0，1］區間的ot，然后將新的細胞狀態Ct通過tanh函數處理后與ot相乘得到當前神經元的輸出ht。

圖3 LSTM結構和深度時空Q網絡結構Fig.3 Structures of LSTM and deep spatio-temporal Q-network

雖然通過CNN 輸入前后4 幀的圖像來關聯短期時間序列，但是難以通過這種方式提取長期的時間信息，因此本文在利用CNN 提取自動駕駛圖像的空間特征之后，把空間特征信息通過LSTM 層進行時間處理，提取前后幀之間的時間信息，其過程如圖3（b）所示。對于CNN 提取的特征向量xt，然后將這個特征向量輸入到LSTM 網絡中，ht和ht-1即為當前LSTM單元和上一個單元的輸出。每個LSTM 單元輸出之后再通過1 個512 節點的全連接層后經過Q 網絡輸出Q值。本文設置的LSTM 網絡以T（本文中T=10，為經驗值）幀展開來進行訓練。與原始的DQN 相比，加入了LSTM 網絡的DSTQN 可以處理較長的輸入序列，并擁有尋找時間上的依賴關系的能力，實現駕駛場景圖像前后幀之間的信息關聯。

本文利用CNN 和LSTM 構成的深度時空神經網絡，提取連續幀圖像的空間和時間信息，并將時空信息輸入Q 網絡輸出合適的駕駛指令，實現在自動駕駛中的運動規劃。

1.3 定向導航運動規劃算法

傳統的基于深度強化學習的自動駕駛運動規劃算法，是汽車作為智能體通過選擇運動規劃的動作指令，在不斷的“試錯”中學習車道保持、避障等行為策略。然而，目前的算法均面向單一路徑，只適用于避障和循跡的場景，沒有考慮“T”形路口或“L”形路口等道路岔口，不能沿著指定路線進行運動規劃。而人類駕駛員在駕駛汽車時預先知道自己的目的地以及全局路徑路線，或者在行車導航上會清晰地標明行車路線，并在彎道處提醒駕駛員做出正確方向的轉彎操作。其中一種方法就是利用抬頭顯示（Head Up Display，HUD）設備，將全局導航信息投影在汽車擋風玻璃上，隨前方駕駛場景一同作為駕駛員的觀測畫面。受到HUD 的啟發，本文提出一種利用指向信息進行定向導航的方法，將全局路線的信息融入到深度強化學習中，實現自動駕駛車輛按照既定路線的定向導航運動規劃。

本文提出的定向導航自動駕駛運動規劃方法基于預先獲取車輛的全局行駛路線，在車載相機獲取環境圖像后，根據獲取的路線信息，在當前幀圖像中添加指向信號，如圖4所示。

圖4 定向導航指向信息示意圖Fig.4 Guide information schematic diagram for directional navigation

具體做法是：當需要直線行駛時，在圖像的道路上加入一個直行的箭頭作為定向導航信息來指引車輛直行；在路口處對當前圖像加入一個轉彎的箭頭作為定向導航信息來指引汽車進行左轉或右轉操作。需要注意的是，指向信息是人為在全局路線中預先設定的，在路口處加入左轉或右轉箭頭，其他位置則加入直行箭頭。由于CNN 能夠提取自動駕駛圖像中的特征，包括車道線、道路邊緣、其他障礙物等，而在基于學習的自動駕駛運動規劃模型中，輸入圖像是環境信息的主要來源，因此將指向箭頭融入輸入圖像，能夠利用CNN 提取全局路徑信息，實現定向導航。

本文設計的算法是通過將自動駕駛模擬環境中得到的圖像處理后作為狀態s輸入到深度時空神經網絡中，得到一系列的狀態序列，從而通過Q 網絡選擇一個動作a，車輛由此動作進行自動駕駛，并獲得下一狀態s'，不斷循環。因此，深度時空Q網絡中三元組：狀態空間、動作空間和獎勵函數的設計在模型學習中起到至關重要的作用。

1.3.1 狀態空間S的設計

狀態空間S是獲取的狀態s的集合，它反映汽車當前所處的環境。網絡通過對狀態感知來獲取信息，進而對汽車發出相應的指令。本文所采用的汽車仿真模擬平臺是英特爾公司研發的Carla［17］，通過在模擬器內部設置前向RGB攝像頭獲取駕駛路徑的實時彩色圖像。由于原始圖像尺寸過大，且均為三通道的圖像，需要大量存儲內存以及運算資源，并且增加網絡訓練難度和訓練時間，因此本文對采集到的圖像進行處理，將其轉換為“P”模式的單通道彩色圖像，并將尺寸處理成84×84。此外，本文將當前時刻t的最近前n幀（本文中n=3）作為前后幀信息，經過同樣的處理后與當前幀疊加為4通道的84×84圖像，作為狀態輸入到CNN中。因此，本文的狀態空間S如式（3）所示：

其中：t表示當前時刻，st為當前幀的狀態。

1.3.2 動作空間A的設計

動作空間A是車輛根據當前所獲得的狀態環境可能做出的動作集合，Q 網絡從此集合中選取一個動作指令，將指令傳遞給車輛執行，從而進入下一個狀態。汽車行駛動作的加速度與轉向角度都是連續且時刻變化的。基于這種情況，本文選擇轉向和加速作為二維矢量來控制車輛，即：A=(ste，acc)其中，轉向ste為0 表示直行，正、負值分別表示向右和向左轉動方向，且歸一化到-1～1；加速acc包含油門和剎車，分別用正、負值表示油門和剎車，同樣歸一化到-1～1。由于Q 網絡每次只能選取一個離散的動作，故本文將轉向和加速離散化。考慮到車輛在行駛過程中，左右轉彎的可能性均等，而向前加速比減速更多，因此在轉向上設置左右對稱的離散值，而在加速上選取非對稱值。此外，還考慮到轉彎的時候加速度不宜過大的情況。

綜合以上因素，本文選取的ste∈{-0.6，-0.2，0，0.2，0.6}五個級別，acc∈{-0.5，0，0.5，0.9}四個級別，并且將這二者組合成7個動作空間，如式（4）所示：

其中：a1=(0，0)，a2=(0，-0.5)，a3=(0，0.9)，a4=(-0.2，0.5)，a5=(-0.6，0.5)，a6=(0.2，0.5)，a7=(0.6，0.5)，分別表示靜止、直行減速、直行加速、加速同時小幅度左轉、加速同時大幅度左轉、加速同時小幅度右轉、加速同時大幅度右轉7個動作。

1.3.3 獎勵函數R的設計

獎勵是當前狀態下衡量智能體所做動作的好壞，以及對后續影響的優劣程度，在本文中起引導車輛學習駕駛的作用。本文將全局路線設計成由數個離散點組成的基準路線。如圖5 所示，基準線用白色虛線表示，Qj-1、Qj、Qj+1表示離散的子目標點。車輛在沿全局路線行駛的過程是不斷達到子目標點的過程，即到達一個子目標點后就朝下一個子目標點行駛。要使汽車學會在既定航線上行駛，需要同時關注橫向獎勵和縱向獎勵。橫向獎勵使車輛能夠學會如何行駛在車道范圍內而不超過車道中線和車道邊線；縱向獎勵使車輛能夠學會不斷靠近子目標點從而實現不斷前行。車輛按照指定路線行駛時獎勵為正，且車頭指向與道路方向夾角越小、車輛越靠近道路中線，獲得的獎勵越高；反之，當超過車道中線和車道外側，或者車頭偏離道路方向時，獲得的獎勵應該為負分。

圖5 獎勵函數中各參數示意圖Fig.5 Parameters in reward function

根據強化學習獎勵函數設計的經驗和對自動路徑規劃問題的理解，設計出獎勵函數如式（5）所示：

其中：v為車輛當前行駛速度；β為車頭偏離基準線的角度；D為汽車中心點距離上一個目標點的路徑在基準線上的投影長度；D0為當前位置對應附近兩目標點距離；d為車輛中心點偏移基準線的垂直距離；Sol為車輛超出對向車道線的面積比值；Sor為車輛超出道路邊線的面積比值；drw為車道寬度（此處是4）；ζ為權重，代表橫向與縱向規劃的獎勵所占比重大小，本文經過多次實驗，且為了獎勵汽車向前行駛，將ζ設置為0.6。P1為汽車中心點，P0為汽車中心點在基準線上的投影點。

1.4 網絡參數設置與模型訓練

在深度強化學習算法中，網絡參數對訓練的結果有較大的影響，因此參數的設置與調整十分重要。本文針對DSTQN模型所設置的參數如表1 所示。其中：折扣因子表示隨著訓練的不斷進行，時間遠近對當前訓練獲得獎勵的影響程度；初始學習率是指在開始訓練更新策略時更新網絡權值的程度大小；訓練批次大小指在訓練神經網絡時每一次送入模型的樣本數量；記憶池是用來存儲已訓練的樣本數據的；探索次數是指在探索一定次數后模型開始訓練；初始和終止探索因子表示在訓練不同階段探索時選取動作的概率大小。本文采取貪心算法［18］來決定動作的選取，采用一個初始探索因子ε來決定汽車選取動作是隨機探索還是根據Q值概率，然后根據訓練次數的加大，ε逐漸減小，直到等于終止探索因子ε'時維持不變。根據貪心算法，本文選擇最大Q值對應的動作，則能獲取趨于最優的自動駕駛運動規劃結果。

表1 DSTQN算法中的參數設置Tab.1 Parameter setting of DSTQN algorithm

2 實驗與結果分析

考慮到真實汽車駕駛環境復雜度和安全性問題，本文選取模擬駕駛平臺Carla 進行實驗。Carla 是英特爾實驗室AleyeyDosovitskiy 和巴塞羅那計算機視覺中心共同開發的開源駕駛模擬器，其逼真的模擬場景、大范圍的地圖、多路況和天氣以及各類汽車信息傳感器的模擬，很適合作為自動駕駛的模擬器。通過Carla 模擬器官方提供的應用程序編程接口可以獲取車輛的實時速度、加速度、朝向、碰撞數據、在環境中的GPS坐標等數據，以及交通規則評估數據，如汽車超出當前車道的面積比值等信息；還可以自主添加相機、激光雷達和傳感器來獲得駕駛圖像、障礙物信息和其他信息。本文選取的汽車模擬環境是一個小鎮，道路為雙車道，車道寬度為4 m，擁有直行以及“L”形路口和“T”形路口，選用的車輛寬度為2 m。

本文實驗的軟件環境為Ubuntu16.04，深度神經網絡框架采用Keras，硬件環境CPU 為Core I7-7700K（Quad-core 4.2 GHz），GPU為NVIDIA GTX 1080Ti，內存為32 GB。

2.1 模型學習性能測試

由于本文的目的是訓練自動駕駛的定向導航，因此在模擬器中未加入交通信號燈、行人和車輛等障礙物。為驗證模型在直行、左右轉彎中的表現，本文選取Carla 模擬器中兩條不同的復雜路徑，如圖6中R1 和R2 所示，起點用圓形表示，終點用正方形表示，這兩條路線既包含了較長的直線行駛，也包含了“L”形和“T”形路口所需的左轉彎和右轉彎，其中轉彎個數、直道數目和路徑長度如表2 所示。汽車每一輪訓練會隨機選取一個起始點，遇到終止條件結束并開始下一輪訓練。其中，終止條件包括汽車到達該路徑終點，或者行駛到對向車道、行駛出機動車道路、車頭指向與道路方向垂直、在路口走錯方向。

圖6 訓練和測試全局路徑Fig.6 Global routes for training and testing

在強化學習算法中，每一步迭代汽車獲得的獎勵是評判汽車強化學習效果的重要標準之一，同時測試自動駕駛模型時汽車每輪次所行駛的距離也是一個重要指標，所以本文使用汽車的單次迭代獎勵和每輪次汽車行駛的距離作為學習效果的表現形式。

表2 訓練和測試路徑的數據信息Tab.2 Data information of training and testing routes

為了體現本文方法的學習性能，采用原始的DQN［9］進行同樣的訓練來與本文提出的DSTQN（ζ=0.6）進行對比。圖7（a）表示模型學習過程中每一次迭代的獎勵，圖7（b）和（c）表示車輛在R1 和R2中訓練時每輪行駛的距離。由于迭代次數較多，因此圖7中的曲線都是進行了平滑處理的結果。可以看出在訓練初期獎勵很小且行駛距離很短，兩種方法相差不大，這個時候汽車處于觀察階段；而在訓練中后期，加入定向導航方法的獎勵快速升高并達到了獎勵值5，且在R1 和R2中的行駛距離分別達到400 m 和120 m，即能夠完成所有轉彎和直行的動作并到達2 條訓練路徑的終點。而未加入定向導航的原始DQN 方法學習速度要落后許多，獎勵值最高才到達3，且在R1 和R2中的行駛距離最遠分別才達到200 m 和70 m，分別在圖（6）中標號為3 和2 的矩形虛線框路口很難完成轉彎的動作，沒有按照既定的全局路線行駛。由此可以看出加入定向導航信息的DSTQN 比原始的DQN 學習速度快很多，能夠大幅度縮短訓練時間，并且最終獲得獎勵更高，行駛距離更遠，效果更好。

為了驗證獎勵函數中關于超參數ζ的設置，本文分別選取了ζ的幾個典型取值0.1，0.5、0.6 和0.9 來構造獎勵函數，并進行相同的訓練。由于選取不同的ζ時獎勵函數發生改變，每步獲得獎勵無法作為不同獎勵函數下汽車訓練效果的評價指標，因此選擇每輪行駛距離作為評價指標。對比實驗結果如圖7（b）和圖7（c）所示，可以看出在訓練了約1 200 輪之后，當ζ=0.6時，基于DSTQN 的方法在兩條路徑中行駛距離均最大，在路徑R1和R2分別達到了400 m和120 m；ζ=0.5時在兩條路徑上行駛距離分別最大為380 m 和110 m；ζ=0.9時最大行駛距離僅僅為300 m 和90 m；ζ=0.1時最大行駛距離分別為220 m 和90 m。可見ζ=0.6時算法學習性能最佳，在訓練相同輪數后行駛的距離最遠。

2.2 駕駛穩定性能測試

駕駛穩定性也是自動駕駛的一個重要指標。本文選取4條路經進行測試，如圖6中R3、R4、R5、R6 所示。這4 條測試路徑幾乎不與訓練路徑重復，但是又涵蓋了整個地圖場景，且同樣包含了直線路段、“L”形和“T”形路口等，每條路中轉彎個數、直道數目和路徑長度如表2所示。

在測試過程中，本文選取了原始DQN［9］、異步優勢演員-評論家（Asynchronous Advantage Actor-Critic，A3C）算法［19］、DDPG［11］和模仿學習的方法［17］進行對比測試。其中，DQN 和DSTQN 是本文訓練了120 萬步的模型，而A3C 方法則采用的是Intel公司在Carla中訓練了1 000萬步的模型，DDPG算法是本文訓練了100 萬步的模型，模仿學習算法是Carla 官方訓練的模型。為衡量駕駛穩定性，本文采用測試路徑整個過程的平均偏差dave作為評判標準，計算如下：

其中：di為車輛在完成當前測試路徑的第i個狀態時，從汽車的中心點到車道中心的垂直距離（如圖5中的參數d所示）；Ntest為測試當前路徑時總的迭代次數。

圖7 訓練的獎勵曲線與行駛距離曲線Fig.7 Reward and driving distance curves of training

表3 是不同方法在4 條測試路線的平均偏差。由表3 可以看出，DQN方法均未完成測試路線的巡航，A3C方法只完成了R3和R4，DDPG 只完成了R3和R4，模仿學習沒有完成R5，而DSTQN 方法由于采用了定向導航的方法則能全部完成。在完成的路徑中，除了R4路徑中A3C方法的平均偏差稍微低于DSTQN 之外，其他路徑中DSTQN（ζ=0.6）的平均偏差要比Intel 公司訓練的A3C 方法低很多。這是因為基于DSTQN 的方法能夠利用定向導航信息來完成既定行駛路線，且利用了駕駛圖像的時間和空間特征，運動規劃指令預測更加準確，因此車輛行駛更加穩定，效果更好，而未利用定向導航信息的方法對全局路徑掌握不足，通常只能完成直行而無法按照既定路線行駛，大多在彎道時就偏離了軌跡，特別是在有多個定向轉彎的路徑中（如R5），而只有基于定向導航指向信息的DSTQN 方法能完成路徑規劃順利到達終點。對于只有一個定向轉彎的測試路徑R4，由于對比方法A3C 是Intel 公司在Carla中訓練了1 000 萬步的結果，訓練次數遠大于本文提出的DSTQN（ζ=0.6）方法的120 萬步訓練，因此DSTQN 在具有長直線的測試路徑中具有更好的表現，而DDPG 和模仿學習在各條路徑下表現均不如DSTQN方法。

圖8 為三種方法在R6 第一個彎道（如圖6中標號為1 的虛線框所示）的駕駛場景截圖。可以看到在轉彎時，DDPG 方法能夠完成既定的右轉動作，但在轉彎后行駛到了道路中間；模仿學習方法轉彎時左右晃動嚴重，多次越過車道中線；DQN方法在拐彎處偏離了既定的右轉方向，導致測試失敗；A3C方法雖然能夠完成既定的右轉動作，但是右轉之后駛入了對向車道。只有DSTQN 方法在轉彎時較標準沿著安全的規定路線行駛，可以看出DSTQN方法行駛穩定性更高。

圖8 測試過程的駕駛場景截圖Fig.8 Snapshots of driving scenarios in testing process

本文對獎勵函數中不同超參數ζ訓練出的模型進行了測試：當ζ=0.1時汽車更加注重橫向獎勵，使其在各條路徑平均偏差都比較小，但無法完成有較多轉彎的R5 和R6 路線；ζ=0.5和ζ=0.6時所有路徑均能完成，但ζ=0.6時偏差距離小于ζ=0.5時的偏差距離；ζ=0.9時無法完成R3 和R5。綜合訓練過程中不同ζ的訓練效果和不同ζ模型的測試結果，可以看出，ζ=0.6時算法學習性能強，測試穩定性高，超參數ζ設置為0.6最為合適。

2.3 模型實時性測試

模型實時性也是自動駕駛的一個重要指標，直接反映了該模型從接收圖像輸入到輸出相應的駕駛動作需要的時間。對于高速行駛的汽車，實時性顯得尤為重要，本文分別測試了DQN 模型、A3C 模型、DSTQN 模型和模仿學習模型在四條測試路徑上的平均決策時間，如表4 所示。可以看到四種方法決策時間均小于0.2 s，本文設置圖像顯示幀率為每秒5幀，故四種方法均可在當前幀完成決策。由于DQN 方法模型結構較為簡單，實時性較高而決策效果不佳；A3C方法決策時間較長，若幀率過大則無法完成決策；DSTQN 方法和模仿學習方法決策時間都較短，能夠充分滿足決策問題對實時性的要求。

表4 實時性測試結果Tab.4 Testing results of real-time performance

3 結語

本文提出了一種基于深度時空Q網絡的定向導航自動駕駛運動規劃算法，該算法在原始DQN中加入了CNN 和LSTM網絡以同時提取駕駛場景的空間圖像特征和前后幀之間的長期時間特征；此外，為了利用全局導航信息，在輸入圖像中加入指向箭頭，實現定向導航的自動駕駛。實驗結果表明，與現有方法相比，本文方法具有更好的學習性能和駕駛平穩性，且能夠讓車輛按指定路線沿著全局導航路徑行駛，達到真正的自動駕駛目的。由于本文方法旨在解決自動駕駛的定向導航和行駛穩定性問題，因此本文方法沒有考慮道路上的障礙物，如車輛和行人。未來的工作將集中在處理避障問題上，并在模型中引入交通信號。