基于強化學習的改進NSGA-II 算法的城市快速路入口匝道控制

2023-09-15 02:44:42陳娟,郭琦

上海大學學報(自然科學版) 2023年4期

關鍵詞：模型

陳娟, 郭琦

(上海大學悉尼工商學院, 上海 201800)

近年來, 隨著我國社會經濟的飛速發展, 城市居民人口逐年增加, 汽車保有量也在不斷攀升, 而交通基礎設施的供應卻相對滯后, 由此產生了嚴重的城市交通擁堵問題. 交通擁堵使得快速路的利用率不高, 目前上海市快速路瓶頸點常發性擁擠占整個系統擁擠的50% 以上[1].交通擁堵還會進一步引發環境污染問題, 延長個人出行時間, 造成一定程度的經濟損失. 因此,采取控制方法提高路網通行效率, 緩解交通擁堵, 具有非常重要的現實意義.

研究表明, 城市快速路普遍存在著擁擠和堵塞現象, 而瓶頸點則是快速路能否運行暢通的關鍵. 匝道入口、匝道出口和出口下游連接區域是快速路的瓶頸區域, 是擁堵現象的高發區,匝道匯入區也是常發性瓶頸中的一種[2]. 在快速路已經建成的現有條件下, 由于經濟和環境原因, 通過增建基礎設施的傳統舉措往往在短期內無法實現. 通過改善匝道匯入方法以緩解交通擁堵已成為最具現實意義和研究意義的舉措. 快速路交通控制研究經驗也表明, 匝道控制是達到緩解交通擁堵這一目的最直接和最有效的控制方法.

已有的對快速路匝道信號控制方法的研究主要分為靜態控制、單點動態控制和動態協調控制. 靜態控制是根據歷史數據制定不同時段內各個匝道的協調控制策略, 并預置在控制機中, 但不會針對實時檢測信息做出響應. 典型方法有線性規劃[3], 具有簡單易行, 但靈活性較差的特點. 單點動態控制的基本目的是解決單個匝道的交通擁擠問題, 控制范圍為某一處匝道,利用匝道及其相鄰路段的實時檢測或預測數據代替歷史數據作為控制決策的基礎. 經典方法有ALINEA 方法[4], 具有控制靈活性較大, 但僅局限于單個匝道控制的特點. 動態協調控制兼具協調控制與動態控制的特征, 控制范圍為高速道路系統所有或局部區域部分匝道, 利用實時檢測或預測數據代替歷史數據作為控制決策的基礎. 動態協調控制分為系統最優協調控制、狀態調節器控制和啟發式協調控制[5], 能夠控制多個匝道, 但在實際應用中難以實現整個路網的系統最優.

本工作結合強化學習方法和非支配排序遺傳算法(non-dominated sorting genetic algorithm II, NSGA-II) 解決城市快速路入口匝道控制問題, 將基于競爭結構的深度Q 網絡(dueling deep Q network, Dueling DQN)、深度循環Q 網絡(deep recurrent Q network,DRQN) 和NSGA-II 算法結合用于匝道控制, 并與無控制情況和NSGA-II 算法進行了比較.

本工作的主要貢獻如下: ①基于交通流METANET 模型、宏觀尾氣排放和燃油消耗VTMacro 模型, 考慮最小化總花費時間(total time spent, TTS)、總尾氣排放(total emissions,TE)、總燃油消耗(total fuel consumption, TF), 將Dueling DRQN-NSGA-II 算法用于城市快速路入口匝道控制問題; ②提出的Dueling DRQN-NSGA-II 算法, 首次將NSGA-II 算法和基于強化學習的Dueling DQN、DRQN 算法相結合, 有效提高了NSGA-II 算法的多樣性; ③與無控制情況、Q 學習-NSGA-II (Q-NSGA-II)、深度Q 網絡-NSGA-II (DQN-NSGA-II)、基于競爭結構的深度Q 網絡-NSGA-II (Dueling DQN-NSGA-II)、深度循環Q 網絡-NSGA-II(DRQN-NSGA-II) 算法以及NSGA-II 算法比較, 本工作提出的Dueling DRQN-NSGA-II 算法控制效果表現最優. 實驗結果表明: Dueling DRQN-NSGA-II 能有效改善路網通行效率、緩解環境污染、減少能源損耗; 相對于無控制情況, TTS 減少了16.14%, TE 減少了9.56%, TF得到了43.49% 的改善.

1 文獻回顧

匝道控制是解決城市快速路擁堵問題的重要措施, 通過對匝道匯入車輛的管理和調節, 能夠確保快速路的高效運行.

由于快速路環境復雜, 若要更加全面地考慮快速路的效率, 達到更好的控制效果, 就無法避免多個控制目標的存在. 由于有些目標之間存在沖突, 因此需要考慮多目標控制方法來協調控制多個目標, 以取得多個目標之間的最優解. Meng 等[6]指出NSGA-II 算法設立的目標是不僅使總系統延遲最小化, 而且使與路段相關的公平指數最大化. 該算法能夠尋求帕累托(Pareto) 最優解. Maldonado 等[7]提出了一種多目標NSGA-II 算法, 可顯著提高交通流量. Tam′as 等[8]研究中的標準H∞控制能夠通過縮短車輛所花費的總時間來優化交通性能,減小CO2的排放因子. Xie 等[9]考慮了匝道控制和可變限速策略, 提出了多目標粒子群優化算法. 該算法有效提高了路網的移動性, 降低了車輛碰撞風險, 減少了碳排放. Yu 等[10]針對多個匝道的高速公路考慮了不同車型, 提出了可變限速策略, 并使用遺傳算法求解該問題. 該算法能有效提高路網運行效率、減少排放. Chen 等[11]提出了一種基于聚類預測的動態多目標優化算法, 能有效緩解交通擁堵, 減少尾氣排放與能源消耗, 但運算效率較低. 陳娟等[12]考慮到快速路的多種車型, 提出了模糊非支配排序遺傳算法, 有效改善了環境和道路通行效率.Kotsialos[13]將協同運行模式策略設計為最優控制問題, 并使用隨機搜索算法求解靜態問題.結果表明, 所采用的算法是合理的, 可以減少TTS, 減少路網的總排放, 但需要大量計算時間才能收斂到足夠質量的解.

在僅考慮單個匝道的情況下, Davarynejad 等[14]提出了一種基于Q 學習的密度控制方法.但該方法未與其他匝道控制方法進行比較, 不能判斷其優劣. Veljanovska 等[15]的研究雖然沒有考慮實際場景, 但方法簡單, 不需要對交通參數進行預測. 典型的強化學習方法考慮使用離散狀態表示, 但這會導致復雜問題的緩慢收斂, Rezaee 等[16]采取k 近鄰時域差分來表示連續狀態空間. 但該研究僅考慮了單匝道控制方法, 沒有協調多智能體情況, 無法達到整體的性能最優. Lu 等[17]的研究考慮了交通事故, 所提出的間接強化學習方法在大多數場景下性能更優,且學習速度更快. Fares 等[18]設計了一種基于密度控制智能體的強化學習方法, 平衡了快速路的需求和容量. Ivanjko 等[19]使用VISSIM 作為仿真軟件, 將最大入口匝道隊列長度限制在一定上限, 對Q 學習進行調參后, 與無控制和未調參情況比較, 匝道控制效果更好. 段薈等[20]結合了協同運輸管理(collaborative transportation management, CTM) 模型和Q 學習對匝道匯入率進行調節. 但該研究是在假設駕駛員對限速的遵從度為100% 的基礎上進行的, 沒有考慮不同駕駛員對限速的實際遵從情況, 沒有探討不同的參數選取及函數設置下策略的學習控制效果. Wu 等[21]提出的基于深度演員-評論家的差分變速限制策略可有效提高快速路通行量, 減少排放, 增強安全性. 由于路網上的交通攝像機可以覆蓋更大的區域, 提供更詳細的交通信息, Liu 等[22]提出了一種深度強化學習方法, 以探索交通視頻數據在提高匝道控制效率方面的潛力. 該方法能有效縮短主線行駛時間和入口匝道車輛排隊時間, 并增加了流區下游的通流量.

2 問題描述

在研究快速路交通控制問題時, 通常使用TTS 來衡量路網通行效率. 此外, 本工作還考慮了路網中車輛通行對環境和能源消耗的影響, 將TE 和TF 設置為性能指標. TE 和TF 主要參考了Zegeye 等[23]研究中的METANET 模型和VT-Macro 模型.

2.1 METANET 模型和VT-Macro 模型

2.1.1 宏觀交通流METANET 模型

METANET 模型是由Papageorgiou 等[24]于1990 年在對巴黎南部某地區進行交通模型構建及控制時提出的. 該模型是一種在時間和空間上都離散的二階模型. 它將快速路的連續路段離散化分成若干路段, 流量參數可能因路段的不同而有所差異. 劃分的路段數越多, 每條路段的平均長度就越短, 就能更加準確地表示路段間交通流參數的互異性.

(1) 車輛守恒方程描述的是流量與密度的關系, 即

式中:k表示第k個時間間隔;i表示第i個路段;T(h)表示離散時間間隔;ρi(k)(veh/(km·lane))表示第k個時間間隔路段i的車輛密度;Li(km) 表示第i個路段的長度;λi表示第i個路段的車道數;qi(k) (veh/h) 表示第k個時間間隔路段i的平均車流量.

(2) 流量密度方程描述的是每路段的駛出交通量等于車流密度、平均速度以及車道數的乘積這一基本關系, 即

式中,vi(k) (km/h) 表示第k個時間間隔路段i的車輛平均速度.

(3) 動態速度密度方程為

式中:τ、υ、κ和δ表示路網交通特性的相關參數, 依次為時間相關常數、期望常數、修正常數和匝道匯入影響系數;V(ρi(k)) (km/h) 表示駕駛員的平均期望速度, 也稱為穩態速度;qo(k)(veh/h) 表示第k個時間間隔從入口匝道o處匯入主路的平均車流量.

(4) 穩態速度密度方程描述的是穩態速度與路段密度之間的關系, 即

式中:αi表示模型參數;vf,i(km/h) 表示快速路路段i的自由流速度;ρcr,i(veh/(km·lane))表示路段i的臨界密度.

(5) 起點排隊模型主要用于描述起始路段(主路起始路段或入口匝道) 處的車輛排隊情況.起點排隊模型包括匝道排隊模型以及匝道匯入主線模型. 匝道排隊長度表達式為

式中:do(k) (veh/h) 表示入口匝道o處第k個時間間隔的平均到達車流量;wo(k) (veh) 表示入口匝道o處在第k個時間間隔的車輛排隊長度.

上述匝道排隊長度中的qo(k) 可由以下式子求得, 即

式中:ro(k)∈[0,1] 表示入口匝道匯入率, 若ro(k) = 1, 則表示沒有實施匝道控制, 若ro(k) = 0, 則表示不允許車輛從匝道匯入主路;Qo(veh/h) 表示入口匝道飽和流量;ρmax(veh/(km·lane)) 表示主路路段的最大車流密度; 最大輸出量(k) (veh/h) 是由入口匝道流量需求(k) (veh/h) 和相連快速路路段的最大可用容量(k) (veh/h) 決定的.

2.1.2 宏觀尾氣排放和燃油消耗VT-Macro 模型

為了權衡模型的預測精度與計算時間, 可以采用VT-Macro 模型來計算尾氣排放量與燃油消耗量. VT-Macro 模型是結合METANET 模型和VT-Micro 模型產生的, 能夠動態反映整體汽車尾氣排放量和燃油消耗量[23]. 首先, 基于METANET 模型的平均速度等交通狀態給出加速度算式. 其次, 構建尾氣排放量和油耗量與車輛平均速度、平均加速度的回歸方程模型.

VT-Macro 模型的第k個時間間隔路段i的車輛時間加速度(k) (km/h2) 表示為

對應的快速路路段i上的車輛數(k) (veh) 為

第k個時間間隔從路段i到路段i+1 的車輛時空加速度(k) (km/h2) 表示為

對應的從路段i到路段i+1 的車輛數(k) (veh) 為

除在同一道路連續路段上行駛車輛的時空加速度外, 入口匝道處的平均時空加速度aon,o(k) (km/h2) 和對應的車輛數non,o(k) (veh) 分別為

式中,qon,o(k) (veh/h) 為實際入口匝道流量qo(k).

綜合上述車輛平均速度、加速度和車輛數, 可以得到宏觀車輛尾氣排放和燃油消耗的VT-Macro 模型. 以時間加速度為例, 第k個時間間隔路段i的車輛燃油消耗或尾氣排放量為

式中:y ∈{CO,HC,NOx,FC}, 其中CO、HC、NOx為常見的尾氣污染物, FC 為燃油消耗;Py表示參數矩陣[23]. 其余兩種加速度的指標算式(k)、Jy,on,o(k) 與上式類似. 快速路路段i在k個時間間隔的車輛燃油消耗或尾氣排放量為

式中: on 表示入口匝道;(k) 表示主路在第k個時間間隔路段i上正常行駛產生的尾氣排放或燃油消耗量;(k) 表示主路在第k個時間間隔路段i上因停車而產生的尾氣排放或燃油消耗量;Jy,o,on(k) 表示在第k個時間間隔入口匝道o上產生的尾氣排放或燃油消耗量.

2.2 性能指標

2.2.1 總花費時間

TTS 主要包括路網中車輛的總行程時間(total travel time, TTT)與入口匝道車輛排隊的總等待時間(total waiting time, TWT). TTS 最小化是指在路網中花費的時間最小化. TTS(veh·h) 具體計算方式表示為

式中,wo,i(k)(veh) 表示第k個時間間隔路段i上第o個入口匝道的排隊長度.

2.2.2 總尾氣排放與總燃油消耗

TE 是指一定時間內通過既定路網的所有車輛產生的尾氣量總和. TF 是指一定時間內通過既定路網的所有車輛消耗的燃油總量. 根據VT-Macro 模型, 本工作主要關注的尾氣為CO、HC、NOx. 各類尾氣的TE (kg) 與TF (L) 的計算公式為

為了環保和低耗, 因此設置最小化尾氣排放量和燃油消耗量. 由于TE 和TF 是兩種不同類型與量綱的指標, 不能直接相加, 本工作先將其標準化處理后再相加, 即將式(21) 轉變為

式中:JCO、JHC、JNOx三者之和表示TE;JFC表示TF;Jnc,emission(kg) 和Jnc,FC(L) 分別表示無控制情況下的路網尾氣排放總量和燃油消耗總量, 均可以通過后續的仿真實驗得到具體的數值.

圖1 為本工作算法模型的交互框架. 本算法由Dueling DRQN 和NSGA-II 組成. Dueling DRQN 從NSGA-II 中獲得解間距值, 得到狀態后由Dueling DRQN 將動作種群比例參數輸出給NSGA-II. Dueling DRQN-NSGA-II 將METANET 模型和VT-Macro 模型[23]轉化成最小化TTS、TE 和TF 問題, 之后再將匝道控制率給到METANET 模型和VT-Macro 模型,使得匝道車輛能夠匯入主路.

圖1 算法模型交互框架Fig.1 Algorithm model interaction framework

本工作對多目標問題適應度函數設計如下: 根據對TTS、TE 和TF 這3 個性能指標的描述, 盡可能地減小TTS、TE 和TF. 因此本工作采用如下的NSGA-II 算法的適應度函數:

式中:J1(k)、J2(k) 分別表示第k個時間間隔的TTS、TE 和TF;Jnc,1(k) (veh·h) 表示無控制情況下的TTS;ω1,ω2表示各目標的重要程度, 分別為0.5、0.5.

3 基于強化學習的改進NSGA-II 算法Dueling DRQN-NSGA-II

3.1 強化學習問題描述

本工作將NSGA-II 中的種群視為智能體, 最終目標是種群比例參數的學習. 智能體通過感知種群多樣性變化來控制種群比例參數, 進而控制種群進化方向. 當解間距相較于初始種群減小時, 說明種群比例設置是合理的.

3.1.1 狀態描述

間距S反映了算法獲得帕累托前沿(Pareto front, PF) 的均勻性. 一般而言, 間距越小,說明算法得到的最優解集在目標空間越接近等間距分布.

設算法搜索到的具有Pareto 性的前沿解的個數為|A|, 則定義解間距指標Sp為

式中:其中表示di的平均值,M表示目標函數的個數.Sp越小說明得到解的分布越均勻, 種群多樣性越好.

狀態空間由種群解間距值變化劃分為9 個, 具體定義如表1 所示, 其中分別表示初始種群1 和初始種群2 的解間距,分別表示第t代種群1 和種群2 的解間距.

表1 狀態定義及意義Table 1 States definition and significance

3.1.2 動作描述

強化學習Agent 的動作是對種群比例參數的調整, 包含增加、不變、減少3 種, 具體計算公式為

式中,a(t)、a(t-1) 分別表示第t和t-1 代種群的分割比例參數.

3.1.3 獎賞函數描述

依據解間距變化決定Agent 的獎賞, 目標是學習最優的比例參數β(t).、分別表示第i個種群第t代的解間距和初始種群i的解間距, 具體計算公式為

3.2 基于競爭結構和深度循環的Q 網絡Dueling DRQN

本工作結合Dueling DQN[25]和DRQN[26], 提出了改進DQN 算法, 稱為基于競爭結構和深度循環的Q 網絡(Dueling DRQN) 算法.

Dueling DQN 將原有的DQN 算法的網絡輸出分成了兩部分——即值函數V和優勢函數A, 在數學上表示為

式中,α、β表示兩個全連接層網絡的參數.

Dueling DRQN 與DQN 算法的不同之處在于, 將DQN 中第1 個全連接層的部件替換成了長短期記憶單元(long short-term memory, LSTM), 并且把Q值更新分開成兩個部分: 一個是值函數; 一個是獨立于狀態的動作優勢函數.

Dueling DRQN 算法偽代碼的具體表示如下.

3.3 Dueling DRQN-NSGA-II 強化學習問題描述

本工作提出的Dueling DRQN-NSGA-II 算法主要包括3 個部分: 基于競爭結構的深度Q網絡(Dueling DQN)、深度循環Q 網絡(DRQN) 以及基于NSGA-II 的主算法. 算法流程如圖2 所示.

圖2 基于強化學習的改進NSGA-II 算法流程圖Fig.2 Flow chart of the improved NSGA-II algorithm based on reinforcement learning

本工作提出的Dueling DRQN-NSGA-II 算法步驟如下.

步驟1 初始化參數, 設置算法相關參數: 種群迭代次數G; 種群規模N; 交叉概率Pc; 變異概率Pm; 初始化回放記憶D; 可容納數據條數N; 學習率α以及折扣率γ; 利用隨機權重θ來初始化動作行為值函數Q.

步驟2 產生初始種群, 計算初始種群解間距值.

步驟3 對種群進行快速非支配排序和擁擠度計算.

步驟4 初始按照比例0.5 拆分種群, 后續按照動作拆分種群, 通過雙種群進化策略獲得新一代種群.

步驟5 判斷是否達到最大迭代次數. 如果是, 則結束迭代; 否則, 執行步驟6. 計算種群的解間距, 獲得狀態s.

步驟6 計算獎勵值R, 根據3.2 節的Dueling DRQN 算法更新Q值表.

步驟7 采用ε-貪心策略選擇動作a, 更新種群比例參數, 轉到步驟3.

4 實驗

4.1 實驗設置

本工作建立的測試單入口匝道路網如圖3 所示. 該路網的快速路主路包括3 個車道, 總長為1 500 m. 將該路網劃分為3 個路段, 每條路段長為500 m. 在路段2 處有一個入口匝道, 匝道為單車道. 本工作采用METANET 模型和VT-Macro 模型, 分別模擬路網的交通行為及計算尾氣排放量與燃油消耗量, 模型參數參考文獻[27]. 主路和入口匝道的交通需求量如圖4 所示, 通過模擬一個早高峰現象, 設置主路及入口匝道的通行能力分別為2 000 和1 500 veh/(km·lane).

圖3 單匝道快速路網Fig.3 Freeway network with an on-ramp

圖4 主路和入口匝道的交通需求量Fig.4 Traffic demands of the mainline and the on-ramp

4.2 實驗結果

4.2.1 算法參數設置

為了驗證本算法的有效性, 首先在Dueling DRQN-NSGA-II 不同超參數下測試, 選擇最優超參數.

在其他超參數都相同的條件下, 分別測試了折扣因子GAMMA 值為0.90、0.95、0.99, 以及學習率(learning rate, LR) 為0.01、0.001 和0.000 1 時的收斂情況, 并以解間距作為訓練收斂的評估指標. 圖5 為不同超參數下的解間距值圖. 可以看到: 折扣因子和學習率的不同均能影響算法的收斂; 很顯然, 當折扣因子為0.95, 學習率為0.001 時, 種群的解間距能夠快速降低并保持在較小的范圍內, 說明此時得到的解更加均勻.

圖5 不同超參數下的解間距值Fig.5 Solution spacing values under different hyperparameters

此外, 為了驗證Dueling DRQN-NSGA-II 算法改進部分的有效性, 以TTS、TE、TF 目標函數之和為適應度值, 分別采用NSGA-II、Q-NSGA-II、DQN-NSGA-II、Dueling DQNNSGA-II、DRQN-NSGA-II、Dueling DRQN-NSGA-II 算法進行求解, 得到如圖6 所示的算法收斂性對比圖.

圖6 算法收斂性對比Fig.6 Comparisons of algorithm convergence

由圖6 收斂曲線的對比分析可知, 將強化學習方法與NSGA-II 算法結合后, 可提升算法的收斂速度; 使用本工作提出的Dueling DRQN-NSGA-II 算法, 可使收斂速度更快, 種群適應度值更優, 并由此證明了Dueling DRQN-NSGA-II 算法可以改善NSGA-II 算法的收斂性.

4.2.2 實驗結果分析

為了便于實施仿真和分析仿真結果, 本工作假設仿真路網中駕駛員對限速的遵守率為100%, 即a= 0; 仿真時長取3 h; 采樣周期取10 s; 控制周期取1 min. 本工作從路網主路的交通狀態及匝道排隊, 分別對無控制、NSGA-II 控制、Q-NSGA-II 控制、DQN-NSGA-II 控制、Dueling DQN-NSGA-II 控制、DRQN-NSGA-II 控制和Dueling DRQN-NSGA-II 控制這7 種控制算法進行對比分析, 最后根據仿真結果對這7 種控制算法的路網整體性能指標進行分析說明.

(1) 各控制算法下的交通狀態分析.

圖7 為無控制、NSGA-II 控制、Q-NSGA-II 控制、DQN-NSGA-II 控制、Dueling DQNNSGA-II 控制、DRQN-NSGA-II 控制和Dueling DRQN-NSGA-II 控制這7 種控制算法下路段2 的交通狀態變量圖. 圖7(a) 為這7 種控制算法下路段2 的車流量. 可以看出: 相對于無控制情況, 另外6 種控制算法在前1 小時仿真時間內能夠使路網中有更多的車輛通行. 圖7(b)為這7 種控制算法下路段2 的車輛密度. 可以看出: 無控制情況下的車輛密度甚至會超過臨界密度(35 veh/(km·lane)), 易造成擁堵; 而在另外6 種控制算法下則表現良好, 始終將密度控制在臨界密度以下. 圖7(c) 為這7 種控制算法下路段2 的車輛速度. 可以看出: 無控制情況下車輛速度有較大波動, 而在另外6 種控制算法下的車輛速度比較均勻, 且能夠以較高速度通過路段2.

圖7 7 種控制算法下路段2 的交通狀態變量Fig.7 Traffic conditions of segment 2 using 7 control algorithms

圖8 為無控制、NSGA-II 控制、Q-NSGA-II 控制、DQN-NSGA-II 控制、Dueling DQNNSGA-II 控制、DRQN-NSGA-II 控制和Dueling DRQN-NSGA-II 控制這7 種控制算法下的匝道排隊長度. 可以看出: 無控制情況下的匝道排隊長度最長, 造成擁堵, 甚至會造成近100 輛車的排隊; 而其他6 種控制算法有效緩解了擁堵, 且排隊長度均不超過30 輛車, 說明這6 種控制算法能夠有效解決匝道控制問題.

圖8 7 種控制算法下的匝道排隊Fig.8 Queue length of the on-ramp with 7 control algorithms

(2) 路網性能指標評價.

本工作選取了TTS、TE 和TF 這3 種評價路網的性能指標, 其中TTS 代表路網的運行效率, TE 體現了仿真時段內路網中通行車輛對環境的影響, TF 則顯示了交通控制在經濟效益上的作用. 表2 為7 種控制算法下單匝道快速路網性能的評價指標.

表2 7 種控制算法下單匝道快速路網性能的評價指標Table 2 Evaluating indicators of single ramp expressway network with 7 control algorithms

由表2 可知, 在沒有實施匝道控制情況下, TTS、TE 和TF 在6 種控制算法下均為最大值. 這說明在無控制情況下路網的運行效率較差, 路網中通行車輛對環境污染較多, 且燃油消耗多, 加重了經濟上的負擔. 在NSGA-II 算法控制下, TTS、TE 和TF 均得到了有效改善, 其中TTS 減少了9.73%, TE 減少了5.32%, TF 減少了39% 以上. 與無控制和NSGA-II 控制算法相比, 結合強化學習和NSGA-II 算法的另外5 種算法控制效果更好, 各項指標均優于無控制情況, 其中Dueling DRQN-NASGA-II 算法表現最好, TTS 減少了16.14%, TE 減少了9.56%, TF 得到了43.49% 的改善.

5 結束語

在考慮環境和能源指標的情況下, 本工作提出的Dueling DRQN-NASGA-II 算法能夠有效解決城市快速路交通擁堵問題. 為了驗證本算法的有效性, 首先對Dueling DRQN-NSGA-II算法進行調參, 選取最適合的超參數. 接著, 通過與NSGA-II 算法的對比, 驗證了5 種算法的有效性. 之后, 分析了無控制、NSGA-II 控制、Q-NSGA-II 控制、DQN-NSGA-II 控制、Dueling DQN-NSGA-II 控制、DRQN-NSGA-II 控制和Dueling DRQN-NSGA-II 控制這7 種控制算法下路段2 的車流量、車輛密度、車輛速度和匝道排隊情況.

總體而言, 相對于無控制情況, NSGA-II 算法能夠緩解擁堵問題, 而結合了強化學習后的算法比NSGA-II 表現更優. 另外, Q-NSGA-II、DQN-NSGA-II、Dueling DQN-NSGAII、DRQN-NSGA-II 和Dueling DRQN-NSGA-II 控制算法也在一定程度上改善了TTS、TE和TF. 在包括NSGA-II 算法的6 種控制算法中, 效果最好的是Dueling DRQN-NSGA-II. 該控制算法使得路段2 的車流量最大、密度最小、速度最快.

此外, 本工作研究的是單入口匝道控制, 但在實際情況下, 城市快速路大多為多入口匝道.因此, 如何將深度強化學習算法應用于多匝道控制, 是未來的研究方向之一.