結合領域經驗的深度強化學習信號控制方法

2024-01-13 10:37:54張萌王殿海金盛

浙江大學學報(工學版) 2023年12期

張萌，王殿海，金盛

(浙江大學建筑工程學院，浙江杭州 310058)

針對交叉口信號優化控制的研究按照控制方法可劃分為3 類：基于歷史交通流數據的預定時信號控制[1]，基于實時交通狀態的響應控制(包括感應控制[2]、自適應控制[3])以及基于模型的協調控制.采用上述方法進行優化交叉口信號控制存在一定的理想假設，具有一定的局限性.隨著人工智能技術和交通信息采集技術的發展，通過數據驅動實現信號控制成為交叉口信號優化的新發展方向.

強化學習屬于人工智能技術，以馬爾可夫決策為基礎，通過反饋機制進行學習，適用于具有順序決策特征的交通信號控制問題.由于交通狀態的隨機性、復雜性和動態性，傳統強化學習在表達交通狀態時存在局限.將深度學習與強化學習結合的深度強化學習方法使得強化學習應用于交通信號控制的研究有了新的突破.學者開始應用深度強化學習方法解決交叉口信號控制問題.Genders 等[4]提出使用離散狀態編碼表示交叉口的交通狀態，并使用深度學習中的卷積神經網絡提取車輛速度和位置特征.與使用排隊車輛數為特征的淺層神經網絡相比，Genders 等[4]的方法控制效果更佳，證明了深度卷積神經網絡的有效性.Li 等[5]將堆疊自編碼器(stacked auto-encoder,SAE)引入強化學習，證明了在減少排隊長度上，結合深度學習網絡與強化學習的信號控制方法相比于傳統的強化學習信號控制方法更有優勢.Gao 等[6]基于離散狀態編碼和深度Q 網絡 (deep Q network, DQN)算法進行仿真實驗，證明了深度強化學習方法在車輛延誤指標上優于最長隊列優先(longest queue first, LQF)算法和定時信號控制方法.Mousavi 等[7]使用基于策略和基于值函數的深度強化學習方法控制信號燈；與定時信號控制方法相比，2 種深度強化學習方法均能夠顯著降低車輛的延誤.Wei 等[8]在DQN 算法的基礎上提出分區記憶和相位門控機制，在仿真交通流數據和真實交通流數據上驗證了所提方法的優越性.Liang 等[9]基于雙決斗深度Q 網絡(double-dueling deep Q network, 3DQN)[10]算法進行信號優化，采用離散狀態編碼表示交叉口狀態，動作空間為延長5 s 或縮短5 s 某個相位的持續時間；獎勵函數采用動作執行前后交叉口內車輛等待時間的差值.孫浩等[11]提出基于深度分布強化學習單交叉口信號控制方法.劉志等[12]通過設計優先級序列經驗回放和動作獎懲系數改進深度強化學習算法的性能，所提算法在車輛平均等待時間和路口總排隊長度上優于實際配時策略和傳統的DQN 算法.劉智敏等[13]構建基于相鄰采樣時間步實時車輛數變化量的獎勵函數，使用改進的DQN 算法進行信號控制.趙乾等[14]基于近端策略優化 (proximal policy optimization, PPO)算法進行單交叉口信號控制并設計NEMA 雙環相位結構的動作空間，通過設置低中高交通需求實驗驗證了所提算法在控制排隊長度和車均延誤方面優于固定配時方案.

基于深度強化學習的城市單交叉口信號控制的研究在狀態定義、動作空間設置、獎勵函數、網絡結構等方面均進行了較為深入的探索，但在實踐中依然存在訓練過程不穩定、迭代收斂慢以及動作頻繁改變的問題.本研究在深度強化學習算法3DQN 的基礎上增加模型預訓練模塊，通過引入Max-Pressure 方法的經驗對智能體的網絡進行初始化，在1 步Q 學習損失的基礎上引入n步Q 學習損失、監督式邊際分類損失和正則化損失，引導智能體模仿Max-Pressure 方法的動作策略，從而得到初始化參數較好的智能體.同時，本研究引入平均車頭時距，提出根據排隊長度動態設置相位綠燈時間的方法，以減少相位頻繁改變帶來的綠燈損失問題.以杭州市蕭山區機場城市大道和博奧路形成的單交叉口為例，在仿真平臺SUMO上對本研究算法進行驗證.

1 基于深度強化學習的信號控制方法

1.1 模型建立

深度強化學習模型的結構如圖1 所示.強化學習算法包含5 個要素：環境、狀態、動作、智能體和獎勵.在單交叉口信號控制問題中，一般將交通信號燈抽象為強化學習模型當中的智能體，交叉口處車輛的運行狀況看作模型中的環境.基于深度強化學習的交通信號控制方法可以概括為4 個步驟：1）環境將交叉口處的車輛運行狀況傳遞給作為智能體的交通信號燈；2）交通信號燈根據各個車道內車輛的運行狀況，做出相應的動作，即激活相應的相位，使得對應方向的車流駛離交叉口；3）動作結束后，交通信號燈收集交叉口車輛的變化情況（如排隊長度的變化、延誤的變化的反饋信息）作為之前動作的獎勵；4）返回步驟1）.

圖1 深度強化學習模型示意圖Fig.1 Schematic diagram of deep reinforcement learning model

基于深度強化學習算法的智能體通過以上4 個步驟與環境進行不斷地交互并在該過程中收集經驗，通過策略迭代或值迭代的方式優化自身網絡參數，以獲得最優的控制策略.為了保證智能體能夠學習交叉口處車流的變化并做出合適的動作，須合理定義深度強化學習模型中的要素.本研究以杭州市蕭山區機場城市大道和博奧路形成的單交叉口為例，在適當簡化交通場景的基礎上，依據交通控制領域內的相關指標來設計狀態特征、動作和獎勵函數.

1.1.1 狀態狀態的設計對于深度強化學習模型的學習有至關重要的作用.狀態的設計可以分為2 類：1）采用如交通評價指標的統計值來刻畫交叉口每條車道內的交通需求以及交通狀態（如每條車道的排隊長度[15]、交通流量[16]、車流密度[17]等）；2）使用圖像表示方法對交叉口的每條車道進行離散化編碼，即將每條車道劃分為長寬固定的元胞，當元胞中含有車輛時，使用與元胞對應的速度矩陣和位置矩陣表示車輛的信息，進而利用卷積神經網絡處理矩陣.考慮到狀態的維度不宜過大，且使用如交通評價指標的統計值可以達到與圖像表示方法同等的控制效果[17]，本研究采用狀態1）表示方法.結合交叉口的時空因素，采用與交叉口相連的進口道的排隊強度Iq,in，車流強度ID,in、車輛平均等待時間強度Iw,in、出口道的排隊強度Iq,out、車流強度ID,out、當前相位i的獨熱編碼以及相位綠燈時長是否達到最小綠燈時間作為交叉口的狀態特征.其中每條車道的排隊強度Iq、車流強度ID、車輛平均等待時間強度Iw的定義式為

式中：Nstop為車道內速度低于0.1 m/s 的車輛；Nmax為單條車道所能容納的最大車輛數；Nveh為車道內的車輛數；Ti為速度低于0.1 m/s 的每一輛車的等待時間,Tmax為駕駛員容忍的最大等待時間，設定為60 s.以杭州市蕭山區機場城市大道和博奧路形成的單交叉口為例，其東西南北方向各有4 條進口道和3 條出口道，總計81 個特征構成該交叉口的狀態特征空間，如圖2 所示，其中0,···,Pi,···,0 為當前相位i的獨熱編碼，Pi=1.

圖2 狀態向量表Fig.2 State vector scale

1.1.2 動作動作的設置可以分為4 類：1）設置相位持續時間、2）設置相位綠信比、3）保持或切換當前相位、4）從相位集合中選擇某一相位.固定相位相序的動作設置須提前考慮各進口道的車流量制定相位方案.當相位方案改變時，智能體須重新訓練.本研究采用動作設置方案4）.如圖3所示為本研究采用的8 種相位.智能體將在每個決策時刻根據當前狀態從動作空間中選取1 種相位.如果選擇的相位與信號燈當前相位一致或未達到最小綠燈時長，則延長信號燈顯示相位的綠燈時間；否則先執行3 s 黃燈，再根據選擇的動作切換至對應的相位.

圖3 交叉口相位方案集合Fig.3 Combination diagram of intersection phase scheme

1.1.3 獎勵函數傳統信號控制領域已總結出較多的交通指標來評價交叉口處車輛的通行效率，比如排隊長度、吞吐量、車輛延誤等.交叉口信號控制的目標是降低所有通行者的平均旅行時間.在強化學習處理信號控制問題當中，獎勵函數一般通過動作執行前后某些指標的變化來給予智能體反饋，比如排隊長度的變化[18]、延誤時間的差值[13].由于不考慮行人過街，本研究將降低交叉口所有車輛的平均旅行時間作為優化目標.在仿真過程中，車輛的旅行時間無法通過直接測量得到，Zheng 等[17]指出使用交叉口的排隊長度作為獎勵函數與優化車輛的旅行時間具有較強的相關性，因此本研究使用動作執行前后的排隊強度之差 ΔL作為獎勵函數的首要指標.考慮到交通量小的方向排隊強度一直很小，智能體在選擇相位時可能忽略該方向的車輛，導致車流量小的方向單車延誤較高，在排隊強度指標的基礎上加入車輛最大等待時間Wmax，引導智能體更加合理地選擇相位.智能體的獎勵函數定義式為

式中：k1、k2為每個指標對應的權重系數，取值均為1.

1.2 預訓練模型

通過專家數據對模型進行初始化訓練以獲得性能較好的策略是解決深度強化學習方法學習速度慢的方法之一.Hester 等[19]將人類玩游戲的經驗數據與深度強化學習進行融合，提出學習演示的深度 Q 學習(deep Q-learning from demonstrations,DQFD)方法.DQFD 通過離線的方式利用人類的經驗數據對DQN 算法中的神經網絡進行初始化，緩解了深度強化學習模型初始化不穩定的狀況，在一定程度上加快了網絡的學習.與DQFD 解決的問題不同，在交通信號控制領域中不存在專家軌跡樣本.本研究須解決2 個問題：1)采用何種交通控制方法作為模仿的專家方法，2)如何利用該交通控制方法產生的數據對深度強化學習智能體進行預訓練.

Max-Pressure 方法[20]旨在通過最小化交叉口的壓力來平衡相鄰交叉口之間的排隊長度，從而降低過度飽和的風險.在Max-Pressure 方法中，信號燈每間隔固定的時間切換相位，其中相位根據各個相位的壓力差從給定的相位方案中選取，相位方案如圖3 所示.壓力差定義為相位控制的進口車道排隊車輛數與相應出口車道排隊車輛數的差值.Max-Pressure 方法與本研究設計的智能體動作空間一致，且該方法作為對比方法在以往的強化學習信號控制研究中均表現出較好的控制效果，因此Max-Pressure 方法相比于其他方法更加適合作為本研究中智能體模仿的專家方法.

在選定專家方法后，可以通過仿真實驗獲取專家方法的經驗數據，即形如狀態st、動作at、下一時刻的狀態st+1、獎勵rt的序列.具體來說，在每次執行Max-Pressure方法選擇動作前，先根據狀態要素獲取交叉口處的st，并儲存Max-Pressure 方法給出的at，在下次動作選取之前，獲取交叉口處的st+1以及該動作帶來的rt.為了使智能體在與環境互動前能夠從這些經驗中獲取較好的先驗知識，并將其表現在狀態-動作對的Q 值上，引入4 類損失作為預訓練階段損失函數的要素，即1 步Q 學習TD 損失L(θ) ，n步Q 學習TD 損失Ln(θ) ，監督式邊際分類損失LE(θ) 以及L2正則化損失L2(θ).采用1 步與n步Q 學習損失混合更新Q 網絡有助于將Q 值傳遞到更早的狀態，保證訓練的網絡滿足貝爾曼方程.應用于該網絡的權重和偏置的 L2 正則化損失可以防止網絡過擬合于相對較小的專家經驗數據集.定義監督式邊際分類損失為

式中：a為智能體在狀態s所做的動作；aE為專家方法所做的動作；l(a,aE) 為邊際函數，當a=aE時，該函數值為0，否則為正值lp.監督式邊際分類損失會迫使非專家動作的值至少比專家動作的值低正值lp.引入監督式邊際分類損失對于預訓練的結果至關重要.因為通過Max-Pressure 方法獲取的經驗數據比較少，所以許多需要探索的狀態-動作對沒有包含在經驗數據當中.如果僅使用Q 的學習損失來訓練網絡，會導致網絡估計的Q 值不準確.監督式邊際分類損失會引導網絡將那些在專家經驗中從未出現的狀態-動作對的Q 值估計成合理的值，使得由價值函數引起的貪婪策略可以模擬專家方法.損失函數定義式為

式中： λ1、 λ2、 λ3為各個損失的權重系數.

1.3 相位持續時間計算

深度強化學習智能體執行動作的頻率一般固定在1.0、0.2、0.1 Hz.高頻的動作不但不利于網絡的收斂，而且容易造成信號的反復切換導致黃燈時長增加.低頻的動作不利于信號的靈活切換，使得智能體的控制達不到最優的控制效果.因此執行動作的頻率對于網絡的收斂以及智能體的控制效果尤為重要，最佳的智能體應能通過使用較少的動作達到最優的控制效果.本研究引入平均車頭時距計算動作的持續時間，使得每次相位的綠燈時間能夠與交叉口處交通流的實時狀態聯系在一起.具體而言，智能體先根據狀態特征計算出最佳的信號相位，在執行該相位前通過交叉口處的檢測器檢測該相位控制的車道內排隊車輛的數量，該相位的持續時間計算式為

式中：tmin為最小綠燈時長，tmax為最大綠燈時長，tloss為頭車的啟動損失時間，h為交叉口處釋放車流的平均車頭時距，Nveh為相位控制車道內最大排隊車輛數.如果排隊長度過長，導致計算的相位綠燈時間超過最大綠燈時長，則強制設置動作的持續時間為最大綠燈時長；如果排隊長度過短，導致計算的相位綠燈時間小于最小綠燈時長，則設置動作的持續時間為最小綠燈時長.這一規則，既減少了綠燈空放造成的時間損失，也避免了因為動作頻率過高導致的黃燈損失.該規則也在一定程度上降低了交叉口處交通控制的復雜性，智能體可以將該規則視為環境的一部分，從而幫助智能體學習.

1.4 交通信號控制強化學習算法

結合狀態、動作的定義，采用3DQN 算法作為控制交叉口信號燈的智能體.3DQN 算法的核心是深度神經網絡，它可以從狀態空間中提取特征并將這些特征映射到Q 值函數上.智能體可以根據Q 值函數來選擇最優的行動，實現有效的學習.3DQN 算法相比于DQN 算法加入Dueling Network結構與Double Network 結構.Dueling Network改善了DQN 算法的估計效率，它將Q 值函數分解為2 個部分：用于估計狀態價值的值函數，用于估計動作價值的動作函數.Double Network 緩解了DQN 算法對Q 值估計過高的問題，在Double Network中，存在動作網絡和目標網絡.這2 種網絡的初始化參數一致，但更新方式不一致，動作網絡通過梯度下降直接更新參數，目標網絡采用軟更新的方式更新參數.

為了平衡探索與利用的關系，采用動態貪婪策略訓練模型.動態貪婪策略在訓練過程中動態改變貪婪系數 ε 的大小.訓練開始時 ε 的值比較大，智能體傾向于選取隨機動作進行前期的探索過程.隨著訓練時間的增加， ε 的值逐漸減小，智能體更傾向于選取對應Q 值最大的動作.本研究的模型框架如圖4 所示.1）通過使用Max-Pressure方法控制信號燈完成整個仿真實驗.在該過程中收集Max-Pressure 方法的經驗序列.2）使用收集到的經驗序列通過預訓練對3DQN 算法中的深度神經網絡進行初始化，使得3DQN 算法中的深度神經網絡既能夠滿足貝爾曼方程，又能夠模仿Max-Pressure 方法選擇動作的策略.3）經過初始化后的智能體將與環境進行實時交互，并將獲取的經驗存放于經驗緩沖池中，滿足更新條件時則從經驗緩沖池中取出小批量的樣本進行學習，經過反復迭代最終網絡達到收斂.

圖4 基于雙決斗深度Q 網絡的信號控制模型框架Fig.4 Signal control model framework based on double-dueling deep Q network

在3DQN 算法中，超參數的設計對訓練結果有重要影響.本研究算法的參數具體如下：深度神經網絡的激活函數為ReLU，梯度下降算法為Adam，學習率為0.001，經驗緩沖池的容量設置為10 000，折扣因子為0.99，貪婪系數初始值為1，貪婪系數衰減率為0.95，最小貪婪系數為0.005，目標網絡軟更新系數為0.005，小批量經驗大小為256.在預訓練階段， λ1=0.1， λ2=1， λ3=1.0×10-5，n=5，lp=0.8.

2 案例分析與實驗結果

2.1 案例分析與實驗配置

杭州市蕭山區機場城市大道與博奧路交叉口是典型的四岔路口，東西南北方向各有4 個進口道和3 個出口道，其中東西方向為1 條直右車道、2 條直行車道和1 條專用左轉車道，南北方向為1 條專用右轉車道、2 條直行車道和1 條專用左轉車道，東西南北方向的進口道長度分別為500、450、450 和300 m.本實驗收集2021 年10 月18 日至2021 年10 月24 日一周的流量數據.2021 年10 月18 日原始數據每15 min 進行一次統計，得到的流量分布如圖5 所示，N為車輛數.針對早高峰時段（8:30—9:30）的交通情況開展本次實驗研究，該時間段內過車車輛類型的統計結果如表1 所示，其中P為車輛占比.仿真過程采用7 種車輛類型，車輛類型設置如表2 所示，其中L為車身長度；D為速度因子分布，是車輛的最大行駛速度與道路限速的比值，車輛速度因子分布用以模仿不同的駕駛行為（如激進駕駛、保守駕駛）.每種車輛類型的速度因子從截斷正態分布Normc中取出，截斷正態分布Normc 中含有四類參數，依次代表截斷正態分布的均值、標準差、最小截斷速度與道路限速的比值、最大截斷速度與道路限速的比值.仿真實驗中的其他實驗參數設置如下：道路規定上限速度為13.89 m/s，車頭最小間距為2.5 m，最小綠燈時間為5 s，最大綠燈時間為50 s，黃燈時間為3 s.一次仿真時長為3 600 s，在仿真初始的0～50 s 為加載路網車輛，信號燈依據Webster 配時方案進行信號控制.

表1 高峰時期交叉口過車車輛類型分布Tab.1 Distribution of passing vehicle types at intersections during peak hours

表2 仿真實驗車輛類型設置Tab.2 Simulation experiment vehicle type setting

圖5 交叉口全天的流量分布圖Fig.5 Flow distribution diagram of intersections throughout day

2.2 實驗結果與分析

利用2021 年10 月18 日的早高峰數據進行仿真訓練，與傳統的基于3DQN 算法、感應式信號控制方法Actuated 和Delay-Based[21]以及定時信號控制方法Webster 的控制效果進行對比.不同方法在車輛平均等待時間tw、平均旅行時間tt和車輛平均速度v上的控制效果如表3 所示.本研究算法在各項指標上均表現出最好的控制效果.相比于定時信號控制，本研究算法在平均旅行時間上減少了22.97%.如表4 所示為采用不同方法控制信號燈時各進口道的平均排隊長度，其中Ln、Ls、Le和Lw分別為北進口道、南進口道、東進口道和西進口道的排隊長度.可以看出，本研究所提算法相比于其他控制方法能夠明顯縮短東進口道和南進口道的排隊長度.如圖6 所示為采用不同方法控制信號燈時路網內車輛平均等待時間的變化情況，其中t為仿真時刻.可以看出，本研究算法相比于其他方法，在車輛平均等待時間上波動更加平穩.

表3 不同方法的控制效果對比Tab.3 Comparison of control effects among different methods

表4 不同方法下各進口道的平均排隊長度Tab.4 Average queue length of each approach under different methodsm

圖6 不同方法下路網內車輛平均等待時間變化Fig.6 Variation of average waiting time for vehicles in road network under different methods

為了進一步探究所提方法的性能，選取2021 年10 月18 日至2021 年10 月24 日一周的早高峰數據對訓練好的模型進行測試，實驗結果如圖7 所示.可以看出，相比于其他信號控制方法，本研究算法在一周的測試中均表現最佳.

圖7 不同方法下早高峰時段一周的平均旅行時間變化Fig.7 Average travel time during morning peak hours for one week under different methods

2.3 方法改進效果驗證

為了探究預訓練模塊以及相位持續時間模塊對于收斂速度和控制效果的影響，在不改變其他參數的情況下，分別將加入預訓練模塊的方法和加入相位持續時間模塊的方法與傳統3DQN 算法在收斂速度和平均旅行時間控制效果上比較.加入預訓練模塊的3DQN 算法與傳統3DQN 算法對比結果如圖8 所示，R為訓練過程中智能體在一次仿真過程獲得的總獎勵，E為仿真迭代次數.可以看出，使用Max-Pressure 方法的經驗數據對模型進行初始化能夠穩定模型的學習過程，減少前期的波動，同時通過預訓練可以幫助智能體更快地達到收斂.產生此種結果的原因在于模型在探索期間使用的動態貪婪策略.當探索系數 ε 逐漸變低時，信號燈的相位將由模型產生的Q 值決定.相比于未預訓練的網絡，經過預訓練后的網絡在訓練初期能夠以更高的概率選擇專家動作.

圖8 加入預訓練模塊與未加入預訓練模塊的雙決斗深度Q 網絡算法收斂速度情況Fig.8 Convergence speed comparison of double-dueling deep Q network algorithms with and without pretrained module

如圖9 所示為加入相位持續時間模塊的3DQN 方法(3DQN-DT) 與動作間隔為10 s 的3DQN 方法（3DQN-10）、動作間隔為5 s 的3DQN 方法（3DQN-5）在平均旅行時間指標上的收斂情況.可以看出，3 種不同設置的模型在收斂速度上較為一致，但3DQN-DT 在最終收斂結果上超過了3DQN-10 和3DQN-5，其中3DQN-DT 的平均旅行時間為87 s，3DQN-10 的平均旅行時間為90 s，3DQN-5 的平均旅行時間為105 s.

圖9 加入相位持續時間模塊的雙決斗深度Q 網絡(3DQN)算法與傳統3DQN 算法在平均旅行時間上的收斂情況Fig.9 Convergence analysis of double-dueling deep Q network(3DQN) algorithms with phase duration module and traditional 3DQN algorithm on average travel time

為了進一步探究3DQN-DT 方法與3DQN-10、3DQN-5 的差異，就模型的選擇策略、各個相位在仿真過程中的總綠燈時長進行分析.如圖10 所示為3 種方法在選擇策略上的分布情況.圖中，x為動作選擇的相位，其中x=1 代表動作選擇的是排隊長度最大的相位，x=2 代表動作選擇的是排隊長度次大的相位，y為智能體選擇某種相位的次數，PN為智能體選擇某種相位的次數占總選擇次數的比例.3DQN-DT 共執行307 次動作，其中60.26% 的動作選擇了排隊長度最大的相位；3DQN-10 共執行280 次動作，其中64.64%的動作選擇了排隊長度最大的相位；3DQN-5 共執行463 次動作，其中56.59%的動作選擇了排隊長度最大的相位.3 種模型在選擇策略上的變化趨勢較為一致，因此相位持續時間模塊對模型的動作選擇策略影響較小.如圖11 所示為3 種模型在相位綠燈時間上的分布情況，其中Ph為動作空間中的8 種相位，tg為綠燈時間.在所有相位的總綠燈時長上，3DQN-DT 的綠燈時間為2 744 s，3DQN-10的綠燈時間為2 800 s，3DQN-5 的綠燈時間為2 315 s.可以看出，3DQN-5 由于動作時間間隔的縮短導致相位交替過快，仿真過程中造成的黃燈損失較多，因此該模型的控制效果不如其他2 個模型.3DQN-10 的綠燈時間最長，但其控制效果卻不如3DQN-DT，原因在于3DQN-DT能夠根據車道內排隊情況動態調整相位的綠燈持續時間減少綠燈空放情況的發生.還可以看出，3DQN-DT 將更多的綠燈時間分配給了相位5 和相位6.周一的交通流數據顯示該交叉口存在明顯的南北交通流不均衡以及東西交通流不均衡的情況，因此采用單向放行的相位相比于對向放行的相位更能夠提高交通流的運行效率，減少車輛的平均延誤.此外，3DQN-DT 通過檢測交通流對綠燈時間分配進行了進一步的優化，提高了路網交通流的運行效率.

圖10 不同間隔時間設置下的模型動作策略示意圖Fig.10 Schematic diagram of model action strategy under different intervals settings

圖11 不同雙決斗深度Q 網絡算法的各相位綠燈總時長對比圖Fig.11 Comparison diagram of total green light duration for each phase with different double-dueling deep Q network algorithms

3 結語

基于深度強化學習方法對單交叉口進行信號控制已經有了長足的發展，以往研究從狀態表達、動作設計等不同的角度出發探尋并挖掘了深度強化學習方法在信號控制領域的潛力.本研究提出使用Max-Pressure 方法預先初始化3DQN 算法中神經網絡的參數，使得預訓練后的3DQN 算法能夠在滿足貝爾曼方程的基礎上模仿Max-Pressure 的策略.針對3DQN 算法存在的動作執行頻率過高或過低的問題，本研究引入平均車頭時距動態計算每次相位的綠燈持續時間，保證了排隊車流釋放的順暢性，減少了綠燈損失.根據真實的交叉口流量數據對所提算法進行驗證，結果表明本研究算法能夠有效解決現有方法在訓練過程中存在不穩定、迭代慢的問題.相比于傳統的信號控制方法和感應控制方法，本研究算法能夠顯著提高交叉口處的運行效率.本研究僅限于單交叉口的信號控制問題，未討論目標交叉口策略的改變對于鄰近交叉口的影響.在城市交通中，交叉口之間的相互關聯作用與交叉口之間的距離和交通流量有著密切的關系.通過深度強化學習方法對多個交叉口形成的干線網絡或區域網絡進行協調控制，并分析流量與距離對協調控制的影響將是下一步研究的重點.