






摘要:針對道路長期性能養護決策中龐大的數據分析問題,將深度確定性策略梯度(deep deterministic policy gradient, DDPG)強化學習模型引入到了養護決策分析中,將道路性能的提升及養護資金的有效利用作為機器學習的獎勵目標,建立了一套科學有效的瀝青路面長期性能養護決策方法,經過與DQN(deep Q-learning network)算法和Q-Learning算法進行對比,DDPG算法所需要的采樣數據更少、收斂速度更快,表現更為優異,可有效提升道路服役性能的評估效率,對瀝青路面多目標長期養護決策方案的制定起著重要的推動作用。
關鍵詞:交通工程;瀝青路面;養護決策;強化學習;深度確定性策略梯度模型
中圖分類號:U411文獻標志碼:A文章編號:1002-4026(2023)03-0108-07
Abstract∶To address the huge data analysis problem in the decision-making for long-term road performance maintenance, this paper introduces the deep deterministic policy gradient (DDPG) reinforcement learning model in the maintenance decision analysis. A set of scientific and effective decision-making methods for long-term performance maintenance of asphalt pavements has been established through machine learning. These methods can improve road performance and make effective use of maintenance funds. Compared with the deep Q-learning network and Q-Learning algorithms, the DDPG algorithm requires less sampling data, converges faster, performs better, and can effectively improve the evaluation efficiency of the road service performance. Therefore, the proposed model" plays an important role in the development of multi-objective maintenance decision-making for asphalt pavements.
Key words∶traffic engineering; asphalt pavement; maintenance decision; reinforcement learning; deep deterministic policy gradient model
隨著我國高等級路網的增加和完善,不斷出現路網養護工作量大、養護人員不足、養護資金短缺等問題。其中,制約養護決策的首要因素就是養護資金,為了解決資金分配問題,研究者針對不同的養護目標(如最優路網性能或最少養護成本等)提出了相應的預算分配模型[1-4];第二個因素是缺少對路網性能的發展預測,缺少準確的預測則很難做出長期有效的路網養護及修復計劃;第三個因素則是由于路網規模的不斷擴大,傳統的數學規劃方法難以覆蓋路面各項評價指標,在綜合評價方面缺乏定量計算的決策依據,同時,由于模型的局限性,單個地區的決策模型難以對不同地區的、復雜的路況性能作出符合實際的評價[5-7]。
在以往的養護決策中,道路管養工作者通常在一定的養護周期內只考慮單一養護決策的有效性和成本問題,例如在兼顧性能的基礎上制定最具成本效益的策略,這種方法可以統稱為單一目標的預算分配問題,僅使用常用的專家經驗法或者數學規劃方法就可以得到較好的解決。張春安等[8]采用費用-效益費評價準則,基于層次分析法從環境、經濟與技術等角度建立了預防性養護矩陣模型,通過對高速公路預防養護方案進行評分,確定了最佳養護方案。肖順舟[9]針對路面養護數據繁雜問題,建立了數據異常檢測模型,對道路養護中缺失及錯誤的數據進行篩查和標注,使用灰色物元法進行路面養護決策排序。Hafez等[10]針對低等級道路建立了基于神經網絡識別算法的養護決策模型,該模型在道路養護決策中推薦頻率較高的是就地冷再生及銑刨重鋪,在實際應用中取得了較好的表現,對部分區域的路網性能也做出了準確預測。鄭煒等[11]通過裁剪神經網絡中影響較小的連接和輸入變量個數,有效地縮減了測試集的規模,通過該法改進的神經網絡方法提高了路面養護決策的精準度及收斂速率。馮勝凱[12]針對養護決策中的不確定性運用多目標優化方法,建立了多目標路面養護決策優化模型,將不確定問題轉化為確定性的優化問題,該方法一定程度上能夠解決由于數據雜亂繁多所引起的養護決策失真,但難以對一定數量級的數據及時進行處理。翟登攀等[13]利用BP(back propagation)神經網絡對道路病害進行分類分級,將路面病害與養護措施建庫作為樣本進行訓練,獲得了預防性養護模型,但該模型僅在裂縫處置中得到了驗證。
目前國內對于道路養護決策模型的研究還停留在數學規劃優化方法及短期路面養護決策方案的制定,但是瀝青路面的性能衰減是一個多向復雜性的問題[14-15],合理地搭配不同的養護措施才能制定更為穩定、合理的養護方案。究其原因主要在于現有的研究方法難以做到大量基礎數據的分析及統計,同時隨著預測年限的增加,由于輸入參數過少導致大量的有效信息被忽略,模型預測精度難以保證。基于此,本文為解決道路養護決策中龐大的數據分析問題,將強化學習引入到了養護決策分析中,將道路性能的提升及養護資金的有效利用作為機器學習的獎勵目標,通過機器學習來尋找最佳的道路養護效能比,減少人為的干預,最大程度上發揮機器學習的優勢。與傳統的路面養護決策方法相比,機器學習有著強大的驅動,可以通過大量基礎數據構建的模型來模擬人類智能,有效地提高常規養護工作對道路服役性能的評估效率,對多目標的養護決策起著關鍵的推動作用。
1瀝青路面養護決策模型構建
強化學習是繼有監督學習和無監督學習之后的第三大機器學習領域,其本質是一種學習如何從狀態到行為過程中獲取最大獎勵的學習機制,在與環境不斷交互的過程中,通過接收來自環境的反饋或者獎勵來不斷迭代和優化狀態與行為兩者的關系。作為機器學習的一個重要分支,強化學習已經在交通工程領域得到了廣泛應用,研究人員通過其搭建交通規劃的模擬系統以減少車輛行駛延誤,為駕駛員提供更快捷更便利的引導服務。同樣,在瀝青路面的養護決策方向,可以通過強化學習來實現機器與環境的不斷交互,將復雜的路面性能預測、材料類型、養護措施方案納入到不斷的優化過程中。本文將深度確定性策略梯度(deep determinstic policy gradient,DDPG)算法引入到道路養護決策中來,將道路性能的提升及養護資金的有效利用作為機器學習的獎勵目標,建立一套科學有效的瀝青路面養護決策方法。
1.1DDPG強化學習模型
DDPG是一種將神經網絡融合到強化學習的方法,相較于常用的Q-Learning算法和DQN(deep Q-Learning network)算法,DDPG算法采用的是確定性策略梯度下降所得出的行為,該行為是確定性而不是概率性的,使其能夠處理更高維度的行為動作且使得深度學習的收斂速度更快。
本文算法中共包括Actor當前網絡、Actor目標網絡、Critic當前網絡、Critic目標網絡4個計算網絡,與DQN算法直接復制目標網絡參數所不同的是,DDPG算法在參數更新方面使用了軟更新的概念,目標網絡只從當前網絡中復制部分參數,即
1.2確定性策略梯度
確定性策略梯度由策略函數和價值函數組合構成,策略函數通過環境狀態輸出執行動作,價值函數則根據當前狀態及輸出的執行動作進行價值Q(C,A;ω)的評估,通過不斷的訓練及參數的更新使得策略函數所評估出的價值越高,即函數決策越好。參數更新包括兩個方面,第一個方面通過樣本訓練更新價值函數,分別計算當前狀態下價值函數的Q值,然后利用時間差和梯度下降算法對價值函數進行更新,即:
1.3道路狀態特征
狀態特征代表當前環境所包含的信息,在預測模型中相當于模型的輸入變量,具體包括路面結構與材料、養護歷史、交通軸載、路面狀況、溫度等其他特征,詳細的道路狀態特征輸入變量見表1。
1.4行為特征
行為特征代表道路不同的養護決策,主要包括4類:養護類型、養護材料、病害處置及不處置,神經網絡模型分別將不同的養護措施進行排列組合,來模擬不同決策對道路所產生的影響,詳細的養護決策分類見表2。
1.5獎勵函數
在強化學習中,獎勵反饋的作用是向強化學習模型行為特征的反饋,恰當的獎勵反饋對引導機器學習起著非常重要的作用,本文將機器學習的獎懲設定為養護決策所產生效益的增加或者減少,累計獎勵代表決策所產生的長期決策收益。其中,養護效益定義為養護后的路面狀況曲線與未養護的路面狀況曲線所包圍的面積,即
但在實際的測試過程中發現,由于道路初始階段未發生養護行為,其獎勵值為0,導致機器無法過去有效經驗值,經過不斷測試后將養護效益值定義為:
其中,r為養護決策產生的效益,Stst為t時刻路面狀況曲線所包圍的面積。
1.6算法流程
本文強化學習模型以路況狀態作為輸入,測試多種參數下的組合,輸出每個決策所帶來不同的效益值,通過不斷迭代計算,得到以更低的成本來獲取更高效益獎勵的框架結構。架構圖如圖1所示。
具體的訓練步驟如下:(1)初始化系統環境參數,在已有的養護決策行為列表中選擇一種組合作為數據輸入同當前道路的狀態特征輸入到評估模型中,結合約束調整和隨機因子確定決策動作At;(2)執行決策動作,預測評估決策后下一狀態并計算決策收益;(3)將當前道路狀態、行為特征及計算得到的決策收益存儲到經驗回放中作為在線網絡的訓練集;(4)從經驗回放中取樣,獲取數據作為Critic網絡訓練集并優化網絡參數;(5)訓練出逼近函數,通過選擇效益值最大的行為特征獲取最佳養護決策。
2結果驗證與分析
2.1強化學習模型訓練
DDPG模型的參數設定極為重要,參數的設定不合理不僅會影響到學習模型的收斂速度,同時會對學習預測結果產生較大的偏差。在對模型參數進行反復測試及優化后,確定了評估網絡的最佳參數,本文測試平臺搭建在Windows10操作系統中,環境配置為Python 3.6,模型參數為:迭代步數設置為15步,學習率設置為0.000 1,計算延遲獎勵的折扣率為0.85,動作網絡和策略網絡均為4層網絡結構,其中隱藏層數為2層,每層神經元128個。最后,選用強化學習中常用的Q-Learning算法和DQN算法來對比驗證算法的訓練效果。訓練結果如圖2所示。
由圖2可知,前1 000次迭代,三種算法訓練結果波動較大,DDPG算法在訓練1 000次后基本趨于穩定,模型處于收斂狀態,訓練效果良好,而DQN算法和Q-Learning算法則分別需要2 000次和2 500次迭代才趨于穩定,相較于后兩者而言,DDPG算法所需要的采樣數據更少、收斂速度更快,表現更為優異。
2.2訓練結果分析
以某段43 km高速公路2017—2021年詳細統計數據作為訓練集,對2022—2031年各養護措施養護長度及路面技術狀況進行了預測,預測詳情見表3及圖3。
3綜合效益費用比訓練結果
由圖3可看出,該段高速公路在經過一定周期的訓練后,模型收斂到了一個較為穩定的階段,DDPG算法訓練到達的綜合效益費用比與我們設定的最高獎勵目標非常接近,訓練效果較好,訓練曲線發生的波動為機器在探索學習過程中的隨機取值。
由表3可看出,該段高速未來10年間養護措施主要集中在薄層罩面及上面層銑刨重鋪,從長期性能預測結果來看,該路段在2022年及2031年經歷大面積的路網養護后,PQI指數明顯上升,整個路段在制定完整的養護措施后,指標性能良好,使用強化學習模型可以很好地制定道路長期性能養護決策方案來保證道路使用性能的穩定。
3結論
為了解決道路養護決策中龐大的數據分析問題,本文將強化學習引入到了養護決策分析中,將道路中涉及到的輸入變量架構詳細劃分為路面結構、材料類型、交通量、路面病害、歷史修復措施、溫度、服役年限7類特征,將道路性能的提升及養護資金的有效利用作為機器學習的獎勵目標,建立起了一套科學有效的瀝青路面養護決策方法,可實現強化學習神經網絡架構的自主學習以及參數的迭代更新。
參考文獻:
[1]張春安, 田智鵬. 基于高等級公路瀝青路面的預防性養護決策研究[J]. 公路工程, 2019, 44(6): 77-80. DOI:10.19782/j.cnki.1674-0610.2019.06.014.
[2]KODURU H K, XIAO F P, AMIRKHANIAN S N, et al. Using fuzzy logic and expert system approaches in evaluating flexible pavement distress: case study[J]. Journal of Transportation Engineering, 2010, 136(2): 149-157. DOI:10.1061/(asce)0733-947x(2010)136: 2(149).
[3]YANG C, REMENYTE-PRESCOTT R, ANDREWS J D. Pavement maintenance scheduling using genetic algorithms[J]. International Journal of Performability Engineering, 2015, 11(2):135-152.
[4]施彥, 凌天清, 崔立龍, 等. 瀝青路面預防性養護評價標準及決策優化研究[J]. 公路交通科技, 2020, 37(10): 25-34.
[5]王向峰, 雍黎明. 公路瀝青路面預防性養護路況標準與時機決策研究[J]. 公路工程, 2017, 42(6): 223-226.
[6]王凱. 高速公路瀝青路面養護管理決策優化研究[D]. 西安: 長安大學, 2014.
[7]ZHOU G Q, WANG L B. Co-location decision tree for enhancing decision-making of pavement maintenance and rehabilitation[J]. Transportation Research Part C: Emerging Technologies, 2012, 21(1): 287-305. DOI:10.1016/j.trc.2011.10.007.
[8]張春安, 田智鵬. 基于高等級公路瀝青路面的預防性養護決策研究[J]. 公路工程, 2019, 44(6): 77-80. DOI:10.19782/j.cnki.1674-0610.2019.06.014.
[9]肖順舟. 基于數據挖掘的路面預防性養護決策的研究與實現[D]. 武漢: 武漢理工大學, 2018.
[10]HAFEZ M, KSAIBATI K, ATADERO R A. Optimizing expert-based decision-making of pavement maintenance using artificial neural networks with pattern-recognition algorithms[J]. Transportation Research Record: Journal of the Transportation Research Board, 2019, 2673(11): 90-100. DOI:10.1177/0361198119851085.
[11]鄭煒, 楊威, 宋海靜, 等. 一種基于規則提取的自動化測試用例生成方法[J]. 西北工業大學學報, 2012, 30(2): 296-300.
[12]馮勝凱. 考慮不確定性因素的多目標路面養護決策優化研究[D]. 西安: 長安大學, 2020.
[13]翟登攀, 張熙穎. 基于BP神經網絡的道路預防性養護決策研究[J]. 交通科技與經濟, 2020, 22(5): 63-66. DOI:10.19348/j.cnki.issn1008-5696.2020.05.013.
[14]趙鴻鐸, 馬魯寬, 唐龍, 等. 基于數據挖掘的民用機場水泥道面維護輔助決策模型[J]. 同濟大學學報(自然科學版), 2018, 46(12): 1676-1682.
[15]曹巍, 陳長. 基于多屬性分析理論的預防性養護決策方法[J]. 交通科學與工程, 2015, 31(4): 71-76. DOI:10.16544/j.cnki.cn43-1494/u.2015.04.013.
[16]陳安琪. 國檢體系下的瀝青路面養護決策研究[D]. 南京: 東南大學, 2018.