999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多智能體Q學習算法的交通信號優化控制

2020-10-20 20:46:35陶巧云
數碼設計 2020年9期
關鍵詞:優化

陶巧云

摘要:隨著社會的發展,城市交通變得日益復雜,交通路口信號的控制關系到城市道路擁堵狀態及行人車輛的通行是否暢通問題。就這一現狀,本文提出了基于多智能體Q學習算法的交通信號優化控制的方法。通過多次實驗,交通系統中,上下級智能體之間及同級智能體之間通過實時學習可以達到最優的交通信號控制。

關鍵詞:多智能體;交通信號;Q學習算法;優化

中圖分類號: U491.51?文獻標識碼:A?文章編號:1672-9129(2020)09-0157-01

引言:因為交通是實時變換的,交通流量也有著隨機性,所以提升交通信號控制的智能化水平非常關鍵。智能體是當前交通信號智能控制的基礎構件,其是由計算機系統控制的自主實現對應功能的結構實體,本身性能優越,環境適應性強,其可以將復雜的大問題分解為多個子問題,而每個子問題由獨立的模塊負責解決,能緩解運算量大導致的系統運行緩慢,效率高。將其應用于城市交通控制,需要多個智能體的共同配合。首先需要將每個智能體安裝于交叉路口,其次使用專用網絡將智能體連接起來,每個智能體設置不同的結構功能,讓復雜的路口狀況被多智能體簡單處理。強化學習利于增強智能體的學習能力,本文將結合多智能體技術可以感知不同條件下自適應能力,然后作出符合交通的相應調控策略。下面主要介紹多智能體強化學習的交通信號優化設置。

1?多智能體的強化學習

傳統的多智能體控制交通系統采用完全分布式結構,即每個路口均安裝智能體,對路口進行獨立的管理與控制,不同智能題之間互相協調以達到最佳效果。但如果某一智能體突然故障,路口智能體會完全癱瘓,所以本文采用分層遞階式結構。首先整體規劃交通信號分布,并依據功能和結構的不同進行協調管理,最終使得上級智能體管理下級,而下級負責路口信息的監測與傳遞。

強化學習目前應用非常廣泛,可以有效應對周圍環境的變化,多智能體強化學習利于完成智能體與環境間的持續交互,目前最常應用Q算法實現強化學習。Q學習算法的基本思路是直接優化迭代的Q函數。學者Watkins使用下列公式表示Q函數:

采用Q學習算法進行強化學習,需要先改變對應Q值。智能體的決策時刻為公式中的t,當環境狀態為st時,智能體就會依據一定的算法與策略執行at,同時依據反饋信息立即獎賞r并進入st+1這一新的環境狀態,繼續依據算法執行動作,并進入下一環境狀態。以此過程循環往復,當Q值不再出現變化時,Q函數收斂,對應智能體的學習過程到此結束。

2?多智能體強化學習的改進

分析標準的Q學習算法,可以發現智能體并未學習到足夠的知識體系,比如當搜索范圍增大,Q學習算法的收斂速度非常緩慢,實際應用時會直接影響整個系統的性能。對此應積極改進強化學習的算法。

多智能體的動作以具體環境為支撐,而交通環境非常復雜,因此智能體的狀態轉移無法確定,這也是降低其學習速度的重要原因。為了讓智能體能在最短時間內作出正確的行為決策,應適當增大學習效率a的數值,提高多智能體的學習速度。其后采用進行Q算法強化學習:首先,將所有的Q數初始化。其次檢測當前的環境狀態,并設置為s。接著一定的算法選擇確定動作a,當動作a執行結束,多智能體檢測新的環境狀態,并將原本的s變為s,依據經驗環境和獎懲值r更新公式中的Q值。新的公式如下:

以此為基礎,設置模型學習環境。隨機選擇動作狀態(s,a),將該狀態帶入到環境模型當中,計算下一個狀態的s與r值,更新Q值,直至最后完成強化學習。

以單交叉十字路口為例,假設目前各個方位均有三種類型的車流,那么如果當前的綠燈對應一種相位代碼,首先設置時間為t,統計車輛的排隊長度與未來5分鐘車輛的到達率,其后形成對應的環境狀態。其次確定智能體的動作空間與動作策略。這里提出兩種動作策略的設計目標:最優選擇函數估計中行為值最大的,提高算法的在線能力;考慮算法的收斂性,要求動作空間與狀態的精確性。另外上下班時間交通壓力較大,容易影響Q學習算法的學習速度,導致智能體的控制性能降低,對此應合理調試綠燈相位與紅燈相位。

將Q學習算法的改進效果說明如下:某主干道單交叉路口的飽和流量為2000V eh/h,綠燈最大時長為直行80s,左轉20s,最小時長10s,每個方向的初始排隊車輛4s,多智能體觀測新環境的時間間隔為2s。觀測時間為140min。

仿真結果見圖1,可以發現,在50min之前原本的Q學習算法與改進的Q學習算法初期變化明顯,隨著觀測時間的延長,改進Q學習算法的效果逐漸凸顯出來,車輛的平均速度得到提升。究其原因,多智能體學習初期屬于試錯學習階段,改進之后多智能體以經驗知識為基礎進行模型學習,收斂時間早,能有效加速迭代過程,算法改進有一定效果。

結語:隨著社會經濟的發展,交通問題主要是減少交通道路擁堵及提高交通效率,人工智能技術的發展造就了智能交通系統,一定程度上改善了復雜的交通問題。本文主要提出了一個多智能體Q學習算法的交通信號優化控制的方法,通過改進的Q學習算法,實現了最優的控制策略。通過實驗仿真,驗證了這種方法可以有效的解決交通優化問題。

參考文獻:

[1]高思琦. 基于深度強化學習的多智能體城市道路交叉口交通流優化控制研究[D].福建工程學院,2019.

[2]成衛,唐逸超,鄭佐雄.基于感應控制的過飽和交叉口流量轉移方法研究[J].重慶交通大學學報(自然科學版),2018,37(11):83-90.

[3]楊文臣,張輪,Zhu Feng.多智能體強化學習在城市交通網絡信號控制方法中的應用綜述

猜你喜歡
優化
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
PEMFC流道的多目標優化
能源工程(2022年1期)2022-03-29 01:06:28
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
由“形”啟“數”優化運算——以2021年解析幾何高考題為例
圍繞“地、業、人”優化產業扶貧
今日農業(2020年16期)2020-12-14 15:04:59
事業單位中固定資產會計處理的優化
消費導刊(2018年8期)2018-05-25 13:20:08
4K HDR性能大幅度優化 JVC DLA-X8 18 BC
幾種常見的負載均衡算法的優化
電子制作(2017年20期)2017-04-26 06:57:45
主站蜘蛛池模板: 久久亚洲国产视频| 国产无码高清视频不卡| 成年人久久黄色网站| 亚洲精品视频免费观看| 国产精品自在在线午夜区app| 综合天天色| 亚洲综合中文字幕国产精品欧美| 一区二区三区成人| 欧美精品高清| 精品1区2区3区| 欧美日韩午夜| 黄色片中文字幕| 日本精品αv中文字幕| 91美女在线| 久操中文在线| 国产一二三区在线| 国产亚洲精| a级毛片网| 青青草国产免费国产| 超碰精品无码一区二区| 国产办公室秘书无码精品| 国产手机在线ΑⅤ片无码观看| 亚洲无码高清视频在线观看| 视频国产精品丝袜第一页| 欧美高清视频一区二区三区| 日本爱爱精品一区二区| 波多野结衣在线se| 免费网站成人亚洲| 亚洲一区二区三区国产精华液| 色哟哟国产成人精品| 一本久道久综合久久鬼色| 欧美在线视频不卡| 国产激情无码一区二区APP| 国产免费久久精品99re丫丫一| 福利在线不卡一区| 国产精品入口麻豆| 精品欧美一区二区三区在线| 日韩精品视频久久| 亚洲国产精品无码久久一线| 免费看av在线网站网址| 日韩视频免费| 欧美国产精品不卡在线观看| 中文字幕亚洲专区第19页| 亚洲αv毛片| 天天色天天综合网| 久久一本日韩精品中文字幕屁孩| 欧美精品高清| 毛片视频网| 黄色网站不卡无码| 特级欧美视频aaaaaa| 幺女国产一级毛片| 99福利视频导航| 国产原创演绎剧情有字幕的| 在线观看精品国产入口| 福利在线不卡| 久久久久国色AV免费观看性色| 国产精品一区在线观看你懂的| 亚洲成网777777国产精品| 亚洲手机在线| 欧美黄色网站在线看| 亚洲精品va| 免费va国产在线观看| 国产在线精彩视频二区| 久久国产高清视频| 91啦中文字幕| 国产精品刺激对白在线| 日本精品αv中文字幕| 国产午夜不卡| 欧美精品在线免费| 国产成人av一区二区三区| 日本免费a视频| 在线亚洲小视频| 五月丁香伊人啪啪手机免费观看| 五月婷婷导航| 久久久久无码国产精品不卡| 久久精品国产免费观看频道 | 国产网友愉拍精品| 中文字幕在线欧美| 成人自拍视频在线观看| 久久综合色播五月男人的天堂| 91精品国产自产在线观看| 国产成a人片在线播放|