劉 崇 宋雨彤 孟 坤 林紹博
(北方工業大學電氣與控制工程學院,北京 100144)
強化學習來源于心理學中的行為主義,作為解決序貫決策的重要方法,它采取持續的“交互-試錯”機制,通過與環境的不斷交互學得有效策略。強化學習過程反映了人腦如何做出決策的反饋系統運行機理,符合人類面向實際問題時的經驗性思維與直覺推理的一般決策過程。因而,近年來,強化學習在人工智能領域得到廣泛而深入的應用,并成為當前突破類人智能的關鍵性機器學習方法。
強化學習在視頻游戲、棋牌類游戲、物理系統的導航與控制、用戶交互算法等領域的表現已經接近或超過了人類水平。特別是DeepMind團隊將深度學習、深度強化學習與蒙特卡洛樹搜索技術深度融合,研發出的智能圍棋程序AlphaGo,在2016年3月Alpha GoLee戰勝李世復,2017年5月AlphaGoMaster戰勝世界圍棋冠軍柯潔,人工智能都展現出了強化學習的巨大潛力。強化學習也是復雜城市交通網絡自適應交通信號控制(ATSC)中一種很有前途的數據驅動方法[1]。
強化學習技術已被應用于單個交叉口的實時交通信號控制問題[2-5],使用Q-Learning算法,用現實的交通數據在地圖上進行數值模擬。仿真結果表明,使用Q-Learning算法的解決方案在行人排隊的長度、十字路口的等待時間,以及許多其他關鍵指標上均優于現有的解決方案[6]。
在工程方面,有研究設計并實現了兩個分別基于VISSIM和SUMO仿真軟件的交通信號控制仿真平臺。這兩個平臺面向強化學習算法進行設計和優化,并且在專業的仿真軟件基礎上二次開發,提高了仿真實驗的可信度。
該教學平臺的研究意義為以下四點:
(1)強化學習的教學推廣:由于強化學習算法進行實驗的難度大,對主流仿真軟件的開發困難,傳統的教學大多數不包括用強化學習算法來進行信號配時的優化,學生難以理解強化學習算法,該平臺可以解決該類問題,促進強化學習的推廣和教學。
(2)靈活性強:該平臺可以令使用者更加自由地選擇路網、更改學習模型和動作選擇機制等。
(3)便于結果比較:以圖像方式呈現仿真的數據,動態圖展現實時變化,靜態圖進行總體統計,學生可以更加直觀地觀察路網的優化結果。
(4)提高師生間溝通效率:該平臺簡化了學生們的實驗步驟,學生可以快速地進行大量實驗,同時通過系統自主評分,加快評價速度并提高評價的準確性。
在學生端,通過核心控制模塊控制5個主要模塊。5個主要模塊分別為仿真運行模塊(包括路網繪制子模塊)、算法控制模塊(包括Sarsa算法子模塊、Q-Learning子模塊)、圖像運行模塊(包括統計對比子模塊、實時對比子模塊)、數據處理模塊(包括數據保存子模塊、數據運算子模塊)和系統評分模塊(包括評分評價子模塊)。5個模塊中的子模塊通過數據傳輸,彼此之間相互協調,進而運行整個系統平臺。
在教師端,分為三個模塊,分別是學生簽到模塊、報告檢查模塊、成績排名模塊。
系統結構圖如圖1所示。

圖1 系統結構
強化學習是機器學習領域的研究熱點,是考察智能體與環境的相互作用,做出序列決策、優化策略并最大化累積回報的過程。強化學習具有巨大的研究價值和應用潛力,是實現通用人工智能的關鍵步驟。此平臺讓學生接觸到交通信號控制領域中的AI技術,學生不再只是學習教科書上傳統的配時方案,而是可以跟隨社會發展的大趨勢,嘗試開拓新的領域。
強化學習具有較強的適應性和通用性,在交通信號在線控制策略優化方面具有很大潛力[7]。學生通過改變強化學習算法中的各項參數進行嘗試,使信號配時達到最優效果。
該平臺包括強化學習的兩種經典算法Sarsa和QLearning,學生可通過改變參數進行實驗。通過該平臺展示的強化學習算法與傳統固定配時在實驗中的對比,讓學生在逐漸探索的過程中,體會強化學習算法對信號控制的影響。
學生通過選擇算法、路網、動作選擇機制并且輸入相關參數,即可開始進行實驗,省去了需要學生自己進行配置等不是考察重點的冗長環節,避免了學生入門困難,難以找到方向的問題,同時在一定程度上緩解了學生們的畏難情緒;并且通過簡單的操作流程即可進行大量的實驗,使學生可以更深刻地理解算法。
該平臺通過動態圖的實時變化、靜態圖的統計結果進行展示,使學生可直觀地觀察到強化學習算法對交通控制信號的優化情況。
該平臺通過評分系統對學生的實驗情況進行評估打分,便于學生對不同參數進行學習理解后做優選以及老師對學生實驗情況的整體把握。
該平臺主要是為交通領域內AI算法的日常教學設計的實驗仿真平臺,可用于學生的日常實驗和平時測試中。此平臺可向對強化學習尚未接觸過的學生進行普及和推廣,一方面有助于學生進行先進的AI算法的學習及實驗,另一方面還能夠幫助教師掌握教學情況,提高教學質量。未來經過進一步的開發,該平臺將成為主流的面向AI算法的路網仿真教學軟件。
學生端主要包含學生的個人信息和教學過程中強化學習AI算法的常見參數設置等相關內容,可以根據學生所選擇的評價指標對比出優化效果的百分比,為學生進行打分評價。
教師端包含學生的個人信息以及成績排名,實驗結束后,教師可以查看學生實驗過程的報告,了解同學們對于相關知識的掌握程度。
學生端選擇界面如圖2、圖3所示,教師端界面如圖4所示。

圖2 學生端選擇界面1

圖3 學生端選擇界面2

圖4 教師端成績排名界面
經過對強化學習算法在交通領域相關文獻的查閱和大量實驗數據的分析,得出強化學習算法用于交通信號控制對路網的運行有著很大程度的優化。同時發現,當下強化學習在交通信號控制領域的應用與推廣有著極大的限制。由于國內大部分高校的交通專業都偏向傳統交通,學生對于計算機算法的了解會有所欠缺,并且AI算法難度較大,教師難以在課堂中進行教學,學生難以真正接觸到此領域,使得相關知識的學習和實驗實行困難。因此,本次課題開發的面向AI算法的交通信號控制優化仿真教學平臺,有助于學生了解相關領域,簡化了AI算法的學習和實驗過程,使得學生們在上課過程中更加方便進行先進AI算法的學習及實驗,從而讓學生們更容易理解AI算法在交通優化領域的應用和影響;并幫助教師通過教師端的反饋情況掌握學生學習情況,得到教學情況的概覽,從而進一步提升教學質量。
現階段AI算法已經在各個傳統領域有所應用,并已取得非常多的成果。近年,國內外對AI算法在交通信號控制方面進行了大量的研究和實驗,均已表明AI算法在交通信號控制方面有著顯著的作用,所以培養我國高校大學生對于AI算法認知和學習是必然的進程。該平臺在教學中的應用是創新的一大步,也對AI算法在交通信號控制優化領域的應用推廣以及人才培養有重大意義,同時對智能交通系統的發展有積極的作用。
目前,該平臺的算法提供Sarsa和Qlearning兩種AI算法,未來隨著研究的進一步深入,將會提供更多的算法進行探索學習,同時也會進一步完善平臺的結構,使其內容豐富、實驗模式更新、平臺界面美化,真正成為一款主流的、面向AI算法在交通信號控制領域的教學軟件。