999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于注意力機制的深度強化學習交通信號控制

2023-01-01 00:00:00任安妮周大可馮錦浩唐慕堯李濤
計算機應用研究 2023年2期

摘 要:深度強化學習(DRL)廣泛應用于具有高度不確定性的城市交通信號控制問題中,但現有的DRL交通信號控制方法中,僅僅使用傳統的深度神經網絡,復雜交通場景下其感知能力有限。此外,狀態作為強化學習的三要素之一,現有方法中的交通狀態也需要人工精心的設計。因此,提出了一種基于注意力機制(attention mecha-nism)的DRL交通信號控制算法。通過引入注意力機制,使得神經網絡自動地關注重要的狀態分量以增強網絡的感知能力,提升了信號控制效果,并減少了狀態向量設計的難度。在SUMO(simulation of urban mobility)仿真平臺上的實驗結果表明,在單交叉口、多交叉口中,在低、高交通流量條件下,僅僅使用簡單的交通狀態,與三種基準信號控制算法相比,所提算法在平均等待時間、行駛時間等指標上都具有最好的性能。

關鍵詞:注意力機制;深度強化學習;交通信號控制;深度Q網絡;SUMO

中圖分類號:TP181 文獻標志碼:A 文章編號:1001-3695(2023)02-019-0430-05

doi: 10.19734/j.issn.1001-3695.2022.06.0334

Attention mechanism based deep reinforcement learning for traffic signal control

Ren Anni1, Zhou Dake1, Feng Jinhao2, Tang Muyao1, Li Tao1

(1. School of Automation Engineering, Nanjing University of Aeronautics amp; Astronautics, Nanjing 211100, China; 2. School of Information Science amp; Engineering, Northeastern University, Shenyang 110004, China)

Abstract:DRL has gained wild applications in the field of urban transportation signal control. However, the existing DRL traffic signal control researches only use the traditional deep neural network, and its perception ability is limited in complex traffic scenarios. In addition, as one of the three elements of reinforcement learning, it also needs to design the traffic state carefully and manually in the existing researches. Therefore, this paper proposed a DRL traffic signal control algorithm based on attention mechanism. By introducing the attention mechanism, the neural network could automatically pay attention to the important state components to enhance the perception ability of the network, improve the signal control effect, and reduce the difficulty of state vector design. Experimental results on SUMO platform show that compared with the three classical signal control algorithms, only using a simple traffic state, the proposed algorithm has the best performance in average waiting time and travel time under the condition of low and high traffic flow at single intersections and multiple intersections.

Key words:attention mechanism; deep reinforcement learning; traffic signal control; deep Q network; SUMO

0 引言

近年來,隨著人們生活水平的提高,汽車保有量持續增加,城市的交通擁堵問題日趨嚴重,從而造成了巨大的經濟成本和時間浪費,因此,交通擁堵問題的緩解刻不容緩。交通擁堵是由多種因素引起的,如交通超載、道路結構設計不良等。有些因素需要復雜的政策或長期規劃,而交通信號控制是提高道路通行效率、緩解交通擁堵最直接、成本最低的途徑。

近年來,隨著人工智能技術的發展,基于強化學習[1](reinforcement learning,RL)的信號控制成為一種很有前途的交通信號控制解決方案。強化學習是一種“試錯”的學習方法,通過與環境交互來學習最優策略。在交通信號控制中,可以把一個或幾個交叉口看成一個智能體(agent),智能體觀測路網狀態后作出決策,通過最大化環境反饋的獎勵來學習最優的信號控制方案。受到人腦工作模式的啟發,深度學習[2](deep learning,DL)能夠把底層特征組合形成更加抽象的高層特征,從而有效地處理高維數據。深度強化學習(DRL)是深度學習和強化學習相結合的產物,它集成了深度學習感知問題上強大的理解能力,以及強化學習的強決策能力,實現了端到端學習,十分適用于交通信號控制領域。

圖1展示了深度強化學習框架的基本思想。

環境由交通燈相位和交通狀況兩部分組成。狀態是環境的特征表示。智能體以狀態為輸入,學習一個模型來決策交通燈的當前相位是保持還是改變。決策發送給環境,而獎勵則返回給智能體。智能體隨后更新模型,并根據新的狀態和更新的模型繼續作出下一個時間步的新決策。

近年來,深度強化學習方法在交通信號燈控制問題上取得了一定的進展。但現有的DRL交通信號控制方法中,僅僅使用傳統的深度神經網絡(如全連接網絡、卷積網絡和循環網絡等),復雜交通場景下其感知能力有限;此外,狀態作為強化學習的三要素之一,現有方法的交通狀態也需要人工精心的設計。本文的主要貢獻有:

a)提出了一種基于注意力機制的深度強化學習信號控制算法DQN_AM。神經網絡自動關注重要的狀態分量以增強網絡的感知能力,并減少了狀態向量設計的難度。

b)在單交叉口、多交叉口的兩種交通流量條件下驗證了所提算法的有效性,僅僅使用簡單的交通狀態,本文方法的控制效果也有較為顯著的提升。車流數據模擬了現實中高低峰的情況,具有工程應用價值。

1 研究背景

1.1 傳統的交通信號控制

交通信號控制是交通領域的核心研究課題,現有的控制方法大致可分為三類:

a)固定配時控制[3]。根據歷史交通需求確定所有綠燈相位的固定時間,不考慮交通需求可能出現的波動。

b)感應控制[4,5]。定義一套規則,并根據預定義的規則和實時數據觸發交通信號。其中一個規則是,如果隊列長度超過某個閾值,則該方向交通燈設置為綠色信號。

c)自適應控制。首先確定一組交通信號方案,并根據當前的交通狀況(如環路傳感器接收的交通量數據)選擇出最優的方案。該方法被廣泛應用于當今的交通信號控制中。常用的系統有SCATS[6]、RHODES[7]和SCOOT[8]。

1.2 基于深度強化學習的交通信號控制

交通信號控制[9]問題具有高度不確定性的特點,難以建立精確的交通信號控制模型。數據驅動的深度強化學習(DRL)綜合了深度學習強感知和強化學習的強決策的優點,適用于處理這一類難以精確建模的決策問題。

Arel等人[10]首次將DRL引入交通信號控制領域,使用神經網絡擬合Q值。狀態由一個八維向量表示,每個元素表示對應車道的相對交通流量。相對交通流量定義為一條車道上車輛的總延誤除以交叉路口所有車道的平均延誤。Genders等人[11]提出了一種新的狀態空間定義,即離散交通狀態編碼(DTSE),它包含了比以往研究的狀態空間定義更多的相關信息。其狀態DTSE由三個向量組成,第一個向量表示網格中是否存在車輛,第二個向量表示車輛的速度,第三個向量表示當前的交通信號相位。Wei等人[12]提出IntelliLight模型,使用相位門結構設置獨立的學習通道,根據相位、動作對經驗池進行劃分。狀態是為一個交叉口定義的。對于該交叉口的每個車道i,狀態分量包括隊列長度Li、車輛數量Vi、更新后的車輛等待時間Wi。此外,該狀態還包括車輛位置M、當前階段Pc和下一階段Pn的圖像表示。Wei等人[13]提出PressLight模型,提出一種基于最大壓力的多路口交通信號控制方法。狀態是為一個交叉口定義的,其狀態包括當前階段p,每個出車道x(m)(m∈Lout)上的車輛數量,每個入車道上每個路段的車輛數量x(l)k(l∈Lin,k=1,…,K),其中K=3。Zang等人[14]提出MetaLight模型,率先將基于值的元強化學習應用于交通信號控制。狀態由每個接近車道上的車輛數量和信號相位組成。Zheng等人[15]提出FRAP模型,通過捕捉不同相位信號之間的競爭關系,實現在交通流中翻轉、旋轉等對稱情況的不變性,其狀態用一個八位的向量p來表示運動信號的組合(即相位)。Xiong等人[16]提出DemoLight,利用從傳統交通信號控制方法收集的演示來加速演員評論家(actor-critic)算法,其狀態為車輛數量。現有方法的狀態較為復雜,狀態作為強化學習的三要素之一,需要人工精心地設計。如果引入注意力機制,使得神經網絡自動地關注重要的狀態分量以增強網絡的感知能力,不僅可以提升信號控制效果,而且可以減少狀態向量設計的難度。

2 基于注意力機制的深度強化學習交通信號控制算法

本文對狀態使用注意力機制,對不同狀態賦予不同的權重。本章將對狀態、動作、獎勵進行定義,并介紹所提算法DQN_AM的網絡模型。

2.1 簡單狀態

狀態參考文獻[17],采用車道均勻劃分的方法。如圖2所示,是以交叉口西進口道為例的網格設計圖,本文用于仿真的交叉口為雙向6車道,長為500 m。沿著車輛行駛方向,左邊車道為左轉車道,中間車道為直行車道,右邊車道為直行加右轉車道。十字路口進口道被分割成大小相同的長方形網格,每個網格長50 m。其中,左轉車道單獨劃分,右邊兩條車道看成一個整體進行劃分,最終一個交叉口四個方向的車道被劃分為80個網格。網格的值為網格中的車輛數量。

2.2 動作定義

智能體[18,19]在獲得狀態后,從動作集中選擇要采取的動作并觀察動作帶來的獎勵以及新的狀態,本文的動作定義為在預定義的相位中選擇需要更改的相位。動作集合A={NSG,NSLG,EWG,EWLG},分別表示南北方向直行和右轉綠燈、南北方向左轉綠燈、東西方向直行和右轉綠燈、東西方向左轉綠燈。每個相位的最短持續時間設為10 s,同時為了交通安全,綠燈和紅燈切換期間會有時長3 s的黃燈。

2.3 獎勵定義

智能體在t時刻觀測環境狀態為st,執行動作at后得到環境對該動作的反饋rt。本文定義rt為相鄰時間步的所有車道車輛排隊長度之差:

rt=αqt-qt+1(1)

其中:qt表示t時刻路網中所有車道的排隊長度之和;α為折扣系數,通過經驗和多次實驗后設為0.9,α使智能體對動作的結果有了更強的表征,因此提高了訓練的有效性。

2.4 基于注意力機制的DRL信控算法(DQN_AM)

本文設計了一種名為DQN_AM的新型算法,網絡結構如圖3所示。直觀感覺靠近路口權重大,應賦予不同的狀態分量,聚焦更重要的分量,所以引入注意力機制,使得神經網絡自動地關注重要的狀態分量以增強網絡的感知能力。SENet[20]是一種有效的通道注意力網絡,受其啟發,本文設計了狀態注意力機制層attention-layer。所提算法使用attention-layer將注意力分配到不同的分量上,這些分量可以有選擇地強調信息特征,并抑制不太有用的特征,從而獲得更準確的狀態。

智能體觀察環境得到輸入狀態,然后將狀態經過注意力機制(即attention-layer)后的狀態經過隱藏層,最后得到Q值。

如圖3所示,attention-layer主要包含excitation和scale兩個操作,excitation操作通過兩個全連接層生成狀態權重,scale操作實現狀態s的重標定。

a)excitation操作中兩個全連接層先降維后升維,加強了各個狀態之間的聯系,顯性地建模狀態間的相關性。第一個全連接把80個通道壓縮成了4個通道來降低計算量(激活函數ReLU),第二個全連接再恢復回80個通道(激活函數為sigmoid),得到歸一化(0-1)的狀態權重w:

b)scale操作根據excitation得到的狀態權重矩陣w對原狀態矩陣s加權更新得到注意力輸入狀態sam。

算法1 DQN_AM算法

1 初始化深度Q網絡w、經驗池

2 for episode=1 to M do

3 初始化路網環境,導入車流數據

4 for t=1 to T do

5 智能體觀測當前環境狀態s

6 對狀態s使用注意力機制

7 當前狀態輸入DQN智能體,智能體基于ε貪婪策略執行動作a

8 觀測得到新的狀態s′,根據式(1)計算獎勵r

9 將樣本(s,a,r,s′)存入經驗池中

10 end for

11 從經驗池中抽取樣本訓練網絡

12 計算優化目標,使用均方誤差損失函數更新深度Q網絡參數w

13 end for

3 實驗結果與分析

本章首先介紹了實驗設置、超參數設置和評價指標,然后介紹了對比算法(FTC、SOTL、DQN)和數據集,最后在單交叉口和多交叉口交通場景中、低、高流量情況下,驗證了算法DQN_AM的有效性。

3.1 實驗設置

a)實驗平臺SUMO (simulation of urban mobility)。SUMO是目前最受歡迎的開源交通仿真軟件之一,允許用戶根據自己的需求設置仿真環境,Python中的流量控制接口(Traci)庫可以與SUMO交互,實現對交通信號的控制。本文的硬件環境為Ubuntu GeForce RTX 2080 GPU,算法通過深度學習框架Keras實現,在SUMO v1.6.0中進行仿真實驗。

b)交叉口設置。本文在單交叉口和多交叉口兩種交通場景下分別進行仿真。實驗環境為如圖2所示的十字路口。路口連接著四條500 m的道路,每條道路分別有3條進車道和3條出車道。多交叉口為4個相同的交叉口組成的2×2井字型路網,其路口配置和單交叉口相同。

3.2 超參數設置

參照文獻[12]并結合實驗,算法使用DNN評估Q值,采用Adam優化器,采用均方誤差作為損失函數,使用ε貪婪算法輸出動作,超參數設置如表1所示。

3.3 評價指標

本文使用以下五種有代表性的指標來評價不同算法的性能:

a)平均等待時間。所有車輛從進入車道到出車道的等待時間的平均值。

b)平均行駛時間。所有車輛從進入車道到出車道的總時間的平均值。

c)平均燃油消耗。所有車輛從進入車道到出車道的油耗的平均值,單位為mL/s。

d)平均CO2排放。所有車輛從進入車道到出車道的二氧化碳排放量的平均值,單位為 mg/s。

e)平均累計獎勵。所有車輛從進入車道到出車道的累計獎勵的平均值。

對于不同流量條件,用隨機種子seed生成20組車流數據,用以上五種指標作為算法的評價指標。平均等待時間與定義的獎勵相關性最強,為主要指標;平均行駛時間、平均燃油消耗和平均CO2排放為次要指標。其中,平均累計獎勵越高,表明該方法的性能越好,而平均等待、行駛時間越短,平均燃油消耗、CO2排放越少,表明交通越不擁擠,越低碳環保,性能越好。

3.4 對比算法

為了驗證模型的有效性,將DQN_AM與以下三種基準算法進行比較:

a)固定配時控制(fixed-time control,FTC)。FTC根據經典的韋伯斯特配時法[22]預先定義了一套配時方案,即采用預先確定的周期和相位時間,該方法被廣泛應用于現實交通場景。

b)自組織交通燈控制(self-organizing traffic lights,SOTL)[23]。SOTL是一種基于人工調節等待車輛數量閾值的交通燈自適應調節方法。若紅燈方向的排隊長度達到閾值,則變成綠燈;若綠燈方向的車輛數過多,則延長綠燈時長。

c)基于DQN的交通信號控制。使用與所提算法DQN_AM相同的DQN算法[21],唯一的區別在于其不對狀態使用注意力機制,狀態、動作、獎勵等定義都與DQN_AM相同。

3.5 數據集

本文使用的數據集是合成數據集。如表2所示為設定的車輛參數,車輛從任意入口進入路網,車輛的生成服從韋伯分布,從而模擬現實交通中低峰和高峰的情況。概率密度函數為

f(x;λ,a)=aλ(xλ)a-1e-(xλ)a x≥00 xlt;0(7)

其中:λ是比例參數,設定為1;a是形狀參數,設定為2。

3.6 實驗評估與結果分析

本文分別在單交叉口和多交叉口兩種交通場景下進行實驗,仿真時長都為5 400 s,如表3所示,為低、高流量下進入路網的車輛數目。車輛數目設置中,左轉、直行、右轉為各進口道具體車流量,總量為總流入車流量。

3.6.1 單交叉口實驗結果

圖5(a)是在單交叉口高流量條件下,DQN_AM與DQN在訓練過程中的累計獎勵對比。可以看出兩者區別不大。因此,增加了注意力機制,不會降低算法的收斂速度,也不會削弱算法的穩定性。圖5(b)是DQN_AM與三種基準算法的車輛平均等待時間對比結果。在訓練的初始階段,由于經驗池中的樣本太少,智能體還沒有學到正確的控制策略,所以平均等待時間大幅上升。隨著訓練時間的增加,交叉口通行狀況逐漸好轉,最終趨于平穩。圖5(c)是DQN_AM與DQN在20次測試中的累計獎勵對比,圖5(d)是DQN_AM與三種基準算法的車輛平均等待時間對比。結果顯示,與傳統的FTC、SOTL信號控制方法相比,基于DRL的方法在縮短車輛等待時間上效果顯著;與DQN相比,DQN_AM的控制效果更優于DQN。

算法的性能分別如表4、5所示,在單交叉口交通場景中,算法DQN_AM的改善效果都為最優。在低流量條件下,相比于DQN,平均等待時間減少了4.29%,累計獎勵提高了3.63%;在高流量條件下,相比于DQN,平均等待時間減少了5.69%,累計獎勵提高了5.52%,并且在其他三項指標中均有明顯的改善。

3.6.2 多交叉口實驗結果

在多交叉口交通場景中,每個交叉口信號都由一個智能體控制。本文旨在驗證基于注意力機制的DRL的有效性,因此,使用簡單的多智能體協作策略:采用空間折扣因子削弱來自其他交叉口的獎勵,把當前交叉口獎勵權重設為0.5,鄰居交叉口設為0.2,對角交叉口設為0.1。

算法的性能分別如表6、7所示,算法DQN_AM的改善效果都為最優。在低流量條件下,相比于DQN,平均等待時間減少11.48%,累計獎勵提高11.65%;在高流量條件下,相比于DQN,平均等待時間減少8.37%,累計獎勵提高8.56%。并且在其他三項指標中均有明顯的改善。

綜上所述,在單交叉口和多交叉口兩種交通場景中,相較于三種基準算法,算法DQN_AM都學習到了更好的控制策略,有效地緩解了交通擁堵,減少了燃油消耗與CO2排放。

4 結束語

本文使用了一種基于注意力機制的深度強化學習交通信號控制算法DQN_AM來解決交通信號控制問題。通過廣泛的實驗,驗證了在單交叉口、多交叉口交通場景中,低、高兩種流量條件下,通過引入注意力機制,使得神經網絡自動地關注重要的狀態分量以增強網絡的感知能力,提升了信號控制效果,并減少了狀態向量設計的難度。實驗結果也表明,僅僅使用簡單的交通狀態,本文方法的控制效果也有較為顯著的提升。與FTC、SOTL、DQN算法相比,DQN_AM在平均等待時間、行駛時間等方面都有了較大的提升。本文方法和現有的絕大多數DRL信控方法相同,是在全息路網條件下進行的。全息路網是城市智能交通技術中的一個重要發展趨勢,但現有的城市路網中,大多只能獲得交叉口附近的部分交通狀態信息(如車流量、排隊長度等),因此有必要研究有限信息條件下的深度強化學習交通信號控制,這也是下一步研究的方向。

參考文獻:

[1]Sutton R S,Barto A G. Introduction to reinforcement learning[M]. Cambridge,MA: MIT Press,1998.

[2]Lecun Y,Bengio Y,Hinton G. Deep learning[J]. Nature,2015,521(7553): 436-444.

[3]Roess R P,Prassas E S,McShane W R. Traffic engineering[M]. 3rd ed. Englewood Cliffs,NJ: Prentice-Hall,2004.

[4]Fellendorf M.VISSIM:a microscopic simulation tool to evaluate actua-ted signal control including bus priority[C]// Proc of the 64th Institute of Transportation Engineers Annual Meeting. 1994: 1-9.

[5]Mirchandani P,Head L. A real-time traffic signal control system: architecture,algorithms,and analysis[J]. Transportation Research Part C: Emerging Technologies,2001,9(6): 415-432.

[6]Lowrie P R. SCATS: sydney co-ordinated adaptive traffic system : a traffic responsive method of controlling urban traffic[J/OL]. Roads and Traffic Authority NSW. (1992-09). https://trid.trb.org/view/1202971.

[7]Mirchandani P,Wang Feiyue. RHODES to intelligent transportation systems [J]. IEEE Intelligent Systems,2005,20(1): 10-15.

[8]Hunt P B,Robertson D I,Bretherton R D,et al. The SCOOT on-line traffic signal optimisation technique[J]. Traffic Engineering amp; Control,1982,23(4): 59-62.

[9]徐東偉,周磊,王達,等. 基于深度強化學習的城市交通信號控制綜述[J]. 交通運輸工程與信息學報,2022,20(1): 15-30. (Xu Dongwei,Zhou Lei,Wang Da,et al. Overview of reinforcement lear-ning-based urban traffic signal control[J]. Journal of Transportation Engineering and Information,2022,20(1): 15-30.)

[10]Arel I,Liu C,Urbanik T,et al. Reinforcement learning-based multi-agent system for network traffic signal control[J]. IET Intelligent Transport Systems,2010,4(2): 128-135.

[11]Genders W,Razavi S. Using a deep reinforcement learning agent for traffic signal control[EB/OL]. (2016-11-03). https://arxiv. org/pdf/1611. 01142. pdf.

[12]Wei Hua,Zheng Guanjie,Yao Huaxiu,et al. IntelliLight: a reinforcement learning approach for intelligent traffic light control[C]// Proc of the 24th ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining. 2018: 2496-2505.

[13]Wei Hua,Chen Chacha,Zheng Guanjie,et al. PressLight: learning max pressure control to coordinate traffic signals in arterial network[C]// Proc of the 25th ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining. 2019: 1290-1298.

[14]Zang Xinshi,Yao Huaxiu,Zheng Guanjie,et al. MetaLight: value-based meta-reinforcement learning for traffic signal control[C]// Proc of AAAI Conference on Artificial Intelligence. 2020: 1153-1160.

[15]Zheng Guanjie,Xiong Yuanhao,Zang Xinshi,et al. Learning phase competition for traffic signal control[C]// Proc of the 28th ACM International Conference on Information and Knowledge Management. 2019: 1963-1972.

[16]Xiong Yuanhao,Zheng Guanjie,Xu Kai,et al. Learning traffic signal control from demonstrations[C]// Proc of the 28th ACM International Conference on Information and Knowledge Management. 2019: 2289-2292.

[17]Liang Xiaoyuan,Du Xuansheng,Wang Guiling,et al. A deep reinforcement learning network for traffic light cycle control[J]. IEEE Trans on Vehicular Technology,2019,68(2): 1243-1253.

[18]王娜,王國宇,孟慶春,等.基于agent的智能交通系統的控制建模[J].計算機應用研究,2007,24(1): 103-106. (Wang Na,Wang Guoyu,Meng Qingchun,et al. Model of agent-based intelligent traffic control system[J]. Application Research of Computers,2007,24(1): 103-106.)

[19]孫浩,陳春林,劉瓊,等. 基于深度強化學習的交通信號控制方法[J]. 計算機科學,2020,47(2): 169-174. (Sun Hao,Chen Chunlin,Liu Qiong,et al. Traffic signal control method based on deep reinforcement learning[J]. Computer Science,2020,47(2): 169-174.)

[20]Hu Jie,Shen Li,Sun Gang. Squeeze-and-excitation networks[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. 2018: 7132-7141.

[21]Mnih V,Kavukcuoglu K,Silver D,et al. Playing Atari with deep reinforcement learning[EB/OL]. (2013-12-19). https://arxiv.org/pdf/ 1312. 5602. pdf.

[22]Webster F V. Traffic signal setting[J/OL]. Road Research Technical Paper. (1958). https://trid.trb.org/view.aspx?id=113579.

[23]Cools S B,Gershenson C,D’Hooghe B. Self-organizing traffic lights: a realistic simulation[M]// Advances in Applied Self-Organizing Systems. London: Springer,2013: 45-55.

收稿日期:2022-06-03;修回日期:2022-08-23 基金項目:國家自然科學基金資助項目(62073164);南京航空航天大學研究生創新基地(實驗室)開放基金資助項目(xcxjh20210319)

作者簡介:任安妮(1997-),女,浙江寧波人,碩士研究生,主要研究方向為智能控制;周大可(1974-),男(通信作者),江蘇淮安人,副教授,碩導,博士,主要研究方向為機器學習、計算機視覺與智能控制等(dkzhou@nuaa.edu.cn);馮錦浩(1998-),男,浙江湖州人,碩士研究生,主要研究方向為圖像處理與模式識別;唐慕堯(1997-),男,江蘇泰州人,碩士研究生,主要研究方向為智能控制;李濤(1979-),男,安徽淮南人,副教授,碩導,博士,主要研究方向為網絡化多智能體系統、網絡控制系統與飛行器控制.

主站蜘蛛池模板: 欧美一道本| 尤物特级无码毛片免费| 91美女在线| 狠狠v日韩v欧美v| 日本不卡视频在线| 91精品国产情侣高潮露脸| 一级香蕉人体视频| 成人第一页| 久久综合九色综合97婷婷| 亚洲天堂777| 自慰网址在线观看| 国产不卡网| 在线观看欧美精品二区| 欧美在线中文字幕| 91精品福利自产拍在线观看| 日韩av高清无码一区二区三区| 色婷婷狠狠干| 伊人欧美在线| 精品人妻无码中字系列| 欧美视频在线不卡| 国产精品极品美女自在线网站| 久久婷婷色综合老司机| 午夜限制老子影院888| 无码乱人伦一区二区亚洲一| 国产欧美日韩18| 欧美日韩在线观看一区二区三区| 国产尤物视频在线| 午夜老司机永久免费看片| 中文无码伦av中文字幕| 动漫精品中文字幕无码| 色窝窝免费一区二区三区 | 欧美精品1区| 亚洲AV人人澡人人双人| 99在线观看精品视频| 天天婬欲婬香婬色婬视频播放| 国产69精品久久| 欧美区一区| 色综合国产| 欧美成人二区| 亚洲福利片无码最新在线播放| 中国丰满人妻无码束缚啪啪| 久久精品91麻豆| 国产在线欧美| 91精品日韩人妻无码久久| 中文字幕第4页| 国产成年无码AⅤ片在线 | 亚洲久悠悠色悠在线播放| 美女被操黄色视频网站| 911亚洲精品| 日韩色图区| 亚洲高清中文字幕| 亚洲国产精品VA在线看黑人| 少妇精品在线| 狠狠色狠狠综合久久| 99re热精品视频国产免费| 秋霞国产在线| 亚洲日本精品一区二区| 色欲色欲久久综合网| 欧美激情二区三区| 欧美在线观看不卡| 狠狠色狠狠色综合久久第一次| 国产一级视频在线观看网站| 国产一在线| 伊伊人成亚洲综合人网7777| 孕妇高潮太爽了在线观看免费| 日本欧美一二三区色视频| 99re在线观看视频| 欧美色伊人| 日韩AV无码一区| 精品久久久久久中文字幕女| 精品视频第一页| 在线观看亚洲人成网站| 性做久久久久久久免费看| 亚洲精品国产精品乱码不卞| 免费a级毛片视频| 91久久偷偷做嫩草影院| 黄色成年视频| 国产人前露出系列视频| 国产精品入口麻豆| 综合久久久久久久综合网| 国产精品香蕉| 久久国产精品77777|