999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強化學習的多路口信號控制優化研究

2022-12-31 00:00:00趙純董小明任奕穎
計算機應用研究 2022年8期

摘要:新的智能交通系統在改善交通流量,優化燃油效率,減少延誤和提高整體駕駛經驗方面有望發揮重要作用。現今,交通擁堵是困擾人類的一個極其嚴重的問題,特別是一些城市交通密集的十字路口處可能會更加嚴重。對信號控制系統的獎勵機制進行了改進,將所有路口共享獎勵的機制改進為每個交叉口共享唯一的獎勵,并且通過密集采樣策略與多路口信號控制相結合的方式,運用時下熱門的深度強化學習來解決交通信號燈配時問題。仿真實驗都是基于現在國際主流的交通模擬軟件(SUMO)完成,從實驗結果表明,改進后的深度強化學習多路口信號控制方法相較于傳統強化學習方法控制效果更佳。

關鍵詞:智能交通系統;深度強化學習;交通流量;多路口信號控制

中圖分類號:U491文獻標志碼:A

文章編號:1001-3695(2022)08-015-2329-04

doi:10.19734/j.issn.1001-3695.2022.01.0006

Multi-junction signal control optimization based on deep reinforcement learning

Zhao Chuna,Dong Xiaominga,Ren Yiyingb

(a.School of Computer amp; Information,b.School of Electronic Engineering amp; Intelligent Manufacturing,Anqing Normal University,Anqing Anhui 246000,China)

Abstract:The new intelligent transportation system plays an important role in improving traffic flow,optimizing fuel efficiency,reducing delays and improving the overall driving experience.Nowadays,traffic congestion is a very serious problem that disturbs human beings,especially the intersection with dense traffic in some cities may be more serious.This paper improved the reward mechanism of signal control system,the reward mechanism of all intersections to each intersection sharing a unique reward.And through the combination of intensive sampling strategy and multi-intersection signal control,it used the popular deep reinforcement learning to solve the traffic signal timing problem.Simulation experiments were based on the current international mainstream traffic simulation software(SUMO).The experimental results show that the improved deep reinforcement learning multi-junction signal control method has better control effect than the traditional reinforcement learning method.

Key words:intelligent transportation system;deep reinforcement learning;traffic flow;multi-junction signal control

0引言

隨著機動車數量的不斷增長,交通擁堵成為了人類所面臨的一個極其復雜和令人煩惱的問題,特別是在一些交通復雜的大都市尤為嚴重[1]。一般傳統交通信號的控制時間固定,導致綠燈階段存在不必要的等待,造成了極大的資源浪費。因此通過基于時下熱門的深度強化學習的多路口交通信號控制方案能夠很好地緩解交通擁堵壓力,減少交通事故,從而提高系統的效率化和合理化。

傳統的馬爾可夫決策過程和強化學習受限于可擴展性差這一缺點,也就導致了狀態空間的爆炸。強化學習是一種自適應控制策略,通過其中一個或多個agent自主學習如何利用agent和環境本身之間的交互產生的經驗來解決環境中的任務[2]。早期的交通信號控制極其依賴手動進行特征提取,所以導致了需要投入極大的人力資源,而且狀態容易出現變動,丟失最主要的狀態信息。傳統的Q學習由Watkins在1989年提出,是一種無模型的在線強化學習算法[3],Q學習中每個時間短的綠燈時長,當繁忙度上升時,則給此相位分配的綠燈時長應當相應增多。而當處于某一交通狀態時,為其配置過高或者過低的相位綠燈時間是非常不合理的。El-tantawy等人[4]總結了1997—2010年使用強化學習來解決交通信號控制問題的方法,當時的強化學習技術僅限于表格型Q學習,并且通常只使用線性函數來估計Q值,而且由于當時強化學習的技術限制,在狀態空間定義中往往采用排隊車輛數量以及交通流量等簡單類型的數據,然而交通道路系統的復雜性往往無法通過這些信息得到完整的呈現,這就導致了強化學習無法在交通信號控制中發揮出最佳的效果。Balaji等人[5]將傳統Q學習算法與交通信號控制相結合,驗證了該算法運用在交通信號控制問題上的有效性。但是運用傳統的Q學習算法,可能會使行為空間過大,最終導致維度爆炸的情況。伴隨著強化學習和深度學習技術的發展,有學者提出將它們結合在一起作為深度強化學習方法來估計Q值。Li等人[6]采用深度強化學習技術中對單交叉口控制問題進行了研究,并且作出了改進。文獻[7]將卷積神經網絡CNN與強化學習算法中的Q學習算法相結合提出了DQN 算法。該算法利用經驗回放機制打破了樣本序列的相關性并提高了學習效率。

現今不斷發展的車載通信技術為車輛的位置和速度提供了更細致的關鍵能力。這樣就可以通過全面的實時信息與邊緣云計算相結合的方法,使用更靈活的交通燈控制政策有效地改善流量,從長遠角度來分析,可以直接驅動全自動駕駛場景。雖然這種情況潛在的好處是巨大的,但是面臨的技術挑戰也是巨大的。而且從內在復雜性、地理范圍和物體數量來看,這種控制系統也是前所未有的規模參與,而現實場景中的交通信號配時常常是分布的、混雜的、難以預測的,想要突破這種情況,就必須引入深度強化學習的概念,深度強化學習(DQN)是一種感知能力極強,決策能力又很迅速的算法。

本文方法主要優勢在于:a)對交通信號控制系統的獎勵機制進行了改進,將所有路口共享獎勵的機制改進為每個交叉口共享唯一的獎勵;

b)通過密集采樣策略與多路交叉口信號控制相結合,這種方式在一定程度上提高了控制的性能;

c)所有的仿真實驗都是使用現在國際主流的交通模擬軟件(simulation of urban mobility,SUMO)來完成的,大大提高了實驗的可靠性和穩定性;

d)參數設置合理,通過多次實驗減少偶然性,提高了控制系統的穩定性。

1交叉口模型的建立

本文建立了下面兩種道路交叉口的模型,并給出了優化方案,下面分別介紹這兩種模型。

1.1單路口模型的建立

本文建立的單交叉口的模型如圖1所示,其中Qi(t)表示等待通過交通流i的車輛數,交叉口的狀態用P(t)∈{0,1,2,3}表示。接著對交通燈進行了配置:0表示方向1為綠燈,方向2為紅燈;1表示方向1為黃燈,方向2為紅燈;2表示方向2為綠燈,方向1為紅燈;3表示方向2為黃燈,方向1為紅燈。

如式(1)所示,這些由行動決定在時刻t結束時選擇的A(t),A(t)∈{0,1},用一個二進制變量表示:0表示繼續,1表示轉變。

P(t+1)=(P(t)+A(t))(1)

通過這些規則就可以產生一個嚴格的循環控制序列,如圖2所示,隊列狀態隨時間的發展由遞歸控制,下面再看它的一個路口車輛計算函數。

Q1(t+1),Q2(t+1)=(Q1(t)+S1(t)-W1(t),Q2(t)+S2(t)-W2(t))(2)

其中:Qi(t)表示t時刻等待通過交通流i的車輛數;Si(t)表示時刻t出現在交叉口的交通流i的車輛數;Wi(t)為交通流i穿過交叉口離開的車輛數。

1.2多路交叉口模型建立

在更復雜的道路中研究DQN算法的性能和可伸縮性大規模場景下,本文將考慮線性網絡拓撲結構[8],如圖3所示調查了多路口交叉模型結構有N個路口和雙向交通流。

這時維度發生了變化,對于剛剛那種單路口的函數就要進行升級,系統在時刻t開始時的狀態P(t)就要用五元組來描述(Qn1(t),Qn2(t),Qn3(t),Qn4(t),Pn (t))(n =1,…,N)。

下面是多路口交叉模型結構的一個隊列狀態轉換函數:

Pn(t+1)=(Pn(t)+An(t))(3)

接著再來看多路口交叉模型結構的車輛計算函數:

Qni(t+1)=Qni(t)+Sni(t)-Wni(t)(4)

其中:Sni(t)表示在t時刻第n個交叉口的i方向出現的車輛數;Wni(t)表示在t時刻第n個交叉口的方向i離開的車輛數;Sn1(t),Sn2(t),Sn3(t),Sn4(t)(n=1,…,N),對應從外部環境接近交叉口的所有車輛,有

Sn+1,1(t+u)=Wn1(t)(5)

Sn3(t+u)=Wn+1,3(t)(6)

式(5)和(6)表示在t時段通過第n個交叉口1方向的車輛向東出現在u時段第(n+1)個交叉口1方向的車輛;同樣地,在t時段通過第(n+1)個路口3方向的車輛向西出現在u時段第n個路口3方向的車輛。這樣,沿著主干道行駛的車輛在各個車輛之間產生了高度復雜的相互作用交叉口,這就給優化控制策略方面提出了額外的挑戰。

2多路口交通信號配時的深度Q-learning算法

2.1狀態表示

在多路交叉口的每一條臂上,進入的車輛在單元中被離散化,這些單元可以識別其中是否有車輛。將系統狀態S作為目標網絡和評估網絡輸入到DQN中,算法環境狀況被表現為路面的離散化,目的是告知agent車輛在特定時間內的位置,單路口的輸入為S =(Q1,Q2;P),而多路口的輸入為S =(Qn1,Qn2,Qn3,Qn4;Pn),這個時候維度就發生了變化。

2.2動作行為

動作集是智能體可用的交互方式,它被定義為1.1節的配置,執行一個操作就意味著在一組車道上將一些交通燈變綠,并保持固定的時間。

2.3獎勵機制

在孫浩等人[9]的實驗中,將車輛進入各車道的延誤時間設置為d,所有進入車道等待的車輛隊列長度之和設置為q,所有進入車道車輛的等待時間設置為w,相位的狀態切換設置為p,車輛的緊急制動停止設置為e,執行動作后離開的車輛數設置為n,綜合各種因素所得獎勵公式如下:

Rt=k1d+k2q+k3w+k4p+k5e+k6n(7)

現在對多路口信號控制系統的獎勵機制進行了改進,將Rt函數設置成二維函數Rt[x][y],每個交叉口共享獎勵改進為各自路口共享唯一的獎勵,公式如下:

Rt[x][y]=Rt[x][y]-cross.car_num[i](8)

也就是說用前面所有路口累積獎勵值減去前面所有經過的車輛的獎勵值,進行i次迭代后,然后得到了當前路口的獎勵值,也就是所說的唯一獎勵,這樣的話每個路口都會擁有自己的獎勵,通過改進這種機制后,本文實驗結果數據的精確度也會大大得到提升。

2.4Q-learning更新公式

本文使用下面的更新公式:

Q(st,at)=rt+1+γ.∑s′∈Sp(s,s′;a)maxAQ′(st+1,at+1)=

rt+1+γE[maxAQ′(st+1,at+1)](9)

獎勵rt+1是在st采取動作之后才得到的,Q(st,at)是st+1采取相關動作后得到的有關Q值,也就是采取動作后的下一個狀態,折扣因子γ表示和即時獎勵相比,未來獎勵隨著時間步t的推進懲罰也越來越小。這個公式就是通過即時獎勵和未來動作的折扣Q值來更新狀態St中當前行動Q值的規則。所以,表示未來動作隱含價值的Q′(st+1,at+1)是持有st+1之后的最大折扣回報,即Q″(st+2,at+2)。同樣,它也擁有下一個狀態的最大折扣回報,即Q′(st+3,at+3)。這就說明不管agent如何選擇下一個行動的動作,都不僅僅是基于即時獎勵,還要基于未來預期折扣獎勵,在這兩個的基礎上同時進行。而本文在模擬過程中,agent不斷地迭代獲得關于動作序列值的知識。最后,希望它能夠選擇動作序列,從而最終獲得更高的累積回報來獲得最佳性能。

2.5深度神經網絡

本文使用了深度Q-learning算法,將觀察到的環境狀態st映射到與動作相關的Q值,并搭建一個深度神經網絡。它的輸入是時間步長為t時的IDR(環境狀態向量),深度神經網絡的輸出是來自狀態st的作用Q值。一般地,神經網絡的輸入nin被定義為

nink,t=IDRk,t(10)

其中:nink,t表示時間步長為t時神經網絡的第n個輸入;IDRk,t是時間步長為t時向量IDR的第K個元素,本文這里的輸入就是系統的狀態S =(Qn1,Qn2,Qn3,Qn4;Pn)。而神經網絡的輸出則被定義為

noutv,t=Q(st,av,t)(11)

其中:noutv,t是神經網絡在時間步驟t的第v次輸出;Q(st,av,t)是時間步驟t采取第v個動作的Q值。

本文先給出了單路口的DQN算法交集場景,后面再給出N個交集的線性拓撲結構的場景效果,即使在后面一種情況下,本文也采用了一個單agent DQN算法,它具有訪問全局的權限。這種方法與多智能體方法不一樣的是每個個體只有一個智能體減少交集的復雜性和冗余度。雖然單智能體方法涉及更大的狀態空間,但它擁有更智能的控制和協調水平。圖4清楚地展示了深度神經網絡的層與層之間的聯系。

從圖4可以看出,作為深度神經網絡的輸入,輸入了n個IDR向量,并傳輸給神經網絡層進行訓練,訓練結束后輸出與時間步t相關的Q-value值。

3仿真實驗

本實驗所使用的實驗環境是國際通用的交通模擬軟件SUMO(simulation of urban mobility)[10],它是一種開源、微觀、多模態的交通模擬軟件,具體到道路上每一輛車的運行路線都可以單獨規劃,允許模擬由單個車輛組成的給定交通需求,及如何在給定的道路網絡中移動,示意圖如圖5所示。

3.1系統的輸入

開始訓練前,系統首先先進行車輛和交叉口的模擬生成,如圖5所示,系統會隨機生成車輛和信號燈的狀態,具體的狀態轉換情況在圖2中可以體現出來,而這只是放大多路口網絡的一個交叉口的生成過程,具體的多路口整體生成示意圖如圖6所示,這樣的話一整個多路口路網的生成模擬過程就形成了。

模擬完成后,將交叉口的系統狀態S作為目標網絡和評估網絡的輸入[11],S=(Qn1,Qn2,Qn3,Qn4;Pn),Qn1,Qn2,Qn3,Qn4表示多路口的每個交叉口四個方向的來車,而Pn則表示車輛的狀態轉換概率,最終將向量S=(Qn1,Qn2,Qn3,Qn4;Pn)輸入到DQN算法中進行訓練。

3.2密集采樣策略

密集采樣策略通過強化該模型的實施和測試,從而提高γ值較高的時候agent在訓練階段的性能,agent的培訓階段包括在給定的環境狀態下找到最有價值的行動。盡管如此,在訓練的早期階段,并不知道哪些動作是最有價值的。為了克服這一問題,在培訓開始時,agent應發現行動的后果,而不必擔心其性能表現,最后將agent模型訓練的超參數設置如下:

a)神經網絡。5層,每層包含400個神經元。

b)γ值。將原有的0.25提升到0.75。

c)獎勵函數。唯一獎勵,具體方式見2.3小節。

第4章單路口訓練的采樣方法通過4 000次的訓練收集了大約250萬個樣本。為了將訓練的次數進行一個質的提升,并且提高了γ指數到0.75,然后在第四章多路口訓練中

通過5 000次的訓練,采集到的樣本總數高達6 000萬多個,由此可見本文的這種密集采樣方法能呈現一個質的提升。這種新的獎勵函數和抽樣策略的結合有利于解決Q值不穩定的問題,大大減少了未來最佳行為誤導的可能性。

3.3系統的訓練過程:

Q1~Q14只是截取多路口交通網絡的一部分,實際實驗的情況要比這個復雜的多,通過目標q值提供基礎,而Q-learning對神經網絡逼近器進行了更新,而評估網絡則是通過更新梯度下降和greed策略進行更新的。

從1.1和1.2小節可以知道,建立了單路口和線性拓撲結構這兩種模型,通過這兩種模型的實驗對比,可以更加直觀清晰地看出本文方法的優勢所在,本文的實驗通過結合密集采樣的策略,大大地增加了agent訓練的數據集,使得Q(s,a)更加地趨于穩定和漸進,具體的實驗結果將會在第4模塊中體現出來。

交叉路口車輛的一個交互方式如圖7 所示,具體的一個交互方法是通過1.2節中的式(4)~(6)進行實現的,圖中三角表示在每條路上等待的車輛,矩形則表示車輛行駛的道路。這樣的話各個車輛之間就會產生高度復雜的相互作用,從而進行協調穩定的訓練。

4實驗結果分析

本文將單路口和多路口的實驗結果進行對比,圖8為單交叉口訓練得到的累計負獎勵值[12],從圖中情況來看得到的效果并不好,它的獎勵值出現跨度過大的現象,而且值區間特別大,說明這種情況下獎勵值特別不穩定。

下面再來看改進之前的多路口共享獎勵和改進后的多路口唯一獎勵的實驗結果,如圖9(共享)和圖10(唯一)所示。圖9的穩定性明顯要弱于圖10,而且多路口的獎勵值比單路口獎勵值的跨度區間相對來說要小很多[13],這就說明了多路口的穩定性要大很多,而且本文采用了密集采樣的策略[14],樣本一個量級要明顯大于單路口的這種情況,這也恰巧說明了本文算法的優越性和穩定性。

下面將訓練好的三種網絡模型進行測試,結果如圖11所示。圖中用x1表示單交叉口的車輛排隊長度,x2和x3表示多路口共享獎勵和唯一獎勵的車輛排隊長度。從圖中可以清晰直觀地看出x1的排隊長度最長,平均值達到了將近10 m左右,x2比這種情況有了一些明顯的提升,而x3的效果明顯是最好的,它的排隊長度平均值減小到了將近2.5 m,性能在很大程度上得到了提升。通過測試可以直觀地看出本文方法的優勢性,這種改進方法使車輛的平均排隊長度有了顯著的縮短,說明本文新的結合策略使agent性能得到了提升,也大大增加了系統的穩定性。

5結束語

交通智能化、信息化已經是當代一種流行的趨勢了。由于交通系統的復雜性和動態性[15],以及控制范圍不斷擴大,交通狀態信息數據量也急劇增加,使得控制的復雜度呈指數級增長,而交通網絡信號控制問題依舊沒有得到有效解決。

本文探討了單路口和更加復雜的線性網絡拓撲結構這兩種情況[16],并將深度強化學習算法應用其中,從對比結果能夠直觀地看出本文方法能夠有效地減少交叉口的擁堵情況,并大大地節約了能源消耗,在效率和性能方面都有很大提升。智能體在有限的時間內將車輛的全局通行速度最大化,根據策略的不同,使用強化學習不斷地修正其內部參數,最終通過深度強化學習發掘更加復雜的交叉路網特征,能夠直接從高維數據里面學習到有效的控制策略,使得智能體大大提升車輛平均速度、最小化車輛平均通行時間、減少車輛平均等待隊長,并且能夠通過觀察當前交通狀態,選擇最優的交通控制策略。從最終的實驗結果來看,本文改進的多路口控制方法能夠大大提升系統控制的性能。

在過去的幾年中,隨著深度學習的普及,交通信號控制的強化學習技術已經明顯成熟。未來將在更加復雜的道路中研究算法,將本文方法與車載通信技術結合在一起,從而提供更加細致的車輛狀態信息,把全面的實時信息與邊緣云計算相結合,最終實現有效地改善交通流,靈活地進行智能化交通控制的目的。

參考文獻:

[1]Ge Zhengyi.Reinforcement learning-based signal control strategies to improve travel efficiency at urban intersection[C]//Proc of International Conference on Urban Engineering and Management Science.Piscataway,NJ:IEEE Press,2020:347-351.

[2]張洪森,劉添,趙玉紅,等.智能交通信號燈的研究與設計[J].工業控制計算機,2020,33(10):132-133.(Zhang Hongshen,Liu Tian,Zhao Yuhong,et al.Research and design of intelligent traffic signal lamp[J].Industrial Control Computer,2020,33(10):132-133.)

[3]Hatri C E,Boumhidi J.Q-learning based intelligent multiobjective particle swarm optimization of light control for traffic urban congestion management[C]//Proc of the 4th IEEE International Colloquium on Information Science and Technology.Piscataway,NJ:IEEE Press,2016:794-799.

[4]El-Tantawy S,Abdulhai B,Abdelgawad H.Design of reinforcement learning parameters for seamless application of adaptive traffic signal control[J].Journal of Intelligent Trans Systems,2014,18(3):227-245.

[5]Balaji P,German X,Sxinivasan D.Urban traffic signal control using reinforcement learning agents[J].IET Intelligent Transport Systems,2010,4(3):177-188.

[6]Li Li,Lyu Yisheng,Wang Feiyue.Traffic signal timing via deep reinforcement learning[J].IEEE/CAA Journal of Automatica Sinica,2016,3(3):247-254.

[7]Jeehyong L,Hyunglee K.Distributed and cooperative fuzzy controllers for traffic intersections group[J].IEEE Trans on Systems,Man and Cybernetics,1999,29(2):263-271.

[8]程宇陽,周丙濤,施成熙.基于長短期記憶人工神經網絡與SUMO仿真的交通信號燈配時優化[J].科學技術創新,2021(26):67-70.(Cheng Yuyang,Zhou Bintao,Shi Chengxi.Traffic signal timing optimization based on long and short term memory artificial neural network and SUMO simulation[J].Scientific and Technological Innovation,2021(26):67-70.)

[9]孫浩,陳春林,劉瓊,等.基于深度強化學習的交通信號控制方法[J].計算機科學,2020,47(2):169-174.(Sun Hao,Chen Chunlin,Liu Qiong,et al.Traffic signal control method based on deep reinforcement learning[J].Computer Science,2020,47(2):169-174.)

[10]Ma Dongfang,Xiao Jiawang,Ma Xiaolong.A decentralized model predictive traffic signal control method with fixed phase sequence for urban networks[J].Journal of Intelligent Transportation Systems,2021,25(5):62-78.

[11]Wang Juanjuan,Wang Yanan,Zhou Hongfang.Design of online simulation system for signal control of urban intersections based on visual sensing technology[J].Journal of Physics:Conference Series,2021,1982:136-149.

[12]郭夢杰,任安虎.基于深度強化學習的單路口信號控制算法[J].電子測量技術,2019,42(24):49-52.(Guo Mengjie,Ren Anhu.Single intersection signal control algorithm based on deep reinforcement learning[J].Electronic Measurement Technique,2019,42(24):49-52.)

[13]Huang Hao,Hu Zhiqun,Lu Zhaoming,et al.Network-scale traffic signal control via multiagent reinforcement learning with deep spatiotemporal attentive network[J].IEEE Trans on Cybernetics,2021,10:1-13.

[14]Gao Juntao,Shen Yulong,Liu Jia,et al.Adaptive traffic signal control:deep reinforcement learning algorithm with experience replay and target network[EB/OL].(2017-05-08).http://doi.org/10.48550/arxiv.1705.02755.

[15]Curran N,Sun Jingyi,Joowha H.Anthropomorphizing AlphaGo:a content analysis of the framing of Google deepmind’s AlphaGo in the Chinese and American press[J].AI amp; Society,2020,35(3):727-735.

[16]Wu Na,Li Dewei,Xi Yugeng.Distributed weighted balanced control of traffic signals for urban traffic congestion[J].IEEE Trans on Intelligent Transportation Systems,2019,20(10):3710-3720.

收稿日期:2022-01-08;修回日期:2022-03-01基金項目:廣東省自然科學基金資助項目(2019B1515120030)

作者簡介:趙純(1995-),男,江蘇泰州人,碩士研究生,主要研究方向為智能交通;董小明(1977-),男(通信作者),安徽懷寧人,教授,碩導,博士,主要研究方向為機器視覺與智能控制(615815201@qq.com);任奕穎(1997-),女,山西河曲人,碩士研究生,主要研究方向為智能控制.

主站蜘蛛池模板: 国产国拍精品视频免费看| 国产精品美女网站| 欧美不卡视频一区发布| 亚洲国产第一区二区香蕉| 无码福利视频| 热这里只有精品国产热门精品| 不卡无码h在线观看| 亚洲av日韩综合一区尤物| 在线日本国产成人免费的| 香蕉久久永久视频| 美臀人妻中出中文字幕在线| 天堂成人在线视频| 亚洲综合专区| 伦伦影院精品一区| 99精品在线看| 日韩毛片免费观看| 久久这里只精品国产99热8| 热99精品视频| 亚洲第一视频网| 国产精品55夜色66夜色| 免费aa毛片| 永久在线播放| 亚洲成a人片77777在线播放| 国产精品午夜福利麻豆| 亚洲91在线精品| 国产91蝌蚪窝| 欧美不卡视频在线观看| 亚洲欧美精品在线| 亚洲国产av无码综合原创国产| 国产成人久视频免费| 色婷婷丁香| 日本久久免费| 一区二区三区成人| 精品久久综合1区2区3区激情| 久草国产在线观看| 国产福利免费在线观看| 国产精品天干天干在线观看| 欧美精品啪啪| 日本高清有码人妻| 久久永久视频| 黄色三级毛片网站| 欧美一区日韩一区中文字幕页| 在线播放真实国产乱子伦| 视频国产精品丝袜第一页| 亚洲AV无码一区二区三区牲色| 日本成人不卡视频| 在线va视频| 国产精品三级av及在线观看| 狂欢视频在线观看不卡| 国产女人18毛片水真多1| 东京热一区二区三区无码视频| 国产不卡国语在线| 国产裸舞福利在线视频合集| 日韩不卡免费视频| AV无码一区二区三区四区| 国产情精品嫩草影院88av| a级毛片免费播放| 好紧好深好大乳无码中文字幕| 五月天在线网站| 97精品久久久大香线焦| 国产精品久久久久久久伊一| 五月六月伊人狠狠丁香网| 老司机久久99久久精品播放| 精品撒尿视频一区二区三区| 国产精品永久久久久| 大学生久久香蕉国产线观看| 亚洲三级成人| 久久精品66| 国产精品任我爽爆在线播放6080 | 日韩第一页在线| 91成人在线观看| 国产最新无码专区在线| 亚洲天堂网2014| 激情无码视频在线看| 国产微拍精品| 在线观看国产精品一区| 欧美成人日韩| 免费中文字幕一级毛片| 2021精品国产自在现线看| 亚洲天堂网站在线| 国产亚洲欧美在线专区| 凹凸国产分类在线观看|