999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強化學習的智能車輛行為決策研究

2024-05-21 13:54:54周恒恒高松王鵬偉崔凱晨張宇龍
科學技術與工程 2024年12期
關鍵詞:動作環境策略

周恒恒, 高松, 王鵬偉, 崔凱晨, 張宇龍

(山東理工大學交通與車輛工程學院, 淄博 255000)

隨著社會的發展,車輛保有量和駕駛人員數量持續上升,交通事故、環境污染、交通堵塞問題日益嚴重,智能化是引領汽車變革的技術之一,具有提高道路安全,減少燃油消耗,提高道路通暢性的巨大潛力,將改變人類的出行方式和社會結構。

傳統的自動駕駛系統主要基于傳感器信號結合人類駕駛的規則構造由環境到駕駛控制動作的模型系統,其優點是擁有較強的可解釋性,但面對復雜多變的現實環境,模型的表達能力有限,自主學習能力和泛化能力[1-3]有限,魯棒性難以保證。

DeepMind團隊通過強化學習實現在雅達利游戲中控制智能體輸出合適的離散的動作,后續的研究者針對連續動作問題,將David Sliver團隊證明的確定性策略方法與DQN(deep Q-network)結合,提出DDPG(deep deterministic policy gradient)算法[4-6],該算法使得深度強化學習在解決連續空間問題上有了長足的發展。由于深度強化學習在各種場景中超越人類的表現,深度強化學習中環境和智能體的交互模式與自動駕駛中環境感知模塊和決策控制模塊的交互模式相似及深度強化學習表現出的優秀自主學習能力和面對不同場景的泛化能力,使得研究者開始通過深度強化學習解決自動駕駛行為決策的問題。

深度強化學習可以應用于自動駕駛的控制器優化、路徑規劃、超車換道、復雜導航策略的開發等策略中[7]。Huval等[8]基于卷積神經網絡(convolutional neural networks,CNN)結構,在大量數據集基礎上,通過深度學習和計算機視覺算法,完成了在高速公路環境下的車輛、車道實時檢測任務。Bojarski等[9]提出了基于CNN網絡結構搭建了自動駕駛端到端模型,分別在模擬器中和真實環境中進行了訓練和測試,結果表明:CNN網絡可以學習到有意義的道路特性及轉向決策。Sallab等[10]將離散動作DQN算法和連續動作DDAC (deep deterministic actor critic algorithm) 算法應用于車道保持系統,證明了DDAC優于DQN。張永梅等[11]針對深度強化學習前期訓練前期獎勵隨機性高難以獲取問題,提出了內在好奇心驅的深度確定性策略梯度算法來完成機器人路徑規劃任務。結果表明:所提出的算法決策效果更優越,但實驗中只測試了單一場景,模型在不同場景下的適應性無法得到驗證。Cheng等[12]開發了CNN模型,通過標記的MSA(motion-sensitive area)數據集學習駕駛策略,在SUMO(simulation of urban mobility)中測試表明,基于強化學習的換道策略優于基于規則的換道策略。Zhao等[13]為了解決智能車輛受環境因素影響難以準確做出變道決策的問題,提出了一種基于貝葉斯優化的XGBoost(extreme gradient boosting)決策模型,實驗結果表明:此模型決策識別準確率可達到95%以上,具有良好的決策效果,但該研究只選取前車和自車相關的數據作為模型的輸入,忽略了環境信息對自車行為決策的影響。上述研究實現了端到端的行為決策,但訓練過程需要大量人工標注數據且輸出變量單一,模型適應能力有待提升。

鑒于此,利用深度強化學習的強擬合和交互特性針對動態場景中的超車行為,構建基于DDPG算法的端到端決策模型,結合場景及人類駕駛員操作習慣對輸入端信息進行篩選,以篩選后的車輛狀態、環境信息為輸入,輸出連續影響車輛行駛性能的多維度控制量,完成車輛端到端行為決策,省略了車輛系統的復雜建模過程。針對DDPG算法訓練過程的獎勵震蕩現象引發的輸出變量值突變問題,為進一步提升決策模型的控制精度和穩定性將控制變量作為輸入對DDPG算法進行反饋優化,理論方面在強化學習中引入了反饋思想,實踐方面提供了一種增加強化學習穩定性的方法。

1 深度強化學習DDPG算法

車輛自動駕駛過程可以看作車輛在復雜狀態空間中的決策問題[14],深度強化學習作為深度學習和強化學習結合的產物,擁有深度學習優秀的感知理解能力和強化學習的決策能力,綜上所述深度強化學習在自動駕駛領域擁有廣闊的前景。

深度強化學習通常會把要解決的問題抽象成馬爾科夫決策(Markov decision process, MDP)[15]過程,令{S,A,R,S′}為當前狀態、動作、獎勵和下一時刻狀態的集合,設定t時刻狀態st、動作at、獎勵rt、t+1時刻的狀態st+1作為一個元組{st,at,rt,st+1}進行收集便構成{S,A,R,S′}。智能體與環境依據策略π進行交互,收集多條包含回報的軌跡,如式(1)所示。

R=rt+1+γrt+2+γ2rt+3+…

(1)

式(1)中:γ為折扣因子。

求出所有軌跡的回報的平均值,通過優化策略π來最大化R,γ∈(0,1),代表未來的獎勵對R影響逐漸減少。

Q函數Qπ=Er~π[Rt|st,at],其中,Er~π為獎勵r在策略π下的期望,Rt為在狀態s下選取動作at的獎勵集合。強化學習的優化目標為尋得最優策略π*使得R的期望最大,即尋找使得式(2)成立的π*。

Qπ*=Er~π*[Rt|st,at]

(2)

式(2)中:Qπ*為狀態st在最優策略π*下選取動作at的價值;Er~π*為獎勵r在最優策略π*下的期望。

(3)

自DQN算法出現之后,一系列深度強化學習算法針對DQN所不能解決的問題應運而生,其中DDPG算法是針對DQN不能處理連續控制性問題提出的。其中,θQ′為目標網絡Q′的權重,θu′為目標網絡u′的權重,si、ai、ri分別為n條軌跡中的第i條軌跡的狀態、動作和獎勵,yi為計算的實際的Q值,θμJ為求出的策略梯度,n為采樣的軌跡數量,a為Q對a求梯度,τ為更新幅度,使得網絡權重緩慢更新,提高學習穩定性。

DDPG算法隨機初始化Q網絡Q(s,aθQ)和策略網絡;μ(sθμ),其權重為θQ和θμ;初始化目標網絡Q'和μ'并復制權重θQ'←θQ,θμ'←θμ;初始化經驗回放池R;執行M個回合循環,對于每個回合初始化探索動作的隨機過程,即噪聲N;接收初始化狀態s1;執行T個時間步長,對于時間t根據當前的策略和探索噪聲選擇動作at=μ(stθμ)+Nt;環境根據at反饋獎勵rt和下一個狀態st+1;存儲軌跡(st,at,rt,st+1)到經驗回放池R中;從經驗回放池R中隨機采樣n條軌跡(si,ai,ri,si+1);計算實際的Q值yi=ri+γQ'[si+1,μ'(si+1θμ']θQ');通過最小化損失函數L來更新Q網絡:L=1n∑i[yi-Q(si,aiθQ)]2;使用采樣策略梯度來更新策略網絡:θμJ≈1n∑iaQ(st,atθQ)st=si,at=μ(si)θμμ(stθμ)si軟更新目標網絡:θQ'←τθQ+(1-τ)θQ'θμ'←τθμ+(1-τ)θμ'結束T循環結束M

2 DDPG決策模型的建立

自動駕駛的研發路線[16]通常是在實車上進行數據測試和駕駛算法策略的設計與驗證,然而實車測試研發成本高、調試周期長。隨計算機技術發展,模擬仿真技術被廣泛應用于自動駕駛算法開發,因此,研究者可通過自動駕駛仿真平臺預先進行行為決策算法的測試和驗證,其次再部署到實車中以提升研發效率。

2.1 智能體-環境交互模型

本文行為決策為單車和多車環境下利用狀態信息直接控制車輛行駛動作(轉向,油門,剎車),在車輛不駛出道路和不發生碰撞的前提下超越前方車輛。智能體-環境交互模型如圖1所示,策略網絡根據輸入狀態輸出動作,Q網絡根據輸入狀態和動作估計動作Q值,目標策略網絡和目標Q網絡保證未來獎勵Qtarget計算更加穩定,獎勵函數輸出當前動作的獎勵并作為計算Qtarget的真實獎勵項,經驗回放池負責存儲軌跡{st,at,rt,st+1},TORCS仿真平臺作為車輛運行交互環境。交互流程可以抽象為:①智能體接收環境給出的觀測狀態。在實際開發過程中,此狀態實際是由智能體需求決定,而非環境直接給出;②智能體根據此狀態通過策略網絡做出相應的動作反饋給環境;③ 環境根據智能體做出的動作進行一次環境重置,同時給出新的觀測狀態以及對應的獎勵; ④ 循環①~③的交互步驟。

圖1 系統模型Fig.1 System model

2.2 狀態信息和動作空間選取

為了獲得更好的解釋性和穩定性,采用傳感器信息作為車輛與環境的交互數據。

針對高速公路環境,遵循人類駕駛員的能力、經驗和駕駛習慣等[17-18]可設定保守駕駛員模型、普通駕駛員模型和激進駛員模型,普通駕駛員模型和激進駕駛員模型是同一類具有經驗的駕駛員模型。行車過程中,駕駛員通常根據視覺和感覺來感知車輛及環境信息,感知信息的多少是上述三類駕駛員模型的不同之處。假設三類駕駛員反應時間相同,設定視覺參數V和感覺參數T(路況反饋和車輛振動等信息)保守駕駛員和經驗豐富駕駛員的行為決策,如圖2所示。

Vf為遠處視野;Vn為近處視野;Kf為視覺預測參數,是視覺補 償參數;ωi為i類駕駛員風格系數;Ti為i類駕駛員的感覺參數; Kb為感覺滯后參數;n為不同駕駛員感覺類信息的種類; s為復頻率,是傳遞函數中的自變量

如圖2所示,模型中的預測決策部分可作為比例系統,補償和滯后決策部分可作為一階系統。以通過彎道為例,對于缺乏經驗的保守駕駛員,通常只考慮遠處視野做出決策,不會借助近處視野對決策進行微調和對感覺信息不一定做出正確的判斷,且決策不成熟,因此Kf參數較小,缺少補償和滯后系統的微調;對于經驗豐富的駕駛員,通常借助遠處視野進行較好的決策,其次根據近處視野對決策進行微調,最后根據感覺信息對決策進行更加細微的調整,因此Kf參數較大,對于激進駕駛員Kn和Kb較大。綜上所述,駕駛員收獲信息的容量關乎決策的好壞。根據經驗豐富的駕駛員模型,圖2三系統需要考慮的傳感器信息如表1所示。

表1 經驗豐富的駕駛員感知信息Table 1 Perception information of experienced driver

智能駕駛車輛應在一個動態的、復雜的交通流中實施不同的行為,如車輛跟隨、變道和超車。其中,超車策略由于交通的不確定性和復雜性發生碰撞可能性較大,因此完成超車策略具有挑戰性。選取典型的超車場景如圖3所示。

Δd為相鄰車輛的縱向距離

結合表1和圖3,根據策略需求,最終選取表2所列9類信息作為輸入狀態信息。

表2 狀態信息Table 2 State information

基于DDPG算法可知,交互數據{st,at,rt,st+1}對策略網絡和目標策略網絡參數的更新具有重要影響,其中{st,rt,st+1}狀態和獎勵信息由環境提供。表3所示的歸一化動作信息{at}由智能體提供,動作取值可在[0,1]內平滑連續的變化,與真實的駕駛控制動作相近,圖4表征個別狀態參數在道路環境中的位置。

表3 動作信息Table 3 Action information

圖4 駕駛過程關鍵參數Fig.4 Key parameters of driving process

3 獎勵函數與DDPG算法超參數

為了使智能體更快地學到合理的策略,對于獎勵函數rt的設計尤為重要。隨著強化學習的發展,許多相關研究放棄了用傳統的手工設計獎勵函數的方式,采用逆強化學習來直接得到獎勵函數,然而本文為了深入理解各個參數對行為決策的影響,依然采用傳統的方式來設計獎勵函數,獎勵函數和DDPG算法的超參數選定直接影響算法的收斂速度和性能呢。

3.1 獎勵函數設計

在深度強化學習中,獎勵函數通過具體化和數值化任務策略與深度強化學習算法溝通,引導圖5設計的神經網絡探索狀態空間中的決策相關因素構成狀態-動作對。根據駕駛過程中的關鍵參數與狀態信息對車道保持策略和超車策略分別進行了獎勵函數的設計。

圖5 網絡結構Fig.5 Network architecture

針對車道保持策略,參考文獻[19]提出的道路不滿意度評價方法,提出以下3個約束。

(1)設定正向獎勵sx(cosθ),使車輛以合理的速度沿道路中心前進,保證行車效率。

(2)設定懲罰項sy(sinθ),當車輛橫向移動偏離道路中心時,給與負向獎勵。

(3)高速狀態下可能導致車輛漂移跑出道路,因此設定懲罰項sx(trackP),使車輛保持貼近道路中心。

根據上述約束,車道保持策略的獎勵函數為

Rkeep=sx(cosθ)-sy(sinθ)-sx(trackP)

(4)

超車策略可以簡化為車輛學習到合理的車道保持策略,與此同時學習超車策略。因此只需將車道保持的獎勵函數添加超車項。超車策略的獎勵函數為

(5)

式(5)中:Rover為僅考慮超越車輛數的獎勵函數;Rtaking為超車行為總獎勵函數;n′為車道中包括智能體在內的車輛個數;order為自車的位次。

為了防止神經網絡模型陷入局部最小值,需要設計額外的獎勵以及一個回合的終止條件,如表4所示。

3.2 DDPG超參數選定

在深度強化學習中,使用神經網絡作為擬合狀態-動作對的復雜非線性函數,根據表2所選的狀態信息,設計圖5所示的Q網絡和策略網絡。

在訓練時對動作添加噪聲,以更好的探索可能正確的行為,使訓練的網絡模型能夠更好地遷移到不同的場景中。車輛行駛可以看作慣性系統,為了保護系統的安全性,采取OU(ornstein-uhlenbeck)噪聲進行動作探索,如式(6)所示,OU噪聲各參數的選擇如表5所示。在動作探索的開始階段,噪聲較大,隨著訓練回合的增加,隨著式(7)衰減至0,此外測試階段取消噪聲,避免噪聲對測試結果的影響。DDPG算法的各超參數結合經驗[20]和進行多次實驗后給出,策略網絡學習率la為0.000 1,Q網絡學習率lr為0.001;下一步動作的獎勵所占比重γ′為0.95,目標網絡軟更新參數τ為0.01;經驗回放池(大小為100 000,抽樣批次為32,訓練回合為5 000,即M。

表5 動作探索的OU噪聲系數Table 5 OU noise coefficient of action exploration

dxt=θm(μ-xt)dt+σdWt

(6)

式(6)中:xt為自變量;θm為反映變量均值回歸快慢的參數;μ為均值;σ為回歸過程的波動程度;Wt為維納過程(布朗運動)。

(7)

式(7)中:noise為噪聲量;i_ep為訓練回合;explore為噪聲遞減程度,取10 000。

4 仿真與實驗

4.1 仿真場景介紹

TORCS(the open racing car simulator)是一款開源的自動駕駛仿真平臺,用戶可以查閱使用不同的API來制定不同的行為決策,與駕駛環境進行交互。

TORCS中提供了不同種類的道路場景供研究者使用。在深度強化學習問題中,若訓練過程中,選用簡單的道路場景,在測試中容易出現欠擬合現象,選用復雜道路則容易出現過擬合現象。針對車道保持策略,為了使訓練的網絡適應不同路段,選擇了包括左轉彎、直線、反向轉彎和急轉彎4種常見路段的Aalborg道路,具體信息如圖6(a)所示。設定策略完成距離為5 000 m,目標速度為120 km/h,在測試階段,為進一步測試訓練模型的普適性,選定的測試道路如圖6(b)所示。

圖6 車道保持策略訓練和測試車道Fig.6 Lane keeping strategy training and testing lanes

為對高速行車工況超車策略進行針對性測試,選擇圖7所示的高速路車道。在該測試場景中當前方車輛行駛速度慢于自車速度時,自車為了尋求更高的駕駛速度和更廣的駕駛空間,在符合安全要求的條件下實施超車行為。由于高速道路相對封閉,且路段類型一致,因此本文超車策略在同一道路進行訓練和測試。

圖7 超車策略訓練和測試車道Fig.7 Overtaking strategy training and testing lane

4.2 仿真結果

4.2.1 車道保持策略仿真結果

在車道保持策略中,通過5 000回合的訓練,如圖8所示,平均獎勵曲線趨于平穩,平穩時段內的獎勵值和獎勵函數相符,模型達到收斂。在圖6所示的道路測試,測試表明自車可以根據實時環境信息順利完成5 000 m的規定距離。

圖8 車道保持訓練獎勵Fig.8 Training reward of lane keeping

由圖9可知,以道路中心為基準,trackP∈[-1,1]表明車輛使用訓練出的模型,在不同道路場景下依然可以較好地貼近道路中心行駛;當車輛偏移道路中心時,位置曲線波動幅度較大,說明自車能及時地根據實時環境信息調整動作以貼近道路中心行駛,表明模型具有較好的控制精度和適應性。

圖9 橫向誤差Fig.9 Lateral error

測試階段的車輛橫向誤差分布可以一定程度反映模型的適應能力,選取車道保持策略中的兩次測試數據,橫向誤差分布如圖10所示,可以看出,由于訓練車道Aalborg彎道較多,故在測試中大橫向誤差(>0.5 或者 <-0.5)概率較高;在CG Speedway測試車道中存在較少的急轉彎,大橫向誤差概率較小,表明訓練的模型可以在合適的時刻進行剎車以降低車速通過彎道。兩次仿真實驗中,橫向誤差集中分布在0值附近;訓練車道仿真中橫向誤差均值為-0.043 m,中位數為-0.049 m;測試車道仿真中橫向誤差均值為-0.048 m,中位數為-0.039 m,結合圖9測試車道橫向誤差波動和訓練賽道幾乎同步,表明模型更熟悉訓練環境,對環境有依賴性,測試環境下橫向誤差均值接近0,說明模型可以正確提取陌生環境中和策略相關的特征,可以完成既定策略;訓練車道的橫向誤差中位數絕對值劣于測試車道,說明模型在較為復雜的車道環境中訓練,沒有出現過擬合現象,模型具有一定的可靠性。上述分析表明,自車在不同的道路環境中可以完成車道保持任務,驗證結果總體表明:車輛能夠根據傳感器信息識別不同的道路環境,模型具有一定適應不同場景的能力。

圖10 橫向誤差分布Fig.10 Lateral error distribution

4.2.2 超車策略仿真結果

在超車策略中,迭代訓練6 000回合,如圖11所示,獎勵曲線相對平穩,可以完成既定策略,模型達到收斂,自車可以在無碰撞的前提下,超越前方速度慢于自身的車輛。如圖12所示,將超車過程簡化為準備超車、選擇超車位置和超車完成。

圖11 超車訓練獎勵Fig.11 Training reward of overtaking

圖12 超車子過程Fig.12 Overtaking sub-process

通過測試可知,測試過程中自車可根據實時干擾車輛信息,輸出當前最優控制量,如圖13所示。多次實驗結果表明:實驗過程中自車能夠根據實時場景信息,在不發生碰撞的前提下完成超車;當前車留有足夠空間時,自車會自動探索更大的行駛空間,更符合人類的駕駛員操作習慣。

圖13 超車軌跡Fig.13 Overtaking track

4.2.3 改進模型效果分析

在車道保持策略中,從圖14可以看出,DDPG平均獎勵曲線雖然最終趨于平穩,然而會在某些時刻發生突變,表明車輛多次嚴重偏離道路中心,針對該問題,將自車上一時刻的控制變量反饋給算法輸入端,如圖14所示,對算法反饋優化后,平均獎勵的突變次數會減少,說明所訓練的模型控制精度有所提高,對于車輛的轉向,剎車和油門的調節更加合理。

圖14 獎勵對比Fig.14 Reward comparison

圖15和圖16對兩種訓練的模型在測試車道中x、y分解速度進行分析,在測試中發現,改進模型可以完成車道保持策略,且完成距離遠遠大于DDPG模型,表明改進模型對新車道環境適應性優于DDPG模型。

圖15 改進模型和DDPG模型測試結果Fig.15 Improved model and DDPG model testing results

圖16 改進模型和DDPG模型的縱向速度箱線圖Fig.16 Longitudinal velocity box line diagram of improved model and DDPG model

選取DDPG模型和改進模型的完成策略時間段基于統計學進行數據分析。從圖15可以看出,DDPG模型與改進模型相比橫向速度突變次數較多,縱向速度變化趨勢不穩定,且DDPG模型忽略完成時刻橫向速度最大為39.8 km/h,改進模型橫向速度最大為22 km/h,說明改進的模型能更好地提取環境中和決策有關的特征信息。可以看出,縱向速度波動和橫向速度波動同步,且集中在20 s和60 s處,此時大多位于彎道位置,符合駕駛習慣。表明改進模型的降速控制學習效果較優,所提出的方法能夠根據實時道路信息輸出合理控制量同時兼顧行車效率及行車安全。

此學習策略中目標車速為120 km/h,從表6和圖16可以看出,改進模型測試中的速度平均值和中位數更接近于目標速度120 km/h且離散程度較小,說明改進的模型能更好地控制動作隨時間連續變化。結合圖15可以看出,改進模型可以更平滑的達到目標速度且發生的速度波動較小,測試結果總體表明改進模型能夠使自車根據實時場景信息輸出更為精確的動作,且能增加車輛的橫向穩定性及行駛效率。

5 結論

針對傳統決策過程中規則庫建立繁瑣,交互模型構建復雜問題,基于DDPG深度強化學習算法,提出一種端到端智能車輛行為決策方案,為使自車能夠更清晰地關注周圍車輛和環境的關鍵信息,結合駕駛員模型對自車狀態信息、環境信息和周圍車輛狀態信息進行選取作為輸入端,通過構建的模型直接輸出控制量完成行為決策。為減弱由于模型適應不同環境時控制量突變問題使自車平穩地完成駕駛行為,利用相鄰時刻控制量連續性對DDPG模型信息輸入端進行優化形成輸出對輸出控制量的反饋。得出如下結論。

(1)DDPG模型能夠根據實時環境信息輸出合理的駕駛行為和控制量,與DDPG模型相比,改進的模型對車輛的轉向,剎車和油門的調節更加合理;且車輛橫向速度顯著減小,最大橫向速度減少39.24%,車輛舒適性以及車輛穩定性明顯改善。

(2)基于深度強化學習的策略實現模型如何遷移到真實環境中一直是個難題,在未來的工作中,希望針對這一難題實現模型的遷移并在實車上進行實驗。

猜你喜歡
動作環境策略
長期鍛煉創造體內抑癌環境
一種用于自主學習的虛擬仿真環境
例談未知角三角函數值的求解策略
孕期遠離容易致畸的環境
我說你做講策略
環境
動作描寫要具體
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
畫動作
動作描寫不可少
主站蜘蛛池模板: 日韩无码视频专区| P尤物久久99国产综合精品| 亚洲精品国产综合99久久夜夜嗨| 青青草原国产精品啪啪视频| 国产成人精品在线1区| 久久免费视频播放| 久久香蕉欧美精品| AV不卡无码免费一区二区三区| 亚洲中文字幕无码爆乳| 中文字幕天无码久久精品视频免费| 国产交换配偶在线视频| 国产专区综合另类日韩一区| 一级毛片中文字幕| 中国特黄美女一级视频| 欧美日韩理论| 亚洲三级a| 18禁不卡免费网站| 久久精品中文字幕少妇| 国产成人亚洲综合A∨在线播放| 久久狠狠色噜噜狠狠狠狠97视色| 日韩无码一二三区| 日韩国产综合精选| 国产一区二区视频在线| 日韩人妻无码制服丝袜视频| 亚洲天堂网在线播放| 成人国产一区二区三区| 伊人久久综在合线亚洲91| 欧美69视频在线| 久久亚洲国产一区二区| 午夜福利在线观看入口| 呦视频在线一区二区三区| 999精品免费视频| a级毛片一区二区免费视频| 欧美国产综合色视频| 色综合综合网| 九色在线视频导航91| 亚洲AV人人澡人人双人| 色综合中文综合网| 欧美国产精品拍自| 中文字幕丝袜一区二区| 午夜不卡福利| 国产在线精品99一区不卡| 麻豆国产精品一二三在线观看| 国产黄在线观看| 丰满人妻久久中文字幕| 自慰网址在线观看| 精品亚洲欧美中文字幕在线看 | 日韩福利在线观看| 在线国产欧美| 欧美a在线| 狠狠综合久久| 亚洲码一区二区三区| 午夜在线不卡| 日本午夜三级| 亚洲高清日韩heyzo| 综合色区亚洲熟妇在线| 日韩视频免费| 国产精品丝袜视频| 日韩欧美中文| 国产97视频在线| 欧美成人在线免费| 中文字幕亚洲电影| 国产美女一级毛片| 亚洲综合二区| 国产精品尤物在线| 欧美精品高清| 91青青在线视频| 亚洲日韩国产精品无码专区| 欧美另类一区| 欧美在线免费| 人妻精品久久无码区| 噜噜噜久久| 啪啪国产视频| www.99在线观看| 91免费国产高清观看| 青草娱乐极品免费视频| 老色鬼久久亚洲AV综合| 久久96热在精品国产高清| 一级片一区| 无码精品国产dvd在线观看9久| 91精品视频网站| 亚洲天堂777|