999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進深度強化學習的自動泊車路徑規劃

2021-08-06 06:16:32蘭鳳崇陳吉清
關鍵詞:智能

陳 鑫,蘭鳳崇,陳吉清

(華南理工大學 機械與汽車工程學院/廣東省汽車工程重點實驗室,廣州 510640)

自動泊車的運動規劃采用的方法可以分為基于規則的方法[1]和基于學習的方法[2-3]。與上述規劃方法相比,深度強化學習具有求解能力強、能夠自主探索等優點,許多研究學者和機構利用深度強化學習解決控制問題[4-5],收到了良好的效果。雖然基于深度強化學習的自動泊車路徑規劃有著良好的應用前景,但是對其在理論和應用層次研究較少,尚未有投入產業化的成功案例,要想大規模的應用和推廣,仍存在探索效率低下、收斂困難等問題[6-7]亟待解決。

強化學習算法能夠自主探索獲得樣本,但由于訓練初期策略隨機,無效樣本眾多,成功樣本對神經網絡權值改變的貢獻容易被淹沒,導致樣本的利用率不高,甚至無法收斂。Peizhi Zhang等[8]針對固定位置,不同航向角的起始位姿,利用人工泊車的控制序列,對智能體(本文中車輛、智能體、算法模型等名詞視語境具有相同含義)進行預訓練,讓智能體在初期不需探索就獲得高回報值的樣本。張斌等[9]將失敗和成功的探索經驗分別存儲,并設置隨訓練回合數變化的采樣比例,讓智能體始終能從成功樣本學習經驗。張繼仁等[10]借鑒AlphaGo[11]中的蒙特卡羅樹搜索方法,生成泊車數據,并用獎勵函數評價數據質量,篩選出最優數據訓練智能體,避免了隨機探索時低質量數據對智能體的影響。Schaul T等[12]以TD誤差作為樣本的優先級,利用SumTree數據結構存儲樣本,基于優先級采樣,使對梯度計算貢獻較大的樣本更容易被采樣。朱向陽[13]在研究車輛高速智能駕駛的決策控制時,將探索策略分為車道保持探索策略和超車避障探索策略,在原始動作的基礎上,加上基于改進策略的修正值,從而減少無效探索。

在強化學習中,獎勵函數的設計直接關系著模型能否收斂。茹琦[14]針對機器人路徑規劃,設計了僅包含碰撞懲罰和到達終點的獎勵函數,屬于獎勵稀疏問題。Thunyapoo B等[15]分別用稀疏獎勵和稠密獎勵訓練智能體,結果表明用稠密獎勵訓練得到的智能體有著更高的泊車成功率。韓建暉[16]針對室內移動機器人的路徑規劃問題,將獎勵設計成超出規定時間-0.05,防止機器人因為膽怯而待在原地不動。Bejar E等[17]將獎勵設置為車輛當前位置與目標位置的距離的負數,在引導車輛向目標位置靠近的同時,催促智能體盡快到達。另外有一些學者,從改進訓練方法的角度改善深度強化學習算法的收斂性。Du Z等[18]基于課程學習,通過逐步加上障礙物的訓練方法,加速收斂。課程學習由機器學習領軍人物Bengio等[19]提出,其精髓是根據先驗知識,為模型設置一系列從易到難的課程,加快收斂速度。Zhang P等[8]采用固定航向角離散化訓練的方式,先訓練航向角為30°的工況,待收斂后再逐步擴展到初始航向角為0°~90°,這與課程學習先易后難的思想不謀而合。

綜上,到目前為止,基于深度強化學習的自動泊車路徑規劃算法仍存在某些不足。在訓練過程中,智能體的學習效率不高,收斂速度較慢。強化學習需要通過智能體基于當前策略與環境交互獲得學習所需的樣本,而樣本的質量又會影響策略更新,二者相互依賴,算法容易陷入局部最優。與機器人相比,汽車為非完整系統,橫向和縱向耦合,且泊車可行使空間狹小,對于給定初始條件,泊車路徑和控制序列十分稀疏。為了降低學習難度,常用手段就是固定起始位姿訓練、放寬泊車空間限制,但這也導致訓練得到的智能體相比傳統規劃方法規劃能力不強,無法滿足自動泊車的實際應用需求。若能對上述不足做出有效改進,將對基于深度強化學習的自動泊車方法有積極推動作用。本文首先介紹基于深度強化學習的自動泊車運動規劃方法,在考慮收斂性和穩定性的基礎上做出改進,通過搭建仿真平臺訓練智能體,然后從健壯性、規劃能力、安全性等多角度分析評價智能體表現。

1 建立基于深度強化學習的泊車算法框架

1.1 深度強化學習算法模型

強化學習是馬爾科夫決策過程。智能體(agent)基于當前狀態s,選擇動作a、環境返回獎勵r和下一狀態s′,通過不斷地嘗試,智能體學習到最優策略。基于Ator-Critic框架的深度確定性策略梯度[20](deep deterministic policy gradient,DDPG),在確定性策略梯度[21](deterministic policy gradient,DPG)的基礎上,結合DQN[22](deep q-learning)算法的優點,包括雙網絡、經驗回放池等,在很多問題上有著不俗的效果。

在傳統的強化學習中,基于價值的方法用表格記錄所有動作價值,但對于連續狀態空間,狀態數量龐大,若使用表方法會導致維度災難。因此,采用神經網絡對動作價值Qπ(s,a)近似:

式中,w代表了神經網絡的權重。

同理,車輛在泊車時對控制精度要求很高,離散動作無法滿足,故對策略也用神經網絡(actor網絡)近似,如式(2)。在網絡輸出基礎上加上奧恩斯坦-烏倫貝克噪聲(ornstein-uhlenbeck,OU噪聲),在訓練前期增加探索性。該式刻畫了狀態空間到動作空間的一種映射,給定某一狀態,輸出最佳動作。

在DQN中,critic網絡的損失函數定義如下:

由式(3)可以看到,critic網絡的梯度更新依賴actor網絡計算的動作值和自身網絡計算目標Q值,而actor網絡的梯度更新又依賴critic網絡計算的Q值,2個網絡之間,以及目標值和當前值之間相關性太強,導致算法不穩定。為了降低此相關性,為actor網絡和critic網絡創造了一份副本,即目標critic網絡和目標actor網絡,用來計算目標動作和目標價值。改進后的當前critic網絡和當前actor網絡損失函數如式(4)所示,其中當前critic網絡梯度更新改為依賴于目標actor網絡計算的動作值和目標critic網絡計算的目標Q值。

目標網絡以緩慢跟蹤當前網絡的方式進行更新(軟更新),如式(5),α為當前網絡權重,α′為目標網絡權重。目標價值在短期內可看作恒定,類似于監督學習中的樣本標簽,大大改善了學習的穩定性。

1.2 車輛運動學模型

在泊車的低速工況下,不考慮輪胎的側滑,車輛非線性狀態空間模型如式(6)所示。其中x、y為車輛后軸中心坐標,航向角θ為車輛縱軸線與x軸夾角,(x,y,θ)為車輛位姿;v為車輛后軸中點的線速度,L為軸距,δ為前輪轉角。

1.3 強化學習要素定義

車輛在某一時刻的狀態,需要具有明顯的區分性,能夠表征車輛與環境的關系,最好與控制量相關。選擇車輛的x、y坐標,航向角θ,方向盤轉角sw,車身與周圍障礙物的最小距離d作為狀態:

在泊車時,與縱向控制相比,橫向控制更加重要,因此將縱向速度設為恒定值。動作a定義為下一時刻的目標方向盤轉角swtarget,其區間為[-540,540]。同時為了保證運動舒適性,避免方向盤轉角變化過大,在輸入到車輛運動學模型時,將方向盤轉角變化量限制在20(°)/Δt:

基于Pytorch框架,建立了自動泊車仿真平臺算法框圖,如圖1所示。整個框架分三部分組成:一是智能體與環境的交互過程,智能體(也就是車輛)根據當前車輛狀態s,確定方向盤目標轉角a,加上OU噪聲后輸入到車輛運動學模型中,計算返回下一狀態s′給智能體,循環往復直到車輛與障礙物碰撞或者完成泊車。二是經驗池儲存樣本的過程,每次智能體與環境交互后,獎勵函數根據下一狀態s計算獎勵r,然后將(s,a,r,s′)元組儲存在經驗池中。三是智能體的訓練過程,從經驗池中隨機采樣一批數據,計算當前critic網絡和當前actor網絡的損失函數并進行隨機梯度下降,通過軟更新的方式更新目標critic網絡和目標actor網絡的參數。

圖1 泊車算法框圖

2 泊車算法的三點重要改進

2.1 基于引導的獎勵函數

對于泊車任務,智能體的唯一目標就是運動到目標位姿,此時應給予智能體較大的獎勵,防止被其他部分獎勵掩蓋。為保證泊車的準確性,僅當車輛運動到目標區域時,認為泊車完成,獲得最終位姿獎勵Rtarget,包括基礎獎勵Rbase和航向角偏差獎勵。

為滿足泊車的安全性,避免與其他障礙物碰撞,需要設置碰撞懲罰Rcollision。在無碰撞時,給智能體一個較小但為正的獎勵值Rcmax,鼓勵智能體探索未知區域。當車身與邊界的最小距離d小于安全距離dsafe時,則會受到相應的懲罰。

在很多簡單任務(如OpenAI的倒立擺、登山車任務)中,僅有上述主線獎勵和碰撞懲罰(稀疏獎勵),智能體就能夠在足夠的探索中發現任務的目標。但泊車路徑規劃本就是高難度探索問題,即使隨機探索一百萬次,也未必有一次能順利到達終點,稀疏獎勵顯然無法適用。為了使智能體時刻獲得反饋(稠密獎勵),引導智能體朝著目標位置運動,增加引導獎勵。基于距離的引導獎勵可以考慮以下兩種形式:

上述2種基于距離的獎勵,盡管通過系數k進行縮放,在距離較遠處和距離較近處的獎勵仍會相差過大(1~2個量級),導致智能體過于“貪婪”(在原地打轉以獲得更多收益),或者“魯莽”(為了不再持續受到負獎勵而選擇碰撞障礙物以結束回合)。智能體需要更加平穩的引導獎勵,因此,將引導獎勵Rguide設置成由車輛后軸中心與目標位置連線和航向角的夾角計算得出,如式(12)所示,任何夾角都能獲得正的獎勵,且夾角越小(車輛靠近目標位置的速度越快),獎勵越大。使智能體既能學會靠近目標位置,又能長遠考慮,為了到達目標的獎勵而選擇繞遠路(避免碰撞)。

2.2 基于優先隊列的經驗池設計

在大規模訓練時,大部分無效探索會產生數量眾多的失敗樣本,將成功樣本對網絡權重的更新淹沒,影響智能體學習。以回合平均獎勵作為優先級,設計基于優先隊列的經驗回放池Arr。隨著訓練的進行,經驗池不斷更新,失敗樣本的數量將逐漸減少,更高比例的成功樣本用于網絡訓練,加速模型收斂。優先隊列本質是完全二叉樹結構,能自動按優先級排序,其首元素的優先級總是最小,能夠方便地淘汰掉低優先級的樣本。經驗池更新流程如圖2所示,先將智能體與環境互動產生的樣本存儲在臨時數組T中,在完成一個回合的互動后,按式(14)計算回合平均獎勵,作為該批次樣本的優先級P,將T中所有樣本以(P,(st,at,rt,st+1))的格式儲存到經驗池中。若經驗池滿,則通過比較Arr中最小優先級與P的大小,淘汰其中一個樣本。

圖2 經驗池更新流程框圖

2.3 基于課程學習的多階段訓練

泊車訓練時的成功樣本稀少,隨機的初始位姿得到的樣本序列會對智能體學習到泊車策略造成干擾,但對初始位姿進行隨機,又是規劃能力和泛化性的必然要求。因此,參考課程學習的思想,按照表1所示的隨機范圍,將智能體的訓練過程分為4個階段,先從固定起始位姿訓練智能體;然后在區域內隨機生成起始位姿,并逐階段擴大初始位姿的隨機區域。如此,智能體在學習到從固定位姿到達目標位姿后,在這基礎上再挑戰從不同的起始位姿運動到目標位姿,減少探索的盲目性。

表1 隨機范圍

改進算法的偽代碼如下:

1: 隨機初始化當前critic網絡Q(s,a|w)和actor網絡μ(s|β),通過w′←w和β′←β初始化目標critic網絡和actor網絡

2: 初始化基于優先隊列的經驗池B

3: for(K,A)∈{(K0,A0),(K1,A1),(K2,A2),(K3,A3)}do

4: for episode=1,K do

5: 從區域A中隨機生成初始位姿并賦予初始狀態s0

6: 初始化臨時數組temp,用來存放該回合的所有樣本

7: for t=1,T do

8: 利用式(12)生成動作at,觀測獎勵rt和新的狀態st+1

9: 將(st,at,rt,st+1)存儲到temp中

10:從經驗池B中采樣一批訓練數據

11:利用式(13)分別計算當前critic網絡和actor網絡的損失函數,并進行梯度更新

12:利用式(14)更新目標critic網絡和actor網絡

13:end for

14:利用式(14)計算temp數組中所有樣本的優先級P,并轉移到經驗池B中

15:end for 16:end for

3 泊車算法的收斂性、泛化能力、健壯性和規劃能力分析

3.1 收斂性分析

為對比改進方法與原始方法的收斂性,進行10次測試,每100個回合作為一個輪次,測試當前模型的規劃能力,平均成功率和平均回合回報的變化曲線如圖3、4所示。

圖3 成功率

由于是在范圍內隨機生成初始位姿,無法保證生成的每個位姿都“確實”有滿足要求的泊車路徑,因此成功率只能逼近100%。由圖3可以看出,改進方法在訓練到第8個輪次時(第800回合),已經有成功泊車樣例,相比原始方法,提前400個回合(提高33%);相同的訓練回合數,改進方法的成功率始終比原始方法高出不少;最終二者成功率都收斂到略高于80%,但改進方法要提前1 000個回合(提高25%)。圖4和圖3所示的規律基本一樣,訓練相同回合數,改進方法的平均回合回報要高于原始方法,說明改進方法泊車成功的次數更多。

圖4 平均回合回報

初始位姿為(6,7.5,0)時的泊車運動軌跡如圖5所示,方向盤轉角曲線如圖6所示。一開始車輛先往左轉方向盤,往遠離障礙物的方向行駛一段距離,從而使泊車空間更加充裕,然后再往右轉方向盤到最大,待后軸中心越過角點連線后,便開始回正方向盤,最后進行微調。由于方向盤轉角變化量的限制,單位時間車輛的方向盤轉角變化量為200(°)/s,不會令人感到不舒適。

圖5 泊車軌跡

圖6 方向盤轉角

3.2 泛化能力分析

在深度學習中,泛化能力指機器學習算法對新樣本的適應能力。在自動泊車中,智能體學習的目的是學習到泊車問題的目標、注意點和解決策略,即從任意初始位姿開始,無碰撞地倒車進入車位中。泛化能力不好的算法,只是“記住”從某一初始位置到目標位置的固定路線,當將初始位置稍微移動一小段距離時,則無法規劃出路徑。而本文算法在訓練后期對初始位姿進行隨機,讓智能體“見識”了更加豐富的樣本,其泛化能力得到保證。

為展示經過訓練的智能體的泛化能力,在表1的最終隨機范圍A3之外,選取4個有代表性的初始位姿(如表2)進行泊車測試,泊車軌跡如圖7~10所示。

圖7 組1(5.0,7.2,-0.2)的泊車軌跡和方向盤轉角

表2 初始位姿

由泊車軌跡圖可知,4個測試均泊車成功,沒有與障礙物碰撞。上述4組起始位姿均位于最終隨機范圍A3之外,屬于智能體未曾“見過”的數據,但得益于神經網絡強大的近似能力,智能體仍然能夠在初始階段選擇正確的動作執行。可以認為智能體確實學習到了合理的泊車策略,能夠感知當前車輛處于何種境地;根據當前狀態采取合適的動作;在越過角點連線后,修正航向角,最終以較小的誤差停在目標位置。

圖8 組2(4.5,8.0,0)的泊車軌跡和方向盤轉角

圖9 組3(7.6,8.5,0)的泊車軌跡和方向盤轉角

圖10 組4(7,10.2,0.3)的泊車軌跡和方向盤轉角

3.3 健壯性分析

在實際駕駛時,傳感器(如慣性導航、方向盤傳感器、距離傳感器等)的狀態感知和控制器對車輛的速度控制和方向盤轉角控制都存在一定誤差。為了驗證智能體具有較強的健壯性,能夠抵抗感知和控制誤差的干擾,用高斯噪聲代表隨機擾動,施加在狀態s(x,y,θ,sw,d)和動作a上,如式(15)所示。X代表變量值。由高斯分布可知,擾動值位于區間[-2σ,2σ]的概率為95.45%。

如表3,參考實車感知系統和控制系統的精度,分別設置4組不同的隨機誤差進行泊車實驗,得到泊車軌跡和方向盤轉角曲線,如圖11、12所示。可知,隨機高斯噪聲的方差不同以及生成擾動值的不確定性,導致同一方差不同次測試和不同方差測試的車輛泊車軌跡和方向盤轉角變化都不盡相同。方差越大,軌跡偏移的最大值越大,車輛需要采取更大的方向盤轉角以對抗偏移,尤其是在進入車位微調位置時,該特征尤為明顯。盡管受到了較大的隨機干擾,導致車輛在相同時間步的狀態不同,采取動作后的狀態不如預期,智能體仍然能根據當前狀態實時調整方向盤轉角,最終運動到目標位置。

表3 隨機噪聲方差設置

圖11 不同噪聲的泊車軌跡

圖12 不同噪聲的方向盤轉角

為進一步分析隨機噪聲對模型的泊車能力是否造成影響,在A3區域內隨機生成10 000組初始位姿,統計不同組別誤差的泊車表現,見表4(其中按式(16)方法計算)。在隨機擾動較小時,泊車成功數和x方向誤差基本不受影響,但航向角誤差逐漸增大。當后軸中心y方向超過目標位置,泊車完成,因此y方向誤差均小于最小步長0.1 m且相差不大。組4的成功率為67.3%,下降比較明顯,x方向誤差和航向角誤差增大,說明隨機噪聲的干擾對智能體造成了明顯影響。結合噪聲方差設置可知,航向角噪聲方差增加幅度很小,說明智能體的泊車性能受航向角噪聲的影響最大。這是因為航向角的單步變化量最大僅為1.2°(在方向盤轉角達到最值540°時由式(6)計算得到),而組4的航向角噪聲方差為3°,相當于每個時間步車輛的實際航向角變化都遠小于隨機擾動。

表4 加上噪聲與未加噪聲的規劃性能指標

3.4 規劃能力分析

在分析規劃算法的規劃能力時,可從耗時、成功率、路徑長度、容差、泊車誤差、路徑平滑度等方面考慮。其中容差指在泊車過程中車輛與周圍障礙物的最小距離,容差越大,安全性越高。路徑平滑度可用曲率變化衡量,曲率變化越大甚至趨于無窮,則路徑越不平滑。對于離散點表示的路徑,用式(17)計算連續兩點曲線的曲率。

Reeds-shepp規劃算法[](RS)作為經典的基于幾何的路徑規劃方法,具有實現簡單、求解速度快等優點,許多專家學者對RS進行了研究和改進,并應用在實際的泊車系統上。RS曲線是在車輛能夠前進和后退時,滿足幾何約束和固定曲率的條件下,連接起始位姿和終止位姿的最短路徑。其分為5大類,共48種可能的解,每條路徑最多由5段組成。圖13為RS曲線中的CCC(curvecurve-curve,3段圓弧)情況,原點S為起點,G(x,y,φ)為終點。由幾何關系可得方程組(20),其中t、u、w為每段圓弧的圓心角,從而求得每段圓弧的長度。

圖13 RS曲線的CCC類示意圖

RS算法的應用邏輯就是給定起始位姿和終止位姿,依次求解48種情況(可能無解),對可行解進行碰撞檢查,然后利用代價函數從無碰撞的路徑中擇優選取一條路徑輸出。由于RS曲線僅由半徑相同的圓弧和直線組成,對于一組起始位姿和終點位姿,解只有48種可能,考慮障礙物的話情況更加糟糕,這導致RS算法規劃能力不強。與之相對的是,基于深度強化學習的路徑規劃算法,其路徑由許多小片段組成,每個片段的曲率都在變化,解的數量可以認為是無限個,因此具有更加強大的規劃能力和泛化能力。因此,對二者進行規劃能力上的對比,以此說明基于深度強化學習的路徑規劃算法的優越性。

在區間x∈[2,7.5],y∈[7,10],θ∈[-0.2,0.2]內,隨機生成一組起始位姿,對改進算法訓練得到的智能體和RS算法進行測試,各指標結果如表5所示。可以看到RS算法的平均耗時為4.3 ms,最終位姿誤差為0,但成功率僅有3.0%,而本文算法成功率高達54.2%,耗時和誤差并未相差多少。由于RS曲線在切點處曲率不連續,相比本文基于車輛運動學模型得到的規劃器,平滑度要高很多。

表5 規劃能力指標

將2種算法泊車成功的起始位姿繪制成散點圖(圖14)。

圖14 可泊區域起始位姿散點圖

可以看到,在A3區域內,改進算法的可泊起始位姿均勻且密集地覆蓋整個區域,而在A3之外,起始位置的分布相對稀疏,因為在這些區域單憑一次倒車很難完成泊車,需要至少揉庫1次,而本文設計的車輛暫未考慮前進后退的切換功能;能夠泊車成功得益于初始航向角的偏移。即使如此,改進算法的可泊區域仍要比RS算法大得多,且可泊起始位姿更加密集。這也說明RS算法的泛化能力不足,某個位姿可以泊車,但在該位姿的鄰域內,則無法泊車。

4 結論

1)研究了深度強化學習算法模型的原理和特點;基于阿克曼轉向幾何建立了車輛運動學模型;以車輛位姿、方向盤轉角和與障礙物的最小距離作為狀態,以目標方向盤轉角作為動作;搭建了基于深度強化學習的自動泊車算法框架,分析了框架中智能體與環境交互過程、經驗池儲存樣本過程和智能體訓練過程的運行邏輯。

2)以車輛后軸中心與目標位置連線和航向角的夾角作為衡量,設計了基于引導的獎勵函數,避免獎勵稀疏帶來的收斂困難問題;為切斷樣本之間的時間相關性,以回合平均獎勵作為優先級,設計了基于優先隊列的經驗池結構對樣本進行存儲和淘汰,并闡述了相應的經驗池更新流程;針對泊車問題,提出了基于課程學習的多階段訓練方法,將智能體的訓練分為4個階段,逐漸擴大初始位姿的隨機區域,加速模型收斂。

3)結合實例,研究了改進算法的收斂性、泛化能力、健壯性和規劃能力。仿真結果表明,相較于原始算法,改進算法收斂速度加快了25%,二者收斂后的成功率基本相同。經過訓練得到的規劃器具有較強的健壯性,隨著高斯噪聲的方差增大,智能體的泊車軌跡偏移增大,泊車成功率逐漸減小,但最終位姿幾乎不受影響,即使在x、y方向噪聲極值達到10 cm,距離誤差達到20 cm時,泊車成功率仍達67.3%。與傳統的基于幾何規劃的RS曲線方法相比,基于改進算法訓練得到的智能體有著更強的規劃能力和泛化能力,有著更大的可泊區域和更加密集的可泊初始位姿。

猜你喜歡
智能
智能與自主
讓紙變得智能
一種智能微耕機的研發
智能制造 反思與期望
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
智能制造·AI未來
商周刊(2018年18期)2018-09-21 09:14:46
爭渡智能石化
能源(2018年4期)2018-05-19 01:53:44
主站蜘蛛池模板: 毛片免费观看视频| 亚洲天堂2014| 华人在线亚洲欧美精品| 日韩人妻精品一区| 67194亚洲无码| 综合社区亚洲熟妇p| 三级欧美在线| 久久久久亚洲av成人网人人软件| 亚洲午夜福利精品无码不卡| 毛片免费在线| 午夜精品区| 亚洲综合色吧| 毛片基地美国正在播放亚洲 | 亚洲第一综合天堂另类专| 国产尤物在线播放| 欧美啪啪精品| 色妞永久免费视频| 中文字幕永久在线看| 日韩在线影院| 国产真实乱人视频| 亚洲人成网站色7777| 精品视频免费在线| 少妇高潮惨叫久久久久久| 婷婷色婷婷| 亚洲无码在线午夜电影| 欧美在线三级| 中国精品久久| 99在线视频免费| 91国内视频在线观看| 69视频国产| 欧洲成人免费视频| 欧美一区二区丝袜高跟鞋| 91久久偷偷做嫩草影院精品| av在线无码浏览| 一级毛片在线播放免费观看| 欧美区日韩区| 亚洲男人天堂2020| 欧美激情综合| 日韩视频免费| 四虎永久在线| 亚洲日韩Av中文字幕无码| 无码人妻热线精品视频| 99视频精品全国免费品| 91最新精品视频发布页| 99精品免费在线| 就去色综合| 久久无码av三级| 天堂成人av| 久久一本日韩精品中文字幕屁孩| 国产黄在线免费观看| 国产成人综合在线视频| 亚国产欧美在线人成| 一本综合久久| 2022国产91精品久久久久久| 精品国产成人高清在线| 亚洲国产系列| 在线播放真实国产乱子伦| 99ri国产在线| 亚洲天堂网2014| 亚洲Va中文字幕久久一区| 亚洲视频色图| 女同久久精品国产99国| www.国产福利| a亚洲天堂| 国产欧美在线观看视频| 久久综合九九亚洲一区| 成年女人a毛片免费视频| 欧美色亚洲| 亚洲成人免费在线| 91福利免费| 亚洲国产高清精品线久久| 国产 在线视频无码| 久久99精品国产麻豆宅宅| 精品人妻一区二区三区蜜桃AⅤ| 国产亚洲视频在线观看| 日韩精品专区免费无码aⅴ| 黄色网址免费在线| 欧美一级特黄aaaaaa在线看片| 亚洲成人播放| 99精品视频九九精品| 国产成人调教在线视频| 伊人久综合|