999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強(qiáng)化學(xué)習(xí)的動態(tài)定價策略研究綜述

2019-12-12 07:27:58
計算機(jī)應(yīng)用與軟件 2019年12期
關(guān)鍵詞:動作策略研究

王 欣 王 芳

(上海外國語大學(xué)國際工商管理學(xué)院 上海 200083)

0 引 言

隨著互聯(lián)網(wǎng)的發(fā)展及電子商務(wù)的普及,人們獲取商品和服務(wù)信息變得越來越容易而且全面。商品或服務(wù)價格的變動也會在最短時間內(nèi)對消費(fèi)者的購物行為產(chǎn)生影響,從而直接影響企業(yè)效益。為了最大化效益,企業(yè)經(jīng)常會基于某些因素定期或不定期調(diào)整商品或服務(wù)價格,這也與人工智能領(lǐng)域強(qiáng)化學(xué)習(xí)的目標(biāo)一致。強(qiáng)化學(xué)習(xí)的目標(biāo)是最大化長期收益,因此,通過強(qiáng)化學(xué)習(xí)的技術(shù)手段可以實(shí)現(xiàn)商品或服務(wù)的智能定價。

動態(tài)定價是企業(yè)根據(jù)顧客需求和自身供應(yīng)能力等信息動態(tài)調(diào)整商品價格,以實(shí)現(xiàn)收益最大化的策略[1],有些學(xué)者也將其稱為個性化定價[2]。隨著人工智能技術(shù)的不斷發(fā)展,越來越多的學(xué)者嘗試采用智能方法來解決動態(tài)定價問題,強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)便是最廣泛使用的技術(shù)之一。它受到自然界人和動物能夠有效適應(yīng)環(huán)境的啟發(fā),通過不斷試錯的方式從環(huán)境中進(jìn)行學(xué)習(xí),是機(jī)器學(xué)習(xí)的一個重要分支。它在人工智能問題求解、多智能體控制、機(jī)器人控制與運(yùn)動規(guī)劃、決策控制等領(lǐng)域有著十分廣泛的應(yīng)用[3-5],是智能系統(tǒng)設(shè)計與決策的核心技術(shù)之一,也是進(jìn)行智能動態(tài)定價策略研究的關(guān)鍵問題。

因此,深入研究強(qiáng)化學(xué)習(xí)方法在動態(tài)定價領(lǐng)域的應(yīng)用,對于推動人工智能、強(qiáng)化學(xué)習(xí)方法的發(fā)展及其在動態(tài)定價等領(lǐng)域的應(yīng)用都有非常重要的意義。本文將從強(qiáng)化學(xué)習(xí)的技術(shù)和其在動態(tài)定價領(lǐng)域的具體應(yīng)用兩方面展開綜述。首先,基于現(xiàn)有動態(tài)定價用到相關(guān)強(qiáng)化學(xué)習(xí)關(guān)鍵技術(shù)進(jìn)行介紹;然后分別從不同角度綜述強(qiáng)化學(xué)習(xí)在動態(tài)定價中的應(yīng)用,分析其優(yōu)缺點(diǎn);最后分析強(qiáng)化學(xué)習(xí)在動態(tài)定價領(lǐng)域的應(yīng)用前景。

1 強(qiáng)化學(xué)習(xí)

根據(jù)反饋的差異,機(jī)器學(xué)習(xí)技術(shù)可以分為監(jiān)督學(xué)習(xí)(Supervised Learning,SL)、無監(jiān)督學(xué)習(xí)(Unsupervised Learning,UL)和強(qiáng)化學(xué)習(xí)三大類,其中:監(jiān)督學(xué)習(xí)完成的是與環(huán)境沒有交互的記憶和知識重組,要求給出學(xué)習(xí)系統(tǒng)在各種輸入信號下的期望輸出;無監(jiān)督學(xué)習(xí)主要是聚類等自組織學(xué)習(xí)方式;強(qiáng)化學(xué)習(xí)是通過“試錯”的方式與環(huán)境進(jìn)行交互,通過最大化累積獎賞的方式來學(xué)習(xí)到最優(yōu)策略[6-7],它通過與環(huán)境的交互,并根據(jù)交互過程中所獲得的立即獎賞信號進(jìn)行學(xué)習(xí),以求極大化期望累積獎賞,是機(jī)器學(xué)習(xí)的一個重要分支。

強(qiáng)化學(xué)習(xí)的工作原理和人類的學(xué)習(xí)模式類似。如果Agent的某個動作得到了環(huán)境的正獎賞,那么Agent以后的動作就會增強(qiáng);如果得到了負(fù)獎賞,那么以后的動作就會減弱[8]。強(qiáng)化學(xué)習(xí)的目標(biāo)是學(xué)習(xí)到一個動作策略,使得系統(tǒng)獲得最大的累積獎賞。在強(qiáng)化學(xué)習(xí)中,Agent在環(huán)境s下選擇并執(zhí)行一個動作a,環(huán)境接受動作后變?yōu)閟′,并把一個獎賞信號r反饋給Agent,Agent根據(jù)獎賞信號選擇后續(xù)動作[9]。在動態(tài)定價相關(guān)研究中,強(qiáng)化學(xué)習(xí)系統(tǒng)的目標(biāo)是使廠商能夠最大化總體收益,而忽略單筆交易的短期利益。強(qiáng)化學(xué)習(xí)架構(gòu)一般包括四個要素:策略(Policy)、獎懲反饋(Reward)、值函數(shù)(Value Function)、環(huán)境模型(Environment)。動態(tài)定價的環(huán)境相關(guān)因素繁多且復(fù)雜,以往強(qiáng)化學(xué)習(xí)的動態(tài)定價研究主要基于以下幾種環(huán)境框架。

1.1 馬爾可夫決策過程(MDP)

馬爾可夫決策過程一般用來解決順序型強(qiáng)化學(xué)習(xí)問題。它是一個五元組:(S,A,P,R,γ),其中:

(1)S是一組有限的狀態(tài)s∈S。

(2)A是一組有限的行為(S,A,P,R,γ)。

(5)γ∈[0,1]是折現(xiàn)系數(shù),代表未來獎勵與現(xiàn)在獎勵之間的重要差異[7,10]。馬爾可夫決策過程的本質(zhì)是:當(dāng)前狀態(tài)向下一狀態(tài)轉(zhuǎn)移的概率和獎賞值只取決于當(dāng)前狀態(tài)和選擇的動作,而與歷史狀態(tài)和歷史動作無關(guān)。在馬爾可夫動態(tài)模型在策略π下的值函數(shù)由貝爾曼方程(Bellman equation)定義[7]。強(qiáng)化學(xué)習(xí)方法是通過最大化值函數(shù)來改進(jìn)策略,并最終得到最優(yōu)策略π*。Vπ(s)表示從狀態(tài)s開始,執(zhí)行當(dāng)前策略所得到的狀態(tài)值函數(shù)。狀態(tài)值函數(shù)的貝爾曼最優(yōu)方程表示為[7,11-12]:

(1)

狀態(tài)動作值函數(shù)Q*(s,a)定義為從狀態(tài)s開始,執(zhí)行動作a所得到的期望回報值。因此,在最優(yōu)策略π*下狀態(tài)動作值函數(shù)Q*(s,a)的貝爾曼最優(yōu)方程表示為:

(2)

1.2 半馬爾可夫決策過程(SMDP)

針對從狀態(tài)st開始、在st+1結(jié)束的動作a,期間執(zhí)行的步長為τ,它的狀態(tài)轉(zhuǎn)移概率為:P(τ,st+τ=s|st=s,at=a)[13]。τ可以是連續(xù)時間離散系統(tǒng)的實(shí)數(shù),也可以是離散系統(tǒng)的整數(shù)。SMDPs的狀態(tài)值函數(shù)貝爾曼最優(yōu)方程表示為[13]:

a)V*(s′)}

(3)

SMDP最優(yōu)狀態(tài)動作值函數(shù)Q*(s,a)表示為:

(4)

1.3 部分可觀測馬爾可夫決策過程(POMDP)

POMDP是一種通用化的馬爾可夫決策過程。POMDP模擬代理人決策程序是假設(shè)系統(tǒng)動態(tài)由MDP決定,但是代理人無法直接觀察目前的狀態(tài)。相反地,它必須要根據(jù)模型的全域與部分區(qū)域觀察結(jié)果來推斷狀態(tài)的分布[14-19]。與MDP不同的是,POMDP模型中不再直接觀察狀態(tài)s′,而是去感知一個觀測(或采樣)o∈Ω。離散觀察集合Ω={o1,o2,…,oM}代表所有可能的Agent能夠接收到的感知器讀數(shù)。Agent接收到的觀測值取決于下一個環(huán)境狀態(tài)s′以及在一定條件下可能也取決于Agent采取的動作a[20]。

正如完全可觀察MDP問題一樣,Agent的目標(biāo)是選擇動作使得任務(wù)盡可能完美的完成,即讓Agent學(xué)習(xí)一個最優(yōu)策略。在POMDP問題中,一個最優(yōu)策略π*(b)將信度映射到動作上。但是和MDP問題相反,

策略π描述成一個價值函數(shù)V:Δ(S)→R,定義為Agent在遵循策略π的條件下從信度分布b開始收集到的期望未來減量回報V(b),具體表示為:

V(b)=E{∑γtR(bt,π(bt))|b0=b}

(5)

式中:R(bt,π(bt))=∑R(s,π(bt))bt(s)。最大化V的策略π稱為最優(yōu)策略π*,它為每個信度b在當(dāng)前步長內(nèi)執(zhí)行一個最優(yōu)行為a,并假設(shè)Agent會在后續(xù)時間步長內(nèi)執(zhí)行最優(yōu)行為a。最優(yōu)策略π*的值是通過最優(yōu)價值函數(shù)V*定義的。該價值函數(shù)滿足貝爾曼最優(yōu)方程,表示為:

V*=HPOMDPV*

(6)

(7)

式中:HPOMDP是POMDP的貝爾曼備份算子[21-29]。

2 強(qiáng)化學(xué)習(xí)算法

強(qiáng)化學(xué)習(xí)可以分為基于值函數(shù)的強(qiáng)化學(xué)習(xí)和基于策略的強(qiáng)化學(xué)習(xí)。在基于值函數(shù)的強(qiáng)化學(xué)習(xí)中,常用的學(xué)習(xí)算法包括Q-Learning算法、SARSA算法和蒙特卡羅算法。在基于強(qiáng)化學(xué)習(xí)的動態(tài)定價研究中,這三種算法也是經(jīng)常采用的算法。

2.1 Q-Learning算法

Q-Learning算法是無模型算法,其迭代公式表示為[30-36]:

(8)

式中:Q(st,at)為t時刻的狀態(tài)動作值;r為獎賞值;γ為折扣因子;αt是學(xué)習(xí)率;δt表示時間差分(temporal difference,TD)誤差;a′是狀態(tài)st+1能夠執(zhí)行的動作。

2.2 SARSA算法

作為SARSA算法的名字本身而言,它實(shí)際上是由S、A、R、S、A幾個字母組成的。而S、A、R分別代表狀態(tài)(State)、動作(Action)和獎勵(Reward)。SARSA是一種策略算法,能夠在獎賞函數(shù)和狀態(tài)轉(zhuǎn)移概率未知的情況下,通過狀態(tài)動作值函數(shù)迭代找到最優(yōu)策略。當(dāng)狀態(tài)動作對被無限次訪問時,該算法會以概率1收斂到最優(yōu)策略及狀態(tài)動作值函數(shù)。SARSA算法在學(xué)習(xí)中采用相對安全的動作,因此該算法的收斂速度較慢。迭代公式表示為[6,37-41]:

Q(s,a)=Q(s,a)+α{r+γQ(s′,a′)-Q(s,a)}

(9)

2.3 蒙特卡羅算法

蒙特卡羅算法不需要對環(huán)境的完整知識,僅僅需要經(jīng)驗(yàn)就可以求解最優(yōu)策略,這些經(jīng)驗(yàn)可以在線獲得或者根據(jù)某種模擬機(jī)制獲得。蒙特卡羅方法保持對狀態(tài)動作和未來獎賞的頻率計數(shù),并根據(jù)估計建立它們的值。蒙特卡羅技術(shù)基于樣本來估計平均樣本的回報。對于每個狀態(tài)s∈S,保留所有從s獲得的狀態(tài),一個狀態(tài)s∈S的值是它們的平均值。特別對于周期性任務(wù),蒙特卡羅技術(shù)是非常有用的。由于采樣依賴于當(dāng)前策略π,策略π只評估建議動作的回報[42-46]。值函數(shù)更新規(guī)則表示為:

V(st)→V(st+1)+α(rt-V(st))

(10)

式中:rt為t時刻的獎賞值;α為步長參數(shù)。

3 基于強(qiáng)化學(xué)習(xí)的動態(tài)定價策略

強(qiáng)化學(xué)習(xí)方法用于解決動態(tài)定價問題時,主要從供應(yīng)商數(shù)目(單供應(yīng)商、多供應(yīng)商)、所處環(huán)境模型(MDP、POMDP、Semi-MDP)、選用算法(Q-Learning,SARSA,Monte-Carlo)等方面進(jìn)行假設(shè)和研究。

無論是傳統(tǒng)還是基于強(qiáng)化學(xué)習(xí)的多供應(yīng)商動態(tài)定價研究通常對市場中供應(yīng)商數(shù)量進(jìn)行假設(shè),一般分為單供應(yīng)商和多供應(yīng)商。而對于多供應(yīng)商的研究,大多假設(shè)市場存在兩個供應(yīng)商,且兩個供應(yīng)商之間存在某種競爭關(guān)系。在基于強(qiáng)化學(xué)習(xí)的研究中表示為兩個Agent,且在它們之間存在相互影響和競爭。文獻(xiàn)[4]研究了網(wǎng)格服務(wù)供應(yīng)商(Grid Service Provider)在市場上存在兩家供應(yīng)商時如何進(jìn)行動態(tài)定價。文獻(xiàn)[48-49]對于航空公司定價策略的研究中,將市場上存在的航空公司數(shù)量假定為兩家。文獻(xiàn)[50]研究了電子商務(wù)市場多家供應(yīng)商競爭的情況,但在供應(yīng)商的數(shù)量上依然延續(xù)了兩家供應(yīng)商的假設(shè)。文獻(xiàn)[51]在研究中,假設(shè)市場由一個供應(yīng)商分別供貨給兩個零售商,從而研究如何定價能使零售商的利益最大化,因此也是將研究對象定位在了兩個零售商上。文獻(xiàn)[52]針對兩銷售商間沒有信息交互的異步動態(tài)定價問題進(jìn)行了研究。文獻(xiàn)[53]基于多Agent強(qiáng)化學(xué)習(xí)算法對季節(jié)性商品動態(tài)定價策略進(jìn)行研究,并在研究中將Agent數(shù)目確定為兩個。與此同時,也有文獻(xiàn)對壟斷供應(yīng)商動態(tài)定價策略進(jìn)行了相關(guān)研究。文獻(xiàn)[54]研究了處于壟斷地位的公司如何進(jìn)行動態(tài)定價以實(shí)現(xiàn)利潤最大化。文獻(xiàn)[55]研究了只有一家供應(yīng)商的情況下,基于強(qiáng)化學(xué)習(xí)的動態(tài)定價專家系統(tǒng)的設(shè)計方法。文獻(xiàn)[56]研究了動態(tài)環(huán)境中,航空、酒店和時尚等行業(yè)只有一家供應(yīng)商的情況下,如何進(jìn)行動態(tài)定價,以實(shí)現(xiàn)最佳的收益管理(revenue management)。文獻(xiàn)[57]研究了在壟斷能源行業(yè)如何通過強(qiáng)化學(xué)習(xí)技術(shù)實(shí)現(xiàn)動態(tài)定價和收益最大化。

在環(huán)境模型的選擇方面,之前的研究也根據(jù)不同情況做了界定。文獻(xiàn)[48-49]對于航空企業(yè)票價動態(tài)定價的研究全部基于MDP模型。文獻(xiàn)[50]在環(huán)境模型為MDP的前提下對兩個Agent的系統(tǒng)進(jìn)行了研究,從而提出了一種競爭定價策略。文獻(xiàn)[51]通過使用SARSA算法提出了一種解決動態(tài)定價問題的方法,該研究的前提也是決策過程符合MDP。文獻(xiàn)[52]在MDP環(huán)境模型下對于異步動態(tài)定價進(jìn)行了相關(guān)研究。文獻(xiàn)[53]結(jié)合強(qiáng)化學(xué)習(xí)和性能勢,在MDP環(huán)境下,對動態(tài)定價進(jìn)行了研究。文獻(xiàn)[54]在MDP下對有交互作用的商品的動態(tài)定價進(jìn)行研究。文獻(xiàn)[56]根據(jù)不同客戶類型劃分,研究了電子商務(wù)市場的動態(tài)定價策略。文獻(xiàn)[57]研究了壟斷能源行業(yè)如何在MDP環(huán)境下建立智能動態(tài)定價策略。文獻(xiàn)[58]在MDP下研究了動態(tài)環(huán)境下實(shí)時動態(tài)定價策略。文獻(xiàn)[59]基于Q-learning算法對能源行業(yè)白天零售市場的定價策略研究。文獻(xiàn)[47]將基于POMDP梯度的函數(shù)逼近應(yīng)用于產(chǎn)品或服務(wù)定價。文獻(xiàn)[60]基于POMDP,研究了電子商務(wù)市場的動態(tài)定價策略。文獻(xiàn)[61]基于SMDP研究了動態(tài)定價的最優(yōu)策略。此外,文獻(xiàn)[62]基于SMDP研究了壟斷企業(yè)的動態(tài)定價策略。

在算法方面,國內(nèi)外學(xué)者也根據(jù)研究內(nèi)容的差異進(jìn)行了差別選擇。在動態(tài)定價方相關(guān)研究中,應(yīng)用最廣泛的是Q-learning及其改進(jìn)算法。在網(wǎng)格計算市場上,文獻(xiàn)[47]基于Q-learning算法提出了在部分可觀測環(huán)境中的動態(tài)決策模型,并通過調(diào)節(jié)參數(shù)來調(diào)節(jié)梯度方向,從而使算法收斂到最優(yōu)值函數(shù)。在航空業(yè)動態(tài)定價的中,文獻(xiàn)[48]在2012年對Q-learning、SARSA和蒙特卡羅算法進(jìn)行了對比研究。在電子商務(wù)領(lǐng)域,文獻(xiàn)[50]基于Q-learning算法,對多Agent的環(huán)境定價策略進(jìn)行了研究。文獻(xiàn)[52]對于兩銷售商間沒有信息交互的異步動態(tài)定價問題的研究也是基于Q-learning和WoLF-PHC算法。文獻(xiàn)[55]基于帶資格跡(eligibility traces)的Q-learning算法研究了相互影響的商品和服務(wù)應(yīng)該如何動態(tài)定價。文獻(xiàn)[56]通過Q-learning對電子商務(wù)市場的動態(tài)定價策略進(jìn)行了研究。文獻(xiàn)[59]使用Q-learning實(shí)現(xiàn)了多Agent系統(tǒng),完成零售市場的動態(tài)定價。文獻(xiàn)[60]利用改進(jìn)Q-Learning對電子商務(wù)中不同產(chǎn)品線的動態(tài)定價策略。

同時,也有很多研究采用了SARSA和蒙特卡羅算法。文獻(xiàn)[49]在不同客戶模型下,通過SARSA算法實(shí)現(xiàn)了對航空業(yè)的動態(tài)定價。在競爭性訂單的動態(tài)定價策略中,文獻(xiàn)[51]也使用了SARSA算法。在競爭背景下壟斷企業(yè)的動態(tài)定價策略采用了蒙特卡羅算法[54]。文獻(xiàn)[58]也采用無模型的蒙特卡羅算法實(shí)現(xiàn)了非靜態(tài)環(huán)境的動態(tài)定價。文獻(xiàn)整體情況如表1所示。

表1 文獻(xiàn)總結(jié)表

4 結(jié) 語

在前人關(guān)于動態(tài)定價的研究中,學(xué)者們分別基于單Agent和多Agent進(jìn)行了相關(guān)研究。在解決現(xiàn)實(shí)問題中,對于模型的選擇要根據(jù)實(shí)際需求,以最簡單有效的方式解決問題為原則。在今后的研究中,需要結(jié)合不同實(shí)際應(yīng)用場景和領(lǐng)域?qū)gent的數(shù)量進(jìn)行界定。從目前強(qiáng)化學(xué)習(xí)技術(shù)的發(fā)展來看,對于單Agent和雙Agent的研究比較系統(tǒng)和完善,因此對于Agent的不同數(shù)量及Agent之間的相互作用需要進(jìn)一步加強(qiáng)和完善。多Agent之間的信息交換是應(yīng)用強(qiáng)化學(xué)習(xí)技術(shù)解決動態(tài)定價問題時需要進(jìn)一步考慮的因素。

決策過程框架是強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)的前提,不同的問題需要在不同環(huán)境框架下解決。從以往的研究來看,學(xué)者們的研究多基于馬爾可夫決策過程(MDP),MDP是強(qiáng)化學(xué)習(xí)中最簡單的一類過程,半馬爾可夫決策過程(SMDP)和POMDP因?yàn)榭紤]了學(xué)習(xí)過程中其他的因素,是更復(fù)雜的決策過程。近幾年,基于SMDP和POMDP的動態(tài)定價研究也逐漸展開。由于SMDP可以在隨機(jī)個時間步上完成,因此動態(tài)定價可以應(yīng)用于連續(xù)系統(tǒng),更接近真實(shí)的定價環(huán)境。POMDP是一種更通用化的馬爾可夫決策過程,對于Agent來說,因?yàn)椴糠譅顟B(tài)不可知,所以也更符合動態(tài)定價的實(shí)際情況。

目前對于動態(tài)定價研究的算法主要基于Q-learning、SARSA和蒙特卡羅及其改進(jìn)算法,尤其是Q-learning算法應(yīng)用最為廣泛。但Q-learning算法屬于表格型算法,對于小規(guī)模和離散系統(tǒng)有比較好的學(xué)習(xí)效果,但對于連續(xù)的大規(guī)模系統(tǒng),則會有收斂速度慢或無法收斂的情況。而深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)正能彌補(bǔ)這一不足。它將深度學(xué)習(xí)的感知能力與強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合,并因?yàn)锳lphaGo的成功而成為人工智能發(fā)展的一個里程碑。它是一種通用性很強(qiáng)的端到端的感知和控制系統(tǒng)。目前,其在機(jī)器人控制、機(jī)器視覺、自然語言處理、智能醫(yī)療等領(lǐng)域獲得了廣泛的推廣。雖然目前鮮有基于深度強(qiáng)化學(xué)習(xí)進(jìn)行動態(tài)定價研究,但這是一個值得學(xué)者們努力實(shí)踐的方向。

猜你喜歡
動作策略研究
FMS與YBT相關(guān)性的實(shí)證研究
遼代千人邑研究述論
例談未知角三角函數(shù)值的求解策略
視錯覺在平面設(shè)計中的應(yīng)用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
我說你做講策略
EMA伺服控制系統(tǒng)研究
動作描寫要具體
高中數(shù)學(xué)復(fù)習(xí)的具體策略
畫動作
動作描寫不可少
主站蜘蛛池模板: 国产毛片高清一级国语| 国产精品网曝门免费视频| 黄色网站不卡无码| 一级爆乳无码av| 日韩AV无码一区| 久久永久精品免费视频| 99久久精品免费视频| 亚洲午夜天堂| 色婷婷亚洲综合五月| a亚洲视频| 欧美成人怡春院在线激情| 日本欧美一二三区色视频| 精品国产成人a在线观看| 高清大学生毛片一级| 三级欧美在线| 免费可以看的无遮挡av无码| 91久久大香线蕉| 国产精品手机在线观看你懂的| 色婷婷啪啪| 色综合天天操| 九九九九热精品视频| 日韩毛片免费观看| 玖玖精品视频在线观看| 久久天天躁狠狠躁夜夜2020一| 亚洲国产无码有码| 亚洲无码熟妇人妻AV在线| 国产网站免费| 亚洲国产高清精品线久久| 久久综合成人| 制服丝袜无码每日更新| 中文字幕av一区二区三区欲色| 久久精品欧美一区二区| 久久免费精品琪琪| 99热这里只有精品5| 免费毛片网站在线观看| 国外欧美一区另类中文字幕| 风韵丰满熟妇啪啪区老熟熟女| 色综合成人| 久久这里只有精品66| 久久久久人妻精品一区三寸蜜桃| 亚洲永久视频| 欧美一区中文字幕| 伊人精品成人久久综合| 亚洲人成在线免费观看| 波多野结衣亚洲一区| 伊人久久青草青青综合| 女高中生自慰污污网站| 国产91透明丝袜美腿在线| 青青草一区| m男亚洲一区中文字幕| 女同久久精品国产99国| 久久亚洲中文字幕精品一区| 精品成人免费自拍视频| 91精品国产麻豆国产自产在线 | 成年女人a毛片免费视频| 亚洲毛片一级带毛片基地 | 正在播放久久| 在线毛片免费| 精品国产免费第一区二区三区日韩| 青草视频在线观看国产| 国产成人高清精品免费5388| 黄色网址免费在线| 无码视频国产精品一区二区| 亚洲精品在线观看91| 激情六月丁香婷婷四房播| 婷婷色在线视频| 精品少妇人妻av无码久久| 国产免费久久精品44| 网友自拍视频精品区| 996免费视频国产在线播放| 少妇精品在线| 精品无码国产自产野外拍在线| a网站在线观看| 精品久久久无码专区中文字幕| 亚洲精品国产综合99| 久久青青草原亚洲av无码| 欧洲高清无码在线| 中文天堂在线视频| 免费一级毛片完整版在线看| 无码中文字幕加勒比高清| 国产午夜精品鲁丝片| 亚洲欧美日韩中文字幕在线一区|