999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于二階價值梯度模型強化學(xué)習(xí)的工業(yè)過程控制方法

2024-08-15 00:00:00張博潘福成周曉鋒李帥
計算機應(yīng)用研究 2024年8期

摘 要:為了實現(xiàn)對高延時、非線性和強耦合的復(fù)雜工業(yè)過程穩(wěn)定準(zhǔn)確的連續(xù)控制,提出了一種基于二階價值梯度模型強化學(xué)習(xí)的控制方法。首先,該方法在模型訓(xùn)練過程中加入了狀態(tài)價值函數(shù)的二階梯度信息,具備更精確的函數(shù)逼近能力和更高的魯棒性,學(xué)習(xí)迭代效率更高;其次,通過采用新的狀態(tài)采樣策略,可以更高效地利用模型進行策略學(xué)習(xí)。最后,通過在OpenAI的Gym公共實驗環(huán)境和兩個工業(yè)場景的仿真環(huán)境的實驗表明:基于二階價值梯度模型對比傳統(tǒng)的基于最大似然估計模型,環(huán)境模型預(yù)測誤差顯著降低;基于二階價值梯度模型的強化學(xué)習(xí)方法學(xué)習(xí)效率優(yōu)于現(xiàn)有的基于模型的策略優(yōu)化方法,具備更好的控制性能,并減小了控制過程中的振蕩現(xiàn)象??梢娫摲椒苡行У靥嵘?xùn)練效率,同時提高工業(yè)過程控制的穩(wěn)定性和準(zhǔn)確性。

關(guān)鍵詞:工業(yè)過程控制; 模型強化學(xué)習(xí); 二階價值梯度; 狀態(tài)價值函數(shù); 狀態(tài)采樣策略

中圖分類號:TP391 文獻標(biāo)志碼:A

文章編號:1001-3695(2024)08-026-2434-07

doi:10.19734/j.issn.1001-3695.2023.11.0580

Industrial process control method based on second-ordervalue gradient model reinforcement learning

Zhang Bo1,2,3,4, Pan Fucheng1,2,3, Zhou Xiaofeng1,2,3, Li Shuai1,2,3

(1.Key Laboratory of Networked Control Systems, Chinese Academy of Sciences, Shenyang 110016, China; 2.Shenyang Institute of Automation, Chinese Academy of Sciences, Shenyang 110016, China; 3.Institutes for Robotics Intelligent Manufacturing, Chinese Academy of Sciences, Shenyang 110169, China; 4.University of Chinese Academy of Sciences, Beijing 100049, China)

Abstract:To achieve stable and accurate control of complex industrial processes with high latency, nonlinearity, and strong coupling, this paper proposed a control method based on second-order value function gradient model reinforcement learning. Firstly, during the model training process, the method incorporated second-order gradient information of the state-value function, enabling more accurate function approximation and higher robustness, resulting in improving learning iteration efficiency. Secondly, by adopting a new state sampling strategy, this method facilitated more effective utilization of the model for policy learning. Lastly, experiments conducted in the OpenAI Gym public environments and simulated environments of two industrial scenarios demonstrate that compared to traditional maximum likelihood estimation models, the second-order value gradient model significantly reduces the prediction error of the environment model. In addition, the reinforcement learning method based on the second-order value gradient model exhibits higher learning efficiency than existing model-based policy optimization methods, showcasing better control performance and mitigating oscillation phenomena during the control process. In conclusion, the proposed method effectively enhances training efficiency while improving the stability and accuracy of industrial process control.

Key words:industrial process control; model-based reinforcement learning; second-order value gradient; state value function; state sampling strategy

0 引言

隨著現(xiàn)代工業(yè)的不斷發(fā)展,過程控制技術(shù)逐漸成為工業(yè)過程中不可或缺的一部分。準(zhǔn)確、穩(wěn)定可靠、能夠快速響應(yīng)和適應(yīng)復(fù)雜變化的控制方法可以提高產(chǎn)品質(zhì)量、生產(chǎn)效率和安全性,創(chuàng)造更好的經(jīng)濟效益。然而,在大多數(shù)工業(yè)過程中,比如青霉素發(fā)酵生產(chǎn)過程、食品生產(chǎn)加工過程等,控制方法面臨諸多挑戰(zhàn),如工業(yè)過程系統(tǒng)的復(fù)雜動態(tài)特性、高延時和變量之間的非線性強耦合等[1,2]。因此,面對這些挑戰(zhàn),需要研究合理的控制方法。

為了提高復(fù)雜工業(yè)過程系統(tǒng)的控制性能,研究者們提出利用強化學(xué)習(xí)方法對工業(yè)過程進行控制。針對非線性強耦合系統(tǒng),羅傲等人[3]將強化學(xué)習(xí)中的執(zhí)行-評價結(jié)構(gòu)應(yīng)用到控制策略中,取得了較好的控制效果,但是面對多輸入約束情況時,存在控制性能下降的問題。針對復(fù)雜滯后的工業(yè)過程,張丹陽[4]將基于內(nèi)在好奇心獎勵生成方法改進DDPG(deep deterministic policy gradient)方法應(yīng)用于啤酒發(fā)酵過程控制上,得到了最優(yōu)控制方法,該方法使用的仿真實驗環(huán)境雖然比較理想,但是需要在更多的工業(yè)過程場景下進行驗證。針對冷機的負荷分配、冷卻塔風(fēng)機頻率以及冷卻水泵頻率的組合優(yōu)化控制,馬帥等人[5]提出一種能夠有效降低能耗的改進的雙池DQN算法,但是該方法只能進行離散控制,不能進行連續(xù)型動作控制。針對復(fù)雜工藝環(huán)境下,具有序列相關(guān)設(shè)置時間的紡機制造車間調(diào)度問題,紀(jì)志勇等人[6]提出了一種具有多動作空間的強化學(xué)習(xí)訓(xùn)練算法,但是忽略了多因素對調(diào)度目標(biāo)的影響。任安妮等人[7]利用基于注意力機制的強化學(xué)習(xí)方法優(yōu)化交通信號控制,但是該方法依賴大量的訓(xùn)練數(shù)據(jù)。宋江帆等人[8]使用策略函數(shù)輸出的改變量計算動作重復(fù)的概率,并根據(jù)該概率隨機地重復(fù)或改變動作,提高策略梯度法在連續(xù)時間問題中的訓(xùn)練效率,但是該方法在復(fù)雜工業(yè)場景下工況頻繁變化時,控制性能表現(xiàn)較差。

上述方法都是針對復(fù)雜工業(yè)過程系統(tǒng)提出的無模型強化學(xué)習(xí)的控制方法,這些方法需要智能體與環(huán)境交互產(chǎn)生的大量數(shù)據(jù)來訓(xùn)練策略網(wǎng)絡(luò),這限制了它們在復(fù)雜的現(xiàn)實場景中的適用性。基于模型的強化學(xué)習(xí)控制方法可以解決無模型強化學(xué)習(xí)控制方法中數(shù)據(jù)利用低效的問題[9],基于模型的強化學(xué)習(xí)控制方法構(gòu)建了環(huán)境的顯式模型,利用學(xué)習(xí)到的環(huán)境模型[10],即使在高維狀態(tài)空間下[11],智能體也可以與環(huán)境模型交互并優(yōu)化其策略,從而減少所需的真實環(huán)境交互次數(shù),提高數(shù)據(jù)利用率。

Janner等人[12]提出基于前向預(yù)測模型的策略優(yōu)化,使用概率集成方法學(xué)習(xí)得到環(huán)境模型,并利用模型進行短分支推演得到的數(shù)據(jù)來訓(xùn)練策略網(wǎng)絡(luò),有效減少了智能體與真實環(huán)境的交互次數(shù)。為了減少環(huán)境模型的預(yù)測誤差,Lai等人[13]提出基于雙向模型的策略優(yōu)化,顯著提高了環(huán)境模型的預(yù)測性能。Shen等人[14]利用無監(jiān)督學(xué)習(xí)方法學(xué)習(xí)真實環(huán)境與環(huán)境模型的特征不變性,減少環(huán)境模型的預(yù)測誤差。

這些方法都在不同程度上減少了基于模型強化學(xué)習(xí)中環(huán)境模型的預(yù)測誤差,但是現(xiàn)有的基于模型的強化學(xué)習(xí)方法主要將模型學(xué)習(xí)和模型利用分開處理,這可能導(dǎo)致模型和策略之間的學(xué)習(xí)目標(biāo)不匹配,即一個在訓(xùn)練數(shù)據(jù)集上具有較小預(yù)測誤差的模型并不能得到一個具有高累積獎勵的策略[15]。為了解決這個問題,F(xiàn)arahmand等人[15]提出價值感知模型,在模型學(xué)習(xí)階段加入狀態(tài)價值信息。在價值感知模型的基礎(chǔ)上,針對在訓(xùn)練過程中的狀態(tài)價值誤差問題,Voelcker等人[16]提出價值梯度模型。

針對強化學(xué)習(xí)工業(yè)過程控制方法的數(shù)據(jù)利用低效、不能進行連續(xù)型動作控制、應(yīng)用場景有限等問題,本文在價值梯度模型的基礎(chǔ)上,提出基于二階價值梯度模型強化學(xué)習(xí)方法。在模型損失函數(shù)中加入了狀態(tài)價值函數(shù)的二階梯度信息,在模型利用階段采用新的狀態(tài)采樣策略。通過在多個強化學(xué)習(xí)標(biāo)準(zhǔn)實驗環(huán)境和工業(yè)仿真環(huán)境的實驗表明,本文方法在性能上優(yōu)于現(xiàn)有的基于強化學(xué)習(xí)的工業(yè)過程控制方法。

1 基于價值感知模型的強化學(xué)習(xí)

1.1 基于模型的強化學(xué)習(xí)

強化學(xué)習(xí)解決的問題是長時決策問題。長時決策問題可以建模成馬爾可夫決策過程(Markov 7izO7p6Thns2eaMvp8tv+g==decision process,MDP)[17],MDP使用一個五元組(S,A,P,r,γ)表示。其中:S為狀態(tài)空間,是環(huán)境狀態(tài)構(gòu)成的集合;A為動作空間,是智能體動作構(gòu)成的集合;P(s′|s,a)為狀態(tài)轉(zhuǎn)移概率,對智能體是未知的;r(s,a)為獎勵函數(shù),此時獎勵同時取決于狀態(tài)和動作;γ為折扣因子。在一個馬爾可夫決策過程中,從第一個時刻開始,直到終止?fàn)顟B(tài)時,智能體與環(huán)境交互產(chǎn)生了一條軌跡,即τ=(s0,a0,…,st,at…),并獲得一系列的獎勵(r0,r1,…,rt,…),那么,所有折扣獎勵之和稱為累積折扣獎勵η。

η=r(s0,a0)+γr(s1,a1)+…+γtr(st,at)+…=

∑∞t=0γtr(st,at)(1)

強化學(xué)習(xí)的目標(biāo)是智能體通過與環(huán)境交互,學(xué)習(xí)一個與環(huán)境相適應(yīng)的最優(yōu)策略π*,使得智能體在與環(huán)境交互的過程中最大化累積折扣獎勵η。

π*=arg maxπEuclid Math TwoEApπ[η]=arg maxπEuclid Math TwoEApπ[∑∞t=0γtr(st,at)](2)

基于模型的強化學(xué)習(xí)(model-based reinforcement learning,MBRL)[9]通常用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)一個環(huán)境模型Pθ(s′|s,a),其中θ是神經(jīng)網(wǎng)絡(luò)參數(shù),然后利用該環(huán)境模型來幫助智能體訓(xùn)練和決策,從而求解MDP,如圖1所示。

由于基于模型的強化學(xué)習(xí)算法具有一個環(huán)境模型,智能體可以額外與環(huán)境模型進行交互,對真實環(huán)境中樣本的需求量往往會減少,所以通常會比無模型的強化學(xué)習(xí)算法具有更低的樣本復(fù)雜度。

1.2 價值感知模型

以往基于模型的強化學(xué)習(xí)(MBRL)的研究主要將模型學(xué)習(xí)和模型利用視為兩個獨立的過程。比如,基于模型的策略優(yōu)化(model-based policy optimization,MBPO)[12]是深度強化學(xué)習(xí)中一種熱門的基于模型的強化學(xué)習(xí),該方法中的策略學(xué)習(xí)使用了SAC(soft actor-critic)方法[18],具體算法如下:

算法1 基于模型的策略優(yōu)化

輸入:智能體策略π的初始網(wǎng)絡(luò),智能體交互的真實環(huán)境,環(huán)境模型pθ的初始網(wǎng)絡(luò)。

輸出:學(xué)習(xí)到的智能體策略π*網(wǎng)絡(luò)。

a)初始化環(huán)境模型參數(shù)pθ,真實環(huán)境數(shù)據(jù)集合Denv,模型數(shù)據(jù)集合Dmod

b)循環(huán)

c) 通過環(huán)境數(shù)據(jù)來訓(xùn)練模型參數(shù)pθ

d) 循環(huán)時間步T次

e) 根據(jù)策略π與環(huán)境交互,并將交互的軌跡添加到Denv中

f) 循環(huán)E步 //E為模型推演次數(shù)

g) 從Denv中均勻隨機采樣一個狀態(tài)st

h) 以st為初始狀態(tài),在模型中使用策略π進行k步的推演,并將產(chǎn)生的軌跡添加到Dmod中

i) 循環(huán)結(jié)束

j) 循環(huán)

k) 基于模型數(shù)據(jù)Dmod和真實環(huán)境數(shù)據(jù)Denv使用SAC算法來更新策略參數(shù)π

l) 直到策略參數(shù)π收斂

m) 循環(huán)結(jié)束

n)直到模型參數(shù)pθ收斂

算法1中,環(huán)境模型的學(xué)習(xí)過程,即步驟c)的優(yōu)化目標(biāo)是利用真實環(huán)境數(shù)據(jù)Denv訓(xùn)練得到預(yù)測更精確的環(huán)境模型,在方法上采用最大似然估計方法訓(xùn)練環(huán)境模型;模型的利用過程,即步驟j)~ l)的優(yōu)化目標(biāo)是得到高累積獎勵的策略。由于兩者的優(yōu)化目標(biāo)不一致,導(dǎo)致即使環(huán)境模型在訓(xùn)練數(shù)據(jù)機上預(yù)測誤差較小,也不能總是得到具有高累積獎勵的最優(yōu)策略[15]。

為了解決目標(biāo)不匹配問題,F(xiàn)arahmand等人[15]提出了價值感知模型學(xué)習(xí)(value-aware model learning,VAML),設(shè)計新的損失函數(shù),在環(huán)境模型學(xué)習(xí)過程中加入狀態(tài)價值信息,如下所示。

lossV(,p,μ)=Euclid SymbolrCpμ(s,a)|Euclid SymbolrCpp(s′|s,a)V(s′)ds′-Euclid SymbolrCp(s′|s,a)V(s′)ds′ |2dsda(3)

式(3)表明,VAML的損失函數(shù)是最小化真實環(huán)境和模型環(huán)境的單步價值估計,μ表示狀態(tài)-動作對的分布,V(s)表示狀態(tài)價值函數(shù),Euclid SymbolrCpp(s′|s,a)V(s′)ds′表示真實環(huán)境下的價值估計,Euclid SymbolrCp(s′|s,a)V(s′)ds′表示模型環(huán)境下的價值估計??梢钥闯觯琕AML的損失函數(shù)取決于價值函數(shù)V(s)的確切值,但是在實踐中則是通過深度神經(jīng)網(wǎng)絡(luò)進行估計,導(dǎo)致?lián)p失函數(shù)產(chǎn)生偏差。

1.3 基于價值梯度模型的強化學(xué)習(xí)

Voelcker等人[16]進一步改進了VAML,考慮價值函數(shù)的梯度,提出了基于價值梯度模型(value-gradient weighted model,VaGraM)。假設(shè)模型預(yù)測的下一個時刻的狀態(tài)和真實環(huán)境的下一時刻狀態(tài)s′接近,值函數(shù)可以通過泰勒展開來近似,用V^s′表示圍繞參考點s′展開的值函數(shù)的泰勒展開,得到

V^s′(s)≈V(s′)+(sV(s)|s′)T(s-s′)(4)

代入到式(3)中,化簡后得到VaGraM的損失函數(shù):

lossV^=∑{si,ai,s′i}∈D(Euclid SymbolrCpθ(s′|si,ai)((sV(s)|s′i)T(s′-s′i))ds′)2(5)

VaGraM的損失函數(shù)與VAML的損失函數(shù)不同,式(5)不依賴于未知狀態(tài)樣本的價值的具體數(shù)值,只需要在訓(xùn)練過程中知道價值網(wǎng)絡(luò)的梯度信息。通過將價值信息融入模型學(xué)習(xí)中,環(huán)境模型可以更合理地迭代更新參數(shù),比傳統(tǒng)的最大似然方法更具魯棒性,特別是當(dāng)模型能力不足以完全表征環(huán)境特征時。如果使用確定性環(huán)境模型,即s′m=fθ(s,a),那么VaGraM的損失函數(shù)可以進一步化簡成

∑i((sV(s)|s′i)T(fθ(si,ai)-s′i))2(6)

2 基于二階價值梯度模型的強化學(xué)習(xí)

在基于價值梯度模型的強化學(xué)習(xí)基礎(chǔ)上,為了加快環(huán)境模型訓(xùn)練的收斂速度,進一步提升算法的學(xué)習(xí)效率,本文提出基于二階價值梯度模型,并采取新的狀態(tài)采樣策略。

2.1 二階價值梯度模型

VaGraM方法基于一個前提,即模型預(yù)測的下一個時刻的狀態(tài)和真實環(huán)境的下一個時刻狀態(tài)s′接近,使用一階泰勒展開公式?,F(xiàn)使用二階泰勒展開公式,寫成向量的形式,如下:

f(x)≈f(x0)+f(x0)(x-x0)+12(x-x0)TH(x0)(x-x0)(7)

其中:H(x)為海森矩陣。令s=x,s′=x0,V(s)=f(x)得到

V^s′(s)≈V(s′)+(sV(s)|s′)T(s-s′)+12(s-s′)TH(s′)(s-s′)(8)

其中:s是狀態(tài)向量;V^s′表示圍繞參考點s′展開的值函數(shù)的二階泰勒展開。那么,新的損失函數(shù)可以表示為

loss=∑i((sV(s)|s′i)T(fθ(si,ai)-s′i)+12(fθ(si,ai)-si)TH(s′i)(fθ(si,ai)-si))2(9)

改進的損失函數(shù),即式(9)與VaGraM的損失函數(shù)相比,VaGraM方法采用一階泰勒展開,僅考慮價值函數(shù)在給定點的一階梯度信息,因此只能線性近似;而改進后的損失函數(shù)通過引入二階泰勒展開,考慮了價值函數(shù)在給定點的二階梯度信息,能夠提供更準(zhǔn)確的函數(shù)逼近,尤其當(dāng)狀態(tài)空間S是高維度時(在復(fù)雜工業(yè)過程控制場景下,觀測到的狀態(tài)空間往往是高維度空間),這種更精確的函數(shù)逼近能力在基于模型的強化學(xué)習(xí)中對于準(zhǔn)確環(huán)境建模至關(guān)重要。在基于強化學(xué)習(xí)的工業(yè)過程控制中,真實環(huán)境中常常存在噪聲和不確定性,當(dāng)噪聲或不確定性引起環(huán)境動態(tài)發(fā)生劇烈變化時,一階泰勒展開表現(xiàn)較差,因為它只能提供線性的估計,無法近似更復(fù)雜的價值函數(shù)(欠擬合);相比之下,二階泰勒展開考慮了價值函數(shù)的二階梯度信息,能夠更好地適應(yīng)噪聲和不確定性,從而得到更魯棒的環(huán)境模型。

在實際的深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練時,如果直接計算海森,會帶來不必要的復(fù)雜性。這里采用海森矩陣的快速乘法[19],只需要O(W)次操作就可以直接算出xTH,并且能夠快速進行反向傳播,大大加快了深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度。

2.2 狀態(tài)采樣策略

為了更好地利用環(huán)境模型,受到Goyal等人[20]的啟發(fā),本文希望更多地從高價值的狀態(tài)而不是隨機選擇的狀態(tài)作為起點,利用環(huán)境模型展開推演。如此,智能體可以更大幾率地學(xué)習(xí)快速到達高價值狀態(tài)的策略;同時,為了兼顧智能體也能學(xué)習(xí)低價值狀態(tài)下的策略,本文采用Boltzmann概率分布[21]:

p(s)∝eβV(s)(10)

其中:β是控制高價值狀態(tài)比例的超參數(shù);V(s)是通過智能體的價值網(wǎng)絡(luò)對狀態(tài)價值的估計值。

2.3 算法流程

結(jié)合二階價值梯度模型和狀態(tài)采樣策略,本文提出的基于二階價值梯度模型的強化學(xué)習(xí)算法整體流程如算法2所示。

算法2 基于二階價值梯度模型的強化學(xué)習(xí)

輸入:智能體策略π的初始網(wǎng)絡(luò),價值函數(shù)vψ的初始網(wǎng)絡(luò),智能體交互的真實環(huán)境,環(huán)境模型pθ的初始網(wǎng)絡(luò)。

輸出:學(xué)習(xí)到的智能體策略π*網(wǎng)絡(luò)。

a)初始化真實環(huán)境數(shù)據(jù)集合Denv、模型數(shù)據(jù)集合Dmod

b)循環(huán)N步 //N為訓(xùn)練輪數(shù),超參數(shù)

c) 循環(huán)

d) 從環(huán)境數(shù)據(jù)集合Denv中取一批次訓(xùn)練數(shù)據(jù)(s,a,r,s′),通過式(9)計算環(huán)境模型的損失函數(shù)值lossvψ

e) 更新環(huán)境模型的網(wǎng)絡(luò)pθ參數(shù):θ←θ-αdlossvψdθ

f) 直到pθ收斂

g) 循環(huán)時間步T次 //T為智能體與真實環(huán)境交互回合數(shù)

h) 根據(jù)策略πφ與環(huán)境交互,并將交互的軌跡添加到Denv中

i) 循環(huán)E步 /*E為模型推演次數(shù),即智能體與模擬環(huán)境交互回合數(shù)*/

j) 從Denv中根據(jù)式(10)的概率分布,隨機采樣一個狀態(tài)st

k) 以st為初始狀態(tài),在模型中使用策略π進行k步的推演,并將生產(chǎn)的軌跡添加到Dmod中

l) 循環(huán)結(jié)束

m) 循環(huán)

n) 基于模型數(shù)據(jù)Dmod和真實環(huán)境數(shù)據(jù)Denv的并集,使用SAC算法來更新策略參數(shù)π,同時更新價值網(wǎng)絡(luò)vψ

o) 直到策略參數(shù)π收斂

p) 循環(huán)結(jié)束

q) 結(jié)束循環(huán)

算法2的步驟c)~ f)是改進的二階價值梯度模型的訓(xùn)練過程,步驟j)是基于Boltzmann概率分布的采樣方法。整個算法的框架是基于MBPO算法,步驟i)~l)是MBPO算法的短分支推演[12],比如參數(shù)k可以取值1~5,這樣做可以使模型的累積誤差不至于過大,從而保證最后的采樣效率和策略表現(xiàn),如圖2所示。

3 應(yīng)用實例研究

為了充分驗證基于二階價值梯度模型強化學(xué)習(xí)的有效性,本文選擇來自O(shè)penAI Gym[22]的公共強化學(xué)習(xí)實驗環(huán)境以及兩個工業(yè)場景的仿真環(huán)境進行實驗。

3.1 公共強化學(xué)習(xí)實驗環(huán)境

OpenAI Gym是一個用于開發(fā)和比較強化學(xué)習(xí)算法的公共的開源工具包。它提供了一系列標(biāo)準(zhǔn)化的環(huán)境,供研究人員和開發(fā)者測試和評估強化學(xué)習(xí)算法的性能。OpenAI Gym[22]提供統(tǒng)一的接口,使得不同的強化學(xué)習(xí)算法可以在相同的環(huán)境下進行比較。

本文從OpenAI Gym中選取3個MuJoCo[23]實驗環(huán)境,分別是CarPole、InvertedPendulum和Hopper。其中:CarPole是一個經(jīng)典的控制實驗環(huán)境,模擬小車上的桿子,任務(wù)目標(biāo)是通過控制小車的水平位置使得桿子保持平衡并防止倒下;InvertedPendulum(倒立擺)也是一個經(jīng)典的控制實驗環(huán)境,模擬了一個倒立的擺桿,擺桿通過一個關(guān)節(jié)與支撐物相連,任務(wù)目標(biāo)是通過控制關(guān)節(jié)的力矩使得擺桿保持垂直和平衡;Hopper模擬了一個單腿跳躍機器人,用于測試強化學(xué)習(xí)算法在控制單腿機器人上的表現(xiàn)。CarPole、InvertedPendulum和Hopper的環(huán)境參數(shù)如表1前3行所示。

3.2 工業(yè)場景仿真環(huán)境

3.2.1 青霉素生產(chǎn)仿真環(huán)境

在適宜的培養(yǎng)基、pH值、溫度和通氣攪拌等發(fā)酵條件下,青霉素菌種進行生長和合成青霉素的代謝活動。青霉素仿真過程是通過模擬一系列步驟來模擬青霉素的發(fā)酵過程[24]。為了實現(xiàn)這一過程,使用了多種設(shè)備和工具,包括發(fā)酵罐、冷水調(diào)節(jié)器、熱水調(diào)節(jié)器、攪拌器和酸堿液調(diào)節(jié)器。圖3展示了青霉素生產(chǎn)發(fā)酵的整體流程[25]。

青霉素發(fā)酵過程是一個非線性、多輸入和強耦合的過程,涉及到9個初始變量和7個過程變量。在青霉素合成過程中,最佳溫度為298 K,最佳pH值為6.5~6.9。本文選擇青霉素合成期作為實驗背景,并以溫度控制為實驗內(nèi)容。為了進行青霉素生產(chǎn)仿真,本文采用了基于MATLAB/Simulink環(huán)境的仿真平臺[26],并將其轉(zhuǎn)換為Python語言的Gym框架下的青霉素生產(chǎn)仿真環(huán)境。

建立青霉素生產(chǎn)仿真過程的MDP模型如下:

a)狀態(tài)空間S。在確保pH穩(wěn)定控制的條件下,考慮到生化反應(yīng)中各個狀態(tài)值之間的緊密關(guān)系和密切相關(guān)性,選擇了當(dāng)前時刻的氧氣濃度、菌體濃度、青霉素濃度(單位為g/L)、培養(yǎng)基體積(單位為L)、二氧化碳濃度、發(fā)酵器反映溫度以及溫度差七個變量作為構(gòu)成狀態(tài)空間的重要參數(shù)。這些參數(shù)的選擇是基于它們在青霉素生產(chǎn)過程中的關(guān)鍵作用,并且它們的變化可以直接反映出發(fā)酵過程中的動態(tài)變化和效果。

b)動作空間A?;趯嶋H控制原則的考慮,選取冷水值作為實際控制過程中的被控變量,并將其作為主要的控制動作。這樣的選擇是基于對系統(tǒng)穩(wěn)定性和性能優(yōu)化的追求,同時也考慮到冷水值在控制過程中的重要作用。

c)狀態(tài)轉(zhuǎn)移概率P。假設(shè)在青霉素生產(chǎn)仿真過程中,狀態(tài)轉(zhuǎn)移概率是固定且未知的。

d)獎勵函數(shù)r??刂频哪繕?biāo)是將溫度保持在297.5 K。因此,獎勵函數(shù)如下:

reward=50 if |err|<σ1100if σ1≤|err|<σ2-errif σ2≤|err|<σ3-1000if |err|≥σ3(11)

其中:err是當(dāng)前溫度與297.5 K的差值;σ1、σ2、σ3是溫度差的閾值。

e)折扣因子γ。實驗中折扣因子保持不變,γ=0.99。

3.2.2 某食品加工制造仿真環(huán)境

某食品加工制造的控制是根據(jù)出口含水率的波動實時調(diào)整運行指標(biāo)中的動作,以適應(yīng)不同的工況條件[27, 28]。具體的過程是,原料在滾筒的軸向傾角作用下進入系統(tǒng),滾筒的旋轉(zhuǎn)帶動原料不斷翻滾、松散攪拌,并持續(xù)向出料端滾動。在蒸汽的作用下,使用雙介質(zhì)噴嘴進行增濕水的霧化噴射,以促進原料均勻吸收水分。圖4展示了完整的工藝流程[27]。

選取某品牌食品加工制造過程作為驗證環(huán)境,在實際控制過程中,加水量作為控制動作被選為受控變量。原料中的含水率是控制干燥過程的關(guān)鍵指標(biāo),18.5%是控制目標(biāo)。

建立某食品加工制造仿真過程的MDP模型如下:

a)狀態(tài)空間S。采用過去5個時間步的出口含水率的5個變量作為構(gòu)成狀態(tài)空間的重要參數(shù)。

b)動作空間A。因為工藝要求,在獲取5個時間步的出口含水率后,加水實際值作為控制動作。

c)狀態(tài)轉(zhuǎn)移概率P。假設(shè)在某食品加工制造仿真過程中,狀態(tài)轉(zhuǎn)移概率是固定且未知的。

d)獎勵函數(shù)r。針對本實驗中某個品牌的食品原料,筆者的控制目標(biāo)是含水率為一個定值,即18.5%,在合理范圍內(nèi),兩者的誤差要盡可能小。同時,為了避免因大動作調(diào)控導(dǎo)致過程振蕩,將動作值限定在[-0.2,0.2],獎勵函數(shù)為

reward=-∑5i=1abs(yi-18.5)(12)

其中:y是5個時間步的出口含水率,是5×1維的向量,即y=(y1,y2,y3,y4,y5)T。

e)折扣因子γ。實驗中折扣因子保持不變,γ=0.99。

3.3 對比方法

為了驗證基于二階價值梯度模型的強化學(xué)習(xí)方法的有效性,與四種主流的控制領(lǐng)域的方法作對比,這些方法包括預(yù)測控制方法、無模型強化學(xué)習(xí)方法、有模型強化學(xué)習(xí)方法,是近幾年比較先進的深度強化學(xué)習(xí)方法。

a)PETS概率集成(probabilistic ensembles with trajectory sampling,PETS)[29],一種經(jīng)典的模型預(yù)測控制(model predictive control,MPC)方法,它沒有顯式構(gòu)建一個策略(即一個從狀態(tài)到動作的映射函數(shù))。

b)SAC[18]是一種經(jīng)典的無模型強化學(xué)習(xí)算法。在無模型的強化學(xué)習(xí)算法中,SAC是非常高效的算法,它學(xué)習(xí)一個隨機性策略,在不少標(biāo)準(zhǔn)環(huán)境中取得了領(lǐng)先的成績。

c)MBPO[12]是深度強化學(xué)習(xí)領(lǐng)域中最重要的基于模型的強化學(xué)習(xí)算法之一,它已經(jīng)成為基于模型的強化學(xué)習(xí)算法的基本框架。

d)VaGraM[16]是一種結(jié)合了狀態(tài)價值函數(shù)梯度的基于模型的強化學(xué)習(xí)。

上述方法中,PETS是傳統(tǒng)的基于模型的預(yù)測控制方法,SAC是無模型強化學(xué)習(xí)方法的代表,MBPO是基于模型的強化學(xué)習(xí)方法的代表,以VaGraM為代表的方法改進了MBPO方法的模型損失函數(shù)。選擇這些方法進行對比,可以充分驗證基于二階價值梯度模型的強化學(xué)習(xí)方法的有效性。本文的所有實驗、所有對比方法的超參數(shù)都根據(jù)原論文的建議調(diào)整至最優(yōu)。

同時,本文采用累積獎勵、均方誤差(mean squared error, MSE)、平均絕對誤差(mean absolute error, MAE)、平均絕對百分比誤差(mean absolute percentage error,MAPE)、均方根誤差(root mean squared error,RMSE)作為評價指標(biāo)。

3.4 公共強化學(xué)習(xí)實驗環(huán)境對比實驗

在公共強化學(xué)習(xí)實驗環(huán)境中,將基于二階價值梯度模型的強化學(xué)習(xí)方法和上述四種方法進行實驗,得到實驗結(jié)果并進行比較,結(jié)果如圖5~7所示,分別對應(yīng)CarPole、InvertedPendulum和Hopper三個實驗環(huán)境。三個實驗環(huán)境的學(xué)習(xí)曲線顯示,與其他算法相比,基于二階價值梯度模型的強化學(xué)習(xí)方法在達到最大獎勵值方面表現(xiàn)出快速收斂,并始終保持較高的累積獎勵曲線,波動起伏不大。這表明在學(xué)習(xí)效率方面,基于二階價值梯度模型優(yōu)于其他方法,在學(xué)習(xí)速度和漸近性能方面,優(yōu)于先前的基于模型和無模型算法。

Hopper實驗狀態(tài)空間和動作空間維度比較高,并且動作變量是連續(xù)型變量,Hopper屬于復(fù)雜控制任務(wù),比較容易區(qū)分各個算法的性能。圖7顯示,基于二階價值梯度模型的強化學(xué)習(xí)方法比VaGraM方法更加穩(wěn)定、收斂速度更快,分析原因,這是因為二階梯度方法對于曲率較大或變化較快的函數(shù),能夠表征更多的梯度信息,在同一次訓(xùn)練回合內(nèi)更新效率更高;同時由于采用了狀態(tài)采樣策略,智能體在高價值狀態(tài)時能更大概率學(xué)習(xí)到更好的控制策略。

此外,從模型預(yù)測性能上比較各個方法的性能。如表2所示,VaGraM和基于二階價值梯度模型的方法在模型誤差上明顯強于其他方法,模型的誤差減少40%以上,基于二階價值梯度模型的方法比VaGraM方法模型性能上略有提高,提高10%左右。這說明價值感知模型的損失函數(shù)在加入了狀態(tài)價值函數(shù)的信息后,要比單純使用似然損失函數(shù)更具魯棒性,尤其是模型容量不足以表達真實環(huán)境時;二階價值梯度模型相比于一階價值梯度模型,雖然收斂速度快,但是最終的模型誤差相差不是很大。

3.5 工業(yè)場景仿真環(huán)境對比實驗

為了進一步驗證基于二階價值梯度模型強化學(xué)習(xí)的有效性,本文在兩個工業(yè)場景的仿真環(huán)境下進行對比實驗,一個是青霉素生產(chǎn)仿真環(huán)境,另一個是某食品加工制造仿真環(huán)境。

3.5.1 學(xué)習(xí)曲線對比

學(xué)習(xí)曲線如圖8、9所示,從實驗結(jié)果上來看,經(jīng)典的基于模型的控制方法如PETS,雖然最終能夠達到最大的累積獎勵,但是學(xué)習(xí)效率最差、收斂速度最慢;經(jīng)典的無模型強化學(xué)習(xí)算法如SAC,由于采樣效率低,導(dǎo)致策略學(xué)習(xí)速度慢于基于模型的強化學(xué)習(xí)方法,尤其是在復(fù)雜環(huán)境,比如高維度狀態(tài)下;MBPO作為典型的基于模型的強化學(xué)習(xí)方法,學(xué)習(xí)效率低于基于價值感知模型的方法;在某食品加工制造仿真中VaGraM方法和基于二階價值梯度模型的方法比較接近,在青霉素生產(chǎn)仿真中,性能低于后者;無論是在青霉素仿真還是某食品加工制造仿真中,基于二階價值梯度模型的強化學(xué)習(xí)方法都能最快到達累積獎勵,并保持穩(wěn)定,說明該方法在VaGraM基礎(chǔ)上改進后具備更好的魯棒性。

3.5.2 模型誤差對比

訓(xùn)練結(jié)束后,利用環(huán)境模型與真實環(huán)境作對比,統(tǒng)計模型誤差,統(tǒng)計結(jié)果如表3、4所示。在青霉素生產(chǎn)仿真中,價值感知模型比MBPO誤差減少20%以上,二階價值梯度模型比VaGraM提升3%,提升效果不明顯。分析原因是,前者使用二階價值梯度,在訓(xùn)練過程中可以加快模型的收斂速度,但是不影響最終收斂后的模型誤差,兩者模型誤差接近。在某食品加工制造仿真中,價值感知模型性能提升顯著。

3.5.3 控制效果對比

在訓(xùn)練完成后,使用策略網(wǎng)絡(luò)在工業(yè)過程仿真環(huán)境中進行控制實驗。對于青霉素生產(chǎn)仿真實驗,初始發(fā)酵溫度設(shè)定為298.35 K,并使用經(jīng)過PETS、SAC、MBPO、VaGraM和基于二階價值梯度模型方法得到的策略網(wǎng)絡(luò)來分別控制冷水流量值,目標(biāo)是使青霉素發(fā)酵環(huán)境更加適宜和穩(wěn)定,溫度調(diào)整目標(biāo)是297.5 K。實驗結(jié)果如圖10所示,VaGraM方法和基于二階價值梯度模型方法首先到達297.5 K附近,并能保持穩(wěn)定,其中基于二階價值梯度模型方法在接近297.5 K后,比VaGraM更加穩(wěn)定,沒有出現(xiàn)波動。

對于某食品加工制造仿真實驗,初始含水率為18.5%,目標(biāo)設(shè)定也為18.5%,使用經(jīng)過PETS、SAC、MBPO、VaGraM和基于二階價值梯度模型方法得到的策略網(wǎng)絡(luò)來分別控制加水值。實驗結(jié)果如圖11所示,VaGraM方法和基于二階價值梯度模型方法能夠穩(wěn)定在18.5%附近,振動幅度接近,使用其他三種方法訓(xùn)練出的智能體控制效果偏差較大?;诙A價值梯度模型方法的調(diào)節(jié)粒度更加精細,相比于PETS、SAC和MBPO等經(jīng)典的強化學(xué)習(xí)方法,無論是偏差量還是整體的平穩(wěn)性都有顯著提升。以上兩個工業(yè)過程仿真實驗說明,基于二階價值梯度模型方法在工業(yè)過程控制中具備良好的控制性能。

4 結(jié)束語

針對工業(yè)控制過程的非線性、強耦合、高延時等特點,本文在基于價值梯度模型的強化學(xué)習(xí)基礎(chǔ)上,提出了基于二階價值梯度模型的方法,旨在加快環(huán)境模型訓(xùn)練的收斂速度,提高算法的學(xué)習(xí)效率。同時嘗試采用新的狀態(tài)采樣策略,以高價值的狀態(tài)作為起點,利用環(huán)境模型展開推演。

為了驗證基于二階價值梯度模型強化學(xué)習(xí)的有效性,本文選擇了OpenAI Gym公共強化學(xué)習(xí)實驗環(huán)境以及兩個工業(yè)場景的仿真環(huán)境進行實驗。實驗結(jié)果顯示,與其他算法相比,基于二階價值梯度模型的強化學(xué)習(xí)方法在達到最大獎勵值方面表現(xiàn)出快速收斂,并始終保持較高的累積獎勵的特點。兩個工業(yè)過程仿真實驗也進一步證明了該方法在工業(yè)過程控制中具備良好的控制性能。

綜上所述,基于二階價值梯度模型的強化學(xué)習(xí)方法在加快環(huán)境模型訓(xùn)練收斂速度、提高學(xué)習(xí)效率以及實現(xiàn)工業(yè)過程控制方面表現(xiàn)出了良好的性能。這些發(fā)現(xiàn)為進一步研究和應(yīng)用基于二階價值梯度模型的強化學(xué)習(xí)算法提供了有力支持。未來的工作將側(cè)重于進一步提升價值感知模型的性能,如引入注意力機制模塊等,并探索該方法在其他領(lǐng)域的應(yīng)用。

參考文獻:

[1]柴天佑, 程思宇, 李平, 等. 端邊云協(xié)同的復(fù)雜工業(yè)過程運行控制智能系統(tǒng)[J]. 控制與決策, 2023, 38(8): 2051-2062. (Chai Tianyou, Cheng Siyu, Li Ping, et al. Intelligent system for operation-al control of complex industrial process based on end-edge-cloud collaboration[J]. Control and Decision, 2023, 38(8): 2051-2062.)

[2]喬俊飛, 黃衛(wèi)民, 丁海旭, 等. 復(fù)雜工業(yè)過程特征建模方法及應(yīng)用研究[J]. 控制與決策, 2023, 38(8): 2063-2078. (Qiao Junfei, Huang Weimin, Ding Haixu, et al. Research on feature modeling method for complex industrial process and its application[J]. Control and Decision, 2023, 38(8): 2063-2078.)

[3]羅傲, 肖文彬, 周琪, 等. 基于強化學(xué)習(xí)的一類具有輸入約束非線性系統(tǒng)最優(yōu)控制[J]. 控制理論與應(yīng)用, 2022, 39(1): 154-164. (Luo Ao, Xiao Wenbin, Zhou Qi, et al. Optimal control for a class of nonlinear systems with input constraints based on reinforcement learning[J]. Control Theory & Applications, 2022, 39(1): 154-164.)

[4]張丹陽. 一種基于改進好奇心機制的深度強化學(xué)習(xí)方法及其在過程控制中的應(yīng)用[D]. 北京:北京化工大學(xué), 2023. (Zhang Danyang. A deep reinforcement learning method based on improved curiosity mechanism and its application in process control[D]. Beijing: Beijing University of Chemical Technology, 2023.)

[5]馬帥, 傅啟明, 陳建平, 等. 基于雙池DQN的HVAC無模型優(yōu)化控制方法[J]. 智能科學(xué)與技術(shù)學(xué)報, 2022, 4(3): 426-444. (Ma Shuai, Fu Qiming, Chen Jianping, et al. HVAC model-free optimal control method based on double-pools DQN[J]. Chinese Journal of Intelligent Science and Technology, 2022, 4(3): 426-444.)

[6]紀(jì)志勇, 袁逸萍, 巴智勇, 等. 基于多動作深度強化學(xué)習(xí)的紡機制造車間調(diào)度方法[J]. 計算機應(yīng)用研究, 2023, 40(11): 3247-3253. (Ji Zhiyong, Yuan Yiping, Ba Zhiyong, et al. Multi-action deep reinforcement learning based scheduling method for spinning machine manufacturing shop floor[J]. Application Research of Computers, 2023, 40(11): 3247-3253.)

[7]任安妮, 周大可, 馮錦浩, 等. 基于注意力機制的深度強化學(xué)習(xí)交通信號控制[J]. 計算機應(yīng)用研究, 2023, 40(2): 430-434. (Ren Anni, Zhou Dake, Feng Jinhao, et al. Attention mechanism based deep reinforcement learning for traffic signal control[J]. Application Research of Computers, 2023, 40(2): 430-434.)

[8]宋江帆, 李金龍. 用于連續(xù)時間中策略梯度算法的動作穩(wěn)定更新算法[J]. 計算機應(yīng)用研究, 2023, 40(10): 2928-2932,2944. (Song Jiangfan, Li Jinlong. Action stable updating algorithm for policy gradient methods in continuous time[J]. Application Research of Computers, 2023, 40(10): 2928-2932,2944.)

[9]Moerland T M, Broekens J, Plaat A, et al. Model-based reinforcement learning: a survey[J]. Foundations and Trends in Machine Learning, 2023, 16(1): 111-118.

[10]Nagabandi A, Kahn G, Fearing R S, et al. Neural network dynamics for model-based deep reinforcement learning with model-free fine-tuning[C]//Proc of IEEE International Conference on Robotics and Automation. Piscataway, NJ: IEEE Press, 2018: 7559-7566.

[11]Campbell R H, Czechowski K, Erhan D, et al. Model-based reinforcement learning for Atari[C]//Proc of International Conference on Learning Representations. 2019: 6-9.

[12]Janner M, Fu J, Zhang M, et al. When to trust your model: model-based policy optimization[C]//Proc of the 33rd International Confe-rence on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2019:12519-12530.

[13]Lai Hang, Shen Jian, Zhang Weinan, et al. Bidirectional model-based policy optimization[C]//Proc of the 37th International Conference on Machine Learning.[S.l.]: ML Research Press, 2020: 5618-5627.

[14]Shen Jian, Zhao Han, Zhang Weinan, et al. Model-based policy optimization with unsupervised model adaptation[C]//Proc of the 34th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc.,2020: 2823-2834.

[15]Farahmand A, Barreto A, Nikovski D. Value-aware loss function for model-based reinforcement learning[C]//Proc of International Conference on Artificial Intelligence and Statistics.[S.l.]: ML Research Press, 2017: 1486-1494.

[16]Voelcker C, Liao V, Garg A, et al. Value gradient weighted model-based reinforcement learning[C]//Proc of International Conference on Learning Representations. 2022.

[17]Puterman M L. Markov decision processes[M]//Simulation-Based Algorithms for Markov Decision Processes. London :Springer, 1990: 331-434.

[18]Haarnoja T, Zhou A, Abbeel P, et al. Soft actor-critic: off-policy maximum entropy deep reinforcement learning with a stochastic actor[C]//Proc of International Conference on Machine Learning.[S.l.]: ML Research Press, 2018: 1861-1870.

[19]Pearlmutter B A. Fast exact multiplication by the Hessian[J]. Neural Computation, 1994, 6(1): 147-160.

[20]Goyal A, Brakel P, Fedus W, et al. Recall traces: backtracking models for efficient reinforcement learning[C]//Proc of International Conference on Learning Representations. 2018.

[21]Zhang Nan, Ding Shifei, Zhang Jian, et al. An overview on restricted Boltzmann machines[J]. Neurocomputing, 2018, 275: 1186-1199.

[22]Palanisamy P. Hands-on intelligent agents with OpenAI Gym: your guide to developing AI agents using deep reinforcement learning[M].[S.l.]: Packt Publishing Ltd., 2018.

[23]Todorov E, Erez T, Tassa Y. MuJoCo: a physics engine for model-based control[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, NJ: IEEE Press, 2012: 5026-5033.

[24]李云龍, 唐文俊, 白成海, 等. 青霉素生產(chǎn)工藝優(yōu)化及代謝分析提高產(chǎn)量[J]. 中國抗生素雜志, 2019, 44(6): 679-686. (Li Yunlong, Tang Wenjun, Bai Chenghai, et al. Optimization of the feeding process and metabolism analysis to improve the yield of penicillin[J]. Chinese Journal of Antibiotics, 2019, 44(6): 679-686.)

[25]鄧紹斌, 朱軍, 周曉鋒, 等. 基于局部策略交互探索的深度確定性策略梯度的工業(yè)過程控制方法[J]. 計算機應(yīng)用, 2022, 42(5): 1642-1648. (Deng Shaobin, Zhu Jun, Zhou Xiaofeng, et al. Industrial process control method based on local policy interaction exploration-based deep deterministic policy gradient[J]. Journal of Computer Applications, 2022, 42(5): 1642-1648.)

[26]葉凌箭, 程江華. 基于MATLAB/Simulink的青霉素發(fā)酵過程仿真平臺[J]. 系統(tǒng)仿真學(xué)報, 2015, 27(3): 515-520. (Ye Lingjian, Cheng Jianghua. Simulator of penicillin fermentation process in MATLAB/Simulink environment[J]. Journal of System Simulation, 2015, 27(3): 515-520.)

[27]彭慧, 朱雪靖, 周曉鋒, 等. 基于TVA-TCN的制造過程關(guān)鍵參數(shù)多步預(yù)測方法[J]. 控制與決策, 2022, 37(12): 3321-3328. (Peng Hui, Zhu Xuejing, Zhou Xiaofeng, et al. Multi-step prediction method for key parameters of manufacturing process based on TVA-TCN[J]. Control and Decision, 2022, 37(12): 3321-3328.)

[28]Bi Suhuan, Zhang Bin, Mu Liangliang, et al. Optimization of tobacco drying process control based on reinforcement learning[J]. Drying Technology, 2020, 38(10): 1291-1299.

[29]Chua K, Calandra R, McAllister R, et al. Deep reinforcement lear-ning in a handful of trials using probabilistic dynamics models[C]//Proc of the 32nd International Conference onNeural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2018:4759-4770.

主站蜘蛛池模板: 国产成人av一区二区三区| 国产尤物视频网址导航| 内射人妻无码色AV天堂| 亚洲免费黄色网| 99热这里只有精品久久免费| 免费人成黄页在线观看国产| 亚洲精品亚洲人成在线| 中字无码av在线电影| 日本黄色不卡视频| 午夜福利无码一区二区| 亚洲成人一区在线| 天天摸夜夜操| 国产亚洲高清在线精品99| 亚洲成肉网| av一区二区无码在线| 91啪在线| 在线精品自拍| 在线精品视频成人网| 国产激爽大片高清在线观看| 成人在线综合| 亚洲欧美日韩成人高清在线一区| 色吊丝av中文字幕| 国产激情无码一区二区免费| 日本黄色a视频| 麻豆国产原创视频在线播放| 日本免费一区视频| 国产成人高清亚洲一区久久| 亚洲成aⅴ人在线观看| 午夜日韩久久影院| 91视频精品| 亚洲h视频在线| 欧美不卡二区| 91久久大香线蕉| 直接黄91麻豆网站| 国产欧美精品午夜在线播放| 国产高清在线精品一区二区三区| 国产sm重味一区二区三区| 日本人妻一区二区三区不卡影院| 无码内射中文字幕岛国片| 91区国产福利在线观看午夜| 老司机午夜精品视频你懂的| 亚洲中文字幕久久精品无码一区| 日本午夜视频在线观看| 精品国产91爱| 欧美亚洲欧美区| 中文字幕人妻无码系列第三区| 97青草最新免费精品视频| 亚洲欧洲日韩综合色天使| 欧美精品一区二区三区中文字幕| 亚洲,国产,日韩,综合一区 | 真人高潮娇喘嗯啊在线观看| 91欧美亚洲国产五月天| 国产网站在线看| 亚洲免费毛片| 色窝窝免费一区二区三区| 亚洲资源站av无码网址| 欧美成人亚洲综合精品欧美激情| 香蕉视频在线观看www| 欧洲高清无码在线| 最新国语自产精品视频在| 四虎影视库国产精品一区| 九九热在线视频| 日韩欧美中文在线| 91丝袜美腿高跟国产极品老师| 露脸国产精品自产在线播| 国产福利一区二区在线观看| 蝌蚪国产精品视频第一页| 国产99视频精品免费视频7| 成人午夜视频网站| 亚洲激情区| 永久免费无码成人网站| 国产成人亚洲精品色欲AV| 亚洲精品免费网站| 拍国产真实乱人偷精品| 乱人伦99久久| 国产欧美精品午夜在线播放| 伊人色天堂| 午夜精品福利影院| 国产网站黄| 久久中文字幕2021精品| 蜜桃臀无码内射一区二区三区| 婷婷亚洲最大|