999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進強化學習的PID參數整定原理及應用

2014-03-05 08:23:27高瑞娟吳梅
現代電子技術 2014年4期
關鍵詞:動作

高瑞娟+吳梅

摘 要: 控制系統的響應特性取決于控制律參數,經典的 PID 方法難以實現參數的自整定。強化學習能夠通過系統自身和環境的交互實現參數的自動調整,但是在控制律參數需要頻繁調整的應用場合,常規的強化學習方法無法滿足實時性要求,而且容易陷入局部收斂。對傳統的強化學習方法加以改進后,加快了在線學習速度,提高了強化學習算法的尋優能力。仿真結果表明,該方法可以在一定范圍內快速求得全局最優解,提高控制系統的自適應性,為控制系統參數的自整定提供了依據。

關鍵字: PID; 參數整定; 強化學習; 控制系統

中圖分類號: TN911?34 文獻標識碼: A 文章編號: 1004?373X(2014)04?0001?04

Principle and application of PID parameter tuning based on improved reinforcement learning

GAO Rui?juan, WU Mei

(College of Automation, Northwestern Polytechnical University, Xian 710129, China)

Abstract: The response characteristics of control system depend on the control law parameter.The classic PID method is difficult to achieve the parameter self?tuning.Through the interaction of system itself and the environment, parameters can be adjusted automatically by reinforcement learning.However, in the application occasions where the control law parameters requires to be adjusted frequently, the conventional reinforcement learning methods cannot meet the real?time requirements, and is easy to fall into local convergence.Based on the traditional reinforcement learning methods, an improvement method which can accelerate the learning speed and improve the optimizing ability of reinforcement learning algorithm is proposed.The simulation results show that this method can get global optimal solution quickly and improve the adaptivity of the control system in a certain range.It provided a basis for the improvement of control systems parameter self?tuning.

Keywords: PID; parameter tuning; reinforcement learning; control system

0 引 言

在現代技術高速發展的今天,反饋的概念已被廣泛應用于自動控制理論中。測量,比較,執行為反饋概念的三個基本要素。通常來說, 輸入量先與測量量做比較,得到了系統誤差后,相應的指標將通過這個誤差來加以糾正和控制 。在過去的幾十年里,反饋技術被廣泛運用于實踐中,其中,使用比例積分微分控制技術的發展是最為突出的。如今,在許多高級控制領域里,到處活躍著 PID控制的身影[1]。

一般的控制理論存在諸多問題(如理論難以實現,或被控對象參數不容易得到,或得不到精確數學模型),PID作為工業控制的主要技術,它可以一一解決,這與其優良的性能是分不開的。它的結構簡單,魯棒性好和工作可靠性高且調整方便。因此,如何高效地調整和優化PID的控制參數成了人們競相研究的問題。目前,常用的PID控制算法有理論計算和工程整定兩類,其中,工程整定主要有:臨界比例法,反應曲線法和衰減法等。然而,在復雜控制系統設計中,由于參數優化困難,PID的效果卻有待提高。因此,越來越多的人把目光轉向了自適應控制。如神經網絡,模糊,進化等[1?2]。

本文在分析了各個研究成果的基礎上,針對基于強化學習的PID控制算法的收斂速度快,實時性好等優點,提出了一種改進的強化算法的 PID 參數整定算法。通過改進強化學習算法對 PID 參數進行整定與尋優,基于控制系統的性能具體要求,對各項動態指標進行了適當的加權,采用改進強化學習算法對PID的參數進行了全局多目標尋優。其與傳統控制算法相比,在尋優時間和參數調整上都有了很大的提高。

1 PID控制器

典型PID控制器原理圖如圖1所示[2?3]。

圖1 PID控制系統原理圖

圖中控制系統由控制器和被控對象及反饋回路組成。

PID控制器根據給定輸入值r(t)和實際輸出值y(t)之間的偏差[e(t)=r(t)-y(t)],將其按照比例,積分,微分的形式,通過線性組合的方法構成控制量,然后對被控對象進行控制,控制規律為[3]:

[u(t)=KPe(t)+1KI0Ietdt+KDde(t)dt] (1)

式中:[KP]是比例系數;[KI]是積分時間常數;[KD]是微分時間常數[2]。

在本文中,首先,串聯PID 控制器和被控對象將系統的型別提高了。其次,由于附帶兩個負實部的零點,使得系統的穩定性和優越性有了很大的提高。詳細原理為:積分的存在,導致 PID 控制系統消除誤差;微分存在,使得 PID 控制系統的動態性能指標超調量縮小了;從頻域的角度分析問題,由于低頻段和高頻段分別有積分和微分的作用亦滿足如上表述的內容。

2 強化學習

強化學習(Reinforcement Learning,RL)是從統計學、心理學等相關學科發展而來的[4],為人工智能領域一個古老又嶄新的課題。最早可以追溯到巴普洛夫的條件反射試驗。早在1911年,Tomdlike就提出了效果律,大體原理為:哪種行為會被動物“記住”,會與刺激建立聯系,取決于動物行為產生的效果,包括搜索和記憶兩層含義。1954年,Minsky將該知識運用于試錯學習。同年,Clark和Farley亦在此方向上展開過研究,他們建立了隨機學習模型。1957年,Bellman提出了動態規劃理論及著名的馬爾科夫決策過程。 直到20世紀八九十年代,該技術才分別在人工智能和自動控制等領域中得到廣泛應用[5?6]。

在強化學習是一個不斷地“試探”?“評價”過程[2]。系統中,根據教師信號所提供的訓練信息,學習方法有如下三種分類:監督學習(Supervised Learning、無監督學習(Unsupervised Learning)和強化學習(Reinforcement Learning)[2,7]。

強化學習的基本框架如圖2所示[2,8]。

圖2 強化學習原理圖

強化學習與前兩種算法不同,環境產生的信號作為學習系統動作的評價指標,但是該信號不能立即反饋給系統如何才能產生正確動作。強化學習主要由RL兩部分組成:World(工作環境)和Agent(智能體)。智能體Agent又可以分成三個部分: P(策略單元)、I(輸入單元)和R(強化單元)。首先,輸入單元感知環境狀態后,采取一個動作作用于環境,環境給出一個強化信號,然后將它轉化為智能體的輸入;接著,強化單元將評價智能體所采取的動作[a(t)],并將其反饋給強化學習系統,策略單元更新Agent當前已存儲的知識的,系統選擇下一個動作,其選擇原則是獎勵值最大 [2,6]。

智能體Agent與環境W的交互時,在每個時刻t會發生如下事件:

(1) 智能體Agent感知時刻t的環境的狀態[s(t)];

(2) 根據當前的狀態[s(t)]和強化信息P,系統選擇然后執行某一個動作[a(t)],該動作[a(t)]作用于當前的環境,環境發生相應的變化;

(3)當前環境狀態變換為新的狀態,即[s(t)→s(t+1)],系統反饋及時的獎賞或懲罰回報函數[r(t)];

(4) 回報函數[r(t)]被智能體Agent接收,現有的策略P將發生變化,即[t←t+1];

(5) 系統返回第一步,繼續重復上述步驟,在取得滿意的目標狀態時,該循環停止[2,6]。

其中,及時回報函數[r(t)]由環境狀態W和智能體Agent的執行動作[a(t)]共同決定。動作[a(t)∈A],A即為智能體Agent的所有動作的集合[5,8]。

算法里,首先要考慮選擇適當的動作[a(t)],使得值函數得到最大值,從而能夠得到獎賞,這個過程即為Exploitation;同時,為了得到最優策略,智能體Agent要盡量選擇不同的動作而且智能體Agent還要盡可能選擇不同的動作[a(t)],即Exploration。對于在線學習來說,Exploration是非常重要的,探索的方法主要有:直接探索和間接探索兩種;間接探索的方法最常見的策略為greedy策略,通過為每個可能被選擇的動作[a(t)]賦予其對應的執行概率[?],然后嘗試完成所有可能的動作。即智能體Agent一直選擇有最高評價函數的動作[a(t)],目的是為了獲取最大及時回報函數。

2.1 強化學習算法

強化學習基本算法有三種:動態規劃算法、蒙特卡羅算法和時間差分算法。強化學習是一種無模型的增強學習形式,它是Watkins等人于1989年提出的,是從動態規劃算法發展而來,把Q?學習看成一個增量式動態規劃,用一步方式來決定策略[9]。

先假定環境W是一個有限狀態的離散馬爾科夫過程。并且,強化學習系統每選取一個動作[a(t)]都是在單步中進行的,環境一旦接受該動作[a(t)]后便發生狀態轉移,然后給出評價函數[r]。環境狀態發生轉換過程時,概率公式如下:

[prob[s=st+1st,at]=P[st,at,st+1]] (2)

強化學習系統必須決定一個最優策略[π],從而使得獎勵值函數達到最大。在策略[π]的作用下,狀態[st]的值如下:

[Vπ(st)=r(πst)+γP[st,at,st+1]Vπ(st+1)] (3)

動態規劃至少得保證有一個策略[π?],使得[Vπ?(st)=max{r(πst)+γP[st,at,st+1]Vπ*(st)}] (4)

Q?學習核心的思想是不估計環境模型,直接優化可迭代計算的Q函數,Watkin等人定義此Q函數為在狀態[st]時執行動作[at],并且此后按最優動作序列執行時,累計折扣得到的強化值,如下:

[Q(st,at)=rt+γmaxa∈A{Q(st+1,at)at∈A}] (5)

Watkin有效地證明了Q?學習在特定條件下的收斂性。Q?學習可通過神經網絡來實現,其中,每一個網絡的輸出對應于一個動作的Q值,即[Q(s,ai)]。實現Q?學習的關鍵是學習算法的確定。

根據Q函數的定義:

[Q(st+1,at)=rt+γmaxa∈A{Q(st+1,at)}] (6)

只有達到最優策略時式(6)才能成立。

在學習過程中,誤差信號為:

[ΔQ=rt+γmaxa∈A{Q(st+1,at)-Q(st,a)}] (7) 式中[Q(st+1,at)]表示下一狀態所對應的Q值[2,9?10]。

2.2 改進的強化學習算法

在上述強化學習的原理上,為了提高系統自適應度,從而推廣該算法的使用范圍,本文采用隨機辦法產生數組,并對動作[a(t)]進行尋優,其算法流程圖見圖3。

圖3 算法流程圖

由于雙曲正切函數在[-1,1]范圍內有良好的性能,相應的回報函數設定為:

[r(t)=tanh Q(t)10] (8)

對于PID參數取值優劣的評價,通??赡闷罘e分指標來衡量。常用的偏差積分指標有如下三個:

[IE=0∞e(t)dt] (9)

[ISE=0∞e2(t)dt] (10)

[IAE=0∞|e(t)|dt] (11)

估計不同的過渡過程需要選擇不同的積分指標函數,如果著重于抑制過渡過程中的大偏差,則通常選用ISE準則,而懲罰過渡時間過長的問題時則應選擇ITAE準則[11]。

綜合考慮以上因素,本文選擇了IE與IAE的線性組合作為評價函數:

[V(t)=0∞e(t)dt+0∞|e(t)|dt10] (12)

該算法實現了在其初始運行階段(最初較大時)進行均勻搜索,而在其后期運行階段(較接近于0時)搜索范圍逐漸減小。滿足了初期大范圍,后期小范圍搜索的要求,有利于收斂于全局最優值和提高搜索精度。

改進的強化學習PID調參,在線學習速度加快,從而提高了系統的快速性,且動態性能指標得到了優化。

3 仿真驗證

本文利用某型飛艇進行仿真,飛艇初始狀態為水平平飛,高度H=2 000 m,速度V=20 m/s,只研究縱向,配平線性化后得到飛艇縱向的線性化方程為:

[x=Ax+Buy=Cx] (13)

式中:[x=[V,α,q,θ]],分別代表速度、迎角、俯仰角速度、俯仰角。

給定俯仰角跟蹤指令[θg=10°],并且考慮縱向風干擾,為簡化問題,假設風干擾通過以下方式引入飛艇系統:

[v=v+vwq=q+qwa=a+aw] (14) 式中:[vw,qw,aw]是在風對飛艇狀態的量化影響。

對于改進強化學習算法,設置仿真參數如下:[KP]取值范圍為[0,50];[KI]取值范圍為[0,0.5];[KD]取值范圍為[0,0.5];迭代次數選為100,系數[γ]選為0.9。

分別用傳統離線設計好的PID控制器和改進后基于強化學習在線調參的PID控制器進行控制[10]。

仿真結果如圖4所示。

圖4 仿真結果圖

從仿真結果可以看出,傳統離線設計好的控制器,在有風干擾的條件下,難以實現俯仰跟蹤,而基于改進強化學習的控制器,在風干擾條件下,通過對參數的在線調整,實現了俯仰指令的跟蹤,各項指標在可以接受的范圍內。

4 結 語

本文在分析各個研究成果的基礎上,根據 PID 控制器具有多目標優化的特點,提出了改進的強化學習的PID控制器參數整定算法,選擇了自適應度大的個體所對應的控制參數作為采樣時間下的參數,對 PID 的參數進行多目標尋優,通過比較傳統強化學習算法,收斂速度更快,實時性更好,Matlab上的仿真結果表明,在 PID 參數的尋優過程中,該改進后的強化學習算法具有更強的尋優能力。因此為PID控制系統提供了一種新的優化方法。

參考文獻

[1] 張巍,盧宇清.基于在線自適應遺傳算法的 PID參數整定和優化[J].計算機仿真,2011(12):154?157.

[2] 朱衛華.基于強化學習PID控制器的柴油機調速仿真研究[D].哈爾濱:哈爾濱工程大學,2011.

[3] 陳丹,方康玲,陳喬禮.遺傳算法在 PID 參數優化中的應用[J].微計算機信息,2007,23(3):35?36.

[4] 戰忠麗,王強,陳顯亭.強化學習的模型,算法及應用[J].電子科技,2011(1):47?49.

[5] 王醒策,張汝波,顧國昌.基于強化學習的多機器人編隊方法研究[J].計算機工程,2002,28(6):15?16.

[6] 姜沛然.基于模糊理論和強化學習的自主式水下機器人運動規劃技術[D].哈爾濱:哈爾濱工程大學,2005.

[7] 付成偉.基于分層強化學習的移動機器人路徑規劃[D].哈爾濱:哈爾濱工程大學,2008.

[8] 徐莉.Q?learning 研究及其在AUV局部路徑規劃中的應用[D].哈爾濱:哈爾濱工程大學,2004.

[9] 魏英姿,趙明揚.強化學習算法中啟發式回報函數的設計及其收斂性分析[J].計算機科學,2005(3):190?193.

[10] 張汝波,顧國昌,劉照德,等.強化學習理論,算法及應用[J].控制理論與應用,2000,17(5):637?640.

[11] 田豐,邊婷婷.基于自適應遺傳算法的交通信號配時優化[J].計算機仿真,2010(6):305?308.

Watkin有效地證明了Q?學習在特定條件下的收斂性。Q?學習可通過神經網絡來實現,其中,每一個網絡的輸出對應于一個動作的Q值,即[Q(s,ai)]。實現Q?學習的關鍵是學習算法的確定。

根據Q函數的定義:

[Q(st+1,at)=rt+γmaxa∈A{Q(st+1,at)}] (6)

只有達到最優策略時式(6)才能成立。

在學習過程中,誤差信號為:

[ΔQ=rt+γmaxa∈A{Q(st+1,at)-Q(st,a)}] (7) 式中[Q(st+1,at)]表示下一狀態所對應的Q值[2,9?10]。

2.2 改進的強化學習算法

在上述強化學習的原理上,為了提高系統自適應度,從而推廣該算法的使用范圍,本文采用隨機辦法產生數組,并對動作[a(t)]進行尋優,其算法流程圖見圖3。

圖3 算法流程圖

由于雙曲正切函數在[-1,1]范圍內有良好的性能,相應的回報函數設定為:

[r(t)=tanh Q(t)10] (8)

對于PID參數取值優劣的評價,通常可拿偏差積分指標來衡量。常用的偏差積分指標有如下三個:

[IE=0∞e(t)dt] (9)

[ISE=0∞e2(t)dt] (10)

[IAE=0∞|e(t)|dt] (11)

估計不同的過渡過程需要選擇不同的積分指標函數,如果著重于抑制過渡過程中的大偏差,則通常選用ISE準則,而懲罰過渡時間過長的問題時則應選擇ITAE準則[11]。

綜合考慮以上因素,本文選擇了IE與IAE的線性組合作為評價函數:

[V(t)=0∞e(t)dt+0∞|e(t)|dt10] (12)

該算法實現了在其初始運行階段(最初較大時)進行均勻搜索,而在其后期運行階段(較接近于0時)搜索范圍逐漸減小。滿足了初期大范圍,后期小范圍搜索的要求,有利于收斂于全局最優值和提高搜索精度。

改進的強化學習PID調參,在線學習速度加快,從而提高了系統的快速性,且動態性能指標得到了優化。

3 仿真驗證

本文利用某型飛艇進行仿真,飛艇初始狀態為水平平飛,高度H=2 000 m,速度V=20 m/s,只研究縱向,配平線性化后得到飛艇縱向的線性化方程為:

[x=Ax+Buy=Cx] (13)

式中:[x=[V,α,q,θ]],分別代表速度、迎角、俯仰角速度、俯仰角。

給定俯仰角跟蹤指令[θg=10°],并且考慮縱向風干擾,為簡化問題,假設風干擾通過以下方式引入飛艇系統:

[v=v+vwq=q+qwa=a+aw] (14) 式中:[vw,qw,aw]是在風對飛艇狀態的量化影響。

對于改進強化學習算法,設置仿真參數如下:[KP]取值范圍為[0,50];[KI]取值范圍為[0,0.5];[KD]取值范圍為[0,0.5];迭代次數選為100,系數[γ]選為0.9。

分別用傳統離線設計好的PID控制器和改進后基于強化學習在線調參的PID控制器進行控制[10]。

仿真結果如圖4所示。

圖4 仿真結果圖

從仿真結果可以看出,傳統離線設計好的控制器,在有風干擾的條件下,難以實現俯仰跟蹤,而基于改進強化學習的控制器,在風干擾條件下,通過對參數的在線調整,實現了俯仰指令的跟蹤,各項指標在可以接受的范圍內。

4 結 語

本文在分析各個研究成果的基礎上,根據 PID 控制器具有多目標優化的特點,提出了改進的強化學習的PID控制器參數整定算法,選擇了自適應度大的個體所對應的控制參數作為采樣時間下的參數,對 PID 的參數進行多目標尋優,通過比較傳統強化學習算法,收斂速度更快,實時性更好,Matlab上的仿真結果表明,在 PID 參數的尋優過程中,該改進后的強化學習算法具有更強的尋優能力。因此為PID控制系統提供了一種新的優化方法。

參考文獻

[1] 張巍,盧宇清.基于在線自適應遺傳算法的 PID參數整定和優化[J].計算機仿真,2011(12):154?157.

[2] 朱衛華.基于強化學習PID控制器的柴油機調速仿真研究[D].哈爾濱:哈爾濱工程大學,2011.

[3] 陳丹,方康玲,陳喬禮.遺傳算法在 PID 參數優化中的應用[J].微計算機信息,2007,23(3):35?36.

[4] 戰忠麗,王強,陳顯亭.強化學習的模型,算法及應用[J].電子科技,2011(1):47?49.

[5] 王醒策,張汝波,顧國昌.基于強化學習的多機器人編隊方法研究[J].計算機工程,2002,28(6):15?16.

[6] 姜沛然.基于模糊理論和強化學習的自主式水下機器人運動規劃技術[D].哈爾濱:哈爾濱工程大學,2005.

[7] 付成偉.基于分層強化學習的移動機器人路徑規劃[D].哈爾濱:哈爾濱工程大學,2008.

[8] 徐莉.Q?learning 研究及其在AUV局部路徑規劃中的應用[D].哈爾濱:哈爾濱工程大學,2004.

[9] 魏英姿,趙明揚.強化學習算法中啟發式回報函數的設計及其收斂性分析[J].計算機科學,2005(3):190?193.

[10] 張汝波,顧國昌,劉照德,等.強化學習理論,算法及應用[J].控制理論與應用,2000,17(5):637?640.

[11] 田豐,邊婷婷.基于自適應遺傳算法的交通信號配時優化[J].計算機仿真,2010(6):305?308.

Watkin有效地證明了Q?學習在特定條件下的收斂性。Q?學習可通過神經網絡來實現,其中,每一個網絡的輸出對應于一個動作的Q值,即[Q(s,ai)]。實現Q?學習的關鍵是學習算法的確定。

根據Q函數的定義:

[Q(st+1,at)=rt+γmaxa∈A{Q(st+1,at)}] (6)

只有達到最優策略時式(6)才能成立。

在學習過程中,誤差信號為:

[ΔQ=rt+γmaxa∈A{Q(st+1,at)-Q(st,a)}] (7) 式中[Q(st+1,at)]表示下一狀態所對應的Q值[2,9?10]。

2.2 改進的強化學習算法

在上述強化學習的原理上,為了提高系統自適應度,從而推廣該算法的使用范圍,本文采用隨機辦法產生數組,并對動作[a(t)]進行尋優,其算法流程圖見圖3。

圖3 算法流程圖

由于雙曲正切函數在[-1,1]范圍內有良好的性能,相應的回報函數設定為:

[r(t)=tanh Q(t)10] (8)

對于PID參數取值優劣的評價,通??赡闷罘e分指標來衡量。常用的偏差積分指標有如下三個:

[IE=0∞e(t)dt] (9)

[ISE=0∞e2(t)dt] (10)

[IAE=0∞|e(t)|dt] (11)

估計不同的過渡過程需要選擇不同的積分指標函數,如果著重于抑制過渡過程中的大偏差,則通常選用ISE準則,而懲罰過渡時間過長的問題時則應選擇ITAE準則[11]。

綜合考慮以上因素,本文選擇了IE與IAE的線性組合作為評價函數:

[V(t)=0∞e(t)dt+0∞|e(t)|dt10] (12)

該算法實現了在其初始運行階段(最初較大時)進行均勻搜索,而在其后期運行階段(較接近于0時)搜索范圍逐漸減小。滿足了初期大范圍,后期小范圍搜索的要求,有利于收斂于全局最優值和提高搜索精度。

改進的強化學習PID調參,在線學習速度加快,從而提高了系統的快速性,且動態性能指標得到了優化。

3 仿真驗證

本文利用某型飛艇進行仿真,飛艇初始狀態為水平平飛,高度H=2 000 m,速度V=20 m/s,只研究縱向,配平線性化后得到飛艇縱向的線性化方程為:

[x=Ax+Buy=Cx] (13)

式中:[x=[V,α,q,θ]],分別代表速度、迎角、俯仰角速度、俯仰角。

給定俯仰角跟蹤指令[θg=10°],并且考慮縱向風干擾,為簡化問題,假設風干擾通過以下方式引入飛艇系統:

[v=v+vwq=q+qwa=a+aw] (14) 式中:[vw,qw,aw]是在風對飛艇狀態的量化影響。

對于改進強化學習算法,設置仿真參數如下:[KP]取值范圍為[0,50];[KI]取值范圍為[0,0.5];[KD]取值范圍為[0,0.5];迭代次數選為100,系數[γ]選為0.9。

分別用傳統離線設計好的PID控制器和改進后基于強化學習在線調參的PID控制器進行控制[10]。

仿真結果如圖4所示。

圖4 仿真結果圖

從仿真結果可以看出,傳統離線設計好的控制器,在有風干擾的條件下,難以實現俯仰跟蹤,而基于改進強化學習的控制器,在風干擾條件下,通過對參數的在線調整,實現了俯仰指令的跟蹤,各項指標在可以接受的范圍內。

4 結 語

本文在分析各個研究成果的基礎上,根據 PID 控制器具有多目標優化的特點,提出了改進的強化學習的PID控制器參數整定算法,選擇了自適應度大的個體所對應的控制參數作為采樣時間下的參數,對 PID 的參數進行多目標尋優,通過比較傳統強化學習算法,收斂速度更快,實時性更好,Matlab上的仿真結果表明,在 PID 參數的尋優過程中,該改進后的強化學習算法具有更強的尋優能力。因此為PID控制系統提供了一種新的優化方法。

參考文獻

[1] 張巍,盧宇清.基于在線自適應遺傳算法的 PID參數整定和優化[J].計算機仿真,2011(12):154?157.

[2] 朱衛華.基于強化學習PID控制器的柴油機調速仿真研究[D].哈爾濱:哈爾濱工程大學,2011.

[3] 陳丹,方康玲,陳喬禮.遺傳算法在 PID 參數優化中的應用[J].微計算機信息,2007,23(3):35?36.

[4] 戰忠麗,王強,陳顯亭.強化學習的模型,算法及應用[J].電子科技,2011(1):47?49.

[5] 王醒策,張汝波,顧國昌.基于強化學習的多機器人編隊方法研究[J].計算機工程,2002,28(6):15?16.

[6] 姜沛然.基于模糊理論和強化學習的自主式水下機器人運動規劃技術[D].哈爾濱:哈爾濱工程大學,2005.

[7] 付成偉.基于分層強化學習的移動機器人路徑規劃[D].哈爾濱:哈爾濱工程大學,2008.

[8] 徐莉.Q?learning 研究及其在AUV局部路徑規劃中的應用[D].哈爾濱:哈爾濱工程大學,2004.

[9] 魏英姿,趙明揚.強化學習算法中啟發式回報函數的設計及其收斂性分析[J].計算機科學,2005(3):190?193.

[10] 張汝波,顧國昌,劉照德,等.強化學習理論,算法及應用[J].控制理論與應用,2000,17(5):637?640.

[11] 田豐,邊婷婷.基于自適應遺傳算法的交通信號配時優化[J].計算機仿真,2010(6):305?308.

猜你喜歡
動作
動作不可少(下)
巧借動作寫友愛
下一個動作
動作描寫要具體
畫動作
讓動作“活”起來
動作描寫不可少
非同一般的吃飯動作
動作喜劇電影周
電影故事(2015年30期)2015-02-27 09:03:12
神奇的手
主站蜘蛛池模板: 国产真实自在自线免费精品| 婷五月综合| 国产一级精品毛片基地| 国产女人18水真多毛片18精品| 91无码网站| 欧美一级在线看| 色综合天天娱乐综合网| 久久精品人妻中文系列| 久久久久人妻一区精品| 久久99精品久久久久久不卡| 欧美午夜视频| AV老司机AV天堂| 伊人久久综在合线亚洲2019| 久久伊人久久亚洲综合| 97久久人人超碰国产精品| 久久窝窝国产精品午夜看片| 99热这里都是国产精品| 综合色区亚洲熟妇在线| 国产午夜人做人免费视频中文| 精品第一国产综合精品Aⅴ| A级毛片高清免费视频就| 亚洲开心婷婷中文字幕| 亚洲狠狠婷婷综合久久久久| 免费A级毛片无码免费视频| 日韩人妻无码制服丝袜视频| 精品无码日韩国产不卡av| 97青青青国产在线播放| 试看120秒男女啪啪免费| 天堂岛国av无码免费无禁网站 | 人妻丰满熟妇av五码区| 色噜噜狠狠狠综合曰曰曰| 中文精品久久久久国产网址| 日韩小视频在线播放| 国产亚洲精品无码专| 波多野结衣无码AV在线| 国产h视频在线观看视频| 亚洲成a人片| 99热最新网址| 国产农村1级毛片| 欧美日韩免费| 日本三级黄在线观看| 日本欧美中文字幕精品亚洲| 日韩成人在线视频| 在线观看欧美精品二区| 制服丝袜国产精品| 99在线视频网站| 亚洲综合欧美在线一区在线播放| 久热99这里只有精品视频6| 亚洲va视频| 久草性视频| 毛片国产精品完整版| 久久无码av一区二区三区| 日韩午夜福利在线观看| 欧美成人免费| 亚洲婷婷六月| 婷婷综合色| 亚洲第一成年网| 亚洲无码电影| 深爱婷婷激情网| 噜噜噜综合亚洲| 欧美色视频日本| 免费高清毛片| 香蕉eeww99国产在线观看| 爆乳熟妇一区二区三区| 日韩一级二级三级| 亚洲AV永久无码精品古装片| 最新亚洲人成网站在线观看| 亚洲男人的天堂网| 精品国产福利在线| 国产成人a毛片在线| 91成人免费观看| 国产欧美另类| 伊人久久大香线蕉aⅴ色| a天堂视频| 欧美日韩一区二区三区四区在线观看| 福利国产微拍广场一区视频在线| 免费网站成人亚洲| 欧美怡红院视频一区二区三区| 久久a级片| 亚洲欧美日韩成人在线| 又爽又大又黄a级毛片在线视频 | 精品五夜婷香蕉国产线看观看|