高瑞娟+吳梅
摘 要: 控制系統的響應特性取決于控制律參數,經典的 PID 方法難以實現參數的自整定。強化學習能夠通過系統自身和環境的交互實現參數的自動調整,但是在控制律參數需要頻繁調整的應用場合,常規的強化學習方法無法滿足實時性要求,而且容易陷入局部收斂。對傳統的強化學習方法加以改進后,加快了在線學習速度,提高了強化學習算法的尋優能力。仿真結果表明,該方法可以在一定范圍內快速求得全局最優解,提高控制系統的自適應性,為控制系統參數的自整定提供了依據。
關鍵字: PID; 參數整定; 強化學習; 控制系統
中圖分類號: TN911?34 文獻標識碼: A 文章編號: 1004?373X(2014)04?0001?04
Principle and application of PID parameter tuning based on improved reinforcement learning
GAO Rui?juan, WU Mei
(College of Automation, Northwestern Polytechnical University, Xian 710129, China)
Abstract: The response characteristics of control system depend on the control law parameter.The classic PID method is difficult to achieve the parameter self?tuning.Through the interaction of system itself and the environment, parameters can be adjusted automatically by reinforcement learning.However, in the application occasions where the control law parameters requires to be adjusted frequently, the conventional reinforcement learning methods cannot meet the real?time requirements, and is easy to fall into local convergence.Based on the traditional reinforcement learning methods, an improvement method which can accelerate the learning speed and improve the optimizing ability of reinforcement learning algorithm is proposed.The simulation results show that this method can get global optimal solution quickly and improve the adaptivity of the control system in a certain range.It provided a basis for the improvement of control systems parameter self?tuning.
Keywords: PID; parameter tuning; reinforcement learning; control system
0 引 言
在現代技術高速發展的今天,反饋的概念已被廣泛應用于自動控制理論中。測量,比較,執行為反饋概念的三個基本要素。通常來說, 輸入量先與測量量做比較,得到了系統誤差后,相應的指標將通過這個誤差來加以糾正和控制 。在過去的幾十年里,反饋技術被廣泛運用于實踐中,其中,使用比例積分微分控制技術的發展是最為突出的。如今,在許多高級控制領域里,到處活躍著 PID控制的身影[1]。
一般的控制理論存在諸多問題(如理論難以實現,或被控對象參數不容易得到,或得不到精確數學模型),PID作為工業控制的主要技術,它可以一一解決,這與其優良的性能是分不開的。它的結構簡單,魯棒性好和工作可靠性高且調整方便。因此,如何高效地調整和優化PID的控制參數成了人們競相研究的問題。目前,常用的PID控制算法有理論計算和工程整定兩類,其中,工程整定主要有:臨界比例法,反應曲線法和衰減法等。然而,在復雜控制系統設計中,由于參數優化困難,PID的效果卻有待提高。因此,越來越多的人把目光轉向了自適應控制。如神經網絡,模糊,進化等[1?2]。
本文在分析了各個研究成果的基礎上,針對基于強化學習的PID控制算法的收斂速度快,實時性好等優點,提出了一種改進的強化算法的 PID 參數整定算法。通過改進強化學習算法對 PID 參數進行整定與尋優,基于控制系統的性能具體要求,對各項動態指標進行了適當的加權,采用改進強化學習算法對PID的參數進行了全局多目標尋優。其與傳統控制算法相比,在尋優時間和參數調整上都有了很大的提高。
1 PID控制器
典型PID控制器原理圖如圖1所示[2?3]。
圖1 PID控制系統原理圖
圖中控制系統由控制器和被控對象及反饋回路組成。
PID控制器根據給定輸入值r(t)和實際輸出值y(t)之間的偏差[e(t)=r(t)-y(t)],將其按照比例,積分,微分的形式,通過線性組合的方法構成控制量,然后對被控對象進行控制,控制規律為[3]:
[u(t)=KPe(t)+1KI0Ietdt+KDde(t)dt] (1)
式中:[KP]是比例系數;[KI]是積分時間常數;[KD]是微分時間常數[2]。
在本文中,首先,串聯PID 控制器和被控對象將系統的型別提高了。其次,由于附帶兩個負實部的零點,使得系統的穩定性和優越性有了很大的提高。詳細原理為:積分的存在,導致 PID 控制系統消除誤差;微分存在,使得 PID 控制系統的動態性能指標超調量縮小了;從頻域的角度分析問題,由于低頻段和高頻段分別有積分和微分的作用亦滿足如上表述的內容。
2 強化學習
強化學習(Reinforcement Learning,RL)是從統計學、心理學等相關學科發展而來的[4],為人工智能領域一個古老又嶄新的課題。最早可以追溯到巴普洛夫的條件反射試驗。早在1911年,Tomdlike就提出了效果律,大體原理為:哪種行為會被動物“記住”,會與刺激建立聯系,取決于動物行為產生的效果,包括搜索和記憶兩層含義。1954年,Minsky將該知識運用于試錯學習。同年,Clark和Farley亦在此方向上展開過研究,他們建立了隨機學習模型。1957年,Bellman提出了動態規劃理論及著名的馬爾科夫決策過程。 直到20世紀八九十年代,該技術才分別在人工智能和自動控制等領域中得到廣泛應用[5?6]。
在強化學習是一個不斷地“試探”?“評價”過程[2]。系統中,根據教師信號所提供的訓練信息,學習方法有如下三種分類:監督學習(Supervised Learning、無監督學習(Unsupervised Learning)和強化學習(Reinforcement Learning)[2,7]。
強化學習的基本框架如圖2所示[2,8]。
圖2 強化學習原理圖
強化學習與前兩種算法不同,環境產生的信號作為學習系統動作的評價指標,但是該信號不能立即反饋給系統如何才能產生正確動作。強化學習主要由RL兩部分組成:World(工作環境)和Agent(智能體)。智能體Agent又可以分成三個部分: P(策略單元)、I(輸入單元)和R(強化單元)。首先,輸入單元感知環境狀態后,采取一個動作作用于環境,環境給出一個強化信號,然后將它轉化為智能體的輸入;接著,強化單元將評價智能體所采取的動作[a(t)],并將其反饋給強化學習系統,策略單元更新Agent當前已存儲的知識的,系統選擇下一個動作,其選擇原則是獎勵值最大 [2,6]。
智能體Agent與環境W的交互時,在每個時刻t會發生如下事件:
(1) 智能體Agent感知時刻t的環境的狀態[s(t)];
(2) 根據當前的狀態[s(t)]和強化信息P,系統選擇然后執行某一個動作[a(t)],該動作[a(t)]作用于當前的環境,環境發生相應的變化;
(3)當前環境狀態變換為新的狀態,即[s(t)→s(t+1)],系統反饋及時的獎賞或懲罰回報函數[r(t)];
(4) 回報函數[r(t)]被智能體Agent接收,現有的策略P將發生變化,即[t←t+1];
(5) 系統返回第一步,繼續重復上述步驟,在取得滿意的目標狀態時,該循環停止[2,6]。
其中,及時回報函數[r(t)]由環境狀態W和智能體Agent的執行動作[a(t)]共同決定。動作[a(t)∈A],A即為智能體Agent的所有動作的集合[5,8]。
算法里,首先要考慮選擇適當的動作[a(t)],使得值函數得到最大值,從而能夠得到獎賞,這個過程即為Exploitation;同時,為了得到最優策略,智能體Agent要盡量選擇不同的動作而且智能體Agent還要盡可能選擇不同的動作[a(t)],即Exploration。對于在線學習來說,Exploration是非常重要的,探索的方法主要有:直接探索和間接探索兩種;間接探索的方法最常見的策略為greedy策略,通過為每個可能被選擇的動作[a(t)]賦予其對應的執行概率[?],然后嘗試完成所有可能的動作。即智能體Agent一直選擇有最高評價函數的動作[a(t)],目的是為了獲取最大及時回報函數。
2.1 強化學習算法
強化學習基本算法有三種:動態規劃算法、蒙特卡羅算法和時間差分算法。強化學習是一種無模型的增強學習形式,它是Watkins等人于1989年提出的,是從動態規劃算法發展而來,把Q?學習看成一個增量式動態規劃,用一步方式來決定策略[9]。
先假定環境W是一個有限狀態的離散馬爾科夫過程。并且,強化學習系統每選取一個動作[a(t)]都是在單步中進行的,環境一旦接受該動作[a(t)]后便發生狀態轉移,然后給出評價函數[r]。環境狀態發生轉換過程時,概率公式如下:
[prob[s=st+1st,at]=P[st,at,st+1]] (2)
強化學習系統必須決定一個最優策略[π],從而使得獎勵值函數達到最大。在策略[π]的作用下,狀態[st]的值如下:
[Vπ(st)=r(πst)+γP[st,at,st+1]Vπ(st+1)] (3)
動態規劃至少得保證有一個策略[π?],使得[Vπ?(st)=max{r(πst)+γP[st,at,st+1]Vπ*(st)}] (4)
Q?學習核心的思想是不估計環境模型,直接優化可迭代計算的Q函數,Watkin等人定義此Q函數為在狀態[st]時執行動作[at],并且此后按最優動作序列執行時,累計折扣得到的強化值,如下:
[Q(st,at)=rt+γmaxa∈A{Q(st+1,at)at∈A}] (5)
Watkin有效地證明了Q?學習在特定條件下的收斂性。Q?學習可通過神經網絡來實現,其中,每一個網絡的輸出對應于一個動作的Q值,即[Q(s,ai)]。實現Q?學習的關鍵是學習算法的確定。
根據Q函數的定義:
[Q(st+1,at)=rt+γmaxa∈A{Q(st+1,at)}] (6)
只有達到最優策略時式(6)才能成立。
在學習過程中,誤差信號為:
[ΔQ=rt+γmaxa∈A{Q(st+1,at)-Q(st,a)}] (7) 式中[Q(st+1,at)]表示下一狀態所對應的Q值[2,9?10]。
2.2 改進的強化學習算法
在上述強化學習的原理上,為了提高系統自適應度,從而推廣該算法的使用范圍,本文采用隨機辦法產生數組,并對動作[a(t)]進行尋優,其算法流程圖見圖3。
圖3 算法流程圖
由于雙曲正切函數在[-1,1]范圍內有良好的性能,相應的回報函數設定為:
[r(t)=tanh Q(t)10] (8)
對于PID參數取值優劣的評價,通??赡闷罘e分指標來衡量。常用的偏差積分指標有如下三個:
[IE=0∞e(t)dt] (9)
[ISE=0∞e2(t)dt] (10)
[IAE=0∞|e(t)|dt] (11)
估計不同的過渡過程需要選擇不同的積分指標函數,如果著重于抑制過渡過程中的大偏差,則通常選用ISE準則,而懲罰過渡時間過長的問題時則應選擇ITAE準則[11]。
綜合考慮以上因素,本文選擇了IE與IAE的線性組合作為評價函數:
[V(t)=0∞e(t)dt+0∞|e(t)|dt10] (12)
該算法實現了在其初始運行階段(最初較大時)進行均勻搜索,而在其后期運行階段(較接近于0時)搜索范圍逐漸減小。滿足了初期大范圍,后期小范圍搜索的要求,有利于收斂于全局最優值和提高搜索精度。
改進的強化學習PID調參,在線學習速度加快,從而提高了系統的快速性,且動態性能指標得到了優化。
3 仿真驗證
本文利用某型飛艇進行仿真,飛艇初始狀態為水平平飛,高度H=2 000 m,速度V=20 m/s,只研究縱向,配平線性化后得到飛艇縱向的線性化方程為:
[x=Ax+Buy=Cx] (13)
式中:[x=[V,α,q,θ]],分別代表速度、迎角、俯仰角速度、俯仰角。
給定俯仰角跟蹤指令[θg=10°],并且考慮縱向風干擾,為簡化問題,假設風干擾通過以下方式引入飛艇系統:
[v=v+vwq=q+qwa=a+aw] (14) 式中:[vw,qw,aw]是在風對飛艇狀態的量化影響。
對于改進強化學習算法,設置仿真參數如下:[KP]取值范圍為[0,50];[KI]取值范圍為[0,0.5];[KD]取值范圍為[0,0.5];迭代次數選為100,系數[γ]選為0.9。
分別用傳統離線設計好的PID控制器和改進后基于強化學習在線調參的PID控制器進行控制[10]。
仿真結果如圖4所示。
圖4 仿真結果圖
從仿真結果可以看出,傳統離線設計好的控制器,在有風干擾的條件下,難以實現俯仰跟蹤,而基于改進強化學習的控制器,在風干擾條件下,通過對參數的在線調整,實現了俯仰指令的跟蹤,各項指標在可以接受的范圍內。
4 結 語
本文在分析各個研究成果的基礎上,根據 PID 控制器具有多目標優化的特點,提出了改進的強化學習的PID控制器參數整定算法,選擇了自適應度大的個體所對應的控制參數作為采樣時間下的參數,對 PID 的參數進行多目標尋優,通過比較傳統強化學習算法,收斂速度更快,實時性更好,Matlab上的仿真結果表明,在 PID 參數的尋優過程中,該改進后的強化學習算法具有更強的尋優能力。因此為PID控制系統提供了一種新的優化方法。
參考文獻
[1] 張巍,盧宇清.基于在線自適應遺傳算法的 PID參數整定和優化[J].計算機仿真,2011(12):154?157.
[2] 朱衛華.基于強化學習PID控制器的柴油機調速仿真研究[D].哈爾濱:哈爾濱工程大學,2011.
[3] 陳丹,方康玲,陳喬禮.遺傳算法在 PID 參數優化中的應用[J].微計算機信息,2007,23(3):35?36.
[4] 戰忠麗,王強,陳顯亭.強化學習的模型,算法及應用[J].電子科技,2011(1):47?49.
[5] 王醒策,張汝波,顧國昌.基于強化學習的多機器人編隊方法研究[J].計算機工程,2002,28(6):15?16.
[6] 姜沛然.基于模糊理論和強化學習的自主式水下機器人運動規劃技術[D].哈爾濱:哈爾濱工程大學,2005.
[7] 付成偉.基于分層強化學習的移動機器人路徑規劃[D].哈爾濱:哈爾濱工程大學,2008.
[8] 徐莉.Q?learning 研究及其在AUV局部路徑規劃中的應用[D].哈爾濱:哈爾濱工程大學,2004.
[9] 魏英姿,趙明揚.強化學習算法中啟發式回報函數的設計及其收斂性分析[J].計算機科學,2005(3):190?193.
[10] 張汝波,顧國昌,劉照德,等.強化學習理論,算法及應用[J].控制理論與應用,2000,17(5):637?640.
[11] 田豐,邊婷婷.基于自適應遺傳算法的交通信號配時優化[J].計算機仿真,2010(6):305?308.
Watkin有效地證明了Q?學習在特定條件下的收斂性。Q?學習可通過神經網絡來實現,其中,每一個網絡的輸出對應于一個動作的Q值,即[Q(s,ai)]。實現Q?學習的關鍵是學習算法的確定。
根據Q函數的定義:
[Q(st+1,at)=rt+γmaxa∈A{Q(st+1,at)}] (6)
只有達到最優策略時式(6)才能成立。
在學習過程中,誤差信號為:
[ΔQ=rt+γmaxa∈A{Q(st+1,at)-Q(st,a)}] (7) 式中[Q(st+1,at)]表示下一狀態所對應的Q值[2,9?10]。
2.2 改進的強化學習算法
在上述強化學習的原理上,為了提高系統自適應度,從而推廣該算法的使用范圍,本文采用隨機辦法產生數組,并對動作[a(t)]進行尋優,其算法流程圖見圖3。
圖3 算法流程圖
由于雙曲正切函數在[-1,1]范圍內有良好的性能,相應的回報函數設定為:
[r(t)=tanh Q(t)10] (8)
對于PID參數取值優劣的評價,通常可拿偏差積分指標來衡量。常用的偏差積分指標有如下三個:
[IE=0∞e(t)dt] (9)
[ISE=0∞e2(t)dt] (10)
[IAE=0∞|e(t)|dt] (11)
估計不同的過渡過程需要選擇不同的積分指標函數,如果著重于抑制過渡過程中的大偏差,則通常選用ISE準則,而懲罰過渡時間過長的問題時則應選擇ITAE準則[11]。
綜合考慮以上因素,本文選擇了IE與IAE的線性組合作為評價函數:
[V(t)=0∞e(t)dt+0∞|e(t)|dt10] (12)
該算法實現了在其初始運行階段(最初較大時)進行均勻搜索,而在其后期運行階段(較接近于0時)搜索范圍逐漸減小。滿足了初期大范圍,后期小范圍搜索的要求,有利于收斂于全局最優值和提高搜索精度。
改進的強化學習PID調參,在線學習速度加快,從而提高了系統的快速性,且動態性能指標得到了優化。
3 仿真驗證
本文利用某型飛艇進行仿真,飛艇初始狀態為水平平飛,高度H=2 000 m,速度V=20 m/s,只研究縱向,配平線性化后得到飛艇縱向的線性化方程為:
[x=Ax+Buy=Cx] (13)
式中:[x=[V,α,q,θ]],分別代表速度、迎角、俯仰角速度、俯仰角。
給定俯仰角跟蹤指令[θg=10°],并且考慮縱向風干擾,為簡化問題,假設風干擾通過以下方式引入飛艇系統:
[v=v+vwq=q+qwa=a+aw] (14) 式中:[vw,qw,aw]是在風對飛艇狀態的量化影響。
對于改進強化學習算法,設置仿真參數如下:[KP]取值范圍為[0,50];[KI]取值范圍為[0,0.5];[KD]取值范圍為[0,0.5];迭代次數選為100,系數[γ]選為0.9。
分別用傳統離線設計好的PID控制器和改進后基于強化學習在線調參的PID控制器進行控制[10]。
仿真結果如圖4所示。
圖4 仿真結果圖
從仿真結果可以看出,傳統離線設計好的控制器,在有風干擾的條件下,難以實現俯仰跟蹤,而基于改進強化學習的控制器,在風干擾條件下,通過對參數的在線調整,實現了俯仰指令的跟蹤,各項指標在可以接受的范圍內。
4 結 語
本文在分析各個研究成果的基礎上,根據 PID 控制器具有多目標優化的特點,提出了改進的強化學習的PID控制器參數整定算法,選擇了自適應度大的個體所對應的控制參數作為采樣時間下的參數,對 PID 的參數進行多目標尋優,通過比較傳統強化學習算法,收斂速度更快,實時性更好,Matlab上的仿真結果表明,在 PID 參數的尋優過程中,該改進后的強化學習算法具有更強的尋優能力。因此為PID控制系統提供了一種新的優化方法。
參考文獻
[1] 張巍,盧宇清.基于在線自適應遺傳算法的 PID參數整定和優化[J].計算機仿真,2011(12):154?157.
[2] 朱衛華.基于強化學習PID控制器的柴油機調速仿真研究[D].哈爾濱:哈爾濱工程大學,2011.
[3] 陳丹,方康玲,陳喬禮.遺傳算法在 PID 參數優化中的應用[J].微計算機信息,2007,23(3):35?36.
[4] 戰忠麗,王強,陳顯亭.強化學習的模型,算法及應用[J].電子科技,2011(1):47?49.
[5] 王醒策,張汝波,顧國昌.基于強化學習的多機器人編隊方法研究[J].計算機工程,2002,28(6):15?16.
[6] 姜沛然.基于模糊理論和強化學習的自主式水下機器人運動規劃技術[D].哈爾濱:哈爾濱工程大學,2005.
[7] 付成偉.基于分層強化學習的移動機器人路徑規劃[D].哈爾濱:哈爾濱工程大學,2008.
[8] 徐莉.Q?learning 研究及其在AUV局部路徑規劃中的應用[D].哈爾濱:哈爾濱工程大學,2004.
[9] 魏英姿,趙明揚.強化學習算法中啟發式回報函數的設計及其收斂性分析[J].計算機科學,2005(3):190?193.
[10] 張汝波,顧國昌,劉照德,等.強化學習理論,算法及應用[J].控制理論與應用,2000,17(5):637?640.
[11] 田豐,邊婷婷.基于自適應遺傳算法的交通信號配時優化[J].計算機仿真,2010(6):305?308.
Watkin有效地證明了Q?學習在特定條件下的收斂性。Q?學習可通過神經網絡來實現,其中,每一個網絡的輸出對應于一個動作的Q值,即[Q(s,ai)]。實現Q?學習的關鍵是學習算法的確定。
根據Q函數的定義:
[Q(st+1,at)=rt+γmaxa∈A{Q(st+1,at)}] (6)
只有達到最優策略時式(6)才能成立。
在學習過程中,誤差信號為:
[ΔQ=rt+γmaxa∈A{Q(st+1,at)-Q(st,a)}] (7) 式中[Q(st+1,at)]表示下一狀態所對應的Q值[2,9?10]。
2.2 改進的強化學習算法
在上述強化學習的原理上,為了提高系統自適應度,從而推廣該算法的使用范圍,本文采用隨機辦法產生數組,并對動作[a(t)]進行尋優,其算法流程圖見圖3。
圖3 算法流程圖
由于雙曲正切函數在[-1,1]范圍內有良好的性能,相應的回報函數設定為:
[r(t)=tanh Q(t)10] (8)
對于PID參數取值優劣的評價,通??赡闷罘e分指標來衡量。常用的偏差積分指標有如下三個:
[IE=0∞e(t)dt] (9)
[ISE=0∞e2(t)dt] (10)
[IAE=0∞|e(t)|dt] (11)
估計不同的過渡過程需要選擇不同的積分指標函數,如果著重于抑制過渡過程中的大偏差,則通常選用ISE準則,而懲罰過渡時間過長的問題時則應選擇ITAE準則[11]。
綜合考慮以上因素,本文選擇了IE與IAE的線性組合作為評價函數:
[V(t)=0∞e(t)dt+0∞|e(t)|dt10] (12)
該算法實現了在其初始運行階段(最初較大時)進行均勻搜索,而在其后期運行階段(較接近于0時)搜索范圍逐漸減小。滿足了初期大范圍,后期小范圍搜索的要求,有利于收斂于全局最優值和提高搜索精度。
改進的強化學習PID調參,在線學習速度加快,從而提高了系統的快速性,且動態性能指標得到了優化。
3 仿真驗證
本文利用某型飛艇進行仿真,飛艇初始狀態為水平平飛,高度H=2 000 m,速度V=20 m/s,只研究縱向,配平線性化后得到飛艇縱向的線性化方程為:
[x=Ax+Buy=Cx] (13)
式中:[x=[V,α,q,θ]],分別代表速度、迎角、俯仰角速度、俯仰角。
給定俯仰角跟蹤指令[θg=10°],并且考慮縱向風干擾,為簡化問題,假設風干擾通過以下方式引入飛艇系統:
[v=v+vwq=q+qwa=a+aw] (14) 式中:[vw,qw,aw]是在風對飛艇狀態的量化影響。
對于改進強化學習算法,設置仿真參數如下:[KP]取值范圍為[0,50];[KI]取值范圍為[0,0.5];[KD]取值范圍為[0,0.5];迭代次數選為100,系數[γ]選為0.9。
分別用傳統離線設計好的PID控制器和改進后基于強化學習在線調參的PID控制器進行控制[10]。
仿真結果如圖4所示。
圖4 仿真結果圖
從仿真結果可以看出,傳統離線設計好的控制器,在有風干擾的條件下,難以實現俯仰跟蹤,而基于改進強化學習的控制器,在風干擾條件下,通過對參數的在線調整,實現了俯仰指令的跟蹤,各項指標在可以接受的范圍內。
4 結 語
本文在分析各個研究成果的基礎上,根據 PID 控制器具有多目標優化的特點,提出了改進的強化學習的PID控制器參數整定算法,選擇了自適應度大的個體所對應的控制參數作為采樣時間下的參數,對 PID 的參數進行多目標尋優,通過比較傳統強化學習算法,收斂速度更快,實時性更好,Matlab上的仿真結果表明,在 PID 參數的尋優過程中,該改進后的強化學習算法具有更強的尋優能力。因此為PID控制系統提供了一種新的優化方法。
參考文獻
[1] 張巍,盧宇清.基于在線自適應遺傳算法的 PID參數整定和優化[J].計算機仿真,2011(12):154?157.
[2] 朱衛華.基于強化學習PID控制器的柴油機調速仿真研究[D].哈爾濱:哈爾濱工程大學,2011.
[3] 陳丹,方康玲,陳喬禮.遺傳算法在 PID 參數優化中的應用[J].微計算機信息,2007,23(3):35?36.
[4] 戰忠麗,王強,陳顯亭.強化學習的模型,算法及應用[J].電子科技,2011(1):47?49.
[5] 王醒策,張汝波,顧國昌.基于強化學習的多機器人編隊方法研究[J].計算機工程,2002,28(6):15?16.
[6] 姜沛然.基于模糊理論和強化學習的自主式水下機器人運動規劃技術[D].哈爾濱:哈爾濱工程大學,2005.
[7] 付成偉.基于分層強化學習的移動機器人路徑規劃[D].哈爾濱:哈爾濱工程大學,2008.
[8] 徐莉.Q?learning 研究及其在AUV局部路徑規劃中的應用[D].哈爾濱:哈爾濱工程大學,2004.
[9] 魏英姿,趙明揚.強化學習算法中啟發式回報函數的設計及其收斂性分析[J].計算機科學,2005(3):190?193.
[10] 張汝波,顧國昌,劉照德,等.強化學習理論,算法及應用[J].控制理論與應用,2000,17(5):637?640.
[11] 田豐,邊婷婷.基于自適應遺傳算法的交通信號配時優化[J].計算機仿真,2010(6):305?308.