穆翔,劉全,2,傅啟明,孫洪坤,周鑫
(1. 蘇州大學 計算機科學與技術學院,江蘇 蘇州 215006;2. 吉林大學 符號計算與知識工程教育部重點實驗室,吉林 長春 130012)
強化學習(RL, reinforcement learning)是一種通過agent與環境進行交互學習,以獲得最大累計獎賞值的機器學習方法[1,2]。通常基于馬爾科夫決策過程(MDP, Markov decision process)來定義強化學習問題的一般框架。當強化學習問題滿足MDP框架時,可以采用諸如動態規劃(DP, dynamic programming)、蒙特卡羅(MC, Monte Carlo)和時間差分(TD,temporal difference)等類型的算法求解最優行為策略。
傳統的強化學習方法一般用于求解小空間或離散空間的問題[1]。通過查詢表(lookup-table)存儲所有的狀態或者狀態動作對所對應的值函數,在學習過程中不斷地修改表項的值直至收斂,最終求得問題的最優行為策略。這類方法雖然能夠有效地解決一些簡單的任務,但不適用于求解大空間或連續空間的問題。目前解決此類問題最常用的方法是將函數逼近與強化學習算法相結合。通過采用帶有一組參數的近似函數來描述強化學習中的值函數,使學習到的經驗信息能夠從狀態空間子集泛化至整個狀態空間。Agent根據此近似函數選擇最優動作序列[2~4]。當前已有多種函數逼近方法應用于強化學習問題。SUTTON等人于 2009年提出了梯度TD(GTD, gradient TD)學習算法,該算法將TD學習算法與線性函數逼近相結合,同時引入一個與Bellman誤差相關的新的目標函數[5]。SHERSTOV等人于2005年提出一種基于在線自適應Tile-Coding編碼的線性函數逼近算法,通過實驗驗證了算法的有效性[6]。HEINEN等人于2010年提出利用增量式概率神經網絡來逼近強化學習問題的值函數,可以較好地求解連續狀態空間的問題[7]。
上文所述及目前常見的基于函數逼近的強化學習算法通常收斂速度較慢,而且一般只能用于求解離散行為策略[5~8]。基于模糊推理系統(FIS, fuzzy inference system)的強化學習算法通過引入先驗知識,不僅可以有效地加快求解連續空間問題時的收斂速度,還能獲得連續行為策略[9,10]。TADASHI等人提出了模糊插值Q學習算法,可以用于求解連續空間問題,但算法的性能較依賴于先驗知識[11]。GLORENNEC和JOUFFE將FIS與Q學習算法相結合,利用先驗知識并構造全局近似器,有效地加快了收斂速度,但該算法不能用于求解連續行為策略[12]。TOKARCHUK等人提出的模糊Sarsa算法,在不影響算法性能的情況下可以有效地減小狀態空間的規模,進而加快收斂速度,但該算法應用于多維狀態空間問題時,更容易出現“維數災”問題[13]。HSU等人提出的基于二型模糊邏輯的自組織 Q學習算法,對于噪聲干擾有很強的頑健性,但時間復雜度較高,且不能保證收斂[10]。
雖然基于模糊推理系統的強化學習算法已經可以有效地加快收斂速度,但傳統的基于一個模糊規則庫的、并可用于求解關于狀態的連續行為策略的Q值迭代算法,依舊存在由于某些原因而導致收斂速度慢的問題:算法的某一輪迭代會出現狀態動作對所對應的Q值不唯一的情況。若算法進入下一輪迭代時,需要用到的狀態動作對的Q值恰好是上述Q值不唯一的情況。已有的此類算法會簡單地隨機選擇一個狀態動作對所對應的Q值,而并沒有固定的選擇策略,或者固定選擇策略也不一定有效。由于算法在整個的迭代過程中會多次出現這種情況,這會較大地減緩該類型算法的收斂速度。
針對傳統的基于查詢表和一個規則庫的 Q值迭代算法收斂速度慢的問題,本文提出一種基于兩層模糊劃分的在策略時間差分算法——DFP-OPTD(on-policy TD based on double-layer fuzzy partitioning),并在理論上證明其收斂。算法在進行 2次模糊劃分時,首先在第一層將連續狀態空間進行模糊劃分,同時求得連續動作;其次,在第二層將第一層求得的連續動作進行模糊劃分,同時求得Q值函數;最后,使用梯度下降方法,更新兩層模糊劃分共同的規則后件參數。將DFP-OPTD算法應用于倒立擺問題中,實驗結果表明,DFP-OPTD可以獲得連續行為策略,且具有較好的收斂性能。
在強化學習框架下,agent與環境交互構成一個有限的MDP[13],該MDP可描述為一個四元組形式M = < X, U , ρ,f> ,其中:
1)X為所有狀態的集合,且xt∈X為agent在t時刻所處的狀態;
2)U為所有動作的集合,且ut∈U為agent在t時刻所采取的動作;
3)ρ : X × U →Rn為獎賞值函數,表示t時刻的狀態 xt,在采取動作 ut并轉移到狀態 xt+1時,agent所獲得的立即獎賞 r ( xt, ut),此外,用 rt表示以r( xt, ut)為均值的分布所產生的隨機獎賞;
4) f :X × U×X→[0,1]為狀態轉移函數,其中f( x, u, x ') 表示狀態x在采取動作u時轉移到 x '的概率。
強化學習中的策略 h ( x, u)是從狀態空間X到動作空間U的映射,h: X→U。它表示在狀態x處選擇動作u的概率。利用策略 h( x, u)可以求解出狀態值函數(V值函數)或動作值函數(Q值函數)。
強化學習的目標是求解最優行為策略 h*,它是最優值函數的貪心策略,且在所有的策略中滿足?x ∈ X: Vh*(x) ≥ Vh(x)。在最優策略 h*下,最優V值函數滿足式(1),最優Q值函數滿足式(2),為

當f和ρ已知時,可以采用動態規劃算法求解最優行為策略;當f和ρ未知時,則可以采用 TD類型的算法求解最優行為策略,例如離策略的Q學習算法和在策略(on-policy)的Sarsa算法。
定義1是一個有界的MDP約束(主要是對狀態空間、動作空間、獎賞值以及值函數空間的界定),本文所有的算法都滿足該定義。
定義1 有界的MDP問題 已知X和U都是有限集合,令Z表示狀態動作集合,即Z: X×U,則Z也為有限集合;獎賞值函數ρ滿足0 ≤ ρ (x, u ) ≤ C ;MDP的邊界因子 β =1(1 - γ),其中,γ為折扣因子,且對于?x∈X及?( x , u)∈ Z ,0 ≤ V ( x) ≤ β C和0 ≤ Q( x, u)≤ β C成立。
由文獻[14]可得,模糊規則庫的輸出可以用作Q值函數的逼近器。當前有多種類型的模糊規則[15],其中,TSK 形式的規則如式(3)所示,描述了規則的輸出和輸入部分的關系為

其中,r∈1,…,NR是規則的下標,Rr表示規則庫中的第r條規則, x =(x1,x2,… ,xN)表示N維輸入參數。是第r條模糊規則中對應于第i維輸入變量的模糊集,每一個模糊集都由一個隸屬度函數μχr,i(xi):X →[0,1]定義。y是輸出變量,且g1(x),…,gNR(x):X→Y是以x為自變量的多項式函數。
當系統輸入精確值 x =(x1,x2,… ,xN)時,可以計算它在第r條規則下的激活強度 φr(x)(運算規則為T-norm積運算)為

將 φr(x)用于計算模糊規則的輸出值,以激活強度 φr(x)為權重,與其對應的后件值yr相乘并求和,可以得到最終的輸出值為

通常采用 MSE(mean square error)作為模糊規則庫用于逼近目標函數時的逼近誤差。當規則集合達到最優逼近效果時,其所有模糊規則后件值所構成的向量值θ為

其中, Yi( x)為目標函數,( x)為逼近函數。
在MDP框架下,使用兩層模糊劃分相對應的兩層模糊規則庫以計算Q值函數。
使用兩層糊規則庫逼近Q值函數的框架如圖1所示,其中左框內的模糊規則庫1(FRB1, fuzzy rule base 1)以狀態為輸入,通過FRB1獲得的連續動作為輸出;右框內的模糊規則庫2 (FRB2, fuzzy rule base 2)以從FRB1中獲得的連續動作為輸入,通過FRB2獲得的連續動作的Q值分量作為輸出;最后,通過將兩層模糊規則庫輸出部分相結合,逼近在狀態x時采取連續動作 ()C x的Q值函數。

圖1 使用兩層模糊規則庫逼近Q值函數的框架
兩層模糊劃分的主要內容如下所述。
1) 模糊規則庫1中的模糊規則如下

其中, x =(x1, x2,…,xN)為狀態, ur,j為第r條模糊規則中的第j個離散動作。M個離散動作由動作空間劃分而成,qr,j為第r條模糊規則中對應于第j個離散動作的Q值分量。當輸入狀態為x時,第r條規則的激活強度為

在被狀態x激活的規則rR中,根據,rjq 的大小,用 ε-greedy動作選擇策略從M個離散動作中選出一個動作,該動作稱為激活動作,用表示。因而,結合式(5),可以得到狀態為x時的連續動作 ()Cx為

把 C (x)稱為連續動作的原因是 C (x)的變化是關于狀態x連續的,它并非指的是狀態x可以選擇到連續動作空間中的任意動作。為簡化式(8),正則化激活強度 φr(x),可得

則式(8)可寫為

2) 模糊規則庫2中的模糊規則如下

FRB2中規則的構建依賴于 FRB1,其M條規則中的規則以 FRB1中的第r條規則為基礎:前件部分的νr,j為模糊集,它以FRB1中第r條規則的第j個動作為模糊中心,并用隸屬度函數 σνi,j(u)描述;后件部分的 qr,j與FRB1中規則后件的 qr,j一一對應。
將從FRB1中得到的連續動作 C (x)作為FRB2中規則的輸入,可以激活 NR?條FRB2中的規則。通過FRB2的規則的輸出,可以得到FRB1中第r條規則所對應的Q值分量(x,C(x))為

與推導公式(9)的方法相同,正則化式(11)中的隸屬度函數 σνr,j(C(x)),得到μνr,j(C(x))為

則式(11)可寫為

由式(13)可得,FRB1的激活規則 Rr所求得的Q值分量為(x,C(x)),則對FRB1中所有的激活規則,可以得到在狀態x下執行連續動作 C (x)時的Q值為

由式(14)可以看出,Q值的大小取決于兩層FRB中的模糊集和共同的后件變量,rjθ。由于模糊集是作為先驗知識提前設定的,且在算法中不做改變,因而要得到收斂的Q值,需要在算法執行過程中更新,rjθ,直到收斂。
為使FRB逼近Q值函數時的逼近誤差最小,即參數向量θ滿足式(6),DFP-OPTD利用梯度下降(GD,gradient descent)方法,結合計算Q值函數的Bellman方程,更新兩層FRB的共同后件參數向量θ為

其中,rt+1+γQt( xt+1, ut+1) - Qt( xt, ut)是TD誤差。令δ = rt+1+ γ Qt( xt+1, ut+1) - Qt( xt, ut),結合后向TD算法[1],可以得到參數更新公式為


其中, r = 1,… ,NR, j = 1,… ,M 。
則式(16)可進一步表示為

基于文獻[1]中的在策略TD算法,結合本文3.1節描述的內容,得到算法DFP-OPTD。該算法不僅可以解決強化學習中連續狀態、離散動作空間的問題,還可以解決連續狀態、連續動作空間的問題。算法1為DFP-OPTD的學習流程。
算法1 基于雙層模糊劃→分的DFP-OPTD算法
2) Repeat(對每一個情節):
3) x←初始化狀態
4) 根據式(7)計算 φr(x)
5) 根據ε-greedy策略選擇激活動作 u?r
6) 根據式(10)選擇狀態為x時的執行動作u
7) 根據式(12)計算 μνr,j(u)
8) 根據式(14)計算值函數 Qu
9) Repeat(對情節中的每一步)
10) 執行動作u,獲得下一狀態x'和立即獎賞r
11) δ ← r -Qu
13) 根據式(10)選擇狀態為x'時的執行動作 u '
14) 根據式(12)計算 μνr,j(u')
15) 根據式(7)計算 φr(x')
16) 根據式(14)計算值函數 Qu'
17) δ ←δ+γQu'
18)θ = θ + α δφr(x )μνr,j(u)
19) u←u'
20) Untilx'為終止狀態
21) Until運行完設定情節數目或滿足其他終止條件
在文獻[16]和文獻[17]中,針對在策略(onpolicy)TD算法在使用線性函數逼近時的收斂性做了詳細的分析,當該類型的算法滿足一定的假設和引理時,可以以1的概率收斂。DFP-OPTD正是一種使用線性函數逼近的在策略TD算法,當該算法滿足文獻[16]中定義的證明算法收斂所需的假設和引理時,即可說明其收斂。本文不再贅述對其收斂性的詳細證明。
假設1 MDP中的狀態轉移函數和獎賞函數都服從穩定的分布。
引理1 DFP-OPTD依賴的馬爾科夫鏈具有不可約性和非周期性,且算法的立即獎賞和值函數有界。
證明 首先證明其不可約性。根據馬爾科夫過程的性質,如果一個馬爾科夫過程的任意2個狀態可以相互轉移,則它具有不可約性[18]。DFP-OPTD用于解決滿足 MDP框架的強化學習問題,且該MDP滿足定義1。因而對于該MDP中的任意狀態x,必定存在一個f滿足 f ( x, u, x')≥ 0 ,這表明狀態x可以被無限次訪問。因而可得每一個狀態都可轉移到任意的其他狀態。因此,DFP-OPTD依賴的馬爾科夫鏈具有不可約性。
其次證明其非周期性。對于不可約的馬爾科夫鏈,僅需證明某一個狀態具有非周期性,即可證明整個馬爾科夫鏈具有非周期性。而證明一個狀態具有非周期性,只需證明該狀態具有自回歸性[18]。在DFP-OPTD依賴的MDP中,對于狀態x,必定存在一個f滿足 f ( x, u, x) > 0 ,它表明了狀態x具有自回歸性,由此可得該MDP具有非周期性。因此,DFP-OPTD依賴的馬爾科夫鏈的非周期性得證。
最后證明其立即獎賞和值函數有界。由文獻[1]可知,值函數是折扣的累計回報函數,即滿足又由定義1可得,獎賞值函數ρ有界,且0 ≤ ρ (x, u ) ≤ C ,C為一個非負數。因而有

由不等式(19)可以得出,值函數 Q ( x, u)有界。
綜上所述,引理1得證。
條件 1 對每一個隸屬度函數i都存在唯一的狀態 xi,使 μi( xi) > μi( x) ,?x ≠ xi,而其他的隸屬度函數在狀態 xi處的隸屬度值都為 0,即有 μi'( xi) = 0,? i ' ≠i。
引理2 DFP-OPTD的基函數有界,并且基函數向量線性無關。
證明 首先證明其基函數有界。由 φr(x)∈[0,1]和μνr,j(C(x))∈ [0,1]可得

其中,||||∞為無窮范式。已知DFP-OPTD的基函數為φr(x)μνr,j(C(x)),又由不等式(20)可得,DFP-OPTD的基函數有界。
其次證明基函數向量線性無關。為使DFP-OPTD的基函數向量線性無關,令算法所使用的基函數滿足條件1[14],其函數形式如圖3所示。由文獻[14]可得,當滿足條件1時,基函數向量線性無關。
可以將條件1的要求適當地放寬,使 μi'( xi)在狀態xi處的隸屬度為一個較小的值,例如標準差較小的高斯隸屬度函數。將該隸屬度函數用于DFP-OPTD中,通過數次實驗可得 DFP-OPTD同樣可以收斂,但目前還不能對該收斂性給出理論的證明。
綜上所述,引理2得證。
引理3 DFP-OPTD的步長參數α滿足

證明 DFP-OPTD所用的步長參數α = 1 /(t + 1 ),其中,t為時間步。使用牛頓冪級數展開可以得到


不等式(23)中的不等式部分可通過歸納法證明,因而當t→∞時,滿足
由式(22)和不等式(23)可以得出,DFP-OPTD所用的步長參數滿足式(21),即引理3得證。
定理1 在假設1的條件下,若DFP-OPTD滿足引理1~引理3,則算法以1的概率收斂。
證明 由文獻[16]可以得出,在假設1成立的條件下,在策略(on-policy)TD算法在使用線性函數逼近時,如果滿足引理1~引理3,該類型的算法收斂。滿足假設1的算法DFP-OPTD是一種利用線性函數逼近的在策略TD算法,且該算法對引理1~引理3成立。因而可以得出,DFP-OPTD以1的概率收斂。
本文以強化學習中經典的情節式問題——倒立擺問題為例,驗證DFP-OPTD的收斂性能和求得的連續行為策略的作用。
倒立擺問題的示意如圖2所示,一個可以左右移動的小車位于水平面上,上面放置一根底端與小車相連且可以在一定角度范圍內自由轉動的硬質桿,其任務是通過小車的水平移動使硬質桿可以在一定的角度范圍內([- π / 2,π / 2])豎立于垂直方向。同樣將該問題建立為一個MDP模型:系統的狀態是1個二維變量,用硬質桿與垂直方向的夾角θ和硬質桿的角速度表示,即,且有和∈[-1 6π, 16π](rad/s);系統的動作為施加在小車上的力,其取值范圍為[-5 0,50](N)。此外,施加的力上有外力的隨機擾動,該外力服從[-1 0,10](N)的均勻分布。系統的動力學特性描述為

其中, g = 9 .8 m/s2為重力加速度, m = 2 .0 kg為硬質桿的質量,M = 8 .0 kg為小車的質量,l = 0 .5 m為硬質桿的長度,常數 α = 1 /(m + M )。系統的獎賞變化取決于狀態的變化,在每一個時間步下,當硬質桿與垂直方向的角度不超過π/2時,會收到大小為0的立即獎賞。而超過π/2時收到的立即獎賞為-1,同時該情節結束。

圖2 倒立擺
將 DFP-OPTD算法與 SUTTON等人提出的GD-Sarsa(λ)算法[3]進行比較。設置 DFP-OPTD 所需的參數,用三角隸屬度函數作為FRB1和FRB2的模糊集的隸屬度函數式(除了狀態的定義域不同,夾角和角速度的模糊隸屬度函數形式如圖3所示):分別采用 20個模糊中心等距的模糊集對二維的連續狀態空間的每一維進行三角模糊劃分,模糊集的個數為20×20=400;同理,用12個模糊中心等距的模糊集對連續動作空間進行三角模糊劃分,模糊集的個數為 12。其他參數設置為 ε =0.001,α=0.9,γ= 1 .0。GD-Sarsa(λ)中采用10個9×9的Tilings來劃分狀態空間,參數設置依據文獻[1]中給出的最優實驗參數:ε = 0 .001,α =0.14,λ=0.3,γ=1.0。

圖3 三角隸屬度函數
DFP-OPTD,GD-Sarsa(λ)針對倒立擺問題進行30次獨立仿真實驗的結果如圖4所示,圖中橫坐標表示情節數,縱坐標表示硬質桿豎立于垂直方向及兩側的一定角度范圍內所用的平均時間步。分析圖4可得,DFP-OPTD在收斂性能上明顯優于GD-Sarsa(λ)。

圖4 2種算法收斂性能的比較
2種算法的詳細性能比較如表1所示,其中,以 DFP-OPTD的一個平均迭代步所需的時間作為基準時間。

表1 2種算法在倒立擺問題中性能的比較
圖 5描述的分別為 DFP-OPTD和 GD-Sarsa(λ)這 2種算法在時間步增大的過程中,硬質桿與垂直方向的角度變化情況。其中,GD-Sarsa(λ)基于離散動作,DFP-OPTD基于連續動作。從圖中可以清晰地看出,DFP-OPTD所獲得的連續行為策略可以使硬質桿擺動的角度只在較小的范圍內變化,而GD-Sarsa(λ)所獲得的離散行為策略會使硬質桿在較大的角度范圍內擺動,這說明了DFP-OPTD求得的策略的穩定性優于 GD-Sarsa(λ)。因而,DFP-OPTD更適用于求解對策略穩定性要求較高的問題。

圖5 分別使用上述2種算法時,硬質桿的角度θ的變化情況
本文針對傳統的強化學習算法中使用查詢表或者函數逼近時收斂速度慢且不易獲得連續行為策略的問題,提出一種基于兩層模糊劃分的強化學習算法——DFP-OPTD。該算法先將狀態進行模糊劃分,再將第一層模糊規則庫所輸出的連續動作,作為第二層模糊規則庫的輸入,同時對動作進行模糊劃分。最后將這兩層模糊規則庫相結合以得到逼近的Q值函數。以該逼近的Q值函數與真實Q值函數的差值平方作為逼近誤差,使用梯度下降方法更新2個模糊規則庫中規則的共同后件值。將該算法與其他 3種較新的相近算法應用于強化學習中經典的倒立擺問題中,通過實驗數據分析可以得到,相比于已有的只使用一層模糊劃分的強化學習算法,DFP-OPTD雖然增加了時間復雜度,但需要較少的收斂步數。相比于基于查詢表或者其他的函數逼近方法,DFPOPTD有更好的收斂性能,且可以獲得連續行為策略。
DFP-OPTD的性能主要依賴于兩層模糊劃分,而模糊規則庫的逼近性能主要取決于模糊集的隸屬度函數和模糊規則的個數。本文將隸屬度函數和規則個數作為先驗知識給出,且在算法執行過程中不做改變。為了獲得更好的收斂性能,下一步將考慮使用合適的優化算法,使DFP-OPTD能在運行的過程中不斷優化隸屬度函數,并且能夠自適應地調整模糊規則的條數。
[1] SUTTON R S, BARTO A G. Reinforcement Learning: An Introduction[M]. Cambridge: MIT Press, 1998.
[2] 劉全, 閆其粹, 伏玉琛等. 一種基于啟發式獎賞函數的分層強化學習方法[J]. 計算機研究與發展, 2011, 48(12): 2352-2358.LIU Q, YAN Q C, FU Y C, et al. A hierarchical reinforcement learning method based on heuristic reward function[J]. Journal of Computer Research and Development, 2011, 48(12): 2352-2358.
[3] SUTTON R S, MCALLESTER D, SINGH S, et al. Policy gradient methods for reinforcement learning with function approximation[A].Proc of the 16th Annual Conference on Neural Information Processing Systems[C]. Denver, 1999. 1057-1063.
[4] MAEI H R, SUTTON R S. GQ(λ): a general gradient algorithm for temporal difference prediction learning with eligibility traces[A]. International Conference on Artificial General Intelligence[C]. Lugano,2010. 91-96.
[5] SUTTON R S, SZEPESV′ARI CS, MAEI H R. A convergent O(n)algorithm for off-policy temporal-difference learning with linear function approximation[A]. Proc of the 22nd Annual Conference on Neural Information Processing Systems[C]. Vancouver, 2009. 1609-1616.
[6] SHERSTOV A A, STONE P. Function approximation via tile coding:automating parameter choice[A]. Proc of the 5th Symposium on Abstraction, Reformulation and Approximation[C]. New York, USA, 2005.194-205.
[7] HEINEN M R, ENGEL P M. An incremental probabilistic neural network for regression and reinforcement learning tasks[A]. Proc of the 20th International Conference on Artificial Neural Networks[C].Berlin, 2010. 170-179.
[8] PAZIS J, LAGOUDAKIS M G. Learning continuous-action control policies[A]. Proc of the IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning[C]. Washington, 2009. 169-176.[9] BONARINI A, LAZARIC A, MONTRONE F, et al. Reinforcement distribution in fuzzy Q-learning[J]. Fuzzy Sets and Systems, 2009,160(10):1420-1443.
[10] HSU C H, JUANG C F. Self-organizing interval type-2 fuzzy Q-learning for reinforcement fuzzy control[A]. Proc of the 2011 IEEE International Conference on Systems, Man, and Cybernetics[C]. New Jersey, 2011. 2033-2038.
[11] TADASHI H, AKINORI F, OSAMU, et al. Fuzzy interpolation-based Q-learning with continuous states and actions[A]. Proc of the Fifth IEEE International Conference on Fuzzy Systems[C]. New York, USA,2011.594-600.
[12] GLORENNEC P Y, JOUFFE L. Fuzzy Q-learning[A]. Proc of the Sixth IEEE International Conference on Fuzzy Systems[C]. Cambridge, 1997.659-662.
[13] CHANG H S, FU M C, HU J, et al. Simulation-based Algorithms for Markov Decision Processes[M]. New York: Springer, 2007.
[14] LUCIAN B, ROBERT B, BART D S, et al. Reinforcement Learning and Dynamic Programming Using Function Approximation[M]. Florida: CRC Press, 2010.
[15] CASTILLO O, MELIN P. Type-2 Fuzzy Logic: Theory and Applications[M]. New York: Springer, 2008.
[16] TSITSIKLIS J N, ROY V B. An analysis of temporal-difference learning with function approximation[J]. IEEE Transactions on Automatic Control, 1997, 42(5):674-690.
[17] DAYAN P D. The convergence of TD(λ) for general λ[J]. Machine Learning, 1992, 8(3-4):341-362.
[18] 劉次華. 隨機過程[M]. 武漢: 華中科技大學出版社, 2008.LIU C H. Stochastic Process[M]. Wuhan: Huazhong University of Science and Technology Press, 2008.