摘要:研究了幾類(lèi)典型增強(qiáng)學(xué)習(xí)算法的性能評(píng)估問(wèn)題,包括Q-學(xué)習(xí)算法、最小二乘策略迭代(LSPI)和基于核的最小二乘策略迭代(KLSPI)算法等,重點(diǎn)針對(duì)Markov決策問(wèn)題(MDP)的值函數(shù)平滑特性對(duì)算法性能的影響進(jìn)行了研究。分別利用值函數(shù)非平滑的組合優(yōu)化問(wèn)題——旅行商問(wèn)題(TSP)和值函數(shù)平滑的Mountain-Car運(yùn)動(dòng)控制問(wèn)題,對(duì)不同增強(qiáng)學(xué)習(xí)算法的性能進(jìn)行了測(cè)試和比較分析。分析了三種算法針對(duì)不同類(lèi)型問(wèn)題的各自特點(diǎn),通過(guò)實(shí)驗(yàn)對(duì)比,驗(yàn)證了近似策略迭代算法,特別是KLSPI算法在解決值函數(shù)平滑的序貫決策問(wèn)題時(shí)性能更優(yōu)。通過(guò)分析實(shí)驗(yàn)結(jié)果表明,MDP值函數(shù)的平滑程度是影響近似策略迭代算法性能表現(xiàn)的重要因素。
關(guān)鍵詞:增強(qiáng)學(xué)習(xí);值函數(shù);近似策略迭代;平滑性
中圖分類(lèi)號(hào):TP309 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2010)10-3662-04