999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

增強(qiáng)學(xué)習(xí)算法的性能測(cè)試與對(duì)比分析

2010-12-31 00:00:00李兆斌連傳強(qiáng)
計(jì)算機(jī)應(yīng)用研究 2010年10期

摘要:研究了幾類(lèi)典型增強(qiáng)學(xué)習(xí)算法的性能評(píng)估問(wèn)題,包括Q-學(xué)習(xí)算法、最小二乘策略迭代(LSPI)和基于核的最小二乘策略迭代(KLSPI)算法等,重點(diǎn)針對(duì)Markov決策問(wèn)題(MDP)的值函數(shù)平滑特性對(duì)算法性能的影響進(jìn)行了研究。分別利用值函數(shù)非平滑的組合優(yōu)化問(wèn)題——旅行商問(wèn)題(TSP)和值函數(shù)平滑的Mountain-Car運(yùn)動(dòng)控制問(wèn)題,對(duì)不同增強(qiáng)學(xué)習(xí)算法的性能進(jìn)行了測(cè)試和比較分析。分析了三種算法針對(duì)不同類(lèi)型問(wèn)題的各自特點(diǎn),通過(guò)實(shí)驗(yàn)對(duì)比,驗(yàn)證了近似策略迭代算法,特別是KLSPI算法在解決值函數(shù)平滑的序貫決策問(wèn)題時(shí)性能更優(yōu)。通過(guò)分析實(shí)驗(yàn)結(jié)果表明,MDP值函數(shù)的平滑程度是影響近似策略迭代算法性能表現(xiàn)的重要因素。

關(guān)鍵詞:增強(qiáng)學(xué)習(xí);值函數(shù);近似策略迭代;平滑性

中圖分類(lèi)號(hào):TP309 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2010)10-3662-04

主站蜘蛛池模板: 99久久精品国产综合婷婷| 欧类av怡春院| 久久鸭综合久久国产| 国产欧美日韩资源在线观看| 在线观看91精品国产剧情免费| 久久黄色一级片| 国内精品小视频福利网址| 青青操视频在线| 国产精品999在线| 亚洲开心婷婷中文字幕| 亚洲国产AV无码综合原创| 国产91蝌蚪窝| 潮喷在线无码白浆| 激情综合婷婷丁香五月尤物| 一区二区无码在线视频| 亚洲成人在线免费| 欧美综合区自拍亚洲综合天堂| 99re这里只有国产中文精品国产精品| 91免费国产在线观看尤物| 国产剧情无码视频在线观看| 成人亚洲国产| 不卡视频国产| 久久永久视频| 亚洲美女操| 亚洲精品第1页| 国产女人水多毛片18| 日本国产精品一区久久久| 在线免费a视频| 欧美五月婷婷| 91精品国产综合久久不国产大片| 久久久噜噜噜久久中文字幕色伊伊| 青青青亚洲精品国产| 久草视频一区| 日韩视频精品在线| 69视频国产| 亚洲欧洲自拍拍偷午夜色| 粗大猛烈进出高潮视频无码| 97国内精品久久久久不卡| 99热这里只有精品久久免费| 欧美国产日产一区二区| 蜜桃视频一区二区三区| 欧美日韩国产系列在线观看| 丁香婷婷综合激情| 91九色国产在线| 天天操精品| 欧美午夜在线观看| 69av在线| 午夜无码一区二区三区| 91无码人妻精品一区二区蜜桃| 欧美日本在线播放| 亚洲国产中文在线二区三区免| 午夜国产不卡在线观看视频| 999精品色在线观看| 日韩性网站| 国产熟睡乱子伦视频网站| 精品久久高清| 欧美精品黑人粗大| 人妻21p大胆| 亚洲男女在线| 中文字幕亚洲乱码熟女1区2区| 天天综合网色| 91青青草视频在线观看的| 国产亚洲精品自在线| 欧美日韩91| 看国产毛片| 久久综合结合久久狠狠狠97色| 深夜福利视频一区二区| 热九九精品| 国产精品福利一区二区久久| 欧美狠狠干| 亚洲成aⅴ人片在线影院八| 欧美午夜一区| 国产欧美日韩精品第二区| 国产手机在线观看| 亚洲午夜久久久精品电影院| 波多野结衣久久高清免费| 国产成年女人特黄特色大片免费| 久久99国产乱子伦精品免| 韩日午夜在线资源一区二区| 亚洲码一区二区三区| 亚洲区欧美区| 在线观看免费国产|