999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

強(qiáng)化學(xué)習(xí)研究綜述

2010-12-31 00:00:00陳學(xué)松楊宜民

摘要:在未知環(huán)境中,關(guān)于agent的學(xué)習(xí)行為是一個(gè)既充滿挑戰(zhàn)又有趣的問題,強(qiáng)化學(xué)習(xí)通過試探與環(huán)境交互獲得策略的改進(jìn),其學(xué)習(xí)和在線學(xué)習(xí)的特點(diǎn)使其成為機(jī)器學(xué)習(xí)研究的一個(gè)重要分支。介紹了強(qiáng)化學(xué)習(xí)在理論、算法和應(yīng)用研究三個(gè)方面最新的研究成果,首先介紹了強(qiáng)化學(xué)習(xí)的環(huán)境模型和其基本要素;其次介紹了強(qiáng)化學(xué)習(xí)算法的收斂性和泛化有關(guān)的理論研究問題;然后結(jié)合最近幾年的研究成果,綜述了折扣型回報(bào)指標(biāo)和平均回報(bào)指標(biāo)強(qiáng)化學(xué)習(xí)算法;最后列舉了強(qiáng)化學(xué)習(xí)在非線性控制、機(jī)器人控制、人工智能問題求解、多agent系統(tǒng)問題等若干領(lǐng)域的成功應(yīng)用和未來的發(fā)展方向。

關(guān)鍵詞:強(qiáng)化學(xué)習(xí);多智能體;馬爾可夫決策過程

中圖分類號(hào):TP181 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2010)08-2834-05

主站蜘蛛池模板: 国产亚洲精品资源在线26u| 一级一级一片免费| 久久亚洲天堂| 亚洲国产天堂久久综合226114| 国产高清在线观看91精品| 麻豆精品在线播放| 国产办公室秘书无码精品| 欧美日韩一区二区在线播放| 亚洲婷婷在线视频| 热这里只有精品国产热门精品| 亚洲精品无码在线播放网站| 日本欧美视频在线观看| 日韩美毛片| 中文字幕精品一区二区三区视频| 亚洲一级毛片在线观| 免费无码AV片在线观看中文| 中文无码影院| 国产精品视频观看裸模| 99视频只有精品| 国产精品嫩草影院视频| 国产精品免费电影| 国产青青操| 亚洲日本中文字幕乱码中文 | 婷婷激情亚洲| 99re这里只有国产中文精品国产精品| 国产成人精品亚洲日本对白优播| 色欲色欲久久综合网| 蜜芽国产尤物av尤物在线看| 国产精品刺激对白在线| 手机成人午夜在线视频| 国产一区亚洲一区| 中文成人在线| 国产91高跟丝袜| 日韩中文字幕亚洲无线码| 久久精品人人做人人综合试看| 亚洲嫩模喷白浆| 免费女人18毛片a级毛片视频| 久久综合九九亚洲一区| 亚洲国产中文精品va在线播放| 在线看片免费人成视久网下载| 亚洲性影院| 国产成人精品综合| 极品国产在线| 免费AV在线播放观看18禁强制| 老司国产精品视频91| 亚洲精品久综合蜜| 国产va免费精品观看| 国产成在线观看免费视频| 欧美国产精品不卡在线观看| 欧美在线中文字幕| 免费无码AV片在线观看中文| 欧美在线伊人| 欧美天堂久久| 成人午夜免费观看| 日韩国产综合精选| 91视频青青草| 亚洲成AV人手机在线观看网站| 欧美性久久久久| 白浆免费视频国产精品视频| 黄色在线不卡| 欧美激情伊人| 色天堂无毒不卡| 天天综合天天综合| 欧美综合区自拍亚洲综合天堂 | 欧美色图久久| 九九免费观看全部免费视频| 欧美激情视频二区| 亚洲国产成人精品无码区性色| 亚洲无码高清视频在线观看| 精品三级网站| 国产在线拍偷自揄拍精品| 在线观看精品自拍视频| 国产sm重味一区二区三区| 国产黄色免费看| 干中文字幕| 欧美成人二区| 中文字幕在线看| 午夜国产理论| hezyo加勒比一区二区三区| 玩两个丰满老熟女久久网| 国产综合色在线视频播放线视| 呦系列视频一区二区三区|