摘要:在未知環(huán)境中,關(guān)于agent的學(xué)習(xí)行為是一個(gè)既充滿挑戰(zhàn)又有趣的問題,強(qiáng)化學(xué)習(xí)通過試探與環(huán)境交互獲得策略的改進(jìn),其學(xué)習(xí)和在線學(xué)習(xí)的特點(diǎn)使其成為機(jī)器學(xué)習(xí)研究的一個(gè)重要分支。介紹了強(qiáng)化學(xué)習(xí)在理論、算法和應(yīng)用研究三個(gè)方面最新的研究成果,首先介紹了強(qiáng)化學(xué)習(xí)的環(huán)境模型和其基本要素;其次介紹了強(qiáng)化學(xué)習(xí)算法的收斂性和泛化有關(guān)的理論研究問題;然后結(jié)合最近幾年的研究成果,綜述了折扣型回報(bào)指標(biāo)和平均回報(bào)指標(biāo)強(qiáng)化學(xué)習(xí)算法;最后列舉了強(qiáng)化學(xué)習(xí)在非線性控制、機(jī)器人控制、人工智能問題求解、多agent系統(tǒng)問題等若干領(lǐng)域的成功應(yīng)用和未來的發(fā)展方向。
關(guān)鍵詞:強(qiáng)化學(xué)習(xí);多智能體;馬爾可夫決策過程
中圖分類號(hào):TP181 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2010)08-2834-05