[朱應(yīng)釗 李嫚 胡穎茂]
機(jī)器人產(chǎn)業(yè)迸發(fā)出巨大潛能,機(jī)器人與人類(lèi)日常生活的關(guān)系越來(lái)越密切,可以被用于清潔、果園采摘、巡檢、導(dǎo)盲、骨科手術(shù)、步行康復(fù)等等。但是,這些機(jī)器人絕大部分仍存于人工編程行為的“傻瓜式”階段,僅擅長(zhǎng)于單方面的技能,或只適用于解決特定的任務(wù),在思維方式、學(xué)習(xí)能力、推理決策、調(diào)整適應(yīng)等方面與人類(lèi)還存在較大區(qū)別。目前,深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)常常被考慮用于提高機(jī)器人的智能水平。DRL是一類(lèi)既能在和環(huán)境交互中學(xué)習(xí)最優(yōu)策略也能感知復(fù)雜輸入的人工智能技術(shù)。可是,在實(shí)際的應(yīng)用中,特別是需要多步順序決策(sequential decision)時(shí),其往往會(huì)存在一個(gè)較嚴(yán)重的問(wèn)題就是獎(jiǎng)勵(lì)稀疏。即智能體不能獲得足夠多的獎(jiǎng)勵(lì),容易造成智能體學(xué)習(xí)緩慢,甚至不能繼續(xù)進(jìn)行有效學(xué)習(xí)。通常人類(lèi)每天得到的獎(jiǎng)勵(lì)也很少,處于這種獎(jiǎng)勵(lì)稀疏的條件下,人類(lèi)依舊可以持續(xù)學(xué)習(xí),提高知識(shí)量或掌握新技能。為了讓機(jī)器人也能克服獎(jiǎng)勵(lì)稀疏的問(wèn)題,提高學(xué)習(xí)效率,將模仿學(xué)習(xí)應(yīng)用到機(jī)器人領(lǐng)域是個(gè)良好的選擇。模仿學(xué)習(xí)協(xié)助機(jī)器人對(duì)專(zhuān)家的示范進(jìn)行觀察與模仿,以獲得最優(yōu)的策略模型,專(zhuān)家的示范一般是專(zhuān)家針對(duì)各任務(wù)的決策數(shù)據(jù)。模仿學(xué)習(xí)不再需要像深度強(qiáng)化學(xué)習(xí)那樣需要耗費(fèi)大量時(shí)間去設(shè)計(jì)一個(gè)確定的獎(jiǎng)勵(lì)函數(shù),極大地利用上專(zhuān)家的演示或經(jīng)驗(yàn)作為自身的先驗(yàn)知識(shí),正如牛頓所說(shuō)的“站在巨人的肩膀上”,賦予機(jī)器人模仿學(xué)習(xí)的能力,使得它們能快速適應(yīng)各項(xiàng)復(fù)雜新任務(wù),提高模型的通用性。……