RL 算法(強(qiáng)化學(xué)習(xí))通常假設(shè)在獲取觀測值、計算動作并執(zhí)行期間環(huán)境狀態(tài)不發(fā)生變化。這一假設(shè)在仿真環(huán)境中很容易實現(xiàn),然而在真實機(jī)器人控制當(dāng)中并不成立,很可能導(dǎo)致控制策略運(yùn)行緩慢甚至失效。為緩解以上問題,最近谷歌大腦與 UC 伯克利、X 實驗室共同提出一種并發(fā) RL 算法,使機(jī)器人能夠像人一樣“邊做邊思考”。目前,該論文已被 ICLR 2020 接收。
該研究在如下情況中研究強(qiáng)化學(xué)習(xí):在受控系統(tǒng)隨著時間演變的過程中同時對動作進(jìn)行采樣。換句話說,所研究的機(jī)器人必須在執(zhí)行上一個動作的同時考慮下一個動作。就如同人或動物一樣,機(jī)器人必須同時思考及行動,在上一個動作完成之前決定下一個動作。

研究者分別在仿真與真實機(jī)械臂上進(jìn)行實驗
為了開發(fā)用于此類并發(fā)性控制問題的算法框架,研究者從連續(xù)時間的貝爾曼方程開始,隨后以考慮系統(tǒng)延遲的方式進(jìn)行離散化。通過對現(xiàn)有基于價值(value-based)的深度強(qiáng)化學(xué)習(xí)算法進(jìn)行簡單的架構(gòu)擴(kuò)展,該團(tuán)隊提出了一類新型近似動態(tài)規(guī)劃方法,并在模擬基準(zhǔn)任務(wù)和大規(guī)模機(jī)器人抓取任務(wù)上進(jìn)行了評估(機(jī)器人必須邊走邊思考)。