基于增強學習算法的工業機器人運動規劃研究
在工業4.0和網絡物理生產系統迅速發展的背景下,當今生產系統面臨著一個主要挑戰,即具有高的靈活性和適應性,同時也具有強大的經濟效益。具體來說,工業機器人的運動規劃過程的實施需要細化其運動任務的可變性,使機器人能夠具有自適應處理環境變化的能力。本文提出了一種基于強化學習(RL)的認知增強型6軸工業機器人,用于具有連續軌跡的復雜運動規劃實現。該方法的靈感來自于經典的線環游戲,即從開始到結束沿著曲線的路徑引導金屬環,同時避免線和環之間的任何接觸。研究結果表明,增強學習算法可以更好地控制機器人的運動,并且不需要預先對路徑進行建模或對機器人運動進行編程。此外,通過視覺傳感器(相機)可以對系統進行擴展以充分概括學習環境,使得機器人可以解決新的路徑問題。因此,增強學習算法對于工業機器人和生產系統的適用性來說,具有巨大的未開發的潛力,因此需要一個通用和強大的過程自動化方法。
提出了一種基于增強學習算法和Q-學習算法的工業機器人運動規劃的概念,可以控制機器人能夠自主地按照最適合的策略來解決相應任務。將所提出的方法應用在6軸工業機器人上,控制其來完成線環游戲。研究結果表明,該方法使機器人能夠在幾分鐘內學習正確的軌跡,而且可以積累經驗以節省以后學習的時間。經驗指的是將非關系知識數據庫中的狀態和動作之間的相關性存儲為相應的反饋。機器人人的問題概括的能力和新問題處理能力基于其感知的環境,因此,經驗的積累使得機器人能夠根據前期集的經驗通過排列組合來解決未知的問題。總之,基于增強學習的機器人可以在一定程度上適應生產過程的變化。這些機器人根據其自動收集的經驗,提供了以非常方式整合流程和領域專業知識的巨大潛力。
刊名:Procedia CIRP
刊期:2017年95期
作者:Richard Meyes et al
編譯:陳少帥