




摘 要:本文針對工業機器人在智能制造中的應用需求,將深度強化學習算法引入工業機器人操作建模中。基于actor-critic算法模型,制定了智能化的工業機器人操作控制策略,對工業機器人進行高精度、高效率操作控制。針對傳統actor-critic算法在初始位姿不確定情況下學習效率較低的問題,提出了基于隨機化逆向任務的自動課程生成算法(ACG-RIT),有效提升了工業機器人在復雜任務中的學習效率和操作成功率。試驗結果表明,ACG-RIT算法在多種幾何體操作任務中均表現出色,平均操作成功率遠高于其他對比算法。
關鍵詞:工業機器人;智能制造;深度學習;ACG-RIT" " " 中圖分類號:TP 242" " " 文獻標志碼:A
隨著科技飛速發展,智能制造已成為全球制造業轉型升級的重要方向。工業機器人是智能制造的關鍵要素,其作用越來越重要,不僅大幅提升了生產效率,降低了人力成本,而且顯著提高了產品質量的穩定性和一致性。工業機器人在智能制造中的應用不僅體現了技術進步的成果,而且是制造業向智能化、自動化轉型的必然選擇[1]。如何更高效地利用工業機器人,使其在智能制造中發揮更大作用,仍然是目前研究的熱點和難點。
本文針對目前工業機器人的關鍵問題,探討工業機器人在智能制造中的應用需求,并引入深度強化學習模型,進行工業機器人操作建模,為提升工業機器人的操作效率和智能化水平提供新的思路和方法。本文研究對推動智能制造技術的發展,促進制造業的轉型升級具有重要意義。
1 基于深度強化學習算法的工業機器人操作建模
1.1 深度強化學習算法在工業機器人中應用需求
隨著智能制造快速發展,工業機器人在該領域的應用需求日益增長,尤其在復雜、多變的制造任務中,傳統的控制方法已無法滿足高效、精確的操作要求[2]。深度強化學習算法是一種深度學習與強化學習相結合的先進方法,為工業機器人的操作控制提供了新的解決方案。深度強化學習算法能夠與環境進行交互,不斷學習和優化控制策略,對工業機器人操作進行高精度控制。它特別適用于處理高維、連續的動作空間和復雜的狀態空間,能夠應對工業機器人在實際操作中面臨的多種不確定性和復雜性[3]。
本文引入深度強化學習中的actor-critic算法模型[4],利用該模型為工業機器人制定智能化的操作控制策略,并采用actor網絡生成動作策略,采用critic網絡評估動作價值,進而結合獎勵函數不斷優化網絡參數,使工業機器人能夠在復雜的制造環境中自主、高效地完成任務,從而滿足智能制造對工業機器人高效、靈活和精確的操作需求。
1.2 工業機器人操作控制建模
在強化學習模型中,根據強化學習算法模型中的學習、更新是否為同一策略,強化學習模型可以分為基于值與基于策略的學習方法。基于值的學習方法可以解決一些低維空間的問題,基于策略的方法可以解決高維、頻次高的空間問題。基于策略的方法可以處理復雜的高維空間問題,但其單步自身更新的學習效率較低,為解決該問題,本文提出actor-critic(AC)算法。AC算法充分結合了2種方法的優點,能夠處理連續、高維空間,還能進行單步快速學習。在actior-critic模型中,actor網絡中的策略梯度將價值函數作為基準迭代,它可以與外界環境進行直接互動,采集到當前環境狀態s,并根據s值選擇動作。actor根據critic網絡評價和策略梯度調整網絡模型,以提高下次評價中的獎勵值。actor-critic模型初始狀態是隨機的,在配送避讓模型中,actor網絡能夠生成動作策略,輸出機械臂的控制指令。critic網絡能夠評估動作的價值,輸出狀態的值函數。利用獎勵函數對actor和critic的參數進行調整,使critic網絡最終評價值更準確,并使actor具有更精準的操作路線。actor-critic算法原理如圖1所示。
深度強化學習中的actor-critic算法應用于機器人機械臂操作的智能化流程如下所示。
第一步,定義狀態空間。需要定義機器人工業機械臂操作任務的狀態空間。狀態空間可以包括機械臂當前的位置、角度和速度等信息,還包括機器人零部件的位置、狀態等。
第二步,定義動作空間。定義機器人機械臂操作任務的動作空間。動作空間包括機械臂的控制指令,可以是機械臂的位置、角度等。
第三步,建立環境模型。根據機器人機械臂操作任務的實際情況建立一個仿真環境模型。該模型可以模擬機械臂的運動和操作過程,并提供狀態和獎勵的反饋。
第四步,設計獎勵函數。根據機器人機械臂操作任務的目標設計一個獎勵函數,來評估機械臂的動作。獎勵函數可以根據操作的準確性、效率等指標來定義,以鼓勵機械臂學習優秀的操作策略。
第五步,構建神經網絡。使用深度學習技術構建actor網絡和critic網絡。actor網絡用于生成動作的策略,輸出機械臂的控制指令;critic網絡用于評估動作的價值,輸出狀態的值函數。
第六步,初始化網絡參數。隨機初始化actor和critic網絡的參數。
第七步,采集數據。在環境模型中運行機械臂,采集一系列狀態、動作和獎勵數據,這些數據將用于訓練和更新神經網絡。
第八步,訓練網絡。使用actor-critic算法進行網絡訓練。采用動態規劃和采樣的方法,不斷優化actor網絡的策略和critic網絡的價值函數。可以使用深度強化學習中的優化算法(Policy Gradient等)來更新網絡參數。
2 強化學習模型的改進
2.1 問題的提出
在機器人工業機械臂操作任務中,由于初始位姿不確定,因此機械臂需要進行大量嘗試來找到適合的操作路徑。深度學習算法通常需要較多的訓練樣本以學習、適應不同的初始位姿,導致效率低下。操作路徑規劃的難度與操作體的初始相對位置密切相關。當初始相對位置較遠或操作體的形狀較復雜時,機械臂需要進行更多的動作調整,才能達到目標位姿,從而增加了操作路徑規劃的難度。2種不同機器人工業機械臂操作任務操作如圖2所示。
圖2(a)表示只需要平移來進行機器人機械操作,圖2(b)表示需要機械臂平移和旋轉才能完成操作任務。如果只采用actor-critic算法,需要機械臂不斷進行試探,效率較低,甚至一直無法學習到某些復雜場景,導致無法完成操作任務。
2.2 基于隨機化逆向任務的自動課程生成算法
鑒于actor-critic模型在工業機器人機械操作任務過程中需要機械臂不斷進行試探,效率較低,本文提出了在actor-critic模型基礎上,引入基于隨機化逆向任務的課程生成算法(Automatic Curiculum Generator based on Randomized Inverse Task,ACG-RIT),解決actor-critic算法在機器人機械操作任務中效率低和學習困難的問題。ACG-RIT算法能夠自動隨機生成一系列由易到難的操作課程。逐步學習任務序列后,機械臂智能體能夠在較低難度的操作任務中建立操作基礎,逐步學習和掌握操作技能,進而逐步挑戰更高難度的任務,取得漸進提高的效果。ACG-RIT算法能夠根據當前階段的操作任務和任務難度,隨機生成合適的目標狀態,并生成對應難度的逆向任務。ACG-RIT算法的流程如圖3所示。
采用ACG-RIT算法可以解決actor-critic算法在機器人機械操作任務中效率低和學習困難的問題,它能夠提供逐步學習的任務序列,自動調整任務難度,使學習曲線平穩并提升學習效率和效果,使智能體能夠更好地學習和掌握操作技能,提高操作任務的完成能力。
為了評估操作任務的難度,本文引入隱式方法來表示任務的難度。定義操作任務T(Si)的難度為D(T(Si)),由于操作任務的難度并不直觀,無法直接將初始位形與目標操作位形的距離作為評判標準,因此,不能定義一個顯式的解析式來表示D(T(Si)),需要將其作為中間計算的輔助量,不直接計算其值。本文使用隱式方法假設操作任務T(Si)的最短操作路徑為Lpi,操作任務T(Sk)的最短操作路徑為Lpk,進而利用公式(1)來描述不同任務間的難度關系。
當執行操作任務時,還要考慮拆卸過程,即逆向任務。在給定目標初始位形Sgoal∈SE(3)的情況下,對操作體施加隨機擾動會生成一條隨機路徑,即Lq:Q0,Q1,Q2,...,Qm,其中Vi∈{0,1,2,...,m},Qi∈Xree且Q0=Sgoal。假設路徑Lq是從Q0到Qm的最短拆卸路徑,當考慮操作任務T(Q)時,路徑Lpi:Qi,Qj-1,...,Q2,Q1,Q0表示操作任務T(Q1)的最短操作路徑,并且這2條路徑的長度相等,如公式(2)所示。
本文在仿真環境中進行了隨機逆向任務的研究。進行足夠多的采樣交互后,操作體和被操作體從最初的操作狀態運動到分離狀態,形成了一條拆卸路徑。可以將這條路徑上的點看作課程,從而得到一組有序的難度課程集合。由于逆向任務的過程是隨機的,可能會出現往回走或形成環路的情況,因此生成的有序難度課程中包括一些難度不同的課程。
3 試驗設計與結果分析
3.1 仿真試驗環境搭建
在將基于隨機化逆向任務的自動課程生成算法應用于工業機器人機械操作的過程中,可以將PyBullet作為強化學習訓練的仿真環境。導入零件CAD模型,利用PyBullet物理引擎設計操作場景,并創建機器人智能體,以執行操作任務。定義合適的動作空間和狀態空間,設計獎勵函數,并使用強化學習算法訓練智能體。使用訓練好的智能體進行試驗和評估,以研究算法的效果和優化操作效率,降低實際操作成本和風險。
3.2 性能評估指標
操作成功率是一種用于評估操作任務執行結果的指標,它表示在一系列操作操作中,成功完成操作的次數與總操作次數間的比例。操作成功率可以反映算法在實際操作任務中的表現,對算法的準確性和穩定性具有重要意義。較高的操作成功率表示算法在執行操作任務過程中能夠有效地進行零件定位、配對和連接,取得設計要求的操作效果。相反,較低的操作成功率表明算法存在定位誤差、配對錯誤或連接失效等問題,需要改進和優化。
3.3 試驗結果和分析
對比試驗基于tianshuo強化學習平臺,該平臺封裝了較多強化學習算法,包括TD3、SAC、ALP-GMM和單一的actor-critic等。測試常見幾何體的操作測試結果,幾何體包括三角形零件、長方形零件、平行四邊形以及“L”形等。對比試驗結果見表1。
在三角形零件操作的測試中,ACG-RIT算法具有較高的操作成功率和穩定性。根據試驗結果,ACG-RIT算法成功率為98%,并且在不同初始位置和姿態的情況下均具有較好的魯棒性。TD3算法在相同測試中的成功率僅為60%。SAC算法和ALP-GMM算法的表現相對較好,成功率分別為75%和80%。
在長方形零件的操作測試中,ACG-RIT算法仍然具有較高的成功率,成功率為93%。TD3算法和SAC算法成功率分別為65%和72%。ALP-GMM算法的成功率為70%。
在平行四邊形的操作測試中,ACG-RIT算法具有出色表現,成功率為95%。TD3算法、SAC算法和ALP-GMM算法的成功率分別為55%、70%和75%。
在“L”形零件的操作測試中,ACG-RIT算法成功率為97%。TD3算法和SAC算法的成功率分別為60%和75%。ALP-GMM算法的成功率為70%。
由對比試驗可知,本文設計的ACG-RIT算法的平均操作成功率為95.75%,遠高于其他模型的操作成功率。
4 結語
本文探討了工業機器人在智能制造中的應用需求,并針對傳統控制方法在執行復雜任務過程中的局限性,提出了基于深度強化學習算法的工業機器人操作建模方法。引入actor-critic算法模型,制定工業機器人智能化的操作控制策略,對工業機器人進行高精度、高效率的操作控制。并針對actor-critic算法在工業機器人初始位姿不確定情況下學習效率低的問題,提出基于隨機化逆向任務的自動課程生成算法(ACG-RIT),有效提升了工業機器人在復雜任務中的學習效率和操作成功率。試驗結果表明,本文設計的ACG-RIT算法在多種幾何體操作任務中均表現出色,平均操作成功率遠高于其他對比算法。
本文不僅為工業機器人在智能制造中的應用提供了新的思路和方法,也為深度強化學習在復雜系統控制領域拓展了新的應用方向。未來還將繼續深化該領域的研究,推動工業機器人在智能制造中發揮更大作用,助力制造業的轉型升級和高質量發展。
參考文獻
[1]蔡興,張愔和.工業機器人應用對企業產能利用率的影響研究[J].當代經濟研究,2024(10):90-102.
[2]史喆瓊.基于PLC與工業機器人的搬運碼垛自動化產線控制系統設計[J].機電信息,2024(19):16-20.
[3]李曉峰,張銀慧,李子陽,等.基于多模態深度學習的實時交互系統設計[J].機械設計,2024,41(增刊2):200-204.
[4]秦天為,馮云劍.基于Actor-Critic自適應PID的鋼筋套絲頭跟蹤檢測控制系統研究[J].工業控制計算機,2024,37(2):75-77.