999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進行為克隆算法的機器人運動控制策略

2025-08-03 00:00:00黃小霞陽波向鑫陳靈陳中祥孫舜堯肖宏峰
計算機應用研究 2025年6期
關鍵詞:方塊編碼器注意力

中圖分類號:TP242.6 文獻標志碼:A 文章編號:1001-3695(2025)06-009-1668-08

doi:10.19734/j.issn.1001-3695.2024.11.0474

Robot motion control strategy based on improved behavior cloning algorithm

Huang Xiaoxia, Yang Bo? ,Xiang Xin,Chen Ling,Chen Zhongxiang,Sun Shunyao, Xiao Hongfeng (College of Engineeringamp; Design,Hunan Normal University,Changsha 41oo81,China)

Abstract:This paper addressed the challenges of complex motion control strategy training,ineffcientand imprecisepath planing executioninrobotsperformingfineoperationssuchasdual-armcooperativeinsertiontasks.Itproposedanimproved robotbehavior cloning algorithmbasedonmulti-scale feature pyramidsandatention mechanisms.Thealgorithmcombinedresidual networksandfeaturepyramidstodesignthebackbone network,extractingandfusingmulti-scaleimagefeatures,which enhancedtherobot’senvironmentalperceptionand visualfeedback capabilities.Itintroducedanactionsegmentation module to improvetheauracyandsmoohnessofcontrol strategies,reducingcompounderrors inbehaviorcloning.Additionally,the algorithmtrainedthecontrol strategyasaconditional varitionalautoencoder(CVAE)using theatentionmechanism to learn thedistributionofdemonstrationdataandcapturethecorelationbetween image features andactions.This appoachimproved thegeneralizationabilityandadaptabilityofthestrategyinunfamiliarenvironments.Simulationresultsshowthattheproposed algorithmoutperformsfivebaselinemodels intermsofsuccessrateandtrajectorysmoothnessintwofineoperationtasks.These results demonstrate thatthe algorithm can execute precise robot fine operation tasks through simple training.

Key words:precision operation of robot;motion control strategy;behavioral cloning;action sequence

0 引言

隨著機器人技術的不斷進步,雙臂機器人在工業、醫療、家庭等多個領域的應用日益廣泛。然而,精細的操作任務如雙臂轉移、協同插孔等,對機器人來說是較為困難的,機器人要完成這些精細操作,就需要有精確的環境感知和視覺反饋以及高效的運動控制策略[1,2]。大多數機器人控制方法[3-5]主要依賴于手動設計的規則和傳統的控制算法,難以適應精細化和復雜化的任務需求。

近年來,隨著機器學習技術[6.7]的進步,模仿學習方法在機器人控制技術中得到了廣泛應用[8\~10]。模仿學習方法的主要特點在于其能夠通過觀察和學習他人的示范來獲取技能,而無須顯式地編程所有可能的情況和反應[11\~13]。這種方法尤其適用于需要快速部署和實時響應的應用,如服務型機器人和協作機器人。此外,模仿學習還能夠通過收集和分析大量的實際數據來提高機器人的運動精度和適應性,從而增強其在復雜環境中的表現能力。傳統的模仿學習方法例如基于高斯混合模型的運動生成[14]和基于有監督學習的行為克隆[15],已經在機器人的動作規劃和學習中展現出了一定的成效。然而,模仿學習方法也存在一些挑戰和局限性。首先,它們通常依賴于高質量和多樣性的訓練數據,因此在數據獲取和標注方面可能會面臨挑戰,為了達到較好的學習效果,模仿學習可能需要大量的示范數據。在實際應用中,收集這些數據可能既費時又費力。其次,模仿學習方法的泛化能力可能受到限制,特別是在面對未知環境或者復雜的非結構化任務時,因為模仿學習學到的行為通常是靜態的,不會根據環境的變化或反饋進行調整,這限制了模型在面對環境變化時的適應性,所以模仿學習方法在處理動態和不確定性方面可能表現不佳。而且模仿學習在許多復雜任務中存在累積誤差的問題,這些因素都可能影響機器人在實際應用中的穩定性和可靠性[16]。為了解決這些問題,一些研究提出基于模仿學習改進的機器人運動控制方法,文獻[17]以物體投擲作為激勵用例,參考多種輸入數據模態,通過動作捕捉技術收集到的數據用于訓練模型。文獻[18]通過雙邊控制和模仿學習,機器人能夠學習如何在人機協作環境中控制動態交互,提高了機器人在復雜環境中的適應能力。文獻[19]通過引入自然語言,建立了人類專家與機器人之間的有效溝通渠道,可以傳達任務的關鍵方面。文獻[20]通過結合RGB-D圖像和隱馬爾可夫模型提高機器人模仿學習的智能層次,并能夠處理中間邏輯關系。文獻[21]通過改進交叉熵損失和引入噪聲網絡模型來增強模仿學習在對抗攻擊和噪聲干擾下的魯棒性。文獻22]引入能夠學習示教數據分布的條件變分自編碼器(CVAE)方法到行為克隆中,將來自相機的RGB圖像映射到動作,并提出動作分塊和時間集成提升策略的平滑性。上述文獻局限于無法做到簡單的訓練與生成的控制策略高精度、高泛化性并存。

為了更精確、高效地執行機器人運動控制,本文提出了一種基于多尺度特征金字塔和注意力機制改進的機器人行為克隆算法。通過引入特征金字塔模塊加強backbone網絡提取圖像特征的能力,以提高機器人對運動環境的目標檢測能力;使用多層自注意力模塊、交叉注意力模塊組成CVAE解碼器以加強模型對序列中不同位置元素之間關系的理解,生成機器人在當前觀察下更精確、高效的動作序列。

本文工作的貢獻如下:

a)提出一種引入多尺度特征金字塔融合不同尺度特征的backbone網絡(F-backbone),提高機器人在精細操作任務中感知環境中目標物的能力。b)提出一種結合多層自注意力模塊、交叉注意力模塊的CVAE解碼器網絡(A-CVAE),加強模型對圖像關鍵信息的聚焦能力,捕獲圖像特征和動作的相關性以生成更精準、高效的機器人動作序列。c)提出一種基于多尺度特征金字塔和注意力機制改進的機器人行為克隆算法(FA-BC),實現精確、高效的機器人運動策略。d)通過仿真實驗驗證了所提算法在雙臂機器人物品轉移、插孔等精細操作任務中的優越性,特別是在成功率和軌跡平滑方面。

1問題描述

模仿學習使機器人能夠通過觀察人類或其他機器人(稱為“專家示范者”)的行為來學習新的技能,即利用高質量的決策示例來生成類似決策。模仿學習主要有三個部分構成,首先是策略神經網絡,其次是專家示范動作,第三是環境模擬器。對于一個馬爾可夫決策過程框架:

M=(S,A,P,R,γ,ρ)

其中: s 和A分別是狀態和動作空間; 指定了環境轉移概率: 指定了獎勵; γ∈(0,1] 是折扣因子 指定了初始狀態分布。由專家策略 πE 收集到的數據集為 D={(si,ai)}i=1m ,其中每一個狀態動作對是由 πE 和環境交互產生的。決策者的目標是找到一個穩態策略 π:SΔ(A) 來使累計獎勵最大化,公式為

(204號 (2)并最小化與專家策略的值函數差異: ,即期望 π 能從專家示例中很好地恢復出專家的決策行為來使得決策者的值函數比較大。

1.1專家示范數據構建

對于模仿學習來說,首先需要專家給出一些模仿的數據,稱為專家示范數據,通常是專家去觀測當前時刻的環境是怎樣的狀態,專家在這個狀態下給出什么動作,動作作用于環境之后會進入下一狀態,在這個新的狀態下專家又做出什么動作,將這一系列數據延續下去,將其命名為專家示范數據集。通過將專家示范數據集分解為狀態與動作的對應關系,機器學習中的模仿學習便是在這些數據基礎上,學習到一種較為優秀的策略。

1.2行為克隆

模仿學習最主流的方法是行為克隆。行為克隆通過監督學習的方式,讓機器學習狀態和動作之間的相對應關系。首先,算法將專家的示范數據拆分成狀態和動作對,這些數據就變成了有標記的數據。然后將狀態作為神經網絡的輸入,將動作作為神經網絡的輸出,通過訓練神經網絡,讓機器學習狀態和動作之間的映射關系。

行為克隆算法學習方法如圖1所示。首先把訓練數據分成訓練集合與驗證集合,通過最小化訓練集的誤差來進行訓練,直到驗證集的誤差不再收斂。訓練完成后將訓練好的神經網絡應用于實際環境中,從環境中獲取當前狀態,利用神經網絡決定相應的動作,并作用于環境,如此循環直到任務完成,以評估訓練效果。

圖1行為克隆算法學習過程

1.3 行為克隆的不足

即使有高質量的演示,行為克隆也需要精確的視覺反饋,如圖2所示,預測動作中的小錯誤會導致狀態的大差異,加劇模仿學習的復合誤差問題。假設可以尋找到一個策略 π ,其與最優策略的損失函數值小于給定的精度 ? ,這個策略與專家策略的決策質量上有如式(3)所示的保證:

可以看到,損失函數值越小,兩者的值函數差異越小。這個差異是以 1/(1-γ)2 的速度在放大。這個現象在模仿學習中被稱作為復合誤差,綜合來看,它的誤差在每一步累積,而且隨著其誤差的累積,它會越來越脫離原來訓練時候的數據,導致行為克隆雖然用起來很方便,但是它的效果會很有限。然而在機器人的精細操作任務中,如果機器沒有辦法完全復制專家的行為,產生了一點偏差,最后得到的結果就會差很多。此外,當訓練數據少的時候,模型無法訓練出完整的策略分布,而且行為克隆算法只能依賴已有的數據和模式,即只能復制專家示范者在訓練數據中展示的行為,如果遇到訓練數據中沒有見過的情況,由于缺乏適應性和創造性,算法無法獨立生成新的解決方案或適應未知的變化環境,泛化能力較差。

圖2行為克隆中的復合誤差Fig.2Compound error in behavioral cloning

2改進行為克隆算法

為解決行為克隆算法復合誤差的問題,本文基于多尺度特征金字塔設計了融合不同尺度特征的backbone網絡,提高機器人在精細操作任務中感知環境和視覺反饋的能力。為了進一步提高策略的精準性,引入動作分塊和時間集成,策略預測了接下來 k 個時間步的自標關節位置,并在重疊的動作塊上進行平均,以產生既準確又平滑的軌跡。

為解決行為克隆算法只能簡單復制專家示范者的行為,泛化性能不足的局限,本文引人能夠學習示教數據分布的條件變分自編碼器(CVAE)方法以捕獲數據中的可變性。如圖3所示,基于自注意力模塊、交叉注意力模塊設計CVAE,將機器人控制策略訓練為一個生成模型,由輸入的機器人當前環境的RGB圖像和關節位置生成下一時間段的機器人動作序列。

圖3CVAE模型總覽

2.1基于特征金字塔的backbone 網絡模塊

為了提高機器人在精細操作任務中感知環境和視覺反饋的能力,本文設計了基于特征金字塔的backbone網絡用于從輸人的機器人運動場景RGB圖像中提取多尺度特征,通過特征金字塔網絡(FPN)增強這些特征的表達能力。如圖4所示,輸入圖像首先通過ResNet提取特征,然后FPN處理這些特征以生成不同尺度的特征圖。最后,將特征圖與位置編碼相結合,為后續任務提供富含位置信息的特征表示。整個網絡能夠有效地捕捉圖像中的多尺度信息和位置關系,從而提高視覺任務的性能。

圖4基于特征金字塔的backbone網絡 Fig.4Backbone network based on feature pyramid

FPN包含自下而上網絡、自上而下網絡、橫向連接。最左側為ResNet18,用于提取圖像特征,ResNet的核心公式為 y= F(x,Wi)+x ,通過將輸入特征 x 與殘差映射 F 相加,得到輸出y,ResNet 的殘差塊可以表示為 y=H(x)+x ,輸出特征由殘差塊中的卷積層組 H(x) 和輸入特征組成。如圖4所示,C1標識了ResNet的前幾個卷積層和池化層,而C2~C5則分別對應于ResNet中的不同卷積模塊。這些模塊內部包含了多個Bottle-neck單元,每個模塊內部的特征圖尺寸保持一致,而不同模塊間的特征圖尺寸則逐級減小。特征金字塔網絡(FPN)輸出四個不同尺度的特征圖,根據 RoI 的大小,選擇相應的特征圖進行特征提取:較大的 RoI 會在更深的特征圖如P5上進行提取,而較小的 RoI 則會在較淺的特征圖如P2上進行提取,FPN的級別 (Pk) 是通過式(4)。

將寬度為 w 、高度為 h 的 RoI 分配得來的,224是標準的ImageNet 預訓練大小,對于 ResNet,k0 設置為4。FPN的上采樣模塊為

y=F(x)+U(y

其中: y 是上采樣模塊的輔助特征; F(x) 是上采樣模塊的卷積層; U(y) 是上采樣模塊的上采樣操作;FPN的下采樣模塊為

y=D(x)

D(x) 是下采樣模塊的卷積層。首先,通過在C5上執行1×1 卷積操作來減少通道數,進而生成 P5 。接著,對P5執行上采樣操作以獲得P4、P3和P2,這一過程的目的是為了得到與C4、C3和C2尺寸一致的特征圖,以便于后續進行逐元素加和。這里使用的是2倍最近鄰上采樣方法,在生成的圖像中,位置 (i,j) 的像素值直接由原圖中位置 (2i,2j) 的像素值復制而來,而不是采用非線性插值。為了將上采樣后的高語義特征與較淺層的精確定位特征相結合,上采樣后的特征圖在尺寸上與對應的淺層特征圖匹配,并將通道數統一調整為512。因此,需要對C2\~C4的特征圖進行卷積處理,使其通道數也達到512,之后進行逐元素加和以形成P4、P3和P2。由于C1的特征圖尺寸較大且包含的語義信息有限,故未將其納入橫向連接。在完成特征圖的逐元素加和之后,通過 3×3 卷積進一步融合P2~P4,以消除上采樣過程中產生的混疊效應,并生成最終的特征圖。FPN通過將深層語義信息傳遞到更淺層,增強了淺層特征的語義信息,從而實現了具有高分辨率和豐富語義信息的特征提取。將ResNet18與FPN相結合,backbone網絡能夠同時利用深度的表示能力和多尺度的上下文信息,從而更好地感知機器人運動場景中的目標物并作出相應的視覺反饋。

2.2動作分塊和時間集成模塊

為了進一步減少模仿學習中的復合誤差,產生既準確又平滑的軌跡,本文引入一種與像素到動作策略兼容的方式來減少高頻收集的長軌跡的有效視域,參考文獻[22]把動作分塊和時間集成加到策略中,基于Transformers實現動作分塊策略,通過動作分塊來減少任務的有效視界。對于每種任務,策略都預測了接下來 k 個時間步的目標關節位置,而不僅僅是一次一步,即預測一個動作序列而不是單個動作,并在重疊的動作塊上進行平均,將個體動作進行分組并作為一個單元執行,從而更有效地存儲和執行。例如,雙臂插孔協作任務的一組動作可以對應于抓住凹槽和插銷或將插銷插入凹槽中。如圖5所示,動作塊大小固定為 k :每 k 步接收一個觀察,并生成下一組的 k 個動作,然后依次執行這些動作,這意味著任務的有效視界減少了 k 倍。

圖5動作分塊與時間集成Fig.5Action chunking and temporal ensembling

策略模擬 而不是 。單步策略將對抗與時間相關的干擾因素,例如示范數據的過程中間出現暫停,因為行為不僅取決于狀態還取決于時間步長。通過采用動作分塊方法可以緩解這種混淆。這樣做可以使不同的動作塊相互重疊,在給定的時間步長上產生多個預測動作。時間集成通過加權平均對這些預測進行處理,指數加權公式為

其中: ??w0 表示最早動作的權重,新觀察到達時速度由參數 m 決定,較小的 ∣m∣ 意味著更快地納人新觀察。與典型平滑方法不同(當前動作與相鄰時間步中的動作被聚合在一起,那樣會引入偏差),只將同一時間步內的預測動作進行聚合,在 t=n 時最終采用什么動作,由 t=0,t=1,t=2,…,t=k-1 這 k 段進行指數加權平均,最終能夠產生準確且平滑流暢的機器人運動效果。

2.3基于注意力改進的CVAE模塊

行為克隆算法只能簡單復制專家示范者的行為,如果遇到訓練數據中沒有見過的情況,算法很容易生成錯誤的行為,無法正確地泛化到新的環境中。因此本文將策略訓練為條件變分自編碼器(CVAE),使模型能學習示教數據分布,捕捉數據的可變性。結合多層自注意力模塊、交叉注意力模塊設計了CVAE解碼器網絡,加強模型對圖像關鍵信息的聚焦能力,捕獲圖像特征和動作的相關性以生成更精準、高效的機器人動作序列。

首先采集機器人的運動場景RGB圖像,以及兩個七自由度機器人手臂的關節位置(總共 7+7=14 自由度)作為模型的輸入。CVAE包括CVAE編碼器和CVAE解碼器,編碼器包含一個Transformerencoder,解碼器包含一個修改后的Transformerencoder和一個修改后的Transformerdecoder,如圖6、7所示。使用圖6底部藍色所示(見電子版)的CVAE編碼器推斷機器人的動作類型變量z。在編碼器的輸入階段,將隨機初始化的學習權值[CLS]token、關節位置的嵌人表示embeddedjoints和動作序列的嵌入表示embeddedactionsequence合并成一個序列。為了將關節位置和動作序列轉換成適合Transformer編碼器的格式,使用線性層linearlayer1將動作序列從 k×14 維投影到 k×512 維,使用線性層linearlayer2將關節位置從14維投影到512維。合并這三個輸入后,形成了 (k+2)× embedding-dimension的序列,即 (k+2)×512 。編碼器對輸入序列進行處理后只取第一個輸出 z 變量,這個輸出對應于[CLS]標記,指定了機器人的動作類型。然后,使用另一個線性網絡來預測分布的均值和方差,并將它們參數化為對角高斯分布。為了在采樣過程中進行反向傳播,使用了重新參數化的方法,這種方法允許在采樣過程中對編碼器和解碼器進行聯合優化。然后將z變量輸入圖6上部分的CVAE解碼器中的Transformerencoder。

圖6中Transformerencoder的輸入還有來自經backbone網絡提取得到的機器人運動場景RGB圖像的特征序列。每個圖像通過ResNet18處理,得到一個 15×20×728 的特征圖。然后,這個特征圖被壓平為一個 300×728 的特征序列,再通過一個線性層投影到512維的嵌入空間,并添加了一個2D正弦位置嵌人來保留空間信息。接下來,對來自 n 個攝像機的圖像重復上述操作,將來自每個攝像機的特征序列連接起來,得到一個 n×300×512 的特征序列,作為Transformerencoder的輸人之一。Transformerencoder的最后一個輸入是機器人當前的關節位置joints。關節位置joints和類型變量 z 分別通過線性層投影到512維。最終,Transformer編碼器的輸入是形成一個[(n×300)+2]×512 的特征序列,它包含了來自 n 張圖像的特征、關節位置和類型變量的特征。Transformerencoder layer通過兩個多頭自注意力層來編碼輸人序列,每個自注意力層后接一個殘差連接和層歸一化,通過自注意力機制捕捉序列內部的依賴關系,并經前饋網絡提供非線性變換以增強表示能力,同時使用dropout和層歸一化來穩定訓練并防止過擬合,最終得到輸入序列經過編碼后的表示,這些表示捕捉了序列內部的長距離依賴關系和非線性特征。具體而言,輸入序列首先通過第一個自注意力層捕捉輸入序列中不同位置的依賴關系,計算出每個位置的上下文表示,接著是一個前饋神經網絡,包括兩個線性層和激活函數,用于在每個位置上進一步處理和轉換特征及非線性變換,同樣通過殘差連接和層歸一化處理。然后經過第二個自注意力層,讓模型在不同的注意力機制下學習輸入序列的不同特征和關系,進一步提取和整合輸入序列的信息,以及捕獲更復雜的序列依賴關系。Transformerencoderlayer引入了額外的注意力計算,允許模型在不同的注意力機制下學習輸人序列的不同特征和關系,更好地捕捉輸入序列中的長距離依賴關系和更復雜的模式,使得模型能夠更好地適應復雜的序列建模任務。

圖6CVAE編碼器和CVAE解碼器中的Transformerencoder部分Fig.6 Transformer encoder of CVAE encoder and CVAEdecoder

如圖7,CVAE解碼器中Transformerdecoder的輸入包含兩部分:一部分是固定維度的正弦位置嵌入,作為解碼器的查詢(query),維度為 k×512 ;另一部分是來自Transformerencoder輸出的特征,這些特征在解碼器的交叉注意力層中作為鍵(keys)和值(values)。Transformerdecoderlayer包含三個多頭注意力層和一個前饋神經網絡,每個組件都通過殘差連接和層歸一化進行處理。第一個自注意力層處理目標序列以捕捉序列內部的依賴關系,第二個交叉注意力層(編碼器-解碼器注意力)使用編碼器記憶(memory)和位置編碼(pos)對經過自注意力調整后的目標序列進行注意力計算,將目標序列與編碼器的輸出相結合以考慮上下文信息,用于處理輸入序列中不同位置之間的關系和重要性,接著通過線性變換和激活函數(linearl,activation,linear2)實現前饋神經網絡的計算過程,用于增強特征表示和提高模型的非線性建模能力。然后經過添加的第三個交叉注意力層再次對目標序列和編碼器記憶進行注意力計算,進一步加強模型對輸入序列信息的理解和處理能力,更有效地捕捉目標序列和記憶之間的復雜依賴關系,進而增加了模型的深度和復雜度,幫助模型更好地適應和學習復雜的序列關系、更好地捕捉和處理序列內部的復雜依賴關系,從而提升了模型的泛化能力和性能表現。整個結構通過dropout來進行正則化和減少過擬合,并通過位置編碼來考慮序列的位置信息。最后輸出得到經過編碼和處理的目標序列表示,它包含了輸入序列經過多層變換后的豐富特征表示,輸出維度同樣是k×512 ,然后通過一個多層感知機(MLP)進行下投影,將輸出維度降至 k×14 ,這對應于接下來 k 個步驟的預測目標關節位置。通過這種方式,解碼器在接收到編碼器的輸出后,能夠精確、高效地預測接下來的動作序列。CVAE編碼器只在訓練策略時使用,在測試時丟棄CVAE編碼器,將 z 設置為先驗的平均值(即零)。策略直接將來自商品網絡相機的RGB圖像映射到動作,生成以當前觀察為條件的動作序列。

結合上述三大模塊組成最終的基于改進行為克隆算法,首先訓練生成機器人控制策略,然后測試策略的有效性,算法偽代碼如下:

算法1用于訓練機器人控制策略的算法輸入:專家示范數據 D ,動作分塊尺寸 k ,權重 β 輸出:生成預測動作 的機器人控制策略 πθ 。初始化 χt 時間步的動作和觀察分別為 at 表示沒有圖像觀察的 ot ,初始化encoder ;//初始化編碼器生成 z 的分布初始化decoder ;//初始化解碼器生成策略for n=1 to N dosample ot,at:t+k from 獲取機器人運動場景觀察和動作sample z from //獲取機器人動作類型變量zpredict from /根據策略預測動作(20 //重構損失(20 //正則化損失update θ ? with ADAM and L=Lreconst+βLreg (204號//更新參數并計算總的損失算法2用于測試機器人控制策略的算法輸入:訓練好的策略 πθ ,決策次數 T ,權重 m? 輸出;機器人在當前狀態的下一組動作序列 。初始化FIFO緩沖器 B[0;T] , B[t] 存儲時間步 χt 的預測動作;for t=1,2,…,T dopredict with where z=0 (20//將編碼器丟棄后預測動作add to buffers respectively//添加預測動作到緩沖器中obtain current step actions At=B[t] //獲取當前步驟動作apply ,with 2//應用權重計算當前要執行的動作

3 仿真實驗與分析

本章使用對比實驗對改進后的行為克隆算法進行分析和驗證。實驗環境:Ubuntu20.04.6LTS(FocalFossa)操作系統、NVIDIAGeForceRTX4090顯卡、13thGenIntelCorei9-13900K處理器的計算機,仿真平臺MuJoCo2.3.7。仿真實驗的目的是通過模擬一個真實的雙臂機器人精細操作環境,用FA-BC算法與模仿學習中一些先進的算法如ACT、BC-ConvMLP、BeT、RT-1、VINN進行比較,從而驗證本文算法在雙臂機器人精細操作方面的卓越表現,并設計消融實驗測試F-backbone網絡和A-CVAE解碼器對優化行為克隆算法的影響。

實驗所用的超參數如表1所示。

表1實驗所用的超參數Tab.1Hyperparameters used in the experiment

3.1仿真對比實驗設計

本文在 MuJoCo 中構建了兩個模擬的雙臂機器人精細操作任務環境。任務一:雙臂協作傳送立方體,環境中包含左右兩個機械臂和一個紅色立方體,首先由右臂撿起桌子上的紅色立方體,然后將其放在另一只手臂的夾持器內。由于立方體和左夾鉗之間的間隙很小(約 1cm ),小錯誤會導致碰撞和任務失敗。任務二:雙臂協作插孔任務,環境包含左右兩個機械臂和一個藍色的凹槽和紅色的插銷,左臂和右臂需要分別拿起凹槽和插銷,凹槽內設計有一個用于感應插銷正確插入的引腳,然后雙臂在空中完成插孔操作,使插銷無碰撞準確接觸到凹槽內的引腳,插入階段的間隙約為 5mm 。兩個任務的初始環境如圖8所示。環境在每次加載開始時被初始化,其中紅色方塊及藍色凹槽和紅色插銷(見電子版)的初始位置在每次加載仿真環境時都會隨機化產生。

圖7CVAE解碼器中的Transformerdecoder部分Fig.7Transformerdecoder of CVAEdecoder圖8仿真環境初始狀態

如圖9所示,任務一雙臂協作傳送立方體的目標是使用兩個機械臂將一個紅色方塊從右手轉移到左手,并且在轉移過程中確保方塊不接觸桌子。評定標準基于方塊與左右手抓取器的接觸狀態以及是否接觸桌子來給予獎勵。具體來說,任務提供了以下獎勵:獎勵 1(reward=1 ),當方塊被右手抓取時;獎勵2(reward =2 ),當方塊被右手抓取并且已經抬起,即方塊已離開桌子;獎勵3(reward °=3 ),當方塊開始嘗試從右手轉移到左手時;獎勵4(reward O=4 ),當方塊成功從右手轉移到左手,并且不再接觸桌子時。獎勵函數通過檢測方塊與左右手抓取器以及桌子之間的接觸狀態來確定獎勵值。如果方塊同時與左右手抓取器接觸,則不給予獎勵。此外,如果方塊接觸桌子,則視為失敗,獎勵為0。任務的最終目標是獲得最大的獎勵4,表示方塊成功從右手轉移到左手,且在轉移過程中沒有接觸桌子。

Fig.8Initial state of simulation environment圖9轉移任務過程 Fig.9Process of transferring task

如圖10所示,任務二雙臂協作插孔任務的目標是通過兩個機械臂,將一個紅色插銷插入到藍色凹槽中,同時確保在插入過程中插銷和凹槽不接觸桌子。任務的評定標準基于方塊與機械臂抓取器之間的接觸狀態,以及方塊是否接觸桌子。具體來說,任務提供了以下獎勵:獎勵1 ),當方塊被左右手抓取器同時接觸時;獎勵 2(reward=2) ),當方塊被左右手抓取器同時接觸,并且沒有接觸桌子時,表示方塊已經被抓取并準備插入;獎勵3 reward=3 ),當方塊與插座接觸,并且沒有接觸桌子時,表示方塊已經開始插入過程;獎勵 4(reward=4 ),當方塊與插座接觸,并且與引腳接觸時,表示方塊已經成功插入到插座中。獎勵函數通過檢測方塊與左右手抓取器、插座、桌子以及釘子之間的接觸狀態來確定獎勵值。如果方塊同時與左右手抓取器接觸,則不給予獎勵。此外,如果方塊接觸桌子,則視為失敗,獎勵為0。任務的最終目標是獲得最大的獎勵4,表示方塊成功插人到插座中,且在插入過程中沒有接觸桌子。

通過在這兩個模擬的機器人精細操作環境中進行仿真實驗,能夠更全面地評估所提出的基于改進行為克隆算法的機器人運動控制策略在面對多樣化的機器人精細操作任務時的高性能和適用力。

3.2 實驗結果

3.2.1 對比實驗

本文首先使用腳本收集機器人在所創建仿真環境下的50次專家示范數據。然后將50次專家示范數據輸人CVAE訓練機器人控制策略,最后將訓練好的策略在仿真環境中進行測試運行。對于兩個任務,調節動作分塊 k 的大小發現,k在100時策略性能都表現最佳,因此,將 k 固定為100以訓練生成策略,對每個任務設置3個隨機種子,每次測試運行50次雙臂機器人精細操作任務策略評估。表2報告了將本文算法(FA-BC)與五種經典模仿學習方法進行比較的結果,根據不同算法在兩個任務中每次評估得到的獎勵值統計,表2記錄了兩個仿真任務在所有測試中每一個獎勵值對應的子任務的成功率。

表2不同算法的任務成功率Tab.2Task success rate of different algorithms/%

BC-ConvMLP[23] 是最簡單但使用最廣泛的基線,其通過級聯卷積層和多層感知器(MLP)層來逐步提取特征,并利用邊界感知機制提高對目標物體邊界的識別能力,但其訓練難度較大、實時性較差且感知和控制網絡沒有聯合優化;RT-1[24]是另一種基于Transformer的架構,它可以根據過去固定長度的觀察歷史來預測一個動作,不足在于對初始目標定位敏感;BeT(boundary-enhanced Transformer)[25]和RT-1都將動作空間離散化,輸出是離散倉上的分類分布,BeT從倉中心添加了連續偏移,能夠有效提高分割邊界的準確性,但計算資源消耗較大,且對訓練數據量和質量有較高要求。VINN(variationalinferenceneuralnetwork)[26]通過在神經網絡中嵌入變分推理步驟來估計模型參數的分布,能夠處理帶噪聲或不完整的數據,并給出概率性的預測,但計算復雜度高,優化困難,且對于超參數的選擇較為敏感;2023年由斯坦福大學Zhao等人提出的低成本機器人操作系統ALOHA(alow-cost open-source hardware sys-temforbimanualteleoperation)中的ACT算法將控制策略訓練為CVAE編碼器,直接由輸入圖像預測機器人的連續動作,該算法在單物品精細操作中表現較好,但在需要力反饋及物品接觸類的精細操作任務中操作精度不足、任務成功率不高。本文算法可以直接由圖像預測機器人的連續動作,在兩個精細操作任務的單步成功率、最終成功率上都高于其他五個基線,最終成功率在涉及物品接觸的插孔任務中比表現第二好的ACT高出20百分點,在單物品轉移任務上比ACT高7百分點。這表明本文提出的算法在機器人精細操作任務中具有更高的精度和效率,機器人能更好地感知機器人運作的環境,并生成更精準和高效的動作序列。

圖11記錄了本文算法生成的機器人運動控制策略在仿真任務中機器人運動過程的關節角度變化。圖11的左、右部分分別記錄了左、右機械臂各7個關節的狀態和命令角度變化,左右臂共14個關節的真實運動狀態(state)與期望的關節運動命令(command)能較好地重合,說明機器人能精確地執行運動控制。

圖12和13記錄了機器人在轉移任務和插孔任務中的運動過程,在兩項仿真任務中,雙臂機器人能執行平滑的運動軌跡,無抖動、跳變等不穩定的運動產生。這表明本文算法在隨機初始化的機器人精細操作任務中能產生既準確又平滑的運動軌跡。

圖12機器人轉移任務運動過程 Fig.12Movement process of the robot’s transfer task
圖13機器人插孔任務運動過程 Fig.13Movement process of the robot’sinsertion task

3.2.2消融實驗

本節進行了一系列的消融實驗,旨在研究基于特征金字塔的backbone網絡模塊和基于注意力改進的CVAE模塊對本算法訓練得到的機器人控制策略性能的影響。表3報告了逐步消融這些組件中的每一個后在兩個仿真任務中機器人精細操作測試的最終成功率。可以看到,消融融合特征金字塔的backbone網絡,僅用ResNet提取特征時,兩個仿真任務的最終成功率分別下降了4和12百分點;消融基于注意力改進的CVAE模塊,使用類似文獻22]中的基礎CVAE編碼器時,兩個仿真任務的最終成功率分別下降了2和4百分點;當消融以上兩個組件時,兩個仿真任務的最終成功率分別下降了7和20百分點。

表3消融實驗結果Tab.3Ablation experimental results /%

F-backbone網絡融合了特征金字塔,能夠從不同尺度的特征層次中獲取信息,從而提高網絡對場景的識別能力。在機器人精細操作任務中,操作細節往往需要通過不同尺度的特征來精確判斷,而特征金字塔能夠有效地捕捉到這些多層次的細節信息,并對多尺度信息有效地整合。消融了這一模塊后,使用單一尺度的 ResNet 喪失了對細粒度特征的捕捉能力,因此導致了成功率的下降。A-CVAE模塊引入了基于注意力機制的改進,能夠在生成任務中聚焦于更為重要的特征或區域,減少噪聲和無關信息的干擾,增強對關鍵信息的提取能力。在精細操作任務中,注意力機制能讓模型更加專注于與操作相關的重要特征,從而提高了任務執行的精度和成功率。消融了這一模塊后,模型失去了這種精細的關注能力,導致任務成功率有所下降。F-backbone網絡主要負責從輸入數據中提取多尺度的特征,而A-CVAE模塊則通過生成潛在空間和使用注意力機制對任務進行建模。這兩個模塊的結合使得機器人能夠更加精細地處理輸入信息,生成準確的控制策略。在缺少這兩個模塊的情況下,機器人控制系統失去了對輸入特征的精確提取能力和對任務關鍵區域的關注,從而導致了較大的性能下降。以上實驗結果和分析說明本文設計的F-backbone網絡和A-CVAE解碼器能有效提高機器人精細操作任務的效率和精度。

4結束語

本文針對機器人在進行雙臂協同插孔等精細操作時面臨的運動控制模型訓練復雜、環境感知和視覺反饋能力差及路徑規劃執行效率低下和精度不足的問題,提出了一種新型的改進機器人行為克隆算法(FA-BC)。該算法通過結合特征金字塔和ResNet設計,能提取并融合多尺度特征的backbone網絡,加強機器人對運動場景中自標物的感知和視覺反饋能力;為了進一步降低行為克隆算法的復合誤差并加強策略生成動作的平滑性,引入動作分塊和時間集成,以產生既準確又平滑的軌跡。為了更簡單地訓練策略,提升行為克隆算法在未知環境的適應性和創造性,加強策略的泛化能力,將機器人控制策略訓練為CVAE,即一個動作序列生成模型,基于注意力機制重新設計CVAE解碼器,提高模型對圖像關鍵信息的聚焦能力,更好地捕獲圖像特征和動作的相關性,生成更精準、高效的機器人動作序列。由于基于注意力機制重新設計的CVAE解碼器添加了額外的注意力計算,在提升性能的同時增加了模型訓練的計算量和內存,后續將進一步研究如何減少模型的訓練復雜度和加快模型訓練的收斂速度。本研究未涉及在存在障礙物的情況下進行避障運動規劃,且未在實體機器人上進行實驗,后續將進一步增加機器人操作環境的復雜度,并用實體機器人驗證算法的可靠性。

參考文獻:

[1]郭憲,方勇純.仿生機器人運動步態控制:強化學習方法綜述 [J].智能系統學報,2020,15(1):152-159.(GuoXian,Fang Yongchun.Locomotion gait-control for bionic robots:a review of reinforcement learningmethods[J].CAAl Transon Intelligent Systems,2020,15(1):152-159.)

[2] 羅欣,丁曉軍.地面移動作業機器人運動規劃與控制研究綜述 [J].哈爾濱工業大學學報,2021,53(1):1-15.(Luo Xin,Ding Xiaojun.Research and prospective on motion planning and control of ground mobile manipulators[J].Journal of Harbin lnstituteof Technology,2021,53(1):1-15.)

[3]艾福強,包建東,劉正權.基于粒子群優化模糊PID控制的多足 式真空吸附機器人控制方案設計[J].電子測量技術,2023,46 (2):67-72. (Ai Fuqiang,Bao Jiandong,Liu Zhengquan. Design of multilegged vacuum adsorption robot control scheme based on PSOfuzzy PID control[J].Electronic Measurement Technology, 2023,46(2):67-72.)

[4]甄富帥,宋光明,毛巨正,等.基于STM32的夾爪式蛇形機器人 控制系統設計[J].儀表技術與傳感器,2022(9):96-100. (ZhenFushuai,Song Guangming,Mao Juzheng,et al.Design of control system for claw-clamping snake robot based on STM32[J]. Instrument Technique and Sensor,2022(9):96-100.)

[5]宮赤坤,吳潯煒,袁立鵬.基于阻抗和虛擬模型的四足機器人控 制方法[J].系統仿真學報,2022,34(10):2152-2161.(Gong Chikun,Wu Xunwei,Yuan Lipeng. Control of quadruped robot based onimpedance and virtual model[J].Journal of System Simulation,2022,34(10):2152-2161.)

[6]閆友彪,陳元琰.機器學習的主要策略綜述[J].計算機應用研 究,2004,13(7):4-10.(Yan Youbiao,Chen Yuanyan.A survey onmachine learning andits main strategy [J]. Application Research of Computers,2004,21(7):4-10,13.)

[7]Hua Jiang,Zeng Liangcai,Li Gongfa,et al.Learning for a robot: deep reinforcement learning,imitation learning,transfer learning [J].Sensors,2021,21(4):1278.

[8]李忠偉,劉偉鵬,羅傯.基于軌跡引導的移動機器人導航策略優 化算法[J].計算機應用研究,2024,41(5):1456-1461.(Li Zhongwei,Liu Weipeng,Luo Cai.Autonomous navigation policy optimization algorithm for mobile robots based on trajectory guidance[J]. Application Research of Computers,2024,41(5):1456-1461.)

[9]李至,潘越,陳殿生,等.基于模仿學習的眼底手術行為機器人復 現[J].機器人,2024,46(3):361-369.(LiZhi,PanYue,Chen Diansheng,et al. Fundus surgical behavior reproduction of robot based on imitation learning[J].Robot,2024,46(3):361-369.)

[10]王浩杰,陶冶,魯超峰,基于碰撞預測的強化模仿學習機器人導 航方法[J].計算機工程與應用,2024,60(10):341-352.(Wang Haojie,Tao Ye,Lu Chaofeng.Reinforcement imitationlearning method based on collision prediction for robots navigation[J].Computer Engineering and Applications,2024,60(10):341-352.)

[11]邢志偉,張前前,羅謙,等.基于模仿學習的機場停機位再分配決 策算法[J].計算機應用研究,2022,39(9):2665-2670.(Xing Zhiwei,ZhangQianqian,Luo Qian,etal.Decision-makingalgorithm for airport gate reassignment based on imitation learning[J]. Application Research of Computers,2022,39(9):2665-2670.)

[12]AhmedH,MohamedMG,EyadE,etal.Imitationlearning:a survey of learning methods[J].ACM Computing Surveys,2017,50 (2):1-35.

[13]閆子晨.協作機器人模仿學習運動規劃與軌跡跟蹤控制研究 [D].北京:北京科技大學,2023.(Yan Zichen.Imitation learning based on motion planning and trajectory tracking control for collaborative robots[D].Beijing:Beijing Keji University,2023.)

[14]Yuan Yuan,Liu Jie,Chi Wenzheng,et al. A gaussian mixture model based fast motion planning method through online environmental featurelearning[J].IEEE Trans on Industrial Electronics,2022, 70(4) : 3955-3965.

[15]Felipe C,Eder S,Antonio M,et al.Exploring the limitations of behavior cloning for autonomous driving[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:9329-9338.

[16]FangBin,Jia Shidong,GuoDi,et al.Survey of imitation learning for robotic manipulation [J]. International Journal of Intelligent Robotics and Applications,2019,3(4):362-369.

[17]RacinskisP,ArentsJ,Greitans M.A motion capture and imitation learning based approach to robot control[J].Applied Sciences, 2022,12(14): 7186.

[18]Sasagawa A,Fujimoto K,Sakaino S,et al. Imitation learning based onbilateral control for human-robot cooperation[J].IEEE Robotics andAutomationLetters,2020,5(4):6169-6176.

[19]Stepputtis S,Campbell J,Phielipp M,et al.Language-conditioned imitation learning for robot manipulation tasks[J].Advancesin Neural Information Processing Systems,2020,33:13139-13150.

[20]于旭,陶先童,寧丹陽,等.RGB-D圖像引導的機器人操作任務 模仿學習[J].組合機床與自動化加工技術,2023(4):165- 168,173.(Yu Xu,Tao Xiantong,Ning Danyang,et al. Imitation learning of robot operation task based on RGB-D image[J].Modular Machine Tool amp; Automatic Manufacturing Technique,2023(4): 165-168,173.)

[21]李曉豪,鄭海斌,王雪柯,等.基于改進交叉熵的模仿學習魯棒性 增強方法[J].控制與決策,2024,39(3):768-776.(Li Xiaohao, Zheng Haibin,Wang Xueke,et al. Imitation learning robustness enhancement based on modified cross entropy[J].Control and Decision,2024,39(3):768-776.)

[22]Zhao TZ,Kumar V,LevineS,et al. Learning fine-grained bimanual manipulation with low-cost hardware[EB/OL].(2023-04-23) [2024-07-24]. htps://arxiv.org/pdf/2304.13705.

[23]LiJiachen,Hassani A,Walton S,et al.ConvMLP:hierarchical convolutional MLPs for vision[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2023:6307-6316.

[24]BrohanA,BrownN,Carbajal J,etal.RT-1:robotics Transformer forreal-world control at scale[EB/OL].(2023-08-11)[2024-07- 24].https://arxiv.org/pdf/2212.06817.

[25]Lin Xian,Yu Li,Cheng K T,et al.BATFormer:towards boundaryaware lightweight transformer for efficient medical image segmentation [J].IEEE Journal of Biomedical and Health Informatics,2023, 27(7):3501-3512.

[26]Ferianc M,Fan Hongxiang,Rodrigues M.VINNAS:variational inference-based neural network architecture search[EB/OL]. (2021-01-14)[2024-07-24].hps://ar-xiv.org/pdf/2007.06103.

猜你喜歡
方塊編碼器注意力
“趣玩方塊”項目化學習案例
注意力分配視角下對大學生碎片化學習注意力失焦現象的積極理解
基于Transformer模型的圖書館借閱量預測研究
一種融合注意力機制與ED-LSTM模型的核工程虛擬測量方法
外部知識與內部上下文語義聚合的短文本新聞虛假檢測模型
基于多頭集中注意力機制的無監督視頻摘要模型
基于多模態表征學習的自動音頻字幕方法
面向視覺-語言模型的遞進互提示學習
方塊村(7)
紅桃六&方塊七
少女(2004年6期)2004-01-01 00:00:00
主站蜘蛛池模板: 国产成人a在线观看视频| 91在线丝袜| 大学生久久香蕉国产线观看| 日本草草视频在线观看| 国产精品任我爽爆在线播放6080| 日韩欧美国产三级| 精品少妇人妻一区二区| 伊人久久大香线蕉综合影视| 久操中文在线| 漂亮人妻被中出中文字幕久久| 中文字幕在线一区二区在线| 91亚瑟视频| 最新国产网站| 爱色欧美亚洲综合图区| 亚洲欧美另类中文字幕| 51国产偷自视频区视频手机观看| 亚洲 欧美 偷自乱 图片| 国产精品亚洲а∨天堂免下载| 国产精品一区二区无码免费看片| 四虎永久免费在线| 亚洲一级色| 一本色道久久88综合日韩精品| 亚洲第一视频网| 日韩免费成人| 97se综合| 久久 午夜福利 张柏芝| 亚洲第一中文字幕| 国产福利小视频在线播放观看| 亚洲精品国产自在现线最新| 四虎成人在线视频| 亚洲高清资源| 午夜国产精品视频| 婷婷六月在线| 国产精品亚洲专区一区| 国产第一页屁屁影院| 女人天堂av免费| 欧美成人一级| 免费jizz在线播放| 中文字幕在线观| 久久久久久尹人网香蕉 | 四虎成人精品在永久免费| www.狠狠| 色天天综合久久久久综合片| 国产后式a一视频| 热99精品视频| 国产免费久久精品99re丫丫一| 欧美国产中文| 欧美日韩第三页| 国产在线无码一区二区三区| a毛片在线免费观看| 久综合日韩| 亚洲人成网站色7799在线播放| h网址在线观看| 香蕉综合在线视频91| 乱人伦视频中文字幕在线| 99精品国产自在现线观看| 国产91精品久久| 国产精品成人第一区| 亚洲日韩每日更新| 青青草久久伊人| 亚洲色精品国产一区二区三区| 久久人搡人人玩人妻精品| 伊人精品成人久久综合| 99国产精品免费观看视频| 国产欧美日韩精品综合在线| 久久国产精品影院| 国产www网站| 国产欧美精品午夜在线播放| 久久精品国产国语对白| 国产精品亚洲一区二区三区z| 99久久国产综合精品女同 | 国产丝袜无码精品| 成人午夜在线播放| 2021天堂在线亚洲精品专区| 国产精品毛片在线直播完整版| 蜜桃臀无码内射一区二区三区| 亚洲欧美一区二区三区蜜芽| 日韩精品无码免费一区二区三区| 日本道综合一本久久久88| 手机在线国产精品| 九九视频免费看| 国产在线高清一级毛片|