高春艷, 梁彧浩, 李滿宏, 張明路, 孫立新
(河北工業大學機械工程學院, 天津 300401)
人機協作(Human-robot collaboration, HRC)是指人與機器人共享協作工作空間,在同一目標任務下,進行協調或同步地聯合活動作業[1]。隨著人工智能和自動化技術的不斷發展,人機協作廣泛應用在制造業、醫療、服務[2-4]等領域。
人機協作共融將人類強大的認知推理和決策能力以及機器人高精度特性和高效的計算能力結合起來,實現復雜條件下的協同工作[5]。對于一些不可預知或動態的因素,人機協作共融也能夠使機器人精確識別人類意圖并適應障礙,從而更好地完成作業任務。
自然、精確的人機交互是人機協作的基礎[6]。針對各種復雜的環境,機器人需要理解人類的意圖,識別協作環境中人體的運動情況,并采用適當的避讓策略來防止碰撞,并在發生意外或不可避免的撞擊時最大限度地減少對人的傷害[7]。因此,機器人的識別預測能力成為當下人機協作環境中的研究重點。然而,人機協作過程中仍存在環境光照變化,目標背景遮擋,人或機器人產生相對運動等復雜情況,現針對人機共融工作中機器人對于人的體態姿勢識別技術以及避碰策略進行對比分析,并基于深度學習的方法及應用進行展望。
在人機共融場景中,機器視覺系統能使機器人對協作場景有全面的了解,便于后續機器人的決策和主動規劃[8]。
人體姿態識別通過圖像采集系統進行數據采集,采用視覺傳感器收集圖像信息。協作環境下,單目相機由于視角限制會影響檢測結果的魯棒性,且對遮擋、光照變化較敏感,通過引入深度學習方法,可被應用到3D姿態識別領域[9-10];立體相機[11]可采集和呈現立體圖像,魯棒性較強,但特征匹配難度高,標定比較困難;深度相機可輸出3D深度信息,校準和照明條件對識別結果影響較小;TOF和Kinect兩種包含彩色和深度傳感器的RGB-D相機,可在復雜場景下實現穩定的識別效果。表1為各視覺系統傳感器的特征對比。

表1 各視覺系統傳感器特征對比
針對復雜協作場景的傳感器應用,Ant?o等[12]采用ZED立體相機捕獲3D協作空間的點云數據,用于后續未標記的體素網格的創建,使用紅綠藍(red-green-blue,RGB)圖像和人機關節位置信息,標記體素網格中的關鍵元素,在復雜背景下模擬的協作區域姿態識別效果較好。文獻[13]采用粒子濾波器并引入長短期記憶網絡(long short-term memory, LSTM),通過融合多個從深度相機中提取的二維關節位置來估計3D人體姿勢,結果表明在遮擋、不受約束的照明和運動模糊情況下均可增強協作場景的姿態識別性能。RGB-D相機可通過深度與顏色信息輔助識別陰影的形狀與位置,并判斷物體間的遮擋關系,具有較強的環境適應性與實時性。Hu等[15]利用Kinect相機獲取人體關節信息,采用偏圓定界方法解決了人體關節偏移現象,從而實現運動情況下對人體關節點的精確估計。
協作場景的圖像處理過程中,機器人通過分析圖像或視頻中的像素信息來精準識別人體部分關鍵特征,從而實現姿態識別。
1.2.1 表觀特征
表觀特征主要包括顏色、輪廓等視覺屬性,系統分析顏色時通過顏色直方圖或顏色矩來提取特征。在復雜的協作環境中,視覺系統對基于顏色的識別與分析結果易受到光照、陰影和膚色的影響而產生畸變。基于此,Al Naser等[17]開發一種結合Otsu方法和YCrCb色彩空間的新型算法,實現熱信息與顏色信息的數據融合來進行人體部位檢測,與傳統OpenPose算法相比識別速度快5倍,且可減少光照及人體膚色的影響。Zabalza等[18]開發了一種基于低成本相機和基于色調、飽和度、亮度(hue-saturation-value, HSV)空間顏色檢測的機器視覺模塊,該模塊可使機器人意識到變化的環境并精確檢測障礙物,提升了光照以及移動情況下的識別精度。
1.2.2 局部特征
局部特征相較表觀特征對光線并不敏感,可通過預處理和歸一化的操作提升識別的質量。尺度不變換特征(scale-invariant feature transform, SIFT)能在不同大小和旋轉方向的圖像中識別關鍵點并提取局部特征[19],抗遮擋干擾情況較好;ORB(oriented FAST and rotated BRIEF)將FAST(features from accelerated segment test)的高速特征檢測及BRIEF(binary robust independent elementary features)的高效特征描述結合起來,相比SIFT在計算速度上有更快的優勢;方向梯度直方圖(histogram of oriented gradients, HOG)基于提取圖像中不同區域的梯度直方圖,并將其作為特征向量進行人體姿態識別,對光照和視角變化具有一定的不變性。在遮擋條件下的協作環境中, Vinay等[20]提出一種基于ORB的交互式人臉識別框架,引入考慮遮擋等非線性因素的核主成分分析不相關分量,識別精度提高了5%。巫曉康等[21]提出一種采用HOG提取特征矩陣的骨架旋轉投影描述子(rotational and projective skeleton signature,RPSS)來識別人體骨架,該方法在動作序列的時空信息不充分的情況下,識別魯棒性和實時性均較好。
1.2.3 骨骼特征
復雜場景的完整人體模型通常不易識別,而骨骼特征通過定量描述關節位置和角度,可提取骨骼的空間與動態信息,免受照明和背景干擾且準確性高[22]。
骨骼特征提取采用骨骼幾何信息構成分類特征,通過骨骼識別算法提取人體15個骨骼關鍵點坐標信息,如圖1所示。

1為頭;2為左肩;3為脖子;4為右肩;5為左肘;6為軀干;7為右肘;8為左手;9為左臀;10為右臀;11為右手;12為左膝;13為右膝;14為左腳;15為右腳
設bi=(x,y,z)為第i個關節點三維坐標i=1,2,…,15,則bi,bj間的距離δ(bi,bj)計算公式為
δ(bi,bj)=
(1)
避免異構需計算手肘肩膀及腳膝蓋臀部所構成的角度θi,公式為
(2)
由式(1)和式(2)即可識別關節間距離與角度信息,由此類信息共同構成所需特征。文獻[23]采用骨骼識別算法,從RGB圖像中恢復3D人體網格,通過關節回歸模塊估計單目視頻中的三維人體骨骼信息,解決了人體在環境中的姿勢和特征差異以及人體的部分遮擋問題。文獻[24]提出一種基于姿態運動的時空融合圖卷積網絡,引入基于局部姿態運動的時間注意力模塊進行骨骼信息提取,與語音交互相比準確性較高且在時間域內可高效抑制運動擾動信息。
1.2.4 運動特征
在移動情況下的協作環境,對運動特征的檢測識別也可保障人類安全。運動特征領域的典型研究方法包括差像法和光流法,可用于提取運動信息。差像法通過相鄰幀間的像素值進行差分運算來檢測運動,適用于背景變化劇烈的情況。而光流法則通過分析鄰域像素之間的亮度變化,來估計每個像素的運動向量,適用于平緩運動[25]。
文獻[26]提出一種結合強特征提取器、注意力輪廓及中間特征的改進光流法,在交互系統中可實現速度精度權衡,能更好地理解運動并精確地表示輪廓。Agarwal等[27]利用Vanilla-LSTM和Social-LSTM時間深度神經網絡檢測人類運動軌跡,引入密集光流法,用以穩定來自數據集中的輸入注釋并減少相機運動的影響。
協作環境中,視覺識別算法對從原始傳感器獲取的數據即人體肢體和姿態等進行識別。姿態識別算法在目標檢測基礎上,通過對目標位置信息進行分析和推理,推斷出目標姿態。
應用在協作領域的OpenPose[28-29]、Media-pipe[30-31]、DeepPose[32-33]、AlphaPose[34]等姿態識別算法可識別出人體關鍵點的坐標信息。其中Open-Pose和Mediapipe屬于自底向上的方法,需要檢測圖像關鍵點,通過組合來形成人體姿態,可能會因為遮擋、相同目標距離較近等情況造成關鍵點的誤連接。DeepPose和AlphaPose是自頂向下的方法,通過神經網絡監測到人體實例,再根據關鍵點檢測算法檢測人體關節點,可以減少誤檢測與冗余檢測的情況。文獻[35]表明多目標協作環境中,自頂向下的關鍵點檢測方法相較自底向上方法更適合近距離檢測。表2為幾種人體姿態識別算法的特征對比。

表2 人體姿態識別算法特征對比
OpenPose的魯棒性與精準度優良,適用于單人和多人環境及各類背景復雜的體態識別。Gao等[36]基于改進OpenPose算法,對采用雙流注意模型分割的手部圖像進行識別,通過加權融合方法結合骨架數據,實現復雜環境的姿勢動態感知。文獻[37]提出一種采用OpenPose進行關鍵點提取和基于深度卷積神經網絡(DCNN)分類的新型KPE-DCNN模型,用于遮擋和移動等復雜協作場景的姿態識別,與CNN等標準算法相比提高了最少8.87%的識別精度。文獻[38]提出的Lightweight OpenPose輕量級方法,相較于 OpenPose 所占資源更少,適用于對硬件設備要求不高的場景。
機器人在協作過程中需根據先前行為信息進行分類并預測人體運動軌跡,計算最佳避免碰撞路徑,以保證人體安全。預測運動軌跡的方法包括監督學習、無監督學習和深度學習。
2.1.1 監督學習方式
監督學習可通過建模人體動作序列并預測運動,具有高準確性及快速決策的優勢,常用于協作環境中的人體運動估計。幾種典型分類模型:隱馬爾可夫模型(hidden Markov model, HMM)基于時間序列數據,可將獲取的行為數據特征向量化并利用向量序列來訓練,在對動作序列建模和分類方面效果較好[39];馬爾可夫模型(Markov model, MM)相較HMM主要考慮狀態之間的轉移概率,對協作環境中的動態運動場景具有適應性[40];支持向量機(support vector machine, SVM)通過將數據映射到高維空間,尋找最大間隔超平面來進行分類實現運動預測[41];動態貝葉斯網絡(dynamic Bayesian network, DBN)可對變量間的概率關系進行建模和預測[42],與SVM融合可適當降低系統復雜性并提高預測準確性。HMM對光照及遮擋影響較敏感,而MM、SVM和DBN對這類因素具有不同程度的適應能力,更適合復雜環境下的協作任務。
在運動下的人機協作場景中,Grigore等[43]從由人類工人組成的訓練集中學習一個HMM,使用其在任務執行期間對有關人類行為模式的信息進行編碼,能夠隱式靈活地表示任務相關結構,并輔助預測機器人的運動。Wang等[44]將基于注意機制的擴展馬爾可夫遷移特征集成到傳統的MM中,通過解決人體運動的長期相關性和上下文依賴的問題,實現高性能的運動預測,經評估表明,所提出的新型算法模型優于傳統算法6.6%以上。董寧等[45]提出一種基于DBN的人體動作識別方法,通過提取人體的關節點并計算軀干角度,使用后驗概率動態調整SVM分類器和樸素貝葉斯分類器權重,使其互為補充來增加識別率,通過與單分類器的對比試驗驗證了對人體的運動預測。
2.1.2 無監督學習方式
監督學習方法存在兩大局限性:機器人在碰撞數據收集過程中可能會損壞;只有作為碰撞學習的場景才能被魯棒檢測[46]。而無監督學習能自動發現數據間的關聯性并識別潛在特征,適用于處理未知類別訓練樣本的情況。
高斯混合模型(Gaussian mixture model, GMM)可被用來對人體的關鍵點進行建模和分析,建立人體動作數據集,運用回歸方式預測人體動作[47]。設GMM由m個高斯模型組成,每個高斯模型為一個分量,則GMM的概率密度函數為

(3)
式(3)中:x為D維特征向量,p(x|m)=N(x|μm,Σm)為第m個高斯模型的概率密度函數,可以看作是第m個高斯模型選擇后產生的x概率,表達式為

(4)

Luo等[49]提出了一個由兩層的GMM庫組成的,用于無監督在線人體運動識別和預測的框架,如圖2所示。該框架可以實時生成模型,能適應新的人與動作,預測準確率達到95.3%。康杰等[50-51]提出一種基于ROS的人體姿態的實時運動估計框架,利用GMM算法和期望最大化算法,根據采集到的坐標點進行聚類估計,并為每個類別添加標簽來獲取關節的順序,該方法能夠準確描述人體運動并做出預測。

Gn為庫中GMM;Xj為軌跡
無監督學習不需要大規模的監督數據集,也不需要傳統的訓練過程和手工標注,就可以構建人體運動模型并進行預測。但是在相對復雜的協作環境,采用無監督學習模型的分類結果魯棒性較低,相比監督學習有指導性和反饋機制的優勢,其準確性和效率還需提高。
深度學習方法是一種端到端的學習方法,不需要人工干預,而是依靠算法自動提取特征。可直接從原始輸入數據開始,通過層次化的神經網絡結構自動完成特征提取和模型學習[52]。深度學習方法由神經網絡發展而來,神經網絡在數據學習過程中能夠辨識樣本數據內部結構特性與隱含規則,具有分析處理相似性數據,表達非線性函數關系并找到系統輸入輸出關系的能力。
在協作環境下的預測領域,深度學習常用網絡模型有用于處理視覺信息的深度卷積神經網絡,以及用于特征學習的堆棧式自編碼網絡和深度置信網絡。鄭涵等[53]通過改進的Faster R-CNN網絡進行手部及其關鍵點檢測,使用MANO(hand model with articulated and non-rigid deformations)模型獲取手部關鍵點的三維坐標,最終得到手部的三維位姿估計結果,該方法能夠解決手部自遮擋和尺度問題,并提高檢測結果的準確性。針對運動的復雜情況,陳鵬展等[54]提出一種融合骨骼耦合的預測方法,采用增加原始輸出處理層的改進LSTM網絡模型框架,通過拉普拉斯評分算法和動態聚類算法實現基于骨骼耦合性的約束條件來減小關鍵點軌跡預測誤差,裝配協作場景中的準確率達80%以上。Wang等[55]提出了一個基于卷積神經網絡和LSTM架構的手部運動預測系統,系統結構如圖3所示,引入優化的機器人軌跡規劃算法,利用視覺模塊的預測進行復雜協作環境的運動軌跡優化計算。

圖3 安全協作系統結構[56]
為提高協作避碰能力與安全性,Choi等[56]提出一種基于擴展現實的人機互助應用程序來跟蹤人體骨骼和同步機器人,采用基于深度學習的分割和迭代最近點匹配算法實時測量人類操作員與機器人之間的安全距離。Zheng等[57]提出一種基于編碼器-解碼器網絡的人手運動預測模型,融合模型預測控制框架,能夠基于人體運動軌跡來規劃共享工作空間中的機器人無碰撞軌跡。
基于以上綜述,分析了部分方法中可能存在的不足,并做出總結與展望,具體如下。
(1)人機協作中,機器人需高度關注人類的識別感知。然而,目前的方法僅能通過可穿戴設備[58]對人體的局部進行感知,或者僅能通過視覺檢測和骨骼識別來確定人體的粗略位置與建模,而不是準確的3D幾何建模。為應對復雜協作環境,計算機視覺領域中出現一種密集人體姿勢建模的趨勢,包括精密的身體姿態建模[59]和手部姿勢建模,被用于更精細的人體感知來應對變化的環境,提高姿態估計精度。
(2)人機協同作業面臨環境復雜,視覺傳感器在協作過程中可能會存在延遲問題,而僅使用單一的視覺傳感器已不能滿足工作需求。因此,可采用觸覺、聽覺等多傳感器融合的方式,賦予機器人更立體的感知能力。除人體動作外,機器人對多模態信息的識別也影響著人體姿態預測,有學者采用肌電信號、腦電信號[60]融合等方式使機器人預測人類意圖,以支持更主動的人機協作。
人機協作的安全性和實時性是人工智能行業的重要問題,基于此探討了復雜協作環境的姿態識別與避碰策略。相較傳統方法,基于深度學習的人體姿態識別與預測方法擁有強大的學習能力、較高的準確性、良好的實時性與適應性,使其能夠有效應對復雜動態人機共融環境的變化和不確定性,為實時交互提供可靠幫助,在復雜協作場景中的姿態預測領域有較大的學術潛力和研究價值。