國防科技大學
趙 航,孫 毅,李紀偉,孫盛陽
指導老師:李 楠
隨著現代工業與服務業的迅速細分發展,機械臂作為重要的基礎智能裝備發揮著極大的作用。機械臂具有運行速度快、穩定性高、精確度高、安全性好等優點,被應用于諸多領域,如搬運行業、噴漆行業、精準焊接、流水線裝配等程式化、流程化的生產環節已完全可代替人工進行高強度、高重復的工作。在醫療手術、微電子制造與封裝、遠程操作、反恐排爆、位置環境探索等領域,甚至能夠完成多種人工無法完成的操作。近年來,隨著人類對深海、太空、環境工程、遠程醫療、家居服務等領域研究與應用的多樣化需求,機械臂控制技術向大需求、多樣化、智能化方向迅猛發展已成趨勢。20世紀60年代以來,美國、德國、日本等發達國家將機器人特別是工業機械臂確定為國家重要的研究發展方向,大大推動了其工業化發展進程,也為國家創造了巨大的經濟效益。在工業機械臂發展的前中期,機械臂主要用于取代人工的大量重復性工作,不僅大大延長了工作時間更提高了工作效率。近年來,隨著各行各業作業多樣化的迫切需求,工業機械臂正快速向智能化方向發展。在傳統工業機械臂作業環境中,考慮到安全性與穩定性的要求,機械臂通常被放置于安全空間內工作,這無疑阻隔了機械臂與人的協調工作,且該方式缺乏操縱的靈活性,工作人員與機械臂的交互方式被限制在控制柄、鼠標、鍵盤之類的傳統模式中。為解決諸如機械臂工作環境中人員安全空間、障礙物碰撞干擾機械臂的軌跡和姿態規劃,及隨機靈活操作、遠程控制、復雜環境中無法控制機械臂的問題,壓力傳感器、視覺傳感器、觸覺傳感器、距離傳感器等智能感知設備被廣泛應用于機械臂系統,越來越多的機械臂系統向智能化方向發展,以滿足在復雜多變環境中更安全靈活的作業需求。
近年來,智能人機交互技術迅猛發展,語音識別、圖像識別、視覺建模與定位、機器學習算法理論的突破性發展為機器人技術的智能化開辟了廣闊的發展空間。傳統機械臂的培訓以及人員熟悉時間較長,往往需要操作員花費大量時間學習,在人員培訓效率和操作靈活性方面效率不高,也不能很好地將人手的靈活性充分體現在機械臂上。因此,基于視覺手勢交互方式控制的機械臂系統越來越多地受到人們的關注。該系統可以結合人工熟練的操作技能和機械臂本身的精確操作,解決復雜環境下的機械臂控制端架設問題以及自主完成任務的難題,使得基于視覺手勢識別的機械臂交互控制系統成為智能機器人領域的研究熱點。
基于視覺信息的機械臂控制多采用手勢識別技術。手勢識別主要包括兩種方法:基于可穿戴設備的手勢識別技術,如數據手套等;基于視覺的手勢識別技術。國外最早的手勢識別技術是美國貝爾實驗室的科學家在上世紀80年代通過數據手套實現的,雖然可穿戴設備經過長時間的發展已有較高的穩定性、精準度及實時性,但其固有的高成本以及穿戴不便的問題依舊存在。隨著科學技術的進步,目前越來越多的人投入到基于視覺信息的手勢控制研究中,基于視覺信息的手勢控制漸漸成為主流。日本富士通公司于1991年首先實現了基于視覺信息的手勢識別控制技術,隨后,美國的T.Starner等人在此基礎上成功研制了可靠性較高的美國手語識別系統。1997年,又有科學家將HMM算法用于視覺手勢識別,大幅提高了手勢識別的識別率,達91%以上。隨后F.Pollick等人采用基于曲線段擬合手勢輪廓算法將手勢平均識別率提高到95%。2000年,清華大學博士任海濱等通過對手勢動作的時空表現建模,基于動態時間規整算法進行手勢動作識別,使手勢識別率達97.2%。但上述技術都是在較好的光照和單一背景下得到的識別效果,對于復雜光照和不同背景條件的識別存在不穩定性。2010年,美國微軟公司推出了深度攝像機Kinect,為手勢識別帶來了革命性變化,其可記錄所拍攝物體的深度信息,為更加靈活的操作提供了可能。國外機械臂視覺手勢控制技術產品中有兩家最具代表性,其產品也在該領域處于領先地位。其中之一是日本筑波大學團隊研發的基于手勢控制的機械臂。它利用不同位置的兩款攝像頭來記錄手部的輪廓和運動信息,然后經計算機處理成機械臂的舵機指令發送到機械臂的舵機端,從而控制機械臂運動,其優點是機械臂自由度大、運動靈活,可實現包括單個手指在內的全手臂全自由度控制,但其也存在視覺提取設備復雜、占地面積大、架設成本高等缺點。另一個是基于Leap motion的機械臂7Bot,其無需分立攝像頭采集圖像,設備簡單,易于布置,有較好的識別率,機械臂可靈活運轉。但受Leap motion性能的限制,其只能給出特定的一些目標,如手指尖端,特定手掌的位置和朝向信息等,不利于系統的深度開發。國內有團隊利用Kinect實現手勢識別,進而控制機械臂運動,這種方式雖然可以實現手勢靈活控制機械臂的目的,但Kinect是美國微軟公司的產品,不對外開放源代碼,這對提升我國自主研發能力帶來了巨大挑戰。
本作品是基于深度攝像頭的智能交互設備,具有識別人體手部動作,并以此靈活控制機械臂運動的功能。基于視覺手勢識別的人機交互方式具有下述優點:
(1)控制方式靈活。非接觸式遠程控制,適用于遠程操作等特殊場合,環境適應力強。通過手勢控制可以更加靈活地對機械臂進行操控,控制方式更加高效。
(2)控制精度高。使用手勢識別控制可以降低機械臂的最小步進,使機械臂的運動更加精準。
(3)操作簡單。手勢控制機械臂使機械臂的運動與手部運動相統一,控制方式更直觀,易于使用。機械臂跟隨人手部動作做相同的動作,無需操作者學習控制手冊,大大提高了人員培訓效率和機械臂的使用效率。
(4)使用成本低。只需要相鄰兩個攝像頭和一臺精簡的專用計算機系統即可完成手勢采集、處理和識別工作。占地面積小,無需分布式架設,節約時間和人力成本。
由此可見,基于手勢控制的機械臂將在機械手遠程控制、復雜環境作業等工業、軍事、醫療、航空航天領域發揮重要作用。
2.1.1 基于可穿戴設備的手勢識別
基于可穿戴設備的視覺識別一般使用可穿戴手套作為控制基礎,通常包括肌電、加速度、壓力等傳感方式。此方式雖然能夠識別手部動作,但其識別的只是某幾個點的運動趨勢,無法精確解析出手部的運動姿態、位置乃至整個手臂的運動姿態。同時這種方案還受到每個人的個體習慣影響,難以實現精確操控。有限的操作信息不利于機械臂的高靈活性控制。
2.1.2 基于二維圖像的手勢識別
二維手勢識別基本不含深度信息,手勢信息僅停留在二維層面。這種技術不僅可以識別手型,還可以識別一些簡單的二維手勢動作,比如對著攝像頭揮手等。其代表公司是來自以色列的PointGrab,EyeSight和ExtremeReality。二維手勢識別擁有動態特征,可以追蹤手勢的運動,進而識別將手勢和手部運動結合在一起的復雜動作。得益于更加先進的計算機視覺算法,二維手勢識別從純粹的狀態控制變成了比較豐富的平面控制。這種技術已被集成到電視中,但目前還不成熟,無法成為主要的控制方式。
由于機械臂的控制需在三維空間中完成,因此二維圖像的手勢識別具有明顯的局限性,無法獲得手部的空間深度信息。
2.1.3 基于三維信息的手勢識別
三維手勢識別需要輸入包含有深度的信息,以識別各種手型、手勢和動作。相比于前兩種手勢識別技術,三維手勢識別不能僅使用單個普通攝像頭(單個普通攝像頭無法提供深度信息),要得到深度信息需要特別的硬件,目前國際上主要有3種硬件實現方式。
(1)多目成像(Multi-camera)
多目成像的基本原理是使用兩個或以上的攝像頭同時攝取圖像,類似人類用雙眼、昆蟲用多目復眼觀察世界,通過比對這些不同攝像頭在同一時刻獲得的圖像的差別,使用算法計算深度信息,多角三維成像。多目成像這一技術的代表產品是Leap Motion公司的同名產品和Usens公司的Fingo。多目成像在三維手勢識別技術中硬件要求最低,但同時也最難實現。多角成像無需任何額外的特殊設備,完全依賴于計算機視覺算法匹配兩張圖片中的相同目標。但多目成像對于物體表面紋理特征要求較高,且目前算法還不成熟,難以實現較高的測量精度和速度。
(2)結構光(Structure Light)
結構光技術的基本原理:加載一個激光投射器,在激光投射器外放置一個刻有特定圖樣的光柵,激光通過光柵進行投射成像時會發生折射,從而使得激光最終在物體表面上的落點產生位移。當物體距離激光投射器較近時,折射產生的位移較小;當物體距離較遠時,折射產生的位移相應變大。使用一個攝像頭檢測采集投射到物體表面上的圖樣,利用圖樣的位移變化即可通過算法計算出物體的位置和深度信息,復原三維空間。結構光的代表應用產品是微軟的Kinect一代體感相機。結構光成像技術算法較為復雜,目前僅微軟公司掌握了其核心技術。
(3)飛行時間(Time of Flight)
飛行時間技術的基本原理:加載一個發光元件,發光元件發出的光子在碰到物體表面后會反射回來。使用一個特別的CMOS傳感器捕捉這些由發光元件發出、又從物體表面反射回來的光子,就能得到光子的飛行時間。根據光子飛行時間可以推算出光子飛行的距離,即物體的深度信息。飛行時間技術典型產品是索尼旗下SoftKinetic公司的深度相機。同時,這一硬件技術也是微軟新一代Kinect所使用的深度感應技術。就計算而言,飛行時間是三維手勢識別中最簡單,無需任何計算機視覺方面的計算,對系統要求低,產品兼容性好,且容易小型化。
綜上所述,為了實現手勢控制,三維信息的獲取至關重要。飛行時間方案能完整識別出手部的姿態,且無需復雜的算法,可將人手的靈活性與機械手的準確性特點融為一體。
本系統采用多信息融合技術提取手臂姿態和深度信息。設備組成包括二維色彩攝像頭與三維深度攝像頭,將二者組合作為視覺傳感器,將手的二維圖像信息與深度信息一同發送至計算機端進行數據處理,并持續跟蹤手部變化,對得到的手勢指令信息通過算法轉換,將手勢的運動解析成機械臂各自由度的指令集,經單片機發送至機械臂,從而實現手勢控制機械臂的運動。系統設計如圖1所示。

圖1 系統設計框圖
本系統由三部分組成,即傳感器部分、計算機端以及機械部分。傳感器部分由TI公司深度攝像頭(三維飛行時間傳感器)OPT8241、深度信息處理和控制芯片OPT9221、USB通信芯片構成。外部光學圖像通過鏡頭聚焦在OPT8241傳感器上,獲得的深度相關數據由OPT8241傳感器進行數字化處理并提供給OPT9221控制器,處理后提供每個像素的距離輸出。最終經過USB通信芯片發給計算機端進行圖像處理。
圖像采集部分包含一個二維RGB攝像頭和一個記錄圖片深度信息的深度攝像頭。將拍到的二維相片和帶有深度的相片發送到計算機端進行信息處理。
計算機端的功能是進行數據處理并向機械臂發送動作指令。其主要任務是通過坐標融合、灰度提取,與事先訓練好的樣本庫進行對比,得出手勢信息,再對得到的手勢信息進行跟蹤,提取出對應于機械臂各自由度的控制指令。識別手勢利用有監督機器學習的方法,其主要流程為樣本學習、特征提取、聚類分析。識別到的手勢經手勢分析算法編碼出該手勢驅動機械臂的各自由度動作信息,經串口將各自由度的動作指令發送到機械部分單片機端。
機械部分由舵機、單片機、通信芯片、電池組成多自由度機械臂,其功能是解碼計算機端發送的運動指令組合,實現手勢控制。通過機械臂的MCU單元解析計算機端的動作指令,驅動各自由度方向的舵機帶動機械臂運動。同時,機械臂觸爪上集成有溫度、壓力傳感器,可實時反饋抓取物體的問題和抓取力量,對抓取方式進行控制,實現近似人手的功能。
本方案克服了傳統機械臂需要控制柄等控制外設的不足,使用手勢控制,可以實現遠程非接觸式控制;同時使用手勢控制,控制指令簡明直觀,方便人員操作;搭載多種傳感器,實時反饋被抓物體信息,調整抓取方案。
TOF是Time of Flight的簡寫,直譯為飛行時間。所謂飛行時間法3D成像,是通過給目標連續發送光脈沖,然后用傳感器接收從物體返回的光,通過探測光脈沖的飛行(往返)時間得到目標物距離。該技術與3D激光傳感器原理類似,但3D激光傳感器為逐點掃描式,而TOF相機則是同時得到整幅圖像的深度信息。TOF相機與普通機器視覺成像過程也有類似之處,都是由光源、光學部件、傳感器、控制電路以及處理電路等單元組成。飛行時間測量系統原理框圖如圖2所示。

圖2 飛行時間測量系統原理框圖
TOF技術采用主動光探測方式,與一般光照需求的不同之處在于,TOF照射單元的目的并非照明,而是利用入射光信號與反射光信號的變化測量距離,所以TOF的照射單元都先對光進行高頻調制之后再發射。作為TOF相機的核心,TOF芯片每一個像元對入射光往返相機與物體之間的相位分別進行記錄。運算單元完成數據校正和計算工作,通過計算入射光與反射光的相對相移關系,即可求取距離信息。與立體相機或三角測量系統相比,TOF相機體積小巧,適合于一些需要輕便、小體積相機的場合。TOF相機能夠實時快速地計算深度信息,達到幾十到100 fps。TOF的深度計算不受物體表面灰度和特征影響,可以非常準確地進行三維探測。而雙目立體相機則需要目標具有良好的特征變化,否則無法進行深度計算。TOF的深度計算精度不隨距離改變而變化,大致穩定在厘米級,這對于一些大范圍運動的應用場合意義重大。
圖像識別即圖像的模式識別,是模式識別技術在圖像領域的具體應用,是對輸入的圖像信息建立圖像識別模型,分析并提取圖像特征,然后建立分類器,根據圖像特征進行分類識別的一種技術。圖像識別的主要目的是對圖像、圖片、景物、文字等信息進行處理和識別,實現計算機與外部環境的直接通信。
圖像的特征提取一般可分為兩個層次,即底層的特征提取與高層次的特征提取。底層的特征提取是圖像分析的基礎,常用的有顏色特征、形狀特征和紋理特征,具有計算簡單和性能穩定等特點;高層的特征提取一般基于語義層次的高度,如人臉識別、人的行為分析等,這些都需根據底層的提取結果并通過機器學習才能得到。
深度學習是神經網絡、人工智能、圖形化建模、優化、模式識別、信號處理等研究的交叉領域。深度學習是模擬數據之間的復雜關系,基于表征學習的多層次的機器學習算法。一個觀測值(如一個圖像)可以通過多種方式表示,如用強度值矩陣表示像素。某些表示方法可以讓算法更容易完成學習任務(如人臉識別),表征學習的目標是尋求更好的表示方法并建立優異的模型來學習表示方法。
深度學習通過模擬具有豐富層次結構的腦神經系統,建立類似人腦的分層模型結構,對輸入數據逐級提取,形成更加抽象的高層表示(屬性類別或特征)。深度學習利用多層非線性信息處理實現有監督或者無監督的特征提取和轉換、模式分析和分類,用來解釋如圖像、聲音、文本數據。高層次的特征和概念根據較低層次的特征和概念來定義,相同低層次的概念可被用來定義很多高層次的概念。這樣一個分層次的結構稱為深層結構。
深度學習模型主要指超過三層的神經網絡模型。圖像領域使用和研究最為廣泛的模型有卷積神經網模型和深度信念網模型。卷積神經網模型仿照生物視覺系統使用“局部感受”降低了神經元連接權值的數目。深度信念網能夠將無監督預訓練與有監督調相結合,由受限玻爾茲曼機組成,借鑒了模擬退火的思想,在圖像識別上取得了較好的效果。
深度學習模型通過對輸入圖像樣本進行處理,利用多層神經網絡不斷提取目標的特征信息,得到訓練樣本。從而利用訓練樣本對待分類的圖像樣本進行分類判決,實現基于深度學習的圖像識別。深度學習流程如圖3所示。

圖3 深度學習流程圖
本系統的軟件由若干子部分組成,分別為手勢位置提取、基于深度學習的樣本特征提取、手勢信息處理及機械臂舵機指令轉換、機械臂控制和溫度壓力檢測等。系統軟件運行流程如圖4所示。

圖4 軟件流程圖
在手勢識別系統運行前,要準備充足的手勢特征庫。為此我們采集了大量拳與掌的圖片樣本并進行分類、標定。為了提高識別率,我們采集了不同角度、遠近、方向的掌和拳的樣本,然后通過深度學習算法提取其特征,形成了比較完整的特征庫。
攝像頭系統上電后,首先對TOF和RGB攝像頭進行初始化,以使其能正常采集圖片數據。之后不斷利用RBG攝像頭采集RGB圖像并進行特征提取,將特征與已有的特征庫比對。如果沒有匹配項,說明當前圖像中沒有手勢或者手勢特征不明顯,無法識別,繼續進行圖像采集和特征提取、比對流程;如果發現匹配項,說明手勢識別成功,計算當前手勢中心的二維坐標,然后利用TOF攝像頭計算深度坐標,需要注意,TOF攝像頭和RGB攝像頭是分開的,意味著其坐標系不一致,因此要將兩攝像頭的相對位置固定并進行坐標系校準。最后將上述手勢的類型、坐標信息融合,并轉換為機械臂六個自由度舵機的位置控制字,通過串口發送給機械臂。
機械臂系統上電后,首先進行系統初始化。機械臂的步進電機通過PWM波控制,因此需要控制芯片產生PWM信號,然后不斷監測串口是否有信息傳入。如果串口接收到計算機發來的舵機控制字,則芯片內部將其轉換為六個自由度舵機的PWM信號,控制機械部產生相應動作。我們在機械臂手指處添加了溫度和壓力傳感器,MCU還實時檢測手指處的溫度和壓力并顯示。尤其在手指閉合時可以設置壓力閾值,當系統檢測到閉合壓力大于閾值時就不再繼續閉合,使機械臂可以夾取比較脆弱的物品。
系統電路結構包括深度攝像頭模塊、RGB攝像頭模塊、USB通信模塊、傳感器模塊、機械臂控制模塊等,如圖5所示。
深度攝像頭模塊、USB通信模塊以及機械部分控制和檢測模塊是系統的重要組成部分。

圖5 系統硬件示意圖
3.4.1 深度攝像頭模塊
(1)深度傳感器
OPT8241飛行時間(TOF)傳感器屬于TI 3D TOF圖像傳感器。該器件將TOF感應功能與經優化設計的模數轉換器(ADC)和通用可編程定時發生器(TG)相結合。該器件以高達150幀/秒的幀速率(600讀出/秒)提供四分之一的視頻圖形陣列(QVGA 320×240)分辨率數據。內置TG控制復位、調制、讀出和數字化序列。TG具備可編程性,可靈活優化各項深度感應性能指標,如功率、運動穩健性、信噪比和環境消除。
OPT8241邏輯圖如圖6所示。

圖6 OPT8241邏輯圖
OPT8241供電配置電路如圖7所示。

圖7 OPT8241供電配置電路
OPT8241時鐘及數據鏈路配置電路如圖8所示。

圖8 OPT8241時鐘及數據鏈路配置電路
(2)深度信息處理與控制器
OPT9221是一款高性能3D飛行時間傳感器的控制器(TFC),用于從數字化的傳感器數據中計算深度數據,并通過可編程CMOS并行接口將數據輸出。
除了深度數據外,該芯片也提供一些附加信息的提取,如幅度、周圍環境以及每個像素的標記信息等。這些信息可用于濾波和實現模糊,并根據特定的應用動態控制系統配置。
OPT9221邏輯圖如圖9所示。

圖9 OPT9221邏輯圖
3.4.2 USB通信模塊
該電路的對外數據通信采用USB 3.0協議,將CYUSB3014作為其控制器。CYUSB3014是Cypress公司出品的USB3.0 控制器,集成有200 MHz的ARM9控制器、512 kB的RAM和USB 3.0物理層,具有可編程的100 MHz GPIF II接口。CYUSB3014邏輯圖如圖10所示。

圖10 CYUSB3014邏輯圖
3.4.3 機械臂控制和檢測模塊
機械臂控制和檢測模塊示意圖如圖11所示。

圖11 機械臂控制和檢測模塊示意圖
系統采用STC公司的8051單片機作為系統機械控制部分處理器。STC系列單片機是美國STC公司最新推出的一種新型51內核單片機。片內含有FLASH程序存儲器,SRAM,UART,SPI,A/D,PWM等模塊。STC89C51RC單片機芯片內置標準51內核,工作頻率范圍為0~40 MHz,擁有15 kB容量FLASH,片上集成512 B RAM、3個16位定時器、1個通用異步通信口(UART)、8個中斷源、32個通用I/O口。STC89C51RC單片機芯片示意圖如圖12所示。

圖12 STC89C51RC單片機芯片示意圖
本作品主要創新點如下:
(1)控制方式靈活。此方案采用非接觸式遠程控制,適用于遠程操作等特殊場合,環境適應力強。通過手勢控制可以更加靈活地對機械臂進行操控,控制方式更加高效。
(2)控制精度高。使用手勢識別控制可以降低機械臂的最小步進,使機械臂的運動更加精準。
(3)指令通過網絡遠程傳輸,可以遠程控制并監控,防止人為干預。
(4)支持力反饋修正。使用多種傳感器,監控機械爪夾取物體的力度和溫度,實時反饋至MCU進行指令調整,及時調整夾取物體的力度和時間,也可通過外部設置改變夾取物體的力度。
(5)操作簡單。手勢控制機械臂使機械臂的運動與手部運動統一,控制方式直觀,易于使用。機械臂跟隨人手部動作做相同的動作,無需操作者學習控制手冊,大大提高了人員培訓效率和機械臂的使用效率。
(6)使用成本低。只需要相鄰的兩個攝像頭和一臺精簡的專用計算機系統就可以完成手勢采集、處理和識別工作。占地面積小,無需分布式架設。節約時間和人力成本。
本作品的關鍵技術如下:
(1)RGBD雙坐標系的圖像配準。系統中采用深度攝像頭和色彩攝像頭對手勢和手型進行融合識別。從攝像頭獲取的信息分別是直角坐標和極坐標下的數據,若想將兩個圖像融合處理則首先需要將坐標系統一,因此需要進行對應的坐標變換。同時考慮兩個攝像頭的視場角、光心、鏡頭畸變等參數會給坐標系帶來誤差,因此在使用之前需進行詳細的標定和配準過程。
(2)基于深度學習的手勢識別與跟蹤。系統基于深度攝像頭裝置得到三維信息,三維信息比二維圖像更豐富,增加了識別難度,采用傳統的匹配方式跟蹤識別率低于二維圖形。因此系統采用深度學習方式對手勢信息進行有監督的訓練,實現了較好的識別和跟蹤效果。
(3)將識別到的手勢跟蹤坐標轉化為控制機械臂的指令。人體的生理靈活度遠比機械臂復雜,這就需要合理的算法設計,提取生理特征的多自由度,通過機械臂不同自由度的聯動實現機械臂的靈活控制。
(4)基于瞬時加速度的手勢跟蹤穩定算法。在系統操控過程中,難免會出現漏識別或者誤識別情況,本作品利用預測跟蹤算法,根據人手的運動加速度預測手勢變化趨勢,從而減小漏識別與誤識別對機械臂工作不穩定的影響,達到穩定機械臂運動的目的。
為了驗證本系統的功能與性能,設計了如下測試方案:將手掌動作與拳動作分別置于圖像傳感器前不同位置各300次,記錄識別的次數,得到識別率平均值。具體結果見表1所列。

表1 測試數據結果
測試過程的實際結果如圖13所示。

圖13 測試過程實際結果
本作品針對目前常用的機械臂控制方式多存在靈活度差、精度低、靈敏度低、操作復雜等缺點設計了基于手勢控制的智能互動機械臂。系統基于深度信息實現了肢體動作和機械的智能交互,為實現靈活地控制機械臂提供了一種新的操縱方式,滿足了當前機械臂應用領域的要求,使其控制更加精準、靈活,用盡量少的指令指揮機械臂進行復雜動作。
目前系統雖然實現了手勢控制等功能,但是仍然存在反應實時性不強,有時跟蹤失敗等不完善的地方,這都是我們進一步努力的目標。下一步工作中,我們希望機械臂控制裝置更加簡潔,以降低機械臂的架設成本,提高機械臂的應用效率,讓機械臂的仿生學功能得到充分發揮,使其盡可能像人手一樣靈活發達。后續工作主要在系統小型化、提高識別率以及加強控制穩定性方面做深入研究。