999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于事件相機的機器人感知與控制綜述

2022-08-30 13:50:38王向禹郭川東童良樂
自動化學報 2022年8期
關鍵詞:檢測

粟 傈 楊 帆 王向禹 郭川東 童良樂 胡 權

近年來,類似無人機、機械臂等機器人系統在各個領域(如消防安防、植保農業、工廠制造等)得到日益廣泛的應用,四足機器人、人形機器人等系統也成為機器人領域的研究熱點;可以預見機器人系統將在未來的智能制造、工業4.0 革命中發揮愈發突出的作用.上述機器人系統均為結構復雜、高度集成的機電系統,系統的運動規劃和控制常依賴對所在環境和目標的感知測量.目前大部分的無人機、機械臂均采用傳統的幀相機作為感知器件,但是,幀相機具有固有的高數據量、低時間分辨率、高延遲等特點,對快速運動的物體感知能力較弱,極大地限制了機器人的操控能力.

在此背景下,一種基于生物視覺成像原理的神經形態傳感器——事件相機受到機器人領域學者的關注,將其與機器人感知和控制結合,涌現出一批突破傳統幀相機限制的機器人控制成果.本文從事件相機的基本原理開始,依次綜述事件相機與無人機、機械臂、人形機器人結合的最新成果,并介紹在控制方法上,結合事件相機特性的控制技術最新發展,以期對這一快速發展的領域提供參考.本文結構圖如圖1 所示.

圖1 本文結構圖Fig.1 Structure diagram of this paper

1 事件相機簡介

1.1 事件相機的基本原理

事件相機(Event camera)是受生物視覺系統啟發的一類新型神經形態視覺傳感器,與基于幀的視覺傳感器在工作原理上存在著不同.幀相機(Frame camera)的曝光時間是固定的,即便某個像素上的光照沒有發生變化,它也會重復曝光.相比之下,事件相機的每個像素點獨立的檢測其上的亮度變化,生成異步的事件流數據,該數據包括時間戳、像素地址和亮度變化的極性.

事件相機像素點上的亮度變化要由目標對象或傳感器運動引起[1].當多個像素點同時請求事件輸出時,這些事件將以亞微秒級時延異步輸出并構成事件流.旋轉圓盤場景下幀相機與事件相機輸出對比如圖2 所示,展示了傳統幀相機與事件相機對高速轉動圓盤上固定點進行一段時間跟蹤拍攝得到的結果.圖2(a)顯示傳統幀相機以固定頻率記錄整個圓盤信息,信息冗余度高,幀間丟失了跟蹤點的信息.而圖2(b)的事件相機則連續記錄跟蹤點對應的運動事件,以異步的方式記錄有用的運動信息,具有低時延、低帶寬需求的特點.

圖2 旋轉圓盤場景下幀相機與事件相機輸出對比[2-3].幀相機在每一幀圖像中記錄全部像素點上的數據,即使圓盤中大部分區域的信息是無用的;事件相機僅記錄圓盤中的黑點位置,因此僅對運動的有效信息輸出事件Fig.2 Comparison of outputs between frame camera and event camera in rotating disc scene[2-3].The frame camera records the data on all pixels in each frame image,even if the information in most areas of the disc is useless;The event camera only records the position of black spots in the disc,so it only outputs events for the effective information of motion

事件被觸發以像素地址-事件流的形式輸出,地址-事件流數據包含事件的像素坐標、觸發時間和極性(亮度變化的信號)三類信息.觸發的事件表示為

事件e表示在事件相機上位于(x,y)T處的像素點在t時刻因亮度變化而被觸發的事件.ρ(p,c)為一個截斷函數.

c為事件點的激發閾值,p為亮度變化值.當亮度增量大于c時,激發正極性事件點,當亮度增量小于 -c時,激發負極性事件點,當亮度增量的絕對值小于c時,事件相機無輸出.

1.2 事件相機的發展歷程

事件相機的出現,可以追溯到1992 年,Mahowald[4]在博士論文中提出了一種“硅視網膜”視覺傳感器.這是首個輸出地址-事件流的視覺傳感器,但它只是事件相機的雛形,像素面積過大導致它無法得到實際使用.Boahen[5]在2002 年開發了編碼增量視覺信號的視網膜啟發芯片,模擬生物視網膜的空間視覺通路(Parallel pathway).

Kramer[6]在2002 年提出了一種積分光瞬態傳感器,缺點是傳感器的對比靈敏度較低.Ruedi 等[7]在2003 年提出了空間對比度和局部定向視覺傳感器,其輸出編碼的是空間對比度而不是時間對比度.在一個全局幀積分周期之后,該設備按從高到低的空間對比順序傳輸事件,每個對比度事件后面都跟著一個編碼梯度方向的事件.Luo 等[8]在2006 年提出了一種基于首次時間脈沖(Time-to-first-spike,TTFS)技術的CMOS (Complementary metal oxide semiconductor)相機,該相機利用每個像素的單個脈沖時序來編碼每個像素的光度.這種光度的時間表示可以將圖像傳感器的動態范圍擴大到100 dB以上,并引入了異步地址事件讀取技術以降低功耗.Chi 等[9]在2007 年提出了一種時間變化閾值檢測相機,它對傳統源像素傳感器(Active pixel sensor,APS)的像素進行了改進,使其能夠檢測絕對光度變化,該同步裝置存儲信號變化的像素地址,構成一種同步地址事件表示(Address event representation,AER)的圖像傳感器.Lichtsteine 等[10]在2008 年提出了第一臺商用的事件相機,稱為基于異步事件的動態視覺傳感器(Dynamic vision sensor,DVS).在DVS 的基礎上,目前已經開發了幾種具有附加功能的事件相機.如DAVIS、ATIS等,詳見第1.4 節.

1.3 事件相機的主要特點

事件相機異步地測量每個像素的亮度變化,而非以固定速率捕獲圖像幀,因此能克服傳統幀相機的局限性并且具有特有的優異屬性,如高時間分辨率、低延遲、低功耗、高動態范圍等,在高速和高動態范圍場景中有著廣闊的應用空間.

1)高時間分辨率.事件相機是通過檢測像素點處的亮度變化產生事件,其對亮度變化產生的響應速度極快,輸出頻率可達1 MHz,即事件時間戳分辨率為微秒級.因此,事件相機可以捕捉到高速運動,不會受到運動模糊的影響.

2)低延遲.事件相機可近乎實時地輸出亮度變化,平均延遲在 μs 數量級,而傳統相機受幀率限制,采樣等待時間是0 和1/f之間的均勻分布,其中f是幀速率.因此,事件相機對輸入變化具有超低延遲,實驗測試中時延約為 10 μs,在真實應用中可達亞毫秒級[11].

3)低數據量和低功耗.事件相機以稀疏事件流的形式輸出視覺信號,事件流中不包含靜態背景的任何信息,因此過濾了大量冗余數據.因為僅傳輸像素點的亮度變化,不需要用于像素讀取的模數轉換器,從而避免了大量冗余數據的傳輸,能耗僅用于處理變化的像素.大多數事件相機功耗約在10 mW級,甚至有些相機原型的功耗低于 10 μW.基于事件相機構建的嵌入式系統,其系統整體的功耗一般大約為100 mW,甚至更低[12—14].

4)高動態范圍.事件相機不受白平衡、感光度等統一成像參數影響,在圖像過暗、曝光過度、光線突變等情況下,依然可以通過觸發事件來獲取視覺信息.因此,具有極高的動態范圍(>120 dB),甚至可高達143 dB[15].而幀相機通常只能達到60 dB,所以,事件相機在光照條件良好的白天或者光線較暗的夜晚均能夠有效地工作.

上述優點與各類機器人控制結合,能夠突破傳統幀相機的限制,實現機器人系統對快速運動目標的感知和響應、大大降低感知系統的功耗、提高在復雜光照(強光、暗光)條件中的感知能力.盡管如此,目前在應用上也存在一些挑戰,主要包括硬件缺陷造成的挑戰以及處理范式轉變帶來的挑戰[11]:

1)噪聲.光子中存在固有的散粒噪聲以及晶體管電路中存在的噪聲,使得視覺傳感器本身就攜帶大量的噪聲事件,當物體或相機運動時也會產生一系列噪聲事件,并且它們是非理想性的.因此如何從噪聲中提取有效事件信息是研究者所要解決的問題.

2)信息的處理.與幀相機提供的灰度信息相比,事件相機產生的每個事件僅提供二進制亮度變化信息(亮度增加或減少,以事件的極性表示).并且亮度變化不僅取決于場景亮度,還取決于場景和相機之間的過去和當前的運動變化,處理這種二進制信息具有挑戰性.

3)新的算法.事件相機的輸出與幀相機有著根本的不同,事件是異步的、空間稀疏的,而圖像是同步的、密集的.因此,現有的大多數計算機視覺算法在事件相機上無法直接使用,因此開發特有的新算法是充分應用事件相機的前提.

1.4 事件相機的代表性產品

1.4.1 DVS

DVS 為事件相機的一種,是眾多類視覺傳感器的基礎.它是一種基于時間的異步動態視覺傳感器,模擬生物視網膜空間視覺通路的功能,試圖感知場景的動態信息.DVS 像素由快速對數光感受器(Photoreceptor)、差分電路(Differencing)和兩個比較器(Comparators)組成,以微秒級時間分辨率響應亮度相對變化.它的單個像素結構和工作原理簡化圖[10,16]分別如圖3(a)和圖3(b)所示.感光電路主要由一個光電二極管、一個串聯的晶體管和一個負反饋回路構成,它能感知光線強度變化并及時給出響應.差分電路可以將感光電路的輸出進行放大,并減少晶體管因工藝制作帶來的誤差.閾值比較電路主要是通過比較器比較電壓的變化實現ON/OFF事件脈沖的輸出.若光線變亮,電壓變化量大于ON 事件的閾值,則會輸出一個脈沖表示ON事件;若光線變暗,電壓變化量小于OFF 事件的閾值,則會輸出一個脈沖表示OFF 事件.如果電壓達到飽和值,復位信號會將電壓進行復位,不產生ON或OFF 信號.2020 年Samsung 開發的最新款DVS 具有1 280×960 的分辨率,每像素功耗低至122 nW 與4.95 μm 的像素間距[17].

圖3 DVS 原理圖Fig.3 Schematic diagram of DVS

1.4.2 ATIS

Posch 等[15,18]在2011 年提出基于異步時間的圖像傳感器(Asynchronous time-based image sensor,ATIS).ATIS 在DVS 上進行改進,加入了脈沖寬度調劑環節,在其受到光強變化產生事件信號時激發另一子像素進行曝光成像,可以得到亮度變化超過閾值部分像素的強度圖像,也就是可以在輸出光線強度變化信息的同時輸出對應點的光線強度信息.Chronocam 供應的系列最新款ATIS 視覺傳感器擁有304×240 的分辨率,最高達143 dB的動態范圍與30 μm×30 μm 的像素面積.

1.4.3 DAVIS

為了解決DVS 難以直接應用現有算法的問題,Brandli 等[19]和Taverni 等[20]開發了動態和有源像素視覺傳感器(Dynamic and active pixel vision sensor,DAVIS).DAVIS 是DVS 相機和傳統的APS 相機的結合體,將APS 電路和DVS電路共用一個光電二極管,實現異步事件和同步幀級圖像的同時輸出.DAVIS 像素也分為兩個子結構,其中一個子結構用于監測光照變化的事件,而另一個子結構像傳統的APS 相機一樣進行同步的曝光.不同于ATIS的是,DAVIS 像素的兩個子結構是共用同一個感光器的,而ATIS 像素的兩個子像素有各自的感光器.因此,DAVIS 相機的像素面積較ATIS 相機的像素面積更小,前者的填充因數較后者的更大.通過DAVIS 獲取的灰度圖和通過傳統APS 相機獲取的灰度圖一樣,具有時間冗余性和空間冗余性,并且無法承受高動態范圍的環境.由iniVation 公司供應的系列最新款DAVIS 346 視覺傳感器擁有346×260 的分辨率,最高達120 dB的動態范圍與18.5 μm×18.5 μm 的像素面積.

1.4.4 CeleX

2019 年上海芯侖科技發布CeleX-V 事件相機[21],具有1 280×800 的分辨率,同時時域最大輸出采樣頻率為160 MHz,動態范圍為120 dB,是第一款達到百萬像素級別的相機,該傳感器采用65 nm CIS (CMOS image sensor)工藝實現,像素尺寸為9.8 μm×9.8 μm,具有高空間分辨率、高時域分辨率和高動態范圍的優勢,引起了當前事件相機領域的關注.CeleX-V 將多個視覺功能集成到一個圖像傳感器中,實現全陣列并行運動檢測和全幀圖像輸出,它還可以實現片上光流提取.

表1 總結了目前主流事件相機的性能.

表1 幾種事件相機的性能比較表Table 1 Performance comparison table of several event cameras

2 基于事件相機的無人機感知和運動控制

無人機(Unmanned aerial vehicle,UAV)具有體積小、造價低、使用方便、對使用環境要求低、生存能力較強等優點,廣泛應用于航拍、植保、測繪、巡檢等領域.為了進一步提升無人機對環境的感知能力,已有眾多學者結合事件相機的低數據量、低延遲、高動態范圍等特性,對無人機運動控制問題進行了研究,實現了在基于傳統幀相機為感知器件時,較難實現的快速感知、避障和垂直降落動作.

在無人機的實際應用中,會受到如鳥類、敵方目標的干擾,因此需要在較短的時間內進行障礙物的躲避.無人機受到重量、功耗等限制,對數據處理的計算復雜性、功耗、延遲有著極大的限制,因事件相機低功耗、低數據量、低延遲的特性,很適合裝載于無人機上,完成相應任務.從理論上來說,傳統相機對環境的感知延遲約20~40 ms,事件相機的感知延遲僅為2.2±2 ms,能夠為無人機預留更長的機動時間.下面分別從基于事件相機的無人機感知、避障、垂直降落等方面,介紹該方向的工作.

2.1 無人機基于事件相機感知運動物體

因為無人機較快的運動速度,對數據處理實時性提出了較高的要求,為了研究事件相機的極限跟蹤效果,Chamorro 等[22]提出了一種超快速跟蹤的方法.使用如圖4 所示的實驗環境,事件相機靜止放置于四桿裝置前20 cm,由直流電機驅動四桿裝置進行快速晃動,該裝置上搭載畫有幾何圖形的平面,用以產生事件,并通過事件相機進行觀測,用以求解物體的位姿.

圖4 實驗環境[22]Fig.4 Experimental environment[22]

圖4(a)模擬了事件相機成像平面.這項實驗具有Lie 參數化功能[23],提出了一種新的Lie-EKF 公式用于跟蹤物體的6 自由度狀態.為了測試該方法的追蹤極限,直流電機的速度逐漸增加,直到大約950 r/min (15.8 Hz),跟蹤性能開始下降.在這樣的角速度下,裝置的速度分析報告的最大目標速度為2.59 m/s.線性目標加速度達到253.23 m/s2或25.81 g,遠遠高于最苛刻的機器人應用的預期范圍.根據所使用的運動模型和狀態參數,跟蹤器能夠處理89.1% 到97.7% 的輸入數據,達到實時性能,并以10 kHz 的速率產生姿態更新,并且即使在亮度驟然變化時(開、關燈),仍然能保證較好的性能.

Mueggler 等[2]提出了帶有事件相機的四旋翼高速機動的全3D 軌跡跟蹤,通過搭載在無人機上的事件相機記錄事件流,事件數據由無線網絡傳輸到筆記本電腦上實時可視化,同時記錄了前置標準CMOS 相機的視頻.實驗過程成功演示了在四旋翼翻轉期間轉速高達1 200°/s 時的位姿跟蹤.但是該方法適用環境有限,也不能用于閉環控制.

Dimitrova 等[24]在裝有事件相機的無人機平臺上解決了一維姿態跟蹤的問題,并實現了閉環控制.在雙旋翼直升機上搭載事件相機作為感知設備.實驗裝置如圖5 所示,其中黑白圓盤為參考圖,位于事件相機前方10 cm 的位置,黑白兩部分之間的分界線為要跟蹤的參考基準線,在該實驗中,將卡爾曼濾波器與改進的Hough 變換算法相結合,構成基于事件的狀態估計器,計算雙旋翼直升機相對于基準線的滾轉角和角速度.并通過旋轉編碼器提供轉盤和無人機的真實測量角度,用于評估基于事件的狀態估計器和控制器的性能.實驗中雙旋翼無人機已最小化地面和周圍結構的空氣動力學影響,狀態估計器以1 kHz 的更新速率和12 ms 的延遲執行,能夠以1 600°/s 的速度跟蹤基準線,并同時控制無人機以1 600°/s 的高速跟蹤基準線.該方法呈現了良好的事件相機驅動閉環控制的結果.但是實驗中的狀態估計步驟繁瑣,適用范圍也不廣.該文作者后續也將繼續研究如何使用事件直接編碼控制信號,完全消除狀態估計步驟.

圖5 實驗裝置[24]Fig.5 Experimental platform[24]

2.2 無人機躲避高速運動物體

文獻[25]是第一個使用事件相機進行躲避高速運動物體的工作.基于無人機攜帶的雙目事件相機,設計了一種球形物體追蹤器,使用擴展卡爾曼濾波進行數據處理,可以在250 ms 內預測碰撞,并可以躲避6 m 遠處以10 m/s 的速度飛來的球.但因實驗平臺的限制,僅從理論上驗證了在無人機這樣的小型嵌入式平臺上,檢測并躲避障礙物的可行性.

為了進一步探究事件相機的優勢,Falanga 等[26]對搭載單目、雙目以及事件相機3 種傳感器的無人機進行了實驗.實驗結果表明了在2 m 的感知范圍下,事件相機的延遲(2~4 ms)(指從視覺傳感器被觸發到將數據傳輸到處理模塊的時間)顯著低于普通單目相機(26~40 ms)和雙目相機(17~70 ms).對于已知大小的障礙物,使用聚類和光流算法對事件流數據進行處理來跟蹤物體,僅考慮水平移動,搭載事件相機的無人機可在2 m 的感知范圍內躲避相對速度高達9 m/s 的障礙物.實驗平臺如圖6(a)所示.

文獻[27]使用了淺層神經網絡從事件流中分割出獨立運動對象,并對其三維運動進行推理,以執行閃避任務,閃避場景如圖6(b)所示,四旋翼無人機使用EVDodgeNet 進行障礙物躲避.然后將其擴展到追蹤任務,這是第一個基于深度學習的解決方案,網絡如圖6(c)所示,由3 個網絡組成,去模糊網絡EVDeblurNet,用于將δt內產生的事件對齊;單應性估計網絡EVHomographyNet,用于計算相機自我運動;以及用以分割運動物體并進行光流追蹤的EVSegFlowNet,共包含130 萬個參數,相比于文獻[26]實現了飛行器的三維避障.并且對于沒有先驗信息的障礙物,仍有76%的躲避成功率,無需重新訓練即可泛化到實際場景中.但最終的響應延遲長達60 ms,極大地限制了無人機的運動.

圖6 無人機躲避高速運動物體的相關實驗((a)無人機實驗平臺[26];(b)真實無人機躲避兩個飛行障礙物,四旋翼無人機使用EVDodgeNet 進行障礙物躲避,其中無人機左右兩側的弧線軌跡為同時擲向無人機的兩個障礙物,中間的軌跡為無人機閃躲軌跡[27];(c)神經網絡架構圖[27],其中EVDeblurNet:事件幀去噪網絡,在模擬數據集上進行訓練就可推廣到真實場景,無需重新訓練或者微調;EVHomographyNet:單應性估計網絡,用于自我運動估計,計算相機的自我運動.第一個使用事件相機的單應性估計方案;EVSegFlowNet:物體分割與光流計算網絡,該網絡可分割場景中的運動物體并獲取其光流信息)Fig.6 Experiments of UAV avoiding high-speed moving obstacles ((a)UAV experimental platform[26];(b)The real UAV avoids two flying obstacles,and the quadrotor UAV uses EVDodgeNet to avoid obstacles,in which the arc trajectory on left and right sides of the UAV is two obstacles thrown at the same time,and the middle trajectory is the UAV dodge trajectory[27];(c)Neural network architecture diagram[27],in which EVDeblurNet:event frame denoising network,which can be extended to real scenes by training on simulated datasets without retraining or fine tuning;EVHomographyNet:homography estimation network,which is used to estimate self-motion and calculate self-motion of camera.The first homography estimation scheme using event camera;EVSegFlowNet:an object segmentation and optical flow computing network,which can segment moving objects in the scene and obtain their optical flow information)

在文獻[26-27]的理論基礎上,文獻[28]在相同的實驗環境下,僅使用事件相機進行數據捕捉,該方法使用精度換時間的策略,從收到待處理事件到發出第一條避障指令,時延僅為3.5 ms,且成功率超過90%.在感知環節,為降低計算量,對文獻[29]中提出的方法進行改進,僅使用IMU (Inertial measurement unit)進行自我運動補償,將事件數據區分為靜態場景與動態對象.再通過聚類區分不同物體并結合雙目深度信息計算三維坐標,并將該位置作為卡爾曼濾波的測量輸入計算其速度信息.而在避障環節,為降低計算量,使用了基于反應式的人工勢場法回避方案[30],避免了由于數值優化而引入延遲.同時為方便處理,利用二維平面中的數據將障礙物構造成橢圓體建立排斥場,目標運動位置構造引力場,最終向控制器輸出運動速度.算法的總延遲從文獻[27]中的60 ms 提升到了3.5 ms,且能夠在板載處理器上實時運行,極大地提升了響應速度.在室內及室外的實驗中,均可躲避相對速度10 m/s 的障礙物,可以連續躲避多個障礙物,并且躲避成功率超過90%.

而在基于傳統相機的避障工作中,Lin 等[31]的單目方案延遲可優化到150 ms,可以在2.2 m/s 的移動速度下躲避障礙物.Oleynikova 等[32]的雙目方案,從圖像曝光到路點規劃的整體時延為14.1 ms (曝光時間3 ms),能夠在5 m/s 的飛行速度下,對0.07 m遠處的障礙物進行響應.Barry 等[33]在無人機上搭載雙目120 Hz 相機,能在14 m/s 的速度下實現避障.Huang 等[34]使用30 Hz 的RGB-D 相機在機載芯片上數據處理時間為25 ms.因為傳統圖像數據量較大,目前很多方案會將數據傳回地面站進行計算,更進一步加大了延遲,可見因事件相機的獨特優勢,已經逐漸展現出了應用潛力.

當前的這些工作中,導致躲避失敗的主要因素是檢測到障礙物的時間太晚,導致無人機無法及時地完成規避動作,主要原因是:1)當障礙物進入到相機視野時,距離已經不足以使飛行器完成規避動作;2)障礙物的運動沒有產生足夠的事件(如物體垂直于像平面運動,僅物體邊緣產生少量事件),算法無法及時檢測到障礙物.

文獻[26]的研究中也發現事件相機的延遲并不是恒定的,而是取決于相機與障礙物之間的距離與速度,障礙物速度越大、距離越近,響應時間越短.因此該文獻認為,在當前,雙目相機在性能、成本上能夠有很好的折衷,仍然是無人機的最佳選擇之一,而隨著技術的發展,事件相機能夠在未來提供更好的解決方案.

2.3 無人機垂直降落控制

為了模仿鳥類著陸,現有的無人機垂直著陸解決方案均在無人機底部安裝事件相機,如圖7 所示,以觀察地面信息.

圖7 無人機垂直降落實驗裝置[35]Fig.7 Experimental device for vertical landing of UAV[35]

文獻[35]使用如圖7 所示的實驗裝置.同時在事件流和基于事件幀的圖像上進行直線追蹤,使用擴展卡爾曼濾波將二者結合,利用前者的快速響應和后者的魯棒性,可以高速、有效地跟蹤直線,進而在時空中生成直線可能所在的平面,整體頻率高達339 Hz.再利用Tau 理論[36]進行位置調整可以有效地引導無人機,為著陸、懸停提供空間信息.

Pijnacker Hordijk 等[37]最先將基于事件的光流集成到無人機應用中,提出了一種高效的平面幾何光流估計技術,盡管光流本身并不能提供運動的度量標度,但是來自光流場的信息對于一些導航任務(包括著陸)十分有用.實現了無人機的快速平穩著陸.

在文獻[37]的理論基礎上,文獻[38]使用神經進化(Neuro-evolution)優化人工神經網絡,設計了神經控制器,學習現實世界中基于事件的光流控制.對于使用事件相機與普通相機同時采集的數據,該控制器輸出了相近的控制策略,證明了該控制器的魯棒性.

文獻[39]將文獻[38]中的方法擴展到脈沖神經網絡,脈沖神經網絡(Spiking neural network,SNN)是一種生物神經網絡,也是第三代神經網絡模型[40].它采用脈沖神經元為基本單位,脈沖神經元通過接收脈沖改變內部狀態,當狀態超過閾值才會輸出脈沖,當未接收脈沖時脈沖神經元不工作,因此SNN 可以在極低的功耗下工作.使用SNN 可以更加充分地利用事件流信息,以獲得更有效的方案.飛行昆蟲能夠在混亂的環境中快速飛行,可以靈活地避開障礙物.而自主微型飛行器(Micro aerial vehicle,MAV)遠遠落后于生物飛行器,消耗的能量非常多.SNN 不僅可以用來模擬人腦的神經網絡,文獻[39]提出該網絡還可以利用鏡頭向下的事件相機產生的光流散度控制MAV 的飛行和著陸.這項工作是第一次將SNN 集成到真實飛行機器人的控制回路中.不僅研究了如何大幅降低SNN 控制器的脈沖率,而且該方案可以節省大量的能量.但是該控制器只能實現在常規芯片上,不能在神經形態芯片上實現.

以上基于事件相機的無人機運動控制研究與結果描述如表2 所示.

表2 無人機部分實驗場景Table 2 Experimental scenarios of UAV

當前研究的主要目標為實現閉環控制以及實現低延遲高帶寬的飛行控制.但是當前研究中大部分仍然是基于傳統的視覺算法,并未充分利用事件相機異步更新的特性.

3 基于事件相機的機械臂感知和運動控制

機械臂是由多個驅動關節串聯組成的多自由度機電系統,其通過安裝于末端的執行器完成各類操作.但是機械臂的運動規劃和控制均依賴其對周圍環境的感知,確定被操作對象的位姿、狀態、是否有障礙等等.現有的感知手段包括視覺、觸覺、力覺等.其中基于視覺的感知具有低成本、易用性強等特點,已成為機械臂感知的主流方法.目前已有學者開始將事件相機作為機械臂的感知器件,完成基于事件數據的靜態物體抓取以及被夾持物體的滑動檢測.與傳統的基于圖像的方法相比,事件相機在此場景中提供了更高的靈敏度、更低的延遲以及更少的功耗.

3.1 “眼在手上”的物體定位感知和抓取

抓取物體是機械臂的基本能力.眼在手上是指視覺傳感設備安裝于機械臂的末端,伴隨機械臂運動.Muthusamy 等[41]首先在該問題上做出了嘗試,提出一種眼在手上的基于事件相機的機械臂抓取方案.該方案初始化一個隨機目標點,控制機械臂使相機向該點運動以產生事件,利用基于事件的視覺伺服(Event-based visual servoing,EBVS),控制機械臂使目標中心與相機中心重合,最后調整抓取角度以實現穩定抓取.其中,EBVS 采用活躍事件表面(Surfaces of active events,SAE)異步執行角點檢測.得到的角點儲存在活躍角點事件表面(Surfaces of active corner events,SACE)并用于進一步跟蹤和目標中心點計算.

目標中心點儲存在活躍虛擬事件表面(Surfaces of active virtual events,SAVE),用于二自由度視覺伺服和抓取角度計算.3 個活躍表面如圖8 (a)所示.該抓取方案采用如圖8 (b)所示的結構,機械臂末端安裝兩個真空吸盤,在1.2 m×1.0 m的工作臺上對三棱柱、立方體、五棱柱三種物體進行了抓取實驗.在不同速度和不同光照條件下,機械臂均能實現穩定抓取,平均抓取誤差(實際中心與抓取中心的誤差距離)為16.1 mm.但是這種抓取方式只適用于規則物體,且要求像平面平行于工作臺.

圖8 處理步驟以及抓取場景[41]Fig.8 Processing steps and capture scene of reference[41]

3.2 機械臂的滑動檢測感知與防滑控制

機械臂夾持物體后,物體有可能產生滑動,如果單純地使用最大加持力,則有可能損壞物體,因此根據物體的滑動狀態確定夾持控制方案,能夠恰到好處的完成機械臂夾取物體.但是滑動是一瞬間發生的運動,事件相機的低延遲特性,恰好能夠解決該場景對感知系統的需求.

文獻[42]首次使用事件相機作為“觸覺傳感器”,僅通過事件相機感知透明硅材料與不同物體之間的接觸面積,并通過傳統的圖像處理方法,分析重建幀上的事件分布以進行滑動檢測,無需事先了解物體的屬性或摩擦系數也可以成功檢測到位移.實驗環境如圖9 所示,在復雜光照下,使用不同材質、形狀、重量的物體上進行了實驗,滑動檢測的平均精確率為0.85,平均延遲為44.1 ms.并同時使用高速相機進行了驗證,證明了方法的精確性.但是不同的材質會對結果產生較大影響,金屬物體由于摩擦和物理粘性,具有更好的效果.并且會受到接觸面積的影響,接觸面積較小的物體會產生更高的延遲.

圖9 實驗裝置的俯視圖和側視圖[42]Fig.9 Top view and side view of the experimental device[42]

相比于文獻[42]中使用純事件相機的方式,Taunyazov 等將觸覺傳感器與事件相機結合,提出了視覺-觸覺脈沖神經網絡(Visual-tactile spiking neural network,VT-SNN)[43],將視覺和觸覺兩種感知方式用于監督學習中.而且通過二者相結合的方式(Prophesee 事件相機與NeuTouch 觸覺傳感器),實現了容器分類和物體的旋轉滑動分類,取得了比傳統深度學習方法更好的效果.最后在神經形態處理器Intel Loihi[44]上進行實驗,相比于使用GPU,推理效率更高,功耗表現更優.

但是文獻[42]中的實驗場景顯然不具備機動性,因此Baghaei Naeini 等[45]提出了一種新的基于視覺測量(Vision-based measurement,VBM)的方法,夾持器示意圖如圖10 (a)所示,直接采用透明硅介質作為夾持器.這是第一個基于事件相機來測量接觸力并在單次抓握中進行材料分類的方法,提供了更高的靈敏度,更低的時延以及更少的功耗.實驗通過圖10 (b)中的時延神經網絡(Time delay neural network,TDNN)和高斯過程(Gaussian process)估計相同形狀、尺寸物體在抓取和釋放兩個階段的接觸力,并使用深度神經網絡僅通過接觸力進行材料分類.其中,TDNN 方法的平均準確率為79.17%,時延為21 ms,均方誤差(Mean square error,MSE)為0.16 N,證明了基于事件的傳感器對于機器人抓取應用的適用性.

圖10 夾持器及網絡示意圖[45]Fig.10 Schematic diagram of gripper and network[45]

但是因為不同尺寸的物體與透明硅材料的接觸面積不同,因此對于尺寸不同的物體,需要復雜的動態方法來關聯每個時間戳上的事件與力的測量值.為了克服無法有效檢測不同尺寸物體的問題,因此在文獻[45]的基礎上,提出了使用不同的長短記憶網絡(Long short-term memory,LSTM)結構為傳感器提供記憶,進而動態估計接觸力的方法[46].傳感器在抓取的早期階段識別物體的尺寸,使用卷積網絡與循環層結合的方式,使傳感器能夠根據物體的大小估計相應的接觸力.在與文獻[45]相同的實驗條件下,時延提升到10 ms,誤差從文獻[45]中的0.16 N 降低到0.064 N (MSE),有著更優良的表現,可以應用于實時抓取應用.但是對于未知物體的泛化能力較弱.

Muthusamy 等[47]使用事件相機作為滑動感知器件,同樣使用透明塑料板作為夾持器,通過在物體上添加負載的方式使物體產生滑動;能夠以2 kHz的采樣率實現夾持物體的滑動檢測;并根據檢測到的滑動幅度,使用Mamdani 型模糊邏輯控制器來調節握力.另外,文獻中提出了基于事件數量閾值與基于特征的兩種滑動檢測方法,能夠對環境進行噪聲采樣并自動校準.其中對基于特征的滑動檢測,評估了3 種特征檢測算法、兩種采樣速率下以及復雜光照、震動環境下的性能.實驗證明,使用e-Harries[48]特征的滑動檢測具有更強的魯棒性,成功率超過90%.但是需要被抓取對象有較為明顯的紋理信息,如邊緣或角點.

文獻[49]提出了一種基于事件的觸覺圖像傳感器.在黑色半球形的彈性體內表面嵌入白色標記點,通過事件相機觀測標記點的位移變化,即可檢測到指尖位置因受力而發生的形變,能夠以0.5 ms的響應速度進行檢測,處理之后可以檢測到接觸、滑動、位置、方向等信息.但是這樣的處理方式對于震動較為敏感,容易出現誤檢測.

可以看出,在當前滑動檢測的應用中,大部分論文都選擇了將物體與透明板接觸,然后使用事件相機觀測面積變化的方式.但這種方法的問題就在于仍然要將事件流恢復成事件幀,然后才能進行后續操作.本節所述算法的總結如表3 所示.

表3 部分基于事件相機的實驗設備Table 3 Experimental equipment based on event camera

本節主要總結了基于事件相機的機械臂伺服控制研究.盡管針對事件相機的機械臂伺服控制雖然已經有了一定的研究,但很多方面仍處于起步階段,許多文獻僅對于靜態物體的抓取以及滑動檢測有了較深入的研究,而對于一些典型的視覺伺服場景,同時也是事件相機最擅長的場景——運動物體的抓取,尚未有深入研究,這也是最能挖掘事件相機潛力的應用場景.同時當前的研究也存在一定的缺陷,如文獻[41]中雖然實現了物體的抓取,但僅能抓取靜態的規則物體;大部分文獻中的方法仍然需要將事件流恢復為事件幀處理,無法快速響應;文獻[45-46]使用的深度神經網絡方法無法充分發揮事件流異步更新的優勢.

總的來說,當前基于事件相機的機械臂伺服面臨的問題主要在于,抓取應用僅適用于簡單場景以及規則物體;并且無法充分利用事件異步更新的優勢.前者使得事件相機的應用場景受到了極大的限制;后者在很大程度上削弱了事件相機高時間分辨率的優勢.因此對基于事件相機的機械臂伺服的后續研究,工作重點應盡可能減少復雜環境下,靜態場景的影響,以及尋找異步處理事件的方法.

4 基于事件相機的人形機器人感知和控制

人形機器人是研制通用機器人的重要解決方案.人形機器人能夠自然地適應人類環境,但是目前從各個層面,如感知、規劃、驅動、控制等,現有能力均與人形機器人的預期有極大的差距.事件相機基于生物視覺成像原理,呈現出神經形態特性,其特點符合對人形機器人的感知能力預期,因此已有學者將其應用于人形機器人的感知和控制中.本節系統介紹在此方向上,事件相機的應用和發展.

目前,事件相機與人形機器人結合的研究,大都是依托人形機器人iCub 展開的.iCub 是由意大利技術研究院(Italian Institute of Technology,IIT)建造的一個通用機器人開發平臺,無需任何特殊設備即可在任何實驗室中工作,可用于研究小型人形機器人的爬行、行走、視覺、觸摸、人工智能、認知、操縱、學習等課題.iCub 共具有53 個自由度,囊括了攝像頭、麥克風、力/扭矩傳感器、全身皮膚、陀螺儀和加速度計以及每個關節中的編碼器等傳感器;在軟件層面,iCub 設有ROS(Robot operating system)接口,并使用YARP(Yet another robot platform)作為中間件.傳統幀相機在數據的傳輸、儲存和處理過程中需要消耗大量的計算資源,難以滿足iCub自主控制的低功耗、低延遲需求;而事件相機由于其高時間分辨率、低延遲、低功耗、高動態范圍等特點,有助于iCub 實現自主計算,進而實現iCub 自主控制.

4.1 基于事件相機的人形機器人感知

為了實現事件相機與iCub 的結合,IIT 機器人事件驅動感知團隊(Event-driven Perception for Robotics,EDPR)在iCub 的眼球上嵌入了一套事件視覺系統[50—52],同時將幀相機重新布置在iCub 的頭頂作為色彩等視覺信息的補充.如圖11 所示,事件視覺系統由兩個DVS 事件相機或ATIS 事件相機、一個通用地址事件處理器以及一塊FPGA 芯片組成.隨著研究的逐步深入,他們在YARP 框架下開發了基于事件驅動的軟件庫[53],這使得事件相機可以與包括iCub 在內的基于YARP 的機器人一起使用[54].該軟件庫可以不依賴iCub 單獨使用,庫中包含了光流、聚類追蹤、角點檢測、圓檢測、粒子濾波、相機標定、預處理、可視化等功能模塊,并提供了示例程序及數據集.

圖11 人形機器人事件視覺系統Fig.11 Event vision system of humanoid robot

基于在iCub 上嵌入的事件視覺系統,學者們在圓檢測、角點檢測、機器視覺注意力機制等方面開展了大量研究.在圓檢測方面,Wiesmann 等[55]在桌面靜置小球,通過轉動iCub 的頭部或眼球,使小球與iCub 產生相對運動,進而產生邊緣事件,然后對事件聚類,實現圖像分割;接著采用Hough 圓變換檢測出圓形,精確識別出小球.針對復雜背景下的圓檢測問題,Glover 等[56]提出了一種基于光流的定向Hough 圓變換算法,即利用光流信息估計圓心的運動方向,只在該方向上開展Hough 圓檢測.

在角點檢測方面,Vasco 等[48]提出了事件驅動的e-Harris 算法.e-Harris 算法為每個異步事件創建一個局部檢測窗口,充分利用累計的事件在局部檢測窗口應用Harris 算法計算角點響應值.Vasco等通過轉動iCub 的頭部及眼球掃描靜置物體,檢測到了對應的角點事件,驗證了算法的有效性.但是當事件相機與目標均在運動時,會產生大量背景事件,這使得跟蹤或識別目標物體的運動變得更加困難.因此需要將由目標自身運動所產生的目標角點事件,與由事件相機運動所產生的背景角點事件進行區分.在文獻[57]中,Vasco 等通過聚類追蹤e-Harris 檢測到的角點,并估計角點的運動速度;同時根據iCub 的關節運動,應用支持向量機和徑向基函數核開展有監督學習.最終實現了背景角點事件與目標角點事件的區分,且精度高達90%以上.

計算機視覺中的注意力機制具有廣泛的應用,這種機制能夠忽略無關信息而關注重點信息,進而節約有限的計算資源.Rea 等[58]利用事件視覺系統,為iCub 開發了一套低延遲的人工注意力系統,可以快速計算出需要聚焦的位置.實驗結果表明,相比于基于幀相機的人工注意力系統,事件驅動人工注意力系統的延遲要低兩個數量級,所占用CPU資源也要低近乎一個數量級.在高動態場景中,事件驅動的人工注意力系統可以準確識別出視野中需要聚焦的點,而基于幀相機的人工注意力系統完全無法進行識別.Iacono 等[59]將原型對象注意力模型與嵌入iCub 人形平臺上的神經形態事件驅動相機配合使用,為機器人提供了低延遲、計算效率高的注意力系統.

此外,基于iCub 及其嵌入事件視覺系統,結合機器學習技術,還有許多有意義的研究項目.例如Iacono 等[51]將深度學習應用于iCub 上的事件相機開展目標檢測;Monforte 等[50]采用長短期記憶人工神經網絡開展軌跡預測等.

4.2 人形機器人雙目凝視控制

基于在iCub 上嵌入的事件視覺系統,可以實現驅動iCub 的頭部及眼球關節實現凝視追蹤、深度估計等復雜操作.Glover 等[56]利用基于光流的定向Hough 圓變換檢測算法識別小球的空間位置,并驅動iCub 轉動眼球及頭部,實現對小球的實時凝視跟蹤.在大多數情況下,定向Hough 圓變換都能取得很好的檢測效果.但是由于Hough 圓變換需要固定檢測窗口,當場景中有多個以不同速度移動的物體時,事件發生率就會有很大波動,最佳檢測閾值將針對不同的對象而變化很大,并且還會隨時間而變化;當相機追蹤球體時,若相對運動很小,則可能丟失追蹤目標.為了解決上述問題,Glover 等[60]又提出了一種粒子濾波算法,展現出了更卓越的魯棒性.

在深度估計方面,iCub 可以通過驅動雙目運動,使其視線聚焦,進而通過雙目之間的相對姿態獲得深度信息[61].但幀相機存在延遲高、魯棒性差等問題,目標快速運動時算法甚至會失效.針對該問題,Vasco 等[62]用基于事件驅動的視差調諧雙目Gabor 濾波器得到雙目視差,然后驅動眼動使視差收斂,進而估計出深度信息.這一改進使得延遲從幀相機的1 s 降低至事件相機的200 ms,且降低了對光照等環境條件的要求,實現了更好的魯棒性.

在iCub 上同時安裝麥克風與事件視覺系統,還可實現多信息融合.Akolkar 等[63]在iCub 的頭部安裝麥克風,首先利用iCub 上的事件視覺系統檢測視覺空間中的物體“碰撞”信息.基于視覺檢測到的“碰撞”事件,可能是真實碰撞,也可能是假碰撞,如兩個物體在視覺空間中相互遮擋.真實碰撞通常會產生聲音,因此發生真實碰撞時麥克風可以檢測到聲音事件.當通過視覺與聽覺同時檢測到碰撞事件時,即可認為視覺空間中發生了真實碰撞.該基于視聽信息融合的碰撞檢測算法在iCub 檢測人拍掌的場景中得到了驗證.

綜上,相比于傳統幀相機,事件相機在iCub 上的應用,以耗費更少的計算資源降低了系統的延遲,提高了iCub 在不同光照強度、復雜背景條件、高動態場景下的自主控制能力,但目前的研究仍較為基礎,主要是驅動iCub 的頭部和眼球進行凝視追蹤,更進一步的應用還有待進一步挖掘,如抓取、接球等更為復雜的操作.

5 結合事件相機與脈沖神經網絡的感知和控制方法

事件相機的離散、異步的數據特點與脈沖神經網絡的輸入需求自然的契合,因此將它們結合,產生了一系列感知和控制的新方法.本節重點介紹事件相機與脈沖神經網絡結合的感知和控制工作,側重算法和網絡的設計.

第2.3 節中提到,脈沖神經網絡(SNN)采用脈沖神經元為基本單位,由前饋型、遞歸型以及混合型3 種拓撲結構,而且可以在極低的功耗下工作.脈沖神經元從神經科學角度出發進行建模,現有的模型包括HH(Hodgkin-huxley)模型、LIF (Leaky integrate and fire)模型、SRM(Spike response model)模型等.脈沖神經網絡的訓練方式包括有監督學習(如SpikeProp、Multi-SpikeProp、Hebbian、ReSuMe、Chronotron、SPAN、SWAT、Tempotron 等)、基于STDP (Spike-timing-dependent plasticity)的無監督學習、強化學習等.事件相機以事件流的形式輸出,這與脈沖神經網絡的輸入十分契合,因此選擇脈沖神經網絡搭配事件相機工作具有相當優勢.

結合事件相機和SNN 的識別研究工作較多.Zhao 等[64-65]開發了一種基于事件的前饋分類系統,該系統采用基于地址事件的Tempotron 分類器實現分類.如圖12 所示,系統由卷積、競爭、特征脈沖轉換器、運動符號檢測器和Tempotron 分類器構成.事件相機所產生的每個地址事件都會先由Gabor濾波器濾波,然后與領域事件競爭,獲勝者才能進入圖12 所示的C1 特征層.同時,地址事件會傳遞到運動符號檢測器(由LIF 脈沖神經元和峰值檢測單元組成)當中,當LIF 脈沖神經元的輸出超過峰值時,將產生脈沖,進而導通圖12 中的開關,此時可以將C1 特征層中勝出的單元導入到特征脈沖轉換器中,由特征脈沖轉換器將每個特征編碼為時域脈沖.最終由Tempotron 分類器實現分類.Tempotron 分類器由LIF 脈沖神經元所構成,是一類有監督學習算法.上述分類器在基于事件相機的人體姿態識別、卡牌識別、數字識別等方面能取得較好效果.

圖12 前饋分類系統的結構[65]Fig.12 Structure of feedforward classification system[65]

Zhao 等在文獻[66]中,對前述前饋分類系統結構進行簡化,取消了特征脈沖轉換器和運動符號檢測器,同時由LIF 脈沖神經元構建S1 層.對地址事件,在采用Gabor 濾波器濾波后,經S1 層、競爭之后,直接由Tempotron 分類器進行分類.對該系統在MNIST-DVS 數據集上進行測試,準確性達到88.14%.Nan 等[67]提出了一個基于事件的層次結構模型,該模型由特征提取層和SNN 組成.特征提取層包括Gabor 濾波、池化、事件時間表面特征提取等操作.SNN 采用Tempotron 算法訓練,人臉識別的精度可以達到92.5%.

Shen 等[68]應用DVS128 事件相機和SNN 的結合,開發了籃球比賽中的自動得分檢測系統,識別準確率高達91%.地址事件處理框架如圖13 所示,主要由特征提取器、峰值檢測器和不平衡Tempotron 分類器組成.事件相機輸出的地址事件先經Gabor 濾波,然后在S1 層和C1 層分別完成卷積和競爭;峰值檢測器由LIF 脈沖神經元構成,當神經元達到閾值后即輸出脈沖,此時將C1 層提取的數據傳輸到Tempotron 分類器處理.

圖13 籃球得分檢測框架[68]Fig.13 Basketball score detection framework[68]

值得注意的是,上述結合事件相機和SNN 的識別算法結構具有很大的相似性,決策端均是采用僅包含輸入層與輸出層的兩層脈沖神經網絡.Tempotron 是一個二層網絡學習算法,對這樣的兩層脈沖神經網絡的訓練是有效的,但是無法擴展到多層脈沖神經網絡.Massa 等[69]使用DvsGesture 數據集訓練深度神經網絡,通過將訓練后的深度神經網絡轉換為脈沖神經網絡,并在Loihi 上實現,可以實現實時手勢識別,精度高達89.65%.Camunas-Mesa等[70-71]在Spartan6 FPGA 上實現了一個4 層卷積脈沖神經網絡,可以實現撲克牌花色識別.該卷積脈沖神經網絡中共包含4 個卷積層、兩個采樣層以及一個決策層,卷積模塊基于LIF 模型實現,模型參數由圖像驅動的卷積神經網絡映射而來[72].在測試中,他們使用DVS 相機在1 s 內拍攝了40 張撲克牌,可以達到97.5%的識別率.

在SNN 無監督學習方面,STDP 是一種常用方法.Diehl 等[73]提出了一種兩層架構的脈沖神經網絡結構,第1 層為28×28 的輸入層,維度與輸入數據相同;第2 層為處理層,又可細分為興奮層和抑制層,兩層由同等數量的興奮性神經元和抑制性神經元組成.輸入層與興奮層之間全連接;每個興奮性神經元一對一地連接到抑制性神經元(如圖14中興奮層左側的射線),同時抑制性神經元會投射到所有興奮性神經元(如圖14 中抑制層左側的射線).對該網絡采用STDP 算法進行訓練,在MNIST 數據集上可以達到95%的精度.但是Diehl 等[73]在預處理MNIST 數據集時沒有采用事件相機的數據格式.Iyer 等[74]采用N-MNIST 數據集(N-MNIST 數據集為采用DVS 事件相機記錄的MNIST 數據集)重新測試了Diehl 等[73]提出的網絡,精度可以達到80.63%.

圖14 兩層脈沖神經網絡結構示意圖[74]Fig.14 Schematic diagram of two-layer spiking neural network structure[74]

SNN 與事件相機的結合,不僅可用于識別工作,還能進一步助力機電伺服、運動檢測與追蹤等.Cheng 等[75]將DVS 事件相機、SpiNNaker 平臺以及機電伺服模塊集成到由脈沖神經網絡控制的自主機器人當中,實現守門任務.機電伺服模塊由伺服電機、長臂以及長臂末端的“守門員”組成.SpiNNaker 平臺上運行的脈沖神經網絡僅有輸入層和輸出層,不包含中間層,共有8 個輸出神經元,對應“守門員”8 個位置.當球來臨時,DVS 相機捕捉到球的運動,生成地址事件傳遞給單片機,單片機將數據打包發送到SpiNNaker 平臺.當某個輸出神經元輸出脈沖時,由SpiNNaker 平臺向單片機發送數據包,進而由單片機驅動機電伺服模塊,使“守門員”運動到指定位置攔截小球.

Ting 等[76]提出了一種六足機器人的步態模仿解決方案,該方案采用基于CeleX5 事件相機的前饋脈沖神經網絡實現.如圖15 所示,在該方案中,Ting 等[76]采用CeleX5 事件相機觀察“專家”的步態,所產生的事件采用Andpool 進行濾波,然后采用兩層脈沖神經網絡處理,實現“學生”步態與“專家”步態的同步控制.脈沖神經網絡輸出層有6 個神經元,對應“學生”的6 條腿;輸入層與輸出層全連接.Youssef 等[77]在鰻魚型水下機器人Envirobot 頭部安裝雙目DVS 事件相機,采用LIF 脈沖神經網絡處理事件數據,產生Envirobot 軀干關節控制信號,驅動Envirobot 向探測到的目標游動.

圖15 步態模仿系統結構示意圖[76]Fig.15 Schematic diagram of gait simulation system[76]

Blum 等[78]在神經形態芯片ROLLS 上部署SNN,采用DVS 事件相機作(像素為128×128)為敏感器,采用Parallella 并行計算平臺進行實時計算,實現了PushBot 無人小車的避撞控制.神經網絡的輸出分為3 個簇,每簇16 個神經元,分別輸出信號控制PushBot 左轉、右轉以及前進,3 個方向的速度與被激活的輸出神經元的數目相關.在進行避撞控制時,將DVS 視圖的下半部分用于障礙探測,每個4×64 的像素陣列連接一個輸入神經元,共32個神經元構成輸入層,輸入層與前進簇抑制連接;像素陣列左右兩側連接的輸入神經元分別與左轉、右轉簇神經元采用激活連接,左轉與右轉簇之間有抑制連接.同時為了在沒有障礙物的情形下驅動PushBot 持續前進,在前進簇神經元旁邊設置了8個神經元,與前進簇激活連接.PushBot 通過DVS視圖的上半部分探測目標,每個2×64 的像素陣列連接一個輸入神經元,共64 個神經元構成輸入層,用于指引PushBot 的前進目標方向.

此外,Renner 等[79]基于DAVIS 240C 事件相機和在Loihi 上實現的遞歸脈沖神經網絡,實現了用于選擇性關注和跟蹤的事件驅動視覺和處理系統.Gehrig 等[80]使用卷積脈沖神經網絡估計了一個旋轉運動的DAVIS240C 事件相機三自由度角速度.該卷積脈沖神經網絡由5 個卷積層、一個全局平均池化層以及一個全連接層組成,其神經元采用SRM 模型,采用一階優化方法訓練.

6 基于事件相機的其余類型機電系統感知和控制

除了無人機、機械臂和人形機器人,事件相機也在其余類型的機電系統中有典型的應用.如鉛筆倒立控制等小車的追蹤控制等.Conradt 等[13,81]采用由兩部DVS 事件相機和一個由兩臺伺服電機驅動的工作臺,實現了鉛筆倒立平衡控制,如圖16 所示.兩部DVS 相機分別安裝在平臺X、Y兩個方向上,當鉛筆傾斜時會可以分別獲得兩個方向上的地址事件,進而分別實現平面線檢測;基于兩個相機平面線檢測的結果可以對鉛筆進行三維線估計,進而采用PD 控制律驅動兩部伺服電機,最終實現了鉛筆倒立平衡控制.

圖16 鉛筆倒立平衡控制系統:兩臺DVS 事件相機進行線檢測(右上角及左下角),左上角運動平臺由中間兩部伺服電機驅動[81]Fig.16 Photo of balancer hardware:2 DVS (right top and bottom left),the motion table (top left)actuated by two servos (center)[81]

在機器人控制方面,Moeys 等[82]在Summit XL 小車上安裝DAVIS 相機,結合卷積神經網絡,實現對另一部Summit XL 機器人的追蹤.DAVIS 相機可以同時輸出地址事件和幀圖像,在預處理數據時每記錄5 000 個地址事件就合成一張直方圖,合成直方圖和幀圖像作為卷積神經網絡的輸入.網絡結構為4C5-R-2S-4C5-R-2S-40F-R-4F,4 個輸出分別是左轉、右轉、前進、消失,追蹤的準確度可以達到80%,如圖17 所示.在守門機器人驅動方面,除了Cheng 等[75]采用的將事件相機與SNN 結合的算法,Delbruck 等[83-84]還采用聚類算法識別和追蹤小球的運動,應用小球的速度和位置信息驅動伺服系統到達指定位置實現攔截.

圖17 Summit XL 機器人追蹤實驗[82]Fig.17 Summit XL robot tracking experiment[82]

Mueller 等[85-86]提出了一種基于事件反饋的控制方法,直接利用事件相機高時間分辨率、低延遲、低功耗、高動態范圍的特點.在實驗中,基于PD 控制律和控制實驗LQR (Linear quadratic regulater)調節器控制伺服電機驅動滾筒裝置,取得了較好的效果.Delbruck 等[87]將DAVIS 安裝在槽車軌道的上帝視角,當小車行駛時會產生事件,這些事件可用于計算小車的加減速指令.與人才操控的小車比賽,基于DAVIS 控制的小車能贏超過80%的比賽.Censi[88]在將原始事件數據采用線性濾波器濾波后,研究了在事件相機反饋下的圖像空間中的航向調節問題.在線性系統整定方面,Singh 等[89-91]應用事件相機的成像機制,研究了連續線性時不變系統的二次穩定問題,并在考慮測量噪聲和測量信號離散的基礎上設計了一種H∞控制器,能實現不穩定系統的穩定控制.

事件相機在機電系統控制、環境識別與感知等方面具有極其廣泛的應用,相比于傳統幀相機具有顯著優勢.但將事件相機應用于識別與控制仍具有相當的挑戰性,譬如事件相機與脈沖神經網絡的結合,結構簡單的網絡易于訓練但性能有限、而復雜網絡的訓練仍面臨許多挑戰;結合事件相機的機電系統控制能顯著提高系統的響應時間,但新算法、新應用的開發仍需要深入研究.

7 總結與展望

事件相機與傳統幀相機具有完全不同的工作機理,具有數據量小、延遲低、動態范圍高的特點,因此將其置于機器人控制回路的閉環之中,降低了測量、感知環節的延遲和數據量.本文介紹了事件相機在無人機、機械臂、人形機器人等機器人系統中感知與控制的最新工作以及結合事件相機發展的新型控制算法,技術發展脈絡如圖18 所示,圖中橫軸對應感知部分技術,主要分為兩大類:一類(負橫軸)先將事件相機采集的事件流數據對應成事件幀,可嘗試利用圖像處理方法解決高速、高動態的應用場景問題.另一類(正橫軸)則根據事件相機采集數據自身特點直接設計新的事件流處理算法,如基于異步事件流的活躍事件表面;縱軸對應控制部分技術也分為兩大類,包括基于目標特征的運動規劃與控制的傳統算法(正縱軸),以及充分考慮事件相機異步事件流特性的新型控制算法(負縱軸),代表如SNN.目前的研究根據上述技術分類組合可得到四條主流技術路線,但是仍處于起步階段,主要存在的問題和發展方向有:

圖18 技術發展脈絡圖(橫軸為感知技術分類,負橫軸為基于事件幀的圖像感知算法,正橫軸為基于異步事件流的感知算法;縱軸為控制技術分類,正縱軸為基于目標特征的運動規劃與控制的傳統方法,負縱軸為基于異步事件流的新型控制算法,其中使用相似技術路線的文獻處于同一象限,標注是根據機器人類型進行分類并按時間順序排列,虛線內文獻只涉及基于事件相機的感知技術)Fig.18 Development venation map of technology (The horizontal axis is the classification of perception technology,the negative horizontal axis is the image perception algorithm based on event frame,and the positive horizontal axis is the perception algorithm based on asynchronous event stream.The vertical axis is the classification of control technology,the positive vertical axis is the traditional method of motion planning and control based on object features,and the negative vertical axis is a new control algorithm based on asynchronous event stream.The literatures using similar technical routes are in the same quadrant,and the labels are classified according to robot types and arranged in chronological order.The literatures in the dotted line only involve the sensing technology based on event cameras)

1)視覺系統是機器人完成跟蹤、抓取以及操作的關鍵基礎,而目前基于事件的視覺算法難以滿足復雜環境下物體檢測、跟蹤與識別任務的要求.例如當事件相機隨機器人(如無人機、機械臂末端等)運動時,輸出的數據包括靜止物體、運動物體產生的事件以及噪聲事件,從這些雜亂的事件數據中提取可用的目標信息是一大難點.因此,有必要進一步研究基于事件的運動分割技術以及基于機器/深度學習的目標檢測與識別技術.

2)目前在結合事件相機的機器人控制系統中,視覺模塊的延遲占比較高,為進一步提升機器人操控的靈活性,有必要根據事件相機特性設計更加快速高效的視覺模塊.例如,可深挖事件流的異步特性并開發異步、超低延遲的特征檢測與跟蹤算法.另外,隨著近年來事件相機分辨率的不斷提升,在計算效率方面視覺算法將面臨更多挑戰.

3)目前在結合事件相機的機器人控制系統中,控制器設計較為簡單.由于事件相機對光照變化較為敏感,可能產生包含大量噪聲事件的視覺信號,而這些噪聲的不確定性將很容易影響控制系統的性能,因此有必要進一步研究新型的控制算法,以實現基于事件相機的機器人穩定控制.同時,也需要研究噪聲事件的產生機理,這將有助于去噪算法的設計以及控制器分析.

4)目前結合事件相機的機器人控制系統仍依賴傳統機器人的控制流程,如首先進行視覺特征的檢測跟蹤,再進行期望軌跡規劃與軌跡跟蹤等,并沒有發揮出事件相機神經形態與高時間分辨率的特點.理論上,事件相機與脈沖神經網絡具有自然的適配性,研究有效的脈沖神經網絡訓練方法,以實現端到端的控制指令生成,具有一定的研究意義.

綜上,在未來的研究中,建議充分利用事件相機輸出的異步事件流的特性,設計低延遲、低計算量的視覺處理算法,研究新型的控制算法以及研究事件相機與脈沖神經網絡結合的方法以實現機器人的靈活與智能操控.

猜你喜歡
檢測
QC 檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
“有理數的乘除法”檢測題
“有理數”檢測題
“角”檢測題
“幾何圖形”檢測題
主站蜘蛛池模板: 亚洲天堂2014| 欧美精品在线观看视频| 小13箩利洗澡无码视频免费网站| 亚洲国产精品日韩av专区| 久久亚洲中文字幕精品一区| 国产真实乱子伦视频播放| 午夜人性色福利无码视频在线观看| 欧美A级V片在线观看| 国产不卡国语在线| 精品天海翼一区二区| 国产真实乱子伦精品视手机观看 | 成年片色大黄全免费网站久久| 亚洲一区二区日韩欧美gif| 欧美在线网| 26uuu国产精品视频| 成人国产精品网站在线看| 亚洲一区无码在线| 大香伊人久久| 亚洲av无码专区久久蜜芽| 成人一区在线| 视频二区亚洲精品| 欧美不卡在线视频| 精品無碼一區在線觀看 | 精品国产一区二区三区在线观看 | 国产精品任我爽爆在线播放6080| 国产精品99r8在线观看| 亚洲国产成人在线| 亚洲综合久久一本伊一区| 最新午夜男女福利片视频| 欧美日韩成人| 国产亚洲精| 精品国产中文一级毛片在线看| 青青草国产免费国产| 精品一区二区三区波多野结衣 | 欧美成人午夜影院| 伊人91在线| 婷婷中文在线| 久久久久久尹人网香蕉 | 国产男女免费完整版视频| 亚洲国产91人成在线| 国产成人精品一区二区秒拍1o| 波多野结衣一级毛片| 麻豆精品在线| 亚洲黄网视频| 亚洲伊人久久精品影院| 黄色网页在线观看| 色婷婷啪啪| 国产主播福利在线观看| 国产区精品高清在线观看| 国产女同自拍视频| 日韩精品高清自在线| 特黄日韩免费一区二区三区| 欧美视频免费一区二区三区| 最新精品国偷自产在线| 永久成人无码激情视频免费| 久久综合丝袜长腿丝袜| 人妻精品全国免费视频| 亚洲色无码专线精品观看| 欧美日本在线播放| 中文字幕av一区二区三区欲色| 成年免费在线观看| 国产黄在线免费观看| a毛片免费在线观看| 蜜芽一区二区国产精品| 国产系列在线| 久久99国产视频| 免费无码一区二区| 精品久久久无码专区中文字幕| 美女国产在线| 久久99蜜桃精品久久久久小说| 国产va欧美va在线观看| 国产午夜精品鲁丝片| 婷婷色婷婷| 久久男人视频| 午夜丁香婷婷| 老熟妇喷水一区二区三区| 久久男人视频| 国产免费羞羞视频| 免费一极毛片| 98超碰在线观看| 一本大道无码日韩精品影视| 色综合日本|