劉桂宇
(一汽解放汽車有限公司 吉林 長春 130011)
隨著自動駕駛技術的不斷發展,三維目標識別技術的重要程度不斷提升,自動駕駛領域對點云目標識別算法的可靠性和魯棒性需求日益迫切[1]。在城市、港口和高速等復雜環境中,準確識別目標和感知環境內障礙物信息是自動駕駛汽車行駛安全和決策控制的重要基礎[2],直接決定了自動駕駛系統的可靠性和安全性。因此,研究面向激光雷達點云的三維目標識別算法尤為關鍵。
在自動駕駛領域,基于激光雷達點云的感知任務可分為低層次感知和高層次感知兩個層次。低層次感知即障礙物檢測,只需探測到前方存在障礙物即可,無法感知障礙物類別。高層次感知即目標識別,需要在障礙物檢測的基礎上,對障礙物信息進一步分類,感知障礙物具體類型和空間信息。經典點云目標識別流程包括點云預處理[3]、區域分割[4]、障礙物聚類[5]、物體類型識別和包圍框擬合等過程。整體流程較為復雜,需要對點云進行分割、聚類和分類等多步驟處理。此外,由于點云數據具有不均勻、噪聲等特點[6],經典點云目標識別算法在目標物體類型識別方面存在劣勢。
近些年人工智能技術發展迅速,在二維圖像深度學習算法的基礎上,三維點云深度學習算法研究取得了一系列顯著的成果[7-8],促使點云目標識別算法不斷推陳出新。在自動駕駛場景語義分割[9]、場景理解、目標檢測[10]和目標分類[11]等多項任務中,深度學習算法得到了廣泛應用。與經典點云目標檢測算法相比,基于深度學習的點云目標識別算法能夠滿足更多的目標感知需求,目標類型識別準確率更高[12],算法魯棒性更強,具備廣闊的應用前景。
經典點云目標識別算法可從激光雷達等傳感器獲取的點云數據中識別出障礙物目標,并解算出其空間位置、尺寸大小、幾何形狀、運動朝向等數據信息,并通過擬合邊界框或多邊形輪廓實現目標輪廓信息描述。
其中,點云預處理主要通過應用濾波算法實現點云模型數據量的減少,并剔除點云模型中部分噪聲點,減少噪聲數據對后續分割、聚類算法的處理過程和運算結果產生影響。常用的濾波算法包括直通濾波、體素網格[13]和統計濾波等。在實際應用過程中,可根據噪聲類型和場景需求選取合適的濾波算法。
區域分割算法主要通過將點云劃分為多個同質區域,實現道路、建筑等區域劃分,實現相同區域內的數據點具有一致屬性。常見的區域分割任務主要為地面分割,用于減少后續障礙物聚類過程中地面點云對非地面點云產生的干擾。地面分割算法主要包括基于統計量的地面分割算法、基于角度的地面分割算法[14]、平面擬合算法[15]和基于面元的區域生長算法等。獲取地面點云并分割后,保留地面上的非地面障礙物點,用于后續聚類算法。
點云模型經過區域分割處理后,僅保留非地面點云,背景區域以及地面已被移除。通過應用聚類算法,可實現單獨的車輛、行人等障礙物提取。在障礙物聚類過程中,通過對點云分割結果應用無監督聚類算法,可將障礙物點云聚類為不同的類簇,每個類簇即代表一個障礙物目標。常用的聚類算法包括基于歐式距離的聚類算法[16]和基于密度的聚類算法[17]。結合激光雷達點云數據特點,可針對不同范圍的點云設定相應的聚類條件,提升點云聚類效果。
物體識別過程可以采用特征提取配合分類器實現障礙物分類,獲取目標類別信息。由于點云數據較為稀疏,且通常不完整,僅依靠特征提取和匹配的方法,目標識別效果一般,容易出現障礙物類型識別錯誤的現象。
在聚類基礎上,對每一個類簇進行包圍框擬合處理,并計算障礙物屬性,具體包括中心點、質心點、長寬高等。包圍框擬合共有三種擬合形式,包括外接矩形、最小外接框和最小包圍框。為最大程度表征出真實的障礙物大小,常用最小外接框和最小包圍框進行障礙物包圍框擬合。
經典點云目標識別算法整體流程較為繁瑣,需要對點云進行分割、聚類和分類匹配等處理。此外,由于點云具有目標物體數據不完整性、數據密度低等特點,經典的點云目標識別算法可以支撐低層次感知任務實現,但在目標識別準確率方面存在一定不足,難以滿足自動駕駛系統對目標識別準確率的需求。
針對經典點云目標識別算法在激光雷達點云目標感知與識別方面的不足,近些年國內外學者開始深度學習算法應用于點云目標識別過程,實現點云目標識別效果的提升。然而,與二維圖像數據相比,激光雷達點云數據存在點云密度不均勻、數據不完整、噪聲等特點。此外,點云模型無特定方向,數據量大,應用深度學習算法處理大量點云數據會產生較高時間成本,無法保證自動駕駛系統對目標識別的實時性需求。
為了解決上述難題,國內外學者提出了一些創新性的深度學習模型構建方法[18-19],實現了深度學習算法在點云目標識別領域的創新性應用。目前大多數三維點云深度學習網絡主要集中在以體素(Voxel)、點云(Point Cloud)、圖(Graph)、和視圖(View)等四種點云表示方式來構建網絡。
基于體素的深度學習網絡[20]通過將點云劃分為具有一定大小的規則網格,借助網格模型描述點云數據的三維空間分布。其中,網格尺寸大小取決于點云模型整體數據量大小。為了降低算法運算量,提高算法運行效率,需要對每個網格中數據點進行隨機采樣。經過網格化處理后,可以將主要適用于具有規則數據結構的卷積神經網絡應用于點云,并在體素網格中直接應用卷積[21]和池化操作。然而,點云經過網格化處理后,并不是所有的網格中都存在數據點,該數據表達方式仍存在優化空間。此外,網格尺寸設定需要十分謹慎,因為其容易導致點云數據輸出尺寸發生變化,破壞本屬于同一目標物體的數據點幾何關聯關系。
基于點云的深度學習網絡[22]可以保留點云三維空間信息和內部局部幾何關系,既可以學習全局點的特征,也可以學習局部點的特征,可以滿足多種三維目標識別需求。通過直接將三維點云數據輸入網絡并進行訓練,可以在一定程度上減少數據信息缺失。目前,基于點云的深度學習網絡的難點主要在于解決點云輸入排列問題,研究如何避免丟失點云局部特征,以及忽略點及其相鄰點之間的幾何關系。
基于圖的深度學習網絡[23]通過將點云表示為圖結構,并在此基礎上應用卷積神經網絡,實現特征提取和目標識別。圖是一種非歐氏數據結構,在用于表示點云時,節點代表點云中各個數據點,邊則代表各相鄰點之間的數據關系。隨著卷積神經網絡技術的發展,越來越多的圖卷積網絡被應用于三維數據。相比于其他深度學習網絡,基于圖的深度學習網絡具備一定的優勢,能夠完整保留點及其相鄰點之間幾何關系。然而,構建基于圖的深度模型同樣具備難點,需要定義適用于動態鄰域大小的卷積神經網絡,并建立權重共享機制。
基于視圖的深度學習網絡通過從不同方向對三維點云進行二維投影[24],并應用完善的卷積神經網絡和基于圖像數據集的預訓練網絡對二維投影視圖進行運算處理,例如AlexNet、VGG 和ResNet 等,最終實現目標識別。與基于體素的深度學習網絡相比,該算法可以對感興趣區域進行多視角識別,并對識別結果進行融合分析,輸出最佳識別果,提高三維目標檢測準確性。二維視圖投影與點云或體素網格等三維數據格式相比,由于減少了一維數據信息,因此可以大大降低計算成本,且目標分辨率更高。此外,通過應用現有的深度學習網絡,可以更好地利用點云投影視圖中的局部和全局信息,提高算法適應性。然而,從三維空間到二維視圖投影會導致部分幾何空間信息丟失,且多投影視圖相互之間存在數據冗余問題。
綜上分析,基于深度學習的點云目標識別算法在目標識別準確率方面具備一定優勢,但由于點云數據具備無序性、不均勻等特點,因此在網絡構建和模型訓練方面存在一定挑戰,上述各類深度學習網絡在減少信息丟失方面仍存在優化空間。
在自動駕駛技術領域,基于三維點云實現障礙物目標是目前主流研究方向。相比于二維圖像信息,激光雷達獲得的三維點云數據包含了物體空間位置和幾何信息,獲取目標信息更加豐富,可以幫助自動駕駛車輛更好地規避行駛風險。本文針對三維點云目標識別技術,分別對經典點云目標識別算法和基于深度學習的點云目標識別算法進行了分析,并對兩種算法的優缺點進行了總結。
總體而言,相比于經典點云目標識別算法,基于深度學習的點云目標識別算法在目標識別準確率和魯棒性方面更具優勢。近幾年,國內外研究學者在三維點云深度學習模型構建方面取得了一定成果,提出了多種創新性的深度學習模型構建方法。然而,由于點云數據自身的無序性、遮擋、噪聲和數據量大等特點,如何進一步完善深度學習網絡在點云目標識別任務中的應用仍然具有挑戰。
基于深度學習的點云目標識別算法發展時間尚短,未來仍有非常多的方向值得研究和探索。為彌補點云數據無序性、不均勻的缺陷,可研究面向多源數據融合的深度學習網絡構建,將包括圖像、激光雷達點云和毫米波雷達數據融合后,基于統一的深度學習網絡實現目標識別,提升目標識別準確性。研究多尺度特征融合策略,提取激光雷達點云前后幀關鍵信息,實現深度學習網絡對目標對象數據的充分利用。為解決點云無序性問題,研究魯棒性的點云數據表示方法,在體素、點云、圖和視圖表示方法的基礎上,探索更加新穎的三維數據表示方式。通過對以上方面的研究和探索,不斷提升激光雷達點云目標識別智能化程度。