999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于視覺的三維目標檢測算法研究綜述

2020-01-06 02:06:54李宇杰李煊鵬張為公
計算機工程與應用 2020年1期
關鍵詞:深度檢測信息

李宇杰,李煊鵬,張為公

東南大學 儀器科學與工程學院,南京210096

1 引言

基于視覺的目標檢測是圖像處理和計算機視覺領域的重要研究方向之一,可應用于自動駕駛系統中的車輛、行人、交通標志等目標檢測[1]、視頻監控中的異常事件分析,以及服務機器人等諸多領域。近年來,隨著深度神經網絡的發展[2],包括圖像分類、目標檢測以及語義分割等方面的研究均取得了顯著進展[3]。特別是在目標檢測領域,出現了以R-CNN、Fast RCNN、Mask RCNN為代表的two-stage網絡框架和以YOLO、SSD為代表的one-stage 的網絡框架。無論何種框架,基于深度學習的二維目標檢測算法在準確性和實時性上較以往基于特征的機器學習方法都獲得了較大提升,在KITTI[4]、COCO[5]等公開數據集的測試中均取得了顯著的成績。但是,由于二維目標檢測只用于回歸目標的像素坐標,缺乏深度、尺寸等物理世界參數信息,在實際應用中存在一定局限性,特別是在自動駕駛車輛、服務機器人的感知中,往往需要結合激光雷達、毫米波等傳感器實現多模態融合算法[6],以增強感知系統的可靠性。

因此,研究者們提出了三維目標檢測的相關方法,旨在獲取三維空間中的目標位置、尺寸以及姿態等幾何信息?,F有的三維目標檢測算法根據傳感器不同,大致可以分為視覺、激光點云和多模態融合三類。視覺方法由于其成本低、紋理特征豐富等優勢,在目標檢測領域中被廣泛使用,并且可根據相機類型分為單目視覺和雙目/深度視覺兩類。前者關鍵問題在于無法直接獲取深度信息,從而導致目標在三維空間中的定位誤差較大。而后者不僅提供了豐富的紋理信息,還具有較為準確的深度信息,目前相比前者具有更高的檢測精度。但雙目/深度視覺對光照條件等因素更加敏感,容易導致深度計算的偏差。

相比于視覺數據,激光點云數據具有準確的深度信息,并且具有明顯的三維空間特征,也被廣泛應用于三維目標檢測中。目前基于激光點云的三維目標檢測算法大致有以下兩種方法:三維點云投影和三維空間體素特征。例如,Complex-YOLO[7]、BirdNet[8]、VeloFCN[9]等方法利用不同的點云投影方法將三維點云轉換為二維圖像,利用Faster RCNN、YOLO等[3]標準的二維目標檢測網絡實現目標檢測,然后再使用位置維度回歸恢復目標在三維空間中的幾何姿態。3DFCN[10]、Vote3Deep[11]、VoxelNet[12]等方法利用三維體素的方法編碼點云的三維特征,利用三維卷積實現點云信息下的幾何姿態推斷。但是,單獨激光點云信息缺少紋理特征,因而較難實現目標的檢測分類,特別是當激光點云較為稀疏時,甚至無法提供有效的空間特征。因此,MV3D[13]、AVOD[14]等方法融合了激光點云與視覺信息實現多模態下的三維目標檢測。該類方法利用圖像的紋理等特征實現目標檢測,結合激光點云的深度信息恢復目標的三維幾何位置、姿態等信息。

另外,根據不同場景尺度,可以將三維目標檢測任務分為室內與室外場景兩大類。由于室內與室外場景存在較大差異,如目標大小、種類、環境的復雜度等等,使得兩者的研究方法也存在很多不同。其中,室外場景主要解決大尺度場景下的車輛、行人、自行車等目標的檢測和定位問題,為動態環境中的機器人決策規劃提供依據;室內場景由于目標類別、尺寸和目標姿態隨著視角的不同,特征也存在較大差異,因此主要解決的是目標的定位和姿態估計問題。

Naseer 等人[15]總結了現有的室內場景下2.5/3D 語義分割、目標檢測、位姿估計和三維重建等環境感知算法。Arnold等人[16]從單目視覺、激光點云以及多模態融合的角度總結分析了現有的針對道路場景下的三維目標檢測算法。Shen 等人[17]總結了目前基于2D/3D 數據的目標分類和檢測算法,其中針對三維目標檢測任務,主要分析了基于雙目視覺的室內場景下和基于激光點云數據的室外場景下三維目標檢測。本文主要系統總結近年來基于視覺的三維目標檢測方法,調研現有的針對室內外不同場景下的檢測方法,包含了基于單目、雙目和深度相機視覺的主流網絡結構,如圖1 所示。此外,本文在KITTI[4]、SUN RGB-D[18]等數據集上對目前主流的三維目標檢測算法進行實驗對比研究。最后,根據目前三維目標檢測算法存在的問題,提出其未來的發展方向。

2 室內場景的三維目標檢測

圖1 基于視覺的三維目標檢測算法整理

相比于室外場景,室內場景具有較為顯著的特點。首先,室內場景的尺度較小,不會出現室外場景中遠距離目標;其次,室內場景中目標種類更加多樣,包含沙發、書桌、電視等多類目標,同類目標的外觀特征往往也存在較大差異。因此,針對室內場景下的三維目標檢測需要更豐富的輸入信息,因而在傳感器的選型上研究者更偏向于雙目/深度相機,其相關檢測方法也是基于具有深度先驗信息的數據。本章將系統介紹室內場景下各三維目標檢測改進算法,并對各算法優缺點進行分析,如表1所示。

雙目/深度相機具有完整的豐富的深度圖信息(Depth Map),因此在立體成像與3D 目標檢測中被廣泛研究與應用。Depth Map 是指包含與視點的場景對象表面的距離有關的信息的圖像或圖像通道,其類似于灰度圖像,只是它的每個像素值是傳感器距離物體的實際距離。在雙目/深度視覺算法中,圖像紋理特征、深度特征等多特征融合[19]是針對三維目標檢測的有效解決方法。

2014年,Gupta等人[20]將2D目標檢測的R-CNN[3]網絡框架引入到基于深度圖像的目標檢測中,并增加基于深度圖的CNN模塊,建立了3D空間的目標檢測網絡框架。該方法提供了一種深度圖三通道編碼方式,包括了水平視差、離地高度、像素局部表面法向量和重力方向的夾角,這種編碼方式稱為HHA 特征,并對HHA 特征進行線性縮放,使其映射到0~255 范圍內,形成類似與RGB圖像格式的三通道深度圖作為深度特征提取網絡Depth RCNN 的輸入,結合R-CNN 的2D 目標檢測,生成2.5D的區域提議候選框,最后利用支持向量機(SVM)[21]進行目標分類,如圖2所示。2015年,Gupta等人[22]利用HHA特征[19]與可變部件模型(DPM)[23]結合,訓練基于深度圖像的三維目標檢測模型,通過檢測網絡實現自下而上的語義分割方法。相比之前將HOG特征擴展到深度圖像中的深度梯度直方圖[24],HHA編碼方式增加了深度特征維度,使得目標深度特征更加豐富。并且,三通道的編碼方式充分考慮了目標深度幾何特征間的互補關系,有效地解決了深度信息在目標垂直方向上的不連續性。但同時該方式忽略了不同特征間的獨立成分,只強調了各深度信息之間的相關性,使得該編碼方式存在一定的局限性。另外,HHA 特征深度圖的生成增加了相應的計算量,較難實現端到端的訓練網絡。

所謂的2.5D是指利用傳統的2D檢測網絡,對單目圖像與深度圖進行類似的處理過程,這也是基于深度圖像的目標檢測算法中常用的處理方法。文獻[25]提出的AD3D 同樣是基于2.5D 的方法解決深度圖像的三維目標檢測與姿態估計任務。AD3D用Fast RCNN[3]實現2D區域提取,結合深度特征初始化三維檢測框,采用三維檢測框參數回歸的方式精細化檢測結果。相比于Depth R-CNN[20]方法,AD3D 設計了三維檢測網絡,省略了SVM的訓練過程。Lahoud等人[26]提出的2D-driven方法同樣利用RGB圖像豐富的紋理信息實現目標的區域分割,利用深度圖特征提取目標的方向角信息,結合多層感知器學習目標的三維空間位置和大小。2.5D 檢測網絡的優點在于其網絡結構相對簡單,有效利用了較為完善的2D檢測網絡實現三維目標信息回歸。但是其缺點也十分明顯,利用RGB 圖像和深度圖像的獨立處理網絡,忽略了目標原始的三維空間特性。

表1 室內場景下3D目標檢測算法對比分析

圖2 2.5D目標區域提取網絡

以Faster RCNN、SSD、YOLO 為代表的2D 深度學習網絡在目標檢測領域取得了十分不錯的成績[2]。因此,采用2D網絡實現目標識別與分割,結合深度信息回歸精確的三維檢測信息是三維目標檢測的常用方法,例如Depth RCNN[20]、AD3D[25]、2D-driven[26]等算法。2D目標檢測效果的提升在于其模型的有效性,于是研究者們提出能否建立有效的提取目標三維空間特征的3D CNN 網絡模型。2016 年,Song 等人[27]提出了深度滑動形狀(Deep Sliding Shapes,DSS)的3D CNN 網絡,該網絡首先對深度圖像采用距離函數算法(TSDF)處理生成3D 立體場景,將該立體場景作為特征提取網絡的輸入,并借鑒Faster RCNN 的RPN[3]網絡提出了多尺度區域提取網絡(Muilt-scale RPN)的3D 區域提取算法,如圖3所示。針對大小不一的多目標檢測,采用多尺度的三維滑動窗口實現目標的三維空間區域提取,通過目標中心坐標以及長寬高尺寸的偏移量回歸3D 檢測框。DSS[27]改進了滑動形狀算法[28]中利用CAD 模型手工制作目標3D 特征的方法,直接從立體場景數據中學習物體特征,使得網絡的處理過程得到簡化,并且提高了在SUN RGB-D數據集下的檢測精度。但是3D卷積運算量遠遠大于2D卷積運算量,因此,DSS針對整個感知域的3D 卷積操作使得網絡的計算量較大。于是,Luo 等人[29]提出了基于SSD 網絡[3]的三維空間檢測網絡3DSSD,采用了2D目標檢測網絡作為前饋網絡,實現目標的快速分割從而有效地減少目標三維搜索空間,再利用3D滑動窗口實現目標三維空間端到端的檢測。相比于深度滑動形狀算法,在檢測精度和運算速度上都得到了較大的提升。

立體空間的三維卷積有效提取了目標的三維空間特征,但是視覺傳感器獲取的只有目標的表面特征,目標內部特征信息是無法獲取的,因此立體空間的三維卷積常常出現空卷積的情況,造成了計算資源的浪費。因此,文獻[30]利用深度圖像生成三維點云,以點云形式作為網絡輸入,結合基于點云處理的PointNets3D目標識別網絡,提出了基于深度圖像的3D檢測網絡F-PointNets。對于給定的深度圖像,F-PointNets 首先利用2D 檢測網絡實現單目圖像的目標識別,通過圖像-世界坐標系轉換,確定點云識別提議區域,再利用PointNets 3D 目標識別網絡對區域類點云信息進行識別檢測,確定目標位置、姿態等三維信息。該方法不僅在室外場景的KITTI數據集下得到了比較理想的結果,在室內場景的SUN RGB-D數據集上也同樣有較好的表現。針對深度圖像的點云特征表示,Ren等人[31]提出了方向梯度云(Clouds of Oriented Gradients,COG)特征建立三維目標姿態和二維圖像形狀的聯系關系。相比與激光的原始點云數據,利用深度圖生成三維點云存在相應的誤差。另外點云數據的稀疏性直接影響目標檢測的準確性,尤其針對小目標檢測時,點云數據往往十分稀疏甚至丟失。因此,該類算法針對室內場景的多目標檢測精度的提升并沒有運用在室外場景時顯著。

在室內場景下,目標種類往往較多,針對不同目標的檢測精度存在較大差異,例如針對床、桌椅等三維尺寸較大,幾何形狀較為明顯的目標檢測精度較高,而針對三維尺寸相對較小的目標,例如燈、電視機等,因此提高小目標檢測精度是提升室內場景下目標檢測性能的關鍵??紤]到室內場景下燈、電視機等小目標的位置先驗特征,研究者們發現小目標往往以一個較大目標表面作為物體的支撐面,那么針對小目標的定位檢測就可以與其支撐物體關聯,提升小目標的定位精度,同時可以縮小對于小目標的搜索空間從而減少運算量。2018年,Ren等人[32]提供了一種基于潛在支持表面(Latent Support Surfaces,LSS)的三維目標檢測算法,該算法利用潛在的支持面來捕捉室內場景中的上下文關系,解決之前用于深度圖像的3D表示方法在表示具有不同視角樣式的目標時的局限性,并提升對小目標檢測的有效性。但針對一些沒有明顯支撐面的目標,例如浴缸、書架等,該方法并沒有較好的處理結果。

圖3 3D目標區域提取網絡

利用室內場景中目標相互間的上下文關聯信息不僅可以提升對小目標的檢測精度,同時可以減少對上下文信息較弱區域的編碼,將計算資源投入到具有強上下文信息關聯區域。因此,Zhang 等人[33]提出了基于上下文信息編碼的三維目標檢測網絡DeepContext。該網絡將輸入圖像場景匹配一個預定義的三維場景模板,模板中定義了每個目標的位置關系,利用場景模板直接編碼上下文局部特征,通過目標的外觀特征和強上下文信息,實現目標的三維信息提取。另外,該方法利用強上下文信息和模板信息,有效地提升了如床頭柜、椅子等易遮擋目標的檢測精度。但因為模板數據的不完善,基于模板匹配的目標檢測往往存在較大的局限性,當實際場景與模板場景集間不完全匹配時會造成較大的預測誤差。

針對室內場景下的三維目標檢測任務,現有的研究工作中大多數是基于深度圖像的檢測網絡,這是因為基于單目視覺的三維檢測網絡很難應對多類目標、復雜的室內場景。盡管如此,仍然有研究者提出了基于單目視覺的室內場景三維目標檢測算法。2012 年,Fidler 等人[34]將DPM[23]擴展到單目視覺下的三維目標檢測,將每一個目標類表示為一個可變形的三維長方體,通過物體部件與三維檢測框表面之間的變換關系,有效地實現了部分形狀特征明顯的室內目標的三維檢測,例如床、書桌等具有明顯長方體特征目標。

為了提高室內場景下多目標的檢測精度,Zhuo 等人[36]提出了深度估計網絡和3D RPN[27]結合的端到端的基于單目視覺的三維目標檢測網絡。該網絡將單目視覺下的三維目標檢測主要分為了三部分:深度估計網絡、三維體素生成模塊和3D RPN網絡。在標準的距離函數(TSDF)[27]中,將三維空間劃分為等距體素,通過深度映射得到三維體素中心到最近表面點的距離,但最近鄰搜索過程無法實現端到端的訓練。針對這一問題,該網絡提出了可微距離函數(DTSDF),與距離函數(TSDF)在整個三維空間中尋找最近曲面點不同,DTSDF沿著每個體素的可見射線進行最近點搜索,從而使整個過程可微,實現端到端的訓練網絡。此外,該方法引入了殘差網絡[34],用于預測深度估計的不確定性。最后,通過3D RPN網絡實現目標三維特征提取,得到目標的三維檢測框和置信度。

在雙目/深度視覺下的室內場景三維目標檢測算法中,根據區域提取的卷積類型大致可以分為兩類,即2.5D 區域提議網絡和3D 區域提議網絡?;?.5D 區域提議網絡優點在于結合2D 檢測網絡和深度圖特征,可快速實現目標區域的提取和三維參數回歸得到較為精確的目標三維檢測框。而3D區域提議網絡則利用三維卷積直接提取目標的三維空間特征,容易實現端到端的網絡訓練模型。但相比與傳統的二維卷積,三維卷積計算量更大,并且在實際場景中,往往只能獲得目標的表面特征,因此三維卷積的方法也會帶來計算資源的浪費。而單目視覺下的室內目標檢測,一般結合深度估計網絡則會造成誤差的累計傳遞,檢測精度遠遠低于雙目/深度視覺算法。但單目視覺算法的優勢同樣較為明顯,其只使用單一傳感器完成立體空間的三維目標檢測,使得系統穩定性加強,不易受到環境干擾,另外使傳感器成本大大降低。

3 室外場景的三維目標檢測

室外場景下的三維目標檢測主要是針對車輛、行人等道路場景下多目標的三維檢測框回歸問題。相比于室內場景,室外場景的目標檢測任務更具有挑戰性,其主要表現在以下兩個方面:(1)由于場景視野的變化,包含較多遠距離的小目標、遮擋以及視野截斷的目標;(2)室外場景中背景、光照等條件更加復雜。因此,在室外場景下的三維目標檢測需要更加精確的三維空間定位和尺寸估計。本章將分別從單目視覺和雙目/深度視覺兩方面系統介紹室外場景下的三維目標檢測算法,如表2所示。

3.1 基于單目視覺的三維目標檢測

單目圖像可以為R-CNN、YOLO 等[2]二維目標檢測網絡提供豐富的外觀、形狀等紋理信息,實現目標在圖像平面的分類與定位。但針對三維目標檢測任務,由于缺少深度信息,單一的紋理信息無法直接確定目標在三維空間中的位置、姿態等信息。因此,通常結合先驗信息融合[37]、幾何特征、三維模型匹配、單目視覺下的深度估計網絡等方法回歸目標的三維幾何信息。

Chen 等人[38]在2016 年提出了Mono3D 目標檢測方法,如圖4 所示。該方法將基于單目視覺的3D 目標檢測分為兩步:(1)根據先驗假設進行密集采樣,生成若干個3D 目標候選框;(2)對3D 檢測框進行重投影生成目標的2D 檢測框,利用Faster RCNN 網絡[2]提取特征,結合語義、上下文信息、位置先驗信息以及目標形狀先驗信息等,計算檢測框的能量損失函數,提取精確的3D目標檢測框。Mono3D 使用了與3DOP[39]相同的網絡結構,在卷積層之后將網絡結構分為兩個分支,一個分支進行候選框內的特征提取分析,另一個分支進行候選框周圍的上下文特征提取分析,最后通過全連接層獲取目標的類別、檢測框以及航向信息。Mono3D[38]利用復雜的先驗信息提取3D 檢測框,在能量損失計算中存在誤差累計的問題,因此,Mono3D 在檢測精度的性能上并不是十分突出。另外,候選框的密集采樣和融合多個先驗特征使得整個網絡的計算量十分龐大,檢測速度上與2D 檢測器相比存在一定差距,無法實現端到端的預測模型。

表2 室外場景下3D目標檢測算法對比分析

圖4 Mono3D目標區域提取特征

Mousavian 等人[40]利用2D 目標檢測器網絡的學習經驗,提出了Deep3Dbbox的3D目標檢測方法。該方法擴展了2D 目標檢測器網絡,利用回歸的方法獲取目標的三維尺寸以及航向角。與之前大多方法采用L2回歸目標航向角不同,該網絡借鑒滑動窗口的思想,提出了Multi-bins 混合離散-連續回歸方法。Multi-bins 結構將方向角離散化分為多個重疊的bin,利用CNN網絡估計每個bin的置信度和相對于輸出角的旋轉殘差修正。在目標尺寸回歸中,則直接采用L2 損失函數計算尺寸估計殘差。通過網絡預測,確定了目標的3D 尺寸和航向角,然后恢復物體的三維姿態,求解目標中心到相機中心的平移矩陣,使3D檢測框重投影中心坐標與2D檢測框中心坐標的誤差最小。相比于Mono3D[38]方法,Deep3Dbbox[40]利用2D 目標檢測方法簡化了網絡結構,使得計算量大大減少,提升了運算速度。但在檢測精度上并沒有大幅度的提升,這主要是因為深度信息的缺失,導致目標在世界坐標系中的位置計算存在較大誤差。Deep3Dbbox通過最小二乘法解算三維檢測框與二維檢測框的位置匹配關系,再利用奇異值分解得到圖像-相機坐標轉換矩陣,該方法能較好解決簡單目標的三維位置估計問題,但針對尺寸較小、存在遮擋等目標的定位精度大大降低。

因此,研究人員對深度計算提出了相應的改進方法。Xu等人[41]提出的MF3D方法融合了Deep3Dbbox[40]以及單目視覺的深度估計算法,利用Deep3Dbbox 卷積網絡估計目標的3D尺寸和航向角以及sub-net網絡生成深度圖,對目標ROI 區域與深度圖融合,計算目標在世界坐標系下的位置信息。Qin等人[42]提出的MonoGRNet方法采用實例級深度估計方法,與MF3D[41]生成整個輸入圖像的深度圖不同,MonoGRNet 只對目標區域進行深度估計,在一定程度上簡化了計算過程。Manhardt等[43]提出的ROI-10D將基于Resnet-FPN的2D檢測網絡結構[3]與深度估計特征圖結合,再利用CAD模型匹配得到目標具體的3D信息。除了融合單目深度估計算法以外,在基于KITTI 數據集的3D 目標檢測中,利用車輛、行人等剛體目標的幾何約束計算位置深度是研究者們的另一種思路。例如,Ku 等人[44]提出的MonoPSR 利用相機成像原理,計算3D尺寸與像素尺寸比例關系進而估計目標深度位置信息。Roddick等人[45]提出的OFT-NET算法根據圖像與三維空間對應關系,建立了圖像特征與三維空間特征的正交變換,將基于圖像的特征圖反投影到三維空間的鳥瞰圖中,再利用殘差網絡單元[35]處理鳥瞰特征圖。基于單目視覺的深度計算方法大致可以分為兩類:(1)基于卷積神經網絡的深度估計;(2)基于幾何特征與成像原理的深度轉換。但是目前基于單目視覺的深度估計本身也是視覺算法領域的研究熱點和挑戰,其估計精度遠遠沒有達到實際應用的標準,因此基于該類方法的三維目標檢測算法的檢測精度往往較低。而基于幾何約束的深度估計則只能針對特定種類目標,無法實現多類目標的高精度檢測,對實驗數據具有較高的要求。另外,針對小尺寸目標的檢測效果較差,適用于視野范圍較小的場景。

無論是基于先驗信息的Mono3D[38],還是基于CNN網絡提取特征的Deep3Dbbox[40]系列算法,都存在對于遮擋、截斷目標檢測精度差的問題。針對這一問題,Chabot等人[46]提出了Deep MANTA采用多任務網絡結構,實現目標位置、形狀估計以及車輛的部件檢測。該方法定義了一組車輛關鍵點表征車輛的外部形狀,例如車頂角、車燈、后視鏡等,利用一個兩級的區域提議網絡回歸2D邊界框與車輛關鍵點定位,再與人工建立的3D標準模板庫進行目標形狀匹配,得到完整精確的3D 目標姿態信息。同樣的,He等人[47]提出Mono3D++則采用EM-Gaussian算法實現遮擋或截斷目標的關鍵點檢測與補全,結合Mono3D[38]定義的先驗信息能量損失函數實現3D 目標的精確檢測。Kundu 等人[48]提出的3D RCNN方法將物體的CAD 模型進行PCA 建模,利用一組基向量表征物體的3D 形狀和姿態,最后利用卷積神經網絡實現2D 圖像到3D 物體的重建。通過關鍵點檢測與CAD 模板匹配結合的方法是目前解決遮擋、截斷目標檢測地有效方案[49],但存在一定的局限性,首先是模板數據的獲得較為困難,且對多目標檢測精度較低。另外,無論是Deep MANTA,還是Mono3D++,都主要提升了目標在圖像坐標系下的三維信息,而對相機坐標系下的定位精度并沒有得到較大的改善,依舊不能解決深度估計造成的定位誤差。

在基于單目視覺的目標三維檢測中,常常級聯了多個卷積神經網絡實現三維姿態的多參數回歸,例如檢測網絡與深度估計網絡相結合等方法。這種級聯做法會造成網絡誤差的累計傳遞,從而使得目標三維檢測的誤差較大。為了解決回歸誤差累計的問題,Simonelli 等人[50]提出了基于參數解耦變換的MonoDIS。簡單來說,該方法用一個10 元數組表示目標的三維幾何姿態,并將其分為尺寸、深度信息、航向角以及中心點圖像投影坐標四組參數組,采用解耦的方法分離參數誤差,即分別對其中任一參數組回歸計算損失函數,而其他參數則保留為真值。三維姿態信息的解耦處理使得MonoDIS網絡的損失參數在訓練過程中下降更快,避免了各參數間誤差傳遞的干擾,其在KITTI數據集上的驗證結果也表明更優于其他級聯網絡的檢測準確性。

目前,基于單目視覺的3D 目標檢測算法已成為研究熱點,其研究方法大致可以分為兩類:(1)根據區域提取生成目標候選框,結合一系列定義的先驗信息回歸精確的3D檢測框;(2)利用CNN網絡直接提取目標的3D特征信息,再結合模板匹配、重投影、深度估計等方法解算位置信息,得到精確的3D 檢測框。單目方法在數據處理上有其獨有的優勢,且單一傳感器使用成本較低,主要缺點是缺少深度信息,限制了3D 目標的檢測和定位精度,尤其是對于遮擋、截斷以及遠距離目標的檢測。

3.2 基于雙目/深度視覺的三維目標檢測

對于單目視覺的三維目標檢測算法來說,深度信息的估計偏差是導致檢測精度較低的主要原因,尤其是對遠距離和遮擋目標的定位。雙目/深度相機依賴其準確的深度信息的優勢,在三維空間的視覺算法應用中,尤其針對目標檢測與定位任務,相比于單目視覺算法具有明顯的檢測精度的提升。

在室內場景的三維目標檢測過程中,Depth RCNN[20]利用2D 檢測網絡和HHA 特征提取CNN 網絡實現3D目標檢測,基于HHA 特征的深度圖編碼方式對室外場景下的目標檢測同樣適用,如圖5 所示。針對這一方法,Chen 等人[39]提出了道路場景下的3D 目標檢測網絡3DOP。該網絡結構在目標檢測的框架中借鑒了Fast R-CNN網絡結構[3],結合單目圖像與HHA[20]特征生成高質量的候選區域框,并提出了3D 目標多特征先驗的能量損失函數,其中先驗特征包含了語義信息、點云密度、上下文信息等,采用結構化支持向量機訓練模型,得到高質量的目標提取框和姿態信息。

圖5 Depth RCNN網絡結構

在基于深度圖像的三維目標檢測中,將深度特征作為網絡輸入是最常用的方法,該類方法在雙目視覺中同樣適用,但在雙目圖像中獲取深度圖會帶來額外的計算量。因此,在雙目視覺的三維目標檢測算法的研究中,如何利用左、右相機單目檢測目標的關聯性實現基于雙目視覺的三維目標檢測是研究的熱點。針對這一問題,Li 等人[51]提出了基于Faster RCNN[2]擴展網絡的Stereo R-CNN三維目標檢測網絡。Stereo R-CNN將雙目圖像作為網絡輸入,取代了網絡的深度輸入,通過兩個FPN[3]網絡以及立體區域提議網絡,同時對左右兩側圖像進行目標檢測并生成目標關聯對,結合Mask RCNN[3]的關鍵點檢測計算粗略的3D 目標檢測框,再通過左右目標ROI區域對準恢復精細的3D檢測框。相比于其他基于深度圖像的三維目標檢測算法,Stereo R-CNN 方法的特點是不需要深度輸入,但其在KITTI數據集上的檢測效果提升了近30%。

同樣的,Qin 等人[52]提出了基于立體三角測量學習網絡TLNet的雙目視覺三維目標檢測算法,不同于以往的像素級深度圖,該方法利用立體圖像的幾何對應關系,構建目標級的深度關系。TLNet首先利用兩個基于單目的3D 目標檢測器分別實現左右圖像的3D 目標檢測,利用三維滑動窗口在立體圖像RoI區域之間顯式構造目標級幾何對應關系,對目標進行三角定位。相比于單目的3D目標檢測結果,三角測量法提高了檢測精度,使得目標定位更加精確。另外,TLNet引入了特征加權策略,通過測量左右關聯性來增強信息特征通道,采用權重調整方案濾除噪聲和不匹配信道的信號,從而簡化了學習過程,使網絡更專注于目標的關鍵部分。無論是TLNet,還是室內場景下的DSS[27]、3D-SDD[29]算法,都可以看出相比將深度圖作為附加輸入的做法,直接對三維空間進行三維卷積可以有效提升精度。但是,目標特征往往只存在于物體的可見表面,因此三維卷積會帶來很多額外的計算量。于是,Chu等人[53]提出了SurfConv,該算法采用基于深度感知的多尺度二維卷積取代了三維卷積,對三維空間深度離散化,沿著目標表面進行分層卷積。SurfConv 方法既解決了二維卷積的尺度方差問題,也減輕了三維卷積過程對內存的消耗。

基于深度/雙目視覺的三維目標檢測通??梢苑譃閮深悾海?)基于單目圖像和深度圖的雙通道卷積神經網絡融合的方法;(2)基于三維空間卷積的方法。另外,相比于深度圖像,雙目圖像可以利用左右單目圖像的匹配關系建立三維空間映射,從而可以在不需要深度輸入的前提下實現三維空間目標檢測。

在室外場景下的三維目標檢測算法中,無論是單目視覺還是雙目/深度視覺,在解決思路上存在一定的相似性,例如雙目/深度視覺下的2.5D/3D 區域提議方法,單目視覺下的深度估計等等。但針對室外場景中車輛、行人等目標的三維檢測,由于其類別具有鮮明的幾何特性、位置特性等信息,可以充分利用模板匹配、先驗信息融合等方法提升特定目標的三維空間檢測精度。此外,相比于室內場景,室外場景的感知范圍更廣,目標尺度變化更大,三維空間卷積會造成計算量的大幅度增加。因此,利用單目視覺檢測算法提升三維檢測的準確性和實時性是目前室外場景下三維目標檢測的關鍵。

4 數據集與評價指標

4.1 室內/外場景數據集介紹

深度神經網絡模型的有效性是建立在大數據基礎上,其快速發展與ImageNet[54]、PASCAL VOC[55]等公開數據集的發展與利用密不可分。因此,本章重點介紹現有室內/外場景下的3D 目標檢測數據集,給出3D 目標檢測的評判依據,并在后文中討論分析前述方法的實驗結果。

針對室內場景下3D目標檢測和姿態估計任務的公開數據集主要有SUN RGB-D[18]和NYU Depth Dataset[56]。SUN RGB-D由10 335張深度圖像組成,包含了47種不同的室內場景以及19 個目標類別,對每張圖像都進行了2D 和3D 信息的人工標注,共有146 617 個2D 檢測框和64 595 個3D 檢測框的精細標注。NYU Depth Dataset 是由紐約大學發布的針對室內目標檢測任務,利用Kinect 傳感器進行深度圖像采集的公開數據集。該數據集將室內場景分為浴室、臥室、廚房、客廳等多種類別場景,其中NYU Depth Dataset V1 包含了7 類場景,64 個不同室內場景共2 347 張深度圖像,NYU Depth Dataset V2 包含了26 類場景,464 個不同室內場景共1 449 張深度圖像。除此以外,還有RGB-D Object Dataset[57]、Cornell RGB-D dataset[58]等室內場景下目標檢測數據集。

KITTI[4]數據集是針對自動駕駛環境感知算法研究中最常用的公開數據集之一,該數據集具有豐富的激光點云數據、圖像數據、慣性導航數據以及GPS數據,可用于視覺測距、2D/3D 目標檢測、目標跟蹤、語義分割、光流等計算機視覺算法的研究。針對基于圖像的3D目標檢測任務,KITTI 數據集由7 481 張圖片組成訓練/驗證集,7 518張圖片組成測試集,超過了200K的3D目標標注信息。KITTI 數據集將3D 目標分為car、pedestrian、cyclist 等共8 種類別,標注信息包括類別、2D 檢測框坐標、3D 中心點坐標、3D 尺寸、遮擋、截斷以及航向角等信息。如表3所示,針對目標的大小、遮擋和截斷情況,KITTI 數據集將目標分類為簡單、中等和困難三類,根據對不同目標的檢測結果做出算法評估。

表3 KITTI數據集目標分類

NuScenes[59]數據集是由nuTonomy 與Scale 發布的大規模自動駕駛數據集,該數據集不僅包含了激光點云數據、圖像數據,還包括了Radar數據。另外,該數據集的圖像采集為360 度采集,5 個相機分布覆蓋了車體的360度方向同時采集圖像數據,使得圖像數據視野更具多樣性。nuScenes數據集由1 000個場景組成,其中850個場景作為訓練驗證集,另外150 個場景作為測試集。每個場景長度為20 s,有40 個關鍵幀,并對每個關鍵幀中的目標進行手工標注。nuScenes數據集主要針對3D目標檢測任務,共標注了道路場景下23類目標的3D檢測框信息,并且標注信息可實現與KITTI集標注格式間的轉換。相比于KITTI數據集,nuScenes數據集數據規模更大,另外包含了白天、夜晚以及不同天氣、光照等更多場景狀況的應用。

PASCAL3D+[60]是在PASCAL VOC2012 數據集基礎上,針對3D目標檢測與姿態估計任務,進行3D目標標注的公開數據集。PASCAL3D+對PASCAL VOC2012中的12個剛性類別目標進行了3D注釋,結合ImageNet為每個類別增加了更多的圖像數據,并針對每一個類別進行了三維信息統計,生成相應的3D CAD模型。與其他的室外場景下的3D數據庫相比,PASCAL3D+對每個類別都有超過3 000 個對象實例,類別數據更加豐富。其他的針對室外場景的3D目標檢測公開數據集還有如NYC3DCars、LabelMe3D等等。

表4歸納總結了各室內/外場景下的3D目標檢測數據集特點,室內、室外場景在目標特征、環境干擾因素等方面都存在較大的差異。相比之下,室內場景下的目標類別更多樣化,無論是NYU Depth Dataset 還是SUN RGB-D等數據集,都包含了床、餐桌、燈具、浴缸等10類以上的標記類別,并具有餐廳、臥室、辦公室等不同室內場景分類,不同場景特征區分也較為明顯。而室外場景下的目標檢測,主要針對車輛、行人等道路環境中存在較多的目標,目標的外觀、形狀等紋理特征均較為明顯。另外,室內和室外場景的視野范圍存在較大差異,室外場景下圖像可視范圍較大,因而存在較多距離較遠的小尺寸目標,目標間的遮擋情況更加突出。

表4 三維目標檢測公開數據集對比

4.2 評價指標

在二維目標檢測任務中,通常采用查準率(Precision)和查全率(Recall)是定性分析檢測網絡的有效性,采用平均準確率(Average Precision,AP)定量評估單類檢測結果精度。所謂的查準率,是指被判斷為正例的目標中檢測正確的比例;查全率是指所有正例中被檢測出的比例。在目標檢測中,定義了目標檢測框和真實值的重疊率IoU,通過設定IoU閾值t 判斷檢測結果中真正例TP、假正例FP、假反例FN的數量。

通過給定的不同閾值t ,得到對應的查準率和查回率值,從而繪制Precision-Recall曲線積分計算目標檢測平均準確率(Average Precision,AP)。當t 是離散數據時,AP 為不同閾值t 的查全率對應的查準率的平均值。為了簡化計算,PASCAL VOC[55]數據集采用了插值方法計算檢測器的AP 值,在[0,1]上以步長為0.1 等間距取查全率上的查準率值。

而在3D檢測任務中,針對室外場景下車輛、行人等目標,常常采用KITTI數據集下定義的評價指標評估檢測器的性能。KITTI評價指標包含3個主要內容:2D檢測框平均準確率AP2D、3D 檢測框平均準確率AP3D以及平均角度相似性AOS。其中,AP2D采用二維目標檢測器的AP 計算方法,將世界坐標系下三維檢測框投影到圖像坐標系下,通過IoU計算AP值。但在三維檢測中,圖像坐標系下坐標并不能直接表示三維檢測框的準確性,其原因不難解釋,由于世界坐標系與圖像坐標系的轉換關系,對于世界坐標系下不同大小、不同位置下的目標,當其投影到二維圖像上時可能得到相同的二維檢測框。因此,Chen 等人[13]在MV3D 中引入了AP3D指標,與AP2D計算過程的不同在于其IoU 值為世界坐標系下三維檢測框檢測值與真值的重疊率。針對三維目標檢測任務,KITTI數據集定義了AOS指標用來評價目標航向角預測結果。根據定義,有如下計算過程:

式中,r 為PASCAL 中二維目標檢測的查全率,s(r?)為方向相似性,定義為所有預測樣本與真實值余弦距離的歸一化。D(r)表示在查全率r 下所有預測為正樣本的集合,表示檢出目標i 的預測角度與真實值的差。為了防止多個檢出匹配到同一個真實值,如果檢出目標i 已經匹配到真實值(IoU至少50%)設置δi=1,否則δi=0。

表5 SUN RGB-D數據集三維檢測結果對比%

5 實驗及分析

本文分別介紹了室內場景和室外場景下基于圖像的三維目標檢測算法,其中對于室內場景下的檢測和姿態估計算法,主要采用SUN RGB-D數據集進行各算法的性能比較;對于室外場景下的三維目標檢測,主要采用KITTI 數據集以及評估標準對各算法進行實驗結果的對比與分析。主要實驗結果對比與分析如下。

針對室內場景下的三維目標檢測任務,表5給出了不同算法在SUN RGB-D 數據集上10 類標記目標的實驗結果。從表中結果可以看出,各算法對于多目標的檢測準確率相差較大,例如對于馬桶、床等目標的識別準確率可達到80%以上,但對于書柜、床頭柜的識別準確率卻在50%以下。另外,實現結果表明F-PointNets 算法[30]對于室內場景的三維目標檢測同樣具有較好的表現,多類目標下的平均準確度達到了54%,但不同目標間依舊存在較大差距。造成目標識別精度差距較大的原因主要有兩方面,首先是數據集本身特點,在SUN RGB-D 數據集中各種類目標數量存在差異;其次是目標本身的特點,例如床頭柜、梳妝臺等目標,其本身尺寸相對較小,且在室內場景中往往處于被遮擋狀態,使得其紋理和深度信息相對較少,為目標檢測與定位造成一定的難度。根據表5,可以看出DeepContext 算法有效提升了該類目標的檢測精度,該算法通過定義室內場景模板,提升了諸如床頭柜、椅子等易被遮擋物體的檢測精度。

在三維目標檢測任務,Mono3D[38]、Deep3Dbbox[40]、3DOP[39]等算法均利用2D 檢測器實現目標的檢測與分類,再進一步回歸目標的三維特征信息,因此2D檢測結果也直接影響三維目標檢測的準確性。表6 給出不同的三維目標檢測網絡在KITTI數據集下,車輛目標的二維檢測結果以及平均航向角預測結果。從表中可以看出,二維目標檢測結果均較為理想,尤其對于簡單目標來說,在IoU 閾值設置為0.5 時基本可以達到90%以上。其中基于雙目視覺的Stereo R-CNN[51]對簡單目標的識別平均準確率達到了98.53%,相比于大多數基于單目視覺方法提升了近5%。針對車輛目標的航向預測準確度也同樣達到了較高的水平,對于簡單目標達到了90%以上,中等目標達到了85%以上。但對于存在大部分遮擋、截斷或者尺寸較小的困難目標,無論是二維檢測的平均準確率還是航向角預測,準確率都未達到80%。因此,如何提高存在遮擋、截斷、小尺寸等目標的有效識別率仍是目標檢測任務中有待解決的關鍵問題。

表6 KITTI數據集車輛目標檢測AP2D、AOS指標對比%

三維目標檢測的目的是獲取目標在世界坐標系下尺寸、位置和航向信息,因此,采用Chen 等人[13]提出的三維目標平均檢測率評估預測結果。表7 總結歸納了室外場景下車輛目標三維檢測平均準確率結果,并對比了IoU 閾值分別設置為0.5 與0.7 對檢測結果的影響。根據表7 結果顯示,當IoU 閾值為0.5 時,基于單目視覺的三維目標檢測算法中,MonoGRNet[42]檢測結果最為理想,相比于Mono3D[38]等方法準確率提升了近一倍,對于簡單目標的檢測準確率可以達到50%左右。當IoU 閾值設為0.7 時,各算法準確率均有大幅的下降,其中準確率最高的MonoDIS[50]算法針對簡單目標只能達到18.05%,而對于困難目標準確率均在10%以下。相比之下,基于雙目/深度圖像的三維檢測結果提升了很多。其中,在IoU=0.5 時,對于簡單目標的識別率最高達到了85.84%,對困難目標的識別也達到了57.24%。當IoU=0.7 時,對于三類目標,F-PointNets[30]的檢測準確率分別達到了83.76%、70.92%和63.65%,相比于3DOP算法[39]提升了近10倍。

表7 KITTI數據集車輛目標檢測AP3D指標對比

對比表7的實驗結果不難發現,基于雙目/深度圖像的三維目標檢測結果大大優于單目圖像的檢測結果,這主要就是因為單目圖像中深度信息的缺失。其中,MonoGRNet[42]、MF3D[41]等表現較好的算法中均融合了基于單目視覺的深度估計算法,但由于單目視覺的深度估計本來存在較大誤差,因此導致了目標位置的誤差。由此可見,深度信息對于三維目標檢測的重要性。

此外,表7對各室外場景下的三維目標檢測算法的運行速度進行了總結對比,表中總結的運行速度數據主要來源于KITTI數據集的3D目標檢測任務。從表中的對比結果可以看出,目前三維目標檢測算法的運行速度普遍在0.1 s以上。其中,Mono3D[38]和3DOP[39]的運行速度甚至達到了3 s 以上,這是因為其復雜的先驗信息融合和密集的區域提議生成方式。針對單目視覺的三維目標檢測算法,MonoGRNet[42]采用實例級的深度估計算法,忽略非目標區域的深度估計,使得網絡運算量進一步減少,將運行速度提升到了0.06 s/張。其次,在雙目/深度視覺中,F-PointNets[30]算法的處理速度達到了0.17 s/張,相比于其他雙目/深度視覺算法運行速度提升了近一倍。F-PointNets算法將深度圖轉換為點云數據,基于三維點云網絡實現三維目標檢測,相比于直接在立體空間中運用三維卷積的方法,省略了大量的空卷積過程,減少了計算量。另外,對比基于單目和雙目/深度視覺算法的運行速度不難發現,目前單目視覺算法的運行速度并沒有顯著優于雙目/深度視覺算法,這是因為目前單目視覺方法主要結合了深度估計網絡,增加了網絡的復雜度,使得計算量增加。因此,如何在提升檢測精度的同時簡化網絡,減少計算量,是目前提升三維目標檢測算法性能的關鍵。

相比于道路場景下車輛目標檢測,各算法對行人、自行車等其他目標檢測結果對比的研究則較少。表8總結歸納了部分算法給出的針對室外場景下行人與自行車等目標的三維目標檢測平均準確率(AP3D)結果,其中IoU 閾值取0.5。通過表中結果對比不難發現,在行人、自行車等目標識別中,基于雙目/深度圖像的檢測結果遠遠優于基于單目圖像的檢測結果。其中,基于深度圖像的F-PointNets 算法模型[30]在行人檢測中準確率達到了40%以上,自行車檢測準確率達到了50%以上,而基于單目圖像的算法中效果只能達到10%左右。同時,將表7 與表8 結果對比可以發現,對于車輛目標的三維識別準確率要高于行人、自行車等目標的識別準確率,這主要因為行人、自行車等目標相比與車輛目標來說,尺寸更小,姿態更具有多樣性,因此在定位與姿態估計任務中更加困難。

表8 KITTI數據集行人、自行車目標檢測AP3D指標對比%

6 結束語

本文系統總結了近年來基于視覺的三維目標檢測算法,針對室內、室外不同的應用場景,分析了三維目標檢測任務的難點,歸納了不同場景下基于單目、雙目/深度視覺的三維目標檢測算法。另外,系統介紹了針對三維目標檢測的評價指標,并在KITTI、SUN RGB-D等數據集上進行了實驗結果的對比分析。針對三維目標檢測,實驗結果的對比分析表明:

(1)在室內場景中,針對不同目標的檢測精度差距較大,其中,對于床、馬桶等形狀特征明顯的目標識別準確率較高,而櫥柜、桌椅等目標識別率相對較低。

(2)在室內場景中,基于三維特征提取的檢測網絡,例如F-PointsNets[30]、3D-SSD[26]等,多目標的平均識別準確率高于其他基于2D檢測網絡方法。

(3)針對室外場景中的車輛目標三維檢測任務,其二維檢測精度和航向角檢測精度達到了較好的水平。其中,針對簡單目標的檢測精度可達到95%以上,對于困難目標檢測精度達到80%。

(4)針對室外場景中的目標三維空間信息估計,深度/雙目視覺下的檢測精度遠遠高于單目視覺下檢測精度。其中,針對車輛目標,IoU 閾值為0.7 時,基于深度/雙目視覺的F-PointsNets[29]算法三維信息估計精度可達到60%以上,而基于單目視覺的檢測效果最高只能達到13.42%。針對行人、自行車等目標,IoU 閾值為0.5 時,基于深度/雙目視覺的檢測算法精度可達到40%以上,而基于單目視覺的檢測精度在10%以下。

(5)在室外場景中,對基于單目視覺的三維目標檢測算法的分析比較表明,融合深度估計網絡的檢測算法精確率普遍高于其他基于幾何特征、三維模型檢測算法。

相比于二維目標檢測網絡,三維目標檢測在準確性、實時性等關鍵指標方面還有較大的提升空間。經過對現有的三維目標檢測算法的分析與總結,未來對該任務的研究方向可包含以下方面:

(1)對于室內場景下的三維目標檢測,需要提升多目標檢測精度。特別地,針對一些室內場景下的特殊目標,如尺寸較小,紋理特征不明顯,易非剛性形變,外觀特征多樣等目標,如何提升三維姿態檢測精度是進一步研究的關鍵。

(2)對于室內場景下的三維目標檢測,目標之間往往存在一定的關聯,能否利用目標間的關聯約束提升室內場景下多目標的檢測和定位精度可以進一步研究。

(3)對于室外場景下的三維目標檢測,如何解決遮擋、截斷和遠距離的小尺寸目標的檢測與定位精度是亟需解決的關鍵問題。

(4)無論是室內場景,還是室外場景下,基于單目視覺的三維目標檢測精度均較低,關鍵在于如何提升單目視覺下的目標三維空間定位精度。目前,依靠融合基于單目視覺的深度估計網絡存在兩個主要問題:一是深度估計算法本身存在較大誤差,不能滿足定位精度需求;二是網絡融合增加了網絡架構的復雜度,計算量大大增加。

(5)目前基于雙目視覺下的三維目標檢測網絡大多基于二維目標檢測架構,融合深度圖特征實現目標的三維檢測,常用的深度圖特征有HHA[20]、COG[31]等;另一方面,通過三維立體場景恢復,實現三維特征提取。這兩類方法對檢測精度都有較大的提升,但是都存在特征提取計算量較大,網絡架構較為復雜的問題。因此,如何簡化深度/雙目視覺下的三維目標檢測網絡是進一步研究的重點。

基于視覺的三維目標檢測網絡包含了目標在三維空間的定位、姿態估計和圖像坐標系中的三維檢測框恢復。相對于二維目標檢測來說,三維目標檢測更具有實際應用的需求,關系到了自動駕駛、機器人等領域中感知系統的有效性。因此,基于視覺的三維目標檢測已成為計算機視覺研究中的重要方向。

猜你喜歡
深度檢測信息
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
深度理解一元一次方程
深度觀察
深度觀察
深度觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
小波變換在PCB缺陷檢測中的應用
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 国产凹凸视频在线观看| 午夜福利亚洲精品| 久久国产黑丝袜视频| 久久精品最新免费国产成人| 少妇人妻无码首页| 波多野结衣无码AV在线| 亚洲精品自在线拍| 亚洲精品国偷自产在线91正片| 中文纯内无码H| 日本不卡视频在线| 九九热视频在线免费观看| 国产激情影院| 国产乱人乱偷精品视频a人人澡| 99国产精品一区二区| 青青青国产在线播放| 欧美日韩免费| 蜜臀AVWWW国产天堂| 久久久久国产一区二区| 日韩欧美国产成人| 青青青草国产| 欧美成人国产| 亚洲色婷婷一区二区| 91无码人妻精品一区| 114级毛片免费观看| 成人欧美日韩| 国产本道久久一区二区三区| 亚洲最大情网站在线观看 | 亚洲美女一区二区三区| 欧美中文一区| 中文字幕亚洲专区第19页| 欧美性天天| 91亚洲国产视频| 大香伊人久久| 91久久夜色精品| 天天激情综合| 国产99精品视频| 亚洲综合婷婷激情| www中文字幕在线观看| 国产欧美精品一区aⅴ影院| 999精品免费视频| 欧美久久网| 美女视频黄频a免费高清不卡| 91精品亚洲| 国产又粗又爽视频| 91久草视频| 国产成+人+综合+亚洲欧美| 亚洲精品成人福利在线电影| 亚洲午夜福利精品无码| 亚洲国产精品一区二区第一页免| 2024av在线无码中文最新| 成人综合网址| 国产综合另类小说色区色噜噜 | 亚洲第一在线播放| 熟妇无码人妻| 在线欧美国产| 亚洲AV无码久久精品色欲| 亚洲精品中文字幕午夜| 中文字幕欧美成人免费| 精品伊人久久久香线蕉 | 久久精品丝袜| 777午夜精品电影免费看| 3344在线观看无码| 欧美国产日韩在线观看| 在线色国产| 黄色网在线| 美女被操黄色视频网站| 日韩在线第三页| 大香网伊人久久综合网2020| 国产精品尤物铁牛tv| 色悠久久久久久久综合网伊人| 色婷婷色丁香| 最新国产午夜精品视频成人| 少妇精品在线| 97国产一区二区精品久久呦| 无码一区二区波多野结衣播放搜索| 国产原创演绎剧情有字幕的| 亚洲精品国产综合99| 国产免费一级精品视频 | 欧美不卡视频一区发布| 一级黄色片网| 中文无码精品a∨在线观看| 国产精品免费入口视频|