999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自學(xué)習(xí)區(qū)域選擇與邊緣聚焦的單目3D檢測(cè)

2025-09-02 00:00:00王鑫威張友兵周奎

關(guān)鍵詞:?jiǎn)文?D檢測(cè);自學(xué)習(xí)區(qū)域選擇;邊緣融合;數(shù)據(jù)增強(qiáng);注意力機(jī)制中圖分類號(hào):TP391.4 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2025)08-041-2552-09doi:10.19734/j.issn.1001-3695.2024.09.0439

Monocular 3D detection based on self-learning region selection and edge focus

Wang Xinwei1, Zhang Youbing , Zhou Kui1 (1.Shring-XJtinbeie yanHubei 44200o,China;2. Jingchu Universityof Technology,JingmenHubei 4480oo,China)

Abstract:This study proposedamonocular3Ddetection algorithmbasedonself-learning regionselectionandedge focusing. UnliketraditionalmethodsthatusedtheentireRolfor3Datributelearning,theproposedalgorithmleveragedadata-driven modeltoself-learnandselectvaluableregions,mitigatingthenegativeinfluenceofirelevantareas.Aditionally,thealgo rithmenhancededgeregions bymodelingthedistributioncharacteristicsof truncatedtargets,improving thefocusonhighfrequencyregions.Furthermore,itintroducedadataaugmentationmethodincorporatingspatialconsistencyconstraints,xtendingthe3Dsamplesetbyaddingspatialconstraints tothecut-and-paste method,thusensuring consistencywith imaging principles.Experimentalresultsonthe KITIdatasetdemonstratethattheproposed methodoutperforms baseline models,witha (204 29.8% improvement in accuracy for truncated targets compared to the baseline model.

Key words:monocular3Ddetection;self-learning region selection;edge fusion;dataaugmentation;atention mechanism

0引言

隨著自動(dòng)駕駛和機(jī)器人系統(tǒng)的迅速發(fā)展,環(huán)境感知成為智能系統(tǒng)的關(guān)鍵環(huán)節(jié)。3D目標(biāo)檢測(cè)作為其中的重要組成部分,能準(zhǔn)確感知和理解三維空間中的物體信息,對(duì)自動(dòng)駕駛和機(jī)器人導(dǎo)航等應(yīng)用至關(guān)重要。

傳統(tǒng)的3D檢測(cè)方法多依賴于立體視覺、多目視覺或LiDAR傳感器[1],但存在硬件成本高、數(shù)據(jù)處理復(fù)雜的局限性。相比之下,單目3D檢測(cè)因僅依賴單個(gè)RGB攝像頭,具有成本低、硬件簡(jiǎn)單、易于部署等優(yōu)勢(shì),適合大規(guī)模應(yīng)用。盡管單目3D目標(biāo)檢測(cè)技術(shù)在近幾年取得了顯著進(jìn)展,仍存在一些亟待解決的問題。

目前,在單目3D目標(biāo)檢測(cè)模型的訓(xùn)練過程中,RoI區(qū)域選擇通常參照2D標(biāo)準(zhǔn),將目標(biāo)及其周圍的特征區(qū)域作為正樣本。然而,2D和3D任務(wù)對(duì)RoI區(qū)域質(zhì)量的容忍度存在差異。圖1(a)(b)是模型訓(xùn)練過程中單目2D和3D檢測(cè)任務(wù)中適宜的RoI區(qū)域選擇。2D檢測(cè)器的任務(wù)是生成一個(gè)覆蓋目標(biāo)的邊界框,不需要理解目標(biāo)三維空間信息,同時(shí)CNN的局部感受野特性和對(duì)簡(jiǎn)單特征的依賴使得2D檢測(cè)在面對(duì)部分遮擋時(shí)仍然能夠魯棒地完成任務(wù)。如圖1(a)所示,2號(hào)車被1號(hào)車遮擋住,但是2號(hào)車的頂部和尾部仍然清晰可見,其特征足夠生成準(zhǔn)確的邊界框。而單目3D檢測(cè)需要對(duì)目標(biāo)三維屬性進(jìn)行檢測(cè),遮擋區(qū)域會(huì)破壞目標(biāo)的全局特性、幾何一致性和深度信息,引入背景干擾。此外,單目3D檢測(cè)目前并不成熟,對(duì)誤差高度敏感,遮擋帶來的干擾會(huì)放大錯(cuò)誤,影響多維度的預(yù)測(cè)。圖1(b)為主干網(wǎng)絡(luò)輸出的感興趣區(qū)域,黃色部分為目標(biāo)特征區(qū)域(見電子版)。如果將全部區(qū)域特征進(jìn)行訓(xùn)練,前車特征可能會(huì)錯(cuò)誤地賦給后車,導(dǎo)致后車深度被低估。為了剔除干擾區(qū)域,目前常用的方法有深度估計(jì)和實(shí)例分割[3,但其需要額外的數(shù)據(jù),而且會(huì)降低模型的實(shí)時(shí)性,所以目前需要提出一種低代價(jià)的目標(biāo)區(qū)域劃分方法。

同時(shí)單目系統(tǒng)無法直接獲取場(chǎng)景中對(duì)象的深度信息,導(dǎo)致3D到2D的投影過程中物體形狀和尺寸的扭曲,特別是在圖像的邊緣區(qū)域。這種扭曲問題使得從邊緣特征推斷物體的3D形狀和位置變得更加困難。為解決單目圖像中車輛目標(biāo)邊緣截?cái)嗑鹊偷膯栴},部分研究通過獨(dú)立提取邊緣像素并將其與注意力特征進(jìn)行融合[4],從而提升對(duì)邊緣目標(biāo)的檢測(cè)能力;另一些研究利用從單目圖像估計(jì)的深度信息生成偽激光雷達(dá)點(diǎn)云[5],并基于這些點(diǎn)云進(jìn)行3D目標(biāo)檢測(cè),以改善截?cái)辔矬w的檢測(cè)精度;還有研究通過引入上下文特征通道[,增強(qiáng)了對(duì)邊緣截?cái)嗉安糠终趽跷矬w的識(shí)別性能。然而,這些方法未能充分考慮不同邊緣截?cái)嗄繕?biāo)的出現(xiàn)概率不均衡性。圖2展示了

KITTI數(shù)據(jù)集中目標(biāo)截?cái)噙呏行狞c(diǎn)的分布特點(diǎn),紅點(diǎn)表示截?cái)噙叺闹行模ㄒ婋娮影妫S蓤D可見其中左右兩側(cè)的截?cái)喑霈F(xiàn)概率顯著高于上下兩側(cè),且左下角和右下角的截?cái)喑霈F(xiàn)概率較高,而左上角和右上角相對(duì)較低。這一現(xiàn)象的忽視可能導(dǎo)致模型訓(xùn)練時(shí)的偏差累積和注意力分散,從而在實(shí)際應(yīng)用中造成嚴(yán)重的性能退化。

圖1單目2D和3D檢測(cè)任務(wù)中合適的RoI區(qū)域選擇 Fig.1AppropriateRoI region selection for monocular 2D and 3D detection tasks

圖2KITTI數(shù)據(jù)集目標(biāo)截?cái)噙吘壷行狞c(diǎn)分布情況Fig.2Distribution of truncated edge center points ofobjectsintheKITTIdataset

針對(duì)上文提到的單目3D物體檢測(cè)中的關(guān)鍵問題,本文提出了一種基于自學(xué)習(xí)區(qū)域選擇與邊緣聚焦的改進(jìn)方法。針對(duì)單目3D訓(xùn)練過程中RoI區(qū)域選擇不合理的問題,提出了一種基于學(xué)習(xí)的區(qū)域選擇策略。在原始網(wǎng)絡(luò)架構(gòu)中添加區(qū)域適應(yīng)度分支,通過學(xué)習(xí)輸出每個(gè)候選區(qū)域的適應(yīng)度值,指導(dǎo)網(wǎng)絡(luò)在訓(xùn)練過程中選擇合適區(qū)域。為了解決邊緣識(shí)別精度不足問題,提出了一種基于邊緣截?cái)嗄繕?biāo)分布建模的邊緣增強(qiáng)策略,以提升模型在截?cái)喔哳l邊緣區(qū)域的聚焦能力,從而提高對(duì)邊緣目標(biāo)的檢測(cè)能力。考慮到現(xiàn)有的3D單目數(shù)據(jù)增強(qiáng)方法可能引入模糊特征,提出了一種考慮空間約束的cut-and-paste方法,在豐富訓(xùn)練樣本的同時(shí)避免引入模糊特征,進(jìn)一步提高了模型的魯棒性和泛化能力。

1相關(guān)工作

近年來,隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,單目3D目標(biāo)檢測(cè)領(lǐng)域取得了顯著進(jìn)展。目前,這些算法主要根據(jù)依賴的額外數(shù)據(jù)類型分為三類。

a)基于深度信息引導(dǎo)的方法。這類方法首先通過單目深度估計(jì)模型生成像素級(jí)深度圖,然后將深度圖與單目圖像融合后輸入到檢測(cè)器中以進(jìn)行處理。其中, MF3D[7] 通過子網(wǎng)絡(luò)生成深度圖,并將目標(biāo)的感興趣區(qū)域與深度圖相結(jié)合,以回歸目標(biāo)的3D位置信息。MonoGRNet[8則采用稀疏監(jiān)督策略,只對(duì)目標(biāo)區(qū)域進(jìn)行深度估計(jì),預(yù)測(cè)3D邊框中心的深度。D4LCN[9]通過一種局部卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)深度圖中的卷積核和感受野,解決了傳統(tǒng)二維卷積無法捕捉物體多尺度信息的問題。然而,這類基于深度信息引導(dǎo)的方法對(duì)深度圖的精度高度依賴,深度估計(jì)中的誤差容易傳遞至3D檢測(cè)模型,影響最終結(jié)果。

b)基于點(diǎn)云引導(dǎo)的方法。此類算法利用激光雷達(dá)點(diǎn)云進(jìn)行輔助監(jiān)督模型訓(xùn)練,推理時(shí)僅依賴圖像和單目相機(jī)數(shù)參數(shù)。

其中Pseudo-LiDAR[10]、Pseudo-LiDAR ++[11] 、 LPCG[12] 是近年來的代表性算法。Pseudo-LiDAR利用單目深度估計(jì)算法生成深度圖,并將其反投影為偽激光雷達(dá)點(diǎn)云,然后應(yīng)用傳統(tǒng)的點(diǎn)云檢測(cè)算法進(jìn)行3D目標(biāo)檢測(cè)。Pseudo-LiDAR ++ 在Pseudo-LiDAR的基礎(chǔ)上進(jìn)行改進(jìn),通過擴(kuò)展深度圖、使用低成本的4線激光雷達(dá)來微調(diào)偽激光點(diǎn)云,以提升檢測(cè)精度。LPCG利用激光雷達(dá)生成的點(diǎn)云數(shù)據(jù)生成大量粗略的3D標(biāo)簽,這些標(biāo)簽作為偽標(biāo)簽用于訓(xùn)練單目3D目標(biāo)檢測(cè)模型。盡管激光雷達(dá)輔助訓(xùn)練方法能夠提升單目三維目標(biāo)檢測(cè)的精度,但受限于設(shè)備價(jià)格,數(shù)據(jù)獲取成本較高,同時(shí)激光雷達(dá)點(diǎn)云數(shù)據(jù)通常是稀疏的[13],可能導(dǎo)致模型學(xué)習(xí)到不完整信息。

c)不依賴額外數(shù)據(jù)的直接回歸法。其主要依賴幾何先驗(yàn)知識(shí)和深度估計(jì)的不確定性建模來提升性能。現(xiàn)階段的直接回歸法分為基于錨框(anchor-based)和非錨框(anchor-free)方法兩大類。anchor-based方法如Deep3Dbbox[14]和MonoDIS[15],通過結(jié)合2D檢測(cè)框與幾何投影來預(yù)測(cè)物體的3D位姿和尺寸。Deep3Dbbox通過最小化3D與2D檢測(cè)框之間的誤差來優(yōu)化模型,而MonoDIS則采用解耦的回歸損失,避免了各參數(shù)間誤差傳遞的干擾,提高了訓(xùn)練的穩(wěn)定性。這類方法在面對(duì)目標(biāo)尺度不一和遮擋問題時(shí)表現(xiàn)尚可,但在效率性和泛化能力上有所欠缺。anchor-free 方法如RTM3D[16]、SMOKE[17]等,摒棄了復(fù)雜的錨框生成,通過直接預(yù)測(cè)目標(biāo)的角點(diǎn)或中心點(diǎn)來形成檢測(cè)框。RTM3D直接預(yù)測(cè)3D框的頂點(diǎn)與中心點(diǎn),通過幾何約束進(jìn)行深度估計(jì),而SMOKE則通過關(guān)鍵點(diǎn)估計(jì)與三維變量回歸來預(yù)測(cè)3D框。此外,GUPNet[18]通過幾何不確定性投影模塊解決幾何投影中的誤差問題,并引入分層任務(wù)學(xué)習(xí)來優(yōu)化多任務(wù)下的參數(shù)學(xué)習(xí)。雖然直接回歸法不需要額外的訓(xùn)練數(shù)據(jù),但其依賴幾何先驗(yàn)和關(guān)鍵點(diǎn)回歸,對(duì)于復(fù)雜場(chǎng)景中的遮擋、多尺度目標(biāo)以及高密度物體的檢測(cè),性能往往不足。

目前的單目3D目標(biāo)檢測(cè)算法在訓(xùn)練階段對(duì)主干網(wǎng)絡(luò)輸出的RoI區(qū)域選擇一視同仁,未充分考慮不適應(yīng)區(qū)域?qū)δP陀?xùn)練的負(fù)面影響。此外,針對(duì)邊緣識(shí)別精度差問題,現(xiàn)有算法未充分考慮不同邊緣截?cái)嗄繕?biāo)的分布規(guī)律,可能導(dǎo)致注意力分布的不合理,最終可能削弱整體場(chǎng)景的理解能力,降低識(shí)別精度。

2本文算法

2.1 模型結(jié)構(gòu)

圖3展示了本文算法的核心網(wǎng)絡(luò)結(jié)構(gòu)。該算法以CUP-Net[18] 為基準(zhǔn)網(wǎng)絡(luò),以圖像 I∈RH×W×3 作為輸入。首先,通過考慮空間約束的 cut-and-paste[19](cut-and-paste with spatial con-straints,CP-SC)提升樣本的多樣性,然后利用主干網(wǎng)絡(luò)DLA34[20] 。將提取到的特征輸入邊緣融合坐標(biāo)注意力模塊(edgefusioncoordinateattention mo-dule,CA-EF)增強(qiáng)對(duì)截?cái)喔哳l區(qū)域的注意力,生成特征圖 FCA∈ R 。最后將特征圖輸入2D檢測(cè)頭,生成2D檢測(cè)結(jié)果,包括2D熱力圖、2D尺寸信息、2D中心偏移。

在二階段的3D檢測(cè)任務(wù)中,首先將第一階段生成的2D檢測(cè)框作為特征輸入,并通過RoIalign[21]獲取感興趣區(qū)域(RoI)的特征。接著,拼接歸一化坐標(biāo)通道以生成包含坐標(biāo)信息的特征圖 Fobj∈Rn×d×d×C ,其中 d×d 是RoI align大小, n 為感興趣區(qū)域(RoI)的數(shù)量。與其他基于RoI特征預(yù)測(cè)單個(gè)3D框的方法不同,本文算法遵循GUPNet設(shè)計(jì),使用RoI中的每個(gè)區(qū)域來預(yù)測(cè)一個(gè)3D邊界框和區(qū)域適應(yīng)度,所以完整區(qū)域適應(yīng)度矩陣大小為 n×d×d,3D 框輸出大小為 d×d×3 。在訓(xùn)練階段,本文設(shè)計(jì)的自學(xué)習(xí)區(qū)域選擇模塊(self-learningregionselection,SLRS)會(huì)自適應(yīng)地為3D屬性選擇適應(yīng)區(qū)域。同時(shí),在訓(xùn)練過程中采用預(yù)熱策略,以保證模型的穩(wěn)定收斂和優(yōu)化效果。推理過程中,使用RoI適應(yīng)度矩陣中最高值選擇最佳3D屬性。

Fig.3Network structure of the proposed method

2.2 自學(xué)習(xí)區(qū)域選擇

在3D目標(biāo)檢測(cè)任務(wù)中,為降低不適應(yīng)RoI(regionofinte-rest)區(qū)域?qū)W(wǎng)絡(luò)訓(xùn)練的負(fù)面影響,本文提出一種自學(xué)習(xí)區(qū)域選擇策略(self-learningregion selection,SLRS),使網(wǎng)絡(luò)能自動(dòng)篩選出適合訓(xùn)練的RoI區(qū)域,提升訓(xùn)練效果,其結(jié)構(gòu)如圖3所示。在網(wǎng)絡(luò)訓(xùn)練的過程中,將 RoI特征 Fobj∈Rn×d×d×C 通過降維映射轉(zhuǎn)化為區(qū)域適應(yīng)度矩陣 S∈Rd×d 。其中 s 中的元素 si,j 表示RoI中位置 (i,j) 區(qū)域適合用于學(xué)習(xí)的程度。接著,將輸出矩陣s 經(jīng)過 log(??μ) 操作壓縮動(dòng)態(tài)范圍獲得 Slog ,然后輸人自學(xué)習(xí)區(qū)域選擇模塊(SLRS)。

在SLRS模塊中,對(duì)輸入添加高斯擾動(dòng),注入一定的隨機(jī)性,使得原本低概率的區(qū)域有時(shí)也能被選中參與訓(xùn)練,從而獲得 ,再將其展平后獲得 SL ,將其輸入自適應(yīng)離群區(qū)域剔除模塊(adaptive outlierregion elimination,AORE)。

在AORE模塊中,采用箱型圖法剔除離群區(qū)域。具體計(jì)算過程為:先計(jì)算 SL 的下四分位和上四分位數(shù) Q1 和 Q3 ,然后計(jì)算四分位距 IQR=Q3-Q1 。離群值的上下閾值分別為 Q1-β× IQR和 Q3+β×IQR ,根據(jù)文獻(xiàn) [14]β 常用數(shù)值有1、1.5、3,分別對(duì)應(yīng)嚴(yán)格、均衡、溫和的剔除原則。本文在這里將其設(shè)置為1.5,能夠在剔除明顯偏離數(shù)據(jù)主體分布的異常值的同時(shí),較好地保留數(shù)據(jù)的多樣性。 SL 通過AORE模塊剔除離群值操作后獲得 s* ,對(duì)其排序得到 Ssort ,并計(jì)算相鄰元素之間的相對(duì)距離,如式(1)所示。

找到相對(duì)距離最大值,將其作為閾值,過濾出適應(yīng)的RoI區(qū)域 Ssample∈Rd×d 。在損失回歸階段使用SLRS 模塊生成的RoI區(qū)域選擇掩碼,僅將篩選出的適應(yīng)區(qū)域納入損失回歸計(jì)算,具體操作如圖4所示。

圖4利用RoI區(qū)域選擇掩碼計(jì)算損失過程

Fig.4Loss calculation process usingRoI region selection mask

以角度預(yù)測(cè)任務(wù)為例,其損失計(jì)算過程如式(2)所示。

其中: Θi,j 是角度預(yù)測(cè)輸出中坐標(biāo)為 i,j 的朝向預(yù)測(cè); Oi,jgt 是對(duì)應(yīng)的真實(shí)值; Ssample,i,j 是 RoI 區(qū)域選擇對(duì)應(yīng)的掩碼數(shù)值。在計(jì)算過程中如果 Ssample,i,j 數(shù)值為0,則對(duì)應(yīng)區(qū)域不納入損失計(jì)算。

MultiBinLoss是朝向多分箱損失計(jì)算函數(shù)。通過以上的計(jì)算,本文算法就可以在損失計(jì)算過程中保留適應(yīng)區(qū)域?qū)?yīng)的損失。

2.3基于邊緣截?cái)嗄繕?biāo)分布建模的邊緣增強(qiáng)

為了更好地聚焦于截?cái)喔哳l區(qū)域,本文研究了自動(dòng)駕駛環(huán)境中截?cái)嗄繕?biāo)在單目圖像四個(gè)邊緣的分布規(guī)律。對(duì)KITTI數(shù)據(jù)集的訓(xùn)練集進(jìn)行統(tǒng)計(jì)分析,圖像大小為 1245×375 ,結(jié)果顯示共有5391個(gè)邊緣截?cái)鄻颖荆財(cái)噙叺目倲?shù)為8638條。圖5展示了所有截?cái)噙呏行牡姆植记闆r。

圖5KITTI數(shù)據(jù)集中截?cái)噙呏行姆植冀y(tǒng)計(jì)

為獲得更加精細(xì)化的建模數(shù)據(jù),本文對(duì)所有截?cái)噙呥M(jìn)行5等分采樣,共計(jì)采集了43190個(gè)樣本點(diǎn)。通過分析不同邊緣樣本的截?cái)帱c(diǎn)概率密度分布圖,針對(duì)不同的分布特性選擇適宜的基礎(chǔ)函數(shù)進(jìn)行擬合。

針對(duì)左右邊緣截?cái)帱c(diǎn)的分布(范圍為[0,375],其中375為圖像高度),采用正態(tài)分布函數(shù)對(duì)其概率密度分布進(jìn)行建模。正態(tài)分布的概率密度函數(shù)形式如式(3)所示。

其中 σ:μ 是均值; σ 是標(biāo)準(zhǔn)差。通過函數(shù)擬合分析,左邊緣截?cái)帱c(diǎn)分布的擬合參數(shù)為 μ1=258 σ1=67 ,右邊緣截?cái)帱c(diǎn)分布的擬合參數(shù)為 μ2=253 σ2=78 。針對(duì)上下邊緣截?cái)帱c(diǎn)的分布(范圍為[0,1245],其中1245為圖像長(zhǎng)度),采用雙峰正態(tài)分布的概率密度函數(shù)對(duì)其概率密度進(jìn)行建模。概率密度函數(shù)形式如式(4)所示。

過函數(shù)擬合,得到下邊緣 σ3=16,μ3=1141,σ4=23,μ4= 1157,上邊緣擬合方式同理。圖6是KITTI數(shù)據(jù)集合中四個(gè)邊緣截?cái)帱c(diǎn)的概率密度函數(shù)擬合情況。

實(shí)際應(yīng)用過程中,標(biāo)準(zhǔn)差與均值需要根據(jù)特征圖與原始圖像大小按比例縮放用作初始值,在后續(xù)的訓(xùn)練中通過貝葉斯優(yōu)化更新。如計(jì)算特征圖上下邊緣的參數(shù),原始標(biāo)準(zhǔn)差和均值為σorig 和 μorig ,原始圖片寬度為 W ,特征圖寬度為 Wfeature ,則放縮后的 σorig 和 μorig 符合式(5)(6)所示。

基于邊緣截?cái)嗄繕?biāo)分布建模的邊緣增強(qiáng)模塊(edgeenhancement module based on truncated target distribution modeling,EE-MTD)將通過數(shù)據(jù)建模獲得的左右及上下邊緣截?cái)嗄繕?biāo)的概率分布密度函數(shù)作為提取特征圖四個(gè)邊緣掩碼權(quán)重的依據(jù),從而有效融合邊緣特征信息。具體操作過程中,首先計(jì)算出特征圖四個(gè)邊緣的概率密度函數(shù),分別為 pleft(y),pright(y),ptop ,然后基于這些密度函數(shù)計(jì)算出四個(gè)邊緣掩碼。如左邊緣掩碼的計(jì)算過程如式(7)所示。

其他邊緣掩碼的計(jì)算方法與左邊緣掩碼相同,根據(jù)邊緣掩碼獲得最終邊緣特征為

Fedge=F?(Mleft+Mright+Mtop+Mbottom

EE-MTD中利用計(jì)算出的邊緣掩碼來聚焦截?cái)喔哳l區(qū)域,圖7為EE-MTD 模塊結(jié)構(gòu)。

圖7基于邊緣截?cái)嗄繕?biāo)分布建模的邊緣增強(qiáng)模塊 Fig.7Edge enhancement module based on truncated target distribution modeling

邊緣增強(qiáng)過程如下:首先,將輸入特征圖通過邊緣掩碼提取四個(gè)邊界的加權(quán)特征。接著,采用分組卷積與通道混洗相結(jié)合的方法,進(jìn)一步提取特征。最后,將處理后的特征與經(jīng)過 3× 3卷積的原始特征圖逐元素相加,從而生成邊緣融合增強(qiáng)后的特征圖。

2.4邊緣融合坐標(biāo)注意力

為了解決局部增強(qiáng)可能引發(fā)的全局細(xì)節(jié)丟失問題,本文將EE-MTD與坐標(biāo)注意力機(jī)制相結(jié)合。通過在水平和垂直兩個(gè)方向上應(yīng)用注意力機(jī)制,在保留空間信息的同時(shí),有效捕獲了位置依賴性,其結(jié)構(gòu)如圖8所示。

圖8邊緣增強(qiáng)坐標(biāo)注意力模塊

實(shí)現(xiàn)過程如下,首先將特征圖 X 沿著水平和垂直方向進(jìn)行平均池化得到特征向量 Xh 和 Xw ,其次將兩個(gè)向量拼接并卷積后進(jìn)行概率邊緣融合,得到邊緣增強(qiáng)后的特征 XEAE ,然后沿空間維度將過程特征圖 XEAE 分離為兩個(gè)特征向量 XwEAE?XhEAE ,1最后將特征經(jīng)過卷積和sigmod運(yùn)算后與輸人特征 進(jìn)行點(diǎn)乘,得到最終的輸出特征圖。

2.5 CP-SC

傳統(tǒng)的2D圖像增強(qiáng)技術(shù)可能會(huì)扭曲或破壞圖像中關(guān)鍵的幾何和深度信息,導(dǎo)致模型學(xué)習(xí)到錯(cuò)誤的空間關(guān)系或深度線索。更適合的增強(qiáng)方法應(yīng)考慮保持三維幾何關(guān)系和深度一致性,確保增強(qiáng)后的圖像仍然符合物理現(xiàn)實(shí)中的3D結(jié)構(gòu)。

cut-and-paste是一種保持樣本級(jí)特征的圖像增強(qiáng)算法。該方法通過將目標(biāo)對(duì)象從一個(gè)圖像中剪切出來,經(jīng)過目標(biāo)級(jí)增強(qiáng)后再粘貼到另一個(gè)圖像的背景上,從而生成新的訓(xùn)練數(shù)據(jù)。在剪切和粘貼過程中,cut-and-paste能夠保留目標(biāo)的幾何結(jié)構(gòu)和形態(tài),有助于保持目標(biāo)的三維屬性。針對(duì)此本文使用了一種考慮空間一致性的cut-and-paste方法(cut-and-paste methodwithspatial,CP-SC),在執(zhí)行cut-and-paste時(shí)選擇相同焦距、主點(diǎn)、分辨率和攝像機(jī)視角(俯仰角和橫滾角)作為背景,這使得利用不同時(shí)間和位置拍攝的圖像模擬單個(gè)攝像機(jī)在一個(gè)時(shí)間點(diǎn)捕捉的具有空間重疊的圖像成為可能。一般來說,相同焦距的圖像意味著它們的主點(diǎn)和分辨率也是相同的。同時(shí),這些圖像都是由車載針孔相機(jī)拍攝的,其 Xc 軸和 Yc 軸與地面平行,視角相似,因此只需要考慮圖像具有相同的焦距。本文圖像增強(qiáng)原理如圖9所示。考慮到MaskR-CNN的分割精度無法達(dá)到 100% ,需要剔除分割錯(cuò)誤的結(jié)果。為此,通過標(biāo)簽匹配僅保留與預(yù)定義目標(biāo)類別(如人、車、自行車)相對(duì)應(yīng)的分割目標(biāo)。具體過程如下。

首先進(jìn)行相機(jī)參數(shù)篩選,設(shè)數(shù)據(jù)集中有一組圖像 I={I1 = ,對(duì)應(yīng)的相機(jī)參數(shù)為

將相機(jī)焦距相同的圖像分為一個(gè)集合。這個(gè)過程可以通過式(9)表示。

Isame(j)={Ii|fi=fj}

其中: Isame(j) 表示與圖像 Ij 具有相同相機(jī)參數(shù) fj 的圖像集合 ;fi= fj 表示圖像 Ii 和 Ij 的樣機(jī)焦距相同。然后進(jìn)行目標(biāo)分割,對(duì)每張圖像 Ii 應(yīng)用MaskR-CNN,得到目標(biāo)掩碼集合 Mi,1 ,其中 Mi,k 表示第 k 個(gè)目標(biāo)的掩碼。對(duì)應(yīng)的預(yù)測(cè)標(biāo)簽集合為 {Li,1,Li,2,…,Li,k} ,其中 Li,k 表示目標(biāo) Mi,k 的預(yù)測(cè)標(biāo)簽。最后進(jìn)行預(yù)測(cè)目標(biāo)與真實(shí)標(biāo)簽匹配,對(duì)于每個(gè)目標(biāo)掩碼 Mi,k 和預(yù)測(cè)標(biāo)簽 Li,k ,若 Li,k 不屬于預(yù)定義的目標(biāo)類別集合 Ltarget ,則舍棄該目標(biāo)。匹配過程的數(shù)學(xué)表示如式(10)。

Mfiltered={(Mi,k,Li,k)|Li,k∈Ltarget}

其中: Mfiltered 表示經(jīng)過篩選后的目標(biāo)與標(biāo)簽集合。最后將篩選結(jié)果在同一 Isame(j) 集合中隨機(jī)使用CP-SC算法,獲得增強(qiáng)后的數(shù)據(jù)集合。

本文CP-SC可以在不引入模糊的情況下豐富訓(xùn)練樣本,有效緩解過擬合問題。作為一種基礎(chǔ)的單目3D圖像增強(qiáng)算法,它可適用于各種單目3D檢測(cè)算法。

圖9CP-SC原理Fig.9Schematic of CP-SC

2.6 損失函數(shù)

網(wǎng)絡(luò)的整體損失函數(shù)由二維損失 L2D 和三維損失 L3D 組成,其中二維損失包括熱力圖損失 Lhm 、2D 中心偏移損失 Loff2D )2D尺寸損失 Lsize2D ,三維損失包括深度損失 Ldepth 、3D尺寸損失Lsize3D 、角度損失 Lori,3D 中心偏移損失 Loff3D ,其中深度損失遵循GUPNet設(shè)計(jì)原則。

熱力圖損失遵循 CenterNet[22] 使用的聚焦損失函數(shù),其公式為

其中: Hxyc 是模型預(yù)測(cè)的熱力圖值; 是目標(biāo)熱力圖的值; α 和 β 是超參數(shù),常用值為 α=2,β=4;N 是目標(biāo)數(shù)量的歸一化系數(shù)。

2D中心偏移和3D偏移采用L1平均絕對(duì)誤差,其中2D、3D中心偏移損失函數(shù)如式(12)(13)所示。

其中: 是模型預(yù)測(cè)的第 i 個(gè)樣本的2D、3D 偏移; oi2D?oi3D

是真實(shí)的2D、3D偏移; N 是樣本數(shù)。

2D尺寸損失函數(shù) Lsize2D 是寬度和高度損失的組合,3D尺寸損失函數(shù) Lsize3D 是寬度、長(zhǎng)度和高度的損失的組合,都使用標(biāo)準(zhǔn)的L1損失函數(shù),計(jì)算公式如下。

角度損失 Lori 采用Multi-Bin方法[22],其將角度區(qū)間劃分為12個(gè)重疊的格子。每個(gè)格子的寬度 Δθ 為 2π/n ,其中 n 是格子的數(shù)量。對(duì)于每個(gè)格子,模型預(yù)測(cè)目標(biāo)屬于該格子的概率Ci 并使用交叉熵?fù)p失來衡量預(yù)測(cè)值 Ci 和真實(shí)標(biāo)簽 之間的差異,如式(16所示。

在每個(gè)格子內(nèi),模型還預(yù)測(cè)該格子的殘差角度 αi 用于修正朝向角,取值為[-0.5,0.5],殘差角使用L1損失計(jì)算,完整計(jì)算流程如式(17)(18)所示。

θ=θii×Δθ

其中: θi 是格子的中心角度; αi 是真實(shí)的殘差角度。最終的損失函數(shù)是分類損失和殘差角度回歸損失的組合。

Lori=Lorires+Loricls

最終的損失函數(shù)由二維損失函數(shù)和受SLSS模塊監(jiān)督的三維損失函數(shù)結(jié)合得到,完整損失公式如下。

L=Lhm+Loff2D+Lsize2D+Ssample(Ldepth+Lsize3D+Loff3D+Lori

3實(shí)驗(yàn)

3.1數(shù)據(jù)集

為了證明本文算法的有效性,實(shí)驗(yàn)在KITTI3D開放數(shù)據(jù)集上進(jìn)行測(cè)試和驗(yàn)證。該數(shù)據(jù)集包含7481張訓(xùn)練圖像和7518張測(cè)試圖像。由于測(cè)試圖像的標(biāo)注未公開獲取,本文將7481張訓(xùn)練圖像進(jìn)一步劃分為3712張訓(xùn)練集和3769張驗(yàn)證集。每個(gè)類別根據(jù)2D高度、截?cái)嗪驼趽醭潭龋M(jìn)一步細(xì)分為簡(jiǎn)單(easy)、中等(moderate)和困難(hard)三種難度。

3.2實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置

測(cè)試平臺(tái)硬件配置,CPU為i5-12700,內(nèi)存為32GB,GPU為 RTX4070 12GB 。軟件配置為Ubuntu20操作系統(tǒng),以Py-thon3.8編寫算法,使用深度學(xué)習(xí)框架PyTorch2.1,CUDA版本為12.1,并使用CuDNN加速技術(shù)。輸入圖像的分辨率設(shè)置為 375×1245 。訓(xùn)練batchsize設(shè)置為16,訓(xùn)練200個(gè)周期。優(yōu)化器配置為Adam,初始學(xué)習(xí)率為0.001,權(quán)重衰減系數(shù)為0.00001,學(xué)習(xí)率調(diào)度器中使用預(yù)熱設(shè)置,前20個(gè)epoch中學(xué)習(xí)率將從一個(gè)較小的值逐漸增加到設(shè)定的初始學(xué)習(xí)率,學(xué)習(xí)率衰減率配置為0.1。

3.3對(duì)比實(shí)驗(yàn)

在KITTI數(shù)據(jù)集上,對(duì)比本文算法與目前主流算法在汽車類別上的3D目標(biāo)檢測(cè)性能。結(jié)果如表1所示,本文算法在簡(jiǎn)單、中等、困難這三個(gè)級(jí)別上 精度分別達(dá)到了26. 28% 、 18.83% 和 16.64% ,在簡(jiǎn)單和中等級(jí)別上 APBEV 精度分別達(dá)到了 34.73% 和 25.84% ,優(yōu)于目前主流算法。與基準(zhǔn)模型GUPNet相比,在 AP3D(IoU=0.7 三個(gè)不同難度指標(biāo)上提升了3.52、2.42、2.92百分點(diǎn),在三個(gè)不同難度 0.7)指標(biāo)上領(lǐng)先基準(zhǔn)模型 3.66,2.90,1.57 百分點(diǎn)。與目前達(dá)到SOTA的CMKD方法相比,在不借助額外數(shù)據(jù)集的情況下,在 AP3D(IoU=0.7; 指標(biāo)的簡(jiǎn)單、中等、困難級(jí)別上分別領(lǐng)先1.19、1.85和1.34百分點(diǎn),在 APBEV 指標(biāo)的簡(jiǎn)單、中等級(jí)別上分別領(lǐng)先1.08、2.74百分點(diǎn),在困難級(jí)別上 APBEV 、 AP3D 與CMKD 相當(dāng)。

表1不同算法在KITTI數(shù)據(jù)集上的測(cè)試結(jié)果

Tab.1Test results of different algorithms on KITTI datase

改進(jìn)算法和基準(zhǔn)算法在 精度上的簡(jiǎn)單、中等、困難precision-recall曲線如圖10所示,其中實(shí)線是基準(zhǔn)效果,虛線為本文算法效果。本文算法的曲線有著更大的橫縱軸覆蓋面積,說明其在所有的檢測(cè)精度上有著最高的查準(zhǔn)率和查全率。

圖10本文算法和基準(zhǔn)算法在 AP3D 精度上的 precision-recall曲線Fig.1OPrecision-recall curve of the improved algorithmandthe baseline algorithm in AP3D (204號(hào)

為了測(cè)試模型在復(fù)雜場(chǎng)景下的檢測(cè)能力,表2是基礎(chǔ)算法與本文算法在大規(guī)模nuScenes數(shù)據(jù)集上的檢測(cè)效果。由結(jié)果可知,本文算法與基礎(chǔ)算法相比,在 mAP 上領(lǐng)先2.2百分點(diǎn),在mATE和mASE指標(biāo)上降低0.021和0.019,展現(xiàn)了本文算法的有效性。

表2基礎(chǔ)算法與本文算法在nuScenes測(cè)試集上表現(xiàn)結(jié)果 Tab.2Performanceresultsofthebaselinealgorithmand the proposed algorithm on thenuScenes test set

3.4消融實(shí)驗(yàn)結(jié)果和分析

本文采用了多個(gè)模塊來改進(jìn)基礎(chǔ)模型,本節(jié)通過設(shè)計(jì)幾組消融實(shí)驗(yàn),驗(yàn)證不同模塊對(duì)實(shí)驗(yàn)效果的影響。對(duì)比基準(zhǔn)網(wǎng)絡(luò)與CP-SC、CA、EE-MTD、SLRS的不同組合在KITTI數(shù)據(jù)集上的3D目標(biāo)檢測(cè)性能,選擇 AP3D?APBEV 作為評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)結(jié)果如表3所示。

Tab.3 Ablation experiments on the KITTI dataset

分析表3可得,當(dāng)基礎(chǔ)模型單獨(dú)與EF-MTD模塊組合使用時(shí),檢測(cè)精度有略微下降,分析其原因?yàn)閱为?dú)對(duì)邊緣的特征增強(qiáng)影響了模型對(duì)全局特征的學(xué)習(xí)。單獨(dú)使用坐標(biāo)注意力模塊,模型精度有一定上升。當(dāng)坐標(biāo)注意力模塊與EF-MTD組合使用時(shí)精度高于兩種單獨(dú)使用,分析其原因?yàn)樽鴺?biāo)注意力模塊彌補(bǔ)了EF-MTD對(duì)全局信息的丟失,同時(shí)兩種組合可以提高對(duì)邊緣的檢測(cè)能力。單獨(dú)使用SLRS模塊時(shí),模型精度有顯著下降,而SLRS與CP-SC組合使用時(shí),檢測(cè)效果高于兩種單獨(dú)使用。其原因?yàn)镾LRS模塊對(duì)原有數(shù)據(jù)集進(jìn)行了篩選和縮減,這可能導(dǎo)致模型在訓(xùn)練過程中出現(xiàn)過擬合,而CP-SC模塊則通過擴(kuò)展數(shù)據(jù)集,顯著增加了RoI的多樣性,從而降低了過擬合的風(fēng)險(xiǎn)。最終同時(shí)使用EF-MTD、CA、SLRS、CP-SC時(shí)實(shí)驗(yàn)效果最好。

表5不同3D任務(wù)在SLRS模塊中的貢獻(xiàn)Tab.5Contributionof different 3DtasksintheSLRS module

為了測(cè)試EF-MTD和CA模塊對(duì)邊緣檢測(cè)精度的影響,設(shè)計(jì)了以下實(shí)驗(yàn),比較了基準(zhǔn)模型與CA模塊、EF-MTDM模塊不同組合的效果,以評(píng)估它們對(duì)邊緣檢測(cè)性能的影響。檢測(cè)結(jié)果如表4所示。由表4可得,當(dāng)基準(zhǔn)模型單獨(dú)與CA模塊組合使用時(shí)會(huì)降低對(duì)邊緣截?cái)鄻颖镜臋z測(cè)精度。當(dāng)基準(zhǔn)模型單獨(dú)與EE-MTD組合使用時(shí)對(duì)邊緣檢測(cè)最佳,但根據(jù)表3,單獨(dú)使用EE-MTD會(huì)降低整體檢測(cè)精度,所以本文選擇將CA與EE-MTD 模塊組合使用。

表4KITTI數(shù)據(jù)集上不同模塊組合對(duì)邊緣截?cái)嗄繕?biāo)檢測(cè)的對(duì)比Tab.4Comparison of edge truncation target detection performance withdifferentmodulecombinationsontheKITTIdataset

在KITTI數(shù)據(jù)集合上,測(cè)試自學(xué)習(xí)區(qū)域選擇模塊中不同任務(wù)分量(深度、尺寸、角度)的貢獻(xiàn)程度,及不同組合使用對(duì)最終結(jié)果的影響。在 AP3D?APBEV 指標(biāo)上的實(shí)驗(yàn)結(jié)果如表5所示。實(shí)驗(yàn)訓(xùn)練使用預(yù)熱策略,且同時(shí)使用了CP-SC、CA-EF模塊。通過實(shí)驗(yàn)可知,當(dāng)SLRS模塊單獨(dú)作用于 Lsize3D 和 Lori 時(shí)并未給模型帶來積極影響。當(dāng) Lsize3D?Lori 和 Ldepth 組合使用時(shí)模型精度顯著提高。這是因?yàn)樵趩文?D檢測(cè)中,深度估計(jì)誤差是最關(guān)鍵的限制因素,這一觀點(diǎn)已經(jīng)在MonoDLE[18]、MonoDepth[30]等方法中被論證。

在離群區(qū)域剔除模塊(AORE)中 β 數(shù)值常設(shè)置[20]為1、1.5或者3,為了驗(yàn)證不同設(shè)置對(duì)結(jié)果的影響,在 AP3D 指標(biāo)上的實(shí)驗(yàn)結(jié)果如表6所示。

由表6可得,對(duì)于AORE模塊,將 β 設(shè)置為1.5時(shí)精度最高。分析其原因?yàn)椋^低的 β 會(huì)過度剔除極端值,降低模型的泛化能力,過高的 β 會(huì)遺漏極端數(shù)值,同樣不利于模型的訓(xùn)練。

表6AORE模塊中不同 β 數(shù)值對(duì)檢測(cè)結(jié)果的影響

Tab.6Impactofdifferent β intheAORE module on detection results/%

3.5 可視化分析

為更直觀地展示本文算法相較于基準(zhǔn)模型GUPNet的優(yōu)勢(shì),在不同場(chǎng)景下對(duì)比了相機(jī)視角和BEV視角的檢測(cè)效果,如圖11所示。圖中每列分別展示了同一場(chǎng)景下本文算法和GUPNet的檢測(cè)結(jié)果,以及真實(shí)點(diǎn)云圖。在BEV視圖中,藍(lán)色框代表真實(shí)目標(biāo),紅色框表示預(yù)測(cè)框,綠色圈表示截?cái)嗄繕?biāo)(見電子版)。通過對(duì)比不同方法的預(yù)測(cè)結(jié)果與真實(shí)目標(biāo),本文方法在近距離目標(biāo)檢測(cè)上與基準(zhǔn)方法表現(xiàn)相當(dāng),但在遠(yuǎn)距離目標(biāo)檢測(cè)中展現(xiàn)出更高的精確度。此外,對(duì)于圖像邊緣截?cái)嗄繕?biāo)的檢測(cè),本文算法顯示出更優(yōu)越的性能。圖12展示了本文算法在檢測(cè)行人和自行車目標(biāo)時(shí)的表現(xiàn)。對(duì)于近距離且遮擋不嚴(yán)重的目標(biāo),本文算法依然展現(xiàn)了良好的檢測(cè)效果。同時(shí),對(duì)于距離約 20m 的遮擋不嚴(yán)重的小型目標(biāo),本文算法也顯示出了一定的檢測(cè)準(zhǔn)確性。

4結(jié)束語(yǔ)

本文指出單目3D目標(biāo)檢測(cè)模型的訓(xùn)練過程中存在RoI區(qū)域選擇問題,針對(duì)此提出了SLRS模塊,通過學(xué)習(xí)自適應(yīng)選擇適合訓(xùn)練且包含有效3D屬性的RoI區(qū)域。此外,本文針對(duì)目前單目檢測(cè)算法邊緣區(qū)域檢測(cè)能力差的問題,提出了一種新的邊緣聚焦策略,使用模型更加關(guān)注截?cái)喑霈F(xiàn)的高頻區(qū)域,從而提高邊緣的檢測(cè)能力。同時(shí)本文還提出了一種新型的針對(duì)單目3D任務(wù)的數(shù)據(jù)增強(qiáng)方法,以提高目標(biāo)級(jí)樣本的多樣性。在KITTI和nuScenes上的大量實(shí)驗(yàn)驗(yàn)證了本文算法的有效性。同時(shí)其依舊存在一些不足,本文提出的邊緣聚焦策略依賴于概率分布建模的質(zhì)量,若實(shí)際數(shù)據(jù)分布與假設(shè)的正態(tài)或雙峰分布存在較大偏差,可能會(huì)影響掩碼權(quán)重的準(zhǔn)確性,后期將引入更加靈活的分布擬合方法。

圖11KITTI數(shù)據(jù)中本文算法與基準(zhǔn)模型測(cè)試效果對(duì)比

Fig.11Comparison of test results between the proposedalgorithmandthe baseline model on the KITTI dataset

圖12本文算法在行人和自行車目標(biāo)上的檢測(cè)效果

Fig.12Detection performance of theproposed algorithm on pedestrianand bicycle targets

參考文獻(xiàn):

[1] 何鴻添,陳晗,劉洋,等.面向多模態(tài)交互式融合與漸進(jìn)式優(yōu)化 的三維視覺理解[J].計(jì)算機(jī)應(yīng)用研究,2024,41(5):1554- 1561.(HeHongtian,ChenHan,LiuYang,etal.3Dvisual understandingorientedtowardsmultimodal interactive fusionandprogressiverefinement[J].ApplicationResearchofComputers,2024, 41(5):1554-1561.)

[2] MingYue,MengXuyang,F(xiàn)anChunxiao,etal.Deeplearningfor monocular depth estimation:a review[J].Neurocomputing, 2021,438:14-33.

[3] 熊煒,童磊,金靖熠,等.基于卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)義分割算法研 究[J].計(jì)算機(jī)應(yīng)用研究,2021,38(4):1261-1264.(Xiong Wei,TongLei,JinJingyi,et al.Research onsemantic segmentation algorithmbasedonconvolutionalneuralnetwork[J].Application ResearchofComputers,2021,38(4):1261-1264.)

[4] ZhangYunpeng,LuJiwen,ZhouJie.Objectsaredifferent:flexible monocular3DobjectdetectionC]//ProcofIEEE/CVFConference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:3289-3298.

[5] WangYan,ChaoWeilun,GargD,etal.Pseudo-LiDARfromvisual depth estimation:bridging the gap in 3D object detection for autonomousdriving[C]//Proc ofIEEE/CVF Conference on ComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2019: 8437-8445.

[6] GongYiping,Xiao Zhifeng,TanXiaowei,et al.Context-aware convolutional neural network for object detection in VHR remote sensing imagery[J].IEEE Trans on Geoscience and Remote Sensing,2020,58(1):34-44.

[7] HouQibin,Zhou Daquan,F(xiàn)eng Jiashi. Coordinate attention for efficientmobilenetwork design[C]//Procof IEEE/CVFConference onComputer Visionand Pattern Recognition.Piscataway,NJ:IEEE Press,2021:13708-13717.

[8] TungF,LittleJJ. MF3D:model-free 3D semantic sceneparsing [C]//Proc of IEEE International Conference on Robotics and Automation.Piscataway,NJ:IEEEPress,2017:4596-4603.

[9] Qin Zengyi,WangJinglu,Lu Yan.MonoGRNet:ageometricreasoningnetwork formonocular3Dobjectlocalization[C]//Procof AAAIConference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2019:8851-8858.

[10]Ma Xinzhu,Liu Shinan,Xia Zhiyi,etal.Rethinking pseudoLiDAR representation[M]//VedaldiA,Bischof H,Brox T,et al. Proc of European Conference on Computer Vision.Cham:Springer, 2020:311-327.

[11]You Yurong,Wang Yan,Chao Weilun,et al.Pseudo-LiDAR ++ accurate depth for 3D object detection in autonomous driving[EB/ OL].(2020-02-15).https://arxiv.org/abs/1906.06310.

[12]Peng Liang,Liu Fei,Yu Zhengxu,et al.LiDAR point cloud guided monocular 3Dobject detection[M]//Avidan S,BrostowG,Cissé M,et al.Computer Vision.Cham:Springer,2022:123-139.

[13]Cui Yaodong,Chen Ren,Chu Wenbo,et al.Deep learning for image and point cloud fusion inautonomous driving:areview[J].IEEE Trans on Intelligent Transportation Systems,2022,23(2): 722-739.

[14]Guo Ente,Chen Zhifeng,Rahardja S,et al.3D detection and pose estimation of vehicle in cooperative vehicle infrastructure system [J].IEEE Sensors Journal,2021,21(19):21759-21771.

[15]Wu Di,Duan Ran,Geng Fang,et al.Comparative analysis of the interaction of mono-,dis-,and tris-azo food dyes with egg white lysozyme:a combined spectroscopic and computational simulation approach[J]. Food Chemistry,2019,284:180-187.

[16]LiPeixuan,Zhao Huaici,Liu Pengfei,etal.RTM3D:real-time monocular 3D detection from object keypoints for autonomous driving [C]//Proc of European Conference on Computer Vision. Cham: Springer,2020: 644-660.

[17]Liu Zechen,Wu Zizhang,Toth R. SMOKE:single-stage monocular 3Dobject detectionvia keypoint estimation[C]//Proc of IEEE/ CVF Conference on Computer Vision and Pattern Recognition Workshops.Piscataway,NJ:IEEE Press,2020:4289-4298.

[18]Lu Yan,Ma Xinzhu,Yang Lei,et al. Geometry uncertainty projection network for monocular 3D object detection[C]//Proc of IEEE/ CVF International Conference on Computer Vision.Piscataway,NJ: IEEE Press,2021:3091-3101.

[19]Remez T,Huang J,Brown M. Learning to segment via cut-and-paste [C]//Proc of the 15th European Conference on Computer Vision. Cham:Springer,2018:39-54.

[20]Wu Zizhang,Gan Yuanzhu,Wang Lei,et al.MonoPGC:monocular 3Dobject detectionwith pixel geometrycontexts[C]//Procof IEEE International Conference on Robotics and Automation. Piscataway,NJ:IEEEPress,2023:4842-4849.

[21]Gong Tao,Chen Kai,Wang Xinjiang,et al.Temporal RoI align for videoobjectrecognition[C]//ProcofAAAIConferenceon Artificial Intelligence.Palo Alto,CA:AAAIPress,2021:1442-1450.

[22]HeKaiming,GkioxariG,DollarP,eta.MaskR-CNN[C]//Proc of IEEE International Conference on Computer Vision.Piscataway, NJ:IEEEPress,2017:2961-2969.

[23]WangCY,Lu Yuding,Yang Shangta,et al.PatchNet:a simple faceanti-spoofing framework via fine-grained patch recognition [C]//Proc of IEEE/CVF Conference on Computer Vision and PatternRecognition.Piscataway,NJ:IEEE Press,2022:20249- 20258.

[24]ReadingC,HarakehA,ChaeJulia,etal.Categorical depthdistribution network for monocular 3D object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2021:8555-8564.

[25]Wang Zhongze,Zhao Haitao,Yao Lujian,etal.DFR-Net:density feature refinement network for image dehazing utilizing haze density difference[J].IEEE TransonMultimedia,2024,26:7673- 7686.

[26]Zhou Zheyuan,DuLiang,Ye Xiaoqing,et al.SGM3D:stereo guided monocular 3D object detection[J].IEEE Robotics and AutomationLetters,2022,7(4):10478-10485.

[27]GongYuan,Khurana S,Rouditchenko A,et al.CMKD:CNN/ Transformer-based cross-model knowledge distillation for audio classification[EB/OL].(2022-03-13).https://arxiv.org/abs/2203. 06760.

[28]Liu Xianpeng,XueNan,Wu Tianfu.Learning auxiliary monocular contextshelpsmonocular3Dobjectdetection[C]//Procof AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press, 2022:1810-1818.

[29]Li Zhuoling,Qu Zhan,Zhou Yang,et al.Diversity matters:fully exploiting depth clues for reliable monocular 3D object detection [C]//Proc of IEEE/CVF Conference on Computer Vision and PatternRecognition.Piscataway,NJ:IEEE Press,2022:2791-2800.

[30]Bauer Z,Li Zuoyue,Orts-Escolano S,et al.NVS-MonoDepth:improving monocular depth prediction with novel view synthesis [C]// Proc of International Conference on 3D Vision.Piscataway,NJ: IEEEPress,2021:848-858.

下期要目

? 單點(diǎn)登錄系統(tǒng)隱私保護(hù)研究進(jìn)展

? 面向電子商務(wù)的屬性值提取研究進(jìn)展

? 基于多任務(wù)聯(lián)合學(xué)習(xí)與自適應(yīng)融合的多模態(tài)情感分析模型

? 基于模態(tài)敏感注意力機(jī)制的多模態(tài)對(duì)話模型及應(yīng)用

? 基于語(yǔ)義增強(qiáng)與候選排序優(yōu)化的背景感知事件預(yù)測(cè)方法

? 一種基于行列式點(diǎn)過程的代理模型輔助多目標(biāo)進(jìn)化算法

? 考慮雙重更新的簡(jiǎn)約擴(kuò)展置信規(guī)則推理決策方法

? 主題結(jié)構(gòu)增強(qiáng)的大模型實(shí)體共指消解方法

? 基于時(shí)序圖神經(jīng)網(wǎng)絡(luò)的社會(huì)團(tuán)體發(fā)現(xiàn)

? 基于傳播特征強(qiáng)化學(xué)習(xí)的社交網(wǎng)絡(luò)信息傳播關(guān)鍵用戶發(fā)現(xiàn)方法

? 多維度損失函數(shù)下引導(dǎo)詞協(xié)同sinkhom的監(jiān)督式主題模型

? 基于知識(shí)圖譜構(gòu)建和實(shí)體校正的查詢重寫模型

? 查詢負(fù)載變化自適應(yīng)的數(shù)據(jù)庫(kù)索引推薦方法

? 通信約束下的多無人機(jī)路徑規(guī)劃與任務(wù)卸載策略

? 無人機(jī)自組織網(wǎng)絡(luò)中雙態(tài)自適應(yīng)的隨機(jī)雙Q學(xué)習(xí)路由算法

? 高效且平衡的多方PSI協(xié)議

? 基于CUDA和比特切片的SM4算法軟件優(yōu)化和實(shí)現(xiàn)

? 基于跨視角一致性的3D高斯濺射交互式分割方法

? 結(jié)合平面約束與Kolmogorov-Amold網(wǎng)絡(luò)的室內(nèi)場(chǎng)景三維重建方法

? 融合注意力的多殘差膨脹三維卷積紅外視頻行為識(shí)別

? 通道-空間多尺度增強(qiáng)與雙池化注意的表情識(shí)別網(wǎng)絡(luò)

? 基于改進(jìn)YOLOv11的焊縫缺陷高精度檢測(cè)方法

主站蜘蛛池模板: 国产精品久久自在自2021| 99热这里只有成人精品国产| 免费人成又黄又爽的视频网站| 亚洲久悠悠色悠在线播放| 青青久久91| 亚洲第一视频网| 五月婷婷丁香综合| 国产免费高清无需播放器| 婷婷久久综合九色综合88| 制服丝袜无码每日更新| 亚洲人成网站色7799在线播放| 2022精品国偷自产免费观看| 青青久视频| 香蕉视频在线观看www| 成人精品在线观看| 四虎国产永久在线观看| 色吊丝av中文字幕| 福利国产在线| 国产精品欧美在线观看| 欧美日韩另类在线| 在线观看亚洲天堂| 久久久久久国产精品mv| 99在线观看精品视频| 久久婷婷五月综合97色| 欧美成人综合在线| 久久无码免费束人妻| 国产精品永久不卡免费视频| 国产国模一区二区三区四区| 91精品啪在线观看国产91| 国产精品浪潮Av| 极品尤物av美乳在线观看| 亚洲精品777| 精品人妻一区二区三区蜜桃AⅤ| 香港一级毛片免费看| 亚洲天堂日韩在线| 亚洲区视频在线观看| 亚洲成人黄色在线| 国产成人h在线观看网站站| 日韩a级毛片| 91精品专区| 久久99精品久久久久纯品| 97国产一区二区精品久久呦| 亚洲精品制服丝袜二区| 亚洲精品成人7777在线观看| 亚洲三级成人| 日韩毛片免费| 亚洲AV成人一区二区三区AV| 久久永久免费人妻精品| 国产成人亚洲精品无码电影| 2020国产精品视频| 91丝袜美腿高跟国产极品老师| 激情综合网激情综合| 综合社区亚洲熟妇p| 97在线公开视频| 国产精品女同一区三区五区| 永久免费精品视频| 亚洲av无码片一区二区三区| 57pao国产成视频免费播放| 午夜国产在线观看| 国产成年无码AⅤ片在线 | 日本午夜精品一本在线观看| 影音先锋丝袜制服| 国产一级毛片在线| 亚洲AV色香蕉一区二区| 国产麻豆福利av在线播放 | 青草午夜精品视频在线观看| 99久久99视频| 在线一级毛片| 九色综合视频网| 亚洲天堂久久| 国产精品福利尤物youwu | 国内毛片视频| 国产人免费人成免费视频| 国产成人艳妇AA视频在线| 精品少妇三级亚洲| 国产日韩欧美视频| 国产在线91在线电影| 影音先锋亚洲无码| 国产91熟女高潮一区二区| 亚洲精品免费网站| 亚洲精品无码久久毛片波多野吉| 亚洲码在线中文在线观看|