










摘要:
應(yīng)用場景理解算法時(shí),現(xiàn)有多任務(wù)學(xué)習(xí)方法存在任務(wù)沖突。為此,提出了一種高精度布局估計(jì)模型(High Accuracy Layout Model,HALayout),并基于注意力機(jī)制設(shè)計(jì)了一種分支混合注意力模塊(Branch Hybrid Attention Module,BHAM)。利用分離融合結(jié)構(gòu)強(qiáng)化模型對(duì)不同特征的分辨能力,使算法能夠更好地處理特征之間的共性和差異性,提高模型的最終計(jì)算精度;使用Structured3D數(shù)據(jù)集測試HALayout性能,并設(shè)計(jì)消融實(shí)驗(yàn)驗(yàn)證BHAM網(wǎng)絡(luò)模塊有效性。與改進(jìn)之前算法相比,HALayout各項(xiàng)性能指標(biāo)均有提升,其中IoU指標(biāo)提升了2.71%,達(dá)到84.11%。
關(guān)鍵詞:布局估計(jì);注意力機(jī)制;計(jì)算機(jī)視覺;深度學(xué)習(xí)
中圖分類號(hào):TP391.4
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):10061037(2024)03006808
doi:10.3969/j.issn.10061037.2024.03.11
收稿日期:2024-02-25
基金項(xiàng)目:
山東省自然科學(xué)基金(批準(zhǔn)號(hào):ZR2021MF025)資助。
通信作者:
楊杰,男,副教授,主要研究方向?yàn)閳D像識(shí)別。E-mail: yangjie@qdu.edu.cn
布局估計(jì)任務(wù)是計(jì)算機(jī)視覺領(lǐng)域的一項(xiàng)重要研究內(nèi)容,研究場景中的墻角、邊線、平面如何表示布局,同時(shí)消除場景中的雜物。場景中的邊、線、面信息對(duì)智能系統(tǒng)的場景理解能力的提高非常關(guān)鍵,是眾多視覺任務(wù),如機(jī)器人智能導(dǎo)航、AR交互、場景重建等的重要基石。傳統(tǒng)布局估計(jì)算法需要設(shè)計(jì)手工特征,存在魯棒性及泛用性弱的問題[1]。基于深度學(xué)習(xí)模型提取場景中點(diǎn)、線、面特征信息的方法提高了布局估計(jì)算法整體的推理精度[2]。基于亞特蘭大世界假設(shè)[3]的一般化室內(nèi)布局研究[4]拓寬了布局估計(jì)任務(wù)的泛用能力,使模型可以滿足日常場景任務(wù)的需求。根據(jù)對(duì)場景布局計(jì)算時(shí)提取特征的不同,現(xiàn)有研究可分為基于平面特征推理、基于線段特征推理和基于多模態(tài)特征推理三類方法。基于平面特征推理的方法將布局的估計(jì)任務(wù)轉(zhuǎn)換為三維空間中平面參數(shù)的求解問題,通過模型計(jì)算場景中平面的法向量與偏置,投影出二維空間中的布局結(jié)果[5]。基于線段推理的方法主要提取場景中的線條要素,通過線框之間的關(guān)系,結(jié)合透視圖消失點(diǎn)不斷優(yōu)化布局結(jié)果[6]。基于多模態(tài)特征推理的方法常用多任務(wù)學(xué)習(xí)算法提取特征,并將不同特征之間的信息進(jìn)行融合,從而精確地調(diào)整布局結(jié)果[7]。現(xiàn)有的布局估計(jì)多任務(wù)學(xué)習(xí)算法存在明顯問題,即不同任務(wù)從同一個(gè)共享特征空間中提取信息,沒有注意到不同任務(wù)的差異性,導(dǎo)致模型參數(shù)更新時(shí)出現(xiàn)梯度沖突,影響模型訓(xùn)練質(zhì)量[8]。為此,本文基于多任務(wù)學(xué)習(xí)算法提出了一種高精度布局估計(jì)模型(High Accuracy Layout Model,HALayout),利用注意力機(jī)制設(shè)計(jì)了一種分支混合注意力模塊(Branch Hybrid Attention Module,BHAM),使模型可同時(shí)表征多模態(tài)特征之間的共性和差異性,促使不同的任務(wù)更加關(guān)注自身所需要的特征,從而提升模型整體的計(jì)算精度。
1" 多任務(wù)學(xué)習(xí)布局估計(jì)算法問題分析
圖1中,骨干網(wǎng)絡(luò)為高分辨率網(wǎng)絡(luò)(High Resolution Network,HRNet)[9],不同的任務(wù)頭用于學(xué)習(xí)不同的特征,如平面中心、大小、參數(shù),線段位置、參數(shù)等。
算法主要完成了平面、線段目標(biāo)檢測和參數(shù)回歸兩大類任務(wù),即給定一張輸入圖像,利用HRNet將其處理為金字塔特征,每層特征圖大小逐級(jí)縮小,而特征維度逐級(jí)增大。HRNet網(wǎng)絡(luò)輸出的4張?zhí)卣鲌D維度分別為{32,64,128,256},對(duì)應(yīng)的特征圖尺寸分別為輸入圖像的{1/4,1/8,1/16,1/32}。隨后通過線性插值的方式將4張?zhí)卣鲌D大小統(tǒng)一,在維度方向上拼接為一個(gè)特征,通過卷積融合多尺度信息,維度降為256,形成一個(gè)融合的共享特征空間。最后,根據(jù)不同任務(wù)頭的需要,使用不同卷積頭從共享的圖像特征空間中提取相關(guān)任務(wù)所需要的特征,完成特征檢測過程。
根據(jù)算法流程分析可知,模型的特征提取過程設(shè)計(jì)較為粗糙,不利于后續(xù)算法的處理,對(duì)最終的計(jì)算結(jié)果造成損害。為了對(duì)不同特征進(jìn)行區(qū)分,使用t分布式隨機(jī)鄰居嵌入(t-distributed Stochastic Neighbor Embedding,t-SNE)[10]非線性降維算法,將不同特征提取模塊的高維特征信息降維至二維。通過觀察降維后特征在二維空間的位置分布,判別兩類任務(wù)之間的聯(lián)系與區(qū)別,結(jié)果見圖2。平面類網(wǎng)絡(luò)與線段類網(wǎng)絡(luò)提取的特征,在降維后的二維空間上存在著明顯的分離界限,而類間的分布則相對(duì)緊密。這說明在網(wǎng)絡(luò)訓(xùn)練過程中,平面相關(guān)的網(wǎng)絡(luò)和線段相關(guān)的網(wǎng)絡(luò)之間的梯度更新并不同步,因此當(dāng)兩類任務(wù)從相同的全局特征空間提取特征時(shí),任務(wù)之間的固有沖突會(huì)對(duì)模型性能造成損害[8]。
2" 高精度布局估計(jì)模型(HALayout)
2.1" HALayout總體框架
HALayout網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,除骨干網(wǎng)絡(luò)HRNet和多任務(wù)學(xué)習(xí)部分,還包括特征融合網(wǎng)絡(luò)、分支混合注意力網(wǎng)絡(luò)。網(wǎng)絡(luò)提取特征后,模型檢測到的平面與線段會(huì)執(zhí)行空間推理的后處理算法[7]。模型的改進(jìn)主要集中在對(duì)HRNet網(wǎng)絡(luò)提取特征的融合過程以及對(duì)金字塔特征拼接融合后形成的新的特征空間的處理過程。模型改進(jìn)后,特征的融合過程變?yōu)橄韧ㄟ^卷積將特征維度降至{32,32,64,128},再進(jìn)行上采樣拼接的形式完成融合。融合后的特征通過分支混合注意力網(wǎng)絡(luò)區(qū)分為新的平面特征空間和線段特征空間,再由不同的卷積任務(wù)頭去各自的特征空間中提取特征。
2.2" 改進(jìn)特征融合網(wǎng)絡(luò)
將不同尺度的特征縮放拼接處理是一種常用的特征融合方式,但在處理小尺寸大感受野的特征時(shí)存在較大的信息破壞性,難以滿足對(duì)復(fù)雜空間布局估計(jì)的要求。因此,本文設(shè)計(jì)了一種更加完善的特征融合策略。首先,使用1×1卷積減小HRNet輸出的3種小尺寸特征的維度,以精煉特征并提取更高層次的語義信息;然后,將其上采樣到統(tǒng)一尺度進(jìn)行拼接,具體為,使用3×3的卷積核融合拼接特征,保證融合前后維度相同與特征對(duì)齊,減小了運(yùn)算量[11]。最后,為了防止模型訓(xùn)練過程中產(chǎn)生過擬合,引入批歸一化和Relu激活函數(shù)。在上采樣前加入的卷積操作將固定采樣操作替換為自適應(yīng)采樣操作,可以更好地保留小尺寸大感受野的特征信息。
2.3" 分支混合注意力模塊(BHAM)
為了將平面和線段這兩種沖突特征從共享特征空間中分離,設(shè)計(jì)分支混合注意力模塊(BHAM),構(gòu)建可學(xué)習(xí)的通道和空間注意力參數(shù)層,使模型能夠根據(jù)不同的輸入,計(jì)算出對(duì)應(yīng)特征的加權(quán)系數(shù),達(dá)到對(duì)兩類任務(wù)所關(guān)注的通道特征和空間特征進(jìn)行動(dòng)態(tài)篩選的目的。網(wǎng)絡(luò)結(jié)構(gòu)總體由通道注意力和空間注意力兩部分組成,二者內(nèi)部均有兩條并行的特征流,一條處理平面特征,另一條處理線段特征,由此構(gòu)成分支混合結(jié)構(gòu)。網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,其中,特征塊的深淺表示經(jīng)過注意力機(jī)制處理后,網(wǎng)絡(luò)對(duì)各個(gè)維度或空間位置關(guān)注程度的差異。兩個(gè)模塊的內(nèi)部結(jié)構(gòu)可分為分離、融合、增強(qiáng)3部分,輸出結(jié)果為經(jīng)過注意力機(jī)制處理的平面特征和線段特征。
2.3.1" 分支通道注意力" 通道注意力中,分離部分使用卷積注意力模塊(Convolutional Block Attention Module,CBAM)[12]中的通道注意力模塊(Channel Attention Module,CAM)計(jì)算不同的加權(quán)系數(shù),將全局特征在維度上解耦為兩種局部特征,降低模型訓(xùn)練過程中任務(wù)沖突性對(duì)模型性能的損害;針對(duì)融合部分,將兩類特征交叉拼接,使用分組卷積操作計(jì)算兩類特征維度上的差異,以促進(jìn)兩類任務(wù)之間的信息交流。防止全局特征解耦導(dǎo)致的兩類任務(wù)無法學(xué)習(xí)不同噪聲模式,提高模型的魯棒性以及抗過擬合能力;針對(duì)增強(qiáng)部分,對(duì)特征進(jìn)行更加精細(xì)化的處理,通過CAM將融合部分計(jì)算的兩類特征差異提取為每一維度上的調(diào)整系數(shù),將調(diào)整系數(shù)和分離部分CAM計(jì)算出的加權(quán)系數(shù)輸入至全連接層中進(jìn)行全局調(diào)整,對(duì)計(jì)算結(jié)果sigmoid歸一化得到最終的加權(quán)系數(shù)。分支通道注意力部分的網(wǎng)絡(luò)結(jié)構(gòu)見圖5。
2.3.2" 分支空間注意力" 空間注意力的總體設(shè)計(jì)思想與通道注意力類似,分離部分的輸入是通道注意力部分的輸出。在處理平面特征的空間關(guān)注程度時(shí)使用CBAM中的空間注意力模塊(Spatial Attention Module,SAM)。由于線段特征提取的是相鄰平面的垂直交線,處理時(shí),只需計(jì)算水平方向關(guān)注程度的差異,為此,設(shè)計(jì)水平注意力(Spatial Attention of Horizontal,SAH)模塊;融合部分采用特征圖直接相加而不進(jìn)行卷積的操作,保證融合后的特征能夠保留二者原始的空間關(guān)注度信息;增強(qiáng)部分將融合前后的SAM,SAH模塊調(diào)整系數(shù)用1×1卷積進(jìn)行全局調(diào)整,作為最終的加權(quán)系數(shù)。分支空間注意力網(wǎng)絡(luò)結(jié)構(gòu)見圖6(a)。
2.3.3" SAH模塊" SAH模塊的設(shè)計(jì)思想?yún)⒖剂藟嚎s激發(fā)模塊(Squeeze and Excitation,SE)[13],將通道方向的壓縮與激發(fā)轉(zhuǎn)化為特征圖水平方向的壓縮與激發(fā),以達(dá)到計(jì)算模塊對(duì)輸入水平方向注意力的作用(圖6(b))。計(jì)算過程為
zwcw=1H∑0≤jlt;Hxcj,w(1)
f=RELUBNF1Avgzw(2)
v=δBNF2f(3)
其中,xc表示第c個(gè)通道處的特征,zwcw表示壓縮后水平方向w處的第c個(gè)通道的輸出,H為輸入特征圖高度,Avg為全局平均池化操作,F(xiàn)為卷積操作,f是經(jīng)過壓縮比r壓縮后的特征信息,壓縮后的特征圖通道數(shù)、高、寬分別為C/r、1、W,BN為批歸一化處理,RELU為relu激活函數(shù),δ是Sigmoid激活函數(shù),v是經(jīng)過激發(fā)和激活函數(shù)處理的最終輸出。
(a)分支空間注意力模塊結(jié)構(gòu);(b)SAH模塊結(jié)構(gòu)
由于圖像中存在多條墻面垂直交線,設(shè)計(jì)SAH模塊時(shí)所有維度的關(guān)注程度并不相同,不同維度各計(jì)算一組水平方向注意力系數(shù),把對(duì)不同水平位置的關(guān)注度計(jì)算擴(kuò)展至維度方向,以最大程度確保模型對(duì)水平方向關(guān)注程度的正確估計(jì)。
2.3.4" 損失函數(shù)" 由于分類任務(wù)正負(fù)樣本數(shù)量級(jí)差別過大,且前景背景難易度不同,故使用Focal Loss[14]均衡正負(fù)和難易樣本。在原函數(shù)的基礎(chǔ)上進(jìn)行修改,將類別分為正類、負(fù)類和潛在正類。引入數(shù)量調(diào)節(jié)因子,降低易分樣本的權(quán)重,讓模型更加關(guān)注正類以及正類周圍的難分點(diǎn)。更改后損失函數(shù)
Loss=-α1-pγln pg=1
-1-αpγln1-pg=0
-αpγ(1-g)βln1-potherwise(4)
其中,α是數(shù)量調(diào)節(jié)因子,p是預(yù)測值,g是真值,γ是難易度因子,β是控制潛在正類重要程度的因子。更改后的損失函數(shù)提升了模型訓(xùn)練時(shí)的收斂速度和穩(wěn)定性。其余回歸任務(wù)使用L1和Smooth L1損失函數(shù)。
2.4" 評(píng)價(jià)指標(biāo)
對(duì)模型進(jìn)行定量評(píng)估時(shí)使用4種評(píng)價(jià)指標(biāo):像素誤差(Pixel Error,PE)用于衡量預(yù)測錯(cuò)誤的表面標(biāo)簽占總圖像像素的百分比大小;邊沿誤差(Edge Error,EE)和交并比(Intersection over Union,IoU)分別衡量預(yù)測分割多邊形和真實(shí)標(biāo)注多邊形之間的對(duì)稱倒角距離與總體交并比;均方根誤差(Root Mean Square Error,RMSE)用于逐像素計(jì)算預(yù)測深度與真實(shí)深度之間的均方根誤差
PE=1N∑Ni=1Sgn(Si≠i)(5)
EE=1∑∈minb∈B‖b-‖2+1M∑b∈Bmin∈‖b-‖2(6)
IoU=2+M∑(b,)∈TIoUmb,(7)
RMSE=1N∑Ni=1di-i(8)
其中,N為輸入圖像的像素點(diǎn)總數(shù),S是真實(shí)表面標(biāo)簽,是預(yù)測的表面標(biāo)簽,Sgn是符號(hào)函數(shù),當(dāng)預(yù)測值與真實(shí)值不一致時(shí)為1;B是真實(shí)標(biāo)注的多邊形集合,b是屬于B的一個(gè)點(diǎn)集,M是b的個(gè)數(shù);是預(yù)測的多邊形集合,是屬于的一個(gè)點(diǎn)集,是的個(gè)數(shù);T是通過預(yù)匹配得到的與B之間一一對(duì)應(yīng)的關(guān)系;IoUm用于計(jì)算兩個(gè)多邊形之間的交并比;d為真實(shí)深度值,為預(yù)測深度值。
3" 實(shí)驗(yàn)結(jié)果
訓(xùn)練環(huán)境為ubuntu 20.04,使用PyTorch搭建基本網(wǎng)絡(luò),結(jié)合PyTorch-lightning簡化訓(xùn)練步驟。訓(xùn)練時(shí)使用顯存為48 G,批大小為32,訓(xùn)練中使用隨機(jī)顏色抖動(dòng)和隨機(jī)水平翻轉(zhuǎn)增強(qiáng)訓(xùn)練數(shù)據(jù)。在Structured3D數(shù)據(jù)集[15]上訓(xùn)練50代,使用Adam優(yōu)化器,初始學(xué)習(xí)率為0.000 1,權(quán)重衰減0.000 5,在第30代和40代學(xué)習(xí)率衰減10倍。訓(xùn)練時(shí)SAH模塊的壓縮比r=16,焦點(diǎn)損失函數(shù)的β=2,γ=4,α=0.3。
3.1" Structured3D數(shù)據(jù)集測試結(jié)果
訓(xùn)練在數(shù)據(jù)集中2 676個(gè)場景共60 954張圖片進(jìn)行,驗(yàn)證時(shí)使用244個(gè)場景共6 573張圖片,最終的性能測試在250個(gè)場景共6 279張圖片開展,其中w/o表示不執(zhí)行后處理過程中的優(yōu)化算法,w/表示執(zhí)行后處理過程中的優(yōu)化算法(表1)。
分析表1數(shù)據(jù),HALayout在各項(xiàng)指標(biāo)中的表現(xiàn)都顯著提高。執(zhí)行優(yōu)化算法時(shí),IoU從81.4%提升到84.11%,PE從5.87%提升到4.70%,EE從5.78提升到4.66,RMSE從0.290 5提升到0.269 1。值得注意的是,即使不使用優(yōu)化算法,HALayout在4項(xiàng)評(píng)價(jià)指標(biāo)上的表現(xiàn)也優(yōu)于執(zhí)行優(yōu)化算法前的原始模型。實(shí)驗(yàn)結(jié)果表明模型提取特征的能力得到了顯著提升,驗(yàn)證了HALayout的有效性。
3.2" 可視化結(jié)果
在Structured3D數(shù)據(jù)集的測試集中抽取部分進(jìn)行可視化結(jié)果輸出,圖7展示了在數(shù)據(jù)集的測試集中HALayout輸出結(jié)果和文獻(xiàn)[7]模型結(jié)果的可視化對(duì)比,其中文獻(xiàn)[7]的結(jié)果是使用其提供的模型計(jì)算得到。不同于文獻(xiàn)[7]的錯(cuò)誤預(yù)測,HALayout輸出了正確的預(yù)測結(jié)果,說明所作改進(jìn)有助于提高模型的性能。
為分析BHAM的有效性,提取模塊處理后的兩路分支特征結(jié)果,從中篩選出兩類任務(wù)關(guān)注度高的維度特征信息形成熱圖,可視化結(jié)果見圖8。在平面相關(guān)任務(wù)中,加權(quán)系數(shù)高的維度關(guān)注的信息呈現(xiàn)為大片平面,表明平面相關(guān)的任務(wù)更加關(guān)注圖像中的紋理和幾何屬性,這些特征對(duì)于正確檢測和定位平面對(duì)象至關(guān)重要。在線段相關(guān)的任務(wù)中,加權(quán)系數(shù)高的維度關(guān)注的信息呈現(xiàn)線形,表明線段任務(wù)更注重圖像中邊緣、連通性等特征,這些特征對(duì)于線段的準(zhǔn)確檢測和定位起著重要的作用,表明不同任務(wù)對(duì)不同類型的特征有不同的依賴性,而二者共同關(guān)注的特征具有多種信息互相交流的作用,防止單一任務(wù)進(jìn)行獨(dú)立學(xué)習(xí)。
3.3" 消融實(shí)驗(yàn)
消融實(shí)驗(yàn)用以驗(yàn)證BHAM算法在布局估計(jì)模型計(jì)算時(shí)起到的具體作用,所有消融實(shí)驗(yàn)在Structured3D數(shù)據(jù)集上進(jìn)行。首先分別實(shí)驗(yàn)增加改進(jìn)特征融合網(wǎng)絡(luò)、只有分離部分的分支混合注意力網(wǎng)絡(luò)以及完整分支混合注意力網(wǎng)絡(luò)的模型效果,結(jié)果見表2。可見,通過將融合網(wǎng)絡(luò)和BHAM的各部分逐模塊地加入到模型中,最終的精度逐漸提高,證明所提出的修改方法對(duì)布局估計(jì)的最終檢測結(jié)果均有促進(jìn)影響,將兩種沖突特征分離的提升效果尤其顯著,增強(qiáng)選擇模塊進(jìn)一步提高精度。
為了精細(xì)化驗(yàn)證分支混合注意力模型的性能,以僅增加融合模塊的網(wǎng)絡(luò)為基準(zhǔn),替換和逐步累加不同注意力模塊以觀察不同注意力模塊所起到的效果,結(jié)果見表3。
可以看出,不同的注意力模塊起到的效能大小不同,其中CAM+SAM+SAw的組合表現(xiàn)最優(yōu)。對(duì)比表3后兩行數(shù)據(jù)可知,使用所設(shè)計(jì)的SAw模塊處理線段特征的空間注意力,在最終性能上優(yōu)于SAM模塊,驗(yàn)證了垂直方向的關(guān)注信息對(duì)于線段特征來說是不必要且有害的,而SAH模塊規(guī)避了這部分損害。使用帶有捕獲遠(yuǎn)程依賴關(guān)系的CA模塊[16]來代替SAM和SAH,但性能表現(xiàn)并不突出。
4" 結(jié)論
相較于基本的多任務(wù)學(xué)習(xí)模型,HALayout的評(píng)估指標(biāo)均有提升,即通過BHAM的分離選擇操作,可以緩解多任務(wù)學(xué)習(xí)算法特征沖突問題對(duì)模型的影響,提高布局估計(jì)多任務(wù)學(xué)習(xí)算法的準(zhǔn)確性。當(dāng)多任務(wù)學(xué)習(xí)之間存在巨大差異時(shí),應(yīng)采取相應(yīng)措施將不同類型任務(wù)分開處理,避免網(wǎng)絡(luò)訓(xùn)練中不同特征之間互相影響而損害模型精度。后續(xù)工作考慮引入多模態(tài)學(xué)習(xí),使模型能夠從文本、音頻等各方面理解自身所學(xué)習(xí)到的特征含義,增加自身泛化性和魯棒性。
參考文獻(xiàn)
[1]HEDAU V, HOIEM D, FORSYTH D. Recovering the spatial layout of cluttered rooms[C]// IEEE International Conference on Computer Vision. Kyoto, 2009: 1849-1856.
[2]岳有軍, 張杰, 趙輝, 等. 基于改進(jìn)輕量網(wǎng)絡(luò)的實(shí)時(shí)室內(nèi)場景布局估計(jì)[J]. 激光與光電子學(xué)進(jìn)展. 2022, 59(18): 89-95.
[3]SCHINDLER G, DELLAERT F. Atlanta world: An expectation maximization framework for simultaneous low-level edge grouping and camera calibration in complex man-made environments[C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, 2004: 203-209.
[4]HOWARD-JENKINS H, LI S D, PRISACARIU V. Thinking outside the box:Generation of unconstrained 3D room layouts[C]// Asian Conference on Computer Vision. Perth, 2018: 432-448.
[5]STEKOVIC S, HAMPALI S, RAD M, et al. General 3D room layout from a single view by render-and-compare[C]// European Conference on Computer Vision. Glasgow, 2020: 187-203.
[6]GILLSJ D, FLOOD G, STRM K. Semantic room wireframe detection from a single view[C]// International Conference on Pattern Recognition. Montreal, 2022: 1886-1893.
[7]YANG C, ZHENG J, DAI X L, et al. Learning to reconstruct 3D non-cuboid room layout from a single RGB image[C]// IEEE Winter Conference on Applications of Computer Vision. Waikoloa, 2022: 235-244.
[8]MA J Q, ZHAO Z, YI X Y, et al. Modeling task relationships in multi-task learning with multi-gate mixture-of-experts[C]// International Conference on Knowledge Discovery amp; Data Mining. London, 2018: 1930-1939.
[9]SUN K, XIAO B, LIU D, et al. Deep high-resolution representation learning for human pose estimation[C]//IEEE Conference on Computer Vision and Pattern Recognition. Long Beach, 2019: 5686-5696.
[10] VAN DER MAATEN L, HINTON G. Visualizing data using t-sne[J]. Journal of Machine Learning Research, 2008, 9(86): 2579-2605.
[11] MA N, ZHANG X Y, ZHENG H T, et al. Shufflenet v2: Practical guidelines for efficient CNN architecture design[C]// European Conference on Computer Vision. Munich, 2018: 122-138.
[12] WOO S, PARK J, LEE J, et al. CBAM: Convolutional block attention module[C]// European Conference on Computer Vision. Munich, 2018: 3-19.
[13] HU J, SHEN L,ALBANIE S. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(8): 2011-2023.
[14] ZHOU X Y, WANG D Q, KRHENBHL P. Objects as points[DB/OL]. [2024-02-10]. https://arxiv.org/abs/1904.07850.
[15] ZHENG J, ZHANG J F, LI J, et al. Structured3D: A large photo-realistic dataset for structured 3D modeling[C]// European Conference on Computer Vision. Glasgow, 2020: 519-535.
[16] HOU Q B, ZHOU D Q, FENG J S, et al. Coordinate attention for efficient mobile network design[C]// IEEE Conference on Computer Vision and Pattern Recognition. Nashville, 2021: 13708-13717.
Layout Estimation" Model Based on Branching Hybrid Attention Mechanism
ZHANG Jing-xian1, YANG Jie1, ZHOU Meng-meng2, GUO Chuan-lei1
(1.College of Mechanical and Electrical Engineering, Qingdao University, Qingdao 266071, China;
2.Qingdao QCIT Technology Co., Ltd., Qingdao 266100, China)
Abstract:
In the application of scene understanding algorithms, current multi-task learning methods have the issue of task conflicts. Therefore, High Accuracy Layout Model (HALayout) and Branching Hybrid Attention Module (BHAM) based on attention mechanism were proposed to solve this problem. BHAM strengthens the model's discriminative ability towards different features by employing a structure of separation and fusion. It improves the model's ability to effectively manage both commonalities and differences among features to boost the overall computational accuracy. Performance testing of the HALayout was conducted using the Structured3D dataset, along with designed ablation experiments to validate the effectiveness of the BHAM. Compared to the previous algorithm, all performance metrics of the HALayout improved clearly, with the IoU metric increasing by 2.71% to reach 84.11%.
Keywords: layout estimation; attention mechanism; computer vision; deep learning
青島大學(xué)學(xué)報(bào)(自然科學(xué)版)2024年3期