999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種帶有注意力機(jī)制的大基線場(chǎng)景端到端單應(yīng)性估計(jì)方法

2024-12-03 00:00:00林佐江曹旭陳瑋白宇米博張學(xué)偉方浩
關(guān)鍵詞:監(jiān)督方法

文章編號(hào):1008-1542(2024)06-0669-14

摘" 要:

針對(duì)目前現(xiàn)有單應(yīng)性估計(jì)方法存在的精度不高、對(duì)大基線場(chǎng)景與運(yùn)動(dòng)模糊場(chǎng)景適應(yīng)性不強(qiáng)的問題,構(gòu)建了一種帶有注意力機(jī)制的大基線場(chǎng)景端到端單應(yīng)性估計(jì)方法,采用無監(jiān)督學(xué)習(xí)的方式進(jìn)行單應(yīng)性估計(jì)。首先,引入SE通道注意力模塊,構(gòu)建帶有注意力機(jī)制的單應(yīng)性回歸網(wǎng)絡(luò)層,獲得網(wǎng)絡(luò)對(duì)于圖像各通道間關(guān)聯(lián)性的學(xué)習(xí);其次,構(gòu)建基于掩膜與感知損失度量的二元無監(jiān)督損失方式,提高網(wǎng)絡(luò)感知域范圍以及網(wǎng)絡(luò)對(duì)于大基線場(chǎng)景的適應(yīng)性;最后,構(gòu)建Homo-COCO合成數(shù)據(jù)集,采用數(shù)據(jù)增強(qiáng)使得網(wǎng)絡(luò)模型對(duì)于光照變化與運(yùn)動(dòng)模糊具有一定的魯棒性,獲得更強(qiáng)的真實(shí)場(chǎng)景泛化能力。經(jīng)過充分的對(duì)比及消融實(shí)驗(yàn)表明,該方法在精度指標(biāo)與場(chǎng)景適應(yīng)性方面優(yōu)于現(xiàn)有方法,具有良好的準(zhǔn)確性與適應(yīng)性。本方法可以有效估計(jì)圖像單應(yīng)性,為圖像拼接、圖像校正等計(jì)算機(jī)視覺后續(xù)任務(wù)提供準(zhǔn)確參數(shù)估計(jì)。

關(guān)鍵詞:

計(jì)算機(jī)圖像處理;單應(yīng)性估計(jì);無監(jiān)督學(xué)習(xí);注意力機(jī)制;數(shù)據(jù)增強(qiáng);深度學(xué)習(xí)

中圖分類號(hào):TP391

文獻(xiàn)標(biāo)識(shí)碼:A

DOI:10.7535/hbkd.2024yx06012

收稿日期:2024-09-05;修回日期:2024-10-21;責(zé)任編輯:胡姝洋

基金項(xiàng)目:國家自然科學(xué)基金(62133002)

第一作者簡(jiǎn)介:

林佐江(1977—),男,天津人,正高級(jí)工程師,主要從事智慧建筑等方面的研究。

通信作者:

方浩,教授。E-mail:fangh@bit.edu.cn

林佐江,曹旭,陳瑋,等.

一種帶有注意力機(jī)制的大基線場(chǎng)景端到端單應(yīng)性估計(jì)方法

[J].河北科技大學(xué)學(xué)報(bào),2024,45(6):669-682.

LIN Zuojiang,CAO Xu,CHEN Wei,et al.

An end-to-end homography estimation method for large baseline scenes with an attention mechanism

[J].Journal of Hebei University of Science and Technology,2024,45(6):669-682.

An end-to-end homography estimation method for large

baseline scenes with an attention mechanism

LIN Zuojiang1, CAO Xu2, CHEN Wei1, BAI Yu3, MI Bo1, ZHANG Xuewei3, FANG Hao2

(1.China Construction First Group Construction amp; Development Corporation Limited, Beijing 100102,China;

2.School of Automation, Beijing Institute of Technology, Beijing 100081, China;

3.China Construction Municipal Engineering Corporation Limited, Beijing 102627, China)

Abstract:

Aiming at the problems of low accuracy and limited adaptability to large baseline scenes and motion blur scenarios in current homography estimation methods, an end-to-end homography estimation methodwith attention mechanism for large baseline scenes was constructed, which utilized unsupervised learning for homography estimation. Firstly, by introducing the SE channel attention module, a homography regression network layer with attention mechanism was constructed, enabling the network to learn the inter-channel correlations of images. Secondly, a binary unsupervised loss construction method based on mask and perceptual loss metrics was proposed to enhance the network′s perception range and adaptability to large baseline scenes. Finally, a Homo-COCO synthetic dataset was created, and data augmentation was used to improve the network model′s robustness to changes in lighting and motion blur, resulting in stronger generalization capabilities in real-world scenes. Extensive comparative and ablation experiments demonstrate that this method outperforms existing methods in terms of accuracy and scene adaptability, showing good precision and adaptability. It can effectively estimate image homography and provide accurate parameter estimation for subsequent computer vision tasks such as image stitching and image correction.

Keywords:

computer image processing; homography estimation; unsupervised learning; attention mechanism; data augmentation; deep learning

單應(yīng)性變換是指從一個(gè)圖像平面到另一個(gè)圖像平面的可逆映射,其提供了2幅圖像像素點(diǎn)之間的線性映射關(guān)系[1]。單應(yīng)性是機(jī)器人與計(jì)算機(jī)視覺領(lǐng)域中的重要概念,廣泛應(yīng)用于圖像拼接[2]、視覺定位與地圖構(gòu)建(simultaneous localization and mapping, SLAM)[3]、相機(jī)校準(zhǔn)[4]以及增強(qiáng)現(xiàn)實(shí)[5]等領(lǐng)域。單應(yīng)性變換所表征的2幅圖像之間的映射通常用3×3的矩陣表示,該矩陣也常被稱為單應(yīng)性矩陣,由于尺度的不確定性,9參數(shù)的單應(yīng)性矩陣具有8個(gè)自由度。

單應(yīng)性估計(jì)通常指估計(jì)單應(yīng)性變換所對(duì)應(yīng)的單應(yīng)性矩陣,以獲取2幅圖像之間的映射關(guān)系。傳統(tǒng)的單應(yīng)性估計(jì)方法包括基于像素的方法與基于特征的方法2種。基于像素的方法[6]通過假設(shè)猜測(cè)的從圖a到圖b的初始單應(yīng)性矩陣對(duì)圖a做單應(yīng)性變換,對(duì)其與圖b使用誤差度量進(jìn)行像素強(qiáng)度值(SSD)的比較,使用如梯度下降法的優(yōu)化方法來最小化像素誤差[7]。基于像素的方法在圖像重疊率較低或視差較大時(shí)存在失效的風(fēng)險(xiǎn),且由于涉及在線優(yōu)化迭代的過程,其單應(yīng)性估計(jì)速度較慢。基于特征的方法通常包含特征檢測(cè)與魯棒單應(yīng)性估計(jì)2個(gè)過程,特征檢測(cè)采用例如尺度不變特征變換(SIFT)[8]的特征提取方法提取2幅圖像中的關(guān)鍵點(diǎn)并進(jìn)行匹配,建立對(duì)應(yīng)關(guān)系,在魯棒單應(yīng)性估計(jì)中采用例如RANSAC[9]的方法迭代以尋找最優(yōu)的單應(yīng)性矩陣。過往的研究在尋找可靠的特征中做出了努力,如在特征檢測(cè)過程中添加線特征[10]或引入更復(fù)雜的幾何形狀[11]。基于特征的方法整體來說穩(wěn)定性與精度比基于像素的方法有所提升,但其依賴于穩(wěn)定的特征檢測(cè),當(dāng)無法檢測(cè)或匹配到足夠數(shù)目的特征時(shí),其單應(yīng)性估計(jì)結(jié)果會(huì)出現(xiàn)較大的偏差[12]。

隨著深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)在計(jì)算機(jī)視覺領(lǐng)域的快速發(fā)展,基于深度學(xué)習(xí)的方法已經(jīng)在光流估計(jì)[13]、密集匹配[14]、深度估計(jì)[15]等密集幾何視覺任務(wù)中取得了良好的結(jié)果,通過深度學(xué)習(xí)進(jìn)行單應(yīng)性估計(jì)逐漸代表了最先進(jìn)的性能。ETONE等[16]提出的HomographyNet在基于深度學(xué)習(xí)的方法中開創(chuàng)先河,其首次嘗試將深度學(xué)習(xí)應(yīng)用于單應(yīng)性估計(jì),構(gòu)建了VGG結(jié)構(gòu)[17]的單應(yīng)性回歸網(wǎng)絡(luò)。在該工作中,網(wǎng)絡(luò)預(yù)測(cè)圖像中4個(gè)像素點(diǎn)的8個(gè)方向的像素偏移運(yùn)動(dòng),而不是直接回歸單應(yīng)性矩陣,這也為之后的工作奠定了基礎(chǔ),其取得了與傳統(tǒng)方法類似的性能。ZENG等[18]提出了PFNet有監(jiān)督模型,使用U-net架構(gòu)[19]直接估計(jì)2幅圖像逐像素對(duì)的偏移,并在后處理階段引入RANSAC生成最終的單應(yīng)性估計(jì)結(jié)構(gòu),通過與傳統(tǒng)方法進(jìn)行結(jié)合獲得了更好的性能。

由于在實(shí)際單應(yīng)性估計(jì)任務(wù)中,獲得圖像對(duì)之間的單應(yīng)性真值的成本極高,因而嘗試構(gòu)建無監(jiān)督學(xué)習(xí)是該領(lǐng)域的發(fā)展方向。NGUYEN 等[20]通過將空間變換網(wǎng)絡(luò)(STN)[21]引入單應(yīng)性估計(jì)網(wǎng)絡(luò)中而首次實(shí)現(xiàn)了端到端的無監(jiān)督單應(yīng)性估計(jì)模型。其通過比較單應(yīng)性變換后的源圖像塊和目標(biāo)圖像塊的像素級(jí)光度損失來訓(xùn)練單應(yīng)性回歸網(wǎng)絡(luò)。LIU等[22]在此基礎(chǔ)上通過學(xué)習(xí)內(nèi)容感知的注意力掩膜來拒絕前景物體和動(dòng)態(tài)對(duì)象,提出了用于濾除非魯棒區(qū)域的三重?fù)p失。KOGUCIUK等[23]在PFNet[18]的基礎(chǔ)上提出了一個(gè)雙向隱式(biHomE)損失函數(shù),提高了無監(jiān)督模型的精度表現(xiàn)。以上提出的無監(jiān)督模型對(duì)光照變化具有一定的魯棒性,減輕了動(dòng)態(tài)前景對(duì)于精度的影響,但其均對(duì)視差較大的圖像不具有魯棒性,無法適用于實(shí)際的低重疊場(chǎng)景。

基于以上研究現(xiàn)狀,現(xiàn)有的基于深度學(xué)習(xí)的單應(yīng)性估計(jì)方法存在的主要問題包括:基于監(jiān)督學(xué)習(xí)的方法依賴于數(shù)據(jù)集真值的生成,在單應(yīng)性估計(jì)任務(wù)中難以獲取實(shí)際的單應(yīng)性真值,真值獲取成本較高且效果不佳;基于無監(jiān)督學(xué)習(xí)的方法目前是研究的主流方案,但絕大部分方案采用基于圖像塊像素級(jí)光度損失的網(wǎng)絡(luò)損失構(gòu)建方案,網(wǎng)絡(luò)感知域較小,對(duì)于大基線場(chǎng)景適應(yīng)性較差;現(xiàn)有技術(shù)采用了數(shù)據(jù)增強(qiáng)的思路來解決圖像的光照變化問題,但其對(duì)單應(yīng)性估計(jì)任務(wù)中常見的運(yùn)動(dòng)模糊現(xiàn)象適應(yīng)性較差;此外,從整體來看,目前基于深度學(xué)習(xí)的單應(yīng)性估計(jì)方法受限于網(wǎng)絡(luò)結(jié)構(gòu),幾乎無法學(xué)習(xí)到圖像各通道間的關(guān)聯(lián)性,導(dǎo)致相比于傳統(tǒng)方法,其單應(yīng)性估計(jì)精度仍不存在明顯優(yōu)勢(shì)。

為了解決上述問題,本文構(gòu)建了一種帶有注意力機(jī)制的大基線場(chǎng)景端到端單應(yīng)性估計(jì)方法,采用無監(jiān)督學(xué)習(xí)的方式進(jìn)行單應(yīng)性估計(jì)。構(gòu)建了帶有注意力機(jī)制的單應(yīng)性回歸網(wǎng)絡(luò)層,采用ResNet基本網(wǎng)絡(luò)架構(gòu)[24],引入SE通道注意力[25]模塊,獲得網(wǎng)絡(luò)對(duì)于圖像各通道間關(guān)聯(lián)性的學(xué)習(xí);提出了基于掩膜與感知損失度量的二元無監(jiān)督損失構(gòu)建方式,利用圖像掩膜的方式將圖像整體引入網(wǎng)絡(luò)損失計(jì)算;構(gòu)建了Homo-COCO合成數(shù)據(jù)集,數(shù)據(jù)集中引入隨機(jī)注入顏色、亮度和伽馬位移、高斯模糊,采用數(shù)據(jù)增強(qiáng)使得網(wǎng)絡(luò)模型對(duì)于光照變化與運(yùn)動(dòng)模糊具有一定的魯棒性,以獲得更強(qiáng)的真實(shí)場(chǎng)景泛化能力。

1" 端到端單應(yīng)性估計(jì)算法結(jié)構(gòu)

1.1" 網(wǎng)絡(luò)整體架構(gòu)

本文提出的端到端單應(yīng)性估計(jì)方法采用無監(jiān)督學(xué)習(xí)進(jìn)行模型訓(xùn)練,因而其網(wǎng)絡(luò)構(gòu)建的核心包括單應(yīng)性參數(shù)回歸網(wǎng)絡(luò)層的設(shè)計(jì)、網(wǎng)絡(luò)無監(jiān)督損失的設(shè)計(jì)以及訓(xùn)練數(shù)據(jù)集的構(gòu)建方法。本文構(gòu)建了帶有注意力機(jī)制的單應(yīng)性回歸網(wǎng)絡(luò)層,其以6通道堆疊圖像作為輸入,經(jīng)過網(wǎng)絡(luò)回歸及張量直接線性變換層估計(jì)3×3矩陣單應(yīng)性參數(shù)化表達(dá)。提出了基于掩膜與感知損失度量的二元無監(jiān)督損失作為網(wǎng)絡(luò)損失以更新網(wǎng)絡(luò)參數(shù)。圖1所示為網(wǎng)絡(luò)的整體架構(gòu)。

1.2" 帶有注意力機(jī)制的單應(yīng)性回歸網(wǎng)絡(luò)層

常見的表示單應(yīng)性變換的方法為3×3矩陣表示的參數(shù)化方法,其由于尺度的不確定性而具有8個(gè)待回歸參數(shù),可以直接對(duì)這8個(gè)參數(shù)進(jìn)行回歸,但由于其中混合了旋轉(zhuǎn)與平移項(xiàng),作為優(yōu)化問題的神經(jīng)網(wǎng)絡(luò)在處理這種量綱不一致的問題時(shí)會(huì)難以收斂。根據(jù)文獻(xiàn)[16]中的思路,選擇另一種四點(diǎn)參數(shù)化的方法,其用源圖像中4個(gè)點(diǎn)與目標(biāo)圖像中對(duì)應(yīng)的4個(gè)點(diǎn)之間的8個(gè)x、y像素偏移量來表征單應(yīng)性變換。四點(diǎn)參數(shù)化表示同樣具有8個(gè)維度,變換表征上與3×3矩陣表示一一對(duì)應(yīng),但其每個(gè)維度均為像素點(diǎn)的偏移量,量綱表示一致,更適合神經(jīng)網(wǎng)絡(luò)進(jìn)行回歸。

構(gòu)建四點(diǎn)參數(shù)化單應(yīng)性矩陣回歸網(wǎng)絡(luò)層,實(shí)現(xiàn)對(duì)輸入圖像的特征提取以及8維單應(yīng)性矩陣的參數(shù)回歸。單應(yīng)性網(wǎng)絡(luò)回歸層的輸入是2幅具有單應(yīng)性變換的通道疊加的RGB圖像,經(jīng)過網(wǎng)絡(luò)的特征提取以及全連接層參數(shù)回歸,最終輸出得到源圖像4個(gè)角點(diǎn)對(duì)應(yīng)的8個(gè)像素偏移量。

本文構(gòu)建的單應(yīng)性回歸網(wǎng)絡(luò),摒棄了先前工作中常用的VGGNet網(wǎng)絡(luò)架構(gòu),以殘差神經(jīng)網(wǎng)絡(luò)ResNet[24]作為主要架構(gòu),引入SE(squeeze-and-excitation)[26]模塊用于為網(wǎng)絡(luò)引入通道注意力機(jī)制,提高卷積神經(jīng)網(wǎng)絡(luò)在特征圖通道層面的關(guān)聯(lián),網(wǎng)絡(luò)模型結(jié)構(gòu)如圖2所示。

ResNet網(wǎng)絡(luò)相比于傳統(tǒng)VGG網(wǎng)絡(luò)添加了殘差結(jié)構(gòu)以解決因網(wǎng)絡(luò)深度增加而產(chǎn)生的退化問題,使得網(wǎng)絡(luò)在深度增加的情況下保證網(wǎng)絡(luò)整體的特征提取能力不下降。出于在嵌入式設(shè)備上進(jìn)行模型部署對(duì)于模型大小的考慮,本文采用ResNet18作為主體網(wǎng)絡(luò)架構(gòu),相比于VGG網(wǎng)絡(luò)提高了模型的表達(dá)能力和性能,且網(wǎng)絡(luò)學(xué)習(xí)過程更加順暢和穩(wěn)定,模型精度以及泛化能力有所提高,可以更穩(wěn)定精準(zhǔn)地提取到2張對(duì)應(yīng)輸入圖像中的特征關(guān)聯(lián),穩(wěn)定的特征關(guān)聯(lián)保證了模型單應(yīng)性回歸的精度。

卷積操作是卷積神經(jīng)網(wǎng)絡(luò)的核心,保證卷積層高效、正確地學(xué)習(xí)到圖像特征是至關(guān)重要的。單應(yīng)性回歸網(wǎng)絡(luò)采用疊加的6通道圖像作為輸入,6個(gè)通道之間在單應(yīng)性變換中存在明顯的特征關(guān)聯(lián),因而在卷積操作中引入關(guān)于通道的注意力機(jī)制從直觀上講可以提高通道之間關(guān)聯(lián)的特征提取效果,進(jìn)而增強(qiáng)網(wǎng)絡(luò)整體的單應(yīng)性回歸性能。

本文在單應(yīng)性網(wǎng)絡(luò)回歸層中引入了SE模塊,旨在關(guān)注特征圖在通道維度上的聯(lián)系,篩選出針對(duì)通道的注意力,自動(dòng)學(xué)習(xí)到不同通道特征的重要程度。常見的卷積操作只能作用于一個(gè)局部區(qū)域,使得輸出的特征圖幾乎無法關(guān)注通道之間的聯(lián)系,SE模塊引入了Squeeze和Excitation兩部分來引入通道之間的注意力。

Squeeze操作首先對(duì)特征圖每一個(gè)通道上的特征通過全局平均池化(GAP)進(jìn)行融合,也就是實(shí)現(xiàn)了壓縮操作,構(gòu)建全局特征。Excitation對(duì)得到的全局特征輸入帶有ReLU的2個(gè)全連接過程,實(shí)現(xiàn)對(duì)不同通道之間權(quán)重值的回歸。最終將原始特征圖與通過學(xué)習(xí)回歸得到的各通道的權(quán)重值進(jìn)行相乘即可得到最終的帶有通道注意力的輸出特征圖。通過實(shí)驗(yàn)發(fā)現(xiàn),在網(wǎng)絡(luò)中過早引入SE操作會(huì)由于提取到的特征不夠高維而缺少通道之間的相關(guān)性,破壞圖像信息的連續(xù)性。因此選擇在ResNet網(wǎng)絡(luò)中第2個(gè)殘差塊即完成2次特征提取后引入SE操作,此時(shí)對(duì)特征圖通道維度之間的信息關(guān)注可以有效提升模型在單應(yīng)性回歸任務(wù)中的表現(xiàn)。采用此種方式構(gòu)造的SE殘差塊內(nèi)部結(jié)構(gòu)如圖3所示。

1.3" 張量直接線性變換(DLT)與空間變換層

基于文獻(xiàn)[20]的思路,本文設(shè)計(jì)了張量直接線性變換(direct linear transform,DLT)與空間變換層,用于實(shí)現(xiàn)基于單應(yīng)性回歸結(jié)果的可微分的源圖像單應(yīng)性扭曲變換。

張量直接線性變換操作緊隨在單應(yīng)性網(wǎng)絡(luò)回歸層之后,用以將單應(yīng)性網(wǎng)絡(luò)回歸得到的四點(diǎn)參數(shù)化單應(yīng)性回歸結(jié)果通過直接線性變換的方法轉(zhuǎn)換為常規(guī)的3×3矩陣參數(shù)化,用以對(duì)圖像實(shí)現(xiàn)單應(yīng)性扭曲變換。DLT算法是常用的單應(yīng)性參數(shù)計(jì)算方法,張量直接線性變換是將其應(yīng)用在網(wǎng)絡(luò)中回歸得到的張量上,在實(shí)現(xiàn)網(wǎng)絡(luò)訓(xùn)練并行化的同時(shí)保持整體的可微分性用于網(wǎng)絡(luò)整體的反向傳播訓(xùn)練。整體該層網(wǎng)絡(luò)的輸入是上一層回歸網(wǎng)絡(luò)得到的4對(duì)坐標(biāo)偏移量,輸出的是3×3矩陣參數(shù)化的單應(yīng)性H矩陣。

空間變換層串聯(lián)張量直接線性變換之后,通過STN實(shí)現(xiàn)對(duì)源圖像的單應(yīng)性變換以獲取其扭曲源圖像。該層網(wǎng)絡(luò)主要利用了空間變換網(wǎng)絡(luò)的可微分透視變換特性,包含3個(gè)主要組成部分:?jiǎn)螒?yīng)性估計(jì)的歸一化逆運(yùn)算、參數(shù)化采樣網(wǎng)格生成器、可微分采樣。利用這3部分可以實(shí)現(xiàn)依靠3×3矩陣參數(shù)化的單應(yīng)性H矩陣作為輸入,可微分地輸出經(jīng)過單應(yīng)性變換扭曲后的源圖像,變換圖像的同時(shí)保證了網(wǎng)絡(luò)的可微分性用于神經(jīng)網(wǎng)絡(luò)反向傳播訓(xùn)練。

1.4" 基于掩膜的無監(jiān)督損失構(gòu)造方式

在之前的無監(jiān)督深度學(xué)習(xí)方案中,通常采用2個(gè)經(jīng)過裁剪的小圖像塊作為輸入,根據(jù)輸入前向推理回歸單應(yīng)性變換之后,通過單應(yīng)性變換將源圖像進(jìn)行變換后再取源圖像塊位置的新圖像塊與目標(biāo)圖像塊構(gòu)建L1光度誤差損失,通過衡量圖像塊中的像素相似程度間接反映單應(yīng)性估計(jì)的準(zhǔn)確性,在沒有單應(yīng)性真值的情況下構(gòu)建間接光度損失實(shí)現(xiàn)無監(jiān)督學(xué)習(xí)。該過程網(wǎng)絡(luò)的整體損失表示為

L=‖P(H(Is))-P(It)‖1 ,(1)

式中:Is代表輸入源圖像;It代表目標(biāo)圖像;H代表對(duì)圖像進(jìn)行單應(yīng)性變換的過程;P代表獲取圖像塊的過程。

損失的構(gòu)建方式是無監(jiān)督單應(yīng)性估計(jì)訓(xùn)練過程中的重要一環(huán),直接影響單應(yīng)性矩陣訓(xùn)練的收斂性和穩(wěn)定性。分析總結(jié)發(fā)現(xiàn),大部分之前的無監(jiān)督學(xué)習(xí)方案采用圖像塊輸入的原因是圖像經(jīng)過單應(yīng)性變換后生成的新圖像是形狀不固定的,在原始圖像分辨率下觀察新圖像是帶有形狀填充黑邊的,如果直接使用變換后的源圖像與目標(biāo)圖像構(gòu)建光度誤差損失會(huì)出現(xiàn)很多錯(cuò)誤損失點(diǎn),無法正確計(jì)算網(wǎng)絡(luò)損失。通過選擇小圖像塊計(jì)算損失的方法可規(guī)避該問題,在小圖像塊中經(jīng)過單應(yīng)性變換后原像素位置會(huì)由別的像素進(jìn)行填充,不會(huì)有圖像中出現(xiàn)黑邊的情況,保證損失計(jì)算的正確性。一方面,這種妥協(xié)的做法限制了網(wǎng)絡(luò)輸入圖像的尺寸,降低了網(wǎng)絡(luò)感知域從而限制了網(wǎng)絡(luò)精度;另一方面,這種輸入方式在2幅輸入圖像之間基線較大重疊較小的情況下,可能會(huì)出現(xiàn)圖像中存在重疊區(qū)域但2個(gè)圖像塊中不存在重疊區(qū)域的現(xiàn)象,此時(shí)網(wǎng)絡(luò)的推理將會(huì)完全失效。

為了解決以上總結(jié)的使用圖像塊作為輸入的方法中存在的問題,本文使用了一種基于掩膜的無監(jiān)督損失構(gòu)造方式,直接使用2張?jiān)挤直媛食叽绲膱D像作為輸入,確保所有的重疊區(qū)域都在網(wǎng)絡(luò)的輸入中進(jìn)行體現(xiàn),在提高網(wǎng)絡(luò)感知域精度的同時(shí)加強(qiáng)網(wǎng)絡(luò)對(duì)于圖像基線長(zhǎng)度變化的魯棒性。具體地講,本方法通過將2幅完整圖像輸入單應(yīng)性網(wǎng)絡(luò)回歸層得到源圖像到目標(biāo)圖像的單應(yīng)性變換參數(shù),通過空間變換層對(duì)源圖像進(jìn)行單應(yīng)性變換,同時(shí)構(gòu)建一個(gè)與源圖像分辨率一致的全1掩膜輸入矩陣,將掩膜同樣輸入?yún)?shù)相同的空間變換層得到單應(yīng)性變換后的掩膜,因而變換后的掩膜中像素值為1的區(qū)域表示變換后源圖像的有效像素區(qū)域,為0的表示無效像素區(qū)域。通過將掩膜與目標(biāo)圖像按像素相乘即可濾除掉變換中的無效像素區(qū)域,得到掩膜處理后的目標(biāo)圖像,其與變換后的源圖像之間不存在邊界效應(yīng),即可直接進(jìn)行圖像相似度衡量構(gòu)建有效誤差損失,監(jiān)督該損失進(jìn)行學(xué)習(xí)即可實(shí)現(xiàn)對(duì)單應(yīng)性變換參數(shù)的學(xué)習(xí)。該構(gòu)建損失的過程如圖4所示,其中SSIM代表結(jié)構(gòu)相似性指數(shù)。

基于掩膜的無監(jiān)督損失表示為

L′=‖H(Is)-H(Mask)·It‖1,(2)

式中:H表示單應(yīng)性變化過程;Mask表示與源圖像相同分辨率的全1掩膜輸入矩陣;·代表按圖像像素相乘。式(2)表示了以L1光度誤差的方式衡量圖像相似性,計(jì)算網(wǎng)絡(luò)整體損失。

1.5" 基于感知損失度量的二元損失

構(gòu)建無監(jiān)督損失的過程即為衡量單應(yīng)性變換后的源圖像與目標(biāo)圖像之間相似性的過程,2幅圖像相似性越高代表網(wǎng)絡(luò)單應(yīng)性變換回歸越準(zhǔn)確,因此如何準(zhǔn)確、魯棒地衡量2幅圖像的相似度是準(zhǔn)確構(gòu)建網(wǎng)絡(luò)損失的關(guān)鍵問題。本方法以感知損失度量為相似度指標(biāo)損失,并引入了約束圖像掩膜完整性的正則指標(biāo)損失,將2類損失結(jié)合構(gòu)建了最終的二元網(wǎng)絡(luò)損失。

在之前的無監(jiān)督深度單應(yīng)性回歸工作中,研究人員通常采用直接計(jì)算2幅圖像之間的平均像素光度損失(L1損失)作為網(wǎng)絡(luò)損失,例如文獻(xiàn)[20]中定義網(wǎng)絡(luò)損失的公式為

LPW=1|xi|∑xi|Is(H(xi))-It(xi)|,(3)

式中:xi代表圖像中的離散像素;Is(H(xi))表示經(jīng)過單應(yīng)性變換后的源圖像像素點(diǎn);It(xi)表示目標(biāo)圖像像素點(diǎn),網(wǎng)絡(luò)損失基于2幅圖像所有像素光度誤差的均值來建立。對(duì)于圖像中每個(gè)像素,L1損失計(jì)算其在2個(gè)圖像之間的差的絕對(duì)值,然后對(duì)這些值取平均,其整體計(jì)算較為簡(jiǎn)單,易于實(shí)現(xiàn)。但在實(shí)際應(yīng)用過程中,由于拍攝原因2幅圖像之間可能存在亮度、對(duì)比度等因素變化,直接計(jì)算L1損失會(huì)引入額外的像素誤差導(dǎo)致?lián)p失偏差較大,從而影響網(wǎng)絡(luò)整體的收斂效果。

SSIM[27]損失是基于視覺感知的一種圖像相似度度量,考慮了圖像的亮度、對(duì)比度和結(jié)構(gòu)3個(gè)方面,旨在改善傳統(tǒng)像素對(duì)比的方法無法充分反映人類視覺感知特性的問題。本文網(wǎng)絡(luò)損失函數(shù)主體采用了基于SSIM損失的設(shè)計(jì)思路,可以更好地處理亮度、對(duì)比度和圖像結(jié)構(gòu)的變化,在圖像單應(yīng)性估計(jì)的工作中獲得了更高的泛化性。

其計(jì)算相似性的過程由亮度、對(duì)比度和結(jié)構(gòu)3部分構(gòu)成,其中亮度部分的計(jì)算公式為

l(x,y)=2μxμy+c1μ2x+μ2y+c1 。(4)

對(duì)比度部分的計(jì)算公式為

c(x,y)=2σxσy+c2σ2x+σ2y+c2。(5)

結(jié)構(gòu)部分的計(jì)算公式為

s(x,y)=σxy+c3σxσy+c3。(6)

式中:μx和μy分別表示2幅圖像的均值;σx和σy分別表示2幅圖像的方差;σxy表示2幅圖像之間的協(xié)方差;c1、c2和c3是3個(gè)常數(shù),用于避免分母為0。整體構(gòu)建SSIM損失是三者的乘積,通常得到最終的計(jì)算公式為

SSIM′(x,y)=(2μxμy+c1)(2σxy+c2)

(μ2x+μ2y+c1)(σ2x+σ2y+c2) 。(7)

此時(shí)計(jì)算出的取值范圍在-1~1之間,數(shù)值越大代表圖像相似度越高,為了構(gòu)建損失用于網(wǎng)絡(luò)整體損失遞減收斂訓(xùn)練,構(gòu)建:

SSIM(x,y)=1-SSIM′(x,y)2 。(8)

得到最終在0~1范圍內(nèi)的損失,且數(shù)值越小代表圖像相似度越高,進(jìn)而代表網(wǎng)絡(luò)單應(yīng)性估計(jì)越準(zhǔn)確。因而采用SSIM指標(biāo)的網(wǎng)絡(luò)的相似度指標(biāo)損失可以表示為

Lsim=SSIM(H(Is),H(Mask)·It) ,(9)

由于網(wǎng)絡(luò)采用了基于掩膜的無監(jiān)督損失構(gòu)造方式,當(dāng)單應(yīng)性變換后的源圖像H(Is)與源圖像Is之間重疊較小甚至沒有重疊時(shí),H(Is)趨近于全0矩陣,H(Mask)同樣也會(huì)趨向于一個(gè)幾乎全0的矩陣,此時(shí)參與計(jì)算相似度損失的有效像素量趨近于零,但計(jì)算得到的Lsim也趨近于零,相似度損失極小。此時(shí)如果只采用圖像相似度損失作為網(wǎng)絡(luò)損失,網(wǎng)絡(luò)訓(xùn)練過程會(huì)陷入局部最優(yōu)解,無法完成正常的訓(xùn)練過程,該種錯(cuò)誤情況如圖5所示。

因而本文在損失函數(shù)設(shè)計(jì)中引入了基于變換掩膜均值的正則項(xiàng)作為約束圖像掩膜完整性的正則指標(biāo)損失,其計(jì)算方法為

Lreg=1Mean(H(Mask))+0.001 ,(10)

式中:Mean為計(jì)算該矩陣所有元素的均值;Lreg取值范圍為0~1,其中越接近1代表圖像掩膜越完整,當(dāng)Lreg趨向于0時(shí),代表網(wǎng)絡(luò)陷入了局部最優(yōu)解,對(duì)其進(jìn)行正則損失懲罰,增加網(wǎng)絡(luò)整體損失。將相似度指標(biāo)損失與正則指標(biāo)損失結(jié)合,最終共同構(gòu)建的二元損失如下:

L=λLsim+(1-λ)Lreg,(11)

式中λ為網(wǎng)絡(luò)超參數(shù),用于調(diào)整2個(gè)損失部分的權(quán)重大小。

1.6" 無監(jiān)督數(shù)據(jù)生成方法

神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程需要大量數(shù)據(jù)集作為輸入以實(shí)現(xiàn)網(wǎng)絡(luò)的參數(shù)學(xué)習(xí),由于帶有單應(yīng)性變換真值標(biāo)簽的真實(shí)數(shù)據(jù)集的獲取成本較高,因而在單應(yīng)性估計(jì)任務(wù)中通常采用基于一般圖像數(shù)據(jù)集生成的合成數(shù)據(jù)集。本文構(gòu)建的網(wǎng)絡(luò)結(jié)構(gòu)采用無監(jiān)督學(xué)習(xí)方法,網(wǎng)絡(luò)需要的訓(xùn)練集僅需要2幅具有單應(yīng)性變換特性的圖片對(duì)進(jìn)行構(gòu)建。本文基于MSCOCO圖像數(shù)據(jù)集[27]自行構(gòu)建了Homo-COCO合成數(shù)據(jù)集,相比于之前工作采用圖像塊作為單應(yīng)性變換來構(gòu)建數(shù)據(jù)集,本文直接基于原始圖像尺寸進(jìn)行單應(yīng)性變換獲取訓(xùn)練圖像對(duì),得到更穩(wěn)定、噪聲更小的數(shù)據(jù)集,以顯著提高網(wǎng)絡(luò)整體的收斂效果;且在引入隨機(jī)注入顏色、亮度和伽馬位移的基礎(chǔ)上,引入圖像的隨機(jī)高斯模糊,以使模型對(duì)光照變化具有魯棒性的同時(shí),具有對(duì)于單應(yīng)性估計(jì)中相機(jī)運(yùn)動(dòng)圖像模糊的魯棒性。

生成訓(xùn)練數(shù)據(jù)集的主要過程包含以下步驟。首先,根據(jù)讀入源圖像的分辨率獲取圖像4個(gè)角點(diǎn)的像素坐標(biāo);然后,對(duì)4個(gè)角點(diǎn)進(jìn)行隨機(jī)擾動(dòng)獲取角點(diǎn)像素偏移量,根據(jù)擾動(dòng)得到的4組像素偏移量計(jì)算單應(yīng)性變換矩陣H,將H矩陣的逆矩陣作用于整張?jiān)磮D像得到生成的目標(biāo)圖像;最后,將源圖像與生成的目標(biāo)圖像組成一組訓(xùn)練對(duì)放入訓(xùn)練集中。其簡(jiǎn)要過程圖如圖6所示。

為使模型具有對(duì)光照變化的魯棒性,根據(jù)文獻(xiàn)[20]的思路,考慮在數(shù)據(jù)集制作基本流程的基礎(chǔ)上,隨機(jī)注入顏色、亮度和伽馬位移,以使訓(xùn)練出的模型具有對(duì)光照變化的泛化性。此外,現(xiàn)實(shí)世界相機(jī)運(yùn)動(dòng)過程中由于運(yùn)動(dòng)所帶來的圖像模糊現(xiàn)象時(shí)有發(fā)生,而單應(yīng)性估計(jì)任務(wù)中的合成數(shù)據(jù)集并未考慮該模糊因素,故本文額外引入對(duì)于模糊的數(shù)據(jù)增強(qiáng)來解決該問題。相機(jī)運(yùn)動(dòng)過程產(chǎn)生的噪聲可以近似為高斯噪聲,因而采用隨機(jī)的高斯模糊操作作用生成的目標(biāo)圖像,用隨機(jī)產(chǎn)生的高斯模糊半徑對(duì)應(yīng)隨機(jī)的運(yùn)動(dòng)模糊效果,最終得到帶有隨機(jī)運(yùn)動(dòng)噪聲效果的目標(biāo)圖像與源圖像對(duì),加入最終的訓(xùn)練集中。生成的訓(xùn)練圖像中,對(duì)目標(biāo)圖像相比源圖像帶有隨機(jī)單應(yīng)性變換、顏色變化、亮度變化、伽馬位移和高斯模糊效果。

2" 實(shí)驗(yàn)驗(yàn)證

目前常見的單應(yīng)性估計(jì)方法包括傳統(tǒng)方法、有監(jiān)督學(xué)習(xí)方法與無監(jiān)督學(xué)習(xí)方法,本文綜合這3種典型方法進(jìn)行實(shí)驗(yàn)比較。具體而言,在傳統(tǒng)方法中選擇了SIFT+RANSAC的方法作為代表,其相比于ORB等大多數(shù)傳統(tǒng)方法具有更高的準(zhǔn)確性;在有監(jiān)督學(xué)習(xí)中選擇了文獻(xiàn)[16]中的HomographyNet模型,其是首個(gè)采用學(xué)習(xí)方式估計(jì)圖像單應(yīng)性的模型,是有監(jiān)督學(xué)習(xí)的典型代表;在無監(jiān)督學(xué)習(xí)中選擇了文獻(xiàn)[20]和文獻(xiàn)[23]中的模型,文獻(xiàn)[20]首次將無監(jiān)督學(xué)習(xí)引入單應(yīng)性估計(jì)任務(wù)中,文獻(xiàn)[23]是目前無監(jiān)督深度單應(yīng)性估計(jì)任務(wù)中的SOTA解決方案。

針對(duì)3種對(duì)比方法,本文在實(shí)驗(yàn)環(huán)節(jié)進(jìn)行了準(zhǔn)確性的定量比較,并設(shè)計(jì)實(shí)驗(yàn)測(cè)試了各種方法對(duì)于重疊率、光照變化以及運(yùn)動(dòng)模糊的魯棒性。本文在自行構(gòu)建的Homo-COCO數(shù)據(jù)集測(cè)試集上對(duì)各種方法的表現(xiàn)進(jìn)行評(píng)估,其是典型生活化場(chǎng)景,且包含了不同重疊率、不同光照變化以及不同運(yùn)動(dòng)模糊效果的測(cè)試數(shù)據(jù)。

本文中訓(xùn)練集和測(cè)試集均采用了上文所述的數(shù)據(jù)集生成方法,在MSCOCO數(shù)據(jù)集[28]的基礎(chǔ)上自行構(gòu)建Homo-COCO數(shù)據(jù)集,其中訓(xùn)練集包含100 000對(duì)圖像,測(cè)試集包含(5 000+2 000)對(duì)圖像。數(shù)據(jù)集來源于MSCOCO數(shù)據(jù)集,因而其覆蓋了包含弱紋理、暗光、重復(fù)紋理等多種復(fù)雜條件的生活化場(chǎng)景,內(nèi)容全面。在測(cè)試集生成過程中控制了圖像對(duì)之間的重疊率,用于在測(cè)試階段測(cè)試算法對(duì)基線長(zhǎng)度變化方面的魯棒性,其中圖像對(duì)之間重疊率變化依靠數(shù)據(jù)集生成方法中的隨機(jī)擾動(dòng)量控制。為了測(cè)試算法對(duì)于光照變化以及運(yùn)動(dòng)模糊的魯棒性,在測(cè)試集中額外生成了2 000對(duì)明確引入隨機(jī)光照變化與高斯模糊的圖像,以驗(yàn)證本文方法在這2部分極端場(chǎng)景下的表現(xiàn)。

此外,本文方法預(yù)期應(yīng)用場(chǎng)景為隧道內(nèi)部的掌子面場(chǎng)景,因而實(shí)際采集、構(gòu)建了一部分隧道圖像數(shù)據(jù)對(duì)本文算法進(jìn)行測(cè)試。隧道圖像在廣西桂林某實(shí)際隧道項(xiàng)目中進(jìn)行采集,采集設(shè)備為DJI Osmo Action 3,圖像原始分辨率為2 688×1 512。為了便于進(jìn)行模型測(cè)試,將圖像同樣縮放為320×240的像素尺寸。該場(chǎng)景具有重復(fù)紋理、低光照、位移變化大、噪聲模糊大等技術(shù)難點(diǎn),其可完美考驗(yàn)?zāi)P蛯?duì)于視差、光照、噪聲等的魯棒性,該部分測(cè)試圖像對(duì)的生成方法與上文方法保持一致,主要覆蓋了典型的隧道內(nèi)部作業(yè)場(chǎng)景,測(cè)試集大小為700組圖片。所有測(cè)試集下的評(píng)估指標(biāo)均采用4pt-Homography RMSE方法,其計(jì)算如式(12)所示。

LH=‖H4pt-H*4pt‖2,(12)

式中:H4pt為估計(jì)的4個(gè)邊緣點(diǎn)偏移量;H*4pt為真實(shí)的邊緣點(diǎn)偏移量。計(jì)算估計(jì)的圖像4個(gè)邊緣點(diǎn)偏移量與真實(shí)的邊緣點(diǎn)偏移量之間的二范數(shù),用以衡量各個(gè)方法在測(cè)試集上單應(yīng)性估計(jì)的準(zhǔn)確性。

本文提出的無監(jiān)督深度學(xué)習(xí)方法在Pytorch框架中實(shí)現(xiàn),使用批大小為256的隨機(jī)梯度下降方法進(jìn)行訓(xùn)練,訓(xùn)練過程中采用了Adam優(yōu)化器,根據(jù)經(jīng)驗(yàn)設(shè)置了初始學(xué)習(xí)率為0.000 1,網(wǎng)絡(luò)超參數(shù)λ初始值設(shè)置為0.9,在訓(xùn)練過程中學(xué)習(xí)率逐漸下降,超參數(shù)λ逐漸上升以提高感知誤差的損失權(quán)重。硬件上使用了1張Nivdia A6000顯卡,在16 h的訓(xùn)練時(shí)間中,模型在訓(xùn)練集上總計(jì)進(jìn)行了150輪的迭代訓(xùn)練。

訓(xùn)練采用了豐富的圖像數(shù)據(jù),模型得到了充分的預(yù)訓(xùn)練,在其他特定數(shù)據(jù)集上可以進(jìn)行后續(xù)微調(diào)優(yōu)化。

基于特征的傳統(tǒng)SIFT+RANSAC方法采用標(biāo)準(zhǔn)的OpenCV Python進(jìn)行實(shí)現(xiàn),在雙路Intel Xeon Platinum 8336C CPU上進(jìn)行運(yùn)行測(cè)試,通過對(duì)2張測(cè)試對(duì)圖像提取SIFT特征,并基于提取到的特征做特征匹配,根據(jù)經(jīng)驗(yàn)采用閾值為5像素的RANSAC進(jìn)行魯棒單應(yīng)性估計(jì),保證特征匹配的準(zhǔn)確性。基于深度學(xué)習(xí)的對(duì)比方法采用預(yù)訓(xùn)練模型直接進(jìn)行推理,同樣采用1張Nivdia A6000顯卡進(jìn)行推理,以便與本文提出的方法對(duì)比準(zhǔn)確性與魯棒性。

2.1" 不同方法的定性及定量比較

本文主要設(shè)計(jì)了4組對(duì)比試驗(yàn),以比較各種單應(yīng)性估計(jì)方案。4組對(duì)比實(shí)驗(yàn)主要包括:Homo-COCO測(cè)試集RMSE對(duì)比效果、隧道環(huán)境測(cè)試集RMSE對(duì)比效果、針對(duì)基線長(zhǎng)度變化的對(duì)比效果,以及針對(duì)光照變化與運(yùn)動(dòng)模糊的對(duì)比效果。

2.1.1" Homo-COCO測(cè)試集RMSE對(duì)比效果

在依據(jù)上文介紹方法構(gòu)建的Homo-COCO測(cè)試集上進(jìn)行第1組對(duì)比測(cè)試,其中測(cè)試集生成過程中的隨機(jī)擾動(dòng)量最大值設(shè)置為45,即圖像4個(gè)角點(diǎn)最大隨機(jī)偏移45個(gè)像素值。本實(shí)驗(yàn)主要驗(yàn)證包含本文方法在內(nèi)的5種不同方法的準(zhǔn)確率,其中準(zhǔn)確率評(píng)價(jià)指標(biāo)采用式(12)介紹的均方根誤差RMSE方法,其取值越小代表單應(yīng)性估計(jì)得越準(zhǔn)確。最終得到的測(cè)試結(jié)果如表1所示。

根據(jù)表1中的測(cè)試數(shù)據(jù)可以發(fā)現(xiàn):首先,本文提出的基于深度學(xué)習(xí)的方法在準(zhǔn)確度方面優(yōu)于以SIFT方法為代表的傳統(tǒng)方法;其次,本文提出的無監(jiān)督學(xué)習(xí)方法同樣優(yōu)于有監(jiān)督學(xué)習(xí)方法,有監(jiān)督學(xué)習(xí)方法相比于一般的無監(jiān)督學(xué)習(xí)方法通常有著更高的準(zhǔn)確率;最后,本文的無監(jiān)督學(xué)習(xí)方法優(yōu)于現(xiàn)有的無監(jiān)督學(xué)習(xí)方法,由于采用了更大的網(wǎng)絡(luò)模型與網(wǎng)絡(luò)深度,本文的方法在測(cè)試集所有部分的表現(xiàn)均優(yōu)于目前最優(yōu)的無監(jiān)督學(xué)習(xí)方法。綜上所述,本文方法在5 000對(duì)測(cè)試集上的RMSE準(zhǔn)確度表現(xiàn)大幅度領(lǐng)先其余4種對(duì)比方案,在典型生活化場(chǎng)景下的測(cè)試表現(xiàn)出了顯著的單應(yīng)性估計(jì)效果。

2.1.2" 隧道環(huán)境測(cè)試集RMSE對(duì)比效果

在自行構(gòu)建的隧道測(cè)試集上進(jìn)行第2組對(duì)比試驗(yàn),依舊進(jìn)行RMSE準(zhǔn)確率的量化對(duì)比,以及展示部分樣例的定性對(duì)比。隧道測(cè)試集中涵蓋了典型的隧道內(nèi)部環(huán)境場(chǎng)景,其相比于Homo-COCO數(shù)據(jù)集中的生活化場(chǎng)景更加凸顯了圖像中的強(qiáng)光、暗光、重復(fù)或缺乏紋理以及運(yùn)動(dòng)模糊等極端場(chǎng)景,更加考驗(yàn)單應(yīng)性估計(jì)的穩(wěn)定性。基于深度學(xué)習(xí)的方法均未在此類場(chǎng)景上進(jìn)行訓(xùn)練,考驗(yàn)了模型整體的環(huán)境泛化性。如表2所示,展示了5種單應(yīng)性估計(jì)方法在700對(duì)隧道測(cè)試集上的RMSE均值以及估計(jì)成功數(shù)量和百分比。其中本文實(shí)驗(yàn)設(shè)定當(dāng)單應(yīng)性估計(jì)的RMSE小于10時(shí),認(rèn)為此次單應(yīng)性估計(jì)成功,否則認(rèn)為此時(shí)偏差過大,單應(yīng)性估計(jì)結(jié)果已經(jīng)失效不可用。

本方法由于統(tǒng)計(jì)的是全圖4個(gè)邊角偏移量的大小,因而偏移尺度自然會(huì)更大,評(píng)價(jià)過程中存在天然劣勢(shì),但在RMSE過程中仍舊遠(yuǎn)超其他方法,進(jìn)而表明了本方法在非訓(xùn)練過的隧道場(chǎng)景的準(zhǔn)確性、魯棒性與泛化性。幾種其他對(duì)比方法中,SIFT+RANSAC的方法表現(xiàn)出了稍好的效果。圖7展示了本方法在某些基于SIFT+RANSAC的方法失效場(chǎng)景下的對(duì)比效果,以直觀觀察其他單應(yīng)性回歸方法失效場(chǎng)景的主要特點(diǎn)。其中s、t圖分別表示源圖像與目標(biāo)圖像,2幅圖像中的紅色框表示單應(yīng)性估計(jì)真值所對(duì)應(yīng)的四點(diǎn)偏移量,黃色框表示單應(yīng)性估計(jì)方法估計(jì)出的四點(diǎn)偏移量,兩者越貼合表明單應(yīng)性估計(jì)越準(zhǔn)確。

2.1.3" 針對(duì)基線長(zhǎng)度變化的對(duì)比效果

為了驗(yàn)證本文方法對(duì)于大基線場(chǎng)景的適應(yīng)性,在不同基線長(zhǎng)度的Homo-COCO測(cè)試集上進(jìn)行了分類對(duì)比分析,采用RMSE評(píng)價(jià)方法的單應(yīng)性回歸對(duì)比效果。其中測(cè)試集上的不同基線長(zhǎng)度依靠不同范圍的角點(diǎn)隨機(jī)擾動(dòng)量進(jìn)行生成,將4點(diǎn)x、y坐標(biāo)隨機(jī)擾動(dòng)量的絕對(duì)值均值作為基線控制參數(shù),當(dāng)基線控制參數(shù)小于等于20時(shí),認(rèn)為當(dāng)前圖像對(duì)為小基線;當(dāng)基線控制參數(shù)大于20而小于等于25時(shí),認(rèn)為當(dāng)前圖像對(duì)為中基線;當(dāng)基線控制參數(shù)大于25時(shí),認(rèn)為當(dāng)前圖像對(duì)為大基線。以此為標(biāo)準(zhǔn)分類過后的Homo-COCO測(cè)試集組成如表3所示。

作為目前無監(jiān)督學(xué)習(xí)單應(yīng)性估計(jì)中的SOTA解決方案,Unsup-PFNet方法是本文無監(jiān)督學(xué)習(xí)方法的主要對(duì)比方案,因而在本實(shí)驗(yàn)部分主要測(cè)試了本方法、Unsup-HomoNet方法和Unsup-PFNet方法在以基線大小分類后的Homo-COCO測(cè)試集上的單應(yīng)性估計(jì)表現(xiàn)。同樣以RMSE指標(biāo)進(jìn)行量化評(píng)估,各基線長(zhǎng)度的實(shí)驗(yàn)結(jié)果如表4所示。

根據(jù)實(shí)驗(yàn)結(jié)果首先可以發(fā)現(xiàn),3種方法的單應(yīng)性估計(jì)效果均與圖像對(duì)之間的基線大小存在直接關(guān)聯(lián),因而可以認(rèn)為基線大小是決定單應(yīng)性網(wǎng)絡(luò)估計(jì)效果的關(guān)鍵參數(shù)。其次,作為無監(jiān)督學(xué)習(xí)類方案中的代表性方法,Unsup-HomoNet方法在小基線場(chǎng)景的RMSE評(píng)估均值為9.33,基本滿足成功單應(yīng)性估計(jì)的目標(biāo),證明該方法在小基線場(chǎng)景具有一定的適應(yīng)性;但經(jīng)過實(shí)驗(yàn)可以發(fā)現(xiàn),在大基線場(chǎng)景下,Unsup-HomoNet方法的RMSE評(píng)估均值為33.84,明顯差于該方法在小基線場(chǎng)景的表現(xiàn)。本方法在大基線場(chǎng)景下的RMSE評(píng)估均值為5.00,明顯優(yōu)于其他2種無監(jiān)督方法,且相比于本方法在小基線場(chǎng)景與中基線場(chǎng)景的表現(xiàn)也并無明顯落后。

由此可見,本方法在整體RMSE評(píng)估指標(biāo)優(yōu)于既有方法的同時(shí),在基線大小這個(gè)主要影響因素下也具有一定的魯棒性,在大基線場(chǎng)景下同樣可以保持不明顯遜色于小基線場(chǎng)景的單應(yīng)性估計(jì)表現(xiàn),RMSE評(píng)估指標(biāo)滿足成功單應(yīng)性估計(jì)的需要。相比于既有方法,本方法對(duì)大基線場(chǎng)景有顯著的適應(yīng)性。

2.1.4" 針對(duì)光照變化與運(yùn)動(dòng)模糊的對(duì)比效果

為了驗(yàn)證本文方法對(duì)于現(xiàn)實(shí)應(yīng)用場(chǎng)景中常見的光照變化與運(yùn)動(dòng)模糊效果的適應(yīng)性,在2 000對(duì)明確引入隨機(jī)光照變化與高斯模糊的圖像測(cè)試集上進(jìn)行了實(shí)驗(yàn)測(cè)試。該部分測(cè)試集基本的生成方法與之前的方法保持一致,但經(jīng)單應(yīng)性變換生成目標(biāo)圖像后,額外對(duì)測(cè)試集中所有目標(biāo)圖像進(jìn)行了從0.9~1.1范圍內(nèi)的隨機(jī)伽馬偏移、0.8~1.2范圍內(nèi)的隨機(jī)亮度調(diào)整,以及0.9~1.1范圍內(nèi)的隨機(jī)RGB三通道顏色調(diào)整,并額外引入了0.01~1.0范圍內(nèi)大小高斯核的隨機(jī)高斯噪聲作為運(yùn)動(dòng)模糊項(xiàng)。

從原理上來講,SIFT等傳統(tǒng)方法由于特征點(diǎn)具有光照不變性等技術(shù)特點(diǎn),與基于深度學(xué)習(xí)的端到端估計(jì)方法相比,其對(duì)于光照變化與運(yùn)動(dòng)模糊的魯棒性會(huì)更高。因而在本實(shí)驗(yàn)部分,選擇與SIFT+RANSAC的單應(yīng)性估計(jì)方法進(jìn)行對(duì)比,橫向比較本方法在多種場(chǎng)景的適應(yīng)性。實(shí)驗(yàn)數(shù)據(jù)對(duì)比結(jié)果如表5所示。

由定量實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),SIFT+RANSAC方法在該特定環(huán)境數(shù)據(jù)集上仍舊有著與一般數(shù)據(jù)集相當(dāng)?shù)膯螒?yīng)性估計(jì)效果,說明傳統(tǒng)方法對(duì)于一般的光照變化與運(yùn)動(dòng)模糊的適應(yīng)性較好,這2個(gè)因素對(duì)其幾乎沒有影響;同時(shí)本方法由于無監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)的傾向圖像相似特性,在該特定環(huán)境數(shù)據(jù)集上的表現(xiàn)相比于一般數(shù)據(jù)集有少許退步,但整體效果相比于SIFT+RANSAC方法仍具有明顯競(jìng)爭(zhēng)力,整體網(wǎng)絡(luò)單應(yīng)性估計(jì)成功率為99.8%,絕大部分估計(jì)結(jié)果可以認(rèn)為是有效的。因而總體來看,本方法對(duì)于光照變化與運(yùn)動(dòng)模糊具有一定的適應(yīng)性。

圖8展示了一些測(cè)試樣下的單應(yīng)性估計(jì)定性對(duì)比結(jié)果,其中s、t圖以及黃色、紅色框的定義與前文保持一致。從圖中可

以直觀看出,SIFT+RANSAC方法在某些具有光照變化與運(yùn)動(dòng)模糊的場(chǎng)景存在估計(jì)失效的問題,而本文方法在這些場(chǎng)景下表現(xiàn)良好。

2.2" 消融實(shí)驗(yàn)

帶有注意力機(jī)制的單應(yīng)性回歸網(wǎng)絡(luò)層、基于掩膜與感知損失度量的二元無監(jiān)督損失以及帶有隨機(jī)光照變化與運(yùn)動(dòng)模糊的Homo-COCO數(shù)據(jù)集是本工作的3部分主要貢獻(xiàn)。其中關(guān)于帶有隨機(jī)光照變化與運(yùn)動(dòng)模糊的Homo-COCO數(shù)據(jù)集的數(shù)據(jù)增強(qiáng)訓(xùn)練作用已經(jīng)在針對(duì)光照變化與運(yùn)動(dòng)模糊的對(duì)比效果中有所體現(xiàn),其顯著增強(qiáng)了網(wǎng)絡(luò)對(duì)隨機(jī)光照變化與運(yùn)動(dòng)模糊的適應(yīng)效果,驗(yàn)證了應(yīng)用該數(shù)據(jù)集相比于應(yīng)用之前的合成數(shù)據(jù)集在網(wǎng)絡(luò)訓(xùn)練效果上的優(yōu)越性。消融實(shí)驗(yàn)將主要就帶有注意力機(jī)制的單應(yīng)性回歸網(wǎng)絡(luò)層與基于掩膜與感知損失度量的二元無監(jiān)督損失進(jìn)行,驗(yàn)證這2部分貢獻(xiàn)對(duì)于本文方法的有效作用。

2.2.1" 帶有注意力機(jī)制的單應(yīng)性回歸網(wǎng)絡(luò)層驗(yàn)證

為了驗(yàn)證本文引入的帶有注意力機(jī)制的單應(yīng)性回歸網(wǎng)絡(luò)層對(duì)于單應(yīng)性估計(jì)準(zhǔn)確度的提升效果,將本文架構(gòu)中的單應(yīng)性回歸網(wǎng)絡(luò)層替換為與文獻(xiàn)[20]中類似的VGG型架構(gòu),在損失函數(shù)構(gòu)建部分保持不變的情況下,該部分實(shí)驗(yàn)在Homo-COCO測(cè)試集的5 000對(duì)圖像數(shù)據(jù)上以RMSE的值定量對(duì)比單應(yīng)性估計(jì)的準(zhǔn)確度,實(shí)驗(yàn)結(jié)果如表6所示。

結(jié)果表明,本文在單應(yīng)性回歸網(wǎng)絡(luò)層中引入的SE注意力機(jī)制以及ResNet型網(wǎng)絡(luò)架構(gòu),可以優(yōu)化網(wǎng)絡(luò)模型,提升網(wǎng)絡(luò)的適應(yīng)性與回歸效果,從而提升了本文網(wǎng)絡(luò)整體在單應(yīng)性回歸任務(wù)中的精度表現(xiàn)。

2.2.2" 基于掩膜與感知損失度量的二元無監(jiān)督損失驗(yàn)證

為了驗(yàn)證本文提出的基于掩膜與感知損失度量的二元無監(jiān)督損失對(duì)于網(wǎng)絡(luò)模型的應(yīng)用效果,在此進(jìn)行類似的消融實(shí)驗(yàn)設(shè)置。保持本文架構(gòu)中帶有注意力機(jī)制的單應(yīng)性回歸網(wǎng)絡(luò)層不變,采用與文獻(xiàn)[20]中類似的損失構(gòu)造方式,直接將單應(yīng)性變換后的源圖像塊與目標(biāo)圖像塊之間的L1損失,作為網(wǎng)絡(luò)損失進(jìn)行回傳以更新網(wǎng)絡(luò)參數(shù)。該部分實(shí)驗(yàn)同樣在Homo-COCO測(cè)試集的5 000對(duì)圖像數(shù)據(jù)上,以RMSE的值定量對(duì)比單應(yīng)性估計(jì)的準(zhǔn)確度,實(shí)驗(yàn)結(jié)果如表7所示。

結(jié)果表明,本文在無監(jiān)督損失構(gòu)建過程中引入的基于掩膜與感知損失度量的二元無監(jiān)督損失構(gòu)造方式,可以優(yōu)化模型訓(xùn)練過程,提升網(wǎng)絡(luò)的收斂效果,且基于掩膜的損失構(gòu)造方式主要提高了模型的感知域,提升了對(duì)于大基線場(chǎng)景單應(yīng)性估計(jì)的精度,進(jìn)而從整體上提升了本方法在單應(yīng)性回歸任務(wù)中的性能表現(xiàn)。圖9展示了5組場(chǎng)景下采用圖像塊L1損失與采用基于掩膜與感知損失度量的二元無監(jiān)督損失時(shí),單應(yīng)性估計(jì)準(zhǔn)確性的對(duì)比效果。

其中第1行圖像表示輸入本文方法的源圖像與目標(biāo)圖像,紅框內(nèi)的區(qū)域表示輸入消融方法的源圖像塊與目標(biāo)圖像塊,可以直觀發(fā)現(xiàn),2個(gè)圖像塊間重疊區(qū)域較小,網(wǎng)絡(luò)感知域受限;第2行與第3行圖像分別表示本文方法與消融方法的單應(yīng)性估計(jì)效果對(duì)比,可以發(fā)現(xiàn)在圖像塊間重疊區(qū)域較小時(shí),本文方法由于擴(kuò)大了網(wǎng)絡(luò)感知域,進(jìn)而提高了網(wǎng)絡(luò)整體的單應(yīng)性估計(jì)表現(xiàn),相較于消融方法有明顯的準(zhǔn)確度提升。

3" 結(jié)" 語

本文提出了一種帶有注意力機(jī)制的大基線場(chǎng)景端到端單應(yīng)性估計(jì)方法,用于以無監(jiān)督學(xué)習(xí)的方式解決圖像單應(yīng)性估計(jì)問題。構(gòu)建了帶有SE注意力機(jī)制的單應(yīng)性網(wǎng)絡(luò)回歸層,在傳統(tǒng)單應(yīng)性回歸模型的基礎(chǔ)上采用了ResNet架構(gòu),利用SE注意力機(jī)制關(guān)注了圖像對(duì)通道間的聯(lián)系,提高了模型的適應(yīng)性。摒棄了傳統(tǒng)的以圖像塊間L1損失作為網(wǎng)絡(luò)損失進(jìn)行回傳的方法,提出了基于圖像掩膜與感知損失度量的二元無監(jiān)督損失,利用圖像掩膜的方式將圖像整體引入網(wǎng)絡(luò)損失計(jì)算,提高網(wǎng)絡(luò)感知域,進(jìn)而提高網(wǎng)絡(luò)對(duì)于大基線場(chǎng)景的適應(yīng)性。構(gòu)建了Homo-COCO合成數(shù)據(jù)集,其中包括100 000對(duì)訓(xùn)練數(shù)據(jù)以及5 000對(duì)測(cè)試數(shù)據(jù),數(shù)據(jù)集中引入隨機(jī)注入顏色、亮度和伽馬位移、高斯模糊,使得以此訓(xùn)練集訓(xùn)練的網(wǎng)絡(luò)模型對(duì)于光照變化與運(yùn)動(dòng)模糊具有一定的魯棒性,獲得更強(qiáng)的真實(shí)場(chǎng)景泛化能力。充分的對(duì)比及消融實(shí)驗(yàn)表明,本文提出的單應(yīng)性估計(jì)方法對(duì)比現(xiàn)有方法在精度上具有較強(qiáng)的優(yōu)越性,且3部分均對(duì)于精度指標(biāo)提升有所貢獻(xiàn),方法在大部分場(chǎng)景下具有適應(yīng)性。值得注意的是,由于網(wǎng)絡(luò)參數(shù)量較大,在典型場(chǎng)景下相比于其他單應(yīng)性估計(jì)方法,本文方法在估計(jì)速度上不占優(yōu)勢(shì),將本文方法輕量化以更便捷地部署在移動(dòng)設(shè)備上將是下一步工作的重點(diǎn)。

參考文獻(xiàn)/References:

[1]" YE

Nianjin,WANG Chuan,LIU Shuaicheng,et al.DeepMeshFlow:Content adaptive mesh deformation for robust image registration[EB/OL].(2019-12-11)[2024-08-20].https://arxiv.org/abs/1912.05131.

[2]" WANG Lang,YU Wen,LI Bao.Multi-scenes image stitching based on autonomous driving[C]//2020 IEEE 4th Information Technology, Networking, Electronic and Automation Control Conference (ITNEC).Chongqing:IEEE,2020:694-698.

[3]" CAMPOS C,ELVIRA R,RODRGUEZ J J G,et al.ORB-SLAM3: An accurate open-source library for visual, visual-inertial, and multimap SLAM[J].IEEE Transactions on Robotics,2021,37(6):1874-1890.

[4]" ZHANG Zhengyou.A flexible new technique for camera calibration[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(11):1330-1334.

[5]" SIMON G,F(xiàn)ITZGIBBON A W,ZISSERMAN A.Markerless tracking using planar structures in the scene[C]//Proceedings IEEE and ACM International Symposium on Augmented Reality (ISAR 2000).Munich:IEEE,2000:120-128.

[6]" LUCAS B D,KANADE T.An iterative image registration technique with an application to stereo vision[C]//Proceedings of the 7th International Joint Conference on Artificial Intelligence.San Francisco:Morgan Kaufmann Publishers,1981:674-679.

[7]" BAKER S,MATTHEWS I.Lucas-kanade 20 years on:A unifying framework[J].International Journal of Computer Vision,2004,56(3):221-255.

[8]" LOWE D G.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.

[9]" FISCHLER M A,BOLLES R C.Random sample consensus:A paradigm for model fitting with applications to image analysis and automated Cartography[J].Readings in Computer Vision,1987.DOI: 10.1016/B978-0-08-051581-6.50070-2.

[10]PUMAROLA A,VAKHITOV A,AGUDO A,et al.PL-SLAM:Real-time monocular visual SLAM with points and lines[C]//2017 IEEE International Conference on Robotics and Automation (ICRA).Singapore:IEEE,2017:4503-4508.

[11]GEE A P,CHEKHLOV D,CALWAY A,et al.Discovering higher level structure in visual SLAM[J].IEEE Transactions on Robotics,2008,24(5):980-990.

[12]FANGXIANYONG W U F.An improved ransachomography algorithm for feature based image Mosaic[C]//Proceedings of the 7th WSEAS International Conference on Signal Processing.Athens:[s.n.],2007:202-207.

[13]SUN Deqing,YANG Xiaodong,LIU Mingyu,et al.PWC-Net:CNNs for optical flow using pyramid,warping,and cost volume[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:8934-8943.

[14]REVAUD J,WEINZAEPFEL P,HARCHAOUI Z,et al.DeepMatching:Hierarchical deformable dense matching[J].International Journal of Computer Vision,2016,120(3):300-323.

[15]LI Jingliang,LU Zhengda,WANG Yiqun,et al.DS-MVSNet:Unsupervised multi-view stereo via depth synthesis[C]//Proceedings of the 30th ACM International Conference on Multimedia.New York:Association for Computing Machinery,2022:5593-5601.

[16]ETONE D,MALISIEWICZ T,RABINOVICH A.Deep image homography estimation[EB/OL].(2016-06-13)[2024-08-20].https://arxiv.org/abs/1606.03798.

[17]SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[EB/OL].(2014-09-04)[2024-08-20].https://arxiv.org/abs/1409.1556.

[18]ZENG Rui,DENMAN S,SRIDHARAN S,et al.Rethinking planar homography estimation using perspective fields[C]//Computer Vision: ACCV 2018.Cham:Springer,2019:571-586.

[19]RONNEBERGER O,F(xiàn)ISCHER P,BROX T.U-Net:Convolutional networks for biomedical image segmentation[C]//Medical Image Computing and Computer-Assisted Intervention: MICCAI 2015.Cham:Springer,2015:234-241.

[20]NGUYEN T,CHEN S W,SHIVAKUMAR S S,et al.Unsupervised deep homography:A fast and robust homography estimation model[J].IEEE Robotics and Automation Letters,2018,3(3):2346-2353.

[21]JADERBERG M,SIMONYAN K,ZISSERMAN A,et al.Spatial transformer networks[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems.Cambridge:MIT Press,2015:2017-2025.

[22]LIU Shuaicheng,YE Nianjin,WANG Chuan,et al.Content-aware unsupervised deep homography estimation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,45(3):653-669.

[23]KOGUCIUK D,ARANI E,ZONOOZ B.Perceptual loss for robust unsupervised homography estimation[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops.Nashville:IEEE,2021:4269-4278.

[24]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas:IEEE,2016:770-778.

[25]王珂,張根耀.基于ResNet模型的甲狀腺SPECT影像診斷[J].河北科技大學(xué)學(xué)報(bào),2020,41(3):242-248.

WANG Ke,ZHANG Genyao.Diagnosis of thyroid SPECT image based on ResNet model[J].Journal of Hebei University of Science and Technology,2020,41(3):242-248.

[26]HU Jie,SHEN Li,SUN Gang.Squeeze-and-Excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:7132-7141.

[27]WANG Zhou,BOVIK A C,SHEIKH H R,et al.Image quality assessment: From error visibility to structural similarity[J].IEEE Transactions on Image Processing,2004,13(4):600-612.

[28]LIN T Y,MAIRE M,BELONGIE S,et al.Microsoft COCO:Common objects in context[C]//Computer Vision:ECCV 2014.Cham:Springer,2014:740-755.

猜你喜歡
監(jiān)督方法
突出“四個(gè)注重” 預(yù)算監(jiān)督顯實(shí)效
學(xué)習(xí)方法
監(jiān)督見成效 舊貌換新顏
夯實(shí)監(jiān)督之基
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
績(jī)效監(jiān)督:從“管住”到“管好”
浙江人大(2014年5期)2014-03-20 16:20:28
監(jiān)督宜“補(bǔ)”不宜“比”
浙江人大(2014年4期)2014-03-20 16:20:16
主站蜘蛛池模板: 老汉色老汉首页a亚洲| 大学生久久香蕉国产线观看| 黄色网址免费在线| 99成人在线观看| 日本高清成本人视频一区| 九九香蕉视频| 91视频首页| 精品久久久无码专区中文字幕| 国产成人综合在线视频| 亚洲人成人伊人成综合网无码| 欧美a级完整在线观看| 亚洲91精品视频| 成人国产精品2021| 婷婷激情亚洲| 一级黄色片网| 国产精品lululu在线观看| 国产欧美另类| 国产办公室秘书无码精品| 免费精品一区二区h| 在线无码av一区二区三区| 亚洲无码高清一区二区| 日韩麻豆小视频| 久久精品国产国语对白| 亚洲精品国产日韩无码AV永久免费网 | 在线看片免费人成视久网下载| 久热精品免费| 国产一二三区视频| 免费aa毛片| 久久午夜夜伦鲁鲁片无码免费| 日本道综合一本久久久88| 日本人又色又爽的视频| 中文字幕在线视频免费| 91国语视频| 岛国精品一区免费视频在线观看| 精品中文字幕一区在线| 久久久久久久久久国产精品| 国产精品自在在线午夜区app| 欧美va亚洲va香蕉在线| 中文字幕在线永久在线视频2020| 亚洲国产成人在线| 国内精品久久久久久久久久影视| 成人噜噜噜视频在线观看| 99re经典视频在线| 91小视频在线观看| 成人在线综合| 亚洲天堂视频在线观看免费| 99视频在线免费看| 日韩精品成人在线| 白浆视频在线观看| 国产美女视频黄a视频全免费网站| 四虎永久免费地址| 久久永久精品免费视频| 日本午夜在线视频| 中文字幕亚洲乱码熟女1区2区| 制服丝袜一区二区三区在线| 中国国产高清免费AV片| 亚洲国产日韩在线观看| 中日韩欧亚无码视频| 国产精品女人呻吟在线观看| 亚洲精品视频在线观看视频| 四虎成人免费毛片| 一本大道无码日韩精品影视| 精品一区二区三区无码视频无码| 中文字幕在线日韩91| 国产成人亚洲精品蜜芽影院| 亚洲aaa视频| a毛片在线| 91综合色区亚洲熟妇p| 免费人欧美成又黄又爽的视频| 一个色综合久久| 看国产一级毛片| 国产 在线视频无码| 亚洲一级色| 国产精品流白浆在线观看| 亚洲视屏在线观看| 成年看免费观看视频拍拍| 免费毛片网站在线观看| 国产一区二区三区在线精品专区| 亚洲欧洲日韩综合色天使| 五月六月伊人狠狠丁香网| 国产在线观看一区二区三区| 精品色综合|