
















文章編號:1008-1542(2024)06-0669-14
摘" 要:
針對目前現有單應性估計方法存在的精度不高、對大基線場景與運動模糊場景適應性不強的問題,構建了一種帶有注意力機制的大基線場景端到端單應性估計方法,采用無監督學習的方式進行單應性估計。首先,引入SE通道注意力模塊,構建帶有注意力機制的單應性回歸網絡層,獲得網絡對于圖像各通道間關聯性的學習;其次,構建基于掩膜與感知損失度量的二元無監督損失方式,提高網絡感知域范圍以及網絡對于大基線場景的適應性;最后,構建Homo-COCO合成數據集,采用數據增強使得網絡模型對于光照變化與運動模糊具有一定的魯棒性,獲得更強的真實場景泛化能力。經過充分的對比及消融實驗表明,該方法在精度指標與場景適應性方面優于現有方法,具有良好的準確性與適應性。本方法可以有效估計圖像單應性,為圖像拼接、圖像校正等計算機視覺后續任務提供準確參數估計。
關鍵詞:
計算機圖像處理;單應性估計;無監督學習;注意力機制;數據增強;深度學習
中圖分類號:TP391
文獻標識碼:A
DOI:10.7535/hbkd.2024yx06012
收稿日期:2024-09-05;修回日期:2024-10-21;責任編輯:胡姝洋
基金項目:國家自然科學基金(62133002)
第一作者簡介:
林佐江(1977—),男,天津人,正高級工程師,主要從事智慧建筑等方面的研究。
通信作者:
方浩,教授。E-mail:fangh@bit.edu.cn
林佐江,曹旭,陳瑋,等.
一種帶有注意力機制的大基線場景端到端單應性估計方法
[J].河北科技大學學報,2024,45(6):669-682.
LIN Zuojiang,CAO Xu,CHEN Wei,et al.
An end-to-end homography estimation method for large baseline scenes with an attention mechanism
[J].Journal of Hebei University of Science and Technology,2024,45(6):669-682.
An end-to-end homography estimation method for large
baseline scenes with an attention mechanism
LIN Zuojiang1, CAO Xu2, CHEN Wei1, BAI Yu3, MI Bo1, ZHANG Xuewei3, FANG Hao2
(1.China Construction First Group Construction amp; Development Corporation Limited, Beijing 100102,China;
2.School of Automation, Beijing Institute of Technology, Beijing 100081, China;
3.China Construction Municipal Engineering Corporation Limited, Beijing 102627, China)
Abstract:
Aiming at the problems of low accuracy and limited adaptability to large baseline scenes and motion blur scenarios in current homography estimation methods, an end-to-end homography estimation methodwith attention mechanism for large baseline scenes was constructed, which utilized unsupervised learning for homography estimation. Firstly, by introducing the SE channel attention module, a homography regression network layer with attention mechanism was constructed, enabling the network to learn the inter-channel correlations of images. Secondly, a binary unsupervised loss construction method based on mask and perceptual loss metrics was proposed to enhance the network′s perception range and adaptability to large baseline scenes. Finally, a Homo-COCO synthetic dataset was created, and data augmentation was used to improve the network model′s robustness to changes in lighting and motion blur, resulting in stronger generalization capabilities in real-world scenes. Extensive comparative and ablation experiments demonstrate that this method outperforms existing methods in terms of accuracy and scene adaptability, showing good precision and adaptability. It can effectively estimate image homography and provide accurate parameter estimation for subsequent computer vision tasks such as image stitching and image correction.
Keywords:
computer image processing; homography estimation; unsupervised learning; attention mechanism; data augmentation; deep learning
單應性變換是指從一個圖像平面到另一個圖像平面的可逆映射,其提供了2幅圖像像素點之間的線性映射關系[1]。單應性是機器人與計算機視覺領域中的重要概念,廣泛應用于圖像拼接[2]、視覺定位與地圖構建(simultaneous localization and mapping, SLAM)[3]、相機校準[4]以及增強現實[5]等領域。單應性變換所表征的2幅圖像之間的映射通常用3×3的矩陣表示,該矩陣也常被稱為單應性矩陣,由于尺度的不確定性,9參數的單應性矩陣具有8個自由度。
單應性估計通常指估計單應性變換所對應的單應性矩陣,以獲取2幅圖像之間的映射關系。傳統的單應性估計方法包括基于像素的方法與基于特征的方法2種。基于像素的方法[6]通過假設猜測的從圖a到圖b的初始單應性矩陣對圖a做單應性變換,對其與圖b使用誤差度量進行像素強度值(SSD)的比較,使用如梯度下降法的優化方法來最小化像素誤差[7]。基于像素的方法在圖像重疊率較低或視差較大時存在失效的風險,且由于涉及在線優化迭代的過程,其單應性估計速度較慢。基于特征的方法通常包含特征檢測與魯棒單應性估計2個過程,特征檢測采用例如尺度不變特征變換(SIFT)[8]的特征提取方法提取2幅圖像中的關鍵點并進行匹配,建立對應關系,在魯棒單應性估計中采用例如RANSAC[9]的方法迭代以尋找最優的單應性矩陣。過往的研究在尋找可靠的特征中做出了努力,如在特征檢測過程中添加線特征[10]或引入更復雜的幾何形狀[11]。基于特征的方法整體來說穩定性與精度比基于像素的方法有所提升,但其依賴于穩定的特征檢測,當無法檢測或匹配到足夠數目的特征時,其單應性估計結果會出現較大的偏差[12]。
隨著深度卷積神經網絡(CNN)在計算機視覺領域的快速發展,基于深度學習的方法已經在光流估計[13]、密集匹配[14]、深度估計[15]等密集幾何視覺任務中取得了良好的結果,通過深度學習進行單應性估計逐漸代表了最先進的性能。ETONE等[16]提出的HomographyNet在基于深度學習的方法中開創先河,其首次嘗試將深度學習應用于單應性估計,構建了VGG結構[17]的單應性回歸網絡。在該工作中,網絡預測圖像中4個像素點的8個方向的像素偏移運動,而不是直接回歸單應性矩陣,這也為之后的工作奠定了基礎,其取得了與傳統方法類似的性能。ZENG等[18]提出了PFNet有監督模型,使用U-net架構[19]直接估計2幅圖像逐像素對的偏移,并在后處理階段引入RANSAC生成最終的單應性估計結構,通過與傳統方法進行結合獲得了更好的性能。
由于在實際單應性估計任務中,獲得圖像對之間的單應性真值的成本極高,因而嘗試構建無監督學習是該領域的發展方向。NGUYEN 等[20]通過將空間變換網絡(STN)[21]引入單應性估計網絡中而首次實現了端到端的無監督單應性估計模型。其通過比較單應性變換后的源圖像塊和目標圖像塊的像素級光度損失來訓練單應性回歸網絡。LIU等[22]在此基礎上通過學習內容感知的注意力掩膜來拒絕前景物體和動態對象,提出了用于濾除非魯棒區域的三重損失。KOGUCIUK等[23]在PFNet[18]的基礎上提出了一個雙向隱式(biHomE)損失函數,提高了無監督模型的精度表現。以上提出的無監督模型對光照變化具有一定的魯棒性,減輕了動態前景對于精度的影響,但其均對視差較大的圖像不具有魯棒性,無法適用于實際的低重疊場景。
基于以上研究現狀,現有的基于深度學習的單應性估計方法存在的主要問題包括:基于監督學習的方法依賴于數據集真值的生成,在單應性估計任務中難以獲取實際的單應性真值,真值獲取成本較高且效果不佳;基于無監督學習的方法目前是研究的主流方案,但絕大部分方案采用基于圖像塊像素級光度損失的網絡損失構建方案,網絡感知域較小,對于大基線場景適應性較差;現有技術采用了數據增強的思路來解決圖像的光照變化問題,但其對單應性估計任務中常見的運動模糊現象適應性較差;此外,從整體來看,目前基于深度學習的單應性估計方法受限于網絡結構,幾乎無法學習到圖像各通道間的關聯性,導致相比于傳統方法,其單應性估計精度仍不存在明顯優勢。
為了解決上述問題,本文構建了一種帶有注意力機制的大基線場景端到端單應性估計方法,采用無監督學習的方式進行單應性估計。構建了帶有注意力機制的單應性回歸網絡層,采用ResNet基本網絡架構[24],引入SE通道注意力[25]模塊,獲得網絡對于圖像各通道間關聯性的學習;提出了基于掩膜與感知損失度量的二元無監督損失構建方式,利用圖像掩膜的方式將圖像整體引入網絡損失計算;構建了Homo-COCO合成數據集,數據集中引入隨機注入顏色、亮度和伽馬位移、高斯模糊,采用數據增強使得網絡模型對于光照變化與運動模糊具有一定的魯棒性,以獲得更強的真實場景泛化能力。
1" 端到端單應性估計算法結構
1.1" 網絡整體架構
本文提出的端到端單應性估計方法采用無監督學習進行模型訓練,因而其網絡構建的核心包括單應性參數回歸網絡層的設計、網絡無監督損失的設計以及訓練數據集的構建方法。本文構建了帶有注意力機制的單應性回歸網絡層,其以6通道堆疊圖像作為輸入,經過網絡回歸及張量直接線性變換層估計3×3矩陣單應性參數化表達。提出了基于掩膜與感知損失度量的二元無監督損失作為網絡損失以更新網絡參數。圖1所示為網絡的整體架構。
1.2" 帶有注意力機制的單應性回歸網絡層
常見的表示單應性變換的方法為3×3矩陣表示的參數化方法,其由于尺度的不確定性而具有8個待回歸參數,可以直接對這8個參數進行回歸,但由于其中混合了旋轉與平移項,作為優化問題的神經網絡在處理這種量綱不一致的問題時會難以收斂。根據文獻[16]中的思路,選擇另一種四點參數化的方法,其用源圖像中4個點與目標圖像中對應的4個點之間的8個x、y像素偏移量來表征單應性變換。四點參數化表示同樣具有8個維度,變換表征上與3×3矩陣表示一一對應,但其每個維度均為像素點的偏移量,量綱表示一致,更適合神經網絡進行回歸。
構建四點參數化單應性矩陣回歸網絡層,實現對輸入圖像的特征提取以及8維單應性矩陣的參數回歸。單應性網絡回歸層的輸入是2幅具有單應性變換的通道疊加的RGB圖像,經過網絡的特征提取以及全連接層參數回歸,最終輸出得到源圖像4個角點對應的8個像素偏移量。
本文構建的單應性回歸網絡,摒棄了先前工作中常用的VGGNet網絡架構,以殘差神經網絡ResNet[24]作為主要架構,引入SE(squeeze-and-excitation)[26]模塊用于為網絡引入通道注意力機制,提高卷積神經網絡在特征圖通道層面的關聯,網絡模型結構如圖2所示。
ResNet網絡相比于傳統VGG網絡添加了殘差結構以解決因網絡深度增加而產生的退化問題,使得網絡在深度增加的情況下保證網絡整體的特征提取能力不下降。出于在嵌入式設備上進行模型部署對于模型大小的考慮,本文采用ResNet18作為主體網絡架構,相比于VGG網絡提高了模型的表達能力和性能,且網絡學習過程更加順暢和穩定,模型精度以及泛化能力有所提高,可以更穩定精準地提取到2張對應輸入圖像中的特征關聯,穩定的特征關聯保證了模型單應性回歸的精度。
卷積操作是卷積神經網絡的核心,保證卷積層高效、正確地學習到圖像特征是至關重要的。單應性回歸網絡采用疊加的6通道圖像作為輸入,6個通道之間在單應性變換中存在明顯的特征關聯,因而在卷積操作中引入關于通道的注意力機制從直觀上講可以提高通道之間關聯的特征提取效果,進而增強網絡整體的單應性回歸性能。
本文在單應性網絡回歸層中引入了SE模塊,旨在關注特征圖在通道維度上的聯系,篩選出針對通道的注意力,自動學習到不同通道特征的重要程度。常見的卷積操作只能作用于一個局部區域,使得輸出的特征圖幾乎無法關注通道之間的聯系,SE模塊引入了Squeeze和Excitation兩部分來引入通道之間的注意力。
Squeeze操作首先對特征圖每一個通道上的特征通過全局平均池化(GAP)進行融合,也就是實現了壓縮操作,構建全局特征。Excitation對得到的全局特征輸入帶有ReLU的2個全連接過程,實現對不同通道之間權重值的回歸。最終將原始特征圖與通過學習回歸得到的各通道的權重值進行相乘即可得到最終的帶有通道注意力的輸出特征圖。通過實驗發現,在網絡中過早引入SE操作會由于提取到的特征不夠高維而缺少通道之間的相關性,破壞圖像信息的連續性。因此選擇在ResNet網絡中第2個殘差塊即完成2次特征提取后引入SE操作,此時對特征圖通道維度之間的信息關注可以有效提升模型在單應性回歸任務中的表現。采用此種方式構造的SE殘差塊內部結構如圖3所示。
1.3" 張量直接線性變換(DLT)與空間變換層
基于文獻[20]的思路,本文設計了張量直接線性變換(direct linear transform,DLT)與空間變換層,用于實現基于單應性回歸結果的可微分的源圖像單應性扭曲變換。
張量直接線性變換操作緊隨在單應性網絡回歸層之后,用以將單應性網絡回歸得到的四點參數化單應性回歸結果通過直接線性變換的方法轉換為常規的3×3矩陣參數化,用以對圖像實現單應性扭曲變換。DLT算法是常用的單應性參數計算方法,張量直接線性變換是將其應用在網絡中回歸得到的張量上,在實現網絡訓練并行化的同時保持整體的可微分性用于網絡整體的反向傳播訓練。整體該層網絡的輸入是上一層回歸網絡得到的4對坐標偏移量,輸出的是3×3矩陣參數化的單應性H矩陣。
空間變換層串聯張量直接線性變換之后,通過STN實現對源圖像的單應性變換以獲取其扭曲源圖像。該層網絡主要利用了空間變換網絡的可微分透視變換特性,包含3個主要組成部分:單應性估計的歸一化逆運算、參數化采樣網格生成器、可微分采樣。利用這3部分可以實現依靠3×3矩陣參數化的單應性H矩陣作為輸入,可微分地輸出經過單應性變換扭曲后的源圖像,變換圖像的同時保證了網絡的可微分性用于神經網絡反向傳播訓練。
1.4" 基于掩膜的無監督損失構造方式
在之前的無監督深度學習方案中,通常采用2個經過裁剪的小圖像塊作為輸入,根據輸入前向推理回歸單應性變換之后,通過單應性變換將源圖像進行變換后再取源圖像塊位置的新圖像塊與目標圖像塊構建L1光度誤差損失,通過衡量圖像塊中的像素相似程度間接反映單應性估計的準確性,在沒有單應性真值的情況下構建間接光度損失實現無監督學習。該過程網絡的整體損失表示為
L=‖P(H(Is))-P(It)‖1 ,(1)
式中:Is代表輸入源圖像;It代表目標圖像;H代表對圖像進行單應性變換的過程;P代表獲取圖像塊的過程。
損失的構建方式是無監督單應性估計訓練過程中的重要一環,直接影響單應性矩陣訓練的收斂性和穩定性。分析總結發現,大部分之前的無監督學習方案采用圖像塊輸入的原因是圖像經過單應性變換后生成的新圖像是形狀不固定的,在原始圖像分辨率下觀察新圖像是帶有形狀填充黑邊的,如果直接使用變換后的源圖像與目標圖像構建光度誤差損失會出現很多錯誤損失點,無法正確計算網絡損失。通過選擇小圖像塊計算損失的方法可規避該問題,在小圖像塊中經過單應性變換后原像素位置會由別的像素進行填充,不會有圖像中出現黑邊的情況,保證損失計算的正確性。一方面,這種妥協的做法限制了網絡輸入圖像的尺寸,降低了網絡感知域從而限制了網絡精度;另一方面,這種輸入方式在2幅輸入圖像之間基線較大重疊較小的情況下,可能會出現圖像中存在重疊區域但2個圖像塊中不存在重疊區域的現象,此時網絡的推理將會完全失效。
為了解決以上總結的使用圖像塊作為輸入的方法中存在的問題,本文使用了一種基于掩膜的無監督損失構造方式,直接使用2張原始分辨率尺寸的圖像作為輸入,確保所有的重疊區域都在網絡的輸入中進行體現,在提高網絡感知域精度的同時加強網絡對于圖像基線長度變化的魯棒性。具體地講,本方法通過將2幅完整圖像輸入單應性網絡回歸層得到源圖像到目標圖像的單應性變換參數,通過空間變換層對源圖像進行單應性變換,同時構建一個與源圖像分辨率一致的全1掩膜輸入矩陣,將掩膜同樣輸入參數相同的空間變換層得到單應性變換后的掩膜,因而變換后的掩膜中像素值為1的區域表示變換后源圖像的有效像素區域,為0的表示無效像素區域。通過將掩膜與目標圖像按像素相乘即可濾除掉變換中的無效像素區域,得到掩膜處理后的目標圖像,其與變換后的源圖像之間不存在邊界效應,即可直接進行圖像相似度衡量構建有效誤差損失,監督該損失進行學習即可實現對單應性變換參數的學習。該構建損失的過程如圖4所示,其中SSIM代表結構相似性指數。
基于掩膜的無監督損失表示為
L′=‖H(Is)-H(Mask)·It‖1,(2)
式中:H表示單應性變化過程;Mask表示與源圖像相同分辨率的全1掩膜輸入矩陣;·代表按圖像像素相乘。式(2)表示了以L1光度誤差的方式衡量圖像相似性,計算網絡整體損失。
1.5" 基于感知損失度量的二元損失
構建無監督損失的過程即為衡量單應性變換后的源圖像與目標圖像之間相似性的過程,2幅圖像相似性越高代表網絡單應性變換回歸越準確,因此如何準確、魯棒地衡量2幅圖像的相似度是準確構建網絡損失的關鍵問題。本方法以感知損失度量為相似度指標損失,并引入了約束圖像掩膜完整性的正則指標損失,將2類損失結合構建了最終的二元網絡損失。
在之前的無監督深度單應性回歸工作中,研究人員通常采用直接計算2幅圖像之間的平均像素光度損失(L1損失)作為網絡損失,例如文獻[20]中定義網絡損失的公式為
LPW=1|xi|∑xi|Is(H(xi))-It(xi)|,(3)
式中:xi代表圖像中的離散像素;Is(H(xi))表示經過單應性變換后的源圖像像素點;It(xi)表示目標圖像像素點,網絡損失基于2幅圖像所有像素光度誤差的均值來建立。對于圖像中每個像素,L1損失計算其在2個圖像之間的差的絕對值,然后對這些值取平均,其整體計算較為簡單,易于實現。但在實際應用過程中,由于拍攝原因2幅圖像之間可能存在亮度、對比度等因素變化,直接計算L1損失會引入額外的像素誤差導致損失偏差較大,從而影響網絡整體的收斂效果。
SSIM[27]損失是基于視覺感知的一種圖像相似度度量,考慮了圖像的亮度、對比度和結構3個方面,旨在改善傳統像素對比的方法無法充分反映人類視覺感知特性的問題。本文網絡損失函數主體采用了基于SSIM損失的設計思路,可以更好地處理亮度、對比度和圖像結構的變化,在圖像單應性估計的工作中獲得了更高的泛化性。
其計算相似性的過程由亮度、對比度和結構3部分構成,其中亮度部分的計算公式為
l(x,y)=2μxμy+c1μ2x+μ2y+c1 。(4)
對比度部分的計算公式為
c(x,y)=2σxσy+c2σ2x+σ2y+c2。(5)
結構部分的計算公式為
s(x,y)=σxy+c3σxσy+c3。(6)
式中:μx和μy分別表示2幅圖像的均值;σx和σy分別表示2幅圖像的方差;σxy表示2幅圖像之間的協方差;c1、c2和c3是3個常數,用于避免分母為0。整體構建SSIM損失是三者的乘積,通常得到最終的計算公式為
SSIM′(x,y)=(2μxμy+c1)(2σxy+c2)
(μ2x+μ2y+c1)(σ2x+σ2y+c2) 。(7)
此時計算出的取值范圍在-1~1之間,數值越大代表圖像相似度越高,為了構建損失用于網絡整體損失遞減收斂訓練,構建:
SSIM(x,y)=1-SSIM′(x,y)2 。(8)
得到最終在0~1范圍內的損失,且數值越小代表圖像相似度越高,進而代表網絡單應性估計越準確。因而采用SSIM指標的網絡的相似度指標損失可以表示為
Lsim=SSIM(H(Is),H(Mask)·It) ,(9)
由于網絡采用了基于掩膜的無監督損失構造方式,當單應性變換后的源圖像H(Is)與源圖像Is之間重疊較小甚至沒有重疊時,H(Is)趨近于全0矩陣,H(Mask)同樣也會趨向于一個幾乎全0的矩陣,此時參與計算相似度損失的有效像素量趨近于零,但計算得到的Lsim也趨近于零,相似度損失極小。此時如果只采用圖像相似度損失作為網絡損失,網絡訓練過程會陷入局部最優解,無法完成正常的訓練過程,該種錯誤情況如圖5所示。
因而本文在損失函數設計中引入了基于變換掩膜均值的正則項作為約束圖像掩膜完整性的正則指標損失,其計算方法為
Lreg=1Mean(H(Mask))+0.001 ,(10)
式中:Mean為計算該矩陣所有元素的均值;Lreg取值范圍為0~1,其中越接近1代表圖像掩膜越完整,當Lreg趨向于0時,代表網絡陷入了局部最優解,對其進行正則損失懲罰,增加網絡整體損失。將相似度指標損失與正則指標損失結合,最終共同構建的二元損失如下:
L=λLsim+(1-λ)Lreg,(11)
式中λ為網絡超參數,用于調整2個損失部分的權重大小。
1.6" 無監督數據生成方法
神經網絡的訓練過程需要大量數據集作為輸入以實現網絡的參數學習,由于帶有單應性變換真值標簽的真實數據集的獲取成本較高,因而在單應性估計任務中通常采用基于一般圖像數據集生成的合成數據集。本文構建的網絡結構采用無監督學習方法,網絡需要的訓練集僅需要2幅具有單應性變換特性的圖片對進行構建。本文基于MSCOCO圖像數據集[27]自行構建了Homo-COCO合成數據集,相比于之前工作采用圖像塊作為單應性變換來構建數據集,本文直接基于原始圖像尺寸進行單應性變換獲取訓練圖像對,得到更穩定、噪聲更小的數據集,以顯著提高網絡整體的收斂效果;且在引入隨機注入顏色、亮度和伽馬位移的基礎上,引入圖像的隨機高斯模糊,以使模型對光照變化具有魯棒性的同時,具有對于單應性估計中相機運動圖像模糊的魯棒性。
生成訓練數據集的主要過程包含以下步驟。首先,根據讀入源圖像的分辨率獲取圖像4個角點的像素坐標;然后,對4個角點進行隨機擾動獲取角點像素偏移量,根據擾動得到的4組像素偏移量計算單應性變換矩陣H,將H矩陣的逆矩陣作用于整張源圖像得到生成的目標圖像;最后,將源圖像與生成的目標圖像組成一組訓練對放入訓練集中。其簡要過程圖如圖6所示。
為使模型具有對光照變化的魯棒性,根據文獻[20]的思路,考慮在數據集制作基本流程的基礎上,隨機注入顏色、亮度和伽馬位移,以使訓練出的模型具有對光照變化的泛化性。此外,現實世界相機運動過程中由于運動所帶來的圖像模糊現象時有發生,而單應性估計任務中的合成數據集并未考慮該模糊因素,故本文額外引入對于模糊的數據增強來解決該問題。相機運動過程產生的噪聲可以近似為高斯噪聲,因而采用隨機的高斯模糊操作作用生成的目標圖像,用隨機產生的高斯模糊半徑對應隨機的運動模糊效果,最終得到帶有隨機運動噪聲效果的目標圖像與源圖像對,加入最終的訓練集中。生成的訓練圖像中,對目標圖像相比源圖像帶有隨機單應性變換、顏色變化、亮度變化、伽馬位移和高斯模糊效果。
2" 實驗驗證
目前常見的單應性估計方法包括傳統方法、有監督學習方法與無監督學習方法,本文綜合這3種典型方法進行實驗比較。具體而言,在傳統方法中選擇了SIFT+RANSAC的方法作為代表,其相比于ORB等大多數傳統方法具有更高的準確性;在有監督學習中選擇了文獻[16]中的HomographyNet模型,其是首個采用學習方式估計圖像單應性的模型,是有監督學習的典型代表;在無監督學習中選擇了文獻[20]和文獻[23]中的模型,文獻[20]首次將無監督學習引入單應性估計任務中,文獻[23]是目前無監督深度單應性估計任務中的SOTA解決方案。
針對3種對比方法,本文在實驗環節進行了準確性的定量比較,并設計實驗測試了各種方法對于重疊率、光照變化以及運動模糊的魯棒性。本文在自行構建的Homo-COCO數據集測試集上對各種方法的表現進行評估,其是典型生活化場景,且包含了不同重疊率、不同光照變化以及不同運動模糊效果的測試數據。
本文中訓練集和測試集均采用了上文所述的數據集生成方法,在MSCOCO數據集[28]的基礎上自行構建Homo-COCO數據集,其中訓練集包含100 000對圖像,測試集包含(5 000+2 000)對圖像。數據集來源于MSCOCO數據集,因而其覆蓋了包含弱紋理、暗光、重復紋理等多種復雜條件的生活化場景,內容全面。在測試集生成過程中控制了圖像對之間的重疊率,用于在測試階段測試算法對基線長度變化方面的魯棒性,其中圖像對之間重疊率變化依靠數據集生成方法中的隨機擾動量控制。為了測試算法對于光照變化以及運動模糊的魯棒性,在測試集中額外生成了2 000對明確引入隨機光照變化與高斯模糊的圖像,以驗證本文方法在這2部分極端場景下的表現。
此外,本文方法預期應用場景為隧道內部的掌子面場景,因而實際采集、構建了一部分隧道圖像數據對本文算法進行測試。隧道圖像在廣西桂林某實際隧道項目中進行采集,采集設備為DJI Osmo Action 3,圖像原始分辨率為2 688×1 512。為了便于進行模型測試,將圖像同樣縮放為320×240的像素尺寸。該場景具有重復紋理、低光照、位移變化大、噪聲模糊大等技術難點,其可完美考驗模型對于視差、光照、噪聲等的魯棒性,該部分測試圖像對的生成方法與上文方法保持一致,主要覆蓋了典型的隧道內部作業場景,測試集大小為700組圖片。所有測試集下的評估指標均采用4pt-Homography RMSE方法,其計算如式(12)所示。
LH=‖H4pt-H*4pt‖2,(12)
式中:H4pt為估計的4個邊緣點偏移量;H*4pt為真實的邊緣點偏移量。計算估計的圖像4個邊緣點偏移量與真實的邊緣點偏移量之間的二范數,用以衡量各個方法在測試集上單應性估計的準確性。
本文提出的無監督深度學習方法在Pytorch框架中實現,使用批大小為256的隨機梯度下降方法進行訓練,訓練過程中采用了Adam優化器,根據經驗設置了初始學習率為0.000 1,網絡超參數λ初始值設置為0.9,在訓練過程中學習率逐漸下降,超參數λ逐漸上升以提高感知誤差的損失權重。硬件上使用了1張Nivdia A6000顯卡,在16 h的訓練時間中,模型在訓練集上總計進行了150輪的迭代訓練。
訓練采用了豐富的圖像數據,模型得到了充分的預訓練,在其他特定數據集上可以進行后續微調優化。
基于特征的傳統SIFT+RANSAC方法采用標準的OpenCV Python進行實現,在雙路Intel Xeon Platinum 8336C CPU上進行運行測試,通過對2張測試對圖像提取SIFT特征,并基于提取到的特征做特征匹配,根據經驗采用閾值為5像素的RANSAC進行魯棒單應性估計,保證特征匹配的準確性。基于深度學習的對比方法采用預訓練模型直接進行推理,同樣采用1張Nivdia A6000顯卡進行推理,以便與本文提出的方法對比準確性與魯棒性。
2.1" 不同方法的定性及定量比較
本文主要設計了4組對比試驗,以比較各種單應性估計方案。4組對比實驗主要包括:Homo-COCO測試集RMSE對比效果、隧道環境測試集RMSE對比效果、針對基線長度變化的對比效果,以及針對光照變化與運動模糊的對比效果。
2.1.1" Homo-COCO測試集RMSE對比效果
在依據上文介紹方法構建的Homo-COCO測試集上進行第1組對比測試,其中測試集生成過程中的隨機擾動量最大值設置為45,即圖像4個角點最大隨機偏移45個像素值。本實驗主要驗證包含本文方法在內的5種不同方法的準確率,其中準確率評價指標采用式(12)介紹的均方根誤差RMSE方法,其取值越小代表單應性估計得越準確。最終得到的測試結果如表1所示。
根據表1中的測試數據可以發現:首先,本文提出的基于深度學習的方法在準確度方面優于以SIFT方法為代表的傳統方法;其次,本文提出的無監督學習方法同樣優于有監督學習方法,有監督學習方法相比于一般的無監督學習方法通常有著更高的準確率;最后,本文的無監督學習方法優于現有的無監督學習方法,由于采用了更大的網絡模型與網絡深度,本文的方法在測試集所有部分的表現均優于目前最優的無監督學習方法。綜上所述,本文方法在5 000對測試集上的RMSE準確度表現大幅度領先其余4種對比方案,在典型生活化場景下的測試表現出了顯著的單應性估計效果。
2.1.2" 隧道環境測試集RMSE對比效果
在自行構建的隧道測試集上進行第2組對比試驗,依舊進行RMSE準確率的量化對比,以及展示部分樣例的定性對比。隧道測試集中涵蓋了典型的隧道內部環境場景,其相比于Homo-COCO數據集中的生活化場景更加凸顯了圖像中的強光、暗光、重復或缺乏紋理以及運動模糊等極端場景,更加考驗單應性估計的穩定性。基于深度學習的方法均未在此類場景上進行訓練,考驗了模型整體的環境泛化性。如表2所示,展示了5種單應性估計方法在700對隧道測試集上的RMSE均值以及估計成功數量和百分比。其中本文實驗設定當單應性估計的RMSE小于10時,認為此次單應性估計成功,否則認為此時偏差過大,單應性估計結果已經失效不可用。
本方法由于統計的是全圖4個邊角偏移量的大小,因而偏移尺度自然會更大,評價過程中存在天然劣勢,但在RMSE過程中仍舊遠超其他方法,進而表明了本方法在非訓練過的隧道場景的準確性、魯棒性與泛化性。幾種其他對比方法中,SIFT+RANSAC的方法表現出了稍好的效果。圖7展示了本方法在某些基于SIFT+RANSAC的方法失效場景下的對比效果,以直觀觀察其他單應性回歸方法失效場景的主要特點。其中s、t圖分別表示源圖像與目標圖像,2幅圖像中的紅色框表示單應性估計真值所對應的四點偏移量,黃色框表示單應性估計方法估計出的四點偏移量,兩者越貼合表明單應性估計越準確。
2.1.3" 針對基線長度變化的對比效果
為了驗證本文方法對于大基線場景的適應性,在不同基線長度的Homo-COCO測試集上進行了分類對比分析,采用RMSE評價方法的單應性回歸對比效果。其中測試集上的不同基線長度依靠不同范圍的角點隨機擾動量進行生成,將4點x、y坐標隨機擾動量的絕對值均值作為基線控制參數,當基線控制參數小于等于20時,認為當前圖像對為小基線;當基線控制參數大于20而小于等于25時,認為當前圖像對為中基線;當基線控制參數大于25時,認為當前圖像對為大基線。以此為標準分類過后的Homo-COCO測試集組成如表3所示。
作為目前無監督學習單應性估計中的SOTA解決方案,Unsup-PFNet方法是本文無監督學習方法的主要對比方案,因而在本實驗部分主要測試了本方法、Unsup-HomoNet方法和Unsup-PFNet方法在以基線大小分類后的Homo-COCO測試集上的單應性估計表現。同樣以RMSE指標進行量化評估,各基線長度的實驗結果如表4所示。
根據實驗結果首先可以發現,3種方法的單應性估計效果均與圖像對之間的基線大小存在直接關聯,因而可以認為基線大小是決定單應性網絡估計效果的關鍵參數。其次,作為無監督學習類方案中的代表性方法,Unsup-HomoNet方法在小基線場景的RMSE評估均值為9.33,基本滿足成功單應性估計的目標,證明該方法在小基線場景具有一定的適應性;但經過實驗可以發現,在大基線場景下,Unsup-HomoNet方法的RMSE評估均值為33.84,明顯差于該方法在小基線場景的表現。本方法在大基線場景下的RMSE評估均值為5.00,明顯優于其他2種無監督方法,且相比于本方法在小基線場景與中基線場景的表現也并無明顯落后。
由此可見,本方法在整體RMSE評估指標優于既有方法的同時,在基線大小這個主要影響因素下也具有一定的魯棒性,在大基線場景下同樣可以保持不明顯遜色于小基線場景的單應性估計表現,RMSE評估指標滿足成功單應性估計的需要。相比于既有方法,本方法對大基線場景有顯著的適應性。
2.1.4" 針對光照變化與運動模糊的對比效果
為了驗證本文方法對于現實應用場景中常見的光照變化與運動模糊效果的適應性,在2 000對明確引入隨機光照變化與高斯模糊的圖像測試集上進行了實驗測試。該部分測試集基本的生成方法與之前的方法保持一致,但經單應性變換生成目標圖像后,額外對測試集中所有目標圖像進行了從0.9~1.1范圍內的隨機伽馬偏移、0.8~1.2范圍內的隨機亮度調整,以及0.9~1.1范圍內的隨機RGB三通道顏色調整,并額外引入了0.01~1.0范圍內大小高斯核的隨機高斯噪聲作為運動模糊項。
從原理上來講,SIFT等傳統方法由于特征點具有光照不變性等技術特點,與基于深度學習的端到端估計方法相比,其對于光照變化與運動模糊的魯棒性會更高。因而在本實驗部分,選擇與SIFT+RANSAC的單應性估計方法進行對比,橫向比較本方法在多種場景的適應性。實驗數據對比結果如表5所示。
由定量實驗結果可以發現,SIFT+RANSAC方法在該特定環境數據集上仍舊有著與一般數據集相當的單應性估計效果,說明傳統方法對于一般的光照變化與運動模糊的適應性較好,這2個因素對其幾乎沒有影響;同時本方法由于無監督學習網絡的傾向圖像相似特性,在該特定環境數據集上的表現相比于一般數據集有少許退步,但整體效果相比于SIFT+RANSAC方法仍具有明顯競爭力,整體網絡單應性估計成功率為99.8%,絕大部分估計結果可以認為是有效的。因而總體來看,本方法對于光照變化與運動模糊具有一定的適應性。
圖8展示了一些測試樣下的單應性估計定性對比結果,其中s、t圖以及黃色、紅色框的定義與前文保持一致。從圖中可
以直觀看出,SIFT+RANSAC方法在某些具有光照變化與運動模糊的場景存在估計失效的問題,而本文方法在這些場景下表現良好。
2.2" 消融實驗
帶有注意力機制的單應性回歸網絡層、基于掩膜與感知損失度量的二元無監督損失以及帶有隨機光照變化與運動模糊的Homo-COCO數據集是本工作的3部分主要貢獻。其中關于帶有隨機光照變化與運動模糊的Homo-COCO數據集的數據增強訓練作用已經在針對光照變化與運動模糊的對比效果中有所體現,其顯著增強了網絡對隨機光照變化與運動模糊的適應效果,驗證了應用該數據集相比于應用之前的合成數據集在網絡訓練效果上的優越性。消融實驗將主要就帶有注意力機制的單應性回歸網絡層與基于掩膜與感知損失度量的二元無監督損失進行,驗證這2部分貢獻對于本文方法的有效作用。
2.2.1" 帶有注意力機制的單應性回歸網絡層驗證
為了驗證本文引入的帶有注意力機制的單應性回歸網絡層對于單應性估計準確度的提升效果,將本文架構中的單應性回歸網絡層替換為與文獻[20]中類似的VGG型架構,在損失函數構建部分保持不變的情況下,該部分實驗在Homo-COCO測試集的5 000對圖像數據上以RMSE的值定量對比單應性估計的準確度,實驗結果如表6所示。
結果表明,本文在單應性回歸網絡層中引入的SE注意力機制以及ResNet型網絡架構,可以優化網絡模型,提升網絡的適應性與回歸效果,從而提升了本文網絡整體在單應性回歸任務中的精度表現。
2.2.2" 基于掩膜與感知損失度量的二元無監督損失驗證
為了驗證本文提出的基于掩膜與感知損失度量的二元無監督損失對于網絡模型的應用效果,在此進行類似的消融實驗設置。保持本文架構中帶有注意力機制的單應性回歸網絡層不變,采用與文獻[20]中類似的損失構造方式,直接將單應性變換后的源圖像塊與目標圖像塊之間的L1損失,作為網絡損失進行回傳以更新網絡參數。該部分實驗同樣在Homo-COCO測試集的5 000對圖像數據上,以RMSE的值定量對比單應性估計的準確度,實驗結果如表7所示。
結果表明,本文在無監督損失構建過程中引入的基于掩膜與感知損失度量的二元無監督損失構造方式,可以優化模型訓練過程,提升網絡的收斂效果,且基于掩膜的損失構造方式主要提高了模型的感知域,提升了對于大基線場景單應性估計的精度,進而從整體上提升了本方法在單應性回歸任務中的性能表現。圖9展示了5組場景下采用圖像塊L1損失與采用基于掩膜與感知損失度量的二元無監督損失時,單應性估計準確性的對比效果。
其中第1行圖像表示輸入本文方法的源圖像與目標圖像,紅框內的區域表示輸入消融方法的源圖像塊與目標圖像塊,可以直觀發現,2個圖像塊間重疊區域較小,網絡感知域受限;第2行與第3行圖像分別表示本文方法與消融方法的單應性估計效果對比,可以發現在圖像塊間重疊區域較小時,本文方法由于擴大了網絡感知域,進而提高了網絡整體的單應性估計表現,相較于消融方法有明顯的準確度提升。
3" 結" 語
本文提出了一種帶有注意力機制的大基線場景端到端單應性估計方法,用于以無監督學習的方式解決圖像單應性估計問題。構建了帶有SE注意力機制的單應性網絡回歸層,在傳統單應性回歸模型的基礎上采用了ResNet架構,利用SE注意力機制關注了圖像對通道間的聯系,提高了模型的適應性。摒棄了傳統的以圖像塊間L1損失作為網絡損失進行回傳的方法,提出了基于圖像掩膜與感知損失度量的二元無監督損失,利用圖像掩膜的方式將圖像整體引入網絡損失計算,提高網絡感知域,進而提高網絡對于大基線場景的適應性。構建了Homo-COCO合成數據集,其中包括100 000對訓練數據以及5 000對測試數據,數據集中引入隨機注入顏色、亮度和伽馬位移、高斯模糊,使得以此訓練集訓練的網絡模型對于光照變化與運動模糊具有一定的魯棒性,獲得更強的真實場景泛化能力。充分的對比及消融實驗表明,本文提出的單應性估計方法對比現有方法在精度上具有較強的優越性,且3部分均對于精度指標提升有所貢獻,方法在大部分場景下具有適應性。值得注意的是,由于網絡參數量較大,在典型場景下相比于其他單應性估計方法,本文方法在估計速度上不占優勢,將本文方法輕量化以更便捷地部署在移動設備上將是下一步工作的重點。
參考文獻/References:
[1]" YE
Nianjin,WANG Chuan,LIU Shuaicheng,et al.DeepMeshFlow:Content adaptive mesh deformation for robust image registration[EB/OL].(2019-12-11)[2024-08-20].https://arxiv.org/abs/1912.05131.
[2]" WANG Lang,YU Wen,LI Bao.Multi-scenes image stitching based on autonomous driving[C]//2020 IEEE 4th Information Technology, Networking, Electronic and Automation Control Conference (ITNEC).Chongqing:IEEE,2020:694-698.
[3]" CAMPOS C,ELVIRA R,RODRGUEZ J J G,et al.ORB-SLAM3: An accurate open-source library for visual, visual-inertial, and multimap SLAM[J].IEEE Transactions on Robotics,2021,37(6):1874-1890.
[4]" ZHANG Zhengyou.A flexible new technique for camera calibration[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(11):1330-1334.
[5]" SIMON G,FITZGIBBON A W,ZISSERMAN A.Markerless tracking using planar structures in the scene[C]//Proceedings IEEE and ACM International Symposium on Augmented Reality (ISAR 2000).Munich:IEEE,2000:120-128.
[6]" LUCAS B D,KANADE T.An iterative image registration technique with an application to stereo vision[C]//Proceedings of the 7th International Joint Conference on Artificial Intelligence.San Francisco:Morgan Kaufmann Publishers,1981:674-679.
[7]" BAKER S,MATTHEWS I.Lucas-kanade 20 years on:A unifying framework[J].International Journal of Computer Vision,2004,56(3):221-255.
[8]" LOWE D G.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.
[9]" FISCHLER M A,BOLLES R C.Random sample consensus:A paradigm for model fitting with applications to image analysis and automated Cartography[J].Readings in Computer Vision,1987.DOI: 10.1016/B978-0-08-051581-6.50070-2.
[10]PUMAROLA A,VAKHITOV A,AGUDO A,et al.PL-SLAM:Real-time monocular visual SLAM with points and lines[C]//2017 IEEE International Conference on Robotics and Automation (ICRA).Singapore:IEEE,2017:4503-4508.
[11]GEE A P,CHEKHLOV D,CALWAY A,et al.Discovering higher level structure in visual SLAM[J].IEEE Transactions on Robotics,2008,24(5):980-990.
[12]FANGXIANYONG W U F.An improved ransachomography algorithm for feature based image Mosaic[C]//Proceedings of the 7th WSEAS International Conference on Signal Processing.Athens:[s.n.],2007:202-207.
[13]SUN Deqing,YANG Xiaodong,LIU Mingyu,et al.PWC-Net:CNNs for optical flow using pyramid,warping,and cost volume[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:8934-8943.
[14]REVAUD J,WEINZAEPFEL P,HARCHAOUI Z,et al.DeepMatching:Hierarchical deformable dense matching[J].International Journal of Computer Vision,2016,120(3):300-323.
[15]LI Jingliang,LU Zhengda,WANG Yiqun,et al.DS-MVSNet:Unsupervised multi-view stereo via depth synthesis[C]//Proceedings of the 30th ACM International Conference on Multimedia.New York:Association for Computing Machinery,2022:5593-5601.
[16]ETONE D,MALISIEWICZ T,RABINOVICH A.Deep image homography estimation[EB/OL].(2016-06-13)[2024-08-20].https://arxiv.org/abs/1606.03798.
[17]SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[EB/OL].(2014-09-04)[2024-08-20].https://arxiv.org/abs/1409.1556.
[18]ZENG Rui,DENMAN S,SRIDHARAN S,et al.Rethinking planar homography estimation using perspective fields[C]//Computer Vision: ACCV 2018.Cham:Springer,2019:571-586.
[19]RONNEBERGER O,FISCHER P,BROX T.U-Net:Convolutional networks for biomedical image segmentation[C]//Medical Image Computing and Computer-Assisted Intervention: MICCAI 2015.Cham:Springer,2015:234-241.
[20]NGUYEN T,CHEN S W,SHIVAKUMAR S S,et al.Unsupervised deep homography:A fast and robust homography estimation model[J].IEEE Robotics and Automation Letters,2018,3(3):2346-2353.
[21]JADERBERG M,SIMONYAN K,ZISSERMAN A,et al.Spatial transformer networks[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems.Cambridge:MIT Press,2015:2017-2025.
[22]LIU Shuaicheng,YE Nianjin,WANG Chuan,et al.Content-aware unsupervised deep homography estimation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,45(3):653-669.
[23]KOGUCIUK D,ARANI E,ZONOOZ B.Perceptual loss for robust unsupervised homography estimation[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops.Nashville:IEEE,2021:4269-4278.
[24]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas:IEEE,2016:770-778.
[25]王珂,張根耀.基于ResNet模型的甲狀腺SPECT影像診斷[J].河北科技大學學報,2020,41(3):242-248.
WANG Ke,ZHANG Genyao.Diagnosis of thyroid SPECT image based on ResNet model[J].Journal of Hebei University of Science and Technology,2020,41(3):242-248.
[26]HU Jie,SHEN Li,SUN Gang.Squeeze-and-Excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:7132-7141.
[27]WANG Zhou,BOVIK A C,SHEIKH H R,et al.Image quality assessment: From error visibility to structural similarity[J].IEEE Transactions on Image Processing,2004,13(4):600-612.
[28]LIN T Y,MAIRE M,BELONGIE S,et al.Microsoft COCO:Common objects in context[C]//Computer Vision:ECCV 2014.Cham:Springer,2014:740-755.