








摘要:單應估計是許多計算機視覺任務中一個基礎且重要的步驟。傳統單應估計方法基于特征點匹配,難以在弱紋理圖像中工作。深度學習已經應用于單應估計以提高其魯棒性,但現有方法均未考慮到由于物體尺度差異導致的多尺度問題,所以精度受限。針對上述問題,提出了一種用于單應估計的多尺度殘差網絡。該網絡能夠提取圖像的多尺度特征信息,并使用多尺度特征融合模塊對特征進行有效融合,此外還通過估計四角點歸一化偏移進一步降低了網絡優化難度。實驗表明,在MS-COCO數據集上,該方法平均角點誤差僅為0.788個像素,達到了亞像素級的精度,并且在99%情況下能夠保持較高的精度。由于綜合利用了多尺度特征信息且更容易優化,該方法精度顯著提高,并具有更強的魯棒性。
關鍵詞:單應估計; 多尺度殘差網絡; 特征融合; 四角點歸一化偏移; 平均角點誤差
中圖分類號:TP183;TP751文獻標志碼:A文章編號:1001-3695(2022)10-048-3179-07
doi: 10.19734/j.issn.1001-3695.2022.03.0124
Homography estimation method based on multi-scale residual network
Tang Yun1, Shuai Pengfei1, Jiang Peifan1, Deng Fei1, Yang Qiang1,2
(1.College of Computer amp; Network Security(Oxford Brookes College), Chengdu University of Technology, Chengdu 610059, China; 2. College of Control Engineering, Chengdu University of Information Technology, Chengdu 610225, China)
Abstract:
Homography estimation is a basic and important step in many computer vision tasks. Traditional homography estimation methods are based on feature point matching, which are difficult to work in weak texture images. Deep learning has been applied to homography estimation to improve its robustness, but the existing methods do not consider the multi-scale pro-blem caused by object scale differences, resulting in limited accuracy. To solve the above problems, this paper proposed a multi-scale residual network for homography estimation. The network could extract the multi-scale feature of the image, and used the multi-scale feature fusion module to effectively fuse the features. In addition, it further reduced the difficulty of network optimization by estimating the four-corner normalized offset. Experiments on MS-COCO dataset show that the average corner error of this method is only 0.788 pixels, which achieves sub-pixel accuracy, and can maintain high accuracy in 99% of cases. Due to the comprehensive utilization of multi-scale features and easier to optimize, this method has significantly improved accuracy and stronger robustness.
Key words:homography estimation; multi-scale residual network; feature fusion; four-corner normalized offset; average corner error
0引言
單應(homography)指從一個平面到另一個平面的可逆映射,這種映射關系可以使用一個3×3的非奇異矩陣來表示,其中包含了平移、縮放、旋轉與透視,稱為單應矩陣[1]。給定兩幅圖像,從中估計這兩幅圖像之間的單應變換是計算機視覺中常見的需求。單應估計具有廣泛的應用場景,是圖像配準[2]、圖像拼接[3]、圖像矯正[4]、三維重建[5]以及SLAM[6]等任務中的基礎性工作,單應估計的精度對于這些任務有十分重要的影響。
傳統的單應估計方法通常是基于特征點匹配的。它使用SIFT[7]、SURF[8]或ORB[9]等算法提取圖像中的特征點,通過暴力匹配或FLANN[10]等匹配方法獲得兩組特征點的對應關系,最后利用RANSAC[11]算法剔除錯誤匹配后求解得到單應矩陣。然而這種方法的效果很大程度上依賴于特征點的數量與分布,難以應用于弱紋理圖像中,并且步驟比較繁瑣,許多超參數都需要人工指定[2]。
隨著深度學習的興起,基于深度學習的單應估計方法被相繼提出。2016年DeTone等人[12]首次提出了一種基于VGG架構的網絡用于單應估計,顯示了深度學習方法在單應估計中的潛力;2017年Nowruzi等人[13]使用一種分層堆疊的網絡,通過堆疊多個相同網絡模塊來逐步細化估計結果;Nguyen等人[14]提出了單應估計的無監督學習方法;2020年Zhang等人[15]以殘差網絡為主干,并使用內容掩碼來選擇可靠的區域進行單應估計。這些方法均取得了一定的效果,但都忽略了單應估計的多尺度性。在單應估計中,兩次拍攝的照片由于相機的位置、距離和角度的不同,導致兩張圖像中的同一物體可能具有不同的尺度,而上述網絡模型均未考慮到這一點,采用了單一尺度的特征進行單應估計,因此具有一定的局限性。
為了解決單應估計中存在的多尺度問題,同時也受到SKNet[16]在多尺度特征融合方式上的啟發,本文提出了一種多尺度殘差單應估計網絡(multi-scale residual homography estimation network,MRHENet)來進行單應估計。該網絡主要創新點有:a)使用不同感受野的卷積層提取多尺度特征進行單應估計;b)提出多尺度特征融合模塊(multi-scale feature fusion module,MFF Module)來有效融合多尺度特征;c)不直接估計四角點絕對像素偏移[12],而是估計四角點歸一化偏移。在MS-COCO[17]與ApolloScape數據集[18]上的實驗結果表明,本文方法優于現有方法。其中,在MS-COCO數據集上,本文方法平均角點誤差[12]僅為0.788個像素,與文獻[12,15]相比,誤差分別降低了85.0%和59.4%,因此該方法精度顯著提高,并且具有更強的魯棒性。
1基本原理
1.1傳統單應估計方法原理
假設通過針孔相機模型對同一平面上的物體進行兩次拍攝獲得一對圖像A和B,那么圖像A和B存在單應變換的關系。使用3×3的非奇異單應矩陣H來表示這種關系,那么根據單應矩陣的定義[1],可得單應變換式(1)。
x′y′1=H·xy1=h11h12h13h21h22h23h31h32h33·xy1(1)
其中:單應矩陣H將圖像A上的點(x,y)映射到另一圖像B上的(x′,y′)。將式(1)變換后,可得兩個線性方程:
x′=h11x+h12y+h13h31x+h32y+h33, y′=h21x+h22y+h23h31x+h32y+h33
(2)
在單應矩陣H中,h33為非零的縮放系數,一般為1,因此只有八個自由度。根據式(2),一組匹配點對可得兩個線性方程,因此最少只需要四組匹配點對即可求解單應矩陣,唯一的限制是這四組匹配點對中來自同一圖像的點需要滿足任意三點不共線[1]。
單應矩陣求解方法如式(3)所示。
Η=無法求解nlt;4
fDLT(cornersA,cornersB) n=4
fLS(cornersA,cornersB) ngt;4 (3)
其中:cornersA、cornersB分別表示對兩圖提取匹配特征點的坐標;n表示匹配點對的數量。匹配點對若少于四組,則無法求解;若只有四組,則可以使用直接線性變換法(direct linear transformation,DLT)求解單應矩陣;若多于四組,則可以使用最小二乘法(least squares,LS)求解。
傳統單應估計方法步驟如下:a)通過特征點檢測算法從待估計的兩圖中獲取特征點;b)使用特征點匹配算法以建立兩組特征點之間的對應關系;c)根據對應關系來求解單應矩陣。針對特征點檢測算法,目前已有大量研究。文獻[7]提出SIFT算法,其匹配精度高,但算法復雜度較高,運算時間長;文獻[8]對SIFT算法運算速度進行了改進,提出SURF算法;文獻[9]提出了ORB算法,計算效率較高但質量不如SIFT算法。特征點匹配可使用暴力匹配或FLANN[10]等方法。由于可能存在誤匹配的特征點對,在求解單應矩陣時,還需要使用RANSAC[11]算法排除誤匹配的離群值。
傳統單應估計方法依賴于特征點檢測質量與分布。實際上,為了達到理想精度而選擇的特征點檢測算法速度通常較慢,并且對于弱紋理圖像,往往難以找到足夠多的匹配點對來求解單應矩陣,導致誤差很大甚至無法求解。因此,傳統單應估計方法魯棒性較弱,在實際使用時有諸多限制。
1.2深度學習單應估計方法原理
基于深度學習的單應估計是指通過深度學習方法從輸入的兩張圖像中估計出對應的單應變換,其基本原理如圖1所示。假設有一對待估計圖像A和B,其中A為源圖像,B為目標圖像,圖像B是由圖像A經過單應變換而來,單應矩陣為H。基于深度學習的單應估計方法的基本步驟為:首先對圖像A和B進行預處理,然后將處理后的圖像輸入網絡,由網絡估計出某種形式表示的單應變換,最后計算得到單應矩陣H*(H*表示對H的估計值,下文均使用上標“*”表示估計值)。
單應變換具有多種表示方式,可以直接采用單應矩陣來表示,也可以采用四角點絕對像素偏移[12]或者其他形式來表示。由于單應矩陣中各個元素的意義與取值范圍各不相同,例如式(1)中h11、h12、h21和h22表示旋轉,h13、h23表示平移,而平移元素一般會遠遠大于旋轉元素,且無法對矩陣中的元素進行歸一化處理,所以直接使用深度網絡估計單應矩陣十分困難。為此,文獻[12]不直接估計單應矩陣,而是把單應矩陣參數化為四角點絕對像素偏移,通過網絡估計四角點絕對像素偏移從而得到四組匹配點對,再使用式(3)中的直接線性法求解以獲取單應矩陣。
與傳統單應估計方法相比,深度學習單應估計方法在速度和魯棒性上具有諸多優勢。傳統方法由于需要檢測和匹配特征點,速度通常較慢,并且在弱紋理圖像中難以獲得穩定有效的匹配點對,導致不能工作。而深度學習方法無須檢測與匹配特征點,所以速度較快。對于傳統方法不能處理的弱紋理圖像,深度學習同樣能根據大量訓練數據學習到的規律來估計出較合理的單應矩陣。因此深度學習單應估計方法在實際使用中限制較小、魯棒性更強,具有較大的應用價值。
2多尺度殘差單應估計網絡
2.1網絡結構
2016年文獻[12]首次將一種VGG架構的網絡用于單應估計,但由于網絡結構簡單且深度較淺,效果與傳統方法相比提升有限。傳統的卷積神經網絡隨著深度不斷加深,網絡可能會出現退化,訓練也會更加困難。因此,2016年He等人[19]提出殘差網絡(ResNet),通過恒等映射來降低深度網絡訓練難度。2020年文獻[15]使用ResNet34作為主干,并使用內容掩碼來進行單應估計,效果相比于前人有一定提高。但是以上方法均忽略了單應估計中存在的多尺度問題,因此具有一定的局限性。
在單應估計中,兩次拍攝的照片由于相機位置、距離和角度的不同,兩張圖像之間會存在扭曲與縮放,導致圖像中同一物體尺度可能會發生變化,所以單應估計面臨多尺度的挑戰。為了解決這一問題,本文綜合多尺度特征信息來估計四角點歸一化偏移,提出了一種多尺度殘差單應估計網絡來進行單應估計。該網絡相比于前人提出的單應估計網絡具有明顯的創新:首先,網絡具有三個多尺度分支,能夠提取圖像的多尺度特征信息;其次,提出了多尺度特征融合模塊(MFF module)來逐步融合多尺度特征;最后,網絡并不直接估計四角點絕對像素偏移,而是估計四角點歸一化偏移。網絡結構如圖2所示。
網絡輸入待估計的兩張128×128的歸一化灰度圖像,輸出表示四角點歸一化偏移的4×2矩陣H*4pt_norm。具體計算過程如下:首先,將待估計的兩圖像歸一化后堆疊成雙通道,同時輸入到三個特征提取分支中,分別提取大尺度、中尺度和小尺度的特征,其中,中尺度和小尺度分支具有額外的步長為2的卷積層用來減小特征圖;三個分支經過ReLU激活函數后,大尺度特征圖輸入到ResNet34[19]的stage1塊,stage1塊輸出與中尺度特征圖通過一個MFF模塊(縮放系數r=2)融合后作為stage2塊的輸入,stage2塊輸出與小尺度特征圖再通過一個MFF模塊(r=4)融合后依次通過stage3塊和stage4塊;最后,特征圖通過平均池化后形狀變為1×1×512,再經過全連接層輸出4×2的矩陣H*4pt_norm。為了加速訓練,在每個卷積層后均使用了BatchNorm層[20]。
2.2多尺度特征提取
在單應估計中,兩次拍攝的照片由于相機位置、距離和角度的不同,兩張圖像之間會存在扭曲與縮放,導致圖像中的同一物體尺度可能會發生變化,所以單應估計面臨多尺度的挑戰。而文獻[12~15]均忽略了這個問題,將兩圖視為相同尺度對待,使用單一大小的卷積層來提取圖像的原始特征。單一的卷積核感受野是固定不變的,導致提取到的特征是在單一空間尺度下的,雖然特征會在后續的卷積層和激活函數后被不斷聚合成深層語義特征,感受野逐漸變大,但此時已經丟失了圖像原始的空間、幾何等細節特征[21]。因此,使用單一尺度的特征來進行單應估計具有一定的局限性,尤其在兩張圖像具有較大尺度差異時效果不佳。因此,多尺度特征信息對于單應估計是十分重要的。本文把多尺度特征信息引入網絡,利用多尺度特征信息來解決單應估計中尺度不一致的問題,從而提高單應估計的精度,使得即使在圖像尺度差異較大的情況下該方法也可以達到理想效果。
如圖2所示的網絡具有大、中、小三個尺度的提取分支,每個分支能夠提取對應尺度的特征,因此網絡能夠利用多尺度特征信息來估計單應變換。具體來說,在三個多尺度分支中,分別使用了感受野為7×7、5×5和3×3空洞卷積層[22]來提取圖像的不同尺度上的特征。圖3顯示了空洞卷積層的原理,與標準卷積相比,空洞卷積可以保證感受野大小不變的同時降低參數量和計算量,能夠提高計算效率。
在原始的ResNet34中,使用了最大池化來對特征圖下采樣,但是最大池化下采樣過程中只保留最大值,導致其余特征信息丟失,因此本文沒有使用最大池化,而是將stage1塊中第一層卷積步長設置為2(原始步長為1),在避免特征信息丟失的同時也減少了計算量。由于后續的MFF模塊需要輸入兩個相同形狀的特征圖,所以在中尺度和小尺度特征提取分支中分別使用了一層和兩層卷積核為2×2、步長為2的卷積層,用于對特征圖下采樣以匹配后續的MFF模塊,同時也可以加強特征信息在通道上的交流。
2.3多尺度特征融合
在基于卷積的單應估計網絡中,圖像特征通過卷積層逐漸由淺層特征變為深層特征。淺層特征分辨率更高,包含更多位置、幾何等細節信息,但是由于經過的卷積層較少,其語義性更低;而深層特征具有更強的語義信息,但是對細節感知能力較差。有效利用淺層特征與深層特征的優勢是提高單應估計精度的關鍵之一。
因此,網絡并沒有在剛開始就將三種尺度的特征融合,而是在stage1塊和stage2塊后分別將中尺度和小尺度的特征融合到網絡主干中。采用了逐步融合的方式能夠利用淺層特征包含的細節信息對深層特征進行補充,實現淺層特征與深層特征優勢互補。多尺度分支提取的特征由于尺度不同,如果直接通過相加來融合會導致不同尺度特征混合而難以充分利用多尺度特征的優勢;如果將特征在通道上連接,多尺度特征能得到保留,但是通道數就會加倍,計算效率會大幅降低。考慮到特征雖然尺度不同,但均來自于同一輸入,所以特征之間會存在冗余。為了充分利用多尺度特征并減少冗余以提高計算效率,同時也受到文獻[16]在多尺度特征融合方式上的啟發,本文提出了使用MFF module來融合不同尺度的特征。
MFF模塊結構如圖4所示。輸入兩個不同尺度的特征圖x1、x2∈Euclid ExtraaBpH×W×C,MFF模塊輸出融合后的特征圖xout∈Euclid ExtraaBpH×W×C。文獻[16]為了融合不同尺度的特征,先將x1與x2直接相加,再使用1×1的平均池化來提取通道上的信息。而本文與文獻[16]有兩處不同:a)本文先將x1與x2在通道上連接,這樣可以保持x1與x2各自的特征,便于后續提取通道上的特征;b)本文同時使用了1×1平均池化與1×1最大池化來提取通道上的信息,原因是平均池化只能提取到全局的平均信息,不能提取到局部信息,而最大池化只能提取局部信息而不能提取到全局信息,所以同時使用平均池化與最大池化能夠綜合全局與局部的信息。MFF模塊具體計算過程如下:
a)將x1、x2在通道上連接,得到xcat∈Euclid ExtraaBpH×W×2C,對xcat分別使用1×1平均池化和1×1最大池化提取通道上的信息并將結果相加,得到xg∈Euclid ExtraaBp1×1×2C。
xg=AvgPool(xcat)+MaxPool(xcat)(4)
b)使用節點數為C/r的全連接層fc0(r表示縮放系數)縮短xg的長度以提高計算效率,隨后通過ReLU函數,得到zr∈Euclid ExtraaBp1×1×C/r。zr分別通過兩個節點數為C的全連接層fc1、fc2,得到z1、z2∈Euclid ExtraaBp1×1×C。
zr=ReLU (fc0(xg))
z1=fc1(zr),z2=fc2(zr)(5)
c)將z1、z2在通道上堆疊,并在通道上使用softmax函數,得到輸入的兩特征圖在通道上的權重w1、w2∈Euclid ExtraaBp1×1×C。
w1[i]=ez1[i]ez1[i]+ez2[i], w2[i]=ez2[i]ez1[i]+ez2[i](6)
d)使用廣播乘法將x1、x2分別與w1、w2相乘,再將其結果相加,得到融合后的特征圖。
xout=x1w1+x2w2(7)
不同于將特征圖直接簡單相加,MFF模塊能夠綜合通道上的全局信息為不同尺度的特征圖分配相應權重,使得網絡具有根據輸入的圖像選擇合適尺度的特征進行單應估計的能力。不同尺度的特征信息經過MFF模塊融合后能夠保留有效特征,減少冗余與無效的特征,有利于網絡充分利用多尺度特征信息,從而提高單應估計的精度。
2.4四角點歸一化偏移
文獻[12]為了解決直接估計單應矩陣而導致網絡難以優化的問題,將單應矩陣參數化為四角點絕對像素偏移H4pt,通過估計四角點絕對像素偏移來間接估計單應矩陣,在一定程度上降低了網絡優化的難度。但是,實際上四角點絕對像素偏移在數值上差異仍然較大,這會使得網絡優化過程中梯度差異較大,不利于網絡優化。同時也考慮到深度網絡中的權重一般會初始化為-1.0~1.0,而四角點絕對像素偏移在大部分情況下會遠大于1像素,為了學習到這種絕對像素偏移的分布規律,網絡權重相對于初始值會發生較大改變,因此使用網絡直接估計四角點絕對像素偏移不利于網絡收斂。為了進一步降低網絡優化難度,本文用網絡估計四角點歸一化偏移H4pt_norm,計算方法如式(8)所示。
H4pt_norm=Δx1Δy1Δx2Δy2Δx3Δy3Δx4Δy4=H4pt·1W001H(8)
其中:Δxi與Δyi(i=1,2,3,4)表示從圖像原點開始順時針第i個點在圖像寬度與高度方向上的歸一化偏移量;W與H分別表示圖像的寬度與高度。由網絡估計的四角點歸一化偏移H*4pt_norm到單應矩陣H*的計算方法如式(9)~(11)所示。
cornersA=000HWHW0(9)
cornersB=cornersA+H4pt_norm·W00H(10)
H*=fDLT(cornersA,corners*B)(11)
3實驗與分析
3.1網絡訓練
本文使用MS-COCO與ApolloScape數據集,按照文獻[12]方法生成實驗所需數據集,不同的是本文并沒有將圖像縮放到320×240,這會使網絡從更少的特征中學習單應估計,有利于增強網絡魯棒性。除此以外,本文還通過將像素值除以255的方式來對圖像進行歸一化。總共生成了22萬對圖像,圖像尺寸為128×128,最大角點偏移ρ=32像素(圖像的四分之一),其中18萬對用于訓練網絡,4萬對用于驗證網絡。
損失函數使用平均角點誤差(average corner error,ACE)[12],表示預測的四角點偏移與真實值的平均歐氏距離,單位為像素(pixel,px),計算方法如式(12)所示。
ACE=14∑4i=1(Δxi-Δx*i)2+(Δyi-Δy*i)2×128(12)
本文基于PyTorch深度學習框架來完成實驗。訓練過程中,使用了概率為0.5的隨機翻轉用于增強數據,采用Adam優化器,L2正則化權重衰減系數設置為0.003,每次迭代訓練256對圖像,初始學習率為0.000 2,每迭代20k次學習率乘以0.7,總共迭代200k次。
3.2實驗測試
為了驗證本文方法的實際效果,使用3.1節中的方法分別在最大角點偏移ρ=8 px、16 px、24 px和32 px時各生成了4萬對圖像,總共生成了16萬對圖像作為測試集。其中ρ=8 px表示最大偏移距離較小,ρ=32 px表示最大偏移距離較大,因此測試集中包含了不同程度偏移的圖像對。
在測試過程中,平均角點誤差ACE可能偶爾出現極端大的情況,導致整個測試集上的平均ACE(mean average corner error,Mean-ACE)偏高,同時傳統方法可能會由于特征點較少而失敗。所以本文對ACE作出限制,對于ACEgt;32 px或者傳統方法失敗的情況,均視為ACE=32 px。對于128×128的圖像,如果ACEgt;32 px則意味結果幾乎沒有任何價值,所以選擇用32 px作為閾值。由于Mean-ACE誤差只能反映誤差在測試集上的平均情況,不能反映誤差分布情況,所以本文引入了中值ACE(median average corner error,Median-ACE)作為評價指標之一。對于ACEgt;32 px或者傳統方法失敗這兩種情況,意味著這次估計是無效的,所以本文還引入了無效率(invalid rate,IR)作為評價指標之一,表示無效的情況在測試集中的比例。實驗中所有方法均經過多次測試,以避免偶然情況。
為了分別驗證本文提出的三個改進點的效果,首先進行了消融實驗。所有模型均使用相同的方法進行訓練與測試,在MS-COCO數據集上的消融實驗結果如表1所示,其中MFE表示使用多尺度特征提取,MFF表示使用MFF模塊來融合多尺度特征,Norm表示使用了四角點歸一化偏移。由表1可知,單獨使用多尺度特征提取或者四角點歸一化偏移均能提升模型效果,并且使用MFF模塊融合多尺度特征后模型效果有一定提升。當同時使用多尺度特征融合、MFF模塊與四角點歸一化偏移時,模型效果能夠進一步提升。
在進行了消融實驗后,本文使用最終模型與其他方法進行對比實驗。參與實驗的方法包括了傳統方法中的SIFT[7]+RANSAC[11]和ORB[9]+RANSAC[11],以及基于深度學習的文獻[12,14,15]方法。在MS-COCO與ApolloScape數據集上的對比實驗結果如表2、3所示。
由于ApolloScape數據集中的圖像紋理弱于MS-COCO數據集,所以各種方法在ApolloScape數據集上的誤差均有一定提升。比較表2與3可以明顯看出,傳統方法在較弱紋理圖像上誤差與無效率大幅增加,這使得傳統方法在實際中幾乎難以應用。而基于深度學習的方法誤差與無效率雖然也有一定升高,但是幅度卻較小,這也印證了基于深度學習的方法在弱紋理圖像的魯棒性更強。
由于基于深度學習的方法在兩個數據集上具有相似的趨勢,所以本文以MS-COCO數據集上的實驗結果為例進行分析。圖5和6分別顯示了MS-COCO數據集上不同程度偏移下各種方法的Mean-ACE和Median-ACE誤差。
從表2、3和圖5、6中可以看出,在傳統方法中,SIFT+RANSAC在精度上明顯優于ORB+RANSAC。所有方法隨著圖像最大偏移距離ρ由小變大(從8 px增加到32 px),Mean-ACE與Median-ACE誤差均有不同程度的增加。其中,本文誤差變化相對平緩,是唯一能夠始終保持亞像素級精度的方法,而其他方法誤差增加比較明顯。基于深度學習的文獻[12,14,15]方法在MS-COCO數據集上雖然Mean-ACE誤差小于SIFT+RANSAC,但是Median-ACE誤差卻比SIFT+RANSAC大,而本文方法則在Mean-ACE與Median-ACE誤差上均領先于SIFT+RANSAC。
圖7顯示了在較大偏移(ρ=32 px)時MS-COCO數據集上各種方法的ACE累積分布曲線。從圖中可以看出,傳統方法ORB+RANSAC表現較差,在大部分情況下都具有相對較高的誤差,無效率高達49.32%;SIFT+RANSAC表現較好一些,能夠在大約70%的情況下保持較低的誤差(ACElt;4 px),而在另外30%的情況下誤差會急劇升高,表現變得非常糟糕,無效率為20.1%。基于深度學習的方法整體上都能在99%以上的情況下正常工作(ACElt;32 px),但文獻[12,14,15]方法60%以上的情況誤差高于SIFT+RANSAC,僅能在另外少部分情況下獲得比SIFT+RANSAC更好的結果;而本文方法能夠在絕大部分情況下具有比SIFT+RANSAC更低的誤差,并且能夠在99%情況下保持較高的精度(ACElt;4 px),具有最好的魯棒性。
表4顯示了不同方法之間的性能對比。在模型大小方面,本文模型比文獻[12,14]方法更小;在處理速度方面,本文方法速度與傳統方法相比具有顯著提升,與文獻[15]方法速度相當。
3.3效果展示
圖8展示了使用不同方法進行單應估計上的可視化效果。其中最左側表示被估計的兩張圖像;右側圖像中的藍色框與紅色框分別表示被估計兩圖在原圖中的位置;綠色框表示使用不同方法估計的結果(見電子版)。紅色框與綠色框四角點的平均距離即為3.1節中的ACE誤差,兩者越接近則表示誤差越低,該方法越好。估計誤差顯示在對應圖像下方,fail表示該方法失敗。可以看出,SIFT+RANSAC與ORB+RANSAC在弱紋理圖像中幾乎不能工作,而本文方法則始終保持較低的誤差。
*PPS(pairs per second)表示每秒處理的圖像對數量。SIFT+RANSAC與ORB+RANSAC運行于CPU(R5 5600X),而其他方法運行于GPU(RTX 3080Ti)。
4結束語
單應估計是圖像拼接、圖像矯正等許多計算機視覺任務中的一個基礎且重要的步驟,具有廣泛的應用場景,所以提高單應估計的精度對這些任務具有重大意義。基于特征點匹配的傳統單應估計方法難以在弱紋理圖像中工作。然而現有的深度學習方法未考慮到單應估計的多尺度性,使用單一尺度的特征來估計四角點絕對像素偏移,導致圖像具有較大偏移時表現不佳。本文提出了一種基于多尺度殘差單應估計網絡來進行單應估計的方法,通過提取圖像的多尺度特征信息并使用MFF模塊來融合多尺度特性信息,有效利用了多尺度特征信息,同時結合了淺層特征與深層特征的優勢,并且通過估計四角點歸一化偏移來進一步降低了網絡優化的難度。在多個數據集上的實驗證明了該方法相比于前人提出的傳統方法以及深度學習方法精度顯著提高、魯棒性也更強,因此在實際中具有較大的應用價值。
參考文獻:
[1]Hartley R,Zisserman A. Multiple view geometry in computer vision [M]. 2nd ed. Cambridge: Cambridge University Press,2004: 25-48.
[2]夏丹,周睿. 視差圖像配準技術研究綜述 [J]. 計算機工程與應用,2021,57(2): 18-27. (Xia Dan,Zhou Rui. Survey of parallax image registration technology [J]. Computer Engineering and Applications,2021,57(2): 18-27.)
[3]Brown M,Lowe D G. Recognising panoramas [C]// Proc of IEEE International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2003: 1218-1225.
[4]Yang Xieliu,Yin Chenyu,Tian Dake,et al. Rule-based perspective rectification for Chinese text in natural scene images [J]. Multimedia Tools and Applications,2021,80(12): 18243-18262.
[5]Zhang Zhongfei,Hanson A R. 3D reconstruction based on homography mapping[C]// Proc of ARPA Image Underst Workshop. 1996: 1007-1012.
[6]Davison A J,Reid I D,Molton N D,et al. MonoSLAM: real-time single camera SLAM [J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2007,29(6): 1052-1067.
[7]Lowe D G. Distinctive image features from scale-invariant keypoints [J]. International Journal of Computer Vision,2004,60(2): 91-110.
[8]Bay H,Tuytelaars T,Van Gool L. SURF: speeded up robust features [C]// Proc of European Conference on Computer Vision. Berlin: Springer,2006: 404-417.
[9]Rublee E,Rabaud V,Konolige K,et al. ORB: an efficient alternative to SIFT or SURF [C]// Proc of IEEE International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2011: 2564-2571.
[10]Muja M,Lowe D G. Fast approximate nearest neighbors with automa-tic algorithm configuration [C]// Proc of the 4th International Confe-rence on Computer Vision Theory and Applications. 2009:331-340.
[11]Fischler M A,Bolles R C. Random sample consensus: a paradigm for model fitting with applications to image analysis and automated carto-graphy [J]. Communications of the ACM,1981,24(6): 381-395.
[12]DeTone D,Malisiewicz T,Rabinovich A. Deep image homography estimation [EB/OL]. (2016) [2022-03-13]. https://arxiv. org/abs/1606. 03798.
[13]Nowruzi F E,Laganiere R,Japkowicz N. Homography estimation from image pairs with hierarchical convolutional networks [C]// Proc of IEEE International Conference on Computer Vision. Piscataway,NJ: IEEE Press, 2017: 913-920.
[14]Nguyen T,Chen S W,Shivakumar S S,et al. Unsupervised deep homography: a fast and robust homography estimation model [J]. IEEE Robotics and Automation Letters,2018,3(3): 2346-2353.
[15]Zhang Jirong,Wang Chuan,Liu Shuaicheng,et al. Content-aware unsupervised deep homography estimation [C]// Proc of European Conference on Computer Vision. Cham: Springer,2020: 653-669.
[16]Li Xiang,Wang Wenhai,Hu Xiaolin,et al. Selective kernel networks [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 510-519.
[17]Lin T Y,Maire M,Belongie S,et al. Microsoft COCO: common objects in context [C]// Proc of European Conference on Computer Vision. Cham: Springer,2014: 740-755.
[18]Huang Xinyu,Wang Peng,Cheng Xinjing,et al. The ApolloScape Open dataset for autonomous driving and its application[J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2020,42(10): 2702-2719.
[19]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al. Deep residual learning for image recognition [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2016: 770-778.
[20]Ioffe S,Szegedy C. Batch normalization: accelerating deep network training by reducing internal covariate shift [C]// Proc of International Conference on Machine Learning. New York: ACM Press,2015: 448-456.
[21]姚銘,鄧紅衛,付文麗,等. 一種改進的Mask R-CNN的圖像實例分割算法 [J]. 軟件,2021,42(9): 78-82. (Yao Ming,Deng Hongwei,Fu Wenli,et al. An improved Mask R-CNN image instance segmentation algorithm [J]. Computer Engineering amp; Software,2021,42(9): 78-82.)
[22]Yu F,Koltun V. Multi-scale context aggregation by dilated convolutions [EB/OL]. (2015) [2022-03-13]. https://arxiv. org/abs/1511. 07122.
收稿日期:2022-03-13;修回日期:2022-05-08基金項目:四川省科學技術廳應用基礎項目(2021YJ0086)
作者簡介:唐云(1975-),男,四川成都人,副教授,碩導,碩士,主要研究方向為數值計算、深度學習等;帥鵬飛(1997-),男(通信作者),四川眉山人,碩士研究生,主要研究方向為計算機視覺、深度學習等(jerry.tom.cat@qq.com);蔣沛凡(1997-),男,江西上饒人,碩士研究生,主要研究方向為計算機視覺、深度學習等;鄧飛(1980-),男,重慶人,教授,碩導,博士,主要研究方向為圖像與模式識別、深度學習等;楊強(1988-),男,四川遂寧人,講師,碩導,博士,主要研究方向為人工智能、膜計算和特種機器人等.