








摘" 要: 在雙目立體視覺系統中,面對復雜場景時噪聲會損害圖像特征,增加提取難度,導致匹配精度和魯棒性下降。因此,文中提出基于雙目立體視覺的多分辨率圖像匹配方法,旨在從不同尺度圖像中有效獲取信息并實現高精度匹配。該方法利用雙目立體視覺模型的雙目旋轉相機掃描目標并進行成像,根據內、外空間標定提升雙目旋轉相機的位置精度,保證目標的多分辨率成像效果;將其輸入金字塔立體匹配網絡中,通過網絡中的類金字塔多空洞卷積操作提取雙目圖像特征,在此基礎上,基于可變卷積增強其紋理特征細節;結合細粒度特征和互注意力機制完成雙目圖像匹配。測試結果顯示,空間標定后,左、右兩個相機的成像誤差最小值分別為0.6 Pixel和0.4 Pixel;匹配點坐標偏差均值和坐標偏差方差值分別低于0.012和0.011,匹配效果良好。
關鍵詞: 雙目立體視覺; 多分辨率; 圖像匹配; 空間標定; 雙目旋轉相機; 特征提取; 特征增強; 細粒度
中圖分類號: TN911.73?34; TP391" " " " " " " " " " 文獻標識碼: A" " " " " nbsp; " " "文章編號: 1004?373X(2025)01?0029?04
Research on multi?resolution image matching method based on binocular stereo vision
LIU Huachun, WU Guangwen, YAN Jingli
(Inner Mongolia Normal University, Hohhot 010022, China)
Abstract: In binocular stereo vision systems, noise can damage image features and increase the difficulty of image feature extraction in complex scenes, leading to a decrease in matching accuracy and robustness. Therefore, a multi?resolution image matching method based on binocular stereo vision is proposed. This method aims to effectively obtain information from images of different scales and achieve high?precision matching. In this method, binocular stereo vision model with a binocular rotating camera is utilized to scan and image the objects, and internal and external space calibration is used to improve the positional accuracy of the binocular rotating camera and ensure the multi?resolution imaging effect of the objects. The imaging effect is input into the pyramid stereo matching network, and the binocular image features are extracted by the pyramid?like multiple atrous convolution operation in the network. And then, their texture feature details are enhanced based on variable convolution. Finally, the binocular image matching is achieved in combination with fine?grained features and mutual attention mechanism. The test results show that after spatial calibration, the minimum imaging errors of the left and right cameras are 0.6 Pixel and 0.4 Pixel, respectively; both of the mean value and the variance of the coordinates deviation of the matching points are lower than 0.012 and 0.011, respectively, and the matching effect is good.
Keywords: binocular stereo vision; multi?resolution; image matching; space calibration; binocular rotating camera; feature extraction; feature enhancement; fine grain
0" 引" 言
多分辨率圖像(Multiresolution Image)指在不同分辨率或尺度下獲取的相同場景圖像[1],并能捕捉不同細節層次,從而進行圖像分析、理解和處理。圖像匹配對比兩張以上的圖像,判斷兩者之間的相似或差異程度,獲取所需的信息和目標情況[2]。傳統立體匹配算法依賴人為設計的特征提取或優化函數,在復雜環境或不適定區域效果不佳[3]。文獻[4]采用非線性雙邊濾波器降噪并增強圖像細節,通過快速角點檢測算法提取特征進行匹配,但光照、遮擋、視角變化會影響特征提取和匹配的準確性。文獻[5]基于R2Net算法,使用Lipschitz連續殘差網絡高效提取特征,通過微分同胚圖像配準保持拓撲結構,對二維圖像匹配效果好,但該方法立體匹配效果欠佳。文獻[6]計算圖像幅值和梯度方向后分割圖像塊,提取方向梯度直方圖特征進行匹配,但該方法冗余特征影響描述能力,配準效果不佳。文獻[7]結合SAR載荷幾何特性,為SAR圖像分配坐標,使用SAR?SIFT和SIFT算法提取特征點,輸入深度神經網絡精細配準,但該方法低分辨率圖像特征提取困難。
雙目立體視覺是以兩個攝像機為核心,采集同一個目標的圖像信息或者采用同一個場景下的圖像,以此獲取兩個角度下的兩張圖像,該技術具有測量裝置簡單、成像效率高等優勢[8]。因此,本文提出基于雙目立體視覺的多分辨率圖像匹配方法,通過雙目相機完成視圖獲取后使用能夠完成立體匹配算法來尋找左右視圖中的匹配像素點對,實現圖像配準。
1nbsp; 多分辨率圖像匹配
1.1" 雙目立體視覺模型
雙目立體視覺模型是由左右兩個可旋轉的相機組成,采用聯動旋轉掃描的方式進行目標成像[9]。
雙目立體視覺模型中,左、右兩個相機被安裝在一個二維轉臺上,依據支架與舵機相連,且需保證彼此之間的距離,這段距離被稱為基線,用[L]表示,該距離也可看作兩個相機的光心[o1]和[o2]之間的距離。兩個相機的光軸不可呈現平行狀態[10],兩者之間呈現相交狀態,交叉點為[H],交叉形成的夾角用[?]表示。相機在成像時主要隨著舵機的旋轉進行旋轉,目標物體和左右兩個相機的軸中心形成一個三角形,該三角形的原理公式為:
[Asinθ=Lsinφ=Bsinα] (1)
式中:[θ]、[φ]、[α]均表示相機的旋轉角度。
為保證雙目立體視覺相機的成像效果,避免發生圖像畸變,進行雙目相機空間標定[11],將兩個相機獲取的圖像偏差進行賦值,則[x]、[y]兩個方向的偏差值分別用[εx]和[εy]表示,通過內、外兩個部分完成。標定時圖像旋轉誤差的調整公式為:
[Δε=εx0Lx0εyLy00i] (2)
式中:[Lx]和[Ly]分別表示[L]在[x]、[y]兩個方向的誤差。
由于兩個攝像頭因中心距[L]產生的標定水平位移效應,實際標定校正時還需結合平移矩陣[Q=L,0,0T]完成標定,其中[Q]表示水平位移修正參數。通過上述步驟完成雙目相機標定,以此保證雙目立體視覺模型的目標的多分辨率成像效果。
1.2" 基于金字塔立體匹配網絡的多分辨率圖像匹配
1.2.1" 金字塔立體匹配網絡結構
為保證多分辨率圖像的配準效果,文中以金字塔網絡為主干網絡,結合可變卷積網絡、細粒度特征和互注意力機制,構建金字塔立體匹配網絡(PSMnet),更好地完成多分辨率圖像的匹配效果[12]。金字塔立體匹配網絡結構如圖1所示。
1.2.2" 雙目立體多分辨率圖像特征提取
基于類金字塔多空洞卷積通過不同擴張率的空洞卷積獲取不同感受野的圖像特征,增強網絡對雙目立體多分辨率圖像的感受力,確保非局部相似特征的提取。通過調整金字塔層數,可控制感受野的覆蓋率。在不同金字塔層數下,不同感受野的特征提取公式為:
[gip=fipXo] (3)
式中:[gip]表示擴張率為[p]、在金字塔層數為[i]時的輸出特征;[fip]表示卷積操作;[Xo]表示輸入的雙目立體多分辨率圖像。
通過空洞卷積[f?]進行各層金字塔輸出特征的融合處理,如果融合后的特征用[gΣp]表示,計算公式為:
[gp=FgipgΣp=fgp] (4)
式中:[F?]表示通道拼接操作;[gp]表示通道拼接后的特征。
將獲取的[gΣp]疊加至輸入的特征上,輸入最終融合后的特征[G]。
1.2.3" 基于可變卷積的特征紋理特征增強
依據1.2.2節完成[G]獲取后,采用可變卷積進行聚合,代價聚合通過對匹配代價進行聚合使得代價聚合過程能夠更好地適應圖像中的變化,提高匹配效果。
如果[G]中的像素點用[sj]表示,可變卷積的目的是通過卷積處理提取與采樣點對應的像素值,依據提取結果計算包含偏移量的像素值,其計算公式為:
[zsj+sn+Δsn=kξk,G×Gk] (5)
式中:[sn]和[Δsn]均表示偏移,前者不發生變化,后者可學習; [ξ?]表示線性插值;[k]表示像素點在[G]中的空間位置;[z?]表示像素值。
在式(5)的基礎上獲取最終的像素值[zsj],其公式為:
[zsj=j=1ciwsn×zsj+sn+Δsn] (6)
式中[wsn]表示位置權重系數。
依據獲取的[zsj]進行可變卷積聚合處理,將像素值更新至矩陣中,以此能夠自適應地聚合到具備相似視差的位置,并且通過該聚合能夠將圖像中高低尺度進行更好的融合,獲取聚合后的代價體[Y],代價體記錄不同視圖或時間幀之間像素點匹配的成本或相似性度量。
1.2.4" 基于細粒度特征和互注意力機制圖像配準
根據聚合后的代價體[Y]進行圖像匹配,采用平均運算對[Y]中每個長度為[D]的細粒度特征向量進行計算,以此獲取各個特征對應的注意力得分[hj]。
[hj=1Di=1DYij] (7)
式中[Yij]表示代價體[j]的第[i]個細粒度特征向量。
依據公式(7)獲取[hj]的結果,由大到小排列后進行[Y]的劃分。
[ci=Nm," " " i=1,2,…,n-1N-m-1×Nm," " " i=m] (8)
式中:[N]表示細粒度特征數量;[ci]表示劃分后第[i]個區域內包含的特征數量;[m]表示劃分形成的區域數量。
按照[hj]的值對細粒度特征進行劃分,使其形成3個等級,[hj]值最高的區域用[E1]表示,依次為[E2]和[E3],通過平均池化操作對上述不同等級的區域進行處理,以此獲取各個區域的特征向量[λi]。
[λi=1cij=1ciEji] (9)
式中,[i=1,2,3],表示等級。
獲取的[λi]通過分類器進行特征區域對齊,以此完成圖像匹配。
2" 結果分析
2.1" 實驗準備
為驗證本文方法對多分辨率圖像的匹配效果,通過1.1節的雙目立體視覺相機采集室外環境多分辨率圖像,采集對象包含場景中的車輛、人物、植物以及建筑等,共計采集圖像50組(一組圖像包含左右兩個相機各采集的一張圖像),在采集時雙目相機的標定參數詳情如表1所示。
本文方法通過雙目相機進行場景圖像采集時,為避免發生圖像偏差,需對雙目相機進行空間標定。為評估標定效果,本文在不同偏差角度下進行了空間標定,并比較標定前后左右雙目相機的誤差值,測試結果如表2所示。
由表2可知:通過本文方法進行空間標定后,左、右兩個相機的成像誤差最小值分別為0.6 Pixel和0.4 Pixel。因此,本文方法能夠較好完成雙目立體相機空間校正,保證目標的成像效果。
2.2" 指標設計
為驗證本文方法的多分辨率圖像匹配效果,采用匹配點坐標偏差均值[ε1]和坐標偏差方差作為評級指標,兩個指標的取值均在[0,1]區間,取值越小,表示匹配效果越佳。兩個指標的計算公式分別為:
[ε1=1mi=1mλi-λi] (10)
[σo=1mi=1mλi-λi2] (11)
式中:[λi]和[λi]分別表示左相機和右相機的匹配點;總匹配點數量用[m]表示。
2.3" 結果與分析
依據本文方法對不同數量匹配點進行匹配后,通過上述公式分析本文方法的匹配效果,測試結果如表3所示。
對表3測試結果進行分析后得出:在不同的分辨率圖像中,通過本文方法進行匹配點匹配后,匹配點的坐標偏差均值[ε1]和坐標偏差方差[σo]值分別不高于0.011和0.012。因此,該方法能夠可靠完成不同分辨率雙目立體圖像的匹配。
為直觀驗證本文方法對于多分辨率原圖像的匹配效果,隨機抽取一組雙目立體圖像,通過本文方法對其進行匹配,獲取左右雙目相機的匹配結果,如圖2所示。
由圖2結果可以得出:通過本文方法進行雙目立體多分辨率圖像匹配后,其能夠依據細粒度特征區域劃分結果完成圖像匹配,且匹配精度較高,未出現錯誤匹配的情況。
3" 結" 語
多分辨率圖像在多個領域中均具備重要作用,為保證圖像的效用性,需獲取圖像多尺度信息,因此,本文提出基于雙目立體視覺的多分辨率圖像匹配方法。該方法通過雙目立體視覺獲取目標圖像,以保證圖像的多尺度特征,并結合金字塔立體匹配網絡完成圖像匹配。其創新性地將雙目視覺和立體匹配網絡相結合,更好地保證了多分辨率圖像的匹配效果。
注:本文通訊作者為閆靜莉。
參考文獻
[1] 張明娜,呂曉琪,谷宇.殘差混合注意力結合多分辨率約束的圖像配準[J].光學精密工程,2022,30(10):1203?1216.
[2] 崔建國,孫長庫,李玉鵬,等.基于SURF的快速圖像匹配改進算法[J].儀器儀表學報,2022,43(8):47?53.
[3] 符強,孔健明,紀元法,等.雙目視覺圖像邊緣區域處理的精確立體匹配[J].計算機仿真,2023,40(12):226?231.
[4] 谷學靜,劉威威.基于雙邊濾波和AGAST?BEBLID的圖像匹配算法[J].半導體光電,2023,44(6):919?923.
[5] JOSHI A, HONG Y. R2Net: Efficient and flexible diffeomorphic image registration using Lipschitz continuous residual networks [J]. Medical image analysis, 2023, 89: 102917.
[6] 尤美明,李飛,汪國強.基于改進樽海鞘群優化的圖像匹配方法[J].黑龍江大學自然科學學報,2023,40(1):98?105.
[7] LIAGHAT A, HELFROUSH M S, NOROUZI J, et al. Airborne SAR to optical image registration based on SAR georeferencing and deep learning approach [J]. IEEE sensors journal, 2023, 23(21): 26446?26458.
[8] 王笛,胡遼林.基于雙目視覺的改進特征立體匹配方法[J].電子學報,2022,50(1):157?166.
[9] 戴激光,羅方澤.一種用于雙目立體視覺的立體匹配網絡[J].測繪科學,2023,48(12):234?242.
[10] 莊蘇鋒,吉勇,屠大維,等.基于雙目立體視覺的水下RGB?D相機[J].光子學報,2022,51(4):169?183.
[11] 王寬,楊環,潘振寬,等.基于單目和雙目視覺信息的全參考立體圖像質量評價模型[J].計算機工程,2022,48(2):207?214.
[12] 莊蘇鋒,屠大維,劉建業.基于主動散斑投射的水下雙目視覺三維成像[J].光學學報,2023,43(14):113?122.
[13] 杜宬錫,朱凌云,張瑞賢.基于多尺度聚合神經網絡的雙目視覺立體匹配方法[J].計算機應用研究,2022,39(8):2556?2560.
作者簡介:劉華春(1979—),女,湖北荊州人,碩士研究生,講師,研究方向為視覺圖像可視化。
吳廣文(1979—),男,滿族,遼寧鳳城人,博士研究生,講師,研究方向為視覺圖像可視化。
閆靜莉(1977—),女,山西運城人,在讀博士研究生,副教授,研究方向為視覺圖像可視化。