岳國華 邢曉利
(西安科技大學計算機科學與技術學院 陜西 西安 710054)
圖像配準就是尋找一種空間變換關系,使得不同成像條件下能采集到的同一場景的圖像像素點在空間上一一對應[1]。遙感圖像的配準,最早應用在軍事領域的導彈追蹤和景象匹配的制導技術等方面[2]。隨著傳感器硬件設備的發展,遙感圖像的配準在民用領域發揮了越來越大的作用。然而,由于遙感圖像的成像條件復雜,目標特征不明顯,像素分辨率較低等特點,傳統的遙感圖像配準算法特征提取過程復雜,計算量大,且檢測的特征點容易出現誤匹配的情況。
傳統的圖像配準的方法可分為兩大類:基于灰度的配準方法;基于特征的配準方法[3]。基于灰度的配準方法將配準問題轉化為優化問題,通過優化圖像的灰度相似度來確定圖像間的變換參數。常見的算法有最大互信息法、相關法和聯合熵法[4]。基于灰度的配準方法容易實現,但不適用于灰度變化明顯或存在形變的圖像[5]。基于特征的配準方法通過提取圖像中點、線、邊緣等特征完成配準,能夠在圖像存在幾何失真和畸變的情況下取得優異的配準性能,從而更有效地建立圖像間的匹配關系[6]。常用算法有SURF算法、SIFT算法、HOG算法等,其中SIFT算法因其穩定的尺度旋轉不變性,成為基于特征配準算法的代表性算法。
近年來,深度學習備受關注,并在計算機視覺、數據挖掘等諸多領域大獲成功。Fan等[7]將深度學習引入遙感圖像的場景分類中,利用預先訓練的CNN來進行高分辨率遙感圖像場景分類,取得了良好的分類效果。Jaderberg等[8]在圖像處理領域中提出一個新的模塊—空間變換網絡(STN),該模塊在網絡內部對圖片進行平移、縮放、旋轉等變形,網絡直接輸出配準后的圖像,并沒有顯式地運用變換參數。雒培磊等[9]提出了一種改進的基于深度學習的遙感影像拼接方法,該方法利用卷積神經網絡(CNN)自適應地提取特征點的分層卷積特征,通過相關濾波器對不同深度的卷積特征逐層進行相關性分析,進而綜合計算特征點的位置。算法充分利用了遙感圖像的空間特征以及深層抽象語義特征,并未將特征提取和匹配放在端到端的架構中,在配準過程中,需進行錯誤匹配點的檢測。Wang等[10]提出了一種用于遙感圖像配準的深度學習框架,該框架通過深度神經網絡(DNN)直接學習圖像匹配塊與其匹配標簽之間的端到端映射關系,但DNN學習的是從圖像中提取的圖像塊之間的關系,需要根據圖像塊之間的變換關系,計算圖像的變換矩陣,整個配準過程相對來說比較繁瑣。
本文采用的配準框架如圖1所示。首先,通過仿射變換網絡對參考圖像進行空間變換,批量生成測試數據集。然后,CNN直接學習參考圖像與訓練圖像之間的變換關系,預測圖像變換參數。最后,校正網絡通過計算配準圖像和參考圖像的相似度,反向傳播調整預測的變換參數,直至圖像相似度取得最大值。

圖1 遙感圖像配準框架
仿射變換網絡動態地將仿射變換應用在圖像的像素點上,主動地對輸入的參考圖像進行縮放、旋轉和平移等變換,并保存地面實況標簽。仿射變換網絡架構如圖2所示。

圖2 仿射變換網絡結構
仿射變換網絡輸入的是參考圖像和空間變換參數θ,輸出的是參考圖像進行仿射變換后的訓練圖像。網絡主要由坐標映射和像素采樣兩部分組成。坐標映射是根據隨機生成的空間變換參數θ,通過網格生成器生成與參考圖像同樣大小的空白網格,完成參考圖像與訓練圖像之間的坐標映射;在像素采樣過程中,為了解決像素坐標非整數的問題,采用雙線性插值技術對圖像像素進行采樣。
1.1.1坐標映射
在進行仿射變換時,沒有直接對圖像進行處理,而是把圖像中的像素點坐標化,并作為特征映射的元素。仿射變換的實質是通過仿射變換矩陣實現圖像與圖像間的二維坐標映射。首先,利用網格生成器生成目標空白采樣網格,可覆蓋參考圖像中所有的像素點,在對空白采樣網格向量化處理之后,與仿射變換參數構成的仿射變換矩陣相乘,得到期望的采樣點坐標,實現了采樣網格到參考圖像的坐標映射。通常,只需要6個仿射變換參數,便可實現仿射變換。
(1)

1.1.2雙線性插值
在對參考圖像進行像素取值時,采用雙線性插值技術處理采樣坐標為非整數的情況。其核心是在兩個方向分別進行一次插值,如圖3所示[11]。

圖3 雙線性插值
若訓練圖像中某個像素點對應參考圖像中的非整數坐標P點。已知P點相鄰四位整數點坐標Q11、Q12、Q21、Q22像素值,f代表像素點的像素值,在x軸方向進行插值:
(2)
(3)
在y軸方向進行插值:
(4)
即:
(5)
在仿射變換網絡中使用雙線性插值技術,可以表示為:
(6)

雙線性插值不僅解決了采樣坐標非整數的問題,而且在校正網絡調整參數的優化過程中,雙線性插值滿足對參數進行求導的條件,可以進行梯度反向傳播。
CNN的輸入是參考圖像和訓練圖像,以及地面實況標簽,輸出為預測的變換參數。CNN根據地面實況標簽學習參考圖像和訓練圖像之間的映射關系,通過反向傳播算法、隨機梯度下降優化損失函數MSELoss,生成魯棒的配準模型。
1.2.1網絡結構
CNN網絡結構如圖4所示。模型由6個卷積層和6個池化層組成,每個卷積層后連接對圖像進行降維處理的池化層,從所有輸入通道提取的二維特征轉化為全連接層的一維輸入[12]。

圖4 卷積神經網絡結構
在網絡的前向傳播過程中,卷積核大小為5×5,通過對l-1層的特征圖進行卷積操作,使用激活函數輸出當前卷積層l層特征圖[13]。
(7)
矩陣形式為:
al=σ(wlal-1+bl)
(8)

al=pool(al-1)
(9)
式中:pool表示最大池化操作。池化層大小如圖4所示,步長為2。
網絡使用易收斂的均方誤差(MSE)作為損失函數。
(10)

(11)
zl=wlal-1+bl
(12)
輸出層的誤差方程表示為:
(13)
矩陣表示為:
δL=▽aC⊙σ′(zL)
(14)
式中:⊙表示矩陣的點積。
誤差在反向傳播過程中的傳遞表示為:
δl=((wl+1)Tδl+1)⊙σ′(zl)
(15)
對權重和偏差的調整表示為:
(16)
(17)
1.2.2訓練過程
基于卷積神經網絡的圖像配準模型訓練的過程如下所示。
輸入:參考圖像、訓練數據集Dataset_Train、地面實況標簽infor_para、迭代次數λ、學習率η、一次訓練選取的樣本數Batch Size。
輸出:參考圖像和訓練圖像之間的預測變換參數。
1) 確定訓練集。選取參考圖像,100 000幅訓練圖像作為訓練集。
2) 初始化迭代次數為100,學習率η為10-4,Batch Size為8,停止迭代閾值為10-6。
3) for all data in Dataset_Train
4) 根據網絡前向傳播公式計算變換參數。
5) 根據損失函數MSE計算誤差δ。
6) 根據式(16)-式(17),使用學習率η更新權重w和偏差b。
7) end for
8) 直到w和b的變化值小于迭代閾值或達到迭代次數λ。
校正網絡根據CNN模型預測參考圖像和浮動圖像之間的變換參數θ,由浮動圖像和仿射變換網絡生成配準圖像。然后,計算參考圖像和配準圖像的相似度,反向傳播調整CNN預測的參數,通過最大化圖像相似度實現參數校正。雙線性插值反向傳播過程可表示為:
(18)
(19)
校正網絡中的相似性度量函數,采用CNN模型中的損失函數MSE。相似性度量函數可以根據任務復雜性而變化,具有很強的靈活性。
同一物體在不同條件下的成像在灰度分布上可能存在很大的差異,這些差異直接影響到對圖片的特征提取。對于光照不可控的遙感圖像來說,可將圖像進行灰度歸一化處理來避免圖像的對比度不足問題[14]。
本實驗中,為了使圖像配準模型更加精確,同時也滿足常見的遙感圖像配準要求,在仿射變換網絡進行數據生成過程中,將縮放參數控制在0.8~1.2之間,旋轉參數控制在[-12°,12°]之間,平移像素范圍為[-40,40]。實驗使用遙感圖像UC Merced Land-Use Data Set[15]作為測試集,共包含21類場景,每類場景100幅遙感圖像,尺寸大小為200×200,測試集和本文訓練卷積神經網絡框架使用的訓練集無重疊。整個實驗是在Ubuntu 16.04,1080Ti環境下,使用VScode編寫實現。
1) 隨機挑選測試集中不同場景的四種圖像序號:① 飛機、② 河流、③ 碼頭、④ 公路,分別用SIFT算法和SURF算法確定圖像間的匹配對點,分析SIFT算法和SURF在圖像配準過程提取特征進行匹配的優點與不足。
2) 分別用SIFT算法、SURF算法、文獻[8]使用的DNN算法、本文未加校正的卷積神經網絡算法(P-CNN)和本文算法對四組圖像進行配準實驗,分析配準結果。
3) 為進一步驗證算法可行性,在整個測試集上進行驗證實驗,分析配準結果。
4) 在配準精度的評價方面,采用均方根誤差(RMSE)和結構相似性(SSIM)作為圖像配準質量評價標準。
(1) RMSE。RMSE的含義是利用空間變換參數,求得仿射變換后圖像的坐標值,并與參考圖像坐標值進行比較,根據兩者的標準誤差來評價配準的精度。RMSE的數值越小,表明圖像配準結果越好[16]。
(20)
(2) SSIM。SSIM用均值表示圖像亮度估計,標準差表示圖像對比度估計,協方差表示圖像結構相似性度量,從圖像亮度、對比度和結構三個方面進行比對,是衡量圖像相似度的有效指標[17]。SSIM的取值范圍是[0,1],數值越大,圖像越相似。
(21)
圖5是隨機選取的四組圖像的參考圖像與浮動圖像。圖6顯示了四組圖像用SIFT算法和SURF算法得到的特征匹配點。

(a) 參考圖 (b) 浮動圖圖5 配準圖像的選取

(a) SIFT算法 (b) SURF算法圖6 兩種算法提取匹配點
由圖6可以看出,在用SIFT算法或SURF算法進行體征點匹配時,容易產生提取特征點冗余、提取的特征點不足和特征點偏離等問題,從而直接影響配準的精度。
分別用SIFT算法、SURF算法、DNN、P-CNN和本文算法對四組圖像進行配準實驗,結果如圖7所示。

(a) 參考圖 (b) 浮動圖 (c) SIFT (d) SURF (e) DNN (f) P-CNN (g) 本文圖7 配準結果
配準實驗結果表明,在平移、縮放、旋轉以及穩定性方面,本文算法均優于其他算法。以第四組為例,SIFT算法配準結果縮放參數不精確;SURF算法提取的特征匹配點過少,配準失敗;DNN配準縮放參數不精確,圖像失真嚴重;P-CNN配準縮放參數不精確;本文算法魯棒性較好,配準結果精確。配準結果在數據上的分析如表1所示。

表1 四組遙感圖像配準精度評價
表1中,加粗的數據表示每組圖像配準在不同衡量指標下的最優結果,可以看出本文算法的配準更加精確,配準速度遠超于同類深度學習框架。為了進一步驗證本文算法的可行性,本文針對測試數據集中的全部數據分別用SIFT算法、SURF算法、DNN、P-CNN和本文算法進行測試實驗。配準結果的平均RMSE值和SSIM值如表2所示。

表2 測試數據集配準精度評價
從表2可以看出,本文算法在整個測試集上的實驗結果優于其他算法。
針對遙感圖像特征不明顯,目前配準算法計算量大、特征匹配不精確的問題,本文提出了基于卷積神經網絡級聯校正網絡的遙感圖像配準算法。算法主要由仿射變換網絡、卷積神經網絡和校正網絡組成。仿射變換網絡用于訓練集的擴展,卷積神經網絡學習圖像間的映射關系,完成圖像間變換參數的預測,校正網絡反向傳播調整預測的參數,提高了配準的精度。實驗結果表明,相比于其他配準算法,基于卷積神經網絡級聯校正網絡的配準算法更加穩定,在配準精度上明顯提升,配準速度相對于其他深度學習框架要快,可運用在當前的遙感圖像配準領域。