陳世偉, 夏 海, 楊小岡, 李小鋒
(火箭軍工程大學導彈工程學院, 陜西 西安 710025)
衛星遙感是人類對地球環境觀測的有效手段,隨著衛星遙感技術的發展,基于多傳感器成像的異源圖像配準變得越來越重要。實際工程應用中,由于合成孔徑雷達(synthetic aperture radar,SAR)圖像的特定成像原理,其視覺解釋是一項具有挑戰性的任務,但SAR成像具有全天時、全天候、不受光照和天氣等條件影響等諸多優點。相反,光學傳感器測量地面物體反射的太陽輻射,圖像的解釋更容易,但又存在受光照、云霧、季節、陰影等條件影響較大等缺點。通過以上分析對比可以發現,在某些方面SAR 圖像可以與光學圖像形成優勢互補,因此實現兩類圖像之間的有效配準對多種信息融合具有重要的意義。SAR與光學圖像匹配的常用方法可分為基于強度和基于不變特征的匹配兩類。基于強度的方法通常利用相似性度量,如歸一化互相關(normalized cross correlation,NCC)、互信息或交叉累積剩余熵。另一方面,諸如點、線條、輪廓或區域等特征被廣泛用于基于不變特征的匹配方法,常用的不變特征有尺度不變特征變換算法(scale-invariant feature transform,SIFT)、最大穩定極值區域(maximally stable extremal regions,MSER)等。但是,不同的成像機理使得SAR與光學圖像之間存在很大的風格差異,這造成不變特征很難提取。如果能在異源圖像之間進行風格遷移,將使異源圖像匹配轉化為同源圖像匹配,將大大降低匹配難度,這種方法隨著深度學習的興起,越來越受到關注。Merkle等通過訓練一個圖像風格遷移網絡,將光學衛星進行圖像風格遷移生成逼真度很高的人工SAR圖像,然后采用常見匹配方法(NCC、SIFT等)進行人工SAR圖像與SAR圖像的配準,取得了較高的準確性和精度。但是,該方法需要大量的訓練樣本來保證生成人工SAR圖像的逼真度,如果訓練樣本量較少,生成人工SAR圖像的逼真度就會下降,采用常見匹配方法很難保證配準的精度。
本文在文獻[9]的基礎上,重點解決訓練樣本不足的情況下SAR與光學圖像的配準問題。盡管SAR與光學圖像在視覺上差異很大,但仍然存在一些穩定不變的邊緣特征,如果能提取這些穩定邊緣特征,就可以實現SAR與光學圖像的精確配準。因此,提出一種基于圖像風格遷移不變邊緣特征的SAR與光學圖像配準算法。文獻[9]指出SAR圖像轉換為人工光學圖像雖然更利于視覺理解(強化邊緣特征),但會損失一些像素特征不利于后期的精確匹配,因此考慮將光學圖像轉換為人工SAR圖像進行匹配。本文采用圖像邊緣作為匹配特征,考慮到SAR圖像的固有相干斑噪聲會影響邊緣特征,因此將SAR圖像風格遷移為人工光學圖像,減小噪聲干擾,增強邊緣特征,有利于后期圖像匹配。算法原理:首先利用圖像風格遷移網絡將原始SAR圖像轉換為人工光學圖像;然后由人工光學圖像和原始SAR圖像生成差異圖,并基于小波多尺度邊緣增強與Canny算子提取穩定邊緣特征;最后通過常規匹配算法實現人工光學圖像與光學基準圖像的精確匹配。實驗結果表明:本文方法能夠在訓練樣本較少的情況下,基于圖像風格遷移技術與邊緣不變特征實現SAR與光學圖像的精確匹配。
隨著深度學習的興起,Gatys等開創性地提出了一種基于卷積神經網絡的圖像風格遷移,相對傳統非參數的圖像風格遷移方法只能提取圖像底層特征,可以將圖像內容特征和風格特征進行分離提取,并獨立處理這些高層抽象特征。2014年Goodfellow等提出生成對抗網絡(generative adversarial networks,GAN),此后基于GAN研究人員又提出了Pix2Pix、CycleGAN、StarGAN等多種圖像風格遷移網絡,在人臉置換、圖像修復、圖像轉換等應用場景下生成的圖像,能夠達到以假亂真的效果。
GAN是一種深度學習模型,是近年來復雜分布中無監督學習最具前景的方法之一。從圖像生成角度而言,GAN是生成模型,其目標是訓練一個生成器(生成網絡)來映射隨機噪聲以輸出圖像()。訓練是通過一個對抗性過程來實現的,同時訓練一個判別器(判別網絡),的任務是盡可能地區分真實圖像和生成的圖像(),而試圖盡可能多地產生更真實的()來“欺騙”,在反復博弈后達到一個平衡。GAN的損失函數為

(1)

條件GAN(conditional GAN, CGAN)是在GAN的基礎上,通過添加限制條件,來控制GAN生成數據的類別。其原理為:訓練時將控制生成類別的分類標簽連同噪聲一起送進生成器的輸入端,這樣在預測時,生成器就會同樣根據輸入的標簽生成指定類別的圖片了。判別器的處理也是一樣,僅僅在輸入加上類別標簽就可以了。CGAN的損失函數為

(2)
Isola等提出一種將CGAN應用于有監督圖像風格遷移的經典模型——Pix2Pix模型。參照Pix2Pix模型,將輸入生成器的控制條件由“分類標簽”變成SAR圖像,目的是生成具有SAR圖像幾何特性和光學圖像輻射特性的人工光學圖像。同理,輸入判別器的控制條件也要由“分類標簽”變成SAR圖像,并作為“條件”和真的光學圖像或生成的人工光學圖像拼接在一起送入判別器。因此,本文異源圖像風格遷移算法的本質是:SAR圖像作為“約束條件”輸入訓練模型,模型擬合訓練樣本中光學圖像的像素概率分布,模型訓練好后,輸入SAR圖像輸出人工光學圖像。異源圖像風格遷移網絡的損失函數為

(3)
其中,損失函數由兩部分構成。第一部分是CGAN損失,和普通CGAN損失函數一樣,參見式(2);第二部分是損失,計算方法為真實光學圖像與生成器生成的人工光學圖像()逐像素求差的絕對值再求平均,如下所示:

(4)
其中,CGAN損失主要表征圖像內容特征,損失主要表征圖像風格特征,將兩種損失結合起來能使人工圖像具有更高的逼真度。另外,在利用Pix2Pix模型進行圖像風格轉換時,需要大量的訓練樣本來訓練模型,如果訓練樣本不足,生成人工圖像的逼真度會下降。
本文采用兩個訓練好的圖像風格遷移網絡模型:(訓練集大小30對)和(訓練集大小300對),其生成的人工光學圖像如圖1(b)和圖1(c)所示。可以看出,隨著訓練樣本集數量的增加,人工圖像越來越接近原始圖像(目標圖像)。但是,受限于訓練集最大為300,即使全部參與訓練,生成的人工圖像仍然和目標圖像有一定視覺差距。圖1(e)和圖1(f)為文獻[9]提供的圖像轉換結果(設其訓練模型為),訓練集采用69 900對SAR與光學圖像,可以看出生成的人工光學圖像在視覺上已經和目標圖像基本沒有區別了。這也充分證明訓練集大小對人工圖像逼真度具有重要影響。現實情況中很多匹配應用場景很難有足夠大的訓練樣本集,從而制約了基于風格遷移異源圖像匹配方法的推廣應用。

圖1 訓練集大小對生成人工圖像的影響Fig.1 Influence of training set size on generation of artificial image
邊緣特征由于包含豐富的圖像信息,在遙感圖像匹配中具有更好的適應性。但是,對于SAR與光學圖像這種異源遙感圖像匹配,邊緣特征會出現較大的變化,使得匹配難度極大。從視覺的角度可以發現SAR與光學圖像仍然存在一些邊緣不變特征,如果能夠提取這些邊緣特征,對于異源匹配是非常有益的。
前面通過圖像風格遷移網絡生成的人工光學圖像,可以看作原始SAR圖像與目標光學圖像之間的一個中間狀態,模型訓練越充分,則越趨近于目標光學圖像。但是,即使原始SAR圖像完全轉換為人工光學圖像后,仍會保留一些不變特征,特別是邊緣不變特征,如圖2所示。圖像風格遷移網絡將SAR圖像轉換為人工光學圖像的過程,本質上是對部分區域進行平滑,對部分邊緣區域進行強化,從而使人工光學圖像在視覺上更清晰。這些被強化的邊緣區域在人工光學圖像上只是灰度值整體增強了,但特征是相對不變的,因此這里將被強化的邊緣區域稱為未變化區域穩定邊緣特征。如果將轉換前后的兩幅圖像進行逐像素比較生成差異圖,即可凸顯未變化區域中的穩定邊緣特征。為了抑制噪聲,這里采用對數比(log-ratio,LR)算子獲取差異圖,如圖2(a)所示。

圖2 小波多尺度圖像邊緣增強結果Fig.2 Wavelet multiscale image edge enhancement results
LR差異圖對比度較弱,視覺上偏暗,直接對其進行二值分割難度很大,需要先進行圖像增強。圖像增強的算法很多,考慮到LR差異圖依然會受原始SAR圖像的遺留噪聲影響,這里采用小波多尺度圖像邊緣增強算法。其原理為:首先用B樣條小波對LR差異圖進行多尺度分解;然后利用模極大值邊緣檢測方法,在大尺度下抑制噪聲識別邊緣,在小尺度下準確定位邊緣;最后綜合不同尺度下的邊緣信息得到差異圖邊緣增強圖像,如圖2(b)所示。小波模極大值多尺度邊緣檢測原理如下:
設二維平滑函數為(,),對平滑函數分別求、方向的偏導數,作為基本小波則有

(5)
其中,兩個函數分別為、處的水平小波函數和豎直小波函數。則圖像(,)在尺度為時的小波變換兩個方向的尺度函數記為

(6)
從上述的推導可以得出二維圖像(,)的小波變換表達式為

(7)
式中:(·)(,)表示(,)經(,)平滑后的圖像。從式(7)可以看出,(·)(,)的梯度與小波變換的兩個分量成正比。因此,在尺度為時,梯度的模和相位角為

(8)
模值大小反映了圖像在像素點上的灰度變化程度,模值在沿著梯度方向上取局部極大值的點對應著圖像灰度的突變點,即圖像的邊緣點。但是,人工光學圖像含有原始SAR圖像遺留的噪聲,部分噪聲也會存在小波模極大值點,因此檢測出的灰度突變點并不一定是邊緣特征點。單一尺度檢測出的邊緣含有很多噪聲,而小波變換具有多尺度性,噪聲信號的模極大值由于具有隨機性,一般會隨著尺度的增加而減小,而邊緣信號的模極大值一般會隨尺度的增加而增加。因此,在小尺度下可以進行精確定位,準確地識別邊緣位置,如圖2(c)所示;在大尺度下可以很好地抑制噪聲識別邊緣,但會損失細節信息,如圖2(d)所示。
LR差異圖經過小波多尺度邊緣增強后,采用最大類間差法進行二值分割可得到二值差異邊緣圖像。但是,二值差異邊緣圖像的分辨率較低,對于變化與未變化區域的區分并不明顯。因此,需要綜合二值差異邊緣圖像與人工光學邊緣圖像進行再分割,即可得到未變化區域二值圖像,其中白色區域代表未變化區域,如圖3(a)所示。未變化區域二值圖像是人工光學圖像經過邊緣增強和二值化區域分割的結果,會損失很多細節信息,并不能直接提取穩定邊緣特征。這里采用Canny算子先提取人工光學圖像的邊緣特征,然后根據未變化區域二值圖像分離出穩定邊緣特征,如圖3(b)和圖3(c)所示。從圖3(b)~圖3(d)也可以看出,人工光學圖像的穩定邊緣特征大部分與光學基準圖像的邊緣特征是重疊的,這就為特征匹配奠定了良好基礎。

圖3 穩定邊緣特征提取結果Fig.3 Stable edge feature extraction results
鑒于穩定邊緣特征與光學基準圖像的邊緣特征有很強的相關性,這里采用一種常規的歸一化互相關性指標Ncc作為匹配量度,也就是NCC算法。兩個特征區域之間的互相關性指標如下所示:

(9)
式中:′(,)代表大小為×的穩定邊緣特征圖像中任意點的像素值;′(,)代表光學基準圖像中某個大小為×的邊緣特征區域中任意點的像素值。
基于風格遷移不變特征的SAR與光學圖像配準算法步驟如下。
基于訓練樣本集訓練圖像風格遷移網絡模型;
將原始SAR圖像輸入風格遷移網絡模型生成人工光學圖像;
基于原始SAR圖像與人工光學圖像生成LR差異圖;
對LR差異圖和人工光學圖像進行小波多尺度增強;
采用特定閾值分割得到未變化區域二值圖像;
采用Canny算子提取人工光學圖像的邊緣特征,結合步驟5的結果提取邊緣不變特征;
采用Canny算子提取光學基準圖像的邊緣特征;
將邊緣不變特征模板在光學基準邊緣特征圖像中滑動,同時計算互相關性指標,Ncc最大的區域中心即為異源圖像匹配中心位置。
為了全面衡量算法性能,實驗選用了3類場景的SAR與光學遙感圖像數據集:第一個數據集場景為城市,有300對訓練圖像;第二個數據集場景為港口,有100對訓練圖像;第三個數據集場景為山區,有50對訓練圖像。這些圖像對事先經過預處理消除畸變誤差。匹配實驗之前首先進行圖像風格遷移網絡訓練,實驗環境為:硬件平臺GPU為NVIDIA Tesla P40 24 GB,內存為128 GB;采用PyTorch深度學習框架實現具體卷積神經網絡訓練。針對同一類型數據集采用不同大小的數據樣本量進行訓練得到不同的圖像風格遷移網絡模型,訓練結果如表1所示。

表1 圖像風格遷移網絡訓練結果
實驗環境為因特爾酷睿2.4 G處理器,8G內存,Windows 10操作系統,Matlab R2014a計算平臺。實驗數據選取3組不同場景類型的SAR與光學圖像對:第一組為城市場景,有50對圖像;第二組為港口場景,有30對圖像;第三組為山區場景,有20對圖像,其中光學基準圖像圖幅為800×800,SAR 圖像圖幅為512×512,圖像格式為TIF。首先針對3組不同場景的圖像對采用基于邊緣特征的匹配算法進行異源圖像匹配實驗;然后采用相應訓練模型進行人工光學圖像生成,并參照文獻[9],用常規匹配算法(NCC、SIFT)進行匹配實驗;最后采用本文算法進行匹配實驗,實驗結果如表2所示。采用匹配成功率(matching success rate,MSR)、匹配精度(matching precision,MP)和匹配平均精度(matching average precision,MAP)3個指標來評價匹配效果。MP為匹配中心位置與提前標注中心位置的距離(單位:像素)。MP小于5個像素,則認定匹配成功;MSR=匹配成功圖像對數目/匹配圖像對總數;MAP=匹配成功圖像對MP的和/配成功圖像對總數。

表2 匹配對比實驗結果
實驗結果分析:① 從總體匹配結果看,針對3組場景,本文算法相對比其他算法有較高的匹配成功率;② 從匹配成功率上看,采用基于深度學習的圖像遷移轉換后匹配要優于基于邊緣特征直接進行異源圖像匹配;③ 從第4~12組數據可以看出,訓練數據越多,模型訓練得越充分,匹配的成功率越高;④ 從3類場景的匹配結果可以看出,本文算法更適合港口和城市場景,因為這兩類場景會存在大量穩定的邊緣特征;⑤ 從匹配平均精度結果可以看出,SIFT算法的精度最高,NCC算法最低,本文算法居中,這是因為SIFT算法是基于單個像素點進行匹配的,而本文算法和NCC是基于線和區域上的像素點統計信息進行匹配的。圖4給出了一組本文算法針對3種場景的匹配實驗結果,圖4(a)~圖4(c)為SAR圖像,圖4(d)~圖4(f)為光學基準圖像,紅色矩形框代表匹配位置。其中,圖4(a)和圖4(d)城市場景MP為2.3,圖4(b)和圖4(e)港口場景MP為1.2,圖4(c)、圖4(f)山區場景MP為4.5。很明顯相對其他兩個場景,山區場景的匹配誤差要大一些,這也對應了實驗分析結果。

圖4 SAR與光學圖像匹配結果Fig.4 SAR and optical image matching results
驗證了在訓練樣本不足的情況下,基于圖像風格遷移進行異源圖像匹配的局限性;提出了基于風格遷移前后圖像生成差異圖的方法;提出了基于風格遷移差異圖提取人工光學圖像未變化區域的方法;總結了利用小波多尺度邊緣增強與Canny算子精確提取SAR與光學圖像在風格遷移中邊緣不變特征的方法;實現了訓練樣本不足條件下的SAR與光學圖像的精確配準。從實驗結果看,本文算法在訓練樣本遠低于文獻[9]的情況下,同樣用常規匹配算法使SAR與光學圖像的匹配精度達到相同水平,拓展了基于圖像風格遷移的異源圖像匹配算法的適用范圍。但是,本文實驗采用的SAR與光學圖像對都事先經過了預處理,消除了異源圖像之間的畸變誤差,因此本文算法有待進一步驗證在匹配圖像存在視角差異、畸變等情況下的適應性,這將是下一步研究的重點方向。