徐 豐王海鵬 金亞秋
(復旦大學電磁波信息科學教育部重點實驗室 上海 200433)
深度學習在SAR目標識別與地物分類中的應用
徐 豐*王海鵬 金亞秋
(復旦大學電磁波信息科學教育部重點實驗室 上海 200433)
深度卷積網絡等深度學習算法變革了計算機視覺領域,在多種應用上的效果都超過了以往傳統圖像處理算法。該文簡要回顧了將深度學習應用在SAR圖像目標識別與地物分類中的工作。利用深度卷積網絡從SAR圖像中自動學習多層的特征表征,再利用學習到的特征進行目標檢測與目標分類。將深度卷積網絡應用于SAR目標分類數據集MSTAR上,10類目標平均分類精度達到了99%。針對帶相位的極化SAR圖像,該文提出了復數深度卷積網絡,將該算法應用于全極化SAR圖像地物分類,Flevoland 15類地物平均分類精度達到了95%。
合成孔徑雷達;深度學習;自動目標識別;地物分類
合成孔徑雷達(Synthetic Aperture Radar,SAR)能夠全天時、全天候、高分辨率成像,因此適用于目標的偵察、監視和識別,同時也已經被廣泛應用于地球科學、氣候變化研究、環境和地球系統監測、海洋資源利用、行星探測、戰場感知偵察等領域,具有很高的民用價值和軍用價值[1–3]。由于其微波波段成像和相位相干處理的特性,SAR圖像與光學圖像表現不同,難以直觀解讀。事實上,SAR圖像包含了豐富的目標信息,例如幾何形狀、材質、結構等。SAR圖像解譯和信息獲取是在軌雷達衛星實現成功應用的最后決定性的一步。
遙感大數據時代下的SAR圖像解譯是一個極大的科學應用挑戰。大數據時代的智能方法如計算機視覺技術目前已經取得巨大成功,然而這些先進算法是針對光學圖像開發的,并不能直接應用到SAR圖像上。我們認為SAR圖像解譯和信息獲取,必須基于對基本的電磁(Electro Magnetic,EM)散射機制的理解。因此SAR智能信息獲取的發展必須同時在數學層面結合智能信息處理方法、在物理層面結合電磁散射理論。
目前我們迫切需要發展先進的SAR智能信息獲取方法。每天都有海量的數據從太空返回而等待處理,需要強大的解譯和信息獲取方法。各種先進SAR技術的快速出現,使得SAR數據朝著更高分辨率、更高維度、更多成像模式的方向發展。高分辨率-多維度-多模式(HR-MD-MM)SAR數據的出現,使得基于2維框架結構的解譯系統面臨巨大挑戰。
近年來,深度學習在模式識別的各個領域取得了較好的結果,比如,圖像分類,目標檢測,自然語言處理。常用的深度學習算法包括深度信念網絡(Deep Belief Network,DBN),卷積神經網絡(Convolutional Neural Network,CNN),循環神經網絡(Recurrent Neural Network,RNN)等等。其中,CNN是在計算機視覺領域中最常采用的算法。傳統的圖像分類問題分為特征提取與特征分類兩個階段,其中特征提取是依據統計或者物理特性進行手動設計的算法。但是,這種模式現在完全被自動學習數據分層特征的CNN取代[4,5]。CNN在圖像分類領域已經取得了一系列突破。在2012年ImageNet大規模視覺挑戰賽(Imagenet Large Scale Visual Recognition Challenge,ILSVRC),Krizhevsky等人[4]采用深度卷積網絡取得了15.3%的錯誤率,遠遠超過以往最好的水平。在2014年,Szegedy等人[6]提出了一個包含22層的GoogleNet,將前5項錯誤率降至6.67%。在2015年,He等人[5]提出152層的殘差網絡(Residual Network,ResNet)并取得了3.57%的整體錯誤率。2016年,中國公安三所團隊在ILSVRC中取得第1名成績,錯誤率已降至3%以下[7]。
相對于計算機視覺,SAR圖像解譯有著相同的目的——從圖像中提取有用信息,但所處理的SAR圖像與可見光圖像有顯著區別,主要體現在波段、成像原理、投影方向、視角等方面詳見表1。因此在借鑒計算機視覺領域的新方法解決SAR圖像解譯的問題時,需要充分考慮和利用這些差異性。

表1 SAR圖像解譯與計算機視覺的差異Tab. 1 Comparison of SAR imagery interpretation and computer vision
針對當前對于深度神經網絡的巨大興趣,本文首先闡述了作者對于深度神經網絡理論巨大成功背后主要原理的理解,然后歸納了作者將該理論應用于SAR圖像解譯方面的幾項工作,包括SAR圖像目標識別與極化SAR地物分類的應用。第2節介紹了CNN基本算法以及復數域推廣后的CV-CNN;第3節介紹CNN在目標識別中的應用;第4節介紹CVCNN在極化SAR地物分類中的應用。
2.1 深度卷積網絡
深度卷積網絡(Convolutional Neural Network,CNN)是一種特殊結構的深度神經網絡,其前幾層由卷積層(Convolution layer)與池化層(Pooling layer)交替構成,后面若干層是全連接層。其工作原理是由卷積層學習不同的特征,由池化層將空域形狀匯聚到高維特征空間,多層交替的卷積+池化可以學出層次化的特征表征。最后的全連接層的作用則是在高維特征空間學習一個分類器。
如圖1所示,CNN中卷積層和池化層的所有節點都排列成一系列2維數組,叫做“特征圖”(Feature map)。在卷積層中,每個隱層節點的輸入僅包含前一層中1個局部鄰域內的節點。前一層處于局部鄰域內的節點乘以1個權值矩陣,再通過1個非線性激活函數“正則化線性單元”ReLU[8],運算結果作為卷積層的節點輸出值。每個隱層節點都可以被看作是一個特征檢測器,因為當其輸入中出現它所代表的某種特征時,該節點便有一個較大的響應值。同一個特征圖上的全部節點被限制為共享相同的連接權值,所以每個特征圖在圖像的不同位置檢測同一種特征。由于局部連接和權值共享,CNN中需要從數據中學習的獨立參數的個數大為減少。在接下來的池化層中,每一個池化層特征圖對應于1個卷積層特征圖。池化層的每個節點以前面卷積層中1個局部鄰域內的節點為輸入,然后進行下采樣。通常的方法是只保留1個局部鄰域內所有節點的最大值,而忽略其余的節點值。1個深度卷積網絡包含許多對卷積層與池化層的組合。當處理多元分類問題時,softmax非線性函數通常應用于最后的輸出層節點。
CNN在業界所取得的巨大成功得益于:(a)算法的改進;(b)海量數據的獲得;(c)圖形處理單元(GPU)等高性能計算資源的普及,而其中算法的改進是深度神經網絡出現飛躍式發展的關鍵因素。對比80年代的傳統神經網絡,我們認為深度神經網絡特別是CNN在算法上的重要改進可以歸納為以下幾點:
(1) 改進的網絡結構
傳統神經網絡層與層之間采用全連接形式,即前一層的每個神經元都與后一層的所有神經元相連,CNN則采用了改進的網絡結構,采用卷積形式前后相連,且添加了池化操作進行降維。其中卷積形式的連接充分借鑒了視覺神經信號處理的特點,即平移不變性。而多層卷積+池化的結構則借鑒了視覺神經信號處理的另一個重要特點,即多層次特征可組合性(見圖2)。這一獨特的網絡結構可以有效地從海量數據中學到層次化組合的特征,對視覺信息進行高效地表征。從這一點我們得到的啟發是:應有效利用先驗知識來降低網絡自由度。
(2) 改進的激活函數
在80年代即有人嘗試加深網絡深度,但深度神經網絡的學習是一大難題。當代深度神經網絡的另一個重要改進就是采用ReLU激活函數。神經網絡學習時后向傳播誤差信息,其梯度隨著網絡深度的增加很容易出現不穩定的現象,特別是傳統非線性激活函數如sigmoid或tanh函數,其梯度在原點呈現一個尖峰,在離開原點不遠處立即飽和。多層網絡回傳時梯度被累乘,導致多個sigmoid/tanh函數的梯度累乘后在原點處爆炸、在離開原點處消失。如此非常不穩定的梯度將使得梯度下降的學習方法失效,從而限制了神經網絡的層數增加,因此也大大限制了神經網絡的表征能力。如圖3所示,改進的激活函數ReLU的梯度在右側恒等于1,其梯度在累乘后保持穩定,這是深度網絡能夠快速學習的重要原因。
ReLU在x正半軸為線性,而負半軸則相當于關閉神經元。這一看似簡單的非線性對于神經網絡表達能力的擴展至關重要。多層線性感知機(Multi Layer Perceptron,MLP)的一個重要缺陷就是無法解決異或(XOR)分類問題,即通過無限多神經元的線性組合均無法實現圖4左側的兩類樣本的分類,而如圖4右側所示,通過兩個ReLU神經元的組合即可輕易解決這一問題。由此可見ReLU中所呈現的非線性是必要的。
(3) 改進的目標函數
對于分類應用,還采用了改進的目標函數,即首先在輸出層采用Softmax結構,使得最終輸出為歸一化的概率。其次通過輸出概率與標簽概率的交叉熵作為目標函數進行學習。Softmax采用了指數函數,與交叉熵結合,最終目標函數對于輸出層神經元參數的梯度變為線性函數,有效避免了梯度回傳時的非線性失真。如式(1)所示,Oi為輸出層的第i個神經元的輸出信號,pi為Softmax歸一化的概率輸出,L為交叉熵目標函數,y為標簽指定的正確類別的下標,δ為Dirac函數。
2.2 復數深度卷積網絡
根據我們的經驗,一般的CNN即可直接應用于SAR幅度圖像,僅需對SAR幅度圖像做簡單的預處理,如轉換為dB尺度,并進行歸一化等。后文中第1個例子處理的單通道幅值SAR圖像即采用一般的實數域CNN。但對于多通道相干的SAR圖像,如極化SAR或干涉SAR,其通道間相干相位差帶有重要信息。因此針對帶相位信息的SAR圖像我們將CNN推廣到了復數域,稱為復數卷積網絡(Complex-Valued-CNN,CV-CNN)[10]。為了區分,實數神經網絡可稱為Real-Valued CNN (RVCNN)。特別是如極化SAR和干涉SAR,均包含了不同通道之間的相位差,該相位信息不再是完全隨機的,往往隱含了散射地物的表1位置、形狀、散射機制的信息,這些信息對地物分類和識別至關重要。
值得說明的是傳統的淺層復數神經網絡包括淺層復數卷積網絡也曾被應用于極化SAR圖像處理[11],但之前的研究采用的是傳統的僅包含1個隱層的網絡,而正如上一節所說深度神經網絡的巨大成功在于它特有的幾個變革性的特性,因此我們提出的CV-CNN是將最新的深度神經網絡及其關鍵的幾個特征均推廣到復數域的情況。
CV-CNN不僅將復數數據作為輸入,同時對各層傳遞了相位信息,也即每一層的神經元信息和權重均由復數表示,這意味著所有的神經元操作以及學習算法都需要推廣至復數域。
如圖5所示,CV-CNN卷積層將輸入數據與可學習的濾波器進行卷積,輸入輸出均可為2維矩陣。卷積結果經過非線性激勵函數生成特征圖。非線性激勵函數常用的有sigmoid,ReLU[8]等。卷積層的下一層通常為池化層,用于下采樣特征圖,從而減少網絡參數。卷積神經網絡的特性包括局部連接、權值共享、池化以及串聯多層[12]。對于CV-CNN,網絡的所有參數包括卷積層、池化層特征圖以及濾波器均為復數。關于CV-CNN的詳細推導參見文獻[10]。
3.1 網絡結構
針對SAR圖像數據比較少、對觀測條件敏感等特點,直接用SAR數據來訓練CNN很容易出現過擬合(Overfitting)的問題。因為CNN自由參數太多,但訓練樣本不充足,這就導致了嚴重的過擬合。值得注意的是,CNN中絕大部分的可訓練參數都包含在全連接層。一些實驗結果表明,網絡的層數對于CNN的性能具有最重要的影響[13]。因此,我們通過用卷積層取代全連接層,而不是大量地減少網絡的層數,來減少需要訓練的參數。盡管這種改變降低了網絡的表示能力,但是也大大減小了過擬合。
我們提出的CNN包含5個可訓練層[9],如圖6所示,總共包含5個卷積層和3個池化層。前3個卷積層的后面接有池化層,采用max pooling形式,下采樣窗口的大小(Pooling size)取2×2,滑動步長(stride)取2。ReLU非線性激活函數作用于前4個卷積層。Softmax非線性函數作用于第5個卷積層的輸出節點。卷積層中卷積核的滑動步長(stride)全部取2,輸入特征圖的周圍沒有補零。輸入圖像的大小為88×88,第1個卷積層選取了16個大小為5×5的卷積核,輸出為16個大小為84×84的特征圖。經過第1個池化層后特征圖的大小變為42×42。第1個池化層的輸出送入第2個卷積層,它包含32個大小為5×5的卷積核,生成32個大小為38×38的特征圖。經過第2個下采樣層,特征圖的大小變成19×19。第3個卷積層包含64個大小為6×6的卷積核,生成64個大小為14×14的特征圖。經過第3個池化層后,特征圖的大小變成7×7。第4個卷積層包含128個大小為5×5的卷積核,生成128個大小為3×3的特征圖。Dropout[14]正則化方法也應用于第4個卷積層。第5個卷積層包含10個大小為3×3的卷積核,以保證有10個大小為1×1的輸出節點,每個節點的輸出值經過Softmax歸一后對應于一個類別的概率。
3.2 MSTAR數據
本文采用的實驗數據是由Sandia國家實驗室(SNL)的SAR傳感器采集的。數據的采集是由美國國防部先進研究項目局(Defense Advanced Research Projects Agency,DARPA)和空軍研究實驗室(Air Force Research Laboratory,AFRL)共同資助的,作為運動和靜止目標獲取與識別(Moving and Stationary Target Acquisition and Recognition,MSTAR)項目的一部分[15]。該項目采集了幾十萬張包含地面軍事目標的SAR圖像,其中包括不同的目標類型、方位角、俯仰角、炮筒轉向、外型配置變化和型號變種的目標SAR圖像。公開的SAR數據集中包含10類不同的地面軍事車輛(裝甲車:BMP-2,BRDM-2,BTR-60,BTR-70;坦克:T-62,T-72;火箭發射車:2S1;防空單元:ZSU-234;軍用卡車:ZIL-131;推土機:D7),由X波段SAR傳感器采集,采用聚束式成像模式,方位向和距離向分辨率都是0.3 m,全方位角覆蓋0°~360°。MSTAR基準數據集廣泛運用于SARATR算法的測試與比較。圖7展示了10類目標的光學圖像和同一方位角下的SAR圖像。為了完整地衡量算法的性能,該算法同時在標準操作條件(Standard Operating Conditions,SOC)和擴展操作條件(Extended Operating Conditions,EOC)下進行測試。標準操作條件指的是測試SAR圖像與訓練SAR圖像中目標的外形配置與型號相同,僅成像的俯仰角和方位角不同。擴展操作條件指的是測試SAR圖像中的目標與訓練SAR圖像有很大的不同,主要是成像角度有很大的改變、外形配置的變化、訓練集與測試集中同一類目標的型號不同。
3.3 識別結果
在標準操作條件下,我們測試算法對于10類目標分類的結果。訓練集和測試集中的同一類目標(Targetclass)具有相同的型號(Serialnumber),但是成像俯仰角與方位角不同。參照現有關于MSTAR目標識別的文獻[9]中的普遍做法,訓練SAR圖像是17°俯仰角下采集的,而測試SAR圖像是15°俯仰角下采集的,俯仰角相差2°被認為差異可以忽略。原始數據集中每一類目標的樣本數不相等。人工提高訓練樣本數量(Data augmentation)是提高機器學習算法性能的一種常用技巧。我們在原始128×128大小的SAR圖像切片中隨機采樣許多88×88大小的切片,因為在原始的SAR圖像中,目標正好位于圖像切片的中心,如圖7所示,所以這就保證了每一張隨機采樣的圖像切片都能夠完整地包含目標區域。經過這種隨機采樣,每一類目標的訓練樣本數量最大提高(128–88+1)×(128–88+1)=1681倍。比如BMP-2裝甲車,原來有233張訓練樣本,經過隨機采樣最大有233×1681張不同的樣本。在本文中,每一類目標我們最終選擇2700張訓練樣本。我們在人工擴展的數據集上訓練模型。對于SAR圖像我們沒有做任何預處理。在標準操作條件(SOC)下的混淆矩陣如表2所示,混淆矩陣的每一行代表實際的目標類型,每一列代表模型預測的類型。
此外,我們還利用擴展操作條件(EOC)的兩組數據集對所設計的CNN的泛化能力進行了測試,即測試數據與訓練數據有不同特性,比如觀測條件不同或目標配置有細微變化,結果表明該網絡結構具有一定的泛化能力,詳見文獻[9]。該模型的參數配置和訓練好的模型數據在作者主頁上可公開獲得。
地物分類是極化SAR應用的一個重要領域。傳統的POLSAR圖像分類的算法通常可分為3類:其一基于散射矩陣的統計特性[16,17],另外一種方法是基于內在的極化散射機制特性[18,19],第3種方法結合了極化散射特性以及統計特性[20,21]。我們將卷積神經網絡應用于極化SAR數據分類[22],并用實測數據進行驗證,實驗結果取得了較高的分類正確率。
4.1 實數網絡模型
根據互易原理,單站全極化SAR數據可以用3×3相干矩陣T表示,這里除對角線元素外,其它元素均為復數。但深度卷積網絡的輸入都為實數,在考慮相干矩陣各元素的基礎上,我們將復數T矩陣轉化為1個6維的實向量。
這里,A為總功率取dB,其中SPAN=T11+T22+T33;B和C分別為歸一化的T22和T33;D,E,F分別為相對相關系數。除A之外,其它5個參數取值范圍都是在[0,1]。
網絡結構如圖8所示,其中h,w,c分別表示輸入層圖像的行數、列數與通道數。通過補零操作,輸入層大小變為(h+4)×(w+4)×c,這里h,w,c分別為8,8,6。
實驗數據采用AirSAR全極化L波段舊金山地區數據,如圖9(a)所示。其中方框代表訓練數據,圓圈代表測試數據。將地物分為5類,粉色代表高密度城區,綠色代表低密度城區,紅色代表建筑物排列有一定角度區域,棕色為植被區,灰色為海洋。分類結果如圖9(b)所示,將上述網絡進行10000次循環,訓練和測試的準確率分別達到99.43%和90.23%。

表2 SOC實驗條件下的混淆矩陣Tab. 2 Confusion matrix under SOC setting
4.2 復數網絡模型
極化SAR多通道數據中,不同通道之間的相位差攜帶了重要信息。因此我們將測試推廣到復數域的CV-CNN對于極化SAR地表分類的性能。在相同的網絡結構以及參數設置條件下,用同樣的數據測試CV-CNN的性能并與傳統的實數神經網絡進行比較,結果顯示復數網絡取得了較高的分類正確率。
圖10展示了CV-CNN的網絡結構。除了輸入層與輸出層,還包括2層卷積層,1層池化層以及1層全連接層。輸入層的大小為12×12×6,表明采樣窗口為12×12,通道數為6。因為卷積以及池化操作的降維作用,特征圖的大小會隨著層數的增加而減小。當輸入數據尺寸小于12×12時,為了保證網絡的特定深度,需要在輸入數據的每一條邊界進行補零操作。輸入層與6個大小為3×3×6步長為1的卷積核進行卷積,與非線性激勵后得到第1層卷積層,生成6個大小為10×10的特征圖。接著是平均值池化,池化矩陣大小為2×2,步長為1。池化后特征圖數量不變,大小變為5×5。第2層卷積的卷積核大小為3×3×6×12,生成12個大小為3×3的特征圖。接著一層是包含108個神經元的全連接層,最后一層是包含c個神經元的輸出層,輸出數據也是復數,其中c為分類的類別數量。
實驗采用Flevoland地區全極化L波段的數據,是荷蘭的一塊農業區域。數據來源于美國NASA/JPL實驗室發射的AIRSAR平臺[23],是被廣泛使用的用于POLSAR圖像分類的一組數據。圖11(a)是Pauli分解圖,數據的大小為1024×750。圖11(c)為Ground truth[24]。總共有15種類別,包括多種農作物、不同地表和建筑物等。圖11(d)是Ground truth對應的圖例。根據Ground truth,采用大小為8×8的滑動窗口進行采樣。補零之后,輸入數據的大小由8×8變成12×12。將隨機采樣的80%樣本作為訓練樣本,剩下的作為測試樣本。圖11(b)是采樣結果圖,表3給出了訓練樣本以及測試樣本的數量。

表3 Flevoland數據分類結果Tab. 3 Flevoland result
超參數設置為η=0.5,迭代次數為8500次。最終的訓練與測試誤差為2.39%與4.03%。圖12(a)為整幅圖的分類結果,圖12(b)為Ground truth所包含部分的分類結果。圖12(c)與圖12(d)為 RV-CNN的分類結果。RV-CNN的訓練與測試錯誤率為9.55%與10.51%。可以發現CV-CNN比RVCNN分類效果要好。
如圖12(b)所示,分類結果與Ground truth相對一致,與圖11(c)比較可以得到更直觀的結果。大部分的像素分類正確,尤其是Forest,Lucerne and Barley。表3給出了實數網絡與復數網絡每一類的準確率。可以看出,大部分的類別分類正確率高于95%。除了Bare soil,所有的類別均高于90%。從原始的POLSAR圖像可以看出,Bare soil與Water十分相似,誤分的可能性較大。盡管第15類Building只有24個樣本,分類正確率仍很理想。與RV-CNN相比,CV-CNN整體上的正確率更高,復數卷積網絡對POLSAR分類是有效的。
值得注意的是,如果將復數數據直接拆分為實部/虛部(或幅度/相位)然后作為獨立的實數通道輸入到9通道RV-CNN中進行分類,該方法并不等同于CV-CNN,因為兩個實數各自進行運算不等同于復數運算。我們的經驗告訴我們9通道RV-CNN并不能提高分類性能。
4.3 地表分類網絡的普適性
為了進一步說明基于深度神經網絡的極化SAR地表分類方法的實用性,我們進一步驗證了利用已組數據訓練的分類器對于其他類似數據的普適性。訓練數據和測試區域來自不同時間不同區域獲得的極化SAR圖像,通過將預訓練好的網絡用于不同圖像的分類,觀察分類結果,以此評價學習方法的泛化能力。
訓練數據來自南京地區的ALOS2極化SAR,獲取時間為2016年4月14日,入射角為30.9°。圖13為南京地區ALOS2圖像,圖中框出區域為用于訓練的4類地物:建筑、植被、海洋和裸地。訓練好分類器后對南京地區另外一區域和上海地區的ALOS2圖像進行分類。
圖14顯示的是南京另一區域的ALOS2極化SAR偽彩色圖像、分類結果圖和光學影像。對比光學影像,建筑、植被與水域等在兩地分類都基本正確。由于測試區域裸露地表類別不是很明顯,所以分類結果中黃色類別分布較分散零星。
圖15顯示的是上海某區域的ALOS2極化SAR偽彩色圖像、分類結果和光學影像。獲取時間為2015年 3月9日,入射角為25.4°。雖然來自同一傳感器,但其獲取時間、地點、入射角均有很大差異,但從分類結果上看對于各種地物分類效果理想,說明極化SAR地表分類器對于同一衛星雷達的數據具有普適性。
本文介紹了將計算機視覺領域變革性新技術CNN應用于SAR圖像解譯的幾個例子。文章嘗試了深度卷積神經網絡在SAR圖像目標識別與全極化SAR地物分類中的應用。將CNN應用MSTAR數據,對于10類模板取得了平均99%的識別準確率。在地物分類中,分別考慮了實數和復數CNN網絡。將實數網絡應用于AirSAR舊金山區域數據,獲得了90%以上的測試準確率。此外,為了利用SAR數據的相位信息,將實數CNN延伸至復數域CVCNN。將CV-CNN在Flevoland數據集上進行分類實驗,結果表明,在同等條件下CV-CNN相比RVCNN有更高的分類正確率。
從本文的初步結果可見,利用深度學習技術可以在標準數據集上得到較理想的性能,但同時我們也認識到本文的例子所適用的范圍有限,真正將深度學習技術應用到實際業務中還需要進行更深入更廣泛的研究。如何利用深度學習技術進一步發展SAR圖像智能解譯是亟需研究的課題。圖16給出一種數據驅動和模型約束下的SAR智能解譯框架,深度學習技術本身必須由海量數據來驅動,但是往往人們忽視了模型的作用,也就是將先驗知識融合到智能算法中。事實上,從深度卷積網絡的巨大成功可以看出,其核心創新“多層卷積網絡”結構即來源于對于視覺神經信號處理的理解。特別是針對SAR圖像這樣的電磁波散射物理過程的產物,我們需要融合電磁散射理論和機器學習理論,將物理規律等先驗知識體現在智能解譯算法中,這一目的可由模型與數據和算法三者協作達成:模型可以產生模擬數據,實測數據可以同化模型中,同時模型可以直接對機器學習算法進行正則化約束。
[1]張紅,王超,張波,等. 高分辨率SAR圖像目標識別[M]. 北京:科學出版社,2009: 4–7. Zhang Hong,Wang Chao,Zhang Bo,et al.. High-Resolution SAR Image Target Recognition[M]. Beijing: Science Press,2009: 4–7.
[2]Moreira A,Prats-Iraola P,Younis M,et al.. A tutorial on synthetic aperture radar[J].IEEE GeoscienceandRemoteSensing Magazine,2013,1(1): 6–43.
[3]程肖. 基于散射中心模型的SAR圖像自動目標識別[D]. [碩士論文],國防科學技術大學,2009. Cheng Xiao. SAR ATR algorithm based on the scattering center model[D]. [Master dissertation],National University of Defense Technology,2009.
[4]Krizhevsky A,Sutskever I,and Hinton G E. ImageNet classification with deep convolutional neural networks[J].Advances in Neural Information Processing Systems,2012,25(2): 1097–1105.
[5]He K,Zhang X,Ren S,et al.. Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification[C]. IEEE International Conference on Computer Vision,Santiago,Chile,2015: 1026–1034.
[6]Szegedy C,Liu W,Jia Y,et al.. Going deeper with convolutions[C]. IEEE Conference on Computer Vision and Pattern Recognition,Boston,M. A.,USA,2015: 1–9.
[7]Large Scale Visual Recognition Challenge 2016 (ILSVRC2016). http://image-net.org/challenges/ LSVRC/ 2016/results.
[8]Glorot X,Bordes A,and Bengio Y. Deep sparse rectifier networks[C]. International Conference on Artificial Intelligence and Statistics,Fort Lauderdale,United States,2011: 315–323.
[9]Chen S,Wang H,Xu F,et al.. Target classification using the deep convolutional networks for SAR images[J].IEEE Transactions on GeoscienceandRemote Sensing,2016,54(8): 4806–4817.
[10]Zhang Z,Wang H,Xu F,et al.. Complex-valued convolutional neural network and its application in polarimetric SAR image classification[J].IEEE Transactions on Geoscience&Remote Sensing,in press.
[11]H?nsch R and Hellwich O. Complex-valued convolutional neural networks for object detection in PolSAR data[C]. European Conference on Synthetic Aperture Radar,Aachen,Germany,2010: 1–4.
[12]Lecun Y,Bengio Y,and Hinton G. Deep learning[J].Nature,2015,521(7553): 436–444.
[13]Zeiler M D and Fergus R. Visualization and understanding convolutional networks[C]. European Conference on Computer Vision,Zurich,Switzerland,2014: 818–833.
[14]Srivastava N,Hinton G,Krizhevsky A,et al.. Dropout: A simple way to prevent neural networks from overfitting[J].Journal of Machine Learning Research,2014,15(1): 1929–1958.
[15]Keydel E R. MSTAR extended operating conditions: A tutorial[C]. Algorithms for Synthetic Aperture Radar Imagery Ⅲ,Orlando,F. L.,USA,1996: 228–242.
[16]Kong J A,Swartz A A,Yueh H A,et al.. Identification of terrain cover using the optimumterrain classifier[J].Journal of Electromagnetic Waves&Applications,2012,2(2): 171–194.
[17]Lee J S and Grunes M R. Classification of multi-look polarimetric SAR data based on the complex Wishart distribution[J].International Journal of Remote Sensing,1994,15(11): 2299–2311.
[18]Freeman A,Villasenor J,Klein J D,et al.. On the use of multi-frequency and polarimetric radar backscatter features for classification of agricultural crops[J].International Journal of Remote Sensing,1994,15(9): 1799–1812.
[19]Kouskoulas Y,Ulaby F T,and Pierce L E. The Bayesian Hierarchical Classifier (BHC) and its application to short vegetation using multi-frequency polarimetric SAR[J].IEEE Transactions on GeoscienceandRemote Sensing,2004,42(2): 469–477.
[20]Lee J S,Grunes M R,Ainsworth T L,et al.. Unsupervised classification using polarimetric decomposition and the complex Wishart classifier[J].IEEE Transactions on GeoscienceandRemote Sensing,1999,37(5): 2249–2258.
[21]Cloude S R and Pottier E. An entropy based classification scheme for land applications of polarimetric SAR[J].IEEE Transactions on GeoscienceandRemote Sensing,1997,35(1): 68–78.
[22]Zhou Y,Wang H,Xu F,et al.. Polarimetric SAR image classification using deep convolutional neural networks[J].IEEE Geoscience and Remote Sensing Letters,2016,13(12): 1935–1939.
[23]Spaceborne and Airborne POLSAR Images[OL]. Available: http://envisat.esa.int/POLSARpro/datasets.html29.
[24]Yu P,Qin A K,and Clausi D A. Unsupervised polarimetric SAR image segmentation using region growing with edge penalty[J].IEEE Transactions on GeoscienceandRemote Sensing,2012,50(4): 1302–1317.
徐 豐(1982–),男,浙江東陽人,復旦大學博士學位,教授,復旦大學電磁波信息科學教育部重點實驗室副主任,研究方向為SAR圖像解譯、電磁散射建模、人工智能,兼職:IEEE地球科學與遙感快報副主編、IEEE地球科學與遙感學會上海分會主席。
E-mail: fengxu@fudan.edu.cn
王海鵬(1979–),男,河南遂平人,復旦大學電磁波信息科學教育部重點實驗室副教授,研究方向為雷達系統設計與算法開發、遙感圖像處理與信息獲取、機器學習與目標識別、智能圖像處理等。
E-mail: hpwang@fudan.edu.cn
金亞秋(1946–),男,上海人,美國麻省理工學院博士學位,教授,復旦大學電磁波信息科學教育部重點實驗室主任,中國科學院院士,研究方向為復雜自然介質的電磁輻射、散射與傳輸。
E-mail: yqjin@fudan.edu.cn
Deep Learning as Applied in SAR Target Recognition and Terrain Classification
Xu Feng Wang Haipeng Jin Yaqiu
(Key Laboratory for Information Science of Electromagnetic Waves,Fudan University,Shanghai200433,China)
Deep learning such as deep neural networks has revolutionized the computer vision area. Deep learning-based algorithms have surpassed conventional algorithms in terms of performance by a significant margin. This paper reviews our works in the application of deep convolutional neural networks to target recognition and terrain classification using the SAR image. A convolutional neural network is employed to automatically extract a hierarchic feature representation from the data,based on which the target recognition and terrain classification can be conducted. Experimental results on the MSTAR benchmark dataset reveal that deep convolutional network could achieve a state-of-the-art classification accuracy of 99% for the 10-class task. For a polarimetric SAR image classification,we propose complex-valued convolutional neural networks for complex SAR images. This algorithm achieved a state-of-the-art accuracy of 95% for the 15-class task on the Flevoland benchmark dataset.
Synthetic Aperture Radar (SAR); Deep learning; Automatic Target Recognition (ATR); Terrain classification
TN959
A
2095-283X(2017)02-0136-13
10.12000/JR16130
徐豐,王海鵬,金亞秋. 深度學習在SAR目標識別與地物分類中的應用[J]. 雷達學報,2017,6(2): 136–148.
10.12000/JR16130.
Reference format:Xu Feng,Wang Haipeng,and Jin Yaqiu. Deep learning as applied in SAR target recognition and terrain classification[J].Journal of Radars,2017,6(2): 136–148. DOI: 10.12000/JR16130.
2016-11-29;改回日期:2017-03-14;
2017-04-24
*通信作者: 徐豐 fengxu@fudan.edu.cn
國家自然科學基金(61571132,61571134,61331020),上海航天科技創新基金
Foundation Items: The National Natural Science Foundation of China (61571132,61571134,61331020),The Foundation of Shanghai Aerospace Science and Technology