999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

光學遙感圖像目標檢測算法綜述

2021-09-28 07:20:06聶光濤
自動化學報 2021年8期
關鍵詞:特征區域檢測

聶光濤 黃 華

光學遙感,是指傳感器工作波段在可見光波段,即0.38~0.76 微米范圍的遙感技術,在此波段下采集的圖像即為光學遙感圖像.光學遙感圖像包含大量細節信息,直觀反映地物目標的形狀、顏色和紋理等,便于人眼直接觀察.光學遙感圖像目標檢測是指利用特定的算法從圖像中搜索并標記出感興趣的目標,例如飛機、坦克、船只、車輛等.光學遙感目標檢測作為一種基礎技術手段,在遙感圖像分析中具有重要的作用,是城市規劃、土地利用、交通疏導、軍事監測等應用的重要基礎.隨著對地觀測技術的發展,獲取到的高分辨率遙感圖像數據規模越來越大.高分辨率的遙感圖像提供了更高的圖像質量和更豐富的細節信息,為目標檢測在遙感領域的發展提供了大的機遇.

較早的光學遙感圖像目標檢測算法均是基于手工設計特征的方式,首先提取候選區域,之后針對待測目標人工設計特征,最后結合分類器進行分類確定目標類別.候選區域提取需要設置大量的滑動窗口,產生大量的冗余計算,時間復雜度高;人工設計的特征主要根據目標視覺信息(顏色、紋理、邊緣等)進行提取,可解釋性較強,但是特征表達能力弱、魯棒性差、適應范圍小,難以應用在復雜多變的環境中.綜上所述,早期檢測算法遠不能滿足實際應用需求.

隨著深度學習的發展,神經網絡提取的深層特征有著更強的語義表征能力和判別性,目標檢測性能獲得了進一步的提升.然而由于遙感圖像自身的特點,現有檢測手段尚不能在遙感圖像上取得好的表現.針對遙感圖像的特點,提出了大量改進方案,有效提升了目標檢測在遙感領域的性能.

目前針對光學遙感圖像的目標檢測已經有一定數量的綜述文獻發表.Wang 等[1]主要針對海上特定目標(艦船)檢測進行總結梳理;Cheng 等[2]總結了現階段遙感圖像通用目標檢測方法,以基于手工設計特征的研究為主,對當前主流的基于深度學習的方法介紹較少;鑒于此,劉小波等[3]和Li 等[4]專門梳理了基于深度學習的光學遙感圖像目標檢測研究;除了光學遙感圖像,張號逵等[5]還重點梳理了基于深度學習的高光譜遙感圖像分類方法,實現了在光譜圖像上地物的檢測和精準定位.

與現有綜述不同,本文對光學遙感圖像中通用目標檢測方法進行全面、細致的梳理,既包括早期基于手工設計特征的方法,也包括當前深度學習的方法,同時重點對基于深度學習的方法及其針對遙感圖像特點的改進進行更為精細的梳理,此外還額外評估各個改進方法的性能定量改善,并根據評估結果指出現存的問題和未來的發展方向.

1 遙感圖像目標檢測的特點與挑戰

針對自然圖像通用目標檢測算法的探索已持續多年,從傳統的基于手工特征提取到現階段的深度學習,性能獲得了大幅度的提升.然而現階段在常規圖像中性能極佳的通用檢測算法,在遙感圖像上表現并不理想.主要原因是由于遙感圖像自身的特點(如圖1 所示)為目標檢測帶來了較大的難度和挑戰.遙感圖像的特點和面臨的挑戰主要總結如下:

圖1 遙感圖像目標檢測的特點與挑戰Fig.1 Characteristics and challenges of object detection in remote sensing images

1)超大圖像尺寸:遙感圖像具有超大的圖像尺寸和覆蓋面積.典型檢測算法針對的圖像尺寸較小,難以直接應用在遙感領域.同時,遙感圖像中的背景占了較大比重,目標區域范圍較小,典型檢測算法對每一區域同等對待,計算效率極低.

2)方向變化大:遙感圖像從空中視角進行拍攝,場景為俯視圖,目標以多種角度分布在場景中,現有多數算法對角度的適應性不高,在處理多方向問題時不夠魯棒.此外經典的水平框定位方式在對多方向目標進行定位時,包圍框不夠緊湊,定位不夠精細.

3)小目標規模大:遙感圖像小目標的數量占比較大.小目標在現有檢測算法中極容易因特征降采樣而丟失,從而造成漏檢.小目標檢測的方法在常規自然圖像檢測中仍沒有得到很好的解決,遙感領域更是加大了檢測的難度.

4)目標分布密集:遙感圖像存在較大規模密集分布的目標,目標之間容易產生相互干擾,從而導致較大的定位誤差,同時漏檢、誤檢的問題也極易產生.

5)目標形狀變化大:遙感圖像中目標涵蓋類別廣泛、形狀差異大,大量長寬比異常的狹長目標(如橋梁、道路等)脫離檢測算法適應的形狀檢測范圍,導致定位精度較低.

6)目標尺度變化大:遙感圖像分辨率范圍廣,不同類別的目標或者同一類別目標在不同分辨率采集下的尺寸差異懸殊,對檢測算法的尺度適應能力要求極高,同時兼顧微小目標和超大目標的檢測算法,具有更大的難度.

7)目標模糊:由于受傳感器和環境因素(風雨、云霧等)的影響,采集到的部分遙感圖像目標具有外觀模糊、邊界不清晰的特點,單從目標本身特征上難以進行有效判別,從而加大了分類和定位的難度.

8)背景復雜:大量遙感圖像目標存在于復雜的背景中,一方面由于場景本身比較復雜,另一方面容易受到噪聲等其他因素的影響.當目標本身特征不明顯時,背景信息甚至比目標本身還要突出,容易造成大量的漏檢和誤檢問題.

2 基于手工設計特征的目標檢測

在遙感圖像領域,傳統基于手工設計特征的目標檢測算法與常規圖像基本類似.傳統基于手工設計特征的目標檢測流程包括候選區域提取、特征提取、分類器設計和后處理.首先采用候選區域提取方式從輸入圖像中提取潛在的目標區域,之后對每個區域進行特征提取,進而對提取的特征進行分類,最后對得到的所有候選框進行過濾、合并等后處理,得到最終結果.下文針對候選區域提取、特征提取、分類器設計三個重要流程進行相關研究的介紹.

2.1 候選區域提取

在圖像中預先挑選出感興趣目標可能出現的區域,舍棄出現目標可能性較低的區域,可以去除大量無關背景,進而減少運算量,因此通常作為目標檢測前的預處理手段.現存遙感圖像候選區域提取方法大致分為五類:基于區域先驗的方法、基于模板匹配的方法、基于特征分類的方法、基于選擇性搜索的方法和基于視覺顯著性的方法.

2.1.1 基于區域先驗的方法

基于區域先驗的方法是借鑒人類對目標所在區域的先驗知識,提取目標的潛在區域.典型應用包含艦船檢測中的海陸分離、飛機檢測中的機場檢測等.

海陸分離已有的研究工作大都借助港口的地理坐標信息等先驗信息定位到海陸邊界,進而完成海面區域提取[6].Antelo 等[7]采用主動輪廓方法完成海面的分離,通過構造能量函數并進行能量最小化迭代運算,使得輪廓曲線逐漸逼近海陸分界線,實現海陸邊界精細定位,進而完成海陸分離過程;Liu等[8]在主動輪廓分割法的基礎上,同時引入水平集方法,完成海面的分離.此外還有大量基于閾值分割的方法提取海面區域,此類方法主要是利用海面與陸地的灰度或紋理統計特征存在本質的不同,來進行海陸背景的區分.例如儲昭亮等[9]利用最大似然準則自動計算分割閾值,將像素分為前景像素和背景像素,從而實現像素級別的海陸分割判定;You等[10]在自動計算分割閾值的基礎上,引入大津(OTSU)算法[11]進行粗分割,找出最大連通的海面區域,建立海面分布模型,進一步分割海面和陸地.

鑒于機場中跑道的直線性特點,機場檢測研究工作的主要核心思想是對機場跑道進行檢測.Liu等[12]利用Canny 邊緣檢測算子提取圖像邊緣特征,后續使用霍夫變換檢測直線段,從而判斷跑道位置,進而而對機場位置進行定位.Tao 等[13]改進SIFT特征描述子,結合先驗知識確定機場的位置.Yao等[14]分析了現有方法逐像素判斷的缺陷,利用霍夫變換判斷是否存在潛在機場,后續采用基于顯著性區域提取的方式對候選區域提取SIFT 特征,通過分類判斷目標區域位置.

基于區域分割的方法只能針對極特殊目標,需要大量的人工先驗信息,例如水陸分界線清晰且顏色特征差異大、機場跑道呈直線分布等,難以應用在通用目標檢測上以及其他復雜場景中,應用范圍大大受限.

2.1.2 基于模板匹配的方法

基于模板匹配方法的核心思想是對感興趣目標建立模板庫,然后在待檢圖像中逐像素或者逐窗口,根據相似度度量與模板進行匹配.

Xu 等[15]基于霍夫變換過程生成艦船樣本形狀庫,在實際圖像上采用滑動窗口方法計算各個窗口區域與形狀庫特征相似性,從而判斷是否包含目標圖像.Xu 等[16]在形狀庫上進行改進,在訓練方法中引入迭代最大間隔,使得形狀模型更加魯棒,進一步提升檢測性能.Harvey 等[17]對數據集中艦船樣本進行多角度旋轉,增加模板庫的多樣性,從而提升檢測的泛化能力,同時在匹配算法中,設計了一種灰度形態學命中算法來加速匹配過程.Liu[18]等提出由粗到精(Coarse to fine)的飛機檢測方法,先利用模板匹配找出飛機可能存在的區域,再對每個區域利用主成分分析和核密度函數進行識別,完成整個檢測過程.

基于模板匹配的圖像預檢方法可以在特定場景中找出感興趣目標,然而模板的設計一般存在魯棒性差的缺陷,難以應對復雜多變的遙感圖像場景,同時匹配的過程采用遍歷的方式,計算效率較低.

2.1.3 基于特征分類的方法

基于特征分類的方法屬于有監督學習算法,基本思想是對滑動窗口進行特征提取,然后設計分類器,對滑動圖像塊進行快速評價,最后選取得分較高的圖像區域作為候選區域.

Zhang 等[19]利用滑動窗口法在圖像中生成不同大小、不同長寬比的窗口,并提取每個窗口的視覺特征,利用級聯的支持向量機(SVM)對滑動窗口進行打分,完成候選區域的提取過程.BING[20]在此基礎上將窗口提取到的特征和SVM 分類器的權重進行二值化,從而極大地提升了算法處理速度.Liu 等[21]在BING 算法基礎上,針對艦船方向性問題構造旋轉矩形框空間,并設計級聯線性分類器模型對空間內的候選框進行快速打分,完成對艦船目標潛在區域的提取過程.

基于特征分類的方法采用滑動窗口暴力搜索的方式來進行區域提取,計算效率較低,且定位精度較差;同時算法大幅度依賴提取的特征表征能力和分類器性能,難以取得較高的精度.

2.1.4 基于選擇性搜索的方法

基于選擇性搜索(Selective search)的方法旨在搜索到圖像中所有潛在目標,從而進行候選區域的提取.其中,分割是最核心的處理環節,在目標區域提取過程中利用過分割結合相似性合并的策略,最終得到不同尺寸的所有目標范圍.

如圖2 所示,選擇性搜索方法[22]首先采用基于圖(Graph)的分割方法[23]進行過分割,生成大量初始小區域,之后通過計算相鄰區域間的相似度,將最相似的兩個區域進行合并,重復上述過程直至滿足提取的候選區域預定數量.Cheng 等[24-25]基于選擇性搜索方法提取艦船的候選區域,有效濾除了大部分背景.

圖2 選擇性搜索方法流程Fig.2 The process of selective search method

選擇性搜索方法采用分割方式來解決目標不同尺度的問題,減少了滑動窗口暴力搜索帶來的時間消耗;面對復雜類別同時使用顏色、紋理等多種特征進行相似度度量,泛化能力較強.但是算法復雜度依然較高,難以滿足實時性要求.

2.1.5 基于視覺顯著性的方法

基于視覺顯著性的方法參考人類視覺系統中的快速聚焦能力,優先聚焦在視覺特征明顯的顯著性區域,忽略無關背景,從而縮小目標檢測范圍.該類方法主要借鑒顯著性檢測算法來完成候選區域的提取.

相對于背景區域,目標區域視覺特征有著明顯的不同,基于視覺特征進行顯著性檢測是較為經典的方法.Song 等[26]有效利用了顏色特性,融合方向和梯度信息來提取視覺特征,進而進行視覺顯著性的計算,并依據顯著性檢測結果提取艦船候選區域.

此外,基于頻域特性進行顯著性檢測的方法也是較為常用的方法.如利用傅里葉變換、余弦變換、小波變換將空域信息映射到頻域,進而在頻域空間利用頻域特性完成視覺顯著性的檢測.例如Zhang 等[27]利用傅里葉變換提取飛機候選區域,Ding 等[28]和Xu 等[29]利用頻域特性提取艦船候選區域.

基于視覺顯著性的方法在特定場景中有著不錯的性能,但是只能應用在簡單背景環境下,且目標本身的視覺特征相對明顯,例如平靜水面上的艦船.一旦目標特征不明顯、背景復雜或者目標區域范圍較大,數量較多,基于視覺顯著性的方法便難以取得較高的性能.

在候選區域提取研究領域,盡管已有的工作取得了一定的進展,但是大部分工作采用遍歷搜索的方式,存在冗余計算,處理速度較慢.這些工作針對的場景有限,只能處理比較簡單的特定目標任務,無法快速處理遙感領域復雜多變的數據,同時定位精度較低.

2.2 特征提取

特征提取是遙感目標檢測中最為關鍵的步驟,直接影響著檢測算法的性能和效率,因此,特征的設計一直是目標檢測領域關注的重點和難點.遙感圖像目標檢測常用的特征有顏色、紋理、邊緣形狀和上下文.提取的用于目標檢測的特征,可以是單個視覺特征,也可以融合多個視覺特征.多特征融合的方式可以實現不同特征的優劣互補,進行更全面的特征表達.多特征融合的方式一般采用直接級聯操作或者加權融合方式,對于融合后的高維特征可選擇性采取降維等處理方式提取主要信息,減少運算量.

2.2.1 顏色特征

顏色特征主要是描述顏色在圖像中的全局分布,即不同顏色在整幅圖像中所占的比例,適用于對顏色敏感但對空間位置分布不敏感的目標.相比其他特征,顏色特征計算過程較為簡單,且不依賴目標的尺寸、方向或者圖像視角的變化,具有較強的魯棒性.常用的顏色特征有顏色矩、顏色相關圖和顏色直方圖等.

Cucchiara 等[30]在提取候選區域后,轉換到HSV 顏色空間,并對每個區域提取顏色特征,來判斷目標的位置信息和移動關系.Morillas 等[31]提取候選區域的顏色特征作為輔助信息,與其他視覺特征進行結合,來進行檢測和識別.GIST 特征[32]是一種場景特征描述,在空間包絡基礎上發展得到,對顏色比較敏感,Li 等[33]利用GIST 特征來對候選區域進行檢測和識別.

顏色特征表征能力有限,單純憑借顏色特征很難對目標進行區分,一般都會結合其他視覺特征來進一步提高特征表達能力.

2.2.2 紋理特征

紋理特征是描述圖像中同質現象的視覺特征,體現了物體表面的具有緩慢變化或者周期性變化的結構組織排列屬性.紋理特征描述了像素及其周圍空間鄰域像素的灰度分布,同時也描述了特定圖像區域包含的目標的表面特性.高分辨率遙感圖像目標包含了豐富的紋理結構,不同種類的目標,例如機場、港口、建筑物、綠地、海面等都具有不同的紋理結構,合適的紋理特征能夠有效提高目標檢測性能.

Brekke 等[34]根據海面區域和海面浮油區域之間不同的紋理特性,來做漏油檢測.Selvi 等[35]利用紋理特征來進行艦船目標的檢測識別.

紋理特征在一些特定場景下對特殊目標具有較高的判別能力,但是應用范圍依然有限,大部分檢測識別問題不能通過紋理去解決.

2.2.3 邊緣形狀特征

邊緣形狀特征反映了目標的邊緣和形狀信息,與顏色、紋理等全局特征相比,更能反映感興趣目標的本質特征.為了便于目標檢測,通常要求邊緣形狀特征具有尺度、平移、旋轉等不變性.常用的邊緣形狀特征有矩特征、SIFT 特征和HOG 特征等.

遙感目標的檢測可以提取感興趣目標的區域矩或者輪廓矩進行形狀描述.區域矩對整體區域的全局進行表述,輪廓矩對候選區域內目標的邊界進行表述.區域矩識別區域范圍大,包含的信息量多,有助于后續對目標進行分類,應用廣泛.Hsieh 等[36]提取目標的Zernike 矩,并結合小波系數、邊緣和距離特征,對各個特征進行加權融合,提高了飛機的識別率.

SIFT 特征用于描述圖像局部信息,對尺度變化和角度變化保持不變,同時對視角變化和噪聲具有一定的適應性.SIFT 特征提取速度快,廣泛應用于目標檢測.Sun 等[37]提取滑動窗口中的SIFT 特征,利用稀疏詞袋模型(Bag of words)進行分類.Tong 等[38]利用SIFT 作為艦船候選區域的特征,進而根據提取的特征進行分類識別.

HOG 特征利用梯度或邊緣的方向密度分布描述了區域內目標的輪廓和邊緣信息,弱化光照變化等環境上的干擾,提取速度快,特征泛化能力強,廣泛應用于遙感圖像的目標檢測識別,如艦船檢測識別[24,29,39–41]、飛機檢測識別[42–44]等.Shi 等[39]提取艦船的候選區域后,對每個區域提取HOG 特征,并采用AdaBoost 分類器對候選區域進行篩選分類,進一步提高算法的精確度.Gong 等[40]對候選區域提取多尺度HOG 特征,然后對多尺度特征進行融合,進而進行分類識別.鑒于HOG 特征不具備旋轉不變性的特點,Zhang 等[42]設計了對旋轉不敏感的旋轉不變性的特征,對單個窗口進行網格劃分,提取網絡內HOG 特征,然后基于部件模型的思想對窗口內網絡特征進行融合,生成旋轉不變特征.

邊緣形狀特征提取速度快,對目標的表達能力強,應用范圍廣泛,是人工特征提取的主要方式.雖然取得了相對較好的性能,但是距離實際應用仍差距較遠.

2.2.4 上下文特征

上下文特征主要表征圖像中不同實例之間的順序、拓撲、相鄰等空間位置關系.上下文特征需要借助高層語義知識,一般作為顏色、形狀等其他視覺特征的輔助信息,可進一步提高算法對目標的判別能力.

Hinz 等[45]在道路檢測中利用車輛、綠地和道路之間的上下文關系,對特征進行增強從而提升道路提取的精度.Gu 等[46]利用馬爾科夫隨機場來對空間目標物體之間的位置關系進行建模,從而對目標進行分類.在地物分類和檢測中,大量研究[47–49]在像素基礎上,擴充一個矩形窗口,以窗口的特征作為當前像素的特征表示,從而引入了上下文視覺特征.

上下文特征通常作為補充信息.在目標區域自身特征提取的基礎上,結合周邊的上下文信息來進一步增強區域的特征表達能力.該特征需要配合其他特征使用,無法單獨用于檢測.

2.3 分類器設計

現有主流的目標分類識別任務均采用有監督的機器學習方式,需要設計合適的分類器對目標進行分類,分類之前需要利用特征和標簽對分類器進行訓練,建立目標特征和目標類別之間的關系.分類器基本采用機器學習中較為流行的經典模型,如邏輯回歸、支持向量機(SVM)和貝葉斯分類器等.

邏輯回歸是最簡單的分類器,將提取的特征映射到線性可分的空間,之后采用線性判別器完成分類過程.Corbane 等[50]提取候選區域內的Radon 變換、小波變換等多個視覺特征,并將特征進行級聯,利用邏輯回歸完成目標分類和識別.

支持向量機的分類策略是將待分類樣本通過核函數映射到線性可分的高維空間,并找到最優的分類超平面使得支持向量在特征空間上的間隔最大.Gong 等[40]設計了一個判別式的可見部件模型,利用隱支持向量機訓練模型參數,緩解了遙感目標多尺度問題和旋轉問題.Zhu 等[51]提取不變矩多維特征,對多個矩特征進行組合優化,利用SVM 分類器進行分類識別,有效克服了單一特征魯棒性不強的缺點.Wang 等[52]也利用SVM 分類器對提取到的特征進行分類和識別.

貝葉斯分類器采用后驗概率來進行判斷,確定概率最高的類別為檢測結果.Antelo 等[7]提取矩特征,使用線性判別分析對特征進行降維,最后用貝葉斯分類器完成候選區域分類.

分類器的設計相對成熟,特征提取的性能對分類結果具有重要影響,因此現有研究更傾向于增強特征表達能力,從根本上提高目標判別性.

雖然傳統的基于手工設計特征的目標檢測識別研究精心設計了每個環節,在特定的應用場景下取得了不錯的效果,但仍存在較多的問題和局限.首先,傳統基于候選區域提取的方式只能粗略提取水平矩形區域,定位精度差;其次,人工設計的特征提取方式大多利用底層視覺信息,特征表述能力弱,無法準確表達圖像中復雜的高層語義信息,類別間通用性差;最后,提取的候選區域數量大、冗余計算量大、時間復雜度高,難以滿足實時系統的應用需求.綜上,傳統方法的性能還遠遠無法滿足實際應用的需求.

3 基于深度學習的目標檢測

相對于手工特征提取,深度學習直接將候選區域提取、特征學習和分類器整合在一起,實現了端到端的檢測.深度學習在海量數據驅動下學習到的特征具有更強的語義表征能力,性能相對于手工提取方式得到大幅度的提升,同時在神經網絡前向傳播過程中避免了大量窗口的冗余計算,提升了檢測速度.

下文首先簡要概括典型的目標檢測模型.后續針對遙感圖像的特點,詳細梳理了一系列改進方案,使其能夠有效應用在遙感圖像的檢測上.

3.1 典型目標檢測模型

基于深度學習的目標檢測方法有兩種分類標準,依據是否需要進行感興趣區域(Region of interest,ROI)提取,劃分為雙階段檢測(Two-stage)和單階段檢測(One-stage);依據是否需要預設錨點框(Anchor),劃分為基于錨點框的檢測(Anchor based)和基于關鍵點的檢測(Point based),基于關鍵點的檢測也稱為Anchor free 檢測.

雙階段的目標檢測分兩個階段完成整個檢測流程.首先要提取感興趣的區域,之后針對每個區域進行進一步的檢測和識別,典型方法代表為Faster R-CNN[53].雙階段的目標檢測方法取得了較高的精度,然而由于需要首先提取感興趣區域,并對每個區域分別進行分類和回歸,增加了額外的計算量,速度上不夠快,對于實時性要求較高的系統難以應用.單階段的目標檢測在一個階段完成整個檢測過程,典型方法以YOLO[54]和SSD[55]為代表.單階段目標檢測速度較快,基本滿足實時系統的要求,但是檢測精度略低于多階段目標檢測方式.

大部分檢測方法需要提取錨點框,以錨點框為初始檢測框,進行進一步的微調.通過回歸真實框和錨點框的中心點位置偏移,以及對應寬、高的縮放比例,調整錨點框的位置、形狀和尺寸,使其逐漸與真實框重合.基于錨點框檢測的優勢是網絡輸出值都是在錨點框基礎上的相對值,值域范圍小,訓練比較容易,收斂速度快.然而由于檢測過程需要基于錨點框進行匹配,錨點框的設計需要針對不同任務進行大量的人工干預,針對特定任務需要具備一定的先驗知識,調參過程比較繁瑣;一些長寬比罕見的目標難以匹配上,進而導致漏檢;同時大量的錨點框也會導致內存占用大、時間復雜度高等問題.針對錨點框檢測帶來的問題,近期基于關鍵點的檢測方式[56–58]逐漸流行.該類方法直接基于像素層面進行目標的分類和回歸,避免了錨點框的引入,緩解了錨點框帶來的一系列問題.基于關鍵點的檢測方法免除了人工繁瑣的錨點設計過程,避免了檢測過程中重合度(Intersection over union,IoU)計算等匹配過程,減少了運算量,并取得了較高的精度,目前已經成為了當前研究的熱點.

現階段幾乎所有的基于深度學習的目標檢測方法均是基于上述典型模型進行擴展的,這些模型的發展變化也反映出當下目標檢測整體的發展趨勢.盡管這些典型方法在自然圖像上取得了不錯的效果,卻無法直接應用在遙感領域.遙感圖像和常規自然圖像相比,有其獨有的特點,需要針對性進行算法的改進,下文將具體闡述針對遙感領域的目標檢測算法改進.

3.2 遙感目標檢測模塊改進

本節針對遙感圖像存在的特殊問題分別進行分析,對不同的改進算法進行歸類和總結.

3.2.1 針對超大圖像尺寸的改進

一般情況下自然圖像處理尺寸不會過大,即便高清的圖像,寬高像素數很少會超過5 000.在尺寸較大的自然圖像上進行目標檢測時,適當對原圖進行縮放,待測目標的特征也不會弱化太多,絕大多數目標都可以正常進行檢測.然而在遙感圖像上卻有所不同,遙感圖像具有超大的圖像尺寸,寬高像素數可達數萬級別,直接進行目標檢測需要過大的內存空間,同時計算量過大,現有硬件還不足以支持;若將其縮放到合適的尺度,則會因為縮放比例因子過小,導致多數目標在縮放過程中 “消失”,從而造成較高的漏檢率.因此現有目標檢測方法很難在保證檢測質量的同時,保持較快的速度.

為了處理圖像尺度過大的問題,最為常用的方法是采用分塊切割的方式,將大圖切割成小圖,再分別對每張小圖進行后續的檢測識別,最后把所有的檢測結果進行拼接,完成全圖的最終檢測[59–65].這種分塊的方式避免了整張圖像送入網絡輸入中帶來的內存過大問題,同時保持原有的目標尺度,提高了檢測效果,然而該方法會將處于分塊邊緣的目標切割,從而將完整目標一分為二,影響定位精度.為了解決這個問題,Wang 等[66]以一定的重疊率對原圖進行切割,從而增加了分塊小圖邊緣目標完整性的可能,但是卻增加了子圖像的數量,使得大圖的處理時間變得冗余,同時依然無法避免目標檢測結果一分為二的問題.為了減少大圖檢測的時間冗余,基于圖像中絕大多數區域為背景、待測目標只集中于較小區域的現狀,R2-CNN[67]設計了輕量級主干Tiny-Net 來進行特征提取,并采用先判斷、后定位的方式,將不含目標的子圖像塊進行濾除,從而減小后續檢測識別過程的計算負擔,該方法保證了檢測效果,同時提高了檢測效率,但是依然會對重疊區域進行多次檢測.算法YOLT[68]對切割后的子圖,采用多個輕量級模型進行檢測,并將檢測結果進行融合,保持檢測精度的同時,一定程度上提升了檢測的速度.以上方法均需要對原始遙感圖像進行分塊處理,這種切割的方式始終不是一種最優的方式,但目前來看很難通過非切割的辦法進行完美的檢測.

Zhang 等[69]在直接對原圖進行處理的方向上邁進了一小步,該方法將整張原圖作為輸入,并基于像素級別進行分類,對置信度較高的像素,以該像素為中心提取候選區域,并經過非極大值抑制過程進一步減少重合度高的區域,最后基于每個單獨的候選區域完成檢測識別.這種方式有效減少了切割分塊過程帶來的冗余計算量,但是同時也存在較大的問題:原始圖像仍然不能過大,在過大圖像尺寸下這種方法同樣無法應用;候選框大小是基于待測目標的先驗尺度信息和形狀信息得到的,面對尺度、形狀多變的多類目標檢測任務時,則難以進行有效處理.

綜上所述,現階段對超大尺寸的遙感圖像檢測,圖像分塊結合快速過濾的方式是當前從速度上和精度上最優的處理方式.

3.2.2 針對目標方向多樣化的改進

相對于自然圖像,遙感圖像均是俯視視角拍攝得到的,方向性問題更加突出.同一類型的不同目標經常以多樣化的方向在一張圖像上分布,而經典的卷積神經網絡不具備旋轉不變性,提取的特征對旋轉極其敏感,同一個目標在不同方向下提取的特征完全不同,給方向多樣化的目標檢測帶來很大難度.

針對目標方向多樣化問題,有效的改進思路有兩種:數據擴充和增加旋轉不變子模塊.

數據擴充方式是對原有訓練數據,分別旋轉多個不同的角度,進而從角度上進行數據擴充,以增強卷積神經網絡對角度的適應能力.現階段大多數遙感圖像目標檢測方法[60–64]均默認對訓練數據進行角度擴充,有的方式直接將擴充多個角度后的圖像數據合成一個更大的數據集進行訓練;有的方式直接在訓練過程中對單幅圖像采用隨機旋轉處理.數據增強方式在一定程度上提升了樣本角度的多樣性,對處理多方向目標檢測問題起到一定作用,但是基于旋轉擴充的數據增強方式起到的作用有限,并不能從根本上解決卷積神經網絡對旋轉敏感的問題.

為了從根本上解決目標檢測中角度多樣性的問題,現有研究通過在特征提取過程中增加對旋轉不敏感的模塊,來對不同角度的目標進行角度歸一化,進而提高特征表示在不同角度下對各個類別的魯棒性.RICNN[25]模型優化一個新的目標函數,通過引入正則化約束,使樣本的特征表示在旋轉前后相互接近,實現旋轉不變性.Cheng 等[70]通過優化一個新的目標函數顯式地在CNN 特征上添加了一個旋轉不變正則化器,強制旋轉前后訓練樣本的特征表示緊密映射,以實現旋轉不變性.ORSIm[71]檢測器采用了一種新穎的空頻信道特征(SFCF),綜合考慮了頻域內構造的旋轉不變信道特征和原始的空間信道特征來應對旋轉問題.以上方法通過引入旋轉不變子模塊,減弱了卷積神經網絡特征提取對角度的敏感性,從根本上緩解了方向多樣化問題對檢測帶來的影響.

3.2.3 針對目標尺度過小的改進

與自然圖像相比,遙感圖像中小目標的數量規模更大.小目標的總像素數只有幾十到幾百個像素,隨著卷積神經網絡的下采樣,特征圖尺度不斷減小,小目標會在多次下采樣中,從深層特征中消失,進而造成很大程度的漏檢.小目標檢測一直是現有深度學習算法中的難點,目前仍有大量工作針對小目標檢測做改進.最直觀的方法是提高特征圖的尺寸,尺寸的提高主要包括兩種方式:引入淺層特征和深層特征上采樣.

針對淺層特征引入的改進,Yang 等[60]通過增加淺層特征金字塔的數量和規模來提升小目標的檢測精度,并采用稠密連接的結構增強小目標的特征表達能力.YOLT[68]增加上采樣,并通過恒等映射將中間淺層特征與輸出特征進行拼接,同時增加預測網格的個數,從而提高小目標的適應性,并融合多個尺度來尋找更小的目標.Chen 等[72]在最淺層特征上結合語義信息進行增強,并與深層特征進行融合,提高小目標檢測率.Wang 等[73]在結合淺層信息后,同時改進損失函數來增加小目標的訓練權重.Li 等[63]利用反卷積層進行淺層特征和深層特征的融合,在已有檢測精度下,進一步增強小目標的檢測能力.上述引入淺層特征的方式,對于小目標會引入過多的背景噪聲.為了減少噪聲的影響,Fu等[62]在進行淺層特征和深層特征融合時,采用一個平衡因子來平衡特征融合的權重,但是對于因子的取值只能憑借檢測任務的先驗,面對不同任務魯棒性較差.

深層特征上采樣主要以反卷積的形式實現的.Zhang 等[74]在兩階段Faster RCNN 基礎上,對前一階段提取的每個候選區域通過反卷積進行上采樣,放大特征圖尺寸,改善小目標檢測效果.Schilling等[64]利用反卷積層擴大深層特征的尺度,融合淺層特征共同完成檢測過程.然而基于反卷積的運算會引入更多的參數.為了減少額外的參數量,Liu 等[75]采用膨脹卷積操作來代替卷積,在相同感受野的前提下,減少了參數,然而膨脹卷積會造成局部信息的丟失.為了解決這個問題,Ying 等[76]使用像素注意力機制來進行局部信息的融合,彌補了膨脹卷積的不足,改善了小目標檢測問題.然而,只有在深層特征中依然存在小目標的前提下,上采樣操作才有意義.如果本身小目標在深層特征中因為降采樣而“丟失”了,上采樣也并不能挽回丟失的特征信息.因此也有一部分工作[64]同時結合引入淺層特征以及深層特征上采樣過程,實現優勢互補,但是隨著特征圖尺度的增加,計算復雜度也有了一定程度的增加,在增強小目標檢測能力的同時,增加了檢測過程的時間消耗.

3.2.4 針對目標密集分布的改進

遙感圖像在一些特定場合下目標分布過于密集,例如停車場中的車輛、港口中的船只等.在常規視角下的自然圖像中,也存在密集分布的問題,例如擁擠街道中密集行人檢測等.相對于自然圖像的密集檢測,遙感圖像反而相對容易,因為在俯視視角下,較難出現同類目標相互遮擋的問題,因此無需考慮遮擋因素.遙感圖像中密集檢測的困難因素主要在于密集分布的目標尺度較小,因此很大程度上,可以借鑒上述小目標檢測的改進方案.除此之外,對于密集分布的目標,提取到的特征極容易出現邊界模糊、高密度目標特征聚集的問題,從而導致漏檢、誤檢和定位錯誤.現有研究大多通過特征增強方式來提升單個目標的區分度.

Long 等[77]將多種傳統方法和深度學習方法進行組合,可以有效處理高密度,小尺寸的物體在復雜背景下的檢測,但是流程極其復雜.DAPNet[78]通過判斷圖像中目標的分布密度,來進行自適應的區域生成策略.Long 等[79]提出了一種基于無監督分數的邊界盒回歸(USB-BBR)算法,并結合非最大抑制算法對檢測到的目標區域的邊界盒進行優化,提高密集分布目標的定位精度.SCRDet[80]增加了像素注意力機制和通道注意力機制來同時實現小目標和密集目標的特征增強.R3Det[81]通過增加一個特征圖微調模塊,盡量保證目標的特征和目標的中心對齊,提高密集目標的定位精度.SCRDet++[82]借助語義分割網絡的中間特征來指導檢測識別的特征提取過程,間接使用注意力機制來進行密集目標的特征增強,從而提升密集目標的邊界區分程度.

上述特征增強手段,都引入了額外的運算模塊,提升了算法的復雜度,在犧牲算法效率的基礎上,提高了對于密集目標檢測和定位的精度.現有算法大多需要根據實際需求對性能和效率進行權衡.

3.2.5 針對目標形狀差異大的改進

遙感圖像相對于常規圖像,不同類之間的目標形狀差異過大.例如車輛、儲油罐、飛機等基本接近常規形狀矩形,但橋梁、道路、船只等目標過于狹長,有著極其異常的長寬比.面對形狀的多樣化,容易因為錨點框預設不合適,造成漏匹配問題,從而導致漏檢.現有較多的方法是檢測階段提高錨點框的種類和數量,以進行不同目標形狀的適配.同時還可以采用可變形卷積網絡和基于關鍵點的檢測模型來提高對形狀的適應能力.

大量研究直接通過增加預設錨點框的種類,例如增加不同的尺度、不同的長寬比,甚至增加不同角度的錨點框來粗暴地提升算法對目標形狀的泛化能力[77,81,83–86].盡管取得了明顯的效果,但是對于形狀過于狹長的目標,很小的角度偏差就會導致重合度的大幅度下降,極容易導致漏匹配,依然難以從根本上解決形狀差異的問題;同時大規模增加錨點框的數量,也會帶來額外的計算復雜度提升以及額外的內存占用.現階段依然是以犧牲效率為代價換取對不同目標形狀的適應性.

此外,少數研究[87-88]在錨點框基礎上引入可變形卷積模塊(Deformable convolution)來自動適配不同的目標形狀,由于可變形卷積模塊引入了大量的參數,增加了訓練難度,因此目前并沒有明顯的效果提升;還有一些方案[89-90]引入形狀注意力模塊來盡可能保持特征對形狀的不變性,然而不能從根本上解決錨點框的漏匹配問題.

另一種有潛力的解決方式是最近興起的基于關鍵點的檢測方式,直接省去了錨點框與目標匹配的過程,而是基于像素直接對形狀進行預測,從而解決了形狀差異大的問題.目前已經有了一定數量的基于關鍵點的檢測算法[91–96]對遙感領域目標檢測進行了初步嘗試,從精度來看,基本和基于錨點框檢測器的精度持平,還有較大的潛在優化空間.Pan等[97]在基于關鍵點檢測的基礎上,增加了特征選擇模塊和動態增強檢測頭,使得檢測能夠進一步對目標形狀進行自適應調整,但是精度的提升依然很小,不能從根本上解決形狀差異帶來的影響.

3.2.6 針對目標尺度變化大的改進

遙感圖像中目標的尺度變化范圍相對于自然圖像更大,包括不同種類目標在同一分辨率下的尺度差異,例如車輛、船只、飛機等尺度較小,操場、球場、機場等尺度過大;同時還包括同類目標在不同采集分辨率下的尺度差異(由于遙感圖像本身采集的分辨率范圍比較大,不同分辨率下同一目標尺度相差也較大).算法檢測性能同時對大尺度和小尺度目標均保持較高的精度,是一個較難的問題.目前的研究主要通過引入多尺度信息來解決目標尺度變化大的問題.

Guo 等[98]和Zhang 等[99]直接采用多尺度的候選區域網絡和多尺度的檢測器來檢測不同尺度的目標.Zhang 等[69]將第一階段提取的候選區域調整為三個不同尺寸圖,并分別使用三個網絡進行并行預測,最終通過投票機制確定類別,增強了不同尺度的適應能力.Zhang 等[100]在已有Faster R-CNN 基礎上,在不同的特征圖上并行引入不同的候選區域提取網絡,來獨立對不同尺度目標進行檢測.Wang等[66]使用殘差連接的自編碼器多尺度結構來適應不同尺度的變化.Hou 等[101]采用多個并行的ROI Pooling 模塊將特征映射到不同的尺度,并采用多階段級聯的方式進行檢測.之前介紹的小目標改進模塊中,通過融合淺層特征和深層特征,在提升小目標檢測精度的同時,盡量不影響常規尺寸目標的檢測,也間接提升了對尺度的泛化能力.

在多尺度信息特征融合中,特征金字塔(Feature pyramid network,FPN)[102]通過融合底層視覺特征和高層語義信息,并在不同尺度特征上分別進行預測,在常規圖像中獲得了廣泛的應用.Yang等[60,83]和Zou 等[103]基于FPN 采用稠密特征金字塔網絡進一步加強不同尺度特征之間的聯系.Fu等[104]在FPN 自頂向下后額外又加入自底向上的連接,將底層特征信息和高層視覺信息進行了二次融合,從而進一步增強特征表達能力.還有大量研究[84,89,105–109]直接對特征融合模塊的網絡結構進行改進,從而增強特征表示.Yan 等[110]在多尺度檢測基礎上,平衡不同尺度目標對于損失函數的訓練權重,加強算法對不同尺度的魯棒性.

多尺度信息的引入有效解決了不同尺度目標的泛化能力,但是對于極端尺度的目標,例如數個像素到數十像素的微小目標、接近全圖尺寸的幾十萬像素大目標,依然難以取得較好的效果.為了緩解這個問題,現有大多數算法在訓練方式上,采用圖像金字塔進行多尺度訓練和多尺度測試,進一步降低漏檢率,提高檢測精度,但是增加了大量的計算開銷.

3.2.7 針對目標外觀模糊的改進

遙感圖像在成像過程中,受環境因素影響,容易受到云霧遮擋、以及雨雪天氣的干擾.雖然現有針對遙感圖像進行預處理的方式(例如去霧等)來濾除干擾信息,但是難免會降低圖像質量,尤其對于本身較弱、較小的目標,容易造成目標外觀模糊的問題.單純針對外觀模糊的目標本身,提取的特征表征能力也較弱,很難進行精確的目標檢測,因此可以結合區域上下文信息來進一步強化特征,提高分類準確率.

現有很多基于區域上下文信息來提升遙感圖像目標檢測性能的方法.Li 等[111]提出了一種雙通道特征融合網絡,可以沿著兩個獨立的路徑學習局部屬性和上下文屬性,并將特征進行融合增強判別力.Chen 等[112]以FPN 為基礎提取ROI 特征圖,然后將整幅圖的特征圖和ROI 的特征圖融合,得到上下文信息完成檢測.Ma 等[113]設計了一種融合局部上下文特征和目標-目標關系上下文特征的上下文信息融合子網絡,來處理目標對象外觀的復雜性.CADNet[108]通過學習目標的全局上下文特征和局部上下文特征來增強目標的特征表達,同時引入注意力機制來集中檢測區域目標特征.

基于區域上下文的方法通過結合目標之外的其他信息以及圖像的全局信息進行輔助,增強了特征表示,在一定程度上緩解了目標外觀模糊的問題,是成像質量不高的一種有效的處理方式.然而只能處理與周邊環境有一定共生關系的目標,相對獨立的目標較難處理,且提升的幅度有限.針對目標外觀模糊的問題,最有效的辦法依舊是提高成像質量和改進圖像預處理手段,從根源上避免模糊目標的產生.

3.2.8 針對復雜背景的改進

遙感圖像覆蓋范圍廣,待測目標類別有限,因而背景區域占據了絕大部分.復雜背景中的目標,難免容易與背景產生混淆,導致目標的漏檢以及背景區域的誤判.例如海上高速行駛的船只伴隨的尾跡容易誤判成船只,大風大浪影響下的小型船只容易漏檢,坐落在溝渠中的橋梁難以從復雜背景中區分造成漏檢等.針對復雜背景的改進方式,主要考慮如何弱化背景、同時增強目標信息的特征.

注意力機制是對弱化背景、增強目標信息很有效的處理方式.在船只檢測中,為了避免背景中船塢帶來的影響,Zhang 等[114]采用語義分割的思想分別提取船只、海洋和陸地的特征掩膜,之后采用像素注意力機制來對各個類別進行加權,提升海陸分離的能力,但是這種基于先驗知識的方式不具備普適性.Li 等[115]提取多尺度特征后,對每個特征圖單獨使用注意力機制進行特征增強,從而消除背景噪聲的影響.此外還有大量研究[80,82,89,105,107,116-117]也是對融合后的多尺度特征圖采用注意力機制來弱化背景,突出目標區域.Li 等[118]在特征圖融合過程中設計了顯著性金字塔融合策略來弱化背景帶來的影響,增強目標特征的表達能力,并結合全局注意力機制增強語義信息,完成最終的檢測過程.

注意力機制較好地解決了復雜背景帶來的問題,但是引入了額外的掩膜計算,造成了網絡計算量的增大.

3.2.9 針對常規水平框定位粗糙的改進

相對于常規角度圖像,遙感圖像目標具有方向性,且方向具有隨機性.上述介紹的常規的水平框檢測方式在處理方向性目標時,難以進行緊湊、精準的定位,尤其當數個狹長的目標(貨車、艦船)以傾斜的角度密集排列時,水平框檢測方式更容易產生混淆(如圖3 (a)所示).因此常規的水平框定位方式對于遙感圖像目標檢測并不是最優的處理手段.為了進一步提高目標檢測的定位能力,遙感領域方向性目標檢測逐漸受到關注.利用旋轉框替代水平框的表示方法,設計旋轉框檢測模型,用更加緊湊的包圍框來進行方向性目標的檢測,對定位能力的提升有著重要的價值(如圖3 (b)所示).

圖3 水平框檢測與旋轉框檢測對比Fig.3 Comparison of horizontal detection results and rotated detection results

如圖4 所示,常見的旋轉框參數表示方案有兩種,分別是五參數法和八參數法.由于五參數法參數量更少,基于五參數法的研究更多.五參數法主要包括目標中心點位置坐標,以及目標寬度、高度和角度五個參數,用來表征旋轉矩形信息,其中對于角度的周期一般選取180° 或者90°;八參數法直接回歸旋轉框的四個頂點坐標,因此可以進行任意四邊形的回歸,回歸更加靈活但是參數量更多.

圖4 旋轉框參數表示方案Fig.4 Parameter representation of rotated boxes

現有旋轉框目標檢測架構大多基于上述參數表示方案,多數方法基于已有的水平框檢測架構做了針對性改進.文獻[119]直接在Faster R-CNN 的基礎上基于上述參數表示方案引入新的回歸參數,來進行旋轉框的檢測.RRPN[120]人工定義了大量帶有角度的錨點框來進行旋轉目標的回歸,同時在檢測識別階段提出了旋轉特征池化操作(RROI pooling)來將特征進行歸一化,取得了方向性目標檢測的初步效果.R2CNN[121]依然選取水平錨點框來進行第一階段感興趣區域的提取,在(Region proposal network,RPN) 階段生成旋轉候選區域并采用多尺度池化操作來增強檢測識別特征的泛化能力,在第二階段基于水平候選區域來進行旋轉框的回歸,進一步提升了性能并減小了內存消耗.RoI transformer[86]在RPN 和RCNN 之間插入了一個輕量級模塊,將RPN 生成的水平區域轉換成旋轉區域,盡可能減少旋轉目標檢測帶來的計算復雜度.為了進一步增強特征表達能力,上述方法[86,120-122]同時進行水平框和旋轉框的回歸,二者相互促進,共同提升精度.

3.2.10 針對旋轉框邊界突變問題的改進

基于常見的參數表示進行旋轉框坐標回歸時候會伴隨典型的邊界突變問題.邊界突變問題是旋轉框的獨有特點,由于同一旋轉框在一種參數表示方案下會有多種表示值,進而通過強加規則將具體表示值限制在特定范圍,使得同一旋轉框在一種參數表示方案下只對應唯一的參數表示值,導致了所在范圍的邊界上的表示值產生了突變,影響邊界值的檢測精度.

不同參數表示方案的邊界突變問題示意圖如圖5 所示,對于五參數表示法,如果角度周期為180°,邊界值0° 和180° 實際重合,卻在數值上有180 的差距,產生了突變,影響角度的預測精度;如果周期為90°,在邊界上除了角度產生突變以外,寬和高也會在邊界發生交換,產生突變,因此周期為90° 的時候產生的突變更為復雜,角度和形狀的預測都會受到影響.如果是八參數表示法,根據四個頂點的起止順序不同會有四種表示方式,通過人為設置規則定好起始點可以確定唯一表示方式,隨之也產生邊界問題,在邊界上起始點發生轉移,產生突變,影響邊界上頂點位置的預測.總之,邊界突變問題對旋轉框坐標回歸精度帶來了極大的負面影響.

圖5 邊界突變問題示意說明Fig.5 Illustration of boundary mutation

現有研究人員針對旋轉框回歸的邊界突變問題,做了針對性改進,主要改進方式包括兩類:采用新的參數表示方案和改進損失函數.

對于新的參數表示方案,APE[94]采用一對具有周期性的三角函數來表征角度信息,避免了邊界突變.Gliding vertex[123]首先提取外接水平框,進而在水平框的邊界上引入一個比例因子對旋轉框頂點進行定位,解決了八參數表示方案頂點順序的問題,但是在待測目標是水平框時候依然存在邊界問題,為了緩解邊界問題引入了一個控制因子來決策是否需要回歸旋轉框.SARD[124]直接對網絡輸出結果進行了強制的標準化,盡管發現了邊界問題,但是解決方式只限于強加規則,并沒有有效緩解該問題.Mask OBB[105]和RADet[107]借鑒實例分割的方式,基于分割產生的類別掩膜來生成最小外接矩形,避免了邊界問題,但是引入了額外的語義分割計算,計算復雜度較高.CSL[125]采用角度分類的方式來替代回歸,并針對性設計了軟標簽來應對邊界問題,從根源上解決了邊界問題,取得了很好的效果,但是采用角度分類的方式也導致了輸出參數量過大.

對于損失函數的改進,SCRDet[80,82]設計了IOU-Smooth 損失函數直接弱化訓練時候的邊界樣本.Modulated loss[126]在邊界上采用所有突變值計算損失函數并選取損失最小值進行訓練,來緩解邊界問題的影響.基于改進損失函數的方法針對邊界問題進行了很大程度的緩解,但是沒有從根源上完全解決邊界問題.

綜上,針對遙感圖像本身存在的特殊問題和挑戰,對不同的改進算法進行了細致的分類和總結.但有兩點需要注意:

首先,各個特殊問題并不是獨立存在的,多數問題之間具備很強的相關性,甚至是共生的.例如:超大圖像尺寸和覆蓋面積的檢測中,目標相對尺寸明顯減小,此時和小目標檢測便有了聯系;多數小目標在圖像中是密集分布的,同時容易受到成像因素影響導致外觀模糊,也更容易受到復雜背景的干擾.

其次,針對各個問題的解決方式很大程度上是共通的.例如:注意力機制可以解決多個特殊問題;小目標檢測性能的提升也會間接提高目標檢測算法對不同尺度的泛化能力;旋轉框檢測方式的創新性引入,直接將卷積神經網絡在特征提取過程中對旋轉敏感的劣勢化為優勢,從而可以利用旋轉敏感性進行更精確的旋轉框回歸;旋轉框緊湊包圍目標的優勢也在一定程度上緩解了密集分布目標檢測困難的問題;大多基于水平框的改進方式也可直接應用在旋轉框檢測的特征增強中.

因此,基于不同問題的改進是可以相互借鑒的,不能割裂開來,而應統一成一個整體.

4 數據集和算法性能比較

手工特征提取算法性能的驗證,分類器的訓練以及深度學習方法的訓練測試,均需要大量數據作為支撐.本章首先按照時間順序回顧了一下遙感圖像目標檢測常用數據集,之后簡單介紹了普遍使用的評測指標,并基于兩個常用數據集對現有遙感圖像通用目標檢測算法的性能進行比較.

4.1 遙感圖像目標檢測數據集

按照時間順序,現有遙感圖像目標檢測數據集包括:TAS 數據集[127]、SZTAKI-INRIA 數據集[128]、NWPU VHR-10 數據集[129]、VEDAI 數據集[130]、UCAS-AOD 數據集[131]、DLR 3K Vehicle 數據集[132]、HRSC2016 數據集[133]、RSOD 數據集[79]、DOTA 數據集[119]和DIOR 數據集[4]等.隨著時間推移,數據集規模越來越大,檢測類別數越來越多,標注框涉及水平框和旋轉框,檢測任務越來越復雜,實例數越來越多,逐漸接近實際復雜場景.除了使用這些數據集之外,還有一些研究人員自己從GoogleEarth收集數據或者購買QuickBird 等衛星數據.

4.2 通用目標檢測算法性能比較

現有的遙感圖像中最常用的評測指標是精確度(Precision)和召回率(Recall).精確度反映所有被檢測出來的目標中,檢測正確的概率;召回率反映所有待檢測目標中被成功檢測到的概率,二者是此消彼長的關系.以召回率為橫坐標、精確度為縱坐標畫出的曲線稱為精度-召回率曲線(Precisionrecall curve),簡稱PR 曲線.曲線下對應的面積稱為平均精度(Average precision),簡寫為AP,用來表征單一類別的檢測性能.每個檢測類別都對應一個AP 值,所有類別的平均AP 值即Mean average precision,簡寫為mAP,用來評測算法在數據集整體上的性能.

為了比較算法在復雜場合下的表現和對多類目標的檢測魯棒性,本章節主要比較遙感圖像通用目標檢測算法的性能.鑒于傳統的基于手工設計特征的方式處理的目標比較單一,處理的任務比較簡單、特殊,算法適應性和魯棒性很差,因此不在本章考慮范圍內;對于檢測單類目標的深度學習算法,亦不進行考慮.此外,針對常規水平框定位粗糙、基于旋轉框定位更加精細的現狀,本章同時對比了水平框檢測性能和旋轉框檢測性能.針對水平框檢測,選取NWPU VHR-10 和DOTA 兩個數據集進行測試,NWPU VHR-10 類別數較少,任務相對簡單,是早期深度學習算法廣泛使用的數據集;DOTA 數據集更加復雜,檢測難度更大,是現階段的主要評測數據集,檢測算法性能對比結果如表1 所示.針對旋轉框檢測,也選取DOTA 數據集來測試,性能對比結果如表2 所示(注:Res-ResNet,ResX-Res-NeXt,HG-Hourglass).

表1 水平框檢測算法性能對比Table 1 Performance comparison of horizontal box detection algorithms

表2 旋轉框檢測算法性能對比Table 2 Performance comparison of rotated box detection algorithms

通過對比表格中的數據進行分析后可以看出:

1)面對較簡單的檢測任務,例如NWPU VHR-10 數據集,當前算法已經達到極高的精度,mAP在90 以上,性能基本飽和,后續提升空間較小;然而在處理更復雜和更有挑戰性的問題時,例如DOTA數據集,性能相對理想情況還有較大的差距,很多問題目前還無法得到有效解決,現有研究成果還無法滿足高標準應用場合需求.

2)針對遙感圖像目標自身特點進行的一系列改進是有效的,相對于基本檢測模型Faster RCNN[53,119]、R-P-Faster-RCNN[134]和SBL[135],mAP 值均有20左右的提升,效果顯著.

3)鑒于旋轉框對目標的定位更加精細,現階段針對旋轉框檢測的研究數量逐年增長,意味著旋轉框檢測在遙感領域應用潛力不斷提高.相似算法對比中,旋轉框檢測的mAP 值要略低于水平框,說明旋轉框在進行評測時候更為嚴格,也表明了旋轉框的檢測難度更高.

4)隨著研究的深入,選取的主干網絡模型層數越來越深.不同網絡模型檢測性能差別很大,網絡層數越深,意味著非線性擬合能力越強,從而性能越好.遙感圖像目標檢測性能提升很大程度依賴深度學習自身的發展.

5)DOTA 數據集中大多數圖像有著超大的圖像尺寸和覆蓋面積,因此所有在DOTA 上進行評測的方法都涉及基于超大圖像尺寸的改進,圖像分塊的方式已經成為DOTA 上公認的標準預處理方式.

6)多尺度特征金字塔進行檢測的方式,可以有效處理目標尺度范圍變化大的問題,現階段基本成為標準方法,為每個模型所共用.

7)水平框檢測中不存在邊界突變問題,反而要針對目標方向變化的問題設計方向標準化模塊;旋轉框檢測時候恰好要利用旋轉敏感特征來進行角度的回歸,因此定位分支不需要進行方向標準化,反而需要考慮因旋轉導致的邊界突變問題.

8)現有針對密集分布、外觀模糊的目標檢測研究成果并不多,說明以現有方法手段仍難以找到該問題的有效處理方式.

5 現存問題和發展趨勢

現階段遙感圖像目標檢測仍然存在很多問題,限制了其在實際場合下的進一步推廣.現存主要問題包括:

1)針對超大圖像尺寸的遙感圖像目標檢測,現有方法尚不能直接對圖像全局進行檢測,典型的分塊處理方式效率較低,引入過多冗余的計算,同時容易割裂目標,造成精度上的損失.

2)針對遙感圖像中目標密集分布和外觀模糊等常見特點,目前還沒有較好的針對性處理方式.具備該特點的目標大量存在,難以進行精確的檢測,導致現有算法在實際應用中受限.

3)現有目標檢測方法大多是基于目標本身視覺特征,缺少根據圖像整體和上下文進行理解和推理的過程.盡管個別研究存在引入上下文信息和全局信息的方式,但依然還是針對視覺特征,缺乏高層語義知識的引導,可解釋性差.

4)現階段有了較大規模的數據集,解決了目標檢測對大容量訓練集的需求問題,但是現有數據集的質量還有待提升,大量實際存在的小目標、模糊目標沒有標注出來,限制了現有算法潛力.

5)通用的水平框目標檢測方式,對遙感圖像中方向性目標定位模糊,大量研究采用旋轉框檢測方式,使包圍框更加緊湊.但是旋轉框檢測的定位精度相對于水平框明顯降低,存在較多定位不準的目標.

6)針對遙感圖像數據規模較大的問題,現有方法的處理速度較慢,在海量數據下難以滿足實時性要求.

針對以上問題,結合現階段自然圖像中深度學習目標檢測方法的發展趨勢,本文對后續該領域的發展趨勢進行展望:

1)對超大尺寸遙感圖像進行目標檢測,采用基于圖像整體進行感興趣區域提取的方式來替代分塊處理方式,可以快速濾除大部分背景區域,從而避免計算冗余,提高算法效率.

2)設計更好的特征增強方法,來加強小目標、密集目標、模糊目標等較難檢測目標的特征表示,降低復雜背景的干擾,從而進一步提高整體精度、增強魯棒性.

3)針對現有檢測方法缺少知識推理的過程、以及可解釋性不足的問題,引入知識和推理模塊(例如知識圖譜、圖卷積等)來輔助進行目標檢測,具有較大的研究潛力.

4)針對數據標注存在的質量問題,可采用弱監督學習、半監督學習、遷移學習等算法來解決,以緩解算法對于數據集標注的高標準要求.

5)遙感圖像目標檢測中旋轉框具有更加精細的定位能力,代替水平框進行檢測是大勢所趨,但是旋轉框檢測方式會帶來新的問題,例如邊界突變問題等,導致旋轉框定位的精度和水平框相比存在差距.針對旋轉框檢測進一步提高定位能力,具有較高的意義.

6)輕量化網絡結構的設計和算法推理過程的加速,對于遙感圖像目標檢測在實際工程的應用具有重要的意義和價值.在檢測精度基本滿足實際需求后,算法輕量化以及加速將成為后續極具價值的方向,例如可借鑒剪枝、量化等加速操作,同時網絡架構搜索(NAS)也是極具潛力的方向.

7)持續跟進深度學習發展趨勢,快速融合最新的先進成果,例如更好的網絡基礎架構、最新的目標檢測方式等,進一步提高檢測性能,降低時間開銷.

6 結論

光學遙感圖像目標檢測是遙感圖像理解的基礎研究內容,具有很大的應用價值.本文首先總結了遙感圖像中目標檢測的特點和挑戰;后續概括陳述了早期基于手工設計特征的算法,重點對候選區域提取和特征提取進行了總結和分析;之后對深度學習算法進行了系統、全面的總結,重點梳理了針對遙感圖像目標檢測特點的改進方案,詳細分析了不同改進方案的優缺點,在常用數據集下定量評估了不同改進方案取得的性能提升;最后對現階段遙感圖像目標檢測依然存在的問題進行了梳理,并對未來的發展趨勢進行了展望.

猜你喜歡
特征區域檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
小波變換在PCB缺陷檢測中的應用
關于四色猜想
分區域
基于嚴重區域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
主站蜘蛛池模板: 免费又黄又爽又猛大片午夜| 九九久久精品国产av片囯产区| 国国产a国产片免费麻豆| 国产成人综合网| 国产肉感大码AV无码| 香蕉eeww99国产精选播放| 亚洲日韩久久综合中文字幕| 亚洲欧美一区二区三区图片| 婷婷色一二三区波多野衣 | 伊人久久影视| 久久国产精品嫖妓| www.91在线播放| 国产无吗一区二区三区在线欢| 久久精品人妻中文系列| 中国精品久久| 国产又黄又硬又粗| 国产粉嫩粉嫩的18在线播放91| 免费一级成人毛片| 亚洲一区二区三区国产精华液| 五月天久久综合| 欧美日韩久久综合| 久久夜色精品| 婷婷六月激情综合一区| 国产免费久久精品99re丫丫一| 日本一本正道综合久久dvd| 国产精品女在线观看| 黑人巨大精品欧美一区二区区| 2020国产免费久久精品99| 99久久精品无码专区免费| 欧美精品成人| 99er精品视频| 又污又黄又无遮挡网站| 国产精品成人第一区| 精品自拍视频在线观看| 亚洲大学生视频在线播放| 国产免费网址| 激情综合图区| 农村乱人伦一区二区| 成人午夜视频在线| 亚洲成人网在线观看| a欧美在线| 2021国产精品自产拍在线| 欧美怡红院视频一区二区三区| 日本亚洲国产一区二区三区| 黄色三级网站免费| 久久99国产综合精品1| 福利在线不卡一区| 成AV人片一区二区三区久久| 成人欧美日韩| 国产免费久久精品99re丫丫一| 91av成人日本不卡三区| 欧美中文字幕一区| 国产在线视频二区| 欧美日本在线观看| 久久九九热视频| 久久久久免费看成人影片| 亚洲男女在线| 日本一区中文字幕最新在线| 亚洲男女在线| www.99在线观看| 国产aaaaa一级毛片| 中国一级特黄大片在线观看| AV在线麻免费观看网站| 亚洲精品成人福利在线电影| 国产精品片在线观看手机版 | 妇女自拍偷自拍亚洲精品| 2048国产精品原创综合在线| 99在线观看国产| 亚洲V日韩V无码一区二区| 国产乱码精品一区二区三区中文 | 欧美日韩亚洲综合在线观看| 人妻少妇乱子伦精品无码专区毛片| 97成人在线观看| 欧美成人免费午夜全| 99视频只有精品| 亚洲αv毛片| 狠狠色成人综合首页| 又黄又湿又爽的视频| 天天综合亚洲| 红杏AV在线无码| 精品1区2区3区| 综1合AV在线播放|