基于GPU的圓跡視頻SAR實時成像算法

2019-11-11 02:12:2022

雷達科學與技術 2019年5期

(1.南京航空航天大學電子信息工程學院，江蘇南京 211106；2.南京航空航天大學雷達成像與微波光子技術教育部重點實驗室，江蘇南京 211106)

0 引言

視頻合成孔徑雷達(視頻SAR)[1-2]以動態的方式再現場景信息，有效擴展了時間維的信息，能夠對熱點區域持續監測，并能直觀地反映出運動目標的位置、速度及運動趨勢等，具有重要的軍事和民用價值。視頻SAR系統要求高分辨率和實時成像，這對成像算法和硬件平臺提出很高的要求。為了同時滿足這兩項要求，一方面要設計一個高效精確的成像算法，另一方面還要通過高效的硬件處理平臺對大量回波數據加速處理，實現實時成像。

在保證高分辨率成像的前提下達到視頻SAR成像的幀率要求是研究的關鍵。目前，視頻SAR成像主要采用后向投影(BP)算法，BP算法是一種時域算法，需要逐點遍歷得到精確聚焦的圖像，計算量相當龐大。文獻[3-4]通過加大相鄰幀間數據重疊率，減少每幀圖像需要加入的新脈沖分量，解決BP計算量大的問題，以達到實時成像的要求。該方法依賴于相鄰幀間數據重疊率，適用性受到一定的限制。文獻[5]針對圓跡視頻SAR的特殊回波模型提出了一種改進的去斜Chirp Scaling算法。該方法處理速度雖然不依賴于幀間數據重疊率，但利用中央處理器(CPU)處理成像速度較慢。隨著硬件處理器的發展，基于硬件平臺的實時成像處理算法日趨成熟。當前主流的硬件平臺有：DSP、FPGA和GPU。文獻[6-7]利用DSP分別實現BP算法和距離多普勒(RD)算法用于SAR的實時成像，但DSP始終受到串行指令流的限制使其并不真正適用于實時成像。文獻[8-9]在現場可編程門陣列(FPGA)上實現PFA以滿足SAR的實時處理需求。該方法相比CPU處理速度有所提升，但是依然無法滿足視頻SAR實時成像的要求，并且FPGA時序難規劃，處理程序調試周期長，算法實現困難。文獻[10-12]利用可編程圖形處理器(GPU)實現BP算法加大成像處理速率，該方法雖然利用GPU得到了很高的加速比，但仍未滿足視頻SAR成像的幀率要求。GPU已經由以前的專用圖形處理器演化成高并行度、多線程、擁有強大計算能力和極高存儲器帶寬的多核處理器，在解決計算密集型問題上具有很高的性價比[13-14]，并且基于CUDA C的編程起點低，非常適合復雜算法的快速實現。

基于上述問題，本文提出了一種基于GPU的圓跡視頻SAR實時成像算法。首先建立了圓跡視頻SAR的回波模型，并分析了視頻幀率與回波重疊率的關系。其次在GPU上實現了基于Chirp Scaling操作的PFA。最后對實測數據做并行處理成像，驗證了本文所提算法的正確性和高效性，所以該算法可以適用于視頻SAR實時成像。

1 信號成像處理算法

1.1 圓跡視頻SAR模式

視頻SAR工作于圓跡模式，其成像幾何如圖1所示。機載雷達在高度為H的平面里以固定區域中心為圓心作圓周運動，飛行中波束始終照射場景中心O；雷達觀測角θ的值可達到360°；雷達俯仰角φ0和雷達到場景中心的距離R0均為常數，在整個運動過程中不變。傳統的圓跡模式是通過增大觀測角度來提高方位向分辨率，而視頻SAR是通過對圓跡模式下回波數據的合理分割實現視頻成像。

圖1 圓跡視頻SAR幾何模型

1.2 圓跡視頻SAR回波數據分割

為了保證視頻SAR圖像顯示的流暢性，視頻SAR圖像幀率應不小于5 Hz[15]。由文獻[15]的分析可知，視頻SAR幀率與相鄰幀數據重疊率的關系滿足：

(1)

式中，ρa為方位向分辨率，V為雷達平臺移動速度，R為視頻SAR到目標區域的最短斜距，c為光速，fc為載波頻率，M為相鄰幀數據重疊率。因此，在給定幀率和載頻的前提下，對圓跡模式下回波數據進行分割時，相鄰幀之間的數據就不可避免地要有重疊，相鄰兩幀之間的重疊關系如圖2所示。

圖2 相鄰幀之間重疊關系示意圖

1.3 基于Chirp Scaling操作的PFA

針對圓跡視頻SAR的成像特點，在回波數據劃分為若干幀后，用傳統的直線聚束SAR對其進行近似，并對每一幀數據用基于Chirp Scaling操作的PFA成像。基于Chirp Scaling操作的PFA流程如圖3所示。

圖3 基于Chirp Scaling的PFA處理流程

根據直線聚束SAR的成像幾何，解調后去斜信號的回波表達式為

(2)

式中，τ為距離向時間，t為方位向時間，r(t)為天線相位中心到目標的瞬時距離，ra(t)為天線相位中心到場景中心的瞬時距離，k為距離向調頻率，c為光速，fc為載波頻率。

PFA距離向處理包括去除去調頻引起的殘余視頻相位誤差(RVP)、距離向尺度變換和距離向FFT，其中距離向尺度變換處理實現了距離向重采樣。距離向處理中的尺度變換函數分別如下：

(3)

(4)

(5)

式中：t為方位向慢時間；τ為距離向快時間；δr為距離向尺度變換因子；α為一個虛引數，其在一定范圍內具有取值任意性；T為整個采樣時間；fτ為距離向頻域；k為距離向調頻率；r0為場景中心到雷達航跡的垂線長度。

方位向處理包括方位向尺度變換和方位向FFT，其中方位向尺度變換實現方位向重采樣。方位向處理中的尺度變換函數分別如下：

h1(t)=exp[jπkat2]

(6)

(7)

h2(t)=exp[-jπδakat2]

(8)

(9)

式中，ka為多普勒頻率，δa為方位向尺度變換因子，ft為方位向頻域。通過上述處理，采樣點排列格式從極坐標轉換到了直角坐標。最后經過距離向傅里葉變換將數據變換到圖像域，單幀SAR成像完成。

2 圓跡視頻SAR實時成像的GPU實現

本文提出的基于GPU的圓跡視頻SAR實時成像算法如圖4所示，首先根據載頻和幀率確定重疊率截取回波數據，并將其傳輸至GPU等待處理；然后在GPU上利用PFA處理數據；最后將成像結果傳輸至CPU即可視頻成像。

圖4 基于CPU+GPU的視頻SAR實時成像流程

2.1 GPU成像處理關鍵技術

根據上節提出的視頻SAR成像算法，對于PFA運算模塊，需要執行CPU→GPU數據復制、數據處理、GPU→CPU數據復制3個步驟；對于PFA中方位向數據處理之前進行先排距離向到先排方位向的轉置操作，以及在數據處理之后進行先排方位向到先排距離向的轉置操作均利用GPU執行；對于PFA中的Chirp Scaling操作需利用GPU執行點乘運算。為了利用 CUDA 技術將這種實現方案在GPU上部署，并充分利用GPU設備的運算資源，給出了3種優化技術對程序進行優化處理。

2.1.1 異步并行技術

將PFA的運算模塊部署在GPU上時，需要在CPU內存與GPU顯存之間傳輸數據。為了讓內存與顯存之間的數據傳輸和PFA模塊的核(kernel)函數執行并行實現，本文采用異步并行技術對數據處理加速。異步并行技術即創建若干個流，將雷達數據平均分配到每個流上，不同流中的數據傳輸與處理不會相互干擾，這樣可以使內存與顯存之間的數據交互與kernel函數并行執行。異步并行方案的實現如圖5所示，圖中同時比較了串行執行與4個流異步執行的運行時間，可以看出異步并行執行保證了GPU運算核心絕大部分時間處于忙碌狀態，有效掩蓋了數據在內存與顯存中的傳輸時間。

圖5 異步并行執行與串行執行

2.1.2 CUDA的兩層并行技術

PFA中完成距離向處理后，雷達數據以先排距離向的方式存儲于CPU內存，因此在進行方位向操作時，需要先對數據作轉置處理。針對矩陣轉置，本文采用CUDA的兩層并行技術。兩層并行運算：一是在同一個線程塊(block)中利用線程實現的需要進行數據交換和通信的細粒度并行，二是在各個block間實現不需要進行數據交換的粗粒度并行。如圖6所示，先用合并訪問方式將數據從全局存儲器讀入共享存儲器，然后每個線程與其按對角線對稱的線程交換數據完成細粒度并行(效果如圖中數字1與2位置交換)，再按合并訪問方式將結果寫到全局存儲器中完成粗粒度并行。這種技術利用共享存儲器能極大提高程序的運行效率，同時有效避免了存儲體沖突。

圖6 兩層并行完成矩陣轉置示意圖

2.1.3 分塊點乘技術

整個算法的核心部分是PFA中的Chirp Scaling操作，該操作部署在GPU上時依賴于點乘實現，所以需要對點乘的實現進行優化。為了結合異步并行技術，本文對雷達數據進行分塊點乘運算。兩個二維矩陣的分塊點乘運算如圖7所示，矩陣A為雷達數據，矩陣B為尺度變換函數。雷達數據分流后距離向和方位向的點數分別為Nr和sub_Na，每個線程塊(block)的維數分別為Ta和Tr，則總線程塊的行數和列數分別為|(Nr+Tr-1)/Tr|和|(sub_Na+Ta-1)/Ta|，|x|表示取不大于x的整數。分塊的數目與線程塊的分塊相同，各塊的數據量與調用的線程(thread)數相同。按照分塊的方法，線程塊將分塊后的點乘因子讀入到線程塊內的共享存儲器中，然后將分流后雷達數據中的每個元素與對應尺度變換函數的點乘因子進行并行點乘運算即可。這種技術利用線程塊內的共享存儲器節省了數據拷貝時間。

圖7 線程分塊點乘示意圖

2.2 基于GPU的視頻SAR成像流程

2.2.1 回波數據截取與傳輸

在成像處理開始之前，首先需要根據載頻與幀率的關系確定數據重疊率劃分子孔徑獲取單幀回波數據，并為回波數據進行內存及顯存分配，在所有步驟執行完畢之后，再將所分配的內存及顯存釋放。為了保證該內存始終駐留在物理內存中，且提高內存與顯存間復制數據的速率，使用cudaHostAlloc分配頁鎖定主機內存。

在進行數據傳輸時，使用異步并行技術分成4個流異步并行執行，并為每個流在GPU設備顯存上分配存儲空間用于完成PFA模塊的各個計算步驟。因為PFA模塊涉及到的距離向處理和方位向處理中都包括FFT(或IFFT)運算，所以有必要為每個流根據數據塊二維尺寸大小調用CUDA函數中的cufftPlan1d構造FFT句柄(plan)，并將所創建plan用cufftSetStream函數與所屬流關聯。模塊執行完畢后立即調用cufftDestroy函數銷毀plan，調用cudaStreamDestroy等待指定流中所有之前的任務完成，釋放流并將控制權返回給主機線程。

2.2.2 基于GPU的PFA成像

PFA距離向處理包括FFT、IFFT以及雷達數據與尺度變換函數相乘三項。FFT和IFFT調用CUDA庫函數。雷達數據與尺度變換函數相乘涉及到兩個二維矩陣的點乘運算，即兩個矩陣的每一點對應元素相乘，這里采用線程分塊點乘技術來實現，如圖7所示。尺度變換函數的生成通過在每個并行節點上利用GPU并行計算出其對應數值。

為了避免不必要的時間損失，調用cudaMemcpyDevice函數在顯存中高效地完成距離向處理后數據的存儲，并調用cudaDeviceSynchronize使用CUDA同步技術，強制運行時等待所有流中的任務都完成再進入下一步驟。

PFA方位向處理同樣包括FFT、IFFT以及雷達數據與尺度變換函數相乘三項。因為距離向處理結束后方位向雷達數據在內存中是離散存儲的，為了在方位向處理中能用異步并行分流處理節省，首先需要進行矩陣轉置，將方位向數據變為內存中的連續存儲形式，矩陣轉置利用CUDA的兩層并行技術如圖6所示構造轉置kernel。矩陣轉置后沿距離向均分為Cr塊并分流，再進行方位向處理，方位向處理的GPU實現方式與距離向處理相同。

方位向處理通過CUDA同步技術保證所有流執行完畢后，再次調用轉置kernel將顯存中距離向數據變為連續存儲，然后對距離向數據作IFFT，PFA模塊即完成。

最后將結果由cudaMemcpyAsync函數異步寫回主機內存的對應位置，并將處理結果寫入圖像文件，第一幀圖像處理結束。陸續讀取之后的子孔徑數據進行處理并顯示，最終將以視頻的形式顯示成像結果。

3 實驗結果與分析

為了驗證本文所提方案的正確性和有效性，下面針對實測數據進行了處理。成像環境如下：處理器Intel(R) Xeon(R) CPU E5-1650 3.2 GHz；內存32 GB；顯卡型號NIVIDA TeslaC2075 1.15 GHz；顯存4 GB；顯卡運算能力2.0；操作系統Win 7；軟件環境Visual Studio 2010及CUDA 5.5。實驗所用原始數據是微型SAR按圓跡模式逆時針飛行獲得，數據大小總共為2 048×56 112，每幀成像數據大小為 2 048×2 048，實驗參數如表1所示。因為載頻為9.7 GHz，由式(1)計算得重復率為99%時，幀率能達到5 Hz，即滿足視頻SAR成像要求，所以本實驗中回波數據重疊率選為99%。

表1 視頻SAR實驗系統參數

從實驗結果中截取四幀成像結果如圖8(a)、8(b)、8(c)和8(d)所示，為了清晰地看出圓跡SAR的運行軌跡，本文每隔500幀截取一幀。從成像結果中可以明顯看出載機圍繞中心目標按圓跡模式逆時針飛行，也清楚地看到凹凸的地形、5個建筑物和周圍的樹木，具有非常高的分辨率。

(a) 第100幀

(b) 第600幀

(d) 第1 600幀圖8 視頻SAR成像結果

本文利用Chirp Scaling操作替換PFA中傳統的二維插值，相同性能的GPU分別實現這兩種方式，并處理同一幀2 048×2 048大小的數據。如表2所示，基于插值的PFA處理一幀圖像用時0.25 s，而基于Chirp Scaling操作的PFA處理一幀圖像用時0.18 s，Chirp Scaling操作比插值節省38.8%的時間。可見，基于Chirp Scaling操作的PFA是更高效的處理算法。

提高計算速度的關鍵是應用 GPU達到CPU不能實現的處理速度，下面將GPU上的處理時間與CPU上的處理時間進行比較，如表2所示。處理2 048×2 048大小的數據，CPU的處理時間為6.27 s，明顯不能達到視頻SAR的成像幀率要求；GPU的處理時間為0.18 s，與單線程的CPU處理相比GPU處理的加速比為34.83倍。可見，選用 GPU作為視頻SAR數據處理平臺具有很大的優勢。

最后，基于GPU的視頻SAR成像處理算法能否滿足實時性要求，取決于成像幀率。利用本文所用算法處理一幀圖所需時間約為0.18 s。對于距離采樣點數為2 048的視頻SAR系統，一部Tesla C2075便可滿足視頻SAR 5 Hz的視頻幀率要求。因此利用GPU并行處理高分辨率頻域處理算法進行視頻SAR實時成像處理是可行的。另外，在此基礎上，還可以通過增加GPU設備個數擴充設備的處理能力，以達到增加距離采樣點數的要求。

表2 實測數據成像時間比較

4 結束語

本文提出了一種基于GPU的視頻SAR實時成像算法，給出了算法的詳細流程，其中主要包括回波數據劃分方法以及PFA的CUDA實現方法。為了讓系統更高效，對整個成像算法的并行處理進行了優化，極大地發揮了GPU并行計算的優勢。最后在GPU并行平臺上進行了視頻SAR成像實驗，驗證了并行算法性能，有效解決了視頻SAR高分辨率成像的實時性問題。

雷達科學與技術2019年5期

雷達科學與技術的其它文章: 一種安防雷達性能評估的新方法; 基于切比雪夫變換的超寬帶功分器設計; 基于貝葉斯網絡雷達伺服系統故障樹分析; 無源雷達目標識別的神經網絡模型構建; 一種相控陣雷達工作狀態快速識別方法; 基于改進DW法的SABBR非平穩雜波抑制方法