摘 要:距離-多普勒(R-D)算法是一種常用的SAR成像算法,具有數據量大、存儲量大等特點,而傳統的實時成像系統由于采用PCI總線使得數據傳輸速率難以提高,從而限制了成像算法的實現。這里設計了一種新型的雷達成像實時處理系統,該系統利用最新的PCI Express總線代替PCI總線,采用了MicroTCA架構,具有極強的運算能力和良好的通信能力,同時具備了數據采集與大容量存儲的能力,特別適合于復雜的實時成像雷達信號處理。
關鍵詞:R-D算法;PCI Express;MicroTCA;信號處理;DSP;雷達成像
中圖分類號:TN9198文獻標識碼:B
文章編號:1004-373X(2008)07-023-04
Design of R-D Algorithm Real-time Imaging System Based on PCI Express Bus
LI Yan,WANG Qian,WANG Hongxian,XING Mengdao
(National Key Laboratory of Radar Signal Processing,Xidian University,Xi′an,710071,China)
Abstract:Range-Doppler (R-D) algorithm is one of the conventional algorithms for SAR imaging.It′s large in data amount and great in memory capabilities.But traditional real-time imaging system has difficulty in improving the speed of data transferring due to the usage of PCI bus.Consequently it limits the realization of imaging algorithm.A new design is given for radar imaging real-time processing system.This system employs PCI express bus instead of PCI bus and adopts MicroTCA system platform.It′s strong in calculations and good in communications,also competent for data collection and great memory,especially for complicated real-time imaging radar signal processing system.
Keywords:R-D algorithm;PCI Express;MicroTCA;signal processing;DSP;radar imaging
R-D算法是SAR成像中應用最廣的一種算法,因其具有原理直觀、實現方便等優點在實際中有廣泛的應用。R-D算法的基本特點是運動補償、參數估計比較靈活,距離向處理和方位向處理分開,運算既是并發的、又是流水的,同時他又具有SAR成像本身的大運算量、大存儲量等特點,故R-D SAR信號處理機在系統結構上有其自身的特點。本文在分析R-D SAR信號處理特點的基礎上探討R-D SAR成像系統的設計,整個系統利用當前流行的PCI Express總線進行數據通信,提高了數據傳輸能力。
1 R-D算法流程及特點
距離-多普勒成像雷達雖然有多種參數估計方法,各自的成像算法又有很大的差異,但基本運算和算法流程差別不大,如圖1所示。

其中,(2)~(6)表示成像處理。在(2)中一般采用dechirp或者匹配濾波的方法。如果采用dechirp方法,要生成一幅8 192×8 192點的圖像,需要在距離向處理中進行8 192次8 192點FFT運算;而同樣大小的圖像如果采用匹配濾波的方法則需要16 383×8 192點FFT運算,這還沒有包括運動補償和乘以解調頻函數(dechirp方法)或乘以脈壓匹配函數(匹配濾波方法)中的乘法運算。圖中(3)就是專門進行距離向處理所必需的參數估計、運動補償因子計算以及解調頻函數或脈壓匹配函數的計算。這個過程往往需要用到預處理完成后的部分數據甚至全部數據,有時還要用到中間結果的部分數據甚至全部數據。完成距離向處理后,為了在方位向處理時數據能夠在存儲器中按方位向連續存放以加快存取速度,要將數據轉置(4) (這里原始數據按距離向連續存放)。方位向處理與距離向處理類似,但方位壓縮(5)一般采用匹配濾波的方法,因為方位回波的帶寬比較寬。而這期間也要由(6)來專門估計方位向參數,計算相位校正函數和方位向脈壓匹配函數。
由此總結R-D SAR成像雷達信號處理的特點如下:
巨大的存儲量[HTSS] 顯然,僅存一幅8 192×8 192點復圖像所需要的存儲量約為512 MB,如果乒乓工作,那么處理器的存儲能力需要超過1 GB,顯然應該用SDRAM。
巨大的運算量[HTSS] 因距離向和方位向都要進行脈沖壓縮,故運算量非常大。以8 192×8 192點圖像為例,若兩個方向都采用匹配濾波方法,一共需要進行32 768次8 192點FFT運算;若采用基2方法,僅FFT運算就需要1 280萬次復數乘法,3 432萬次復數加法。設合成孔徑時間是5 s,則在一個合成孔徑時間內算出一幅圖像要求處理器的有效運算能力在10億FLOPS以上,因此必須采用多處理器結構。
處理的并發性和流水性[HTSS] 原始數據一般是以回波到達順序進入信號處理機,這樣在距離向處理時可采用流水方式進行,流水線以子孔徑為單位分級。方位向的參數估計往往需要整個孔徑長度的方位回波,所以方位向處理要等到在整個孔徑上完成距離向處理后才開始并發執行。因此不僅要考慮整體的流水操作,還要考慮距離向處理和方位向處理的差異。
巨大的通信數據率在進行參數估計和計算校正函數以及匹配函數時往往要用到數據的部分或全部樣本,由于運算集中在計算FFT上,處理器能夠花費在參數估計上的時間已非常有限,讀取數據的時間就更少了,這就要求在處理器的各模塊之間有良好的拓撲結構和很高的數據傳輸速率。
2 PCI Express總線技術
2.1 PCI Express總線簡介
在基于PCI總線的PC世界或工控領域里,隨著網絡流量的不斷提高,PCI和PCI-X的多點并行架構的瓶頸越來越突出,而PCI Express架構具有更高的性能,可以突破此類瓶頸的限制。PCI Express架構采用串行輸入/輸出結構,每條通道在每個方向上的發送和接收數據速率高達25 Gb/s,最新的PCI Express 20的數據速率更是高達5 Gb/s,具有更好的可擴展性,可提供更高的帶寬。由于PCI和PCI-X總線采用共享多點并行總線架構,所以當總線中的插槽和設備數量增加時,有限的總線資源會被多個設備共享,于是帶寬就會相應的下降。PCI和PCI-X采用平行的、多點下傳的連接架構,很容易產生串擾現象,此外所有的信號線必須完全等長,否則無法將信號同步傳到另一端,而會產生信號扭曲。這些問題讓PCI的時鐘頻率難以提升,電壓也難以下降,造成速度提升上的發展限制。而PCI Express采用序列的、點對點的連接架構,收發數據差分傳輸,可以避免信號不同步并且減少干擾。PCI Express帶寬隨著通道數的增加而增加,如表1所示。
PCI Express是全新第三代I/O串行總線標準,其性能超越了以前的PCI標準。但是PCI、PCI-X與PCI Express仍將在未來的一段時間內共存。PCI Express可提供專用的、高性能的、可擴展的帶寬總線和卓越的以太網性能,其功能遠遠超越了PCI和PCI-X的共享多點架構。從軟件上看,采用PCI-Express架構可以兼容所有為PCI設備編寫的軟件。

在雷達信號處理系統設計中,要突破帶寬的限制,PCI Express總線是一個不錯的選擇。在PCI Express點到點的結構中,每個設備都有一個專用連接而不必共享帶寬。一種典型的通過PCI Express互連的信號處理架構就是每個設備都與一個系統控制模塊相連。值得注意的是,系統控制模塊必須具備對串行數據進行交換的能力。
2.2 支持PCI Express總線的MicroTCA機箱
在工控機箱領域,MicroTCA充分采納和沿用了ATCA的各項優點,把ATCA的AMC模塊(Advanced Mezzanine Card )作為系統的基本配置單元,具有更小的體積、更緊湊的結構和相對較低的系統成本,所以采用MicroTCA架構的機箱是一個好的選擇。
MicroTCA是一個完全模塊化的系統平臺,主要包括AMC模塊、MCH模塊、電源模塊、高速背板、機箱和風扇等,其結構如圖2所示。

AMC是MicroTCA的基本功能模塊,他有6種標準尺寸,這里采用1488 mm*133.4646 in*1815 mm 的標準。用AMC可以實現數據處理、數據存儲、數據通信和數據I /O功能。與CPCI 系統的PMC模塊相比,AMC在結構、功能、性能、互連方式和擴展能力等方面都有很大優勢。MCH(MicroTCA Controller Hub)是MicroTCA的系統控制、管理和數據交換模塊。每個MCH可以對12個AMC提供數據交換和管理功能,每個系統最多可有4個MCH通過更新通道互連實現多達48個AMC的數據交換和管理。每個AMC最多有21個可配置的高速數據接口,每個MCH最多有60個可配置的高速數據接口,這些接口通過MicroTCA背板及MCH的交換網絡實現高速數據通信。
MicroTCA擁有標準化的功能模塊、可配置的業務類型、可擴展的背板傳輸帶寬、緊湊的物理結構、靈活的應用方式、梯級化的可靠性設計、較低的開發和應用成本、較少的產品開發時間、更長的產品生命周期。基于這些先進特性,MicroTCA必將得到廣泛的應用。
綜合上述優點,我們采用具有MicroTCA架構的提供標準PCI Express總線的工控機。ELMA公司的MicroTCA 7U系統平臺符合PICMG規范,提供標準的PCI Express插槽,支持單寬、雙寬,半高、全高的AMC模塊,采用風冷的冷卻方式,具有高級的EMC屏蔽和靈活的組合方式,是我們雷達成像處理系統所需標準機箱的一個不錯的選擇。機箱的底板采用ELMA公司的14槽MicroTCA背板,他符合MicroTCA.0 R1.0標準規范,具有12個AMC模塊、1個電源模塊、1個MCH模塊,單槽數據帶寬可達40 Gb/s,具有高速串行連接器,支持625 Gb/s的傳輸率,此外還有標準的系統管理接口。底板的主要功能是給采集/存儲板卡及信號處理板卡提供標準的PCI Express插槽,給板卡供電的同時可以實現主機與板卡間的通信以及板卡間的相互通信。
2.3 支持PCI Express總線的接口芯片
設計信號處理板卡時,為了簡化板卡,提高硬件的靈活性,這里用FPGA來控制整個板卡,包括對DSP的控制、數據交換模塊的設計以及接口的實現。事實上,在SAR處理中還經常用FPGA作方位向的預濾波、距離壓縮等工作,所以要選用資源豐富的,速度較快的,RAM容量較大的FPGA。Altera公司推出的Stratix II GX系列完全可以勝任上述工作,其內嵌的RAM可以作為本級FIFO使用,使設計更緊湊、靈活,此外還可以對其編程實現PCI Express與局部端的通信。綜合考慮,FPGA采用Altera公司的EP2SGX60E芯片。
Stratix II GX FPGA收發器工作速率為622 Mb/s~6375 Gb/s。經過優化,FPGA能提供優異的信號完整性,降低了布板風險。在Stratix II GX器件中,收發器模塊含有特定的硬件知識產權(IP),支持多種主要協議,包括PCI Express等,還可提供低功耗解決方案,特別適合散熱困難的背板應用。設計中采用這個芯片,在很大程度上簡化了板卡結構,提高了板卡的靈活性。
3 實時成像系統方案設計
這里所設計的實時雷達成像處理系統由標準機箱、采集/存儲板卡以及信號處理板卡組成。標準機箱是板卡的支撐平臺并進行圖像的顯示。采集/存儲板卡高度集成,實現雷達回波的實時采樣和實時存儲。基于4片ADSP-TS201的信號處理板卡是成像處理的核心,4片DSP采用并行、流水的方式以達到實時成像處理的要求。采用PCI Express總線能夠有效地利用PC機資源和應用軟件,利于開發圖形化操作界面,極大地方便了信號處理系統的調試、狀態監控以及圖像顯示。AD采樣的數據一邊存入FLASH陣列,一邊傳給DSP進行實時處理,處理完的結果通過PCI Express總線讀入計算機內存并進行顯示。信號處理板卡是專門為雷達成像設計的一種通用處理模塊。4片DSP峰值并行處理可達到12 GFLOPS的運算(DSP內核工作在500 MHz)。實際中根據算法的復雜度選取信號處理板卡的數量。成像處理系統結構如圖3所示,其中MCH模塊用來控制板間通信。

3.1 數據的采集與存儲
采集/存儲板卡設計時將采集和存儲集成在一塊板卡上,可以設計成高速和低速兩種采集/存儲卡。高速卡適合于對高速的中頻采樣,如直接對高分辨SAR雷達中頻回波采樣;低速卡適合于精度要求高、速度要求低一點的場合,如在ISAR的Dechirp后以及普通的SAR基帶回波采樣。采樣后的數據經FPGA控制存入FLASH陣列。板卡上有128 GB容量的FLASH陣列,通過72片FLASH芯片并行操作(其中64片FLASH用來存儲數據,8片FLASH用來提供冗余校驗,這樣即使有幾個芯片損壞也可以保證數據的完整性),可以實現240 MB的穩定連續讀寫速度,可應用于高速大容量存儲的場合。板卡采用標準PCI Express接口,主機可以直接讀取采樣數據并進行顯示。
3.2 信號處理模塊
信號處理模塊是系統的核心,由于成像算法的復雜性,選用AD公司的ADSP-TS201作為主處理器。這是一款極高性能的靜態超標量處理器,他將非常寬的存儲器寬度和雙運算模塊組合在一起。TigerSHARC靜態超標量結構使DSP每周期執行多達4條指令、24個16位定點運算和6個浮點運算。運行在500 MHz時,TS201可提供48億次40位的MAC運算或者12億次的80位MAC運算。TS201的鏈路口時鐘和數據線采用低壓差分信號,可以達到很高的速度,單個鏈路口全雙工工作的速度可以達到1 GB/s。TS201有豐富的內部存儲資源,能提供336 GB/s的內存帶寬,特別適合并行組成高速并行處理器。從多片互連來看,他除了有完善的總線仲裁機制外還有4個高速鏈路口,可以以各種拓撲結構互連DSP,滿足大運算量的要求。
根據R-D算法既是并行的又是流水的特點,這里設計了分布式的并行系統。板卡擁有4片 TS201,1 GB的存儲空間。4個DSP采用分離總線的形式與一片FPGA相連,每個DSP都有獨立的256 MB、64位寬度的SDRAM,4個DSP可以同時訪問自己的SDRAM。系統采用標準的PCI Express總線。板卡上的FPGA負責整個板子的控制和接口工作。內核工作在500 MHz時,板卡的峰值運算能力達到每秒120億次浮點運算。圖4為信號處理板卡的框圖。

4個DSP分布式互連,可以通過鏈路口進行數據交換,也可以通過FPGA進行數據傳輸。鏈路口是全雙工的,可以穩定工作在500 MHz的時鐘頻率下。每個DSP的64位數據總線連到FPGA,在FPGA中設計了交換電路,任意兩個DSP之間的數據交換速度為800 MB/s。DSP之間的鏈路口兩兩互連。
另外我們也設計了共享存儲空間的信號處理板卡,存儲器采用DDR2 SDRAM,由FPGA控制,容量為2 GB,時鐘266 MHz,由于采用雙倍數據率,單個數據線傳輸速率最高可達533 Mb/s,64位數據線的傳輸率最高4 200 MB/s。各個DSP總線都連接到FPGA上,DSP的外部時鐘為100 MHz,64位總線的數據傳輸率可達800 MB/s,4個DSP同時訪問時速度為3 200 MB/s。DSP通過FPGA來訪問存儲空間,當多個DSP同時訪問時,在FPGA內部控制訪問順序。4個DSP的鏈路口仍是兩兩互連,結構如圖5所示。

4 R-D算法與硬件的映射
我們根據R-D算法的特點利用多處理器并行結構設計了體積小、功耗低、效率高的信號處理機。采用子孔徑方法進行距離向處理,在第一個子孔徑完成距離向處理后就可以開始數據轉置,所以距離向處理可以按子孔徑來進行流水處理,數據轉置可以與之同時進行。為了實現整體的流水作業,距離向處理和方位向處理應該在不同的運算模塊中進行,這樣在對前幅圖像進行方位向處理時,可
以對下幅圖像進行距離壓縮和數據轉置。
由于方位向處理時會涉及到數據的重復利用,而且方位向的參數估計比距離向的參數估計復雜,所以方位向處理板卡數目多于距離向處理板。在這里我們用三個信號處理板卡按照流水方式實現R-D算法,第一個板卡處理距離向數據,另外兩個板卡進行方位向處理。采集存儲板卡通過PCI Express接口將采集到的數據按方位的先后傳輸給第一個信號處理板進行距離向處理,這時在板卡內部數據以回波到達順序分別進入不同的DSP,4個DSP同時接收數據并發進行處理,處理完的數據按照方位向存儲到各自的SDRAM,另外兩個板卡通過PCI Express接口接收距離向處理后的數據并發進行方位向處理,與此同時,第一個板卡進行下一幅圖像的距離向處理。每個板卡上DSP之間的數據傳輸通過鏈路口進行,由于進行數據處理時往往需要一部分樣本,鏈路口完全能夠勝任這個量級的數據通信。所有的數據均通過PCI Express總線由MCH控制傳輸方向和進行數據交換,結構如圖6所示。

5 結 語
本文針對R-D SAR成像算法的特點設計了一種基于PCI Express總線的實時成像系統,該系統采用PCI Express串行總線體系結構,提高了系統的總線帶寬和總線接口的可伸縮能力,實現了數據采集和大容量實時存儲,并且具有極強的運算能力和良好的通信能力,特別適合于復雜的實時成像雷達信號處理。未來的雷達成像將進行更復雜的處理,對實時處理機的要求更高,另外彈載、星載實時成像技術的發展對成像處理機的適用環境、可靠性和穩定性提出了更高的要求,這些都需要不斷地研究與改進。
參 考 文 獻
[1]保錚,邢孟道,王彤.雷達成像技術[M].北京:電子工業出版社,2005.
[2]Ravi Budruk,Don Anderson,Tom Shanley.PCI Express系統體系結構標準教材[M].田玉敏,王崧,張波,譯.北京:電子工業出版社,2005.
[3]Stratix II GX Device Handbook.Altera Corporation.2007.
[4]劉書明,蘇濤,羅軍輝.TigerSHARC DSP應用系統設計[M].北京:電子工業出版社,2004.
作者簡介 李 燕 女,1981年出生,河南濟源人,碩士研究生。主要研究方向為雷達成像信號處理。
王 倩 女,1983年出生,山東德州人,碩士研究生。主要研究方向為雷達成像信號處理。
王虹現 男,1979年出生,河南商丘人,博士研究生。主要研究方向為雷達成像與高速實時信號處理。
邢孟道 男,1975年出生,浙江嵊州人,教授。主要研究方向為雷達成像、目標識別和天波超視距雷達信號處理。