999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向雷達(dá)信號(hào)處理應(yīng)用的可重構(gòu)處理器設(shè)計(jì)

2016-09-13 01:48:05何國強(qiáng)李世平
現(xiàn)代雷達(dá) 2016年8期
關(guān)鍵詞:指令

何國強(qiáng),李 麗,李世平

(1. 南京電子技術(shù)研究所, 南京 210039; 2. 南京大學(xué) 電子科學(xué)與工程學(xué)院, 南京 210046)

?

·信號(hào)處理·

面向雷達(dá)信號(hào)處理應(yīng)用的可重構(gòu)處理器設(shè)計(jì)

何國強(qiáng)1,李麗2,李世平1

(1. 南京電子技術(shù)研究所,南京 210039;2. 南京大學(xué) 電子科學(xué)與工程學(xué)院,南京 210046)

為滿足現(xiàn)代雷達(dá)的高性能應(yīng)用需求,文中提出并設(shè)計(jì)了一種可重構(gòu)專用處理(RASP)架構(gòu)。其采用非規(guī)則化微結(jié)構(gòu)和混合重構(gòu)策略,有效提升了并行流水計(jì)算的性能;通過兵乓處理機(jī)制掩蓋DDR讀寫時(shí)間,充分發(fā)揮了運(yùn)算資源的效率。RASP作為硬件加速核嵌入華睿2號(hào)DSP芯片并于TSMC 40 nm工藝下完成流片。測(cè)試結(jié)果顯示,RASP完成1 K(1 024)點(diǎn)FFT的運(yùn)算時(shí)間為2.57 μs,處理效率高達(dá)42%,相比于NoC、MorphoSys、C6678、T4240等處理器,性能提升至1.9~30倍,效率達(dá)到1.25~4倍。

可重構(gòu)處理器;快速傅里葉變換;矩陣求逆;脈壓;空時(shí)自適應(yīng)處理

0 引 言

隨著雷達(dá)向數(shù)字陣、多功能、智能化方向發(fā)展[1-2],對(duì)雷達(dá)信號(hào)處理的運(yùn)算性能提出了越來越高的需求,通用DSP性能已顯不足,專用ASIC或FPGA則靈活性差,且研制周期長、成本高,不能滿足多變的應(yīng)用需求[3-4]。因此,有必要在性能、功耗和功能靈活性等關(guān)鍵指標(biāo)之間尋找更好的平衡。

自20世紀(jì)60年代加州大學(xué)洛杉磯分校的Gerald Estrin教授[5]首次提出可重構(gòu)計(jì)算概念以來,通信、多媒體、雷達(dá)等多個(gè)領(lǐng)域的科學(xué)工作者開展了大量的可重構(gòu)處理器的研究,如:MIT的MATRIX[6]、IMEC的ADRES[7]、PACT公司的XPP[8]、雷聲公司的Mornarch[9]、國防科技大學(xué)的ASRA[10]等,至今仍然是高效能計(jì)算的研究熱點(diǎn)。可重構(gòu)計(jì)算是一種由配置流和數(shù)據(jù)流來共同驅(qū)動(dòng)的計(jì)算方式,即在運(yùn)行時(shí)通過配置流動(dòng)態(tài)改變運(yùn)算單元陣列結(jié)構(gòu),并由數(shù)據(jù)流驅(qū)動(dòng)運(yùn)算單元陣列進(jìn)行計(jì)算。因此,可以同時(shí)獲得較高的能效和靈活性[11-12],是雷達(dá)信號(hào)處理高性能處理器的實(shí)現(xiàn)途徑之一。

本文面向雷達(dá)信號(hào)處理應(yīng)用,提出并設(shè)計(jì)了一種可重構(gòu)專用處理架構(gòu)(RASP),主要包括6個(gè)可重構(gòu)處理單元和32個(gè)存儲(chǔ)單元,通過混合重構(gòu)策略和乒乓處理機(jī)制,可以高效實(shí)現(xiàn)FFT、矩陣求逆、FIR等基本算子的硬件加速,進(jìn)而由基本算子組合實(shí)現(xiàn)數(shù)字脈壓、STAP等雷達(dá)信號(hào)處理功能。實(shí)測(cè)結(jié)果顯示:與同類型可重構(gòu)處理器相比,RASP處理性能及效率均有著顯著優(yōu)勢(shì)。

1 RASP架構(gòu)

1.1架構(gòu)簡(jiǎn)述

RASP核的架構(gòu)如圖1所示。其主體結(jié)構(gòu)包括主控制單元、可配置上下文存儲(chǔ)單元、可重構(gòu)計(jì)算陣列、存儲(chǔ)陣列、DMA控制器和AXI總線。

圖1 RASP架構(gòu)圖

可重構(gòu)計(jì)算陣列由6路可重構(gòu)處理單元(RPE)和互聯(lián)網(wǎng)絡(luò)組成,通過對(duì)RPE內(nèi)部、RPE間的互連方式的配置,可以構(gòu)造出不同類型的計(jì)算部件,如:蝶形運(yùn)算、向量復(fù)乘、向量乘累加等,進(jìn)而實(shí)現(xiàn)FFT、FIR、矩陣乘、矩陣求逆等多種基本算子。

存儲(chǔ)陣列中包含32個(gè)64 KB的數(shù)據(jù)存儲(chǔ)單元,提供了32組讀寫端口,最高可并行讀寫32個(gè)浮點(diǎn)復(fù)數(shù),總?cè)萘? MB。快速交換總線用于完成32組讀寫端口與32個(gè)數(shù)據(jù)存儲(chǔ)塊之間的數(shù)據(jù)交換,使得RPE可以訪問到任意一個(gè)存儲(chǔ)單元。

上下文存儲(chǔ)單元存儲(chǔ)用于實(shí)現(xiàn)信號(hào)處理功能的基本算子指令組合,組合可以是同類型指令,如:N條1K點(diǎn)FFT,也可以是不同類型指令,如:向量乘、FFT、IFFT等。這些指令組合可通過DMA導(dǎo)入。

主控制單元用于完成核內(nèi)各模塊的調(diào)度控制,其先從上下文存儲(chǔ)單元中讀取待執(zhí)行的基本算子指令,然后根據(jù)指令類型對(duì)各個(gè)RPE內(nèi)部及其之間的互連結(jié)構(gòu)進(jìn)行相應(yīng)配置,再通知DMA從外部DDR中導(dǎo)入(或直接從存儲(chǔ)陣列中讀入)源數(shù)據(jù)并啟動(dòng)指令運(yùn)算,運(yùn)算結(jié)果可緩存在存儲(chǔ)陣列中用作下一條指令的源數(shù)據(jù),也可通過DMA輸出到外部DDR中。多條指令之間順序執(zhí)行,部分指令還支持乒乓處理機(jī)制,即當(dāng)前指令的源數(shù)據(jù)導(dǎo)入與上一條指令的運(yùn)算并行執(zhí)行,可有效掩蓋數(shù)據(jù)傳輸?shù)臅r(shí)間,提升運(yùn)算效能。

1.2RPE微結(jié)構(gòu)

RASP的6個(gè)RPE中,RPE1~RPE4主要用于進(jìn)行復(fù)數(shù)乘、加運(yùn)算,RPE5用于實(shí)現(xiàn)除法及定浮轉(zhuǎn)換,RPE6則為矩陣求逆預(yù)留擴(kuò)展單元,內(nèi)含2個(gè)實(shí)數(shù)乘法器、1個(gè)實(shí)數(shù)加法器、2個(gè)浮點(diǎn)除法器和1個(gè)復(fù)數(shù)乘法器,主要用于完成LU分解。

為了充分發(fā)掘FFT、矩陣乘等常用雷達(dá)信號(hào)處理算法的性能,RPE1~RPE4采用了如圖2所示的非規(guī)則化微結(jié)構(gòu),共包括1個(gè)復(fù)數(shù)乘法器、4個(gè)復(fù)數(shù)加法器和1個(gè)實(shí)數(shù)乘法器。不同于傳統(tǒng)規(guī)則化微結(jié)構(gòu)所需要的復(fù)雜的流水線配置和任務(wù)編譯技術(shù),非規(guī)則化微結(jié)構(gòu)僅面向雷達(dá)信號(hào)處理所需的有限個(gè)計(jì)算部件,能夠充分發(fā)揮各個(gè)運(yùn)算資源的效率,從而更加有效地提升并行流水計(jì)算性能,盡管犧牲了一定的靈活性,但獲得了顯著的性能提升。

圖2 RPE微結(jié)構(gòu)圖

RASP是通過控制MUX和互連方式來實(shí)施重構(gòu)的,所有MUX的控制值以及互連網(wǎng)絡(luò)互連方式控制值均存在在寄存器文件中,寄存器文件則由主控制器讀取基本算子指令后根據(jù)算法類型更新。

1.3重構(gòu)策略

RASP采用了RPE內(nèi)及RPE間的混合重構(gòu)策略,每個(gè)RPE可以獨(dú)立重構(gòu)成復(fù)乘、復(fù)加、乘累加等基本計(jì)算部件,從而支持4路并行計(jì)算,同時(shí),RPE之間還可通過互連網(wǎng)絡(luò)通信,進(jìn)一步重構(gòu)成FFT用混合基蝶形單元、相關(guān)用含除法向量乘累加等擴(kuò)展計(jì)算部件,兼顧了運(yùn)算并行度和流水性能,有效提高了FFT、相關(guān)等常用基本算子的性能。

1.4兵乓處理機(jī)制

可重構(gòu)處理器進(jìn)行運(yùn)算時(shí),通常會(huì)先從DDR中讀取源數(shù)據(jù),然后進(jìn)行運(yùn)算,運(yùn)算結(jié)果再寫回DDR。隨著計(jì)算資源的增大,并行度逐漸增高,當(dāng)數(shù)據(jù)長度較小時(shí),受DDR帶寬限制,讀寫DDR所消耗的時(shí)間將上升到與運(yùn)算時(shí)間可比擬的程度。以2 K點(diǎn)FFT為例,受DDR寬帶的限制,讀取或?qū)懟谼DR所需時(shí)間約3.8 μs,運(yùn)算時(shí)間約4.6 μs量級(jí)。可見,讀寫DDR總共耗時(shí)已超過運(yùn)算時(shí)間,運(yùn)算效率(運(yùn)算時(shí)間占總處理時(shí)間的比例)僅38%。

為提高數(shù)據(jù)長度較小時(shí)的運(yùn)算效率,RASP有針對(duì)性地采用了乒乓處理機(jī)制,在執(zhí)行含多條基本算子指令的批處理任務(wù)時(shí)可大大提高運(yùn)算效率。其運(yùn)算橫道圖如圖3所示。將整個(gè)存儲(chǔ)陣列等分為兩組,記為組1和組2,兩組RAM乒乓工作,基本流程為:

(1) 源數(shù)據(jù)1從DDR讀出后存入RAM 組1,然后啟動(dòng)運(yùn)算,同時(shí),源數(shù)據(jù)2也從DDR讀出,并存入RAM組2;

(2) 當(dāng)源數(shù)據(jù)1的運(yùn)算結(jié)束后,結(jié)果由RAM組1寫入DDR,同時(shí),RAM組 2中緩存的源數(shù)據(jù)2啟動(dòng)運(yùn)算,當(dāng)RAM組1的結(jié)果寫完后,緊接著從DDR中讀取源數(shù)據(jù)3并存入RAM 組1。

圖3 乒乓處理運(yùn)行橫道圖

記運(yùn)算時(shí)間為Tcalc,從DDR讀取源數(shù)據(jù)的時(shí)間為Tread,運(yùn)算結(jié)果寫回DDR的時(shí)間記為Twrite。可以看到,當(dāng)循環(huán)執(zhí)行N次運(yùn)算時(shí),采用兵乓處理機(jī)制消耗的總時(shí)間為

(1)

當(dāng)Tcalc≥Tread+Twrite時(shí),除第1次源數(shù)據(jù)讀取和第N次結(jié)果回寫的時(shí)間外,運(yùn)算始終執(zhí)行,讀寫數(shù)據(jù)的時(shí)間幾乎被完全掩蓋。因此,當(dāng)N足夠大時(shí),運(yùn)算效率近乎100%。

2 基本算子指令設(shè)計(jì)

RASP通過計(jì)算資源的實(shí)時(shí)重構(gòu)可支持FFT、FIR、矩陣乘、矩陣求逆等多種基本算子指令,下面分別對(duì)典型的FFT和矩陣求逆指令的重構(gòu)設(shè)計(jì)進(jìn)行說明。

2.1FFT

對(duì)于長度為N的輸入序列,F(xiàn)FT結(jié)果為

(2)

圖4 1 K點(diǎn)FFT計(jì)算流程示意圖

2.2矩陣求逆

RASP計(jì)算矩陣求逆采用了LU分解法,分三個(gè)步驟:列選主元LU分解、三角矩陣求逆、矩陣相乘。

設(shè)矩陣A為非奇異矩陣,并且所有順序主子式不為0,則矩陣A可以唯一分解為一個(gè)主對(duì)角元素全為1的下三角矩陣L和一個(gè)上三角矩陣U的乘積,即A=LU。為避免主元很小時(shí)因計(jì)算機(jī)精度限制所導(dǎo)致的下溢問題,采用了列選主元LU分解法,循環(huán)執(zhí)行選主元、歸一化、數(shù)據(jù)更新三個(gè)步驟。其中,選主元和歸一化步驟均使用RPE6中的計(jì)算資源,數(shù)據(jù)更新則使用RPE1~RPE4中的復(fù)數(shù)乘加器,四路并行處理。

三角矩陣求逆則分別計(jì)算L和U的逆矩陣L-1和U-1,主要使用求倒和乘累加器,其中,求倒由RPE6實(shí)現(xiàn),乘累加器由RPE1~RPE4實(shí)現(xiàn),四路乘累加器分2組同時(shí)并行計(jì)算L和U的逆矩陣。

將U-1、L-1相乘并進(jìn)行適當(dāng)變換即可得到A矩陣的逆矩陣A-1,主要運(yùn)算為矩陣相乘,其使用每個(gè)RPE中的1個(gè)復(fù)數(shù)乘法器和2個(gè)復(fù)數(shù)加法器構(gòu)成一個(gè)全流水的復(fù)數(shù)浮點(diǎn)乘累加器,共四路乘累加器并行運(yùn)算。

3 典型功能實(shí)現(xiàn)

基于RASP所支持的基本算子指令集,使用不同的指令組合,可以極其便捷地實(shí)現(xiàn)不同的雷達(dá)信號(hào)處理功能,用戶僅需要通過軟件編程配置相應(yīng)的指令組合即可。例如,常規(guī)脈壓算法的計(jì)算公式為

Y=IFFT[FFT(X)·Cdpc]

(3)

式中:X為輸入向量;Y為輸出結(jié)果;Cdpc為脈壓系數(shù)。顯然,脈壓算法可由FFT、向量乘、IFFT三條基本算子指令組合實(shí)現(xiàn),運(yùn)算流程見圖5a)。

圖5 RASP實(shí)現(xiàn)典型雷達(dá)信號(hào)處理算法的運(yùn)算流程

STAP算法需先計(jì)算輸入矩陣X的協(xié)方差R=XXH,然后對(duì)R求逆得到R-1,再利用導(dǎo)向矢量s計(jì)算最優(yōu)權(quán)

(4)

最后進(jìn)行向量矩陣乘Y=WHX,于是,STAP算法可由矩陣協(xié)方差、求逆、相乘、點(diǎn)乘、除法等多條基本算子指令組合實(shí)現(xiàn),主要運(yùn)算流程見圖5b)。

在脈壓和STAP運(yùn)算過程中的所有中間值R、R-1、U、V等均存于內(nèi)部RAM中,可以有效降低讀寫DDR的時(shí)間消耗。

4 實(shí)驗(yàn)測(cè)試

4.1測(cè)試平臺(tái)

RASP作為一個(gè)硬件加速核集成在華睿2號(hào)DSP芯片中,芯片采用40 nm的工藝流片,主頻可達(dá)1 GHz,其中,RASP核面積20 mm2(包含2 MB SRAM),芯片實(shí)物如圖6a)所示,設(shè)計(jì)的相應(yīng)測(cè)試模塊見圖6b)。

圖6 含RASP核的華睿2號(hào)芯片及測(cè)試模塊實(shí)物

4.2基本算子指令性能測(cè)試

不同點(diǎn)數(shù)FFT和不同階數(shù)矩陣求逆的性能測(cè)試結(jié)果如圖7所示,其中,縱坐標(biāo)為以2為底的對(duì)數(shù)坐標(biāo),因DDR讀寫時(shí)間受DDR傳輸帶寬限制,且批處理時(shí)有可能被掩蓋。因此,為評(píng)估RASP的運(yùn)算效能,此處僅關(guān)注運(yùn)算的時(shí)間消耗。

圖7 RASP基本算子指令性測(cè)試結(jié)果

可以看到,隨FFT點(diǎn)數(shù)增大,處理時(shí)間基本呈現(xiàn)NlbN趨勢(shì)增大,1 K點(diǎn)FFT時(shí)間僅2.57 μs,當(dāng)FFT點(diǎn)數(shù)大于256 K點(diǎn)時(shí),受片內(nèi)存儲(chǔ)陣列容量限制,需采用二維FFT實(shí)現(xiàn),故運(yùn)算時(shí)間陡然增多。隨矩陣階數(shù)增大,運(yùn)算資源的并行處理效率越充分,等效于并行度提高,因此處理時(shí)間增加趨勢(shì)漸緩,48階矩陣求逆時(shí)間110.4 μs。

將RASP實(shí)現(xiàn)1 K點(diǎn)FFT的性能與其他處理器進(jìn)行對(duì)比,包括可重構(gòu)處理器NoC[14]、MorphoSys[15],以及商用DSP或CPU,如:TI公司C6678、Freescale公司T4240、Intel公司Xeon E5-2648L V2,結(jié)果如圖8所示。其中,商用DSP或CPU測(cè)試性能時(shí)均采用了變址模式。通常用式(5)中的MFLOPS描述處理器實(shí)現(xiàn)FFT算法的有效處理能力

(5)

由圖8a),RASP實(shí)現(xiàn)1 K點(diǎn)FFT僅2.57 μs,有效處理能力高達(dá)20 GFLOPS,是E5-2648L的1.9倍,是TI C6678的4.7倍,與NoC相比,則高達(dá)30倍。

圖8 1K點(diǎn)FFT在不同處理器的性能比較

因不同處理器的主頻和運(yùn)算資源均存在區(qū)別,通常用運(yùn)算效率(有效處理能力與峰值處理能力的比值)來表征處理架構(gòu)的性能,考慮到RASP實(shí)現(xiàn)FFT時(shí)所使用的RPE資源,主頻1 GHz下峰值運(yùn)算能力達(dá)48GFLOPS,運(yùn)算效率42%。Xeon E5-2648L V2主頻1.9 GHz,單核8個(gè)MAC,峰值運(yùn)算能力30.4 GFLOPS,運(yùn)算效率34%,將不同處理器的運(yùn)算效率對(duì)比如圖8b),可以看到,RASP運(yùn)算效率可以達(dá)到其他處理器的1.25~4倍。

4.3典型雷達(dá)信號(hào)處理算法性能測(cè)試

以一個(gè)帶寬B=2 MHz,時(shí)寬T=250 μs,采樣頻率fs=2 MHz的線性調(diào)頻信號(hào)進(jìn)行脈壓處理,波形見圖9a),采用漢明窗加權(quán)后主副瓣比MSR可達(dá)48.69 dB,與matlab計(jì)算的理論值相比,最大相對(duì)誤差0.03%。完成2 K點(diǎn)脈壓處理的時(shí)間見表1,共15.3 μs,16 K點(diǎn)脈壓處理時(shí)間131 μs。

圖9 RASP實(shí)現(xiàn)脈壓和STAP運(yùn)算的結(jié)果

從表1可以看到,運(yùn)算效率受DDR讀寫時(shí)間影響仍然較大,2 K點(diǎn)時(shí)為64%,因FFT運(yùn)算時(shí)間呈MlbN增長,DDR讀寫時(shí)間則線性增長,故點(diǎn)數(shù)越大運(yùn)算效率會(huì)越高,16 K點(diǎn)時(shí)達(dá)66.5%。此外,若連續(xù)進(jìn)行M次脈壓運(yùn)算且點(diǎn)數(shù)較大時(shí),還可以考慮采用批處理方法實(shí)現(xiàn),即依次進(jìn)行M次FFT、M次向量乘、M次IFFT,以盡可能掩蓋DDR讀寫時(shí)間,提高運(yùn)算效率。

表1不同點(diǎn)數(shù)下RASP實(shí)現(xiàn)脈壓算法的性能μs

規(guī)模DDR讀FFT向量乘IFFTDDR寫總時(shí)間2K2.744.620.564.622.7415.3016K21.9641.604.1141.6021.96131.00

分別對(duì)24通道、256距離門以及48通道、1 024距離門兩種規(guī)模的矩陣進(jìn)行STAP處理,性能見表2。24×256規(guī)模的STAP耗時(shí)70.9 μs,48×1 024規(guī)模的STAP耗時(shí)798 μs。

表2不同規(guī)模下RASP實(shí)現(xiàn)STAP算法的性能μs

規(guī)模DDR讀協(xié)方差矩陣求逆矩陣乘除法DDR寫總時(shí)間24×2568.2338.0022.301.740.270.3470.9048×102465.90607.00110.0013.300.541.37798.00

選擇20通道、128頻率門、715距離門的實(shí)錄數(shù)據(jù)進(jìn)行STAP處理,采用和通道導(dǎo)向矢量,輸出幅度分布見圖9b),在頻率門27~58,距離門101~616的清晰區(qū)內(nèi),雜波剩余3.7 dB,與預(yù)期值相符。

5 結(jié)束語

本文提出并設(shè)計(jì)了一種面向雷達(dá)信號(hào)處理應(yīng)用的可重構(gòu)專用處理RASP架構(gòu),其采用了非規(guī)則化微結(jié)構(gòu)和混合重構(gòu)策略,并通過兵乓處理機(jī)制有效掩蓋了DDR讀寫時(shí)間,能夠充分發(fā)揮各運(yùn)算資源的效率,1 K點(diǎn)FFT運(yùn)算時(shí)間2.57 μs,處理效率高達(dá)42%,是同類型其他處理器的1.25~4倍,處理性能是同類型其他處理器的1.9~30倍。RASP作為協(xié)處理器被嵌入華睿2號(hào)DSP芯片并在TSMC 40 nm工藝下流片,經(jīng)測(cè)試,雷達(dá)數(shù)字脈壓(2 K點(diǎn))和STAP(48×1 024)處理的時(shí)間分別為15.3 μs和798 μs,適用于對(duì)處理性能和靈活性均有較高要求的雷達(dá)信號(hào)處理和電子對(duì)抗等領(lǐng)域。

[1]BROOKER E. Recent developments and future trends in phased arrays[C]// IEEE International Symposium on Phased Array Systems & Technology. Waltham, MA: IEEE Press, 2013: 43-53.

[2]張光義, 趙玉潔. 相控陣?yán)走_(dá)技術(shù)[M]. 北京: 電子工業(yè)出版社,2006.

ZHANG Guangyi, ZHAO Yujie. Technology of phased array radar[M]. Beijing: Publishing House of Electronics Industry, 2006.

[3]IQBAL M A, AWAN U S. RISP design using tightly coupled reconfigurable FPGA cores[C]// International Conference on Information & Communication Technologies. Karachi: IEEE Press, 2009: 249-254.

[4]王新安,葉兆華,戴鵬, 等. 可重構(gòu)陣列DSP結(jié)構(gòu)ReMAP[J]. 深圳大學(xué)學(xué)報(bào)理工版,2010,27(1): 16-20.WANG Xinan, YE Zhaohua, DAI Peng, et al. ReMAP: a reconfigurable array DSP architecture[J]. Journal of Shenzhen University Science and Engineering, 2010, 27(1):16-20.

[5]ESTRIN G. Organization of computer systems: the fixed plus variable structure computer[J]. IEEE Computer Society, 1960, 133(37): 33-40.

[6]MIRSKY E, DEHON A. MATRIX: a reconfigurable computing architecture with configurable instruction distribution and deployable resources[C]// IEEE Symposium on FPGAs for Custom Computing Machines. Mapa Valley, CA: IEEE Press, 1996: 157-166.

[7]MEI B, VERNALDE S, VERKEST D, et al. ADRES: an architecture with tightly coupled VLIW processor and coarse-grained reconfigurable matrix[C]// International Conference on Field Programmable Logic & Applicaiton. Lisbon: IEEE Press, 2003(2778): 61-70.

[8]BAUMGARTE V, EHLERS G, MAY F, et al. PACT XPP-A self-reconfigurable data processing architecture[J]. The Journal of Supercomputing, 2003, 26(2): 167-184.

[9]HENTRICH D, ORUKLU E, SANIIE J. Polymorphic computing: definition, trends, and a new agent-based architecture[J]. Circuits and Systems, 2011, 2(4): 358-364.

[10]LIULei,YANGZiyu,LISikun,etal.Implementationofhigh-throughputFFTprocessingonanapplication-specificreconfigurableprocessor[C]// 2012 2ndInternationalConferenceonComputerScienceandNetworkTechnology.Changchun:IEEEPress, 2012: 1284-1288.

[11]魏少軍,劉雷波,尹首一. 可重構(gòu)處理器技術(shù)[J]. 中國科學(xué):信息科學(xué),2012,42(12): 1559-1576.

WEIShaojun,LIULeibo,YINShouyi.Keytechniquesofreconfigurablecomputingprocessor[J].ScienceChina:InformationSciences, 2012,42(12): 1559-1576.

[12]CHALAMALASETTISR,PUROHITS,MARGALAM,etal.MORA-anarchitectureandprogrammingmodelforaresourceefficientcoarsegrainedreconfigurableprocessor[C]// 2009NASA/ESAConferenceonAdaptiveHardwareandSystems.SanFrancisco,CA:IEEEPress, 2009: 390-396.

[13]于蘇東,劉雷波,尹首一, 等. 嵌入式粗顆粒度可重構(gòu)處理器的軟硬件協(xié)同設(shè)計(jì)流程[J]. 電子學(xué)報(bào),2009, 37(5): 1136-1140.

YUSudong,LIULeibo,YINShouyi,etal.Hardware-softwareco-designflowforembeddedcoarse-grainedreconfigurableprocessor[J].ActaElectronicaSinica, 2009, 37(5): 1136-1140.

[14]BAHNJH,YANGJS,BAGHERZADEHN,etal.ParallelFFTalgorithmsonnetwork-on-chips[J].JournalofCircuitsSystem&Computers, 2011, 18(2): 255-269.

[15]KAMALIZADAH,PANC,BAGHERZADEHN.FastparallelFFTonareconfigurablecomputationplatform[C]//Proceedingsofthe15thSymposiumonComputerArchitectureandHighPerformanceComputing. [S.l.]:IEEEPress, 2003: 254-259.

何國強(qiáng)男,1977年生,高級(jí)工程師。研究方向?yàn)槔走_(dá)信號(hào)處理、數(shù)字芯片設(shè)計(jì)。

李麗女,1975年生,教授,博士生導(dǎo)師。研究方向?yàn)槌笠?guī)模集成電路設(shè)計(jì)。

Design of Reconfigurable Processor for Radar Signal Processing Application

HE Guoqiang1,LI Li2,LI Shiping1

(1. Nanjing Research Institute of Electronics Technology,Nanjing 210039, China)(2. School of Electronic Science and Engineering, Nanjing University,Nanjing 210046, China)

To meet the demands of high performance applications in modern radar, RASP architecture is presented in this paper. Through anomalistic microstructure and mixed reconfigurable strategy, the performance of parallel-pipeline compute improves in effect. With ping-pang processing method which conceals DDR read-write time, RASP also gives full play to the efficiency of computing resources. As a co-processor, RASP is tapped out and integrated in the DSP chip Huarui-2 with TSMC 40 nm. The test results demonstrate that 1 K FFT calculating only needs 2.57 μs. The processing efficiency is as high as 42%. The performance is about 1.9~30 times and the efficiency is about 1.25~4 times as other FFT processors like NoC, MorphoSys, C6678, T4240, et al.

reconfigurable processor; FFT; matrix inverse; pulse compression; STAP

10.16592/ j.cnki.1004-7859.2016.08.011

何國強(qiáng)Email:guoqiang_he@sohu.com

2016-04-22

2016-06-24

TN957

A

1004-7859(2016)08-0046-05

猜你喜歡
指令
聽我指令:大催眠術(shù)
ARINC661顯控指令快速驗(yàn)證方法
LED照明產(chǎn)品歐盟ErP指令要求解讀
殺毒軟件中指令虛擬機(jī)的脆弱性分析
巧用G10指令實(shí)現(xiàn)橢圓輪廓零件倒圓角
中斷與跳轉(zhuǎn)操作對(duì)指令串的影響
科技傳播(2015年20期)2015-03-25 08:20:30
基于匯編指令分布的惡意代碼檢測(cè)算法研究
一種基于滑窗的余度指令判別算法
歐盟修訂電氣及電子設(shè)備等產(chǎn)品安全規(guī)定
家電科技(2014年5期)2014-04-16 03:11:28
MAC指令推動(dòng)制冷劑行業(yè)發(fā)展
汽車零部件(2014年2期)2014-03-11 17:46:27
主站蜘蛛池模板: 玖玖精品在线| 国产91色在线| 亚洲精品人成网线在线 | 无码AV日韩一二三区| 亚洲乱伦视频| 欧美激情二区三区| 亚洲男人天堂网址| 久久久久人妻精品一区三寸蜜桃| 久久青草热| 亚洲无码免费黄色网址| 91视频日本| 亚洲综合狠狠| 任我操在线视频| 国产欧美日韩va另类在线播放| 永久天堂网Av| 国产乱子伦手机在线| 亚洲男人的天堂在线| 国产欧美日韩综合一区在线播放| 色网站在线免费观看| 亚洲国产一区在线观看| 国产在线欧美| 亚洲无码熟妇人妻AV在线| 国产精品浪潮Av| 成人在线欧美| 免费人欧美成又黄又爽的视频| 亚洲一级色| 91毛片网| 国产美女在线观看| 欧美国产精品不卡在线观看| 免费高清毛片| 欧美亚洲日韩中文| 毛片免费在线视频| AV无码无在线观看免费| 国产精品第页| 在线观看国产精美视频| 亚洲欧美日韩另类在线一| 中文字幕中文字字幕码一二区| 99热这里只有免费国产精品 | 欧美色图久久| 国产欧美网站| 国产欧美日韩另类| 亚洲中文字幕精品| 国产丝袜丝视频在线观看| 国产高清又黄又嫩的免费视频网站| 亚洲第一国产综合| 久久综合色视频| 久久国产精品夜色| 久久久久无码精品国产免费| 欧洲在线免费视频| а∨天堂一区中文字幕| 久久久噜噜噜久久中文字幕色伊伊| 91欧美在线| 亚洲免费福利视频| 国产麻豆精品在线观看| 99久久成人国产精品免费| 区国产精品搜索视频| 久久a级片| 污网站免费在线观看| 精品视频一区二区观看| 日本一区高清| 亚洲AV无码乱码在线观看代蜜桃 | 国产精品55夜色66夜色| 国产97视频在线| 亚洲精品第一页不卡| 免费高清毛片| 国产青青操| 99久久精品国产自免费| 老司机aⅴ在线精品导航| 毛片网站在线播放| 国产产在线精品亚洲aavv| 91视频首页| 激情视频综合网| 九九精品在线观看| 亚洲无码不卡网| 国产欧美日韩专区发布| 国产毛片基地| 伊人久久婷婷| 亚洲男人天堂网址| 国产 日韩 欧美 第二页| 欧美色99| 在线免费a视频| 久热中文字幕在线|