999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于CPU和GPU混合運算的短波二維寬帶測向實現

2016-11-15 18:08:53何林立祝麗華徐保根康文臣
科技資訊 2016年18期

何林立+祝麗華+徐保根+康文臣

摘 要:通過CPU和GPU的混合計算結構搭建的信號和數據處理系統,搭配數據采集卡或高速光傳輸網絡,實現了短波寬帶測向的實時處理。該方法的處理速度相較于MATLAB和CPU平臺可以提高1~2個數量級,相較于同等處理速度的多DSP平臺則體現了開發周期短、費用低、工作量小和可靠性高等眾多優勢。

關鍵詞:GPU 短波 寬帶測向

中圖分類號:TN97 文獻標識碼:A 文章編號:1672-3791(2016)06(c)-0014-02

在陣列信號處理中,通常采用多個DSP核并行運算、多個FPGA陣列或者DSP+FPGA的處理架構,完成針對多路寬帶數據的運算處理。以20圓陣的短波寬帶測向為例,當信號帶寬變大時,常規的自研高速信號實時處理平臺往往因為架構復雜,開發周期長,可擴展性較差,導致產品研發過程大部分都花費在硬件調試和維護上,不利于產品的更新換代。

1 寬帶測向的GPU實現方案設計

自從2006年NVIDIA公司推出GPU的通用編程模型CUDA以來,基于CUDA架構的通用并行運算系統已開始廣泛應用在國防工業各個領域。CUDA簡化了GPU的開發流程,運用C語言即可進行GPU的通用計算編程。因此,該文在進行方案設計之前,將基于CUDA進行快速寬帶測向算法的實現,先與同樣具有很強并行計算能力的FPGA對比,分析基于GPU進行快速寬帶測向的可行性和優勢。

1.1 GPU完成快速寬帶測向的可行性

使用FPGA和GPU對各種算法進行加速是比較合適的選擇,但二者的應用方式還有一定差異。

首先,GPU使用C語言進行開發,FPGA使用VHDL和Verilog等描述性語言開發,對軟件開發人員來說,FPGA開發起點偏高,需要了解硬件電路知識,更重要的是高速信號處理的FPGA設計需要調試硬件平臺,而且比較容易出現時序問題,會加大開發難度,恰恰相反,這些都是GPU的優勢所在,不需要學習新的編程語言,不需要維護硬件平臺,沒有時序設計困擾。

其次,從成本和功耗方面分析,在同等處理能力的情況下,GPU顯卡由于大量商用的原因,價格相對較低,同時,計算資源較多的高端FPGA較難購買,價格偏高,還涉及到硬件制版費用,時間成本和人力成本也需考慮。在同等處理能力的情況下,FPGA的功耗屬于動態功耗,使用資源越多功耗越大,不過,一般要低于GPU。

綜上所述,在開發難度、體積和成本等方面GPU有一定的優勢,FPGA在功耗方面有一定的節省,不過,要是應用多片FPGA芯片進行組合運算時,還要考慮綜合功耗。

1.2 基于GPU的并行測向算法

由于時間分辨率和頻率分辨率是倒數關系,時間分辨率越小,測向速度越快,同時頻率分辨率就會越粗,測向準確度就會下降。在基于二維寬帶測向算法中,減小FFT計算數據,可以加快測向速度,但要以犧牲頻率分辨率為代價。為了獲得高精度的快速測向性能,一般考慮在高采樣率下進行寬帶二維測向,如此一來,大數據量的FFT運算和二維譜峰搜索將耗費大量時間。由于各通道、各頻點測向運算的相對獨立性,可以使用GPU進行并行運算,加速FFT運算過程,在不降低頻率分辨率的情況下減少測向時間。

CUDA提供了一個CUFFT運算庫,可以高效地并行完成多個一維FFT運算,最多可以實現800萬點的FFT運算。文中測向陣元數為20陣元,寬帶條件下基帶IQ數據的采樣頻率為9.830 4 MHz,測向帶寬8 MHz。為了兼顧測向速度和測向靈敏度要求,單通道FFT點數為8 192點,帶內測向點數為6 666點,此時頻率分辨率約為1.2 kHz,時間分辨率為0.8 ms。測向流程如圖1所示。

瞬時測向帶寬為8 MHz,先采集20通道單幀數據0.8 ms進行FFT運算,選取信噪比超過門限的信號進行測向,極端情況下,考慮6 666個頻點全部測向。

先完成20通道的FFT運算,每路FFT的采樣點數為8 192點,一次并行運算的FFT點數是16 3840,小于800萬,滿足CUFFT庫的使用要求。

具體捕獲流程如下。

(1)申請3個顯存塊,顯存塊1用于接收內存塊1中的基帶采樣數據,使用不同頻點的載波信號,分別對20個通道的基帶數據進行FFT運算。將20個通道的采樣數據,按頻點數順序存儲在1塊內存里。

(2)顯存2用于接收內存塊2中的校正庫和理論庫數據,顯存3用于存儲運算結果。

(3)在顯存3中開展二維譜峰搜索,快速完成角度遍歷運算,給出所有待測頻點的方位角、仰角信息,同時結果仍保留在顯存3。

(4)將運算結果拷貝到主機內存,釋放GPU的運算資源。

2 測向方案的試驗驗證

2.1 試驗條件

(1)硬件環境:CPU是Intel Xeon E7-8893 v2芯片,芯片核心數為6,主頻為3.2 GHz;顯卡型號是Tesla K80,24GB 384 bit GDDR5顯存, 499 2個CUDA并行運行處理核心;內存為32 GB。

(2)軟件環境:32位的Windows 7操作系統,軟件開發環境為微軟公司的VS2008,還利用了NVIDIA公司提供的CUDA Driver、CUDAToolkit和CUDA SDK。

(3)實驗數據:使用短波多通道接收機采集的基帶數據,采樣頻率為9.830 4 MHz。

2.2 試驗結果與分析

分別基于CPU和GPU完成20通道所有頻點的搜索測向,寬帶二維測向算法如圖4所示,運算結果和運行時間如表1所示,其中GPU代碼運行時間是使用NAVIDA提供的專用計時API測定的,CPU的運行時間是使用MFC提供的計時器函數測定的。

在GPU和CPU中完成的算法是相同的,對二維測向的運算結果完全一致。但是,完成以上的測向過程,基于CPU的代碼需要約2 s的時間,而基于GPU加速后的代碼只需要約100 ms的時間,即基于GPU的運算速度大大提升了。

采用等效延長線模擬固定方位角和俯仰角的信號來向,使用GPU運算過程中保存的峰值和頻點二維搜索的結果如圖3所示,圖中坐標X表示信號俯仰角;Y表示信號方位角;Z表示相關系數。

3 結語

為了提高寬帶二維測向速度,結合寬帶二維測向的并行運算特點和GPU快速并行運算能力的優勢,提出了一種基于GPU的測向算法進行并行計算,以最大程度地提高測向速度。通過真實的中頻數據試驗驗證表明,使用GPU實現各通道和各頻點的并行捕獲與基于CPU實現的串行方式的運算結果是相同的,使用GPU的測向運算時間沒有達到理論值。為了充分發揮GPU的并行運算優勢,使用GPU設計捕獲方案應盡可能讓GPU一次處理更多的數據。

參考文獻

[1] 張舒,褚艷利.GPU高性能運算之CUDA[M].北京:中國水利水電出版社,2009.

[2] Jason Sanders,Edward Kandrot,著.GPU高性能編程CUDA實戰[M].聶雪軍,譯.北京:機械工業出版社,2011.

主站蜘蛛池模板: 国产啪在线91| 成人综合网址| 免费一级毛片在线观看| 国产内射一区亚洲| 国产成人福利在线| 99热国产在线精品99| 57pao国产成视频免费播放| 日本少妇又色又爽又高潮| 日韩少妇激情一区二区| 2021国产精品自拍| 国产亚洲精品在天天在线麻豆| 国产中文一区a级毛片视频 | 亚洲自拍另类| 国内精品免费| yy6080理论大片一级久久| 免费激情网站| 色噜噜狠狠狠综合曰曰曰| 国产毛片高清一级国语 | 亚洲欧美日韩成人高清在线一区| 国产福利拍拍拍| 日本精品视频一区二区| 欧美中文字幕在线视频| 在线五月婷婷| 免费aa毛片| 丝袜久久剧情精品国产| 日本高清免费不卡视频| 91网址在线播放| 亚洲福利视频一区二区| 呦视频在线一区二区三区| 日韩国产综合精选| 人妻无码中文字幕一区二区三区| 人妻丰满熟妇av五码区| AV天堂资源福利在线观看| 国产成人毛片| 亚洲欧美日韩天堂| 久久青青草原亚洲av无码| www成人国产在线观看网站| 久久永久精品免费视频| 久久精品国产一区二区小说| 中文成人在线| 久久久久久久97| 一边摸一边做爽的视频17国产| 欧美人在线一区二区三区| 亚洲成人网在线观看| 日韩黄色在线| 国产真实乱子伦视频播放| 欧美不卡二区| 青青草欧美| 午夜国产在线观看| a在线亚洲男人的天堂试看| 中文字幕66页| 亚洲人成成无码网WWW| 在线播放国产99re| 日本黄网在线观看| 国产欧美成人不卡视频| 国产视频一区二区在线观看| 国产青青操| 亚洲视频欧美不卡| 无码高潮喷水在线观看| 欧美自慰一级看片免费| 欧美色综合网站| 国产乱人伦偷精品视频AAA| 91黄视频在线观看| 成人无码一区二区三区视频在线观看| 欧美色伊人| 国产成人做受免费视频| 熟女视频91| aa级毛片毛片免费观看久| 99国产精品国产高清一区二区| 99在线视频网站| 国产成人精品一区二区| 日韩一级毛一欧美一国产| 亚洲视频黄| 国产综合精品一区二区| 色婷婷视频在线| 欧美一级黄片一区2区| 日日拍夜夜嗷嗷叫国产| 国产成人精品视频一区二区电影 | 中文无码精品A∨在线观看不卡| 国产熟睡乱子伦视频网站| 91青青在线视频| 女人毛片a级大学毛片免费|