孟肖 郭立新 黃青青 李娟
(西安電子科技大學(xué)物理與光電工程學(xué)院,西安 710071)
?
基于并行雙尺度射線追蹤的海面電磁散射計(jì)算
孟肖 郭立新 黃青青 李娟
(西安電子科技大學(xué)物理與光電工程學(xué)院,西安 710071)
利用一種基于雙尺度模型(Two Scale Model,TSM)的射線追蹤(Ray Tracing,RT)算法(TSM-RT)快速計(jì)算電大尺寸海面電磁散射,與傳統(tǒng)的射線追蹤算法相比,該算法能夠有效減少射線與面元的求交次數(shù),提高了計(jì)算效率. 同時(shí),為了進(jìn)一步減少計(jì)算時(shí)間,利用圖形處理單元(Graphics Processing Unit,GPU)強(qiáng)大的并行處理能力對(duì)TSM-RT算法進(jìn)行加速. 計(jì)算結(jié)果表明:基于GPU的并行TSM-RT算法與基于CPU的串行TSM-RT算法相比計(jì)算時(shí)間有了很大程度的減少,獲得了很好的加速效果.
雙尺度射線追蹤(TSM-RT);GPU;并行加速
DOI 10.13443/j.cjors.2015072502
引 言
海面散射的研究在民用以及軍事等領(lǐng)域均有廣泛用途.我國(guó)是一個(gè)發(fā)展中的海洋大國(guó),擁有18 000多千米的大陸海岸線、14 000多千米的島嶼線和300多萬(wàn)平方千米的海洋國(guó)土面積[1]. 海洋對(duì)我國(guó)經(jīng)濟(jì)、軍事、科技和生活具有重要影響.
計(jì)算粗糙海面散射的方法有很多,其中主要分為數(shù)值精確方法和高頻近似方法. 對(duì)于數(shù)值精確方法,常用的有矩量法[2]、有限元方法[3]等,但是由于計(jì)算復(fù)雜度很高以及對(duì)計(jì)算機(jī)內(nèi)存的要求,這些數(shù)值精確方法往往難以處理電大尺寸散射問(wèn)題. 因此,高頻近似方法近年來(lái)在處理電大尺寸散射問(wèn)題方面發(fā)揮到了重要作用. 常見(jiàn)的高頻算法主要有幾何光學(xué)(Geophysical Optics,GO)法和物理光學(xué)(Physical Optics,PO)法,其中,PO法由于沒(méi)有考慮到多次散射問(wèn)題,所以計(jì)算精度不高.另外,射線追蹤(Ray Tracing,RT)算法也是一種很常見(jiàn)的高頻近似算法,它將GO和PO[4-5]結(jié)合起來(lái),其中射線的傳播路徑由GO來(lái)確定,而遠(yuǎn)區(qū)散射場(chǎng)由PO計(jì)算.
雖然,與傳統(tǒng)的數(shù)值算法相比,RT算法的計(jì)算速度已經(jīng)有了很大提高,但是當(dāng)處理電大問(wèn)題的時(shí)候,仍然需要花費(fèi)很長(zhǎng)時(shí)間進(jìn)行射線追蹤. 因此,在傳統(tǒng)RT的基礎(chǔ)上本文介紹了一種近似RT算法,即基于雙尺度模型(Two Scale Model,TSM)的射線追蹤(Ray Tracing,RT)算法(TSM-RT).對(duì)于TSM-RT計(jì)算電大尺寸海面電磁散射,首先將海面按照雙尺度模型進(jìn)行建模,即將海面劃分為一系列大三角面元,并且每個(gè)大三角面元由許多小三角面元組成.射線路徑由大三角面元近似確定,而遠(yuǎn)區(qū)散射場(chǎng)則是所有小三角面元的散射場(chǎng)之和.與傳統(tǒng)的RT相比,該方法在保證精度的前提下能夠有效減少射線與面元的求交次數(shù),進(jìn)而提高計(jì)算效率.
近年來(lái),并行計(jì)算已經(jīng)得到了廣泛應(yīng)用,尤其是隨著圖形處理單元(Graphics Processing Unit, GPU)性能的不斷提升,許多研究已經(jīng)轉(zhuǎn)向了擁有高度并行性和可編程的GPU平臺(tái)上,如數(shù)值計(jì)算[6-7]、流體模擬[7]、數(shù)據(jù)庫(kù)操作[8]等通用計(jì)算領(lǐng)域.另外,NVlDlA公司率先提出了統(tǒng)一的計(jì)算設(shè)備體系結(jié)構(gòu)(Compute Unified Device Architecture, CUDA)[9],CUDA是用于GPU計(jì)算的開(kāi)發(fā)環(huán)境,它是一個(gè)全新的軟硬件架構(gòu),可以將GPU視為一個(gè)并行數(shù)據(jù)計(jì)算的設(shè)備,對(duì)所進(jìn)行的計(jì)算進(jìn)行分配和管理.對(duì)于TSM-RT算法,每條射線的追蹤過(guò)程都是相互獨(dú)立進(jìn)行的,非常適合利用GPU進(jìn)行并行加速.因此,為了進(jìn)一步減少計(jì)算時(shí)間,本文提出了基于GPU的并行TSM-RT算法,利用GPU強(qiáng)大的并行處理能力對(duì)TSM-RT算法進(jìn)行加速,與基于CPU的串行的TSM-RT相比基于GPU的TSM-RT算法的計(jì)算時(shí)間有了很大程度的減少,獲得了很好的加速效果.
對(duì)于TSM-RT算法,首先利用蒙特卡洛方法對(duì)海面進(jìn)行建模,如圖1所示,然后將海面劃分為雙尺度模型,也就是將海面劃分為一系列大三角面元,并且每個(gè)大三角面元由許多小三角面元組成,為了保證計(jì)算精度取小三角面元的采樣間隔為0.1λ.

圖1 海面雙尺度模型
將海面劃分為雙尺度模型后,射線路徑根據(jù)GO,由大三角面元近似確定,當(dāng)射線路徑確定后,反射場(chǎng)根據(jù)GO計(jì)算,由于大三角面元由許多小三角面元組成,具有一定的粗糙度,因此大三角面元上的反射場(chǎng)可以表示為[10]:
Er(r)=R·Ei(r),
(1)
(2)
式中: R0是平面反射系數(shù); kn是入射場(chǎng)矢量在面元外法向量上的投影; δ是粗糙面的均方根高度.
最后,利用PO計(jì)算遠(yuǎn)區(qū)散射場(chǎng),Stratton-Chu積分方程可以表示為
(3)
一個(gè)大三角面元上的遠(yuǎn)區(qū)散射場(chǎng)則是它上面所有小三角面元的散射場(chǎng)之和,即
(4)

近年來(lái),隨著GPU性能的不斷提升,許多的研究已經(jīng)轉(zhuǎn)向了基于GPU平臺(tái)上的實(shí)現(xiàn). CUDA是NVIDIA推出的一種CPU+GPU異構(gòu)運(yùn)算平臺(tái). 在該架構(gòu)中,GPU可視為一個(gè)計(jì)算設(shè)備,用于處理高度并行的計(jì)算. CUDA架構(gòu)采用了一種全新的計(jì)算體系結(jié)構(gòu)來(lái)使用GPU提供的硬件資源,圖2是CUDA存儲(chǔ)模型示意圖.

圖2 CUDA存儲(chǔ)模型
由圖2可以看出,每一個(gè)線程都擁有自己的私有存儲(chǔ)器、寄存器和局部存儲(chǔ)器;每一個(gè)線程塊擁有一塊Shared Memory,最后網(wǎng)格(Grid)中所有的線程都可以訪問(wèn)同一塊Global Memory,雖然Shared Memory比Global Memory小,但是讀寫(xiě)速度卻比Global Memory快很多;除此之外,還有兩種可以被所有的線程訪問(wèn)的只讀存儲(chǔ)器:Constant Memory和Texture Memory.
GPU執(zhí)行CUDA程序時(shí),執(zhí)行內(nèi)核的線程(Thread)被組織成線程塊(Block),線程塊又組成Grid. 這樣同一個(gè)Kernel程序可以并行運(yùn)行在一個(gè)網(wǎng)格所包括的所有線程塊中的線程上. 目前,同一網(wǎng)格內(nèi)的Block不可以相互通信,只能通過(guò)Global Memory共享數(shù)據(jù),而同一個(gè)線程塊中的線程可以通過(guò)Shared Memory通信,也可以同步.
對(duì)于TSM-RT算法,由于每根射線的追蹤過(guò)程是相互獨(dú)立的. 因此,非常適合利用GPU進(jìn)行并行加速,將每根射線分配給一個(gè)GPU線程,一個(gè)GPU線程用于計(jì)算相應(yīng)射線的傳播路徑,并計(jì)算相應(yīng)的遠(yuǎn)區(qū)散射場(chǎng),所有線程執(zhí)行相同的操作. 最后,將所有射線對(duì)應(yīng)的散射場(chǎng)累加得到散射總場(chǎng),進(jìn)而計(jì)算得到雷達(dá)散射截面積(Radar Cross-Section,RCS). 基于GPU的TSM-RT算法的基本流程如圖3所示.

圖3 基于GPU的TSM-RT算法基本流程
由圖3可以看出,對(duì)于基于GPU的并行TSM-RT算法,首先分配CPU和GPU端的內(nèi)存,并在CPU上進(jìn)行海面建模. 然后將海面信息傳輸?shù)紾PU端用于并行計(jì)算. 并行計(jì)算部分主要分為四部分:劃分射線、射線追蹤、計(jì)算散射場(chǎng)以及散射場(chǎng)規(guī)約求和. 其中,每根射線由一個(gè)線程代替,所有線程并行計(jì)算,得到每個(gè)大三角面元上的散射場(chǎng). 最后,利用規(guī)約算法計(jì)算得到總散射場(chǎng),并將計(jì)算結(jié)果傳回CPU計(jì)算最終的遠(yuǎn)區(qū)散射場(chǎng)進(jìn)而得到遠(yuǎn)區(qū)RCS. 對(duì)于電大尺寸海面散射問(wèn)題,往往需要較大內(nèi)存來(lái)存儲(chǔ)海面信息,因此Global Memory被用來(lái)存儲(chǔ)海面信息.
本節(jié)首先將基于CPU的串行TSM-RT算法與傳統(tǒng)RT算法的計(jì)算結(jié)果以及計(jì)算時(shí)間進(jìn)行對(duì)比,證明TSM-RT算法的正確性以及高效性. 然后利用基于GPU的TSM-RT計(jì)算三維電大尺寸海面電磁散射,并將計(jì)算結(jié)果與基于CPU的TSM-RT的計(jì)算結(jié)果進(jìn)行對(duì)比,驗(yàn)證并行TSM-RT算法的正確性. 同時(shí)將基于GPU和CPU的TSM-RT算法的計(jì)算時(shí)間進(jìn)行對(duì)比.
三維海面采用蒙特卡洛方法進(jìn)行建模,海譜采用Elfouhaily譜[11]. 實(shí)驗(yàn)主機(jī)采用Intel i3雙核的2.93 GHz CPU,配置Nvidia Geforce GTX 570顯卡,程序運(yùn)行環(huán)境為Microsoft Visual Studio 2010 (release). 相應(yīng)的GPU和CPU參數(shù)如表1所示.

表1 GPU和CPU參數(shù)
首先將基于CPU的串行TSM-RT算法與傳統(tǒng)RT算法的計(jì)算結(jié)果進(jìn)行對(duì)比,如圖4所示,其中海面尺寸為30 m×30 m,每個(gè)大三角面元由16個(gè)小三角面元組成. 入射波頻率為f=1 GHz. 海水的相對(duì)介電參數(shù)為εr=(73.608 7,54.581 6),入射角度從0°~80°,入射方位角φ=0°,海面上方風(fēng)速為u10=5 m/s.

(a) HH極化

(b) VV極化圖4 基于CPU的串行TSM-RT算法與傳統(tǒng)RT算法的20個(gè)三維海面樣本后向散射RCS計(jì)算結(jié)果對(duì)比
由圖4可以看出,基于CPU的串行TSM-RT算法與傳統(tǒng)RT算法計(jì)算結(jié)果吻合的較好,驗(yàn)證了TSM-RT算法的準(zhǔn)確性. 另外,隨著入射角度的增大,海面的后向散射RCS也不斷減小.
表2給出了相應(yīng)的傳統(tǒng)RT與基于CPU的串行TSM-RT算法的計(jì)算時(shí)間對(duì)比,其中該計(jì)算時(shí)間為81個(gè)入射角度的總計(jì)算時(shí)間.

表2 傳統(tǒng)RT與基于CPU的串行TSM-RT算法的計(jì)算時(shí)間對(duì)比
由表2可以看出,與傳統(tǒng)的RT算法相比,基于CPU的TSM-RT算法的計(jì)算時(shí)間減少了很多,對(duì)于HH極化和VV極化兩種情況,相應(yīng)的加速比達(dá)到49.6和48.96,獲得了很好的加速比.
圖5分別采用基于GPU的并行TSM-RT以及基于CPU的串行TSM-RT計(jì)算20個(gè)三維海面樣本后向散射RCS,其中海面尺寸為18 m×18 m,每個(gè)大三角面元由9個(gè)小三角面元組成. 其他參數(shù)與圖4相同.

(a) HH極化

(b) VV極化圖5 基于GPU和CPU的TSM-RT的20個(gè)三維海面樣本后向散射RCS對(duì)比結(jié)果
由圖5可以看出,基于GPU和CPU的TSM-RT的計(jì)算結(jié)果吻合非常好. 隨著入射角度的增加,海面的后向散射RCS不斷減小. 另外,隨著海面風(fēng)速的增大,海面粗糙度也隨之增大,相應(yīng)的漫散射增強(qiáng). 因此,大風(fēng)速時(shí)的后向散射RCS也比小風(fēng)速的時(shí)候大.
表3為基于GPU和CPU的TSM-RT計(jì)算時(shí)間對(duì)比結(jié)果,其中海面尺寸為18 m×18 m,風(fēng)速分別為u10=5 m/s和u10=10 m/s,該計(jì)算時(shí)間為單個(gè)海面樣本后向散射RCS共81個(gè)入射角度的計(jì)算時(shí)間. 基于GPU的TSM-RT算法中,線程塊大小為128,線程塊個(gè)數(shù)為625.

表3 基于GPU和CPU的TSM-RT算法計(jì)算時(shí)間對(duì)比
由表3可以看出,與基于CPU的串行TSM-RT算法相比,基于GPU的并行TSM-RT加速算法的計(jì)算時(shí)間減少了很多. 對(duì)于風(fēng)速分別為u10=5 m/s和u10=10 m/s時(shí),相應(yīng)的HH極化和VV極化的后向散射RCS加速比分別達(dá)到了101.96、96.85、101.85以及96.17,因此,獲得了很好的加速效果. 這些均得益于GPU強(qiáng)大的并行處理能力.
本文首先介紹了一種近似RT算法——TSM-RT算法,該算法將粗糙海面劃分為一系列大三角面元,每個(gè)大三角面元又由許多小三角面元組成. 大三角面元用來(lái)近似確定射線的路徑,而小三角面元?jiǎng)t用于求遠(yuǎn)區(qū)散射場(chǎng). 與傳統(tǒng)的RT算法相比,在保證計(jì)算精度的前提下,TSM-RT算法能夠有效減少射線與面元的求交次數(shù),因此相應(yīng)的計(jì)算時(shí)間也大大減少,進(jìn)而提高了計(jì)算效率.
另外,為了進(jìn)一步提高計(jì)算效率,本文還利用GPU強(qiáng)大的并行處理能力對(duì)該算法進(jìn)行加速,對(duì)于TSM-RT算法,每條射線的追蹤過(guò)程都是相互獨(dú)立的,非常適合利用GPU的并行處理能力進(jìn)行加速,因此本文提出了基于GPU的TSM-RT算法,與基于CPU的TSM-RT算法相比,計(jì)算時(shí)間減少了很多,取得了良好的加速效果.
[1] 中華人民共和國(guó)國(guó)土資源部.2008年國(guó)土資源公報(bào)[EB/OL].[2015-07-25].http://www. Mlr.Gov.cn/wszb/2009/20090331bzzbhxdzzk/beijingziliao/200903/t20090331687345.htm.2009.
[2] HARRINGTON R F. Field computation by moment methods [M]. NewYork: Macmillan, 1968.
[3] BARKA A, CAUDRILLIER P. Domain decomposition method based on generalized scattering matrix for installed performance of antennas on aircraft[J]. IEEE transactions on antennas and propagation, 2007, 55(6): 1833-1842.
[4] GRIESSER T, BALANIS C A. Backscatter analysis of dihedral corner reflectors using physical optics and the physical theory of diffraction[J]. IEEE transactions on antennas and propagation, 1987, 35(10): 1137-1147.
[5] DEHMOLLAIAN M, SARABANDI K. Electromagnetic scattering from foliage camouflaged complex targets[J]. IEEE transactions on geoscience remote sensing, 2006, 44(10): 2698-2709.
[6] 周季夫, 鐘誠(chéng)文, 尹世群, 等. 基于GPGPU的Lattice-Boltzmann數(shù)值模擬算法[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2008, 20(7): 912-918.
ZHOU J F, ZHONG C W, YIN S Q, et al. Numerical simulation algorithm of Lattice-Boltzmann on GPGPU[J]. Journal of computer-aided design and computer graphics, 2008, 20(7): 912-918. (in Chinese)
[7] 吳恩華, 柳有權(quán). 基于圖形處理器(GPU)的通用計(jì)算[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2004, 16(5): 601-612.
WU E H, LIU Y Q. General purpose Computation on GPU[J]. Journal of computer-aided design and computer graphics, 2004, 16(5): 601-612. (in Chinese)
[8] 曹鋒, 周傲英. 基于圖形處理器的數(shù)據(jù)流快速聚類(lèi)[J]. 軟件學(xué)報(bào), 2007, 18(2): 291-302.
CAO F, ZHOU A Y. Fast clustering of data streams using graphics processors[J]. Journal of software, 2007, 18(2): 291-302.(in Chinese)
[9] Internet Draft Nvidia Corporation. NVIDIA CUDA compute unified device architecture programming guide 1.1. [EB/OL] .2008[2015-07-25]. http://developer. Nvidia.com/object/cuda-get.html.
[10] XU F, JIN Q. Bidirectional analytic ray tracing for fast computation of composite scattering from electric-large target over a randomly rough surface[J]. IEEE transactions on antennas and propagation, 2009, 57(5): 1495-1505.
[11] ELFOUHAILY T, CHAPRON B, KATSAROS K, et al. A unified directional spectrum for long and short wind-driven waves[J]. Journal of geophysics research: oceans (1978—2012), 1997, 102(C7): 15781-15796.

孟肖 (1989-),女,陜西人,西安電子科技大學(xué)物理與光電工程學(xué)院博士研究生,研究方向?yàn)殡姶蟪叽绾C骐姶派⑸溆?jì)算及基于GPU的高性能并行加速技術(shù)研究.

郭立新 (1968-),男,陜西人,西安電子科技大學(xué)物理與光電工程學(xué)院博士生導(dǎo)師,研究方向?yàn)槔走_(dá)通信環(huán)境中的波傳播與散射、地物環(huán)境遙感與仿真、目標(biāo)與環(huán)境光電特性分析及應(yīng)用、空間等離子體探測(cè)與信息處理等.

黃青青 (1989-),女,貴州人,西安電子科技大學(xué)物理與光電工程學(xué)院碩士研究生,研究方向?yàn)殡S機(jī)粗糙面電磁散射特性研究.

李娟 (1984-),女,山西人,西安電子科技大學(xué)物理與光電工程學(xué)院副教授,研究方向?yàn)殡S機(jī)粗糙面與目標(biāo)的復(fù)合電磁散射研究.
EM scattering from the sea surface based on the parallelized two scale model ray tracing
MENG Xiao GUO Lixin HUANG Qingqing LI Juan
(SchoolofPhysicsandOptoelectronicEngineering,XidianUniversity,Xi’an710071,China)
This paper aims at the fast computation of the electromagnetic scattering from the large-scale sea surface by an approximate ray tracing(RT) method which is based on the two scale model(TSM-RT). Compared with the traditional RT method, TSM-RT method can decrease the number of intersections between the rays and facets, and keep a good accuracy. Therefore the computational efficiency is greatly improved. In addition, the parallelized accelerated TSM-RT method based on the graphics processing unit(GPU) is utilized in order to further improve the efficiency. According to the computational results, it demonstrates that the computational time of the GPU-based TSM-RT method is greatly decreased compared with the CPU-based TSM-RT method, therefore a good speedup ratio is achieved.
TSM-RT method; GPU; parallelized accelerated TSM-RT
10.13443/j.cjors.2015072502
2015-07-25
自然科學(xué)基金杰出青年科學(xué)基金(6125002); 中央高校業(yè)務(wù)費(fèi); 國(guó)家自然青年基金(61501360)
TN958
A
1005-0388(2016)04-0725-06
孟肖, 郭立新, 黃青青, 等. 基于并行雙尺度射線追蹤的海面電磁散射計(jì)算[J]. 電波科學(xué)學(xué)報(bào),2016,31(4):725-730.
MENG X, GUO L X, HUANG Q Q, et al. EM scattering from the sea surface based on the parallelized two scale model ray tracing[J]. Chinese journal of radio science,2016,31(4):725-730. (in Chinese). DOI: 10.13443/j.cjors.2015072502
聯(lián)系人: 孟肖 E-mail: mengxxidian@126.com