
摘要:針對PolSARpro軟件自帶高分三號數據轉換模塊無法自適應分布式差異化硬件環境問題,提出了一種按照該軟件的數據格式要求進行分布式自適應負載均衡并行轉換算法,將高分三號多極化數據快速精確定標及格式轉換,對不同硬件配置環境自適應,能夠抗數據偏斜,并且通過KingMapV10.5平臺實現了算法并在實際數據中進行測試,試驗結果表明性能提升了約12.7倍,驗證了算法的可行性、高效性和正確性。
關鍵詞:高分三號合成孔徑雷達自適應負載均衡分布式并行計算
中圖分類號:P237
AdaptiveDistributedLoadBalancingParallelConversionAlgorithmofGF-3Data
YAOShulin*
XiamenKingtopInformationTechnologyCo.,Ltd.,XiamenCity,FujianProvince,361008China
Abstract:InresponsetotheissuesofPolSARprosoftware'sbuilt-inGF-3dataconversionmodulebeingunabletoadapttodistributeddifferentiatedhardwareenvironments,this paperproposesadistributedloadbalancingparallelconversionalgorithmaccordingtothedataformatrequirementsofitssoftware,whichcanquicklyandaccuratelycalibrateandconvertGF-3multi-polarizationdata,adaptstodifferenthardwareconfigurationenvironments,andcanresistdataskew.andthealgorithmisimplementedontheKingMapV10.5platformandtestedonactualdata.theexperimentalresultsshowthattheperformancehasbeenimprovedbyabout12.7times,whichverifiesthefeasibility,efficiencyandcorrectnessofthealgorithm.
KeyWords:GF-3;SAR;Adaptive;Loadbalancing;DistributedParallelComputing
高分三號03星于2022年4月成功發射,與高分三號01星、高分三號02星組網運行,三星攜手在太空中織就一張“天眼網”,形成“1+1+1>3”的應用效能,標志著我國民用高分辨率SAR衛星數據由示范應用階段正式跨入業務化應用階段[1-2]。目前PolSARpro軟件雖已集成了高分三號數據的導入處理[3],但數據轉換效率相對較低。陳云[4?6]給出了基于MPI和OpenMP高效的分布式并行轉換算法。陳云[7]采用MapReduce在單機環境下有更好的性能表現,但并未在分布式環境下實現。現有算法都未考慮差異化環境下多模數據偏斜問題。因此,本文提出了高分三號分布式自適應負載均衡并行轉換方法,通過實際數據,驗證算法的自適應和抗數據偏斜能力,并通過性能對比分析,表明本文方法可以更高效地解決上述問題。
1算法原理
本文主要針對高分三號數據L1A產品進行數據轉換處理。根據PolSARpro軟件的數據格式要求,以及根據陳云[5]研究中的優化推導出中間參數。
其中,為該景圖像量化前的最大值,可通過元數據文件字段獲取。為該景圖像的雷達散射的定標系數,可通過L1A圖像元數據文件CalibrationConst字段獲取。則有:
式(2)、式(3)中:和分別為1A級產品實部和虛部,和分別為實部和虛部后向散射系數。
由于對任意一景高分三號數據,都可分配給其中的一個MPI實例,分配復雜度有,屬于NP難問題。為了快速解決上述問題,提出一種自適應高效分配方案。先針對不同的極化工作模式選取常見的標準景數據,其在各個MPI上的處理時間作為參考依據,來簡化分配復雜度。然后根據不同的硬件環境進行分類,通過不同的極化工作模式標準景數據在分類后的MPI上的處理時間作為參考依據,再降低分配復雜度。最后考慮到多景數據和單景標準數據的處理時間存在相關性,假設其為線性關系,進一步簡化分配。因此分配規則簡化如下。
(1)首輪分配規則。
①基于排序后的處理實例列表,獲取先驗標準景處理時間最少的同級別處理實例,將排序后的高分三號數據列表中的高分三號數據依次順序分配給先驗標準景處理時間最少的處理實例,每個實例分配1景。
②分別獲取所有已分配的處理實例的累計先驗花費時間;獲取排序后的高分三號數據列表中的待處理高分三號數據,獲取該景高分三號數據分別在已分配的處理實例上的先驗處理時間,以及獲取該景高分三號數據在排序后的處理實例列表中的待分配處理實例上的先驗處理時間;分別計算所有已分配的處理實例新的累計花費時間,取最少的花費時間,并記為;如果,則把待處理高分三號數據分配給累計花費時間最小的已分配處理實例;否則分配給待分配處理實例;其中,表示已分配的處理實例數。
③重復上述過程,直至把所有高分三號數據分配完成,或者完成處理實例列表中所有處理實例首輪分配。
(2)次輪分配規則。
如果進入次輪分配,按處理實例的先驗標準景處理時間及累計時間進行次輪分配,具體敘述如下。
①分別獲取所有已分配的處理實例的累計先驗花費時間;獲取排序后的高分三號數據列表中的待處理高分三號數據,獲取該景高分三號數據分別在已分配的處理實例上的先驗處理時間;分別計算所有已分配的處理實例新的累計花費時間,取最少的花費時間,并記為,把待處理高分三號數據分配給該處理實例,并更新該處理實例上的累計花費時間;其中,表示已分配的處理實例數。
②重復上述過程,直至把所有高分三號數據分配完成。
2算法設計
本文算法采用上述自適應負載均衡分配策略,主要算法流程如下。
(1)分布式環境配置信息主要包括:獲取每個MPI實例的先驗標準景處理時間,可以先從配置文件中讀取,如果沒有,則采用標準景進行實際測試后獲取初始先驗標準景處理時間(2)獲取所有高分三號待處理數據列表。(3)按各個MPI處理實例的先驗標準景處理時間升WZ3+Vviv3z5Nn5gQJIgI7w==序排序。(4)按每景數據大小進行降序排序。(5)按上述自適應負載均衡分配方法。(6)把上述分配好的待處理任務派發給每個MPI實例。(7)每個MPI實例采用MapReduce框架調用并行轉換函數按景處理,先采用公式(1)計算中間參數。(8)在并行轉換函數中采用OpenMP按極化方式進行并行處理。(9)具體轉換函數中采用公式(2)和公式(3)進行轉換。(10)更新記錄每個MPI實例已完成處理高分三號數據總的景數、累計數據量大小以及總的處理時間。(11)為了更準確地體現先驗標準景處理時間,采用完成的高分三號數據處理記錄清空更新初始的先驗標準景處理時間信息。
3算法實例
通過地理信息系統開發平臺KingMap V10.5進行驗證,平臺是通過C/C++語言實現。平臺運行環境如下。
計算機配置:操作系統為MicrosoftWindows11專業版;內存為LPDDR4x16.0GB,3733MHz;CPU為11thGenIntel(R)Core(TM)i5-11300H@3.10GHz,四核,8線程;內置固態硬盤為512GB,M.2接口;外置移動硬盤為4TB,5400rpm,USB接口;顯卡為Intel(R)Iris(R)XeGraphics集成顯卡,128M。
為了方便對比測試,在上述電腦上配置兩臺不同配置的虛擬機,操作系統為Win10專業版,具體如下。
虛擬機1:內存為8.0GB;CPU為4核;外置固態硬盤大小為160GB;虛擬機2:內存為4.0GB;CPU為2核;外置移動機械硬盤大小為160GB。
算法程序以4景高分三號全極化條帶I數據和2景精細條帶II數據(數據清單如表1所示)進行轉換,先通過標準數據測試,虛擬機1每處理1GB平均花費時間為10.389s,虛擬機2每處理1GB花費時間約為258.011s,2臺虛擬機的性能相差約24.8倍。不同算法和不同運行策略下的性能結果如表2所示。經驗證本文算法轉換后的全極化條帶I數據結果與PolSARpro軟件生成的結果一致,精細條帶II類似,表明算法真實可靠。
運行效率分析:采用不同配置的雙機環境下,基于負載均衡的方法在處理6景在極端條件下共花費約1758.532s,雖然每臺虛擬機都是分配3景,但因配置不同,計算花費的時間不同,差距較大。而本文采用基于MS-MPI、MapReduce和OpenMP混合編程的自適應負載均衡方法也同樣處理6景共耗時只需約138.832s,即通過數據和計算能力自適應負載均衡策略,第一臺性能好的虛擬機分配5景測試數據,另一臺性能差的虛擬機僅分配1景測試數據,實現每臺虛擬機處理基本負載均衡。因此,雙機分布式環境下,引入自適應負載均衡節約了1619.7s,性能提升了約12.7倍,效果顯著。本文旨在充分利舊,根據數據的偏斜以及機器性能自適應分配合適的MPI計算實例,實現了更快的計算結果。
4結語
本文通過簡化計算公式提出了一種基于MPI、MapReduce和OpenMP高分三號數據分布式自適應負載均衡并行轉換算法。該算法已在地理信息系統開發平臺KingMapV10.5上編程實現并進行實際數據測試,驗證了算法的可靠性、準確性、高效性、易擴展性、硬件配置自適應和抗數據偏斜能力。當然,本文也存在不足之處,因硬件利舊,發生故障的可能性更大,有待考慮異常處理等問題,將在另文討論。
參考文獻
[1] 張未,劉錦洋,張蘭蘭,等.03星發射高分三號系列衛星織就太空“天眼網”[N].科技日報,2022-04-08(1).
[2] 國家國防科技工業局重大專項工程中心,國家航天局對地觀測與數據中心.2018中國高分衛星應用國家報告(共性產品卷)[M].北京:國防科工局重大專項工程中心,2018.
[3] POTTIERE.PolSARprov6.0(BiomassEdition)Software[EB/OL].(2021-05-01)[2024-04-26].https://ietr-lab.univ-rennes1.fr/polsarpro-bio/.
[4] 陳云,鞠佳衡,林偉木,等.一種高分三號復數散射矩陣數據快速轉換算法[J].測繪與空間地理信息,2022,45(3):50-52.
[5] 陳云.基于OpenMP的高分三號數據并行轉換算法[J].測繪與空間地理信息,2022,45(6):85-86,91.
[6] 陳云.基于MPI和OpenMP混合編程的高分三號數據分布式并行轉換算法[J].測繪與空間地理信息,2024,47(2):43-45,49.
[7] 陳云.基于MapReduce的VCT3.0多圖層面間接線并行構建算法[J].測繪地理信息,2022,47(3):157-160.