
摘要:為了批量高效處理高分三號數據,搭建混合新舊不同性能服務器的分布式集群,考慮舊設備運行時可能產生故障率高問題,提出了一種高分三號數據按PolSARpro軟件的數據格式要求處理的分布式穩健自適應負載均衡并行轉換算法,給出了一組穩健策略和方法,將高分三號多極化數據快速精確定標及格式轉換,能夠抗數據偏斜,具備硬件環境自適應,提升系統魯棒性,并且通過KingMap"V10.0平臺實現了算法并在實際數據中進行測試,驗證了算法的穩定性、高效性和正確性。
關鍵詞:高分三號""自適應""穩健""消息傳遞接口""分布式集群
Distributed"Robust"Adaptive"Load"Balancing"Parallel"Conversion"Algorithm"for"GF-3"Data
GAO"Mingyang1*""ZHANG"Ruming2""WENG"Jingming1""ZHOU"Futong2""SONG"Yueming1
1."Hulunbeir"Smart"City"Development"Research"Institute,"Hulunbeir,"Inner"Mongolia"Autonomous"Region,"021000"China;"2."Hulunbeir"Big"Data"Center,"Hulunbeir,"Inner"Mongolia"Autonomous"Region,"021000"China
Abstract:In"order"to"efficiently"process"GF-3"data"in"batches,"a"distributed"cluster"of"mixed"old"and"new"servers"with"different"performance"is"built."Considering"the"high"failure"rate"of"old"devices"during"operation,"this"paper"proposes"a"distributed"robust"adaptive"load"balancing"parallel"conversion"algorithm"for"GF-3"data"processing"according"to"the"data"format"requirements"of"PolSARpro"software."A"set"of"robust"strategies"and"methods"are"given"to"quickly"and"accurately"calibrate"and"format"the"GF-3"multipolar"data,"which"can"resist"data"skew,"have"hardware"environment"adaptability,"and"improve"system"robustness."And"the"algorithm"is"implemented"on"the"KingMap"V10.0"platform"and"tested"on"real"data"to"verify"its"stability,"efficiency,"and"correctness.
Key"Words:"GF-3;"Adaptive;"Robust;"Message"passing"interface;"Distributed"cluster
高分三號03星于2022年4月成功發射,中國邁入雷達衛星“三星組網”時代[1]。高分三號能夠實現全天時、全天候的海洋和陸地監視監測,是我國實施海洋開發、防災減災和陸地環境資源監測的重要技術支撐[2]。PolSARpro[3]是一款著名的免費開源處理軟件,當前已具備高分三號數據的導入處理,但數據轉換效率相對較低。陳云等人[4-6]給出了較高效的轉換算法。史超等人[7]給出了更高效的分布式多重并行轉換算法。張如明等人[8]給出了較高效的多模數據分布式并行轉換算法。邱祥峰等人[9]采用自適應負載均衡方法,較好地實現了硬件自適應和數據偏斜問題。然而,現有高分三號轉換算法都未考慮分布式利舊情形下的運行穩定性問題。因此,本文提出了高分三號分布式穩健自適應負載均衡并行轉換方法:先給出了一組穩健策略和方法,再通過實際數據和故障實例進行前后性能對比分析,驗證算法的高效性、魯棒性和正確性,表明本文方法可以更穩健地解決上述問題。
1算法原理
本文主要針對高分三號數據L1A產品,根據陳云[6]的簡化推導,得出中間參數,計算公式如下。
式(1)中,可通過元數據文件字段獲取,表示該景影像量化前的最大值;CalibrationConst可通過元數據文件CalibrationConst字段獲取,表示該景影像的雷達散射的定標系數。
則有實部后向散射系數和虛部后向散射系數的計算公式分別如公式(2)和(3),其中,1A級產品的實部和虛部分別是和。
假設分布式集群環境中K臺服務器(虛擬機)的資源池,啟動K個smpd管理器。在實際應用中,可以通過mpiexec創建M個MPI實例,通常每臺服務器上可以創建多個MPI實例。特別地,當每臺服務器創建1個MPI實例時,則有M=K。假定共有N景高分三號數據,對于任何一景高分三號數據,可以分配給任意1個MPI實例,分配復雜度是,屬于NP難問題。邱祥峰等人[9]提出一種自適應高效分配方案與自適應算法,能夠較快解決上述問題。本文結合穩健策略的算法如下文所述。
2算法設計
為了處理運行過程中的異常情況下,本文在存儲和處理任務基礎上設計計算單元資源池和任務監控模塊。無論新舊設備,都把服務器虛擬化形成計算單元資源池,通過監控計算單元資源池,及時發現故障設備,如發現存儲達到快滿臨界并進行預警處理等。除了從外部監測設備狀態外,還可以監測任務運行狀態與具體各景數據處理完成情況,及時重新調整和應用對應穩健策略,從而順利完成各項高分三號數據轉換處理任務。具體穩健策略如下。
(1)當某個MPI實例出現內部不可恢復故障造成Abort退出時,造成整個批處理任務都失敗,則剔除MPI故障實例,刨除已處理完成的高分三號數據,剩余的高分三號數據按照自適應算法重新進行分配。
(2)當某個子smpd管理器出現異常時,主smpd和其他子smpd管理器繼續正常執行直至處理完成。通常情況下,當正常MPI實例處理完成后,主smpd管理器的rank=0號MPI實例會繼續等待,直到超時Abort退出為止。對于分配給異常子smpd管理器的高分三號數據,除了該異常smpd擁有的MPI實例已處理完成的高分三號數據外,剩余的高分三號數據按照自適應算法重新分配給未出現異常的smpd的計算資源池再創建的MPI實例。
(3)當主smpd管理器出現異常時,所有子smpd管理器繼續正常執行直至處理完成。對于分配給異常主smpd管理器的高分三號數據,除了該異常主smpd管理器擁有的MPI實例已處理完成的高分三號數據外,剩余的高分三號數據按照自適應算法重新分配給未出現異常的smpd的計算資源池再創建的MPI實例。
(4)對于(利舊)計算單元發生硬件故障等情形下,往往影響到smpd管理器的正常運行時,則視同smpd管理器異常,處理方法如上。
3算法實例
通過KingMap"V10.0進行驗證,平臺通過C/C++語言實現。平臺運行環境如下。
計算機配置:操作系統為Win11"專業版;內存為LPDDR4x"16.0"GB,3733MHz;CPU為11th"Gen"Intel(R)"Core(TM)"i5-11300H"@"3.10GHz,四核8線程;內置固態硬盤為512GB,M.2接口;外置移動固態硬盤為2"TB,Type-C接口;顯卡為Intel(R)"Iris(R)"Xe"Graphics集成顯卡,128M。
為了方便對比測試,不妨在上述電腦上配置三臺不太一樣的虛擬機,具體如下:
虛擬機1配置:Windows"10"專業版;內存為4.0"GB;CPU為2核;內置固態硬盤大小為160"GB。虛擬機2和虛擬機3相同配置復用虛擬機1,不同之處僅為外置固態硬盤。
算法程序:以3景精細條帶I數據和3景精細條帶II數據(數據清單如表1所示)進行轉換,先采用標準數據測試,虛擬機1處理1"GB花費時間約為6.50"s,虛擬機2和虛擬機3處理1"GB花費時間大約為11.89"s。不同算法和不同策略情形下的性能結果如表2所示。經驗證,本文算法轉換后的結果與張如明等人[8]的運行結果一致,表明算法真實、可靠。
運行效率分析:采用不太一樣配置的三機環境下,基于自適應算法在處理6景時共花費約144.14"s。根據表2,3臺虛擬機分配的景數不太一樣:虛擬機1性能最好,分配了4景數據;虛擬機2和虛擬機3各分配了1景數據。因此,自適應算法充分考慮了硬件性能的不同。同時,結合表1中不同模式下各景數據量大小不盡相同,自適應算法從中也已考慮了數據的偏斜問題。本文為了模擬舊服務器經常存在故障問題,不妨假設虛擬機2在運行過程中存在故障,此時,虛擬機池中只剩下正常虛擬機1和虛擬機3,已分配給虛擬機1和虛擬機3的數據則繼續處理;對于原分配給虛擬機2的未處理完成的景2數據,自動根據自適應算法重新把景2數據分配給虛擬機1,結果處理的時間大概是159.24"s。本文算法在虛擬機2故障條件下雖然時間比正常條件下多花費了10.5%,但也保障了全部數據的處理完成,提升了自適應算法的魯棒性。因此,本文針對舊設備存在的故障率較高問題有較好的解決方案,在混合新舊設備環境中更具穩健性。
4結語
本文通過簡化計算公式提出了一種基于OpenMP、MPI和MapReduce"高分三號數據分布式穩健自適應負載均衡并行轉換算法。該算法已在KingMap"V10.0上編程實現并進行實際數據測試,驗證了算法的硬件配置自適應性、準確性、健壯性和高效性。
參考文獻
[1]張蕾,張蘭蘭,劉錦洋.數說“太空全能神探”[N].光明日報,2022-04-08(008).
[2]"國家國防科技工業局重大專項工程中心,國家航天局對地觀測與數據中心."2018中國高分衛星應用國家報告(共性產品卷)[M]."北京:國防科工局重大專項工程中心,2018.
[3]"POTTIER"E."PolSARpro"v6.0"(Biomass"Edition)"Software[EB/OL].(2021-05-01)[2024-08-20]."https://ietr-lab.univ-rennes1.fr/polsarpro-bio/.
[4]"陳云,鞠佳衡,林偉木,等."一種高分三號復數散射矩陣數據快速轉換算法[J].測繪與空間地理信息,2022,"45(3):50-52.
[5]"陳云.基于OpenMP的高分三號數據并行轉換算法[J].測繪與空間地理信息,2022,"45(6):85-86,91,95.
[6]"陳云.基于MPI和OpenMP混合編程的高分三號數據分布式并行轉換算法[J].測繪與空間地理信息,2024,"47(2):"43-45,49.
[7]"史超,蔡源浩,陳超,等."基于MPI、MapReduce和OpenMP混合編程的高分三號數據分布式并行轉換算法[J].科技資訊,2024,22(13):17-20.
[8]"張如明,蔡劍英,王錫航,等."基于MPI和MapReduce混合編程的高分三號多模數據分布式并行轉換算法[J].科技資訊,2024,22(14):34-36.
[9]"邱祥峰,宋躍明,陳云."GF-3數據分布式自適應負載均衡方法、并行轉換方法及系統:CN202410441789.8[P]."2024-07-12.