基于ＧＰＵ＋Ｓｐａｒｋ的電力大數(shù)據(jù)分析算法

2023-04-29 09:09:10蘇立偉劉振華杜禮鋒伊思諾曾曉鋒

沈陽工業(yè)大學學報 2023年4期

蘇立偉劉振華杜禮鋒伊思諾曾曉鋒

摘要：針對Ｓｐａｒｋ計算框架處理規(guī)模急劇增長的大數(shù)據(jù)時，處理速度會明顯減慢，無法滿足電力大數(shù)據(jù)分析的實時性處理需求的問題，提出了一種基于ＧＰＵ與Ｓｐａｒｋ計算框架的電力大數(shù)據(jù)分析算法．將ＧＰＵ的并行處理結(jié)合到Ｓｐａｒｋ計算平臺上以提升電力大數(shù)據(jù)處理的效率，并通過構(gòu)建排隊模型來最大化該計算框架的性能．仿真結(jié)果表明，所提出的算法具有一定的精確性和有效性，且加入ＧＰＵ計算后能夠明顯提升數(shù)據(jù)處理速度，可以滿足大規(guī)模數(shù)據(jù)處理的實時性需求．

關(guān) 鍵詞：電力大數(shù)據(jù)；分布式計算；并行計算；排隊模型；并行數(shù)據(jù)；開關(guān)柜；超聲波；實時性

中圖分類號：ＴＭ７６文獻標志碼：Ａ文章編號：１０００－１６４６（２０２３）０４－０３７１－０５

隨著智能電網(wǎng)的快速建設(shè)與發(fā)展，大量的電網(wǎng)基礎(chǔ)設(shè)施和數(shù)以億計的智能電表產(chǎn)生了海量的電力數(shù)據(jù)［１］．使用信息技術(shù)對電力大數(shù)據(jù)進行處理與分析，是目前電網(wǎng)智能化和電力行業(yè)信息化發(fā)展的必然要求［２－３］．

目前，世界各國根據(jù)電力大數(shù)據(jù)海量化、多樣化、價值化與快速化的特性，構(gòu)建了多種大數(shù)據(jù)處理平臺，如以Ｚｏｏｋｅｅｐｅｒ、Ｈｂａｓｅ與Ｈｉｖｅ等軟件為核心的Ｈａｄｏｏｐ生態(tài)系統(tǒng)［４－６］．Ｈａｄｏｏｐ系統(tǒng)的核心技術(shù)是使用ＭａｐＲｅｄｕｃｅ編程框架進行數(shù)據(jù)分發(fā)與計算，該框架需要將計算結(jié)果存儲到硬盤，會產(chǎn)生較高的計算延遲、遺落與錯誤．因此，Ｓｐａｒｋ計算框架［７－１０］應(yīng)運而生，該框架通過基于內(nèi)存的計算模式實現(xiàn)大數(shù)據(jù)的交互查詢、流式計算與批處理，然而當數(shù)據(jù)規(guī)模急劇增長時，Ｓｐａｒｋ計算框架的數(shù)據(jù)處理速度會明顯減慢，無法滿足電力大數(shù)據(jù)分析的實時性處理需求［１１－１３］．

隨著ＣＵＤＡ與ＧＰＵ技術(shù)的發(fā)展成熟，越來越多的人開始嘗試在Ｓｐａｒｋ平臺上整合ＧＰＵ的并行處理能力，通過利用ＧＰＵ資源來提升大數(shù)據(jù)處理效率［１４］．其中，ＣｕＳｐａｒｋ［１５］與ＳｐａｒｋＣＬ［１６］是具有代表性的兩個項目，它們均在一定程度上實現(xiàn)了ＧＰＵ與ＣＰＵ的混合并行計算．ＣｕＳｐａｒｋ通過抽象管線將數(shù)據(jù)劃片存儲到內(nèi)存或顯存中；ＳｐａｒｋＣＬ則結(jié)合ＪａｖｅＣＬ技術(shù)，將Ｊａｖａ字節(jié)碼轉(zhuǎn)換為ＯｐｅｎＣＬ支持的運算語言以供ＧＰＵ使用．