蘇立偉 劉振華 杜禮鋒 伊思諾 曾曉鋒



摘 要:針對Spark計算框架處理規(guī)模急劇增長的大數(shù)據(jù)時,處理速度會明顯減慢,無法滿足電力大數(shù)據(jù)分析的實時性處理需求的問題,提出了一種基于GPU與Spark計算框架的電力大數(shù)據(jù)分析算法.將GPU的并行處理結(jié)合到Spark計算平臺上以提升電力大數(shù)據(jù)處理的效率,并通過構(gòu)建排隊模型來最大化該計算框架的性能.仿真結(jié)果表明,所提出的算法具有一定的精確性和有效性,且加入GPU計算后能夠明顯提升數(shù)據(jù)處理速度,可以滿足大規(guī)模數(shù)據(jù)處理的實時性需求.
關(guān) 鍵 詞:電力大數(shù)據(jù);分布式計算;并行計算;排隊模型;并行數(shù)據(jù);開關(guān)柜;超聲波;實時性
中圖分類號:TM76 文獻標志碼:A 文章編號:1000-1646(2023)04-0371-05
隨著智能電網(wǎng)的快速建設(shè)與發(fā)展,大量的電網(wǎng)基礎(chǔ)設(shè)施和數(shù)以億計的智能電表產(chǎn)生了海量的電力數(shù)據(jù)[1].使用信息技術(shù)對電力大數(shù)據(jù)進行處理與分析,是目前電網(wǎng)智能化和電力行業(yè)信息化發(fā)展的必然要求[2-3].
目前,世界各國根據(jù)電力大數(shù)據(jù)海量化、多樣化、價值化與快速化的特性,構(gòu)建了多種大數(shù)據(jù)處理平臺,如以Zookeeper、Hbase與Hive等軟件為核心的Hadoop生態(tài)系統(tǒng)[4-6].Hadoop系統(tǒng)的核心技術(shù)是使用MapReduce編程框架進行數(shù)據(jù)分發(fā)與計算,該框架需要將計算結(jié)果存儲到硬盤,會產(chǎn)生較高的計算延遲、遺落與錯誤.因此,Spark計算框架[7-10]應(yīng)運而生,該框架通過基于內(nèi)存的計算模式實現(xiàn)大數(shù)據(jù)的交互查詢、流式計算與批處理,然而當數(shù)據(jù)規(guī)模急劇增長時,Spark計算框架的數(shù)據(jù)處理速度會明顯減慢,無法滿足電力大數(shù)據(jù)分析的實時性處理需求[11-13].
隨著CUDA與GPU技術(shù)的發(fā)展成熟,越來越多的人開始嘗試在Spark平臺上整合GPU的并行處理能力,通過利用GPU資源來提升大數(shù)據(jù)處理效率[14].其中,CuSpark[15]與SparkCL[16]是具有代表性的兩個項目,它們均在一定程度上實現(xiàn)了GPU與CPU的混合并行計算.CuSpark通過抽象管線將數(shù)據(jù)劃片存儲到內(nèi)存或顯存中;SparkCL則結(jié)合JaveCL技術(shù),將Java字節(jié)碼轉(zhuǎn)換為OpenCL支持的運算語言以供GPU使用.