ODPS平臺(tái)下的電力設(shè)備監(jiān)測(cè)大數(shù)據(jù)存儲(chǔ)與并行處理方法

2017-05-16 01:08:11朱永利宋亞奇王劉旺

電工技術(shù)學(xué)報(bào) 2017年9期

關(guān)鍵詞：分析

朱永利李莉宋亞奇王劉旺

(華北電力大學(xué)控制與計(jì)算機(jī)工程學(xué)院保定 071003)

ODPS平臺(tái)下的電力設(shè)備監(jiān)測(cè)大數(shù)據(jù)存儲(chǔ)與并行處理方法

朱永利李莉宋亞奇王劉旺

(華北電力大學(xué)控制與計(jì)算機(jī)工程學(xué)院保定 071003)

計(jì)算性能是制約電力大數(shù)據(jù)應(yīng)用(基于大數(shù)據(jù)的故障診斷、預(yù)測(cè)等)的關(guān)鍵問(wèn)題。利用分布式存儲(chǔ)、并行計(jì)算加速此類數(shù)據(jù)密集型應(yīng)用是目前較有效的手段。嘗試?yán)冒⒗镌崎_(kāi)放數(shù)據(jù)處理服務(wù)(ODPS)存儲(chǔ)并加速電力設(shè)備監(jiān)測(cè)大數(shù)據(jù)分析過(guò)程。以變壓器局部放電(PD)數(shù)據(jù)相位圖譜分析(PRPD)為例，提出了適合高采樣率、時(shí)序性強(qiáng)的局部放電信號(hào)數(shù)據(jù)存儲(chǔ)方法。采用ODPS擴(kuò)展MapReduce模型(MR2)設(shè)計(jì)了“Map-Reduce-Reduce”方式的PD信號(hào)宏觀特征提取方法，提出了并行化PRPD分析算法(ODPS-PRPD)，實(shí)現(xiàn)了大量PD信號(hào)的并行基本參數(shù)提取、統(tǒng)計(jì)特征計(jì)算與放電類型識(shí)別。在實(shí)驗(yàn)室中構(gòu)造了4種放電模型并采集了大量PD信號(hào)，分別在ODPS平臺(tái)上和實(shí)驗(yàn)室自建的Hadoop平臺(tái)上進(jìn)行了性能評(píng)估和成本分析。實(shí)驗(yàn)分析和結(jié)果表明，ODPS-PRPD將大量的中間過(guò)程數(shù)據(jù)(PD譜圖數(shù)據(jù)等)一直保存在內(nèi)存中，相比自建Hadoop MapReduce平臺(tái)性能明顯提升，并在數(shù)據(jù)可靠性、服務(wù)可用性以及成本方面具有明顯優(yōu)勢(shì)。

電力大數(shù)據(jù) 公有云開(kāi)放數(shù)據(jù)處理服務(wù) 擴(kuò)展MapReduce模型局部放電局部放電相位圖譜分析

0 引言

近年來(lái)，隨著信息化與電力系統(tǒng)深度融合以及物聯(lián)網(wǎng)技術(shù)的快速發(fā)展，智能化電力一次設(shè)備和常規(guī)電力設(shè)備的在線監(jiān)測(cè)都得到了較大發(fā)展并成為趨勢(shì)，監(jiān)測(cè)的廣度和深度在不斷加強(qiáng)，監(jiān)測(cè)數(shù)據(jù)的體量日益龐大[1]。傳統(tǒng)監(jiān)測(cè)裝置和監(jiān)測(cè)系統(tǒng)大多對(duì)采集數(shù)據(jù)就地處理再將“熟數(shù)據(jù)”上傳到監(jiān)測(cè)中心。但從國(guó)際監(jiān)測(cè)領(lǐng)域的發(fā)展趨勢(shì)而言，采集數(shù)據(jù)的處理已開(kāi)始從就地監(jiān)測(cè)裝置向遠(yuǎn)方監(jiān)控系統(tǒng)上移，如GE公司對(duì)于眾多汽輪發(fā)電機(jī)組的監(jiān)測(cè)，近期采用了監(jiān)測(cè)裝置的存儲(chǔ)與處理能力弱化、監(jiān)測(cè)中心的存儲(chǔ)與處理能力提升的方式，有利于上層應(yīng)用軟件的及時(shí)更新[2]。鑒于高速光纖數(shù)據(jù)網(wǎng)和無(wú)線傳輸已在電力行業(yè)廣泛普及，下一代電力設(shè)備遠(yuǎn)程監(jiān)測(cè)系統(tǒng)需要獲取和傳輸?shù)臄?shù)據(jù)主流應(yīng)當(dāng)是原始監(jiān)測(cè)數(shù)據(jù)。

大數(shù)據(jù)蘊(yùn)含大價(jià)值。大數(shù)據(jù)的存在引導(dǎo)人們研究“數(shù)據(jù)密集型”的應(yīng)用系統(tǒng)[3]，與大數(shù)據(jù)交互，識(shí)別新模式，發(fā)現(xiàn)新規(guī)律?！皵?shù)據(jù)密集型”計(jì)算的性能直接與數(shù)據(jù)規(guī)模相關(guān)，大數(shù)據(jù)計(jì)算面臨著前所未有的技術(shù)挑戰(zhàn)[4]。近年來(lái)，并行與分布式計(jì)算系統(tǒng)(多核計(jì)算、網(wǎng)格計(jì)算、云計(jì)算等)以及并行編程模型(MapReduce、MPI等)在加速數(shù)據(jù)密集型計(jì)算中扮演著重要角色，典型的技術(shù)包括Google MapReduce[5]、Hadoop[6]、Swift[7]、DataCutter[8]、DryadLINQ/Dryad[9，10]、并行數(shù)據(jù)庫(kù)(如Vertica、Teradata等)[11，12]、AWS Cloud[13]、阿里云開(kāi)放數(shù)據(jù)處理服務(wù)(Open Data Processing Service，ODPS)[14]等，它們已經(jīng)在商業(yè)、金融、互聯(lián)網(wǎng)以及生物計(jì)算、工業(yè)監(jiān)測(cè)等許多領(lǐng)域承擔(dān)著數(shù)據(jù)密集型應(yīng)用的計(jì)算任務(wù)。

在電力行業(yè)，Hadoop大數(shù)據(jù)處理技術(shù)憑借其高可靠性和優(yōu)越的并行數(shù)據(jù)處理能力越來(lái)越受到學(xué)術(shù)界和企業(yè)界的重視?；贖adoop的應(yīng)用研究廣泛而深入，包括狀態(tài)監(jiān)測(cè)大數(shù)據(jù)存儲(chǔ)[15-17]、電力用戶消費(fèi)數(shù)據(jù)分析[18]、信號(hào)去噪[19]、數(shù)據(jù)壓縮[20]、電能質(zhì)量數(shù)據(jù)快速分析[21]、狀態(tài)監(jiān)測(cè)數(shù)據(jù)聚類分析[22，23]、配電網(wǎng)數(shù)據(jù)分析[24]、基于云平臺(tái)的并行電磁計(jì)算[25]等。本文在前期的研究中，在實(shí)驗(yàn)室自建了Hadoop平臺(tái)，開(kāi)展了輸變電設(shè)備狀態(tài)監(jiān)測(cè)數(shù)據(jù)存儲(chǔ)優(yōu)化、數(shù)據(jù)并行分析等方面的研究，遇到的主要問(wèn)題和面臨的技術(shù)挑戰(zhàn)主要包括：

1)硬件限制：大多數(shù)學(xué)者的前期研究中，均采用了自建的Hadoop平臺(tái)，存儲(chǔ)和計(jì)算資源有限。

2)并行程序框架限制：Hadoop的MapReduce在每一輪操作之后，數(shù)據(jù)必須存儲(chǔ)到分布式文件系統(tǒng)上或者HBase，接下去的Map任務(wù)執(zhí)行了冗余的IO操作，導(dǎo)致性能下降。

3)受規(guī)模、維護(hù)方面的影響，數(shù)據(jù)可靠性、服務(wù)可用性降低。

4)前期需要購(gòu)買大量硬件，成本較高。

總而言之，構(gòu)建“數(shù)據(jù)密集型”的電力大數(shù)據(jù)應(yīng)用系統(tǒng)，需要協(xié)調(diào)很多計(jì)算和存儲(chǔ)資源，高效地接入和保存大范圍、多尺度的監(jiān)測(cè)數(shù)據(jù)，并使系統(tǒng)長(zhǎng)時(shí)間保持安全可靠的運(yùn)行狀態(tài)，這對(duì)數(shù)據(jù)存儲(chǔ)與分析平臺(tái)提出了較高的性能要求，而自建Hadoop平臺(tái)不易滿足。

公有云計(jì)算平臺(tái)以按需租用的方式，將用戶從硬件采購(gòu)、組網(wǎng)、平臺(tái)搭建、系統(tǒng)軟硬件維護(hù)中解脫出來(lái)，將存儲(chǔ)資源、計(jì)算資源以Web Service的方式封裝，并對(duì)外售賣，使用戶可以專心于構(gòu)建系統(tǒng)的業(yè)務(wù)邏輯。由于有龐大的研發(fā)和維護(hù)團(tuán)隊(duì)，目前商業(yè)阿里云平臺(tái)在存儲(chǔ)容量、計(jì)算性能、可靠性、擴(kuò)展性、可維護(hù)性等諸多方面已遠(yuǎn)遠(yuǎn)超出許多學(xué)者或團(tuán)隊(duì)自建的云平臺(tái)。

本文嘗試?yán)冒⒗镌芆DPS存儲(chǔ)并加速電力大數(shù)據(jù)分析過(guò)程。利用ODPS的擴(kuò)展MapReduce模型(MR2)設(shè)計(jì)了“Map-Reduce-Reduce”模式的局部放電(Partial Discharge，PD)信號(hào)宏觀特征提取方法，實(shí)現(xiàn)了海量PD信號(hào)的并行統(tǒng)計(jì)特征計(jì)算與放電類型識(shí)別。實(shí)驗(yàn)結(jié)果表明，本文方法相比于Hadoop MapReduce在計(jì)算效率上明顯提升，并在數(shù)據(jù)可靠性、服務(wù)可用性以及成本方面具有明顯優(yōu)勢(shì)。

1 ODPS開(kāi)放數(shù)據(jù)處理服務(wù)

開(kāi)放數(shù)據(jù)處理服務(wù)ODPS是阿里云提供的海量數(shù)據(jù)處理平臺(tái)。主要服務(wù)于批量結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和計(jì)算，數(shù)據(jù)規(guī)模達(dá)PB級(jí)別。ODPS目前已在大型互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)倉(cāng)庫(kù)和BI(Business Intelligence)分析、網(wǎng)站的日志分析、電子商務(wù)網(wǎng)站的交易分析、用戶特征和興趣挖掘等領(lǐng)域得到大規(guī)模應(yīng)用。

ODPS相對(duì)于自建Hadoop平臺(tái)，優(yōu)勢(shì)主要體現(xiàn)在兩方面。首先，ODPS具有彈性伸縮的特性。每次計(jì)算任務(wù)使用的硬件資源隨處理的數(shù)據(jù)量不同自動(dòng)伸縮，這使得并行任務(wù)的執(zhí)行性能非常平穩(wěn)；其次，ODPS提供了擴(kuò)展MapReduce模型MR2，可以在Reduce后面直接執(zhí)行下一次的Reduce操作，而不需要中間插入一個(gè)Map操作?？梢灾С諱ap后連接任意多個(gè)Reduce操作，比如Map-Reduce1-Reduce2-…Reducen，每一次Reduce的輸出，作為下一次Reduce的輸入，中間結(jié)果始終保持在內(nèi)存中，形成高效的處理鏈路。另外，ODPS還具備易擴(kuò)展、免維護(hù)、低成本等諸多優(yōu)勢(shì)，適合用于電力設(shè)備監(jiān)測(cè)大數(shù)據(jù)的存儲(chǔ)和處理。

ODPS的生態(tài)圈完整，包含數(shù)據(jù)上傳下載通道、SQL及MapReduce等多種計(jì)算分析服務(wù)接口，其功能組件如圖1所示。

圖1 ODPS框架和功能組件Fig.1 Framework and functional components of ODPS

2 PD數(shù)據(jù)存儲(chǔ)與PRPD并行分析

2.1 PRPD分析及改進(jìn)

局部放電相位圖譜分析(Phase Resolved Partial Discharge，PRPD)將多個(gè)工頻周期內(nèi)監(jiān)測(cè)所得的局部放電參數(shù)(放電次數(shù)n、視在放電量q或放電幅值及放電所在相位φ)折算到一個(gè)工頻周期內(nèi)，計(jì)算其統(tǒng)計(jì)規(guī)律性，獲取放電譜圖，統(tǒng)計(jì)放電特征，用于模式識(shí)別。

針對(duì)局部放電波形相位信息n-q-φ參數(shù)的提取，傳統(tǒng)方法多采用固定閾值(縱閾值)對(duì)信號(hào)幅值進(jìn)行判斷來(lái)確定是否存在放電，即鑒幅法。鑒幅法雖然簡(jiǎn)單，但結(jié)果也很粗糙，易對(duì)振蕩的放電脈沖重復(fù)計(jì)數(shù)，因此，本文對(duì)此提出一種改進(jìn)方法，在信號(hào)時(shí)間軸上增加另一種閾值(橫閾值)來(lái)度量放電間隔，避免重復(fù)計(jì)數(shù)，另外，對(duì)上述兩種閾值提出采用最大類間方差[26]根據(jù)波形特征進(jìn)行自適應(yīng)計(jì)算，算法過(guò)程描述見(jiàn)表1。

表1 基于改進(jìn)鑒幅法的n-q-φ參數(shù)提取

局放監(jiān)測(cè)采樣速率高，數(shù)據(jù)量大，提取n-q-φ參數(shù)過(guò)程、計(jì)算譜圖過(guò)程以及模式識(shí)別過(guò)程計(jì)算復(fù)雜度高。傳統(tǒng)PRPD分析在單機(jī)環(huán)境下執(zhí)行，受存儲(chǔ)容量和處理能力限制，只能在采集到若干越限的放電信號(hào)數(shù)據(jù)后進(jìn)行就地分析，把分析結(jié)果再上傳監(jiān)測(cè)中心，監(jiān)測(cè)中心就無(wú)法收集并保存局部放電監(jiān)測(cè)原始數(shù)據(jù)。因此，本文試圖基于ODPS平臺(tái)建立電力設(shè)備監(jiān)測(cè)中心的數(shù)據(jù)存儲(chǔ)和分析平臺(tái)，解決局放監(jiān)測(cè)大數(shù)據(jù)存儲(chǔ)的問(wèn)題。然而，監(jiān)測(cè)中心需要收集眾多的電力設(shè)備的監(jiān)測(cè)數(shù)據(jù)(包括放電信號(hào))，為此必須找出快速的數(shù)據(jù)并行分析方法。

2.2 基于ODPS的并行PRPD分析整體流程

為了應(yīng)對(duì)多監(jiān)測(cè)源和大數(shù)據(jù)量的挑戰(zhàn)，本文設(shè)計(jì)實(shí)現(xiàn)了在ODPS平臺(tái)并行化的PRPD分析，其整體流程如圖2所示。

圖2 并行PRPD分析整體流程Fig.2 Process of parallel PRPD analysis

分析流程主要包括3個(gè)過(guò)程：①基本參數(shù)n-q-φ的提??；②譜圖構(gòu)造和統(tǒng)計(jì)特征計(jì)算[27]；③放電類型識(shí)別。本文選擇K近鄰(K-Nearest Neighbor，KNN)方法[28]進(jìn)行放電類型識(shí)別。KNN算法的基本思想是：如果一個(gè)樣本在特征空間中的K個(gè)最相似的樣本中的大多數(shù)屬于某一個(gè)類別，則該樣本也屬于這個(gè)類別，算法原理如圖3所示。

圖3 KNN原理示意圖Fig.3 KNN algorithm for classifying objects

KNN方法主要依賴周圍特征相似的有限樣本，不需要事先學(xué)習(xí)建立模型，在新樣本增加時(shí)不需要對(duì)舊模型進(jìn)行新一輪的更新學(xué)習(xí)，可有效避免模型再學(xué)習(xí)帶來(lái)的停機(jī)成本。KNN在實(shí)現(xiàn)上易于實(shí)現(xiàn)數(shù)據(jù)拆分和數(shù)據(jù)并行，非常適合采用MR2模型在ODPS上實(shí)現(xiàn)。分析過(guò)程的輸入來(lái)自O(shè)DPS表和資源，輸出結(jié)果存儲(chǔ)于ODPS表。

ODPS使用表存儲(chǔ)數(shù)據(jù)。PD信號(hào)采樣數(shù)據(jù)(二進(jìn)制dat文件)在上傳至ODPS前，需要轉(zhuǎn)換成文本文件格式(csv文件)。如果數(shù)據(jù)規(guī)模較大，可采用Hadoop MapReduce批量轉(zhuǎn)換，以提高轉(zhuǎn)換性能。

ODPS數(shù)據(jù)接入層對(duì)用戶云賬號(hào)進(jìn)行身份驗(yàn)證，請(qǐng)求處理器(Worker)將并行PRPD實(shí)例(Instance)提交給調(diào)度器(Scheduler)，調(diào)度器把Instance分解成多個(gè)計(jì)算任務(wù)(Task)，并生成Task工作流——DAG圖(Directed Acyclic Graph)。作業(yè)執(zhí)行管理器(Executor)獲取Task，生成分布式作業(yè)描述文件，并提交計(jì)算層完成計(jì)算任務(wù)。

2.3 存儲(chǔ)模式設(shè)計(jì)

ODPS以表(Table)為基本單元存儲(chǔ)數(shù)據(jù)，這與Hadoop的文件系統(tǒng)(HDFS)以文件為單位存儲(chǔ)數(shù)據(jù)有較大的差別，表的模式不能直接套用HDFS文件的格式，需要重新設(shè)計(jì)存儲(chǔ)模式。

在Hadoop下以HDFS文件存儲(chǔ)PD數(shù)據(jù)時(shí)，數(shù)據(jù)的格式不受限制，格式的解析也是自定義實(shí)現(xiàn)，非常靈活。比如，在圖4a中，PD數(shù)據(jù)文件按行存儲(chǔ)采樣數(shù)據(jù)，每行以設(shè)備的ID和采集時(shí)間作為主鍵，后面是一個(gè)工頻周期的采樣數(shù)據(jù)(本文中含80萬(wàn)個(gè)采樣點(diǎn))。在使用MapReduce執(zhí)行分析任務(wù)時(shí)，可以將一行數(shù)據(jù)作為Map函數(shù)的輸入，在Map內(nèi)完成統(tǒng)計(jì)分析。

圖4 數(shù)據(jù)存儲(chǔ)模式設(shè)計(jì)Fig.4 Design of storage scheme

然而，ODPS表的列數(shù)和表格單元的數(shù)據(jù)類型存在限制，列的數(shù)量不能超過(guò)1 024列，表格單元的數(shù)據(jù)類型目前僅支持5種數(shù)據(jù)類型(Bigint，Double，String，Boolean，Datetime)[14]，因此無(wú)法在一行內(nèi)存儲(chǔ)80萬(wàn)個(gè)采樣值。本文設(shè)計(jì)采用多行的方式存儲(chǔ)采樣數(shù)據(jù)，并根據(jù)設(shè)備ID和采集日期設(shè)置分區(qū)列實(shí)現(xiàn)PD數(shù)據(jù)的存儲(chǔ)，如圖4b所示。分區(qū)列的作用是實(shí)現(xiàn)按列快速訪問(wèn)，根據(jù)設(shè)備ID和采樣日期設(shè)計(jì)了2層分區(qū)。ODPS支持根據(jù)分區(qū)列，快速定位到該分區(qū)的數(shù)據(jù)，因而可以有效提升訪問(wèn)性能。

圖4b、圖4d、圖4f分別表示PD信號(hào)采樣數(shù)據(jù)、基本參數(shù)n-q-φ和放電譜圖的ODPS表模式。其中，基本參數(shù)n-q-φ的存儲(chǔ)以一個(gè)工頻周期為單位，存儲(chǔ)放電幅值和放電相位。不同工頻周期內(nèi)，放電次數(shù)不同，因此需要將放電幅值和相位分多行存儲(chǔ)。放電譜圖數(shù)據(jù)在Hadoop MapReduce實(shí)現(xiàn)中，需要存儲(chǔ)到磁盤存儲(chǔ)，而ODPS-PRPD由于支持多個(gè)Reduce的串聯(lián)，所以譜圖數(shù)據(jù)是在內(nèi)存中緩存的，提升了整體的執(zhí)行性能。在圖4f中，設(shè)計(jì)了5列的表記錄放電譜圖。SampleID表示用于完成一次特征計(jì)算的譜圖數(shù)據(jù)的編號(hào)(本文實(shí)驗(yàn)中，選用50條譜圖數(shù)據(jù)進(jìn)行一次宏觀特征統(tǒng)計(jì)，被選中的譜圖數(shù)據(jù)將具有相同的SampleID)，在計(jì)算特征的Map任務(wù)中，作為輸出時(shí)的key。

圖4g表示統(tǒng)計(jì)特征的存儲(chǔ)模式，包含正負(fù)半周期譜圖偏斜度Sk、陡峭度Ku、局部峰點(diǎn)數(shù)Pe、互相關(guān)系數(shù)Cc等。

2.4 ODPS-PRPD算法實(shí)現(xiàn)

2.4.1 MapReduce 任務(wù)鏈

基于ODPS擴(kuò)展MapReduce模型MR2，設(shè)計(jì)了并行PRPD分析算法ODPS-PRPD，實(shí)現(xiàn)了海量PD信號(hào)的并行基本參數(shù)提取、統(tǒng)計(jì)特征計(jì)算與放電類型識(shí)別。ODPS-PRPD各個(gè)子過(guò)程通過(guò)不同形式的MapReduce任務(wù)完成并串聯(lián)，構(gòu)成分析任務(wù)整體，其MapReduce任務(wù)鏈如圖5所示。

圖5 ODPS-PRPD MapReduce任務(wù)鏈Fig.5 ODPS-PRPD MapReduce job chain in detail

2.4.2 格式轉(zhuǎn)換

格式轉(zhuǎn)換是為了將采樣數(shù)據(jù)上傳至ODPS表而做的數(shù)據(jù)預(yù)處理。格式轉(zhuǎn)換的任務(wù)是將二進(jìn)制的特定格式的采樣數(shù)據(jù)(dat文件)轉(zhuǎn)換成ODPS CLI tunnel能夠識(shí)別的文本格式。

2.4.3 統(tǒng)計(jì)參數(shù)n-q-φ提取

提取基本統(tǒng)計(jì)參數(shù)n-q-φ，需要對(duì)采樣數(shù)據(jù)全表進(jìn)行掃描，找到放電過(guò)程，并記錄放電相位和幅值?？梢圆⑿袑?duì)不同的數(shù)據(jù)分塊進(jìn)行掃描，各個(gè)掃描任務(wù)之間不需要交互，適合用MapReduce實(shí)現(xiàn)。

Mapper函數(shù)對(duì)逐條輸入的采樣數(shù)據(jù)，根據(jù)預(yù)先設(shè)定的縱向閾值進(jìn)行數(shù)據(jù)篩選，并將大于閾值的采樣點(diǎn)輸出至Combiner。Combiner是本地(與Mapper在相同的節(jié)點(diǎn))執(zhí)行的匯總，對(duì)Mapper的輸出結(jié)果集合，尋找極值點(diǎn)，并輸出至Reducer進(jìn)行匯總。Combiner有效地分擔(dān)了Reducer的數(shù)據(jù)匯總工作，并且減少了Reducer所在節(jié)點(diǎn)傳輸?shù)臄?shù)據(jù)量，可以有效提升并行計(jì)算過(guò)程的速度。

Reducer函數(shù)負(fù)責(zé)匯總由Combiner輸出的極值點(diǎn)，并使用預(yù)先設(shè)定的橫向閾值進(jìn)行極值點(diǎn)的篩選。如果兩個(gè)極值點(diǎn)距離“很近”(相位差小于橫向閾值)，則認(rèn)為是同一次放電。輸出的結(jié)果存儲(chǔ)于ODPS表。統(tǒng)計(jì)參數(shù)n-q-φ并行計(jì)算的過(guò)程如圖6所示。

圖6 統(tǒng)計(jì)參數(shù)n-q-φ并行提取Fig.6 Parallel extraction of statistical parameters n-q-φ

2.4.4 譜圖構(gòu)造和統(tǒng)計(jì)特征計(jì)算

該過(guò)程接收n-q-φ表的數(shù)據(jù)作為輸入，計(jì)算放電譜圖和統(tǒng)計(jì)特征。為了加快計(jì)算速度，設(shè)計(jì)了Map-Reduce1-Reduce2模式的計(jì)算過(guò)程，使譜圖數(shù)據(jù)作為中間結(jié)果緩存在ODPS分布式內(nèi)存中，而并非保存至ODPS表中，節(jié)約了磁盤讀取的開(kāi)銷。Reduce1和Reduce2的連接使用了ODPS提供的Pipeline完成。

1)Mapper函數(shù)。

將360°的工頻周期均勻劃分相窗，對(duì)M個(gè)工頻周期的PD信號(hào)疊加，按正負(fù)半周期，分窗進(jìn)行統(tǒng)計(jì)分析，輸入輸出接口見(jiàn)表2。本文實(shí)驗(yàn)中，1個(gè)工頻周期含80萬(wàn)個(gè)點(diǎn)(360°)，相窗的數(shù)量取200，則每個(gè)窗的寬度為4 000個(gè)點(diǎn)(800 000/200=4 000)；M取50，意味著統(tǒng)計(jì)1 s(5020 ms=1 s)的放電情況。M值越大，周期越長(zhǎng)，統(tǒng)計(jì)意義就越明顯。

表2 譜圖計(jì)算的Mapper函數(shù)

Mapper輸出記錄的key采用了SampleID+WinID的組合方式，這使得用于同一次統(tǒng)計(jì)分析(相同SampleID)且相窗編號(hào)相同的記錄被發(fā)送至同一個(gè)Reducer1，避免了在Reducer1中區(qū)分不同的相窗，加快了Reducer1計(jì)算速度，并降低數(shù)據(jù)傾斜的概率(MapReduce job鏈中某一環(huán)節(jié)承擔(dān)了較重的計(jì)算任務(wù)，成為性能瓶頸)。

2)Reducer1函數(shù)。

分正負(fù)半周期計(jì)算放電量相位分布譜圖qave-φ和放電次數(shù)相位分布譜圖n-φ，輸入輸出接口見(jiàn)表3。

表3 譜圖計(jì)算的Reducer1函數(shù)

如果取200個(gè)窗，M取50，則qave-φ是200列的表，每列代表1個(gè)窗，窗的編號(hào)可以取1，2，3，…，200。每列的值就是該窗內(nèi)的放電量。50條n-q-φ數(shù)據(jù)，統(tǒng)計(jì)得到1條qave-φ數(shù)據(jù)。由于需要分別統(tǒng)計(jì)放電量峰值、放電總量和平均放電量，按照上述存儲(chǔ)結(jié)構(gòu)，就需要多張表；而且列數(shù)太多(達(dá)到200列，則1行記錄較長(zhǎng))，不利于數(shù)據(jù)并行，因此采用了圖4f的存儲(chǔ)方式，有利于數(shù)據(jù)處理的靈活性和并行性。n-φ的計(jì)算過(guò)程僅需將放電幅值改為放電次數(shù)即可。

3)Reducer2函數(shù)。

按照正負(fù)半周期，分別統(tǒng)計(jì)譜圖的偏斜度Sk、陡峭度Ku、局部峰點(diǎn)數(shù)Pe、互相關(guān)系數(shù)Cc等統(tǒng)計(jì)特征，輸出15維的放電特征向量，輸入輸出接口見(jiàn)表4。偏斜度反映了譜圖形狀相對(duì)于正態(tài)分布形狀的偏斜程度，定義為

(1)

式中，φi為相窗i的相位；μ為均值；σ為標(biāo)準(zhǔn)差。

表4 統(tǒng)計(jì)計(jì)算的Reducer2函數(shù)

陡峭度反映了譜圖形狀相對(duì)于正態(tài)分布形狀的突起程度，定義為

(2)

其他特征量的定義公式見(jiàn)文獻(xiàn)[27]。如果嚴(yán)格按照特征量的計(jì)算公式，則需要對(duì)譜圖數(shù)據(jù)進(jìn)行兩遍掃描。第1遍掃描，統(tǒng)計(jì)計(jì)算出放電量以及放電次數(shù)的均值、方差；第2遍掃描，計(jì)算Sk等統(tǒng)計(jì)特征。在程序?qū)崿F(xiàn)上，可以對(duì)計(jì)算過(guò)程進(jìn)行優(yōu)化，將統(tǒng)計(jì)特征的計(jì)算公式進(jìn)行展開(kāi)化簡(jiǎn)，使公式中的均值、方差展開(kāi)為∑的形式，則可以通過(guò)一次掃描實(shí)現(xiàn)特征的計(jì)算。

2.4.5 放電類型識(shí)別

本文采用KNN算法進(jìn)行放電類型的識(shí)別。樣本用15維統(tǒng)計(jì)特征表示，樣本距離的度量采用歐氏距離。KNN算法需要計(jì)算未知樣本和訓(xùn)練集中已知類別樣本的距離。待識(shí)別數(shù)據(jù)集以O(shè)DPS表的形式分布式存儲(chǔ)于多個(gè)節(jié)點(diǎn)，訓(xùn)練集以O(shè)DPSResource的形式常駐內(nèi)存。目前，ODPSResource的上限是512MB，如果訓(xùn)練集超出此范圍，可以采用“分而治之”的思想，把訓(xùn)練集垂直切分成多分臨時(shí)表，把切分后的每份數(shù)據(jù)作為Resource加載到內(nèi)存中，使用MapJoin的方式和測(cè)試集進(jìn)行連接計(jì)算，選出最鄰近的N個(gè)樣本，判別放電類型。

在實(shí)現(xiàn)上，需要分為2個(gè)MapReduce完成(兩個(gè)MapOnly作業(yè)，均不需要Reduce過(guò)程)，KNN并行化過(guò)程如圖7所示。

圖7 并行化KNN算法Fig.7 A parallel form of KNN

Mapper(KNN)函數(shù)首先循環(huán)加載訓(xùn)練集資源，計(jì)算測(cè)試樣本與訓(xùn)練樣本的距離，選出最近的N個(gè)，輸出類別，輸入輸出接口見(jiàn)表5。

表5 KNN識(shí)別的Mapper函數(shù)

3 實(shí)驗(yàn)分析

3.1 放電實(shí)驗(yàn)數(shù)據(jù)獲取和數(shù)據(jù)預(yù)處理

在實(shí)驗(yàn)室完成了電暈放電、懸浮放電、氣泡放電和油中放電實(shí)驗(yàn)。局部放電信號(hào)采集儀器采用TWPD-2F局部放電綜合分析儀，其最大采樣頻率為40 MHz，而信號(hào)采集傳感器的有效頻帶為40～300 kHz。

為驗(yàn)證ODPS-PRPD算法性能和算法執(zhí)行性能的穩(wěn)定性，選取了不同大小的數(shù)據(jù)集，見(jiàn)表6。其中，數(shù)據(jù)集1x表示1倍數(shù)據(jù)，包含50個(gè)文件(50條局部放電數(shù)據(jù))，本文選用50條局部放電數(shù)據(jù)進(jìn)行一次統(tǒng)計(jì)特征的提取。

數(shù)據(jù)預(yù)處理包括本地存儲(chǔ)、格式轉(zhuǎn)換、清洗和數(shù)據(jù)上傳。采集的局部放電數(shù)據(jù)以二進(jìn)制文件(dat)存儲(chǔ)，每個(gè)文件含1個(gè)工頻周期(20 ms)的采樣數(shù)據(jù)，大小為6251 kb，含4通道，每通道80萬(wàn)個(gè)采樣值。上傳至ODPS之前，需要將二進(jìn)制文件轉(zhuǎn)換成文本格式(csv)文件。使用CLI Tunnel工具進(jìn)行數(shù)據(jù)上傳至ODPS表。使用自建Hadoop平臺(tái)完成格式轉(zhuǎn)換，性能如圖8所示。

表6 數(shù)據(jù)集

圖8 格式轉(zhuǎn)換性能Fig.8 Performance of format conversion

使用CLI Tunnel工具將csv格式數(shù)據(jù)上傳，上傳的性能與客戶端主機(jī)的網(wǎng)絡(luò)狀況直接相關(guān)。筆者使用教育科研網(wǎng)，在學(xué)校實(shí)驗(yàn)室上傳數(shù)據(jù)至ODPS平臺(tái)，上傳速度如圖9所示。

CLI Tunnel默認(rèn)執(zhí)行壓縮上傳，不同數(shù)據(jù)規(guī)模的壓縮比如圖10所示。目前，ODPS使用的壓縮算法壓縮比根據(jù)數(shù)據(jù)類型的不同可達(dá)到2～5倍。本文中實(shí)驗(yàn)數(shù)據(jù)，當(dāng)規(guī)模達(dá)到224 GB(csv文檔)時(shí)壓縮比為4.427。

圖9 數(shù)據(jù)上傳性能Fig.9 Performance of data upload

圖10 數(shù)據(jù)壓縮比Fig.10 Data compression ratio

3.2 實(shí)驗(yàn)平臺(tái)硬件、軟件配置

分別在單機(jī)環(huán)境下、實(shí)驗(yàn)室自建的Hadoop平臺(tái)下和ODPS平臺(tái)下完成PRPD分析，平臺(tái)軟硬件配置參數(shù)見(jiàn)表7。

ODPS數(shù)據(jù)處理能力隨著數(shù)據(jù)量變化彈性伸縮。用戶不能在執(zhí)行計(jì)算任務(wù)之前看到平臺(tái)硬件配置的詳單(多少個(gè)計(jì)算節(jié)點(diǎn)、多少個(gè)CPU參與、使用的內(nèi)存容量等)。但是在每次計(jì)算任務(wù)結(jié)束之后，通過(guò)監(jiān)控界面可以看到為本次計(jì)算任務(wù)分配的硬件資源列表詳單，見(jiàn)表8。用戶需要按照使用的存儲(chǔ)容量和計(jì)算量支付費(fèi)用。

3.3 計(jì)算性能對(duì)比分析

分別在單機(jī)環(huán)境下、實(shí)驗(yàn)室自建的Hadoop平臺(tái)下和ODPS平臺(tái)下完成PRPD分析(分別命名為S-PRPD、Hadoop-PRPD、ODPS-PRPD)，測(cè)量算法執(zhí)行的時(shí)間、使用的硬件資源(CPU、內(nèi)存)、并行的粒度(map、reduce任務(wù)數(shù))，并進(jìn)行性能對(duì)比，結(jié)果見(jiàn)表9。運(yùn)行時(shí)間對(duì)比如圖11所示。本文的單機(jī)環(huán)境是指一個(gè)Data node，配置見(jiàn)表7。

表7 云平臺(tái)配置參數(shù)

表8 ODPS計(jì)算任務(wù)詳單示例

表9 運(yùn)行時(shí)間、硬件參數(shù)、并行粒度對(duì)比

圖11 PRPD運(yùn)行時(shí)間Fig.11 PRPD time cost

在圖11中，S-PRPD算法在單機(jī)環(huán)境下運(yùn)行，執(zhí)行時(shí)間隨數(shù)據(jù)量增加急劇增長(zhǎng)。只完成了4x數(shù)據(jù)集的分析任務(wù)(更大數(shù)據(jù)量耗時(shí)太長(zhǎng))。

Hadoop-PRPD算法在自建Hadoop平臺(tái)下執(zhí)行。受存儲(chǔ)容量和計(jì)算性能影響，實(shí)驗(yàn)只完成了16x數(shù)據(jù)集的分析任務(wù)，算法執(zhí)行時(shí)間緩慢增長(zhǎng)。圖12為PRPD硬件資源消耗，圖13為PRPD并行粒度，圖12和圖13 的縱坐標(biāo)均采用以10為底的對(duì)數(shù)坐標(biāo)軸。由圖12和圖13可以看出，算法在處理4x數(shù)據(jù)集時(shí)CPU核心數(shù)(14)與map任務(wù)(19)(體現(xiàn)并行粒度)數(shù)接近，達(dá)到較好的匹配，系統(tǒng)硬件資源已經(jīng)全部使用；在執(zhí)行16x數(shù)據(jù)集分析時(shí)，map任務(wù)數(shù)已達(dá)到79，已遠(yuǎn)遠(yuǎn)大于CPU核心數(shù)(14)，大量的map任務(wù)是串行的，已經(jīng)超出了平臺(tái)的計(jì)算能力，無(wú)法勝任更大規(guī)模的計(jì)算任務(wù)。

圖12 PRPD硬件資源消耗Fig.12 Hardware resources consumption of PRPD

圖13 PRPD并行粒度Fig.13 Parallel granularity of PRPD

ODPS-PRPD算法運(yùn)行在ODPS平臺(tái)下，完成了256x數(shù)據(jù)集的分析(還可以更大，可支持PB級(jí)數(shù)據(jù))，運(yùn)行時(shí)間平穩(wěn)，在數(shù)據(jù)規(guī)模成倍增長(zhǎng)情況下，整體運(yùn)行時(shí)間增長(zhǎng)很少或不增長(zhǎng)，甚至，在分析8x數(shù)據(jù)集時(shí)出現(xiàn)負(fù)增長(zhǎng)。主要?dú)w因于ODPS硬件的彈性伸縮，如圖11所示。

從圖12可以看出，隨著數(shù)據(jù)規(guī)模的增長(zhǎng)，ODPS-PRPD使用的硬件資源總體呈現(xiàn)線性增長(zhǎng)的趨勢(shì)。數(shù)據(jù)規(guī)模越大，為其分配的硬件資源越多，但也不是嚴(yán)格的線性關(guān)系。ODPS為并行任務(wù)分配的硬件資源有一個(gè)復(fù)雜的算法實(shí)現(xiàn)，目前阿里云尚未公開(kāi)，使用者暫不能控制資源的分配。雖然底層細(xì)節(jié)對(duì)用戶透明，但是這種彈性伸縮的性質(zhì)還是能夠強(qiáng)有力的為大數(shù)據(jù)分析助力。在表9中，當(dāng)數(shù)據(jù)規(guī)模達(dá)到51 GB(256x)時(shí)，使用的CPU核心數(shù)達(dá)到了1 093，內(nèi)存達(dá)到了1 639 GB，才能保證任務(wù)在185 s內(nèi)完成，這種硬件條件是目前大多數(shù)自建數(shù)據(jù)處理平臺(tái)難以達(dá)到的。

對(duì)表9的1x和2x數(shù)據(jù)集的PRPD進(jìn)行分析可知，ODPS-PRPD算法消耗的硬件資源少于自建Hadoop平臺(tái)，但仍獲得了更優(yōu)的性能，主要原因之一是ODPS-PRPD在統(tǒng)計(jì)特征提取子過(guò)程中使用了改進(jìn)的MR2模型，在計(jì)算譜圖和統(tǒng)計(jì)特征中，大量的中間數(shù)據(jù)一直保留在內(nèi)存中，省去了讀寫磁盤的時(shí)間開(kāi)銷，統(tǒng)計(jì)特征子過(guò)程的運(yùn)行時(shí)間對(duì)比如圖14所示。

圖14 統(tǒng)計(jì)特征提取子過(guò)程運(yùn)行時(shí)間Fig.14 Run time of statistical feature extraction sub-process

另外，ODPS也對(duì)MapReduce任務(wù)進(jìn)行了系統(tǒng)級(jí)的優(yōu)化，使ODPS-PRPD性能優(yōu)于Hadoop-PRPD。當(dāng)數(shù)據(jù)規(guī)模大于2x數(shù)據(jù)集時(shí)，ODPS-PRPD運(yùn)行時(shí)間遠(yuǎn)低于Hadoop-PRPD，主要原因是使用硬件資源的增長(zhǎng)。

圖15對(duì)比了ODPS-PRPD各分析階段的運(yùn)行時(shí)間。可以看出，在整個(gè)分析過(guò)程中，第1個(gè)階段統(tǒng)計(jì)參數(shù)n-q-φ提取過(guò)程占用的時(shí)間比例最高，平均占比達(dá)到70%。主要原因是第一階段處理的數(shù)據(jù)最多，之后計(jì)算出的統(tǒng)計(jì)數(shù)據(jù)規(guī)模較小，所以后續(xù)的分析過(guò)程執(zhí)行時(shí)間較短。

圖15 ODPS-PRPD子過(guò)程運(yùn)行時(shí)間Fig.15 Run time of ODPS-PRPD sub-process

綜上，相對(duì)于大多自建Hadoop集群，ODPS的高性能主要?dú)w因于以下3個(gè)方面：①硬件資源。在執(zhí)行任務(wù)時(shí)，ODPS可以根據(jù)待處理的數(shù)據(jù)規(guī)模彈性調(diào)整硬件資源分配。②并行度。由于硬件資源(CPU、內(nèi)存)的彈性擴(kuò)展，使得在處理大數(shù)據(jù)集時(shí)，并行任務(wù)數(shù)(Map數(shù))也可以有效增長(zhǎng)。③并行編程模型。優(yōu)化的MR2模型使得Reduce的中間結(jié)果始終保持在內(nèi)存，節(jié)約了大量的通信和磁盤I/O開(kāi)銷。

3.4 成本分析

ODPS采用租用的方式，無(wú)需自行購(gòu)買硬件設(shè)備和軟件，相對(duì)自建Hadoop或者其他大數(shù)據(jù)分析平臺(tái)，前期投入成本極低。

ODPS以項(xiàng)目(Project)為單位，對(duì)存儲(chǔ)、計(jì)算和數(shù)據(jù)下載三個(gè)方面分別計(jì)費(fèi)。數(shù)據(jù)上傳目前暫不收取費(fèi)用。存儲(chǔ)價(jià)格目前是0.0008元/GB/h，計(jì)算費(fèi)用是0.3元/GB。計(jì)算費(fèi)用中，目前僅開(kāi)放了SQL的計(jì)費(fèi)，執(zhí)行MapReduce暫時(shí)是免費(fèi)。因此，本文實(shí)驗(yàn)實(shí)際產(chǎn)生的費(fèi)用只有存儲(chǔ)費(fèi)用，合計(jì)6.96元(48 h)。

考慮到未來(lái)即將開(kāi)通MapReduce收費(fèi)，本文按照SQL的標(biāo)注計(jì)算費(fèi)用。實(shí)驗(yàn)周期按2天(48 h)計(jì)算，執(zhí)行1次ODPS-PRPD產(chǎn)生的費(fèi)用如圖16所示。

圖16 ODPS-PRPD費(fèi)用分析Fig.16 Costs of ODPS-PRPD

從圖16可以看出，存儲(chǔ)費(fèi)用隨時(shí)間呈線性增長(zhǎng)。計(jì)算費(fèi)用增長(zhǎng)速度高于線性增長(zhǎng)。

4 結(jié)論

利用現(xiàn)有大數(shù)據(jù)存儲(chǔ)和并行處理技術(shù)，加速數(shù)據(jù)密集型應(yīng)用計(jì)算速度，助力電力大數(shù)據(jù)價(jià)值釋放，是電力大數(shù)據(jù)應(yīng)用研究的主要目標(biāo)之一。

本文基于阿里云大數(shù)據(jù)計(jì)算服務(wù)ODPS設(shè)計(jì)實(shí)現(xiàn)了海量變壓器局部放電數(shù)據(jù)的存儲(chǔ)方法，提出了基于ODPS擴(kuò)展MapReduce模型MR2的并行化PRPD分析方法ODPS-PRPD，實(shí)現(xiàn)了海量 PD 信號(hào)的并行基本參數(shù)提取、統(tǒng)計(jì)特征計(jì)算與放電類型識(shí)別。

ODPS-PRPD利用pipeline將Map和多個(gè)Reduce過(guò)程連接起來(lái)，使大量的中間過(guò)程數(shù)據(jù)保持在內(nèi)存中，相比Hadoop-PRPD節(jié)省了大量的磁盤訪問(wèn)開(kāi)銷，性能明顯提升。

與自建Hadoop平臺(tái)相比，ODPS的優(yōu)勢(shì)主要體現(xiàn)在：①?gòu)椥陨炜s。參與計(jì)算任務(wù)的硬件資源隨數(shù)據(jù)規(guī)模的增長(zhǎng)自動(dòng)增長(zhǎng)，使計(jì)算任務(wù)的執(zhí)行時(shí)間保持非常平穩(wěn)的趨勢(shì)。②存儲(chǔ)容量可達(dá)PB級(jí)，計(jì)算能力彈性伸縮，在對(duì)51 GB的PD數(shù)據(jù)執(zhí)行PRPD分析時(shí)，參與的CPU核心多達(dá)1 093個(gè)，內(nèi)存多達(dá)1 639 GB，這是自建平臺(tái)很難企及的。③成本優(yōu)勢(shì)。完成本文實(shí)驗(yàn)使用了上千顆CPU核心和上千GB的內(nèi)存以及大量的磁盤存儲(chǔ)，租金僅6.96元，即使考慮暫時(shí)未開(kāi)通的MapReduce計(jì)算費(fèi)用，價(jià)格也非常低廉。

考慮到數(shù)據(jù)的安全性，可以將ODPS系統(tǒng)部署在電力專有云平臺(tái)上，以保證數(shù)據(jù)的隔離。

[1] 宋亞奇，周國(guó)亮，朱永利.智能電網(wǎng)大數(shù)據(jù)處理技術(shù)現(xiàn)狀與挑戰(zhàn)[J].電網(wǎng)技術(shù)，2013，37(4)：927-935. Song Yaqi，Zhou Guoliang，Zhu Yongli.Present status and challenges of big data processing in smart grid[J].Power System Technology，2013，37(4)：927-935.

[2] Williams J W，Aggour K S，Interrante J，et al.Bridging high velocity and high volume industrial big data through distributed in-memory storage & analytics[C]//IEEE International Conference on Big Data(Big Data)，Washington，DC，USA，2014：932-41.

[3] Han Liangxiu，Ong H Y.Parallel data intensive applications using MapReduce：a data mining case study in biomedical sciences[J].Cluster Comput，2015，18(1)：403-418.

[4] Agrawal D，Bernstein P，Bertino E，et al.Challenges and opportunities with big data[J].Proceedings of the VLDB Endowment，2012，5(12)：2032-2033.

[5] Rob P，Sean D，Robert G，et al.Interpreting the data：parallel analysis with Sawzal[J].Scientific Programming，2005，13(4)：277-298.

[6] Tom White.Hadoop權(quán)威指南[M].2版.曾大聃，周傲英，譯.北京：清華大學(xué)出版社，2011：260-262.

[7] Zhao Yong，Hategan M，Clifford B，et al.Swift：fast，reliable，loosely coupled parallel computation[C]//2007 IEEE Congress on Services，Salt Lake City，UT，USA，2007：199-206.

[8] Beynon M D，Kurc T，Catalyurek U，et al.Distributed processing of very large datasets with DataCutter[J].Parallel Computing，2001，27(11)：1457-1478.

[9] LINQ：The LINQ project[EB/OL].2014-04-19.http：//msdn.microsoft.com/netframework/future/linq/.

[10]Microsoft Research.Dryad[EB/OL].2013-12-23.http：//research.microsoft.com/en-us/projects/Dryad/.

[11]Teradata.Teradata homepage[EB/OL].2013-12-23.http： //www.teradata.com/.

[12]Vertica.Vertica homepage[EB/OL].2013-12-23.http： //www.vertica.com/.

[13]Amazon.Amazon homepage[EB/OL].http://aws.amazon.com/cn/.

[14]Aliyun.大數(shù)據(jù)計(jì)算服務(wù)ODPS[EB/OL].http：//www.aliyun.com/.

[15]宋亞奇，周國(guó)亮，朱永利，等.云平臺(tái)下輸變電設(shè)備狀態(tài)監(jiān)測(cè)大數(shù)據(jù)存儲(chǔ)優(yōu)化與并行處理[J].中國(guó)電機(jī)工程學(xué)報(bào)，2015，35(2)：255-267. Song Yaqi，Zhou Guoliang，Zhu Yongli，et al.Storage optimization and parallel processing of condition monitoring big data of transmission and transforming equipment based on cloud platform[J].Proceedings of the CSEE,2015，35(2)：255-267.

[16]Ma Yan，Guo Zhihong，Chen Yufeng，et al.Multi-sourced data storage and index construction for equipment condition assessment[C]//The 6th International Conference on Computational Intelligence and Communi-cation Networks，2014：681-685.

[17]葛磊蛟，王守相，王堯，等.多源異構(gòu)的智能配用電數(shù)據(jù)存儲(chǔ)處理技術(shù)[J].電工技術(shù)學(xué)報(bào)，2015，30(增刊2)：159-168. Ge Leijiao，Wang Shouxiang，Wang Yao，et al.Storage and processing technology of the multi-source isomerized data for smart power distribution and utilization[J].Transactions of China Electrotechnical Society，2015，30(S2)：159-168.

[18]Kawasoe S，Igarashi Y，Shibayama K，et al.Examples of distributed information platforms constructed by power utilities in Japan[C]//44th International Conference on Large High Voltage Electric Systems,Paris，F(xiàn)rance，2012：108-113.

[19]宋亞奇,周國(guó)亮,朱永利,等.云平臺(tái)下并行總體經(jīng)驗(yàn)?zāi)B(tài)分解局部放電信號(hào)去噪方法研究[J].電工技術(shù)學(xué)報(bào),2015，30(18)：213-222. Song Yaqi，Zhou Guoliang，Zhu Yongli，et al.Research on parallel ensemble empirical mode decomposition denoising method for partial discharge signals[J].Transactions of China Electrotechnical Society,2015，30(18)：213-222.

[20]屈志堅(jiān)，郭亮，劉明光，等.智能配電網(wǎng)量測(cè)信息變斷面柔性壓縮新算法[J].中國(guó)電機(jī)工程學(xué)報(bào)，2013，33(19)：191-199. Qu Zhijian，Guo Liang，Liu Mingguang，et al.New variable section flexible compression algorithm for measurement information in intelligent distribution network[J].Proceedings of the CSEE，2013，33(19)：191-199.

[21]曲廣龍，楊洪耕，張逸.采用Map-Reduce模型的海量電能質(zhì)量數(shù)據(jù)交換格式文件快速解析方案[J].電網(wǎng)技術(shù)，2014，38(6)：1705-1711. Qu Guanglong，Yang Honggeng，Zhang Yi.A fast parallel parsing scheme for massive PQDIF files with map-reduce model[J].Power System Technology，2014，38(6)：1705-1711.

[22]周國(guó)亮，朱永利，王桂蘭，等.實(shí)時(shí)大數(shù)據(jù)處理技術(shù)在狀態(tài)監(jiān)測(cè)領(lǐng)域中的應(yīng)用[J].電工技術(shù)學(xué)報(bào)，2014，29(增刊1)：432-437. Zhou Guoliang，Zhu Yongli，Wang Guilan，et al.Real-time big data processing technology application in the field of state monitoring[J].Transactions of China Electrotechnical Society，2014，29(S1)：432-437.

[23]張少敏，趙碩，王保義.基于云計(jì)算和量子粒子群算法的電力負(fù)荷曲線聚類算法研究[J].電力系統(tǒng)保護(hù)與控制，2014，42(21)：93-98. Zhang Shaomin，Zhao Shuo，Wang Baoyi.Research of power load curve clustering algorithm based on cloud computing and quantum particle swarm optimization[J].Power System Protection & Control，2014，42(21)：93-98.

[24]劉巍，黃曌，李鵬，等.面向智能配電網(wǎng)的大數(shù)據(jù)統(tǒng)一支撐平臺(tái)體系與構(gòu)架[J].電工技術(shù)學(xué)報(bào)，2014，29(增刊1)：486-491. Liu Wei，Huang Zhao，Li Peng，et al.Summary about system and framework of unified supporting platform of big data for smart distribution grid[J].Transactions of China Electro technical Society，2014，29(S1)：486-491.

[25]金亮，邱運(yùn)濤，楊慶新，等.基于云計(jì)算的電磁問(wèn)題并行計(jì)算方法[J].電工技術(shù)學(xué)報(bào)，2016，31(22)：5-11. Jin Liang，Qiu Yuntao，Yang Qingxin.A parallel computing method to electromagnetic problems based on cloud computing[J].Transactions of China Electro-technical Society，2016，31(22)：5-11.

[26]Nobuyuki O.A threshold selection method from gray-level histograms[J].IEEE Transactions on Systems，Man and Cybernetics，1979，9(1)：62-66.

[27]Chang Wen-Yeau.Partial discharge pattern recognition of cast resin current transformers using radial basis function neural network[J].Journal of Electrical Engineering & Technology，2014，9(1)：293-300.

[28]Cover T，Hart P.Nearest neighbor pattern classification[J].IEEE Transcations on Information Theory，1967，30(1)：21-27.

(編輯張玉榮)

Storage and Parallel Processing of Big Data of Power Equipment Condition Monitoring on ODPS Platform

ZhuYongliLiLiSongYaqiWangLiuwang

(School of Control and Computer Engineering North China Electric Power University Baoding 071003 China)

Computing performance is one of the key issues existing in the applications of big power data，such as fault diagnosis and prediction.Distributed storage and parallel computing are currently as the effective measures to accelerate the data-intensive applications.This paper describes an open distributed processing service(ODPS)from Ali Cloud，is used to store and accelerate the analytic process of monitoring big data about electrical equipment.Taking the phase resolved partial discharge(PRPD)processing of a partial discharge(PD)signal as example，a method for storing the signal with high sampling rate and time series data，and extracting the feature of the signal through the extended MapReduce model(MR2)of ODPS is proposed in this paper.The paralleled PRPD procedure(ODPS-PRPD)implements amounts of PD signals parallel basic parameters calculation and discharge type recognition，statistics features.To verify the effectiveness of the proposed method，a large number of partial discharge signals of four types from laboratory tests are respectively analyzed on ODPS and Hadoop.Because ODPS-PRPD stores the large amounts of middle data in the primary memory，its computing procedure is much faster.The results show that ODPS-PRPD has obviously better performance in data reliabltity，service anailabilty and cost than that of Hadoop.

Big power data，public cloud，open distributed processing service(ODPS)，extended MapReduce model(MR2)，partial discharge，phase resolved partial discharge

國(guó)家自然科學(xué)基金項(xiàng)目(51677072)、河北省自然科學(xué)基金項(xiàng)目(F2014502069)和中央高?；究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金(2016MS116，2016MS117)資助。

2016-04-18 改稿日期2016-08-02

TM764

朱永利男，1963年生，教授，博士生導(dǎo)師，研究方向?yàn)榫W(wǎng)絡(luò)化監(jiān)控與智能信息處理。

E-mail：yonglipw@163.com(通信作者)

李莉女，1980年生，博士研究生，研究方向?yàn)楝F(xiàn)代信號(hào)處理方法在電力系統(tǒng)故障診斷等方面的應(yīng)用。

E-mail：haolily12@163.com