智能變電站二次設(shè)備多源數(shù)據(jù)建模與存儲(chǔ)方法研究

2019-09-13 03:36:08肖永立宋亞奇

計(jì)算機(jī)應(yīng)用與軟件 2019年9期

肖永立劉松見偉宋亞奇

1(國網(wǎng)北京檢修分公司北京 100069)2(北京中泰華電科技有限公司北京 100080)3(華北電力大學(xué)控制與計(jì)算機(jī)學(xué)院河北保定 071000)

0 引言

國家電網(wǎng)調(diào)控運(yùn)行“十三五”規(guī)劃明確提出了開展設(shè)備運(yùn)行大數(shù)據(jù)分析的要求。變電站二次設(shè)備作為對(duì)系統(tǒng)監(jiān)視和控制的重要設(shè)備，其自身健康狀態(tài)的好壞直接關(guān)系電網(wǎng)的安全穩(wěn)定。因此，需要對(duì)其進(jìn)行狀態(tài)評(píng)估，及時(shí)發(fā)現(xiàn)設(shè)備缺陷，減少事故損失。

相關(guān)領(lǐng)域?qū)W者已經(jīng)開展廣泛的電網(wǎng)設(shè)備狀態(tài)評(píng)估、設(shè)備的可靠性分析、設(shè)備故障診斷和預(yù)測(cè)等方面的研究[1-3]。研究過程中使用了多種數(shù)據(jù)分析的模型，如：馬爾可夫(Markov)方法[4]、Topsis模型[5]、概率模型[6]、故障樹[7]、支持向量機(jī)[8]、神經(jīng)網(wǎng)絡(luò)[9]、貝葉斯網(wǎng)絡(luò)[10]等。上述模型和方法均需要一定規(guī)模的歷史數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)，支撐數(shù)據(jù)訓(xùn)練過程，才能得到有效的評(píng)估和識(shí)別模型結(jié)果。目前，評(píng)估和診斷方法逐漸向著數(shù)據(jù)驅(qū)動(dòng)方式和基于大數(shù)據(jù)的分析的方向發(fā)展[11-12]。

數(shù)據(jù)建模和存儲(chǔ)是進(jìn)行各類數(shù)據(jù)分析的前提和基礎(chǔ)，直接影響到后期狀態(tài)評(píng)估、故障診斷、查詢分析等應(yīng)用的性能、準(zhǔn)確性和可用性。傳統(tǒng)電網(wǎng)設(shè)備數(shù)據(jù)的建模和存儲(chǔ)方法主要使用范式建模方法和企業(yè)級(jí)關(guān)系型數(shù)據(jù)庫實(shí)現(xiàn)物理存儲(chǔ)，主要存在的問題是支持的數(shù)據(jù)規(guī)模比較小、存儲(chǔ)系統(tǒng)的擴(kuò)展性較差、查詢和復(fù)雜數(shù)據(jù)分析性能低下等。近年來，一些大數(shù)據(jù)的存儲(chǔ)方法和數(shù)據(jù)處理技術(shù)被應(yīng)用到電力系統(tǒng)中，以Hadoop為代表的大數(shù)據(jù)技術(shù)應(yīng)用較多。文獻(xiàn)[13]利用Hadoop分布式文件系統(tǒng)(Hadoop Distribute File System,HDFS)來存儲(chǔ)廣域向量測(cè)量系統(tǒng)的數(shù)據(jù)；文獻(xiàn)[14]研究了基于HDFS的電網(wǎng)狀態(tài)監(jiān)測(cè)數(shù)據(jù)存儲(chǔ)方法；文獻(xiàn)[15]研究了HDFS上電網(wǎng)設(shè)備監(jiān)測(cè)數(shù)據(jù)的存儲(chǔ)優(yōu)化方法，用以提升監(jiān)測(cè)數(shù)據(jù)查詢的性能；文獻(xiàn)[16]則應(yīng)用Hadoop生態(tài)系統(tǒng)中的Hive構(gòu)建了電力設(shè)備狀態(tài)信息數(shù)據(jù)倉庫;文獻(xiàn)[17]為了完成電力設(shè)備監(jiān)測(cè)數(shù)據(jù)的聯(lián)機(jī)分析處理(On-Line Analytical Processing,OLAP)，分別討論并給出了Hive、Impala和HBase三種存儲(chǔ)架構(gòu)和分析方案。上述數(shù)據(jù)存儲(chǔ)和處理方法都是針對(duì)一次設(shè)備數(shù)據(jù)開展的，對(duì)二次設(shè)備數(shù)據(jù)的建模和存儲(chǔ)方法的研究較少。

智能變電站中二次設(shè)備的PMS(Production Management System)、OMS(Operations Management System)、監(jiān)控、缺陷記錄等數(shù)據(jù)來源和類型多樣、經(jīng)年積累下來，數(shù)據(jù)規(guī)模巨大，需要利用大數(shù)據(jù)技術(shù)進(jìn)行建模、存儲(chǔ)和分析。本文提出了一種樹狀結(jié)構(gòu)的智能變電站二次設(shè)備數(shù)據(jù)的概念模型表示方法，相對(duì)IEC61850模型，可以有效體現(xiàn)二次設(shè)備的結(jié)構(gòu)特征，較CIM標(biāo)準(zhǔn)中的二次系統(tǒng)設(shè)備建模，信息更加全面。為了實(shí)現(xiàn)上述概念模型的物理存儲(chǔ)，基于大數(shù)據(jù)計(jì)算服務(wù)(MaxCompute)設(shè)計(jì)實(shí)現(xiàn)了多層的智能變電站二次設(shè)備數(shù)據(jù)倉庫，以智能變電站中設(shè)備缺陷數(shù)據(jù)的查詢分析為例，驗(yàn)證了所設(shè)計(jì)方法的有效性。

1 模型設(shè)計(jì)

二次設(shè)備的數(shù)據(jù)建模需要完成概念模型的設(shè)計(jì)，即從用戶的角度描述數(shù)據(jù)。變電站二次設(shè)備概念模型主要對(duì)變電站站內(nèi)二次設(shè)備，包括繼電保護(hù)設(shè)備、自動(dòng)化設(shè)備網(wǎng)絡(luò)及計(jì)算機(jī)類設(shè)備、電源系統(tǒng)等的臺(tái)賬信息、監(jiān)控信息、缺陷信息及設(shè)備結(jié)構(gòu)特征信息(空間坐標(biāo)、外部形狀、內(nèi)部結(jié)構(gòu))進(jìn)行統(tǒng)一關(guān)聯(lián)建模。

目前，針對(duì)變電站二次設(shè)備模型，已有IEC61850、IEC61970等標(biāo)準(zhǔn)對(duì)其進(jìn)行規(guī)范。其中，IEC61850模型用于智能變電站中，主要對(duì)變電站二次設(shè)備邏輯功能和通信接口進(jìn)行了描述，實(shí)現(xiàn)了設(shè)備間的信息共享和互操作性。但也存在部分不足之處，如IEC61850模型中沒有體現(xiàn)二次設(shè)備的結(jié)構(gòu)特征、硬件通信接口(如接口數(shù)量、位置、類型、接口參數(shù)等)。因此，無法根據(jù)模型統(tǒng)一構(gòu)建智能變電站詳細(xì)的通信網(wǎng)絡(luò)結(jié)構(gòu)，難以明確信息的傳輸路徑，鏈路異常時(shí)難以定位異常位置。

在調(diào)度系統(tǒng)中，主要采用IEC61970的CIM模型，對(duì)電力系統(tǒng)主要的物理對(duì)象進(jìn)行了抽象，包括描述具體對(duì)象的公用類、描述對(duì)象參數(shù)的屬性以及類之間的關(guān)系等基本元素，提供了電力系統(tǒng)信息的邏輯視圖。存在的不足有：CIM標(biāo)準(zhǔn)中針對(duì)二次系統(tǒng)設(shè)備的對(duì)象非常簡單，信息不夠全面。此外，變電站內(nèi)模型和CIM模型并沒有進(jìn)行統(tǒng)一，變電站內(nèi)的數(shù)據(jù)除了部分關(guān)鍵動(dòng)作或異常事件，并沒有上送至調(diào)度系統(tǒng)。

基于上述考慮，設(shè)計(jì)了智能變電站二次設(shè)備數(shù)據(jù)樹狀建模方法。首先對(duì)二次設(shè)備按照不同專業(yè)類型分類，分為繼電保護(hù)類設(shè)備、自動(dòng)化類設(shè)備、電源類設(shè)備等，并分別對(duì)不同類型設(shè)備進(jìn)行建模。其次，將不同類型二次設(shè)備，按照其物理結(jié)構(gòu)進(jìn)行劃分，并分別建模。例如，保護(hù)設(shè)備被劃分為電源模塊、CPU模塊、通信模塊、開入開出模塊等。然后按照設(shè)備整體屬性和各模塊屬性進(jìn)行建模。接著，對(duì)設(shè)備整體和各子模塊，分別按照臺(tái)帳、運(yùn)行、缺陷、結(jié)構(gòu)特征、運(yùn)行環(huán)境、關(guān)聯(lián)設(shè)備等進(jìn)行建模，其中：整體屬性包括臺(tái)帳、運(yùn)行、缺陷、結(jié)構(gòu)特征、運(yùn)行環(huán)境、關(guān)聯(lián)設(shè)備、軟件屬性；各子模塊包括臺(tái)帳、運(yùn)行、缺陷、結(jié)構(gòu)特征。二次設(shè)備數(shù)據(jù)樹狀建模過程如圖1所示。

圖1 智能變電站二次設(shè)備數(shù)據(jù)樹狀建模方法

在圖1的模型中，整體和模塊的主要內(nèi)容的簡要描述如表1所示。

表1 二次設(shè)備整體與模塊的內(nèi)容

續(xù)表1

通過對(duì)變電站二次設(shè)備模型進(jìn)行修改和完善，在調(diào)度側(cè)形成二次設(shè)備完整的信息庫，對(duì)轄區(qū)內(nèi)變電站二次設(shè)備進(jìn)行建模和數(shù)據(jù)整理，以支持二次設(shè)備監(jiān)控信息、設(shè)備缺陷與設(shè)備結(jié)構(gòu)的關(guān)聯(lián)分析、二次設(shè)備的狀態(tài)評(píng)價(jià)、故障診斷和故障趨勢(shì)預(yù)警，從而提高對(duì)二次設(shè)備的管控水平。

2 從概念模型到物理存儲(chǔ)實(shí)現(xiàn)

2.1 大數(shù)據(jù)計(jì)算服務(wù)

為了實(shí)現(xiàn)所設(shè)計(jì)的二次設(shè)備數(shù)據(jù)概念模型，本文選擇MaxCompute作為物理存儲(chǔ)平臺(tái)，實(shí)現(xiàn)二次設(shè)備數(shù)據(jù)的物理存儲(chǔ)。大數(shù)據(jù)計(jì)算服務(wù)MaxCompute是阿里云提供的海量數(shù)據(jù)存儲(chǔ)和處理平臺(tái)，具備海量存儲(chǔ)、并行計(jì)算、擴(kuò)展性強(qiáng)、免維護(hù)、低成本等諸多優(yōu)勢(shì)，已經(jīng)在商業(yè)智能、交通數(shù)據(jù)分析、金融數(shù)據(jù)分析、工業(yè)監(jiān)測(cè)數(shù)據(jù)分析等諸多領(lǐng)域得到應(yīng)用。在功能方面，MaxCompute提供了較完整的生態(tài)系統(tǒng)，功能組件涵蓋數(shù)據(jù)上傳下載通道、SQL、用戶自定義函數(shù)(User Defined Function，UDF)、擴(kuò)展MapReduce、Graph等，如圖2所示。

圖2 MaxCompute功能組件

MaxCompute完整的生態(tài)系統(tǒng)和豐富的功能為智能變電站二次設(shè)備存儲(chǔ)、數(shù)據(jù)處理和分析提供了一種新的手段。

2.2 數(shù)據(jù)倉庫設(shè)計(jì)

根據(jù)所設(shè)計(jì)的智能變電站二次設(shè)備數(shù)據(jù)樹狀建模方法、智能變電站二次設(shè)備數(shù)據(jù)特點(diǎn)和二次設(shè)備數(shù)據(jù)分析需求，設(shè)計(jì)了三層存儲(chǔ)模式的數(shù)據(jù)倉庫：數(shù)據(jù)操作層(Data Operation Layer,DOL)、數(shù)據(jù)倉庫層(Data Ware Layer,DWL)和數(shù)據(jù)集市層(Data Market Layer,DML)。數(shù)據(jù)倉庫的整體結(jié)構(gòu)如圖3所示。

圖3 智能變電站二次設(shè)備數(shù)據(jù)倉庫3層結(jié)構(gòu)

在圖3中，DOL用于接收和存儲(chǔ)來自PMS、OMS、監(jiān)控、缺陷等業(yè)務(wù)系統(tǒng)或文檔的原始數(shù)據(jù)，存儲(chǔ)模式盡可能和數(shù)據(jù)源業(yè)務(wù)系統(tǒng)的存儲(chǔ)模式保持一致，形成數(shù)據(jù)源業(yè)務(wù)系統(tǒng)和后續(xù)數(shù)據(jù)倉庫的隔離，并為DWL提供原始的數(shù)據(jù)備份。針對(duì)DML中不同的數(shù)據(jù)分析需求，為DWL提供原始的輸入數(shù)據(jù)，并應(yīng)對(duì)數(shù)據(jù)分析需求的變化。另外，如果需要直接從數(shù)據(jù)源業(yè)務(wù)系統(tǒng)進(jìn)行數(shù)據(jù)查詢或者生成報(bào)表，也可以由DOL來承擔(dān)，以減少對(duì)數(shù)據(jù)源系統(tǒng)的訪問請(qǐng)求。

DWL是包含了所有數(shù)據(jù)分析主題的通用的數(shù)據(jù)集合。為了能夠提升二次設(shè)備狀態(tài)評(píng)估等數(shù)據(jù)分析應(yīng)用的性能，使用星型模型進(jìn)行數(shù)據(jù)建模，并按照數(shù)據(jù)分析主題進(jìn)行數(shù)據(jù)的組織，每一個(gè)主題對(duì)應(yīng)一個(gè)數(shù)據(jù)分析領(lǐng)域。為繼電保護(hù)設(shè)備進(jìn)行星型建模的示例如圖4所示。

圖4 數(shù)據(jù)倉庫層繼電保護(hù)裝置數(shù)據(jù)星型數(shù)據(jù)建模

星型架構(gòu)是一種非正規(guī)化的數(shù)據(jù)結(jié)構(gòu)，多維數(shù)據(jù)集的每一個(gè)維度都直接與事實(shí)表相連接，不存在漸變維度，所以數(shù)據(jù)有一定的冗余。事實(shí)表可以直接支持后續(xù)的統(tǒng)計(jì)分析，減少或者避免了多表連接，因此分析性能較高。DWL數(shù)據(jù)來源于DOL，進(jìn)入DWL的數(shù)據(jù)需要具有權(quán)威性，即后續(xù)的數(shù)據(jù)分析均需要且只允許使用DWL的數(shù)據(jù)。因此對(duì)數(shù)據(jù)質(zhì)量有較高的要求，需要事先進(jìn)行數(shù)據(jù)清洗，去除各類臟數(shù)據(jù)，并進(jìn)行適當(dāng)?shù)念愋娃D(zhuǎn)換、歸一化和離散化處理。

DML中的數(shù)據(jù)結(jié)構(gòu)清晰，具有較強(qiáng)的針對(duì)性，直接用于支持特定的數(shù)據(jù)分析應(yīng)用。DML數(shù)據(jù)需要對(duì)DWL進(jìn)行數(shù)據(jù)加工，形成的結(jié)果數(shù)據(jù)存入DML。

所設(shè)計(jì)的分層結(jié)構(gòu)會(huì)存在一定的數(shù)據(jù)冗余，但是可以更有效地應(yīng)對(duì)數(shù)據(jù)分析需求的變化和業(yè)務(wù)系統(tǒng)規(guī)則的變化，分層結(jié)構(gòu)也使得數(shù)據(jù)處理邏輯變得更簡潔和易操作。

2.3 數(shù)據(jù)倉庫各層的協(xié)作方法

所設(shè)計(jì)的數(shù)據(jù)倉庫各層自底向上逐層對(duì)上層進(jìn)行數(shù)據(jù)支持。以統(tǒng)計(jì)和發(fā)現(xiàn)不同環(huán)境條件下繼電保護(hù)裝置動(dòng)作的正確率為例，介紹數(shù)據(jù)倉庫中各層之間的協(xié)作方式，其協(xié)作關(guān)系如圖5所示。

圖5 統(tǒng)計(jì)高溫情況下的繼電保護(hù)裝置動(dòng)作正確率

在圖5中，DSL接收來自PMS、OMS、在線監(jiān)測(cè)、設(shè)備自檢等多數(shù)據(jù)源的數(shù)據(jù)，并保持原有系統(tǒng)的存儲(chǔ)模式，存儲(chǔ)到DSL，作為整個(gè)數(shù)據(jù)倉庫的基礎(chǔ)數(shù)據(jù)。另外，如果需要對(duì)基礎(chǔ)歷史數(shù)據(jù)進(jìn)行查詢，可以直接在DSL中進(jìn)行。DWL主要采用寬表的形式存儲(chǔ)集成的數(shù)據(jù)。為了統(tǒng)計(jì)和分析環(huán)境溫度、濕度等因素對(duì)繼電保護(hù)設(shè)備動(dòng)作正確率的影響，將來自于DSL的設(shè)備臺(tái)賬信息、環(huán)境信息、繼電保護(hù)運(yùn)行信息、告警信息集成進(jìn)來，構(gòu)建DWL中的表，因此表的維度較高。在使用寬表進(jìn)行數(shù)據(jù)集成之前，需要對(duì)DSL中的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、適當(dāng)?shù)念愋娃D(zhuǎn)換、歸一化以及離散化等數(shù)據(jù)處理，以便得到高質(zhì)量的數(shù)據(jù)，提升后續(xù)數(shù)據(jù)分析的有效性。之后，基于DWL寬表，可以統(tǒng)計(jì)不同周期內(nèi)繼電保護(hù)裝置的正確動(dòng)作次數(shù)、總動(dòng)作次數(shù)以及相應(yīng)的環(huán)境溫度、濕度等，形成數(shù)據(jù)集市層DML表數(shù)據(jù)。上層的應(yīng)用系統(tǒng)(APP)使用DML中繼電保護(hù)設(shè)備動(dòng)作統(tǒng)計(jì)次數(shù)計(jì)算動(dòng)作的正確率，并進(jìn)一步利用正確率和環(huán)境指標(biāo)分析兩者的相關(guān)性。

3 算例和實(shí)驗(yàn)分析

以繼電保護(hù)設(shè)備狀態(tài)評(píng)估為例，介紹使用MaxCompute進(jìn)行數(shù)據(jù)建模、數(shù)據(jù)處理和數(shù)據(jù)分析的過程。

3.1 建表和數(shù)據(jù)同步

MaxCompute使用二維表進(jìn)行數(shù)據(jù)存儲(chǔ)。在進(jìn)行數(shù)據(jù)導(dǎo)入之前，需要先創(chuàng)建表。根據(jù)2.2節(jié)設(shè)計(jì)的數(shù)據(jù)倉庫，需要分別為DOL、DWL和DML創(chuàng)建表。根據(jù)經(jīng)驗(yàn)，確定與繼電保護(hù)設(shè)備狀態(tài)評(píng)估相關(guān)的數(shù)據(jù)包括：繼電保護(hù)裝置整體信息、電源插件、CPU插件、通信插件和開入開出插件，共5部分信息，因此在DSL層中，分別使用SQL DDL進(jìn)行表的創(chuàng)建，創(chuàng)建表的示例如表2所示。

表2 設(shè)備臺(tái)賬表創(chuàng)建DDL

執(zhí)行數(shù)據(jù)操作層DSL建表操作，結(jié)果如圖6所示。

圖6 DSL層MaxCompute數(shù)據(jù)表

根據(jù)經(jīng)驗(yàn)，從DSL數(shù)據(jù)表中進(jìn)行特征選擇，選出的用于繼電保護(hù)設(shè)備狀態(tài)評(píng)估的特征包括：(1) 運(yùn)行環(huán)境：溫度、濕度；(2) 無故障時(shí)間：設(shè)備實(shí)際無故障運(yùn)行時(shí)間；(3) 家族性無故障時(shí)間：同型號(hào)、同批次無故障時(shí)間，基于OMS缺陷記錄表，統(tǒng)計(jì)分析同型號(hào)、同批次設(shè)備的無故障時(shí)間；(4) 正確動(dòng)作率：本身正確動(dòng)作率、同型號(hào)正確動(dòng)作率、同批次正確動(dòng)作率(本身正確動(dòng)作率=正確動(dòng)作次數(shù)/總動(dòng)作次數(shù))；(5) 絕緣狀況：屏內(nèi)接線的保護(hù)裝置箱體和各插件的絕緣數(shù)據(jù)：裝置發(fā)生絕緣接地情況的次數(shù)；(6) 數(shù)據(jù)采樣：模擬量和開關(guān)量采樣異常出現(xiàn)的次數(shù)；(7) 通信狀況：GPS對(duì)時(shí)、與監(jiān)控后臺(tái)、保護(hù)信息子站的通信狀況，統(tǒng)計(jì)通信異常出現(xiàn)的次數(shù)；(8) 通道運(yùn)行情況：高頻通道和光纖通道測(cè)試數(shù)據(jù)，統(tǒng)計(jì)通道異常次數(shù)。

使用上述特征構(gòu)建DWL層數(shù)據(jù)寬表，如圖7所示。

圖7 DWL層MaxCompute數(shù)據(jù)表

在圖7中的特征量是根據(jù)經(jīng)驗(yàn)選取的，可以選擇使用機(jī)器學(xué)習(xí)算法，如隨機(jī)森林特征選擇算法，利用歷史數(shù)據(jù)進(jìn)行進(jìn)一步的特征選擇，對(duì)特征量的重要性進(jìn)行量化評(píng)估并排序，選出最終的特征量，用于狀態(tài)評(píng)估。最終的特征量被同步到應(yīng)用數(shù)據(jù)集市DML中，如圖8所示。

圖8 DML層MaxCompute數(shù)據(jù)表

如果不進(jìn)行特征選擇，則可以將DML中的表與DWL中的表保持一致即可。

3.2 數(shù)據(jù)清洗和數(shù)據(jù)加工

使用MaxCompute生態(tài)系統(tǒng)中的數(shù)據(jù)開發(fā)工具DataStudio完成DOL到DWL的數(shù)據(jù)清洗和數(shù)據(jù)加工過程，從數(shù)據(jù)源到DOL的數(shù)據(jù)加載也可以在DataStudio下利用數(shù)據(jù)集成工具完成。圖7的DWL至DML的特征選擇可以使用PAI組件完成，整體數(shù)據(jù)處理的流程如圖9所示。

圖9 DataStudio環(huán)境下繼電保護(hù)設(shè)備狀態(tài)評(píng)估數(shù)據(jù)處理流程

其中：Di組件為數(shù)據(jù)同步組件，負(fù)責(zé)從數(shù)據(jù)源到DSL層的數(shù)據(jù)傳輸；Sql組件用于數(shù)據(jù)清洗和數(shù)據(jù)的統(tǒng)計(jì)計(jì)算，從而形成DWL層數(shù)據(jù)；Pi組件用于特征選擇，可以使用過濾式特征選擇或者隨機(jī)森林特征選擇等方法。繼電保護(hù)的狀態(tài)評(píng)估使用了Pi組件中的邏輯回歸算法進(jìn)行訓(xùn)練和分類。

3.3 數(shù)據(jù)分析

數(shù)據(jù)分析的過程是在Pi組件中完成的。Pi是阿里云提供的機(jī)器學(xué)習(xí)服務(wù)。根據(jù)經(jīng)驗(yàn)，將繼電保護(hù)設(shè)備的狀態(tài)評(píng)估結(jié)果設(shè)定為如下的5種狀態(tài)：良好狀態(tài)、正常狀態(tài)、注意狀態(tài)、異常狀態(tài)、嚴(yán)重異常狀態(tài)。使用邏輯回歸算法進(jìn)行訓(xùn)練和分類，數(shù)據(jù)分析的流程如圖10所示。

圖10 Pi環(huán)境下基于邏輯回歸的繼電保護(hù)設(shè)備狀態(tài)評(píng)估

在圖10中進(jìn)行了額外的過濾式特征選擇，但僅是得出了當(dāng)前特征重要性的量化打分和排名，并未參與后續(xù)的計(jì)算。拆分過程將歷史數(shù)據(jù)按照自定義的比例，如70%訓(xùn)練數(shù)據(jù)和30%測(cè)試數(shù)據(jù)的比例進(jìn)行了拆分，分別輸出到訓(xùn)練模塊和測(cè)試模塊。最后通過混淆矩陣組件和分類結(jié)果評(píng)估組件查看模型的準(zhǔn)確率等參數(shù)。

3.4 計(jì)算性能分析

選取來自某省電網(wǎng)公司2013年7月至12月的PMS、OMS、在線監(jiān)測(cè)以及設(shè)備自檢數(shù)據(jù)進(jìn)行數(shù)據(jù)建模、存儲(chǔ)和數(shù)據(jù)分析。實(shí)驗(yàn)平臺(tái)使用阿里云MaxCompute、Datawork、數(shù)據(jù)集成、機(jī)器學(xué)習(xí)Pi。

使用所設(shè)計(jì)的樹狀模型對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行建模，并使用星型模型在MaxCompute表中進(jìn)行物理存儲(chǔ)。同時(shí)在MaxCompute中使用傳統(tǒng)的范式模型對(duì)二次設(shè)備數(shù)據(jù)進(jìn)行表示和存儲(chǔ)。分別基于兩種模式進(jìn)行二次設(shè)備歷史數(shù)據(jù)的查詢分析，對(duì)比其執(zhí)行性能。以查詢分析繼電保護(hù)設(shè)備的正確動(dòng)作率與環(huán)境溫濕度的關(guān)系為例，對(duì)比兩種存儲(chǔ)模式對(duì)查詢分析的影響。分別進(jìn)行了三項(xiàng)查詢分析實(shí)驗(yàn)：無條件的全量設(shè)備查詢Q1、根據(jù)生產(chǎn)廠商對(duì)不同品牌的設(shè)備進(jìn)行查詢Q2、根據(jù)變電站進(jìn)行設(shè)備查詢Q3。每組實(shí)驗(yàn)分別選取不同得數(shù)據(jù)規(guī)模：579 MB(數(shù)據(jù)集編號(hào)1)、1.21 GB(數(shù)據(jù)集編號(hào)2)和1.63 GB(數(shù)據(jù)集編號(hào)3)，對(duì)比其執(zhí)行時(shí)間，如圖11所示。

圖11 歷史數(shù)據(jù)查詢分析執(zhí)行時(shí)間對(duì)比

在圖11中，QX-Y表示對(duì)數(shù)據(jù)集Y執(zhí)行QX查詢。采用范式建模方式，執(zhí)行時(shí)間約為星型建模方式的3倍左右，不同規(guī)模不同查詢方式下，9次實(shí)驗(yàn)的平均執(zhí)行時(shí)間比例為3.12。從圖11中各次實(shí)驗(yàn)的執(zhí)行時(shí)間變化趨勢(shì)可以看出，兩種存儲(chǔ)模式下的執(zhí)行性能在數(shù)據(jù)規(guī)模增長的情況下執(zhí)行性能比較平穩(wěn)，這與MaxCompute的平臺(tái)特性相關(guān)。MaxCompute下執(zhí)行數(shù)據(jù)分析任務(wù)時(shí)，分配的計(jì)算資源會(huì)隨著數(shù)據(jù)規(guī)模的增長而增長，因此執(zhí)行時(shí)間總體比較平穩(wěn)。尤其在星型存儲(chǔ)模式下，執(zhí)行時(shí)間隨著數(shù)據(jù)規(guī)模的增長幾乎沒有增長，表明了所設(shè)計(jì)的存儲(chǔ)方法能夠有效應(yīng)對(duì)智能變電站二次設(shè)備數(shù)據(jù)的存儲(chǔ)和數(shù)據(jù)分析。

4 結(jié) 語

本文研究了智能變電站二次設(shè)備數(shù)據(jù)的特點(diǎn)、建模方法和物理存儲(chǔ)方法，提出一種智能變電站二次設(shè)備數(shù)據(jù)樹狀建模方法。并基于阿里云的大數(shù)據(jù)平臺(tái)MaxCompute設(shè)計(jì)實(shí)現(xiàn)了3層結(jié)構(gòu)的二次設(shè)備數(shù)據(jù)倉庫，給出了數(shù)據(jù)操作層、數(shù)據(jù)倉庫層和數(shù)據(jù)集市層之間的交互方法。以繼電保護(hù)設(shè)備狀態(tài)評(píng)估為例說明了數(shù)據(jù)建模、存儲(chǔ)和數(shù)據(jù)分析的過程。以繼電保護(hù)設(shè)備數(shù)據(jù)的統(tǒng)計(jì)查詢分析為例，在不同數(shù)據(jù)規(guī)模下，對(duì)比了所設(shè)計(jì)的星型存儲(chǔ)模式和傳統(tǒng)的范式模式下的查詢執(zhí)行時(shí)間，驗(yàn)證了所設(shè)計(jì)的建模和存儲(chǔ)方法的有效性。