胡福金,梁錦來
(廣東電網(wǎng)有限責(zé)任公司 佛山供電局,廣東 佛山 528000)
電力系統(tǒng)不出現(xiàn)異常運(yùn)行模式即表明電力系統(tǒng)二次設(shè)備的正常運(yùn)行,因電力行業(yè)發(fā)展速度逐漸提升,電網(wǎng)結(jié)構(gòu)復(fù)雜度隨之日益增大。二次設(shè)備屬于電力系統(tǒng)的核心設(shè)備,直接影響電力系統(tǒng)的運(yùn)行狀態(tài)[1]。因此,保證電力系統(tǒng)設(shè)備運(yùn)行狀態(tài)不出現(xiàn)異常,成為電力部門運(yùn)維人員關(guān)注的重點(diǎn)問題,相關(guān)學(xué)者研究表明,對(duì)二次設(shè)備缺陷數(shù)據(jù)挖掘與分析是判斷電力系統(tǒng)設(shè)備運(yùn)行狀態(tài)是否正常的基礎(chǔ)。
目前,我國(guó)對(duì)二次設(shè)備缺陷數(shù)據(jù)挖掘與分析的研究?jī)H處于探索與試驗(yàn)的階段,即使某些研究資料對(duì)二次設(shè)備狀態(tài)分析進(jìn)行了深層次分析,但因?yàn)槔碚摶A(chǔ)不足,資料信息與歷史數(shù)據(jù)欠缺,致使相關(guān)研究方法的適用性較差,可推廣性不足。文獻(xiàn)[2]方法雖然能夠?qū)崿F(xiàn)變電站二次設(shè)備缺陷分析,但是該方法的分析過程較為煩瑣;文獻(xiàn)[3]方法的使用過程雖然操作簡(jiǎn)單,但是評(píng)估結(jié)果的精度有待進(jìn)一步優(yōu)化。
為此,為了克服上文所述存在的種種問題,本文基于數(shù)據(jù)挖掘技術(shù),研究電力系統(tǒng)二次設(shè)備缺陷分析方法,具體分析過程分為2步,并分別引入層次聚類算法、XGBoost模型,實(shí)現(xiàn)二次設(shè)備狀態(tài)的準(zhǔn)確分析,在實(shí)驗(yàn)中,此方法的使用效果被驗(yàn)證優(yōu)于文獻(xiàn)[2]、文獻(xiàn)[3]方法。
為了實(shí)現(xiàn)電力系統(tǒng)二次設(shè)備缺陷數(shù)據(jù)分析,在保證數(shù)據(jù)分析準(zhǔn)確的基礎(chǔ)上降低分析耗時(shí),設(shè)計(jì)二次設(shè)備缺陷分析方法,具體處理流程如圖1所示。
根據(jù)圖1所示流程,逐一分析處理過程。
基于層次聚類算法的電力系統(tǒng)二次設(shè)備缺陷數(shù)據(jù)挖掘方法操作流程如下。輸入:存在m個(gè)e維電力系統(tǒng)二次設(shè)備運(yùn)行數(shù)據(jù)的數(shù)據(jù)集R;輸出:正常數(shù)據(jù)聚類結(jié)果與缺陷數(shù)據(jù)聚類結(jié)果。
①把電力系統(tǒng)二次設(shè)備運(yùn)行數(shù)據(jù)集R設(shè)成q個(gè)數(shù)據(jù)組,各組存在多個(gè)數(shù)據(jù)目標(biāo);②在各個(gè)數(shù)據(jù)組中啟動(dòng)原子聚類算法;③在原子簇集合中啟動(dòng)原子簇合并算法;④缺陷數(shù)據(jù)挖掘完畢。
1.1.1 原子聚類算法
原子即為電力系統(tǒng)中隨機(jī)一個(gè)二次設(shè)備運(yùn)行數(shù)據(jù)目標(biāo),原子聚類算法把數(shù)據(jù)組中的電力系統(tǒng)二次設(shè)備運(yùn)行數(shù)據(jù)聚類設(shè)置為原子簇[4],原子聚類算法如圖2所示。

圖2 原子聚類算法示意Fig.2 Schematic diagram of atomic clustering algorithm
輸入:電力系統(tǒng)二次設(shè)備運(yùn)行數(shù)據(jù)集合R中一個(gè)數(shù)據(jù)組,電力系統(tǒng)二次設(shè)備運(yùn)行數(shù)據(jù)目標(biāo)Q、原子距離參數(shù)dAC;輸出:原子簇集合∑BD。
(1)運(yùn)算電力系統(tǒng)二次設(shè)備運(yùn)行數(shù)據(jù)集合中數(shù)據(jù)目標(biāo)q與另一數(shù)據(jù)目標(biāo)p的距離D(q,p),如果D(q,p)小于原子距離參數(shù)dAC,2個(gè)數(shù)據(jù)目標(biāo)則隸屬相同原子簇BD。
(2)原子簇集合得出中心點(diǎn)DBD設(shè)置為每個(gè)原子簇的形心。
原子聚類算法屬于一種分類算法,此算法和別的聚類算法之間差異是:原子聚類算法的參數(shù)不具有復(fù)雜性,主要參數(shù)是原子簇?cái)?shù)值的距離閾值dAC,且該算法迭代次數(shù)僅需要一次,操作簡(jiǎn)單。
電力系統(tǒng)二次設(shè)備運(yùn)行數(shù)據(jù)目標(biāo)和原子簇核心點(diǎn)間的距離通過曼哈頓距離運(yùn)算:
(1)
式中,不同電力系統(tǒng)二次設(shè)備運(yùn)行數(shù)據(jù)目標(biāo)依次為qj、pj;j為第j個(gè)數(shù)據(jù)目標(biāo)。
1.1.2 原子簇合并算法
原子聚類變成原子簇后,啟動(dòng)原子簇合并算法,把原子簇合并后便可獲取聚類簇[5-7]。原子簇合并算法屬于凝聚聚類算法,可逐步合并近鄰原子簇。
輸入:根據(jù)上述原子聚類算法獲取的原子簇集合∑BD以及原子簇距離參數(shù)dGD;輸出:聚類簇集合∑GD。
(1)運(yùn)算原子簇集合∑BD中不同原子簇GDj、GDi的距離D(GDj,GDi),如果D(GDj,GDi)不大于dGD,原子簇GDj、GDi則隸屬相同聚類簇GD。
(2)運(yùn)算每個(gè)聚類簇的密度。原子簇合并算法在運(yùn)行過程中,若2個(gè)聚類簇具有“鄰居”關(guān)系,便把這2個(gè)聚類簇相融為一體[8]。2個(gè)原子簇間距可看作兩者中心點(diǎn)的密度:
(2)
其中,DGDj、DGDi分別為兩個(gè)原子簇的簇心。
1.1.3 基于層次聚類算法的缺陷數(shù)據(jù)識(shí)別算法
根據(jù)上述分析,設(shè)計(jì)二次設(shè)備缺陷數(shù)據(jù)識(shí)別算法流程如下。輸入:不存在電力系統(tǒng)二次設(shè)備運(yùn)行數(shù)據(jù)分類信息的聚類簇集合∑GD、標(biāo)準(zhǔn)聚類簇密度Es、電力系統(tǒng)二次設(shè)備正常運(yùn)行數(shù)據(jù)Sm和電力系統(tǒng)二次設(shè)備缺陷數(shù)據(jù)比率參數(shù)Sa;輸出:存在電力系統(tǒng)二次設(shè)備運(yùn)行數(shù)據(jù)分類信息的聚類簇集合∑GD。①將聚類簇集合∑GD中聚類簇按照從大至小的順序進(jìn)行排列;②運(yùn)算正常聚類簇的密度;③運(yùn)算各個(gè)聚類簇密度和正常聚類簇密度之比,如果此比值不大于缺陷數(shù)據(jù)比率參數(shù)Sa,則隸屬為缺陷數(shù)據(jù)[9]。
1.2.1 特征指標(biāo)集的建立
電力系統(tǒng)二次設(shè)備種類和數(shù)目具有多樣性,為此,在挖掘電力系統(tǒng)二次設(shè)備缺陷數(shù)據(jù)之后,為準(zhǔn)確分類電力系統(tǒng)二次設(shè)備缺陷類型,需要提取缺陷數(shù)據(jù)中的具體數(shù)據(jù)特征,構(gòu)建電力系統(tǒng)二次設(shè)備缺陷特征指標(biāo)集[10]。電力系統(tǒng)二次設(shè)備缺陷分類指標(biāo)集詳情見表1。

表1 電力系統(tǒng)二次設(shè)備缺陷分類指標(biāo)集Tab.1 Details of defect classification index set of secondary equipment in power system
由表1可知,與電力系統(tǒng)二次設(shè)備缺陷存在關(guān)聯(lián)的特征量類型主要是種類特征、數(shù)值特征。
1.2.2 特征和缺陷級(jí)別標(biāo)簽的設(shè)置
考慮到XGBoost模型的輸入僅支持?jǐn)?shù)值,必須將二次設(shè)備缺陷數(shù)據(jù)的種類特征實(shí)施編碼,把種類特征變換成數(shù)值特征[11-13]。
圍繞輸入的種類特征,因?yàn)楦鱾€(gè)特征存在的屬性數(shù)目較少,本文使用獨(dú)熱編碼的模式實(shí)現(xiàn)二次設(shè)備缺陷數(shù)據(jù)的種類特征編碼:通過0與1描述此類種類特征,通過M位狀態(tài)寄存器編碼M個(gè)狀態(tài)、各個(gè)狀態(tài)均存在具有獨(dú)立性的寄存器位。
按照我國(guó)電力設(shè)備權(quán)限管理的相關(guān)標(biāo)準(zhǔn),把電力系統(tǒng)二次設(shè)備缺陷根據(jù)嚴(yán)重程度依次設(shè)成A級(jí)缺陷、B級(jí)缺陷,C級(jí)缺陷(表2)。

表2 二次設(shè)備缺陷嚴(yán)重程度Tab.2 Defect severity of secondary equipment
1.2.3 缺陷分類模型
根據(jù)上文分析內(nèi)容,在設(shè)置特征和缺陷級(jí)別標(biāo)簽的基礎(chǔ)上,構(gòu)建電力系統(tǒng)二次設(shè)備缺陷分類模型(圖3)。

圖3 缺陷分類模型示意Fig.3 Schematic diagram of defect classification model
根據(jù)圖3缺陷分類模型可知,構(gòu)建模型實(shí)現(xiàn)過程如下:①在章節(jié)1.1挖掘的電力系統(tǒng)二次設(shè)備缺陷數(shù)據(jù)中提取缺陷特征設(shè)置為XGBoost模型的輸入數(shù)據(jù);②去除所輸入電力系統(tǒng)二次設(shè)備缺陷數(shù)據(jù)中不完備特征[19];③將所輸入電力系統(tǒng)二次設(shè)備缺陷數(shù)據(jù)中的種類特征和缺陷級(jí)別標(biāo)簽依次實(shí)施編碼;④按照比例把處理完畢的缺陷數(shù)據(jù)集設(shè)成訓(xùn)練集與測(cè)試集;⑤把訓(xùn)練數(shù)據(jù)集導(dǎo)入XGBoost模型實(shí)施訓(xùn)練,以參數(shù)調(diào)節(jié)的形式,完成模型參數(shù)最優(yōu)化[20];⑥通過調(diào)優(yōu)后模型對(duì)測(cè)試集中數(shù)據(jù)實(shí)施缺陷級(jí)別分類。
實(shí)驗(yàn)硬件運(yùn)行環(huán)境:計(jì)算機(jī)的中央處理器是i5-5257U(2.7GHz),內(nèi)存 58 GB;軟件運(yùn)行環(huán)境為Windows 10,VC++6.0。
為測(cè)試本文方法的應(yīng)用性能,在Matlab軟件中,以Gephi數(shù)據(jù)集為測(cè)試數(shù)據(jù)集,對(duì)本文方法的應(yīng)用性能進(jìn)行仿真測(cè)試。此數(shù)據(jù)集中存在50 000個(gè)二次設(shè)備運(yùn)行數(shù)據(jù)目標(biāo),數(shù)據(jù)來源于某電力公司某年度的電壓表、電流表、功率表、繼電器、蓄電池組、直流發(fā)電機(jī)、高頻阻波器7種二次設(shè)備的缺陷數(shù)據(jù)。在實(shí)驗(yàn)過程中本文將該電力公司某年度的二次設(shè)備缺陷數(shù)據(jù)進(jìn)行預(yù)處理后,隨機(jī)提取2 000個(gè)數(shù)據(jù)目標(biāo)作為本文方法挖掘與分析的數(shù)據(jù)。
(1)按照章節(jié)1.1提出的基于層次聚類算法的電力系統(tǒng)二次設(shè)備缺陷數(shù)據(jù)挖掘結(jié)果形成二次設(shè)備缺陷數(shù)據(jù)庫(kù)。
(2)補(bǔ)全缺失數(shù)據(jù)。由于電力系統(tǒng)二次設(shè)備具備高可靠性,二次設(shè)備缺陷類型具備分散性。在此情況下,盲目刪除部分屬性缺失的記錄會(huì)縮小樣本,易丟失一些小樣本包含的關(guān)聯(lián)規(guī)則,因此本文不刪除部分屬性缺失的記錄,而是通過查詢檢修報(bào)告補(bǔ)全缺失數(shù)據(jù)。
(3)統(tǒng)計(jì)缺陷原因。經(jīng)統(tǒng)計(jì),二次設(shè)備缺陷原因包括“調(diào)試質(zhì)量不良”“制造質(zhì)量不良”“設(shè)備老化”“運(yùn)行維護(hù)不良”“其他缺陷原因分類”5種類型,以設(shè)備老化為主要測(cè)試指標(biāo),分別利用不同方法進(jìn)行挖掘測(cè)試。
(4)輸出測(cè)試結(jié)果。
為測(cè)試本文方法對(duì)電力系統(tǒng)二次設(shè)備數(shù)據(jù)挖掘性能是否具有優(yōu)勢(shì),以文獻(xiàn)[2]、文獻(xiàn)[3]方法作為對(duì)比,測(cè)試3種方法在隨機(jī)提取的2 000個(gè)二次設(shè)備運(yùn)行數(shù)據(jù)中對(duì)缺陷數(shù)據(jù)的挖掘效果。挖掘效果主要以缺陷數(shù)據(jù)樣本的挖掘量作為描述,對(duì)比結(jié)果見表3。分析表3數(shù)據(jù)后可知,本文方法、文獻(xiàn)[2]方法、文獻(xiàn)[3]方法對(duì)電壓表、電流表、功率表、繼電器、蓄電池組、直流發(fā)電機(jī)、高頻阻波器7種二次設(shè)備的缺陷數(shù)據(jù)挖掘結(jié)果存在差異。對(duì)比之下,本文方法的挖掘結(jié)果和實(shí)際缺陷數(shù)據(jù)樣本數(shù)一致,文獻(xiàn)[2]方法、文獻(xiàn)[3]方法的挖掘結(jié)果和實(shí)際缺陷數(shù)據(jù)樣本數(shù)分別存在1個(gè)、5個(gè)偏差,本文方法的挖掘結(jié)果最精準(zhǔn)。

表3 對(duì)二次設(shè)備缺陷數(shù)據(jù)的挖掘結(jié)果對(duì)比Tab.3 Mining results of secondary equipment defect data
為測(cè)試本文方法對(duì)電力系統(tǒng)二次設(shè)備數(shù)據(jù)分析性能是否具有優(yōu)勢(shì),以文獻(xiàn)[2]方法、文獻(xiàn)[3]方法作為對(duì)比,測(cè)試3種方法在隨機(jī)提取的2 000個(gè)二次設(shè)備運(yùn)行數(shù)據(jù)中對(duì)缺陷數(shù)據(jù)的分析效果。分析效果主要通過3種方法對(duì)7種二次設(shè)備的缺陷級(jí)別識(shí)別效果體現(xiàn),識(shí)別效果需要通過準(zhǔn)確率Q1、召回率Q2、F1值3種指標(biāo)進(jìn)行分析。
(3)
(4)
(5)
式中,MTP、MFP、MFN分別為真正類、真負(fù)類、假正類。
3種方法的準(zhǔn)確率、召回率、F1值測(cè)試結(jié)果如圖4所示。分析圖4數(shù)據(jù)后可知,本文方法、文獻(xiàn)[2]方法、文獻(xiàn)[3]方法對(duì)電壓表、電流表、功率表、繼電器、蓄電池組、直流發(fā)電機(jī)、高頻阻波器7種二次設(shè)備的缺陷級(jí)別識(shí)別后,本文方法對(duì)電力系統(tǒng)二次設(shè)備缺陷的識(shí)別結(jié)果準(zhǔn)確率、召回率、F1值高達(dá)0.99,均高于對(duì)比方法,由此可知代表本文方法對(duì)二次設(shè)備缺陷識(shí)別級(jí)別識(shí)別精度極高。

圖4 3種方法對(duì)二次設(shè)備缺陷級(jí)別識(shí)別效果Fig.4 Effect of three methods on defect level identification of secondary equipment
識(shí)別耗時(shí)主要體現(xiàn)了3種方法的操作難度,操作難度小,則識(shí)別耗時(shí)短。3種方法對(duì)7種二次設(shè)備的缺陷級(jí)別識(shí)別耗時(shí)測(cè)試結(jié)果如圖5所示。分析圖5數(shù)據(jù)后可知,本文方法、文獻(xiàn)[2]方法、文獻(xiàn)[3]方法對(duì)7種二次設(shè)備的缺陷級(jí)別識(shí)別耗時(shí)差異較為明顯,本文方法的識(shí)別耗時(shí)低于400 ms,文獻(xiàn)[2]方法、文獻(xiàn)[3]方法的識(shí)別耗時(shí)均大于500 ms,對(duì)比之下,本文方法的識(shí)別耗時(shí)最短,表示本文方法在識(shí)別電力系統(tǒng)二次設(shè)備缺陷級(jí)別時(shí)操作難度最小。

圖5 對(duì)7種二次設(shè)備的缺陷級(jí)別識(shí)別耗時(shí)測(cè)試結(jié)果Fig.5 Test results for defect level identification of seven kinds of secondary equipment
綜上所述,本文方法對(duì)電力系統(tǒng)二次設(shè)備缺陷數(shù)據(jù)的挖掘與分析性能占有優(yōu)勢(shì)。
文章以電力系統(tǒng)二次設(shè)備缺陷數(shù)據(jù)挖掘與分析為研究?jī)?nèi)容,提出利用缺陷數(shù)據(jù)挖掘的方法,實(shí)現(xiàn)高精準(zhǔn)度快速的缺陷數(shù)據(jù)挖掘與分析。在實(shí)驗(yàn)測(cè)試中,本文研究方法對(duì)電壓表、電流表、功率表、繼電器、蓄電池組、直流發(fā)電機(jī)、高頻阻波器7種二次設(shè)備缺陷數(shù)據(jù)挖掘并分析后,挖掘的缺陷數(shù)據(jù)樣本數(shù)量和實(shí)際樣本數(shù)量一致,挖掘精度高于對(duì)比方法,對(duì)7種二次設(shè)備缺陷級(jí)別的識(shí)別精度也大于對(duì)比方法,可優(yōu)化電力系統(tǒng)二次設(shè)備缺陷問題的分析效果。