基于多源棧式混合自編器的竊電檢測

2022-10-10 09:25:14韓金濤雷景生

計(jì)算機(jī)應(yīng)用與軟件 2022年9期

韓金濤雷景生

(上海電力大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院上海 200090)

0 引言

隨著經(jīng)濟(jì)快速發(fā)展,人們對(duì)電力能源的需求不斷增加,電能已成為國民生產(chǎn)生活的支柱能源。供電企業(yè)在為國民提供便利的同時(shí)也承受著竊電行為所帶來的異常損失。偷電行為給電力企業(yè)帶來的損失屬于非技術(shù)性損失[1],不僅會(huì)擾亂電力生產(chǎn)的正常秩序,更會(huì)阻礙電網(wǎng)的合理規(guī)劃,有損國家經(jīng)濟(jì)發(fā)展。

在當(dāng)前人工智能和大數(shù)據(jù)的背景下,研究者們針對(duì)竊電檢測問題,提出了一系列解決方案。其中支持向量機(jī)[2]、神經(jīng)網(wǎng)絡(luò)[3]、隨機(jī)森林[4]、主成分分析[5]和模糊聚類[6]等機(jī)器學(xué)習(xí)算法得到了廣泛的應(yīng)用。比如Jindal等[7]使用決策樹和支持向量機(jī)的組合,通過決策樹過濾掉干擾數(shù)據(jù)再通過訓(xùn)練支持向量機(jī)模型,最終識(shí)別出異常用電。Chatterjee等[8]使用遞歸神經(jīng)網(wǎng)絡(luò)模型,結(jié)合基礎(chǔ)智能裝置從負(fù)荷數(shù)據(jù)中篩選異常用戶。Jokar等[9]通過監(jiān)控用戶消費(fèi)模式,使用支持向量機(jī)算法識(shí)別出可疑竊電用戶。莊池杰等[10]通過對(duì)用電負(fù)荷數(shù)據(jù)進(jìn)行降維,使用局部離子群因子算法判斷用電異常用戶。胡天宇等[11]提出了基于堆疊去相關(guān)自編碼器和支持向量機(jī)的竊電檢測方法,利用自編碼器從用電數(shù)據(jù)中提取特征，再使用支持向量機(jī)對(duì)這些特征進(jìn)行分類識(shí)別。然而現(xiàn)有的異常用電檢測智能方法,大都基于多種用電參量數(shù)據(jù),直接對(duì)用戶用電量數(shù)據(jù)進(jìn)行分析的研究較少,且檢測方法大都是基于分類算法的選擇,缺少對(duì)特征提取過程的優(yōu)化研究。

本文對(duì)用戶用電量數(shù)據(jù)進(jìn)行分析,提出一種基于多源棧式混合自編碼器的竊電檢測方法。首先對(duì)自編碼器進(jìn)行改進(jìn),使其具有更強(qiáng)的特征表達(dá)能力,更易提取復(fù)雜抽象特征,然后組建多源輸入的棧式網(wǎng)絡(luò),拓展了網(wǎng)絡(luò)深度,提高了模型的魯棒性和泛化能力。在訓(xùn)練過程中,添加了人工提取特征的流程,使分類結(jié)果更具有代表性,提高了分類準(zhǔn)確率。

1 用戶用電特征提取

針對(duì)高維用電數(shù)據(jù),本文使用改進(jìn)的混合棧式自編碼器對(duì)數(shù)據(jù)進(jìn)行無監(jiān)督學(xué)習(xí),從而獲得能夠?qū)υ紨?shù)據(jù)進(jìn)行高度非線性表示的數(shù)據(jù)特征。

從用電業(yè)務(wù)邏輯[12]分析,用戶在一段時(shí)間內(nèi)每日的用電量信息有明顯的時(shí)序性,長中短期的用電規(guī)律對(duì)竊電檢測的分析結(jié)果會(huì)產(chǎn)生較大的影響。因此,本文在保留用戶每天用電量的基礎(chǔ)上拓展了兩部分用戶中長期特征。

1.1 自編碼器

神經(jīng)網(wǎng)絡(luò)是智能學(xué)習(xí)的重要算法,在一定范圍內(nèi)隨著網(wǎng)絡(luò)深度的增加,模型性能呈現(xiàn)上升趨勢。但隨著層級(jí)的加深,網(wǎng)絡(luò)易陷入局部最優(yōu)并且出現(xiàn)過擬合或者欠擬合的現(xiàn)象,為避免此類問題,需要為網(wǎng)絡(luò)參數(shù)選擇合適的初始值[13]。使用無監(jiān)督學(xué)習(xí)進(jìn)行預(yù)訓(xùn)練是優(yōu)化網(wǎng)絡(luò)初值的一種重要方法[14]。

自編碼器是一種重要的無監(jiān)督學(xué)習(xí)算法,傳統(tǒng)自編碼器主要由輸入層、隱藏層和輸出層組成,并且分為編碼和解碼兩個(gè)階段,編碼階段的隱藏層的個(gè)數(shù)一般與解碼階段相同。其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

圖1 自編碼網(wǎng)絡(luò)結(jié)構(gòu)

工作原理是通過編碼和解碼兩個(gè)階段后,使輸出數(shù)據(jù)盡可能與輸入數(shù)據(jù)一致,隱藏層就被認(rèn)為是能夠高度還原數(shù)據(jù)的數(shù)據(jù)特征。解碼和編碼過程如式(1)和式(2)所示。

h1=fe(W1x+b1)

(1)

y=fd(W2h1+b2)

(2)

式中：h1是編碼過程的結(jié)果；y是解碼過程的結(jié)果；x表示輸入數(shù)據(jù)；b是隱藏層的輸入偏置；W代表隱藏層的輸入權(quán)重。自編碼器嘗試學(xué)習(xí)一個(gè)恒等式y(tǒng)=x,通過誤差的反向傳播和批量梯度下降算法,訓(xùn)練出能夠盡量滿足該恒等式的權(quán)重W和偏置b,此時(shí)可認(rèn)為編碼器的隱藏層是從輸入數(shù)據(jù)x中提取出的理想數(shù)據(jù)特征。

損失函數(shù)L(x,y)可以使用交叉熵表示,如式(3)所示。

(3)

式中：xi表示第i個(gè)樣本預(yù)測值為1的概率；yi表示第i個(gè)樣本真實(shí)值為1的概率。

為避免出現(xiàn)過擬合,一般可以在損失函數(shù)上加入一個(gè)正則化權(quán)重衰減項(xiàng)來控制權(quán)重的減小程度,最終的損失函數(shù)表示為：

(4)

式中：L(x,y)表示交叉熵；λ是權(quán)重系數(shù)；W代表權(quán)重,b代表偏置。

1.2 混合自編碼器

為了提高自編碼器的特征提取的性能,Vincent等[15]從提高魯棒性的方向如入手提出了降噪自編碼器。其原理是在數(shù)據(jù)送入隱藏層之前,給原始數(shù)據(jù)添加噪聲以損壞部分?jǐn)?shù)據(jù),然后將損壞后的數(shù)據(jù)送入隱藏層進(jìn)行編碼,最后通過解碼還原未損壞的原始數(shù)據(jù),從而迫使編碼器學(xué)習(xí)更具有魯棒性的特征表達(dá)。其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,其中“×”代表原始數(shù)據(jù)中被Dropout的數(shù)據(jù)。

圖2 降噪自編碼網(wǎng)絡(luò)結(jié)構(gòu)

Ng[16]認(rèn)為高維且稀疏的表達(dá)更能反映出原始數(shù)據(jù)特征,從而提出了稀疏自編碼器。其原理是通過對(duì)神經(jīng)元的輸出進(jìn)行抑制,即對(duì)隱藏層神經(jīng)元輸出的平均激活值進(jìn)行約束,達(dá)到一個(gè)輸出的稀疏效果。該抑制效果可以通過KL散度迫使激活值與一個(gè)給定的稀疏值相近,并將其作為一個(gè)懲罰項(xiàng)添加到損失函數(shù)中,新的損失函數(shù)JSAE表示為：

(5)

(6)

(7)

本文結(jié)合上述兩種自編碼器的特點(diǎn),構(gòu)建混合自編碼器,利用KL散度對(duì)隱藏層神經(jīng)元的輸出進(jìn)行約束,并作為懲罰項(xiàng)加入到網(wǎng)絡(luò)的損失函數(shù)中。網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,其中：“×”代表原始數(shù)據(jù)中被Dropout的數(shù)據(jù)；“—”代表被抑制輸出的神經(jīng)元。其損失函數(shù)同式(5)。混合自編碼器不僅增強(qiáng)了模型的魯棒性,還能從原始數(shù)據(jù)中得到具有代表性的數(shù)據(jù)特征,同時(shí)降低了運(yùn)算過程中真正參與計(jì)算的神經(jīng)元的數(shù)量,提高了運(yùn)算效率。

圖3 混合自編碼網(wǎng)絡(luò)結(jié)構(gòu)

1.3 棧式混合自編碼單元

自編碼器與其他神經(jīng)網(wǎng)絡(luò)相同,也可以含有多個(gè)隱藏層。含有多個(gè)隱藏層的自編碼網(wǎng)絡(luò)成為棧式自編碼網(wǎng)絡(luò)。增加隱藏層可以學(xué)習(xí)到更為復(fù)雜的數(shù)據(jù)特征,但如果編碼過程過于強(qiáng)大,就會(huì)使得學(xué)習(xí)過程變?yōu)閷⑤斎胗成錇槿我鈹?shù),從而降低了提取數(shù)據(jù)特征的能力,因此自編碼網(wǎng)絡(luò)的隱藏層數(shù)目不宜過多。

對(duì)于每一個(gè)輸入源,本文構(gòu)建棧式混合自編碼單元來進(jìn)行特征提取,構(gòu)建過程如圖4所示。首先訓(xùn)練一個(gè)混合自編碼器,作為第一個(gè)隱藏層；然后用一個(gè)傳統(tǒng)自編碼器學(xué)習(xí)并重構(gòu)第一個(gè)自編碼器的隱藏層數(shù)據(jù),最后將兩個(gè)自編碼器整合到一起,構(gòu)建棧式混合自編碼單元。該混合自編碼單元通過混合自編碼器獲得穩(wěn)定且具有代表性的數(shù)據(jù)特征,然后通過傳統(tǒng)自編碼器對(duì)數(shù)據(jù)進(jìn)行降維處理,避免了后期數(shù)據(jù)級(jí)聯(lián)過程中造成的大范圍維度擴(kuò)張。

圖4 棧式混合自編碼單元構(gòu)建流程

1.4 用戶長中期特征擴(kuò)展

在處理竊電用戶檢測問題中,由于使用的數(shù)據(jù)是用戶在過去三年的每日用電量情況,數(shù)據(jù)存在較為明顯且重要的時(shí)序信息。從業(yè)務(wù)邏輯的角度分析,用戶的長中期用電行為規(guī)律是影響分類器分類性能的重要因素。因此,在保留用戶過去一年內(nèi)每天的用電量的特征基礎(chǔ)上,結(jié)合實(shí)際業(yè)務(wù)邏輯,為了獲取用戶長中期的用電規(guī)律特征,本文通過以下兩種人工特征提取的方法對(duì)數(shù)據(jù)特征進(jìn)行擴(kuò)展：

擴(kuò)展數(shù)據(jù)一：分別提取用戶每一個(gè)月、每兩個(gè)月、每三個(gè)月、每四個(gè)月、每六個(gè)月、每十二個(gè)月用電數(shù)據(jù)中的最大值、最小值、中位數(shù)、均值、方差。

擴(kuò)展數(shù)據(jù)二：分別提取對(duì)于每個(gè)用戶,過去一個(gè)月、過去兩個(gè)月、過去三個(gè)月、直到過去三十六個(gè)月用電數(shù)據(jù)中的最大值、最小值、中位數(shù)、均值、方差。

2 模型搭建

本文首先根據(jù)原始數(shù)據(jù)特性進(jìn)行預(yù)處理,然后利用棧式混合自編碼單元搭建了特征提取網(wǎng)絡(luò)模型,最后使用一個(gè)兩層的神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行分類。

2.1 多源棧式混合自編碼網(wǎng)絡(luò)

基于上文提到的混合自編碼單元,本文搭建了多源棧式混合自編碼網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行分類學(xué)習(xí),網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。

圖5 多源棧式混合自編碼網(wǎng)絡(luò)結(jié)構(gòu)

輸入網(wǎng)絡(luò)數(shù)據(jù)分為原始數(shù)據(jù)、擴(kuò)展數(shù)據(jù)一和擴(kuò)展數(shù)據(jù)二共三個(gè)輸入源。自編碼器單元一的輸入為原始數(shù)據(jù),輸出為out1；自編碼器單元二的輸入為out1級(jí)聯(lián)拓展特征一,輸出為out2；自編碼器單元三的輸入為out2級(jí)聯(lián)out1再級(jí)聯(lián)拓展特征二,輸出最終提取的特征；最后將輸出的特征送入一個(gè)由全連接層和輸出層組成的分類網(wǎng)絡(luò)對(duì)樣本進(jìn)行預(yù)分類。通過該網(wǎng)絡(luò)能夠有效地從原始數(shù)據(jù)以及用戶的長中短期用電規(guī)律中提取出重要的數(shù)據(jù)特征。此外網(wǎng)絡(luò)中每一個(gè)單元的輸入都級(jí)聯(lián)了前面所有單元的輸出,這種形式能夠有效利用淺層網(wǎng)絡(luò)所提取出的數(shù)據(jù)特征,避免因網(wǎng)絡(luò)層數(shù)過深而產(chǎn)生的梯度消散現(xiàn)象。

2.2 訓(xùn)練過程和分類

網(wǎng)絡(luò)的訓(xùn)練和分類過程如下：

(1) 融合降噪自編碼器和稀疏自編碼器構(gòu)建1.3節(jié)所提到的棧式混合自編碼單元。

(2) 將經(jīng)過預(yù)處理后的數(shù)據(jù)送入第一個(gè)單元的混合自編碼器進(jìn)行預(yù)訓(xùn)練,得到數(shù)據(jù)特征以及編碼器權(quán)重值。再將得到的特征作為輸入數(shù)據(jù)送入第一個(gè)單元的傳統(tǒng)自編碼器進(jìn)行預(yù)訓(xùn)練,得到降維后的特征并輸出。

(3) 將(2)中的輸出級(jí)聯(lián)擴(kuò)展特征一送入第二個(gè)棧式混合自編碼單元,并依次訓(xùn)練兩個(gè)自編碼器,得到降維后的特征并輸出。

(4) 將(3)中的輸出級(jí)聯(lián)(2)中的輸出和擴(kuò)展特征二,送入第三個(gè)棧式混合自編碼單元,并依次訓(xùn)練兩個(gè)自編碼器,得到降維后的特征并輸出。

(5) 將(4)中的輸出送入一個(gè)用于分類的神經(jīng)網(wǎng)絡(luò),根據(jù)原始數(shù)據(jù)的標(biāo)簽進(jìn)行有監(jiān)督學(xué)習(xí),預(yù)訓(xùn)練分類網(wǎng)絡(luò)。該分類網(wǎng)絡(luò)由兩個(gè)隱藏層組成,其中第二個(gè)隱藏層有兩個(gè)神經(jīng)元,對(duì)輸入的數(shù)據(jù)特征進(jìn)行二分類。

(6) 根據(jù)原始數(shù)據(jù)的標(biāo)簽,將整個(gè)網(wǎng)絡(luò)作為深度學(xué)習(xí)分類器再次訓(xùn)練,對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行微調(diào),輸出最終的分類結(jié)果。

在神經(jīng)網(wǎng)絡(luò)中,研究者們經(jīng)常使用的激活函數(shù)有Softmax、Sigmoid、Tanh、ReLU等,其中Sigmoid函數(shù)又叫做Logistic函數(shù),可以將實(shí)數(shù)映射到(0,1)的區(qū)間內(nèi),在數(shù)據(jù)特征相差比較復(fù)雜或相差不大的情況下能夠起到比較好的效果。結(jié)合電力用戶用電特性,并經(jīng)實(shí)驗(yàn)驗(yàn)證,本文所提出的網(wǎng)絡(luò)模型在特征提取過程中,使用Sigmoid作為激活函數(shù)的分類效果要優(yōu)于其他激活函數(shù)。其表達(dá)式為：

(8)

2.3 算法步驟

多源棧式自編碼器進(jìn)行竊電檢測的整個(gè)算法流程如圖6所示。

圖6 算法流程

首先對(duì)輸入的原始數(shù)據(jù)按照缺失值填補(bǔ)、離群點(diǎn)修正、數(shù)據(jù)歸一化等操作依次進(jìn)行處理。然后通過特征工程,以用戶為單位,分別計(jì)算出擴(kuò)展數(shù)據(jù)一和擴(kuò)展數(shù)據(jù)二。將處理過的數(shù)據(jù)依次送入混合自編碼網(wǎng)絡(luò),分步訓(xùn)練,得到每層網(wǎng)絡(luò)的預(yù)訓(xùn)練結(jié)果以及提取出的數(shù)據(jù)特征。再將數(shù)據(jù)特征送入分類網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,得到初步的分類結(jié)果。最后將整個(gè)模型視為分類器,進(jìn)行整體訓(xùn)練,微調(diào)整個(gè)網(wǎng)絡(luò)模型的模型參數(shù),得到最終分類結(jié)果。

3 實(shí)驗(yàn)與結(jié)果分析

實(shí)驗(yàn)環(huán)境：使用Windows 10 64位操作系統(tǒng)Python 3.5開發(fā)環(huán)境、Pycharm編譯器、TensorFlow深度學(xué)習(xí)開放框架、圖像處理單元NVIDIA GTX 1050Ti、Intel Core i5 8th Gen CPU、8 GB內(nèi)存。

實(shí)驗(yàn)數(shù)據(jù)：使用國家電網(wǎng)公布的2014年1月1日至2016年10月31日,42 372個(gè)用戶的日用電量數(shù)據(jù)[17],其中標(biāo)明了3 615個(gè)用戶為竊電用戶。

3.1 數(shù)據(jù)預(yù)處理

在用電數(shù)據(jù)實(shí)際采集的過程中,采集系統(tǒng)往往會(huì)出現(xiàn)智能電表故障、數(shù)據(jù)傳輸失真、系統(tǒng)維護(hù)和數(shù)據(jù)存儲(chǔ)不及時(shí)等現(xiàn)象,從而導(dǎo)致獲得的數(shù)據(jù)存在缺失或錯(cuò)誤。樣本中大量的數(shù)據(jù)缺失會(huì)導(dǎo)致數(shù)據(jù)特征不明顯,正負(fù)樣本間的數(shù)據(jù)差異變小,從而降低分類模型的查準(zhǔn)率和查全率。針對(duì)這些實(shí)際問題,本文在進(jìn)行數(shù)據(jù)分析前首先進(jìn)行了數(shù)據(jù)預(yù)處理。

針對(duì)原始數(shù)據(jù)中的缺失值,以天數(shù)為橫坐標(biāo)、數(shù)據(jù)缺失比例為縱坐標(biāo),對(duì)數(shù)據(jù)的缺失情況進(jìn)行可視化輸出,如圖7所示。由于數(shù)據(jù)缺失值較多,缺失值的處理對(duì)網(wǎng)絡(luò)分類結(jié)果尤為重要。本文根據(jù)缺失值的不同特點(diǎn)進(jìn)行區(qū)別處理。

圖7 數(shù)據(jù)缺失值比例

首先,找出數(shù)據(jù)缺失比例超過40%的日期,這些日期本身數(shù)據(jù)缺失量較大,對(duì)用戶樣本特征提取的影響較小,因此對(duì)這些日期中的缺失值數(shù)據(jù)用0進(jìn)行填充。對(duì)于數(shù)據(jù)缺失較為嚴(yán)重的樣本,其數(shù)據(jù)分析意義較小,因此本文刪除用電量數(shù)據(jù)缺失比例超過60%的樣本。對(duì)于剩余的數(shù)據(jù),使用取前后平均值的方法對(duì)缺失值進(jìn)行處理,其計(jì)算式為：

(9)

式中：xi代表該用戶第i日的用電量；NaN代表空值。

對(duì)于記錄或傳輸錯(cuò)誤的離群數(shù)據(jù),使用“三標(biāo)準(zhǔn)差法則”對(duì)數(shù)據(jù)進(jìn)行處理,具體其計(jì)算式為:

(10)

式中：x代表該用戶三年的用電數(shù)據(jù);xi代表第i日的用電量;avg(x)是x的平均值;std(x)是x的標(biāo)準(zhǔn)差。

為了提高計(jì)算速度和抑制神經(jīng)網(wǎng)絡(luò)對(duì)不同數(shù)據(jù)的敏感性,在將數(shù)據(jù)送入神經(jīng)網(wǎng)絡(luò)之前,先對(duì)數(shù)據(jù)進(jìn)行了歸一化處理,其計(jì)算式為:

(11)

式中：min(x)、max(x)分別代表該用戶三年用電數(shù)據(jù)中的最大值和最小值。

原始數(shù)據(jù)中用電異常的用戶標(biāo)簽是1,為正樣本,用電正常的用戶標(biāo)簽是0,為負(fù)樣本。將正負(fù)樣本分別以4 ∶1的比例隨機(jī)劃分為訓(xùn)練集和測試集。由于正負(fù)樣本數(shù)量差距較大,本文在訓(xùn)練過程中,對(duì)正樣本多次使用重采樣的方法,使模型充分學(xué)習(xí)樣本特征。

3.2 評(píng)價(jià)標(biāo)準(zhǔn)

根據(jù)原始數(shù)據(jù)標(biāo)注，本實(shí)驗(yàn)中分類出的異常類別均認(rèn)定為竊電用戶。由于實(shí)驗(yàn)屬于二分類問題,且模型所訓(xùn)練的數(shù)據(jù)正負(fù)樣本數(shù)量不均衡,不能單純使用分類準(zhǔn)確率來衡量模型的特性。為了準(zhǔn)確全方面地評(píng)價(jià)該模型異常檢測性能,本文選擇使用混淆矩陣、查準(zhǔn)率、查全率、正樣本準(zhǔn)確率、負(fù)樣本準(zhǔn)確率、整體樣本準(zhǔn)確率幾個(gè)指標(biāo)作為衡量模型性能的評(píng)價(jià)指標(biāo)。

評(píng)價(jià)二分類問題的混淆矩陣由TP、FP、FN、TN組成,如表1所示。

表1 混淆矩陣結(jié)構(gòu)

查準(zhǔn)率表示所有被檢測為異常的樣本中,實(shí)際為異常的樣本所占的比例,其計(jì)算式為:

(12)

查全率表示所有實(shí)際為異常的樣本中,被檢測為異常的樣本所占的比例,其計(jì)算式為:

(13)

一般來說,查準(zhǔn)率的值越高,查全率的值越低,反之亦然。此時(shí)可以選用Precision和Recall的F1指標(biāo)來進(jìn)行度量，其計(jì)算式為:

(14)

3.3 實(shí)驗(yàn)結(jié)果

將本文所提出的多源棧式混合自編器模型(M-SHAE)與同等深度的卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)、長短期記憶網(wǎng)絡(luò)模型(LSTM)、棧式自編碼模型(SAE)、棧式混合自編器模型(SHAE)進(jìn)行比較。其中SHAE模型是一源輸入模型,在M-SHAE的基礎(chǔ)上去除了人工特征提取和輸入部分。SAE模型是將SHAE模型中的混合自編碼器替換為自編碼器得到的模型。M-SHAE、SHAE和SAE三種模型在提取到特征后,將特征數(shù)據(jù)送入相同的分類輸出層,然后微調(diào)整個(gè)網(wǎng)絡(luò)得到最終分類結(jié)果。

表2給出了本文方法與其他四種分類方法的混淆矩陣,表3給出了不同模型的分類性能。可以看出,在處理與時(shí)間特征相關(guān)的數(shù)據(jù)時(shí),長短期記憶網(wǎng)絡(luò)的性能要優(yōu)于卷積神經(jīng)網(wǎng)絡(luò)。傳統(tǒng)自編碼網(wǎng)絡(luò)優(yōu)于其高度抽象的特征概括能力,使其分類性能與長短期記憶網(wǎng)絡(luò)基本相當(dāng)。比較SAE與SHAE的實(shí)驗(yàn)結(jié)果可以看出,混合自編碼網(wǎng)絡(luò)的查準(zhǔn)率和召回率都高于傳統(tǒng)的自編碼網(wǎng)絡(luò),這表明混合自編碼單元所提取的特征提取能力要優(yōu)于傳統(tǒng)自編碼器。整體來看,多源輸入的棧式混合自編碼器的分類準(zhǔn)確率最高,由此可以得出在結(jié)合特征工程后,多源輸入的網(wǎng)絡(luò)結(jié)構(gòu)能夠有效利用不同網(wǎng)絡(luò)層級(jí)提取的數(shù)據(jù)特征,達(dá)到更優(yōu)的分類效果。

表2 神經(jīng)網(wǎng)絡(luò)分類器不同模型的混淆矩陣結(jié)果

續(xù)表2

表3 神經(jīng)網(wǎng)絡(luò)分類器不同模型的分類性能

為進(jìn)一步比較模型的特征提取性能,使用SVM作為分類器,分別將M-SHAE、SHAE、SAE三種模型提取的特征數(shù)據(jù),送入核函數(shù)為徑向基函數(shù)(RBF)的SVM分類器進(jìn)行分類。實(shí)驗(yàn)結(jié)果如表4所示。

表4 SVM分類器不同模型的混淆矩陣結(jié)果

表4給出了SVM分類器下三種模型分類結(jié)果的混淆矩陣,表5(保留3位小數(shù))給出了三種模型的分類性能。可以看出,SAE模型雖然召回率較高,但準(zhǔn)確率和查準(zhǔn)率較低。M-SHAE的F1-Score值和準(zhǔn)確率都高于另外兩種模型。這表明M-SHAE模型所提取的數(shù)據(jù)特征優(yōu)于其他兩種模型,其特征提取能力更強(qiáng)。

表5 SVM分類器不同模型的分類性能

3.4 結(jié)果分析

在特征提取過程中,自編碼器能夠高度非線性地表示出數(shù)據(jù)特征,但其特征表達(dá)具有一定隨機(jī)性,編碼過程易指向隨機(jī)數(shù),從而降低特征表達(dá)能力。經(jīng)過改進(jìn)后的混合自編碼單元融合了去噪自編碼器和稀疏自編碼器的優(yōu)點(diǎn),添加了輸入噪聲和稀疏性約束,能夠提高網(wǎng)絡(luò)特征表達(dá)的能力。多源級(jí)聯(lián)的棧式網(wǎng)絡(luò)結(jié)構(gòu),使每個(gè)輸入源連接的自編碼器不超過4層,在減少梯度消散的前提下,擴(kuò)展了整體網(wǎng)絡(luò)的深度,使得整個(gè)網(wǎng)絡(luò)獲得了更優(yōu)的分類準(zhǔn)確率。但是,從分類效果上比較,查準(zhǔn)率和召回率仍有提升空間。實(shí)驗(yàn)分析造成此種現(xiàn)象主要原因是:竊電用戶所占的數(shù)據(jù)比重較小,多次重采樣方法無法完全解決數(shù)據(jù)樣本不均衡的問題;另外樣本整體數(shù)據(jù)缺失值較多,使得樣本間數(shù)據(jù)特征差異較小。數(shù)據(jù)預(yù)處理方案有待進(jìn)一步優(yōu)化。

4 結(jié) 語

基于多源棧式混合自編碼器的竊電檢測算法,對(duì)自編碼器進(jìn)行了優(yōu)化,能夠提高自編碼器特征提取的能力,在使用智能算法提取數(shù)據(jù)特征的同時(shí)加入了人工提取特征的流程,提高了算法的魯棒性和泛化能力。經(jīng)過真實(shí)數(shù)據(jù)集的驗(yàn)證,該算法能夠有效地提取用戶用電數(shù)據(jù)特征,并取得較高的分類準(zhǔn)確率,為竊電檢測領(lǐng)域特征提取方案提供了新的解決思路,同時(shí)為其他領(lǐng)域的數(shù)據(jù)特征提取研究提供了參考。