999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進生成式對抗網絡的電網異常數據辨識方法

2021-05-12 06:22:34陳杰張浩天湯奕
電力建設 2021年5期
關鍵詞:統計數據方法模型

陳杰,張浩天,湯奕

(1.國網江蘇省電力有限公司溧陽市供電分公司,江蘇省溧陽市 213300;2.東南大學網絡空間安全學院,南京市 210096;3.東南大學電氣工程學院,南京市 210096)

0 引 言

隨著電力企業改革的不斷深化和發展,高耗能行業的節能降耗工作對解決我國能源問題至關重要,國家能源局和政府部門進行電力監管統計工作時十分重視節能降耗相關指標的真實有效性[1]。但現行的發電統計模式缺乏有效的數據質量管控體系,甚至存在部分電廠為滿足節能降耗和碳排放等要求上報虛假數值,形成異常數據的可能,影響相關部門和企業對發電情況的認知。因此,需要針對電廠統計數據開展異常數據辨識工作,以監管電廠實際運行水平。

隨著智能電網部署大量的智能電表和檢測設備,電網統計數據已具備數據體量巨大、數據結構復雜、數據實時性要求高等特征[1]。伴隨著人工智能算法性能提升與云計算的出現,利用大數據進行數據挖掘可大幅提升基于專家經驗方法的準確率與效率。目前,基于人工神經網絡[2]、支持向量機[3]、決策樹[4]、隨機森林[5]等算法的異常數據辨識模型已取得一定進展。這些傳統機器學習算法在類別分布均勻且樣本數量充足的數據集上均有較好的表現[6]。然而實際電力統計數據中異常樣本數量極為匱乏,正負樣本分布極度不均衡,導致數據分布中相同類別之間的分布嚴重重疊,使得機器學習分類模型易將樣本歸為多數類,整體查準率下降[7]。因此,提升標準學習算法在類別分布不均勻的數據集上的表現是當前的關鍵問題。

目前解決非均衡數據集的方法主要分為兩個方面:從算法的角度出發和從數據的角度出發。算法層面的提升主要包括利用集成學習的思想和基于代價敏感學習方法,如EasyEnsemble[8]和Adacost[9]等。另外可以將不均衡數據集轉化為一分類問題或者異常檢測問題,代表的算法有One-class SVM;數據上主要方法為采樣,分為欠采樣和過采樣方法以及對應的一些改進方法。欠采樣算法去除一些多數類中的樣本使得正例、反例數目接近,然后再進行學習,然而也可能會導致分類器丟失有關多數類的重要信息[10]。相對應地,過采樣算法增加一些少數類樣本使得正、反數目接近,然后再進行學習。過采樣代表性算法為隨機過采樣算法(random over-sampling,ROS)[11],由于隨機過采樣是直接對少數類進行重采樣,容易造成產生的模型過擬合問題。相對于采樣隨機的方法進行過采樣,還有一種比較流行的過采樣改進方式為合成少數類過采樣技術(synthetic minority over-sampling technique,SMOTE)[12],該算法對少數類樣本進行分析并根據少數類樣本人工合成新樣本添加到數據集中。然而該算法缺點也十分明顯:增加了類之間重疊的可能性以及沒有生成可以提供有益信息的樣本,對于模型分類性能的提升較為有限[13]。

2014年提出的生成式對抗網絡(generative adversarial network,GAN)[14]可以在不需要知道顯式的真實數據分布的情況下生成新的人工樣本。目前已有研究將GAN應用于電力系統數據生成。文獻[15]利用等效模型擴充小樣本數據,進而提高神經網絡性能。文獻[16]基于條件生成式對抗網絡(conditional generative adversarial nets,CGAN)生成電力系統失穩樣本,用增強后的原始樣本訓練分類器實現在線暫態穩定評估。文獻[17]利用Wasserstein克服了原始GAN訓練不穩定的問題,進一步構建了自編碼器診斷模型用于診斷設備故障。

綜上,本文提出基于Wasserstein GAN(Wasserstein GAN, WGAN)[18]的電網異常數據辨識方法。使用Wasserstein距離作為優化目標,約束生成數據的生成損失,有效地解決原始GAN訓練困難和不穩定、模式坍塌等問題。與此同時,利用生成的高精度異常數據樣本均衡原始樣本數據集。在分類算法方面,考慮到發電統計數據之間的強相關性,利用孤立森林模型中孤立樹的構造方式,通過對樣本點的孤立來檢測異常值,提升整體辨識精度。算例結果表明,本文提出的異常數據辨識方法能夠更為有效地提升辨識模型面對非均衡數據集時的分類性能,減少對多數類樣本的分類傾向。

1 基于Wasserstein GAN的原理

1.1 生成式對抗網絡

電力發電統計數據的構建問題從本質上可以理解為一個學習數據分布的生成問題。通過GAN學習原始數據分布后,選擇與原樣本差異最小的數據來擴充原始樣本集。

假設電網中存在i組量測xi時,由于這些電力量測值之間分布較為復雜,設為pr(x),顯式的數學模型難以對pr(x)進行建模。因此,GAN生成器接受一組滿足聯合高斯分布pz(z)的噪聲向量z,通過多層神經網絡建立起pz(z)與pr(x)之間的映射關系,此時生成器可生成滿足原數據分布關系的新數據。接著,訓練判別器來區分該數據是真實電網數據還是來自生成器生成的虛假數據。

原始生成對抗網絡的目標函數如下所示:

Ex~pr(x)[D(x)]-Ez~pz(z)[D(G(z))]

(1)

式中:E(·)為期望的分布;G(z)為生成數據;D(·)為判別器判斷樣本是否為真實樣本的概率。

1.2 基于Wasserstein的改進生成對抗網絡

原始GAN在訓練過程中的優化目標為減小真實數據分布和生成數據分布的JS(Jensen-Shannon)距離。然而,原始GAN的JS距離無法保證隨參數變化而連續變化,這等價于最小化一個不合理的距離衡量,進而導致梯度不穩定,生成器寧可生成一些重復但是很“安全”的樣本,也不愿意去生成多樣性的樣本。

WGAN與原始GAN基本結構類似,不同點在于WGAN引入Wasserstein距離替代傳統的JS距離,既解決了訓練不穩定的問題,也提供了一個可靠的訓練進程指標,利用該指標可指導生成更高精度的電網數據。Wasserstein距離相比JS距離的優越性在于,即使兩個分布沒有重疊,Wasserstein距離仍然能夠反映他們的遠近。Wasserstein距離的定義為:

(2)

式中:pr表示原始數據的分布;pg表示生成器數據的分布;(pr,pg)表示以pr和pg為邊緣分布的聯合概率分布γ的集合;W(pr,pg)表示將pg擬合到pr所需要的將x移動到y的距離。

(3)

對偶式大大降低了Wasserstein距離的求解難度,此時WGAN通過最小化真實電網數據分布與生成數據分布之間的Wasserstein距離來拉近真實樣本與生成異常樣本的分布。由于原始GAN的判別器做的是真假二分類任務,所以最后一層采用sigmoid層。而在電網異常樣本生成任務中,WGAN的判別器是近似擬合Wasserstein距離,屬于回歸任務,因此要把最后一層的sigmoid層去掉。

2 采用WGAN的異常數據辨識模型

2.1 模型輸入輸出及評價指標

本文選擇發電量、煤折、耗用原煤、標準煤耗等物理量原始數據,同時計算各指標間的一階統計量如標準差、偏度、峰度等擴充樣本信息。

本文考慮不同發電統計數據篡改程度下的辨識情況。將數據篡改程度分為20%、50%、80%,即每一條樣本數據中有20%、50%、80%的部分遭到篡改,為異常數據。對于分類變量,采用One-Hot編碼進行轉換,編碼結果如表1所示。

表1 發電統計數據狀態編碼

本文算例中采取的發電統計數據為一維時序數據,然而由于一維卷積模型在訓練樣本數量有限、參數輸入更多時,容易引起過擬合,且抗噪性能不如二維模型。因此需要將一維的發電統計數據進行二維等同信息度變換,轉為灰度圖數據來適配模型。若直接以曲線圖輸入,則會增加大量無用信息,因此本文采取對一維統計數據進行等長截取,將其按行或列映射到二維灰度空間這種方式,實現數據的二維灰度圖重構變換。

實際上,發電統計數據通常基于日、周、月、季、年等不同時間單元進行指標分析,通過對統計數據一定長度進行截取并二維轉換這種方式,對于具有典型周期性特征的電力數據會有更直觀的可視效果并更利于對特征分布的分析。

由于發電異常數據辨識問題存在異常樣本極少的問題,當正負樣本分布不均勻時,單獨依靠準確率無法有效衡量模型性能。本文定義如下指標綜合評判辨識模型的性能:

(4)

(5)

(6)

式中:λTPR表示預測為正常的正確結果在所有正常樣本中的占比,即查全率;λTFR表示預測為異常的正確結果在所有異常樣本中的占比,即查準率,λTFR越大,漏警率(異常樣本判斷成正常)越低;λAcc表示總體準確率;fTP表示實際為正常且預測為正常的樣本數量;fFN表示實際為正常但預測為異常的樣本數量;fTN表示實際為異常且預測為異常的樣本數量;fFP表示實際為異常但預測為正常的樣本數量。

2.2 WGAN網絡結構及訓練

生成器的輸入為100維隨機噪聲向量,在層級之間采用批標準化操作來加速收斂并減緩過擬合,使梯度傳播層次更深。并在輸出層采用tanh激活函數,其余層采用修正線性單元(rectified linear unit,ReLU)函數激活,最終生成通道數為1、大小為10×10的偽數據。

判別器網絡結構參數設計與生成器網絡基本對稱。為減少靜默神經元的出現,判別器卷積層的激活函數使用帶泄露修正線性單元函數(leaky rectified linear unit,LeakyReLU),網絡最終使用全連接層和sigmoid激活函數輸出該批次數據為真實電網數據的概率。

首先對判別器網絡進行訓練時,從真實數據分布數據集和隨機噪聲分布數據中隨機采樣,構成一個批次訓練數據。將訓練數據輸入生成器得到虛假數據,判別器對虛假數據進行判別,求出損失誤差反向傳播進行判別器網絡參數調整,更新判別器模型參數。其次,在訓練生成器網絡時,固定判別器網絡權重,根據判別器反饋的輸出和樣本標簽來計算誤差,利用反向傳播進行生成器網絡參數調整。

2.3 異常數據辨識流程

為解決電力發電統計數據實際數據集所存在的類別非均衡問題,本文提出一種采用WGAN的異常數據辨識模型,其具體流程框架如圖1所示。

圖1 基于WGAN的異常數據辨識模型

異常數據辨識分為以下幾個步驟:

1)采用bootstrap方法對數據集進行劃分,保持數據分布的一致性,避免劃分過程引入額外的偏差。

2)對訓練樣本進行歸一化處理,以提高后續機器學習模型的數據處理效率。

3)將訓練樣本轉化為10×10的二維圖像輸入生成器模型。

4)在生成器開始訓練之前,先訓練一個能判別真假的判別器;接著每訓練一次判別器,訓練一次生成器,直至達到納什均衡點。

5)使用訓練好的生成器生成人工異常數據樣本,合并原始訓練集以均衡樣本分布;在擴充后的訓練集上采用孤立森林算法進行擬合。

6)將測試集數據輸入iForest分類器進行異常辨識,根據查全率λTPR、查準率λTFR、準確率λAcc等指標對比數據增強前后的模型分類效果。

3 算例分析

3.1 實驗數據來源

本文采用某省2010年1月至2018年10月發電廠生產情況月報表作為數據集。本文構建的發電統計數據集共包含4 610條原始樣本。為防止過擬合,訓練集與測試集按照2∶1的比例進行劃分。其中,訓練集包含3 226條樣本,測試集包含1 384條樣本,每條樣本中包含發電量、發電廠用電率、煤折、耗用原煤、標準煤耗等指標數據。具體的樣本分布情況如表2所示。

表2 發電統計樣本數據具體分布

由于發電指標之間存在勾稽關系,如上網電量=發電量-綜合廠用電量-發電廠廠用電量等,實際指標間的關系比簡單等式計算更為復雜,若只篡改一項指標,則很容易發現該條數據為虛假數據。已知數據集不平衡率的定義為多數類樣本對少數類樣本的比例,由表2可知,不同篡改程度的不平衡率最大為27.16%,最小為17.32%,本文以其均值22.42%作為發電統計數據集整體分布的不平衡率。

3.2 實驗參數設置

在WGAN訓練中,判別器所近似的Wasserstein距離與生成器的生成數據質量高度相關。因此,考慮將Wasserstein距離作為訓練進程的數值指標。采取網格搜索優化方法確定數據生成模型和分類模型中的最優參數,最終模型參數如表3所示。

表3 異常數據辨識模型的最優參數

在迭代訓練約1 000輪次后Wasserstein距離收斂,此時生成器已學到原始異常樣本的分布。本文通過降維可視化的方法來直觀展示原始樣本與生樣本之間分布的相似性。分別對篡改程度20%、50%、80%的異常樣本進行主成分分析法降維,降維后的數據分布情況如圖2所示。

圖2 不同篡改程度數據降維后的分布情況

圖2中橫縱坐標為降維后歸一化的數值,直觀看來,20%和80%篡改程度的異常數據的生成樣本與原始樣本較為相近,50%篡改程度的異常數據的生成效果不如20%和80%,但生成樣本總體分布和原始樣本分布大致相似。

在直觀的可視化基礎上,本文利用余弦相似度[19]來衡量原始樣本與生成樣本的相似性。余弦相似度在SeqGAN(sequence generative adversarial nets)中被用來衡量生成樣本的質量好壞,若余弦值越接近1,就表明生成樣本與原始樣本越相似。原始GAN和WGAN在不同篡改程度下的異常生成樣本與異常原始樣本的余弦相似度結果如表4所示。

表4 余弦相似度結果對比

由表4可知,從總體來看,使用WGAN的生成樣本的相似性分數均超過0.850,較好地還原了原始樣本的分布特點和規律,避免了隨機欠采樣引起的關鍵信息丟失。雖然生成樣本和原始樣本并不完全相同,但避免了樣本重疊問題,樣本生成的多樣性可以更全面地展現原始發電統計數據特點,提升非均衡數據的重新構建效果。

3.3 不同篡改程度下檢測實驗

本文考慮不同數據篡改程度下,數據增強前后iForest分類器的性能提升。由于不同篡改程度中的原始異常樣本數量并不相同,為保證實驗準確性,分別為不同篡改程度的數據集中添加對應的人工異常樣本,使得各程度的訓練集中的類別均衡。異常檢測結果如表5所示。

表5 數據增強前后分類結果對比

從表5可知,在20%篡改程度下λTPR、λTFR、λAcc指標較數據增強前分別提高8.3%、31.3%和18.5%;在50%篡改程度下λTPR、λTFR、λAcc指標較數據增強前分別提高10.5%、39.3%和10.7%;在80%篡改程度下λTPR、λTFR、λAcc指標較數據增強前分別提高9.4%、33.5%和8.5%。因此,利用WGAN可有效生成近似于原始樣本分布的生成樣本,進而均衡原始樣本集,提升異常辨識模型的整體性能。

3.4 相同篡改程度下檢測實驗

在虛假數據篡改程度同為50%以及相同分類器的情況下,將本文的數據合成方法與合成少數過采樣技術(SMOTE)和隨機過采樣(ROS)等數據合成方法進行比較。

受試者工作特征曲線(receiver operating characteristic curve,ROC)具有當正負樣本的分布發生變化時,形狀能夠基本保持不變的特性。該特點可以盡量降低非均衡數據集帶來的干擾,更加客觀地衡量模型本身的性能,恰好契合本文非均衡問題的特性。因此,本文通過繪制ROC曲線來衡量不同方法的分類性能,具體結果如圖3、表6所示。

表6 不同數據合成方法的異常數據辨識結果

由圖3的分類結果可以看出,在相同虛假數據篡改程度和相同分類器的情況下,本文方法的ROC曲線將SMOTE方法和ROS方法的ROC曲線完全包裹。通過計算曲線下面積(area under curve,AUC)可知,本文方法的AUC值均大于另外2種方法。

圖3 不同數據合成方法的ROC

由表6中的分類結果可以看出,ROS方法從原始數據中復制異常樣本,容易導致樣本之間互相重疊,進而引發過擬合問題;SMOTE算法基于線性插值的方法容易造成邊界重疊。本文提出的WGAN是基于分布學習的方法,所以在數據分布特性上接近原始數據分布,可以合成原始數據從未出現過而又“真實”的數據,其在3種數據合成方法中都具有最高的λTPR、λTFR、λAcc和AUC值。

在驗證本文方法有效性時不僅需要考慮不同異常檢測算法之間的性能,而且需要比較不同數據合成方法之間的性能。因此,本文將GAN與WGAN相比較,基于K-means[20]、GBDT(gradient boost decision tree)[21]和iForest等不同的分類模型,在使用不同方法平衡后的數據上對模型進行訓練,然后基于原有的不平衡數據測試集進行分類檢測,在相同篡改程度50%的情況下對比檢測準確率,結果如表7所示。

表7 多種數據合成與異常檢測結合的辨識結果

由表7可知,在經過WGAN擴充樣本后,3種異常檢測算法的λTPR、λTFR、λAcc均高于經過GAN擴充樣本后的結果。雖然在λTPR上iForest無法保證最優值,但λTFR、λAcc均優于另外2種異常檢測算法。在異常數據識別工作中,算法識別出異常數值后還需依靠專家經驗進行人工核實,這是十分耗時耗力的工作。因此,確保λTPR、λTFR、λAcc之間的平衡更為重要,本文方法在保證良好誤報率和正報率的同時,精確率也有更好的表現。

綜上所述,文章分別從不同虛假數據篡改程度下,原始樣本與擴充樣本的辨識效果以及相同虛假數據篡改程度下,不同數據生成方法和不同異常值檢測方法3個方面對比說明了本文方法的有效性。

4 結 論

針對電力發電統計異常數據辨識中存在的數據非均衡問題,本文提出一種基于WGAN和孤立森林算法的異常數據分析方法,在某省實際電網統計數據上進行了計算,得到如下結論:

1)改進的WGAN模型使用Wasserstein距離代替JS散度作為優化目標,提高模型訓練的穩定性,解決了模式坍塌的問題。

2)相較于K-means、GBDT等傳統異常數據辨識算法,本文方法能減少辨別模型對多數類樣本的分類傾向問題,提高整體辨識精度。相較于傳統數據生成方法,WGAN并非對數據簡單線性合成,而是學習原始數據分布并生成近似的人工數據。

3)本文提出的異常樣本辨識技術可以推廣應用至不同結構類型的數據對象,具有良好的泛化能力。

如何生成更高精度的少數類樣本數據,并應用于提高數據平衡性將是未來研究的重點。

猜你喜歡
統計數據方法模型
一半模型
創新視角下統計數據的提取與使用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
國際統計數據
全球化(2018年6期)2018-09-10 21:29:09
2017年居民消費統計數據資料
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: av在线无码浏览| 这里只有精品在线播放| 91久久偷偷做嫩草影院精品| 国产三级毛片| 第一区免费在线观看| 成年人免费国产视频| 国产精品免费露脸视频| 久久国产亚洲偷自| 国产视频只有无码精品| 55夜色66夜色国产精品视频| 国产在线啪| 亚洲国产精品VA在线看黑人| 亚洲第一香蕉视频| 日日摸夜夜爽无码| 91亚洲精品第一| 手机在线国产精品| 欧美激情伊人| 欧美成人手机在线视频| 国产国产人成免费视频77777| 亚洲系列中文字幕一区二区| 毛片卡一卡二| 国产精品久线在线观看| 最新日本中文字幕| 亚洲女同一区二区| 二级特黄绝大片免费视频大片| 久久久久久国产精品mv| 在线观看亚洲天堂| 久久久波多野结衣av一区二区| 日韩欧美色综合| 国产成人精品高清不卡在线| 69av免费视频| 欧美成人A视频| 亚洲天堂2014| 深夜福利视频一区二区| 久热中文字幕在线| 无码中文字幕乱码免费2| 91久久大香线蕉| 欧美激情网址| 亚洲视频影院| 色哟哟精品无码网站在线播放视频| 香蕉视频在线精品| 91精品国产丝袜| 中文字幕色站| 国产二级毛片| 国产免费怡红院视频| 3344在线观看无码| 日韩福利在线观看| 日本在线国产| 欧美亚洲欧美区| 中文字幕人妻无码系列第三区| 亚洲色图欧美| 成人一区在线| 无码区日韩专区免费系列| 日日拍夜夜嗷嗷叫国产| 大学生久久香蕉国产线观看| 精品亚洲国产成人AV| 午夜无码一区二区三区| 精品无码视频在线观看| 久视频免费精品6| 亚洲日本在线免费观看| 欧美不卡视频在线| 国产亚洲精品无码专| 久久黄色毛片| 狠狠躁天天躁夜夜躁婷婷| 欧美午夜在线播放| 人妻丰满熟妇av五码区| 找国产毛片看| 精品久久高清| 国产美女久久久久不卡| 九色在线视频导航91| 露脸国产精品自产在线播| 国产精品免费久久久久影院无码| 日韩成人在线网站| 永久天堂网Av| 午夜精品久久久久久久无码软件| a毛片在线播放| 91热爆在线| 一级毛片免费不卡在线| 久青草网站| 日韩精品亚洲一区中文字幕| 一区二区理伦视频| 国产欧美一区二区三区视频在线观看|