易靈芝,黃其森,劉文翰,趙 健,陳 章,羅顯光
(1.湘潭大學自動化與電子信息學院&湖南省多能源協同控制技術工程研究中心,湘潭 411105;2.湖南省風電裝備與能源變換2011協同創新中心,湘潭 411101;3.大功率交流傳動電力機車系統集成國家重點實驗室,株洲 412001)
智能用電是堅強智能電網的關鍵環節之一,是互動服務體系的核心內容[1]。非侵入式負荷監測[2]NILM(non-intrusive load monitoring)是電力需求側管理的關鍵技術之一。該技術可以通過在電力用戶的用電入口處統一安裝計量儀表和采樣裝置來實時獲得負荷設備的用電情況,從而識別出家庭中每個電器設備的類型和工作狀態。對于普通居民來說,在線的NILM可以為基礎用戶合理規劃用電,更改習慣以降低電費,減少不必要的電力消耗。對于電網公司而言,通過NILM可以幫助電網公司對負荷的種類、工作特性及功率等信息進行分析,從而更科學的制定動態電價和電力決策[3]。作為NILM的核心,國內外學者對負荷辨識方法做了很多研究[4-6]。基于監督學習的負荷辨識相關的算法諸多,文獻[7]采用卷積神經網絡模型進行非侵入式負荷特征提取,能夠有效地進行負荷辨識,但對具有相似功率的線性負荷波形,會影響負荷辨識的準確度。文獻[8]使用快速傅里葉變換FFT(fast Fouri?er transform)提取穩態電流低奇數次諧波的幅值和相位,使用bagging決策樹BDT(Bagging decision tree)進行分類,在公開數據集PLAID上進行測試,準確度和H-mean值分別為92.8%和82.48%。基于非監督學習的負荷識別不需要家用電器負載的標簽數據,提高了實際應用性,文獻[9]提出了一種用于非侵入式監測的非監督訓練方法,不需要收集各個用電訓練數據和對用電設備貼標簽,但僅可以使用少量設備中的數據來構建學習模型,識別準確度的浮動范圍較廣。此外,在對負荷辨識之前,對負荷數據類別不平衡問題的研究也十分重要,文獻[10]提出一種SMB-SMOTE算法處理類別不平衡樣本進而提高了長短時記憶LSTM(long short-term memory)網絡分類器的分類效果,文獻[11]采用基于邊界的數據合成算法對負荷數據進行平衡化處理,通過改進的BP(back propagation)神經網絡對不平衡數據有著不錯的分類效果,但是在極端樣本差距下,分類性能不夠明顯。
針對部分數據集負荷樣本存在類別不平衡以及當前負荷辨識模型的精度不高等問題,本文提出了基于分治策略的NP-MLSTM非侵入式負荷辨識方法。該方法首先利用Mixup數據增強方法進行不平衡樣本擴充,對選取的特征變量進行核典型關聯分析 KCCA(kernel canonical correlation analy?sis),以便選擇負荷辨識的最佳匹配特征,然后采用分治策略構建二分類多層長短時記憶NP-MLSTM(negative and positive multi-layer long short-term memory)網絡模型,最后將模型在公開數據集PLAID上進行實驗驗證。
通常非侵入式負荷曲線的獲取需要經過開關事件檢測、負荷分離這兩個步驟,而分離后的電流曲線將作為負荷辨識的實驗樣本,由于用戶用電不規律將導致電力負荷類別不平衡[12]。而數據類別不平衡將會產生訓練淹沒現象,即大類樣本影響小類樣本,導致小類樣本特征訓練不充分,進一步影響分類模型效果。針對此問題,本文使用數據增強方法Mixup[13]對負荷樣本進行平衡化處理。
Mixup是基于鄰域風險最小化原則VRM(vici?nal risk minimization)的數據增強方法,使用線性插值得到新的數據樣本,具有計算開銷小、能降低模型對已損壞標簽的記憶、增強模型魯棒性和穩定性。Mixup計算公式為

式中:(xi,yi)和(xj,yj)為從訓練樣本數據中隨機抽選 的 兩 組 樣 本 ;為 增 強 后 的 新 樣 本 ,且λ∈[0,1];λ~Beta(α,α),α∈(0,∞),超參數 α 限制特征目標之間的插值強度,一般取α=0.5。
本文以公開非侵入式負荷數據集PLAID中樣本8為例,由于原始數據中該類樣本數量大幅少于其他類別的樣本,無法滿足后續實驗的要求,因此,本文采用Mixup方法對其進行樣本擴充。如圖1所示,隨機從55個房間中抽取一組樣本的電流(電壓)數據,采用式(1)與第8類樣本電流(電壓)數據進行Mixup運算,得到新的第8類樣本電流(電壓)數據。通過式(2)計算原樣本與虛擬樣本的余弦相似度,可以得到新樣本的電流(電壓)波形與原樣本相似度分別為99.54%、97.56%。因此,基于Mixup方法擴充數據樣本可行性較高,能夠為后續負荷識別提供充足且有效的數據支持。

圖1 樣本增強的電流電壓波形Fig.1 Current and voltage waveforms of enhanced samples

式中,Ai和Bi分別為增強前與增強后的數據。
長短時記憶網絡[14]是一種特殊的遞歸神經網絡,常用于文本標注、語音合成、數據預測等領域,但在非侵入式負荷辨識領域應用相對較少。該網絡只需在輸出層加入sigmoid函數即可應用于分類問題中。
LSTM神經網絡的基本單元包括遺忘門、輸入門及輸出門,如圖2所示。

圖2 長短時記憶網絡基本單元Fig.2 Basic unit of long short-term memory network

選取合適的特征作為模型訓練輸入,能夠增強模型泛化能力、防止模型過擬合。非侵入式負荷辨識領域最重要的數據特征為穩態特征、頻域特征等,本文選取典型穩態電流(RawCF)、功率奇次諧波(HarmonicsF)、降采樣電壓電流(BinF)、V-I軌跡(BinaryF)4種特征作為備選特征,如圖3所示。

圖3 4種特征可視化Fig.3 Four types of feature visualization
典型穩態電流的計算方式是采用電流上升過零點的位置開始截斷完整穩態電流,將所有周期內相應索引點的值累加求均值,得到典型穩態電流數據,計算公式為

二進制V-I軌跡的計算方式為:首先獲取一個穩態周期下的電壓、電流波形,構建 p×p維矩陣;然后將生成的圖片劃分q維度的網格柵欄;進一步將含有像素的網格柵欄指定為1,反之指定為0,得到q×q維只包含0與1的矩陣;最后將矩陣扁平化,得到q×q長度為的V-I軌跡特征變量。
上述4種特征變量均只能從單一維度反應負荷特征,因此本文將4種特征變量進行橫向拼接,融合為一個新的特征向量,記為融合特征(AllF)。
相關性分析是指對樣本中的特征變量與樣本標簽進行關聯分析。在統計學中相關性一般指雙變量間的相關性,而本文中特征變量與樣本標簽是多維變量與單變量之間的關系,無法直接計算相關系數。為了解決此問題,本文利用核典型關聯分析[15]判別它們之間的相關性,其算法步驟如下:

通過上述步驟,計算出各特征變量與樣本標簽之間的相關系數,結果如表1所示。從表1中可以看出,各變量與樣本標簽之間均存在一定的相關性,可作為負荷識別的備選特征。

表1 各特征變量與樣本標簽的相關系數Tab.1 Correlation coefficients of each feature variable and sample label
單一特征并不能涵蓋負荷數據中的所有特性,且將不同特征進行簡單的特征融合也并不能適應各種樣本類別。針對上述問題,本文在前文已解決數據集類別不平衡的工作基礎上提出一種基于分治策略的非侵入式負荷辨識模型NP-MLSTM,模型結構如圖4所示。

圖4 基于分治策略的非侵入式負荷辨識模型結構Fig.4 Structure of non-intrusive load identification model based on divide-and-conquer strategy
NP-MLSTM模型具有能夠將隨機特征與對應的樣本類別進行最優結合的特點,利用分治策略的思想將多分類問題轉化為多層擇優二分類問題。負荷辨識算法流程圖如圖5所示,其實現步驟如下:

圖5 負荷辨識算法流程Fig.5 Flow chart of load identification algorithm
步驟1 將少樣本類別數據利用Mixup方法增強虛擬樣本數量,共有I種類別(即I層);
步驟2 提取樣本中典型穩態電流、前11階功率諧波、降采樣電壓及電流、二進制V-I軌跡,集成前四種負荷特征,共J種特征,并采用核典型關聯分析方法驗證這些特征含有相關性;
步驟3 隨機選取一種類別的樣本Ui,與剩余類別構建二分類LSTM模型,將Ui與J種特征(表1所列特征)遍歷進行訓練二分類LSTM模型,得到樣本的準確率矩陣1×J;
步驟4 將除Ui以外的樣本重復步驟3,直至完成所有類別的負荷識別,得到(I-1)×J維準確率矩陣A;
步驟5 對步驟3和對步驟4中得到的矩陣A進行融合,得到該層最終的準確率矩陣AI×J,并對其進行尋優,找到準確率最高的i、j,剔除該標簽樣本,并固定該層NP-LSTM結構;
步驟6 對剩余類別的樣本重復步驟3-5,直至I層數據全部尋優結束,得到NP-MLSTM模型結果。
本文采用即插即用設備標識數據集PLAID[16],該數據包含美國賓夕法尼亞州匹茲堡市55戶家庭中11種不同類型的電器負載電流及電壓測試值,共包含采樣頻率為30 kHz的1 074個實例樣本。
由于該數據集樣本類別數量存在不平衡現象,導致分類模型學習偏向于大類樣本,對小類樣本學習不足。因此,本文采用1.1節數據增強方法Mixup對數據集內55個房間中不同數據樣本進行交叉擴充并保存小類別樣本的虛擬樣本。此數據增強方案既保證了不同房間的樣本不會交叉影響,又確保了模型評價的準確度。樣本增強前后各類別數量如圖6所示。

圖6 樣本增強前后數量對比Fig.6 Comparison of the number of samples before and after enhancement
本文采用準確率(Accuracy)、精確率(Preci?sion)、召回率(Recall)及F1值(H-mean值)對分類結果進行多維度分析,分別按照式(14)至式(17)計算。

式中:TN表示實際為負,被識別為負的樣本的數量;TP表示實際為正,被識別為正的樣本數量;FP表示實際為負,但被識別為正的樣本數量;FN表示實際為正,但被識別為負的樣本的數量。
NP-MLSTM模型的基礎參數設置如下:隱藏層神經元數為20個;學習率為0.000 3;損失函數0-1損失函數;訓練批次大小為20;時間步長設置為1;迭代次數設置為1 000;優化策略設置為自適應動量的隨機優化方法Adam(adaptive momentum)。
為了驗證本文所提基于分治策略的NP-ML?STM非侵入式負荷識別方法的有效性及優越性,首先從PLAID數據集中隨機抽取35個房間內所有樣本作為訓練集、10個房間內所有樣本作為測試集、剩余10個房間內所有樣本作為驗證集;然后使用訓練集與測試集確定NP-MLSTM的各層優選樣本標簽及優選特征變量,如表2所示,接著,使用驗證集進行NP-MLSTM負荷辨識實驗。

表2 各層具體結構Tab.2 Specific structure of each layer
NP-MLSTM模型在驗證集上負荷辨識結果的混淆矩陣如圖7所示,主對角線顏色越深,表示樣本識別的準確率越高。從圖7中可以看出,所提模型能夠正確識別絕大多數樣本,且樣本6、7、9、10、11全部識別正確。

圖7 混淆矩陣Fig.7 Confusion matrix
各類別樣本識別的準確率、精確率、召回率與F1值如表3所示。從結果可知,11種類別樣本的平均準確率、精確率、召回率及F1值均達到92%以上,樣本2、3、6、7、9、10、11類別的準確率與召回率可高達100%,說明本文所提模型具有較好的辨識準確率。出現極少部分樣本錯誤識別的原因可能是由于電流、電壓或其他特征相似程度高,且各類別樣本數量不一致,或者是因為在某層二分類識別時將該標簽錯判。

表3 各類別樣本的評價指標Tab.3 Evaluation indicators of various types of samples %
為了進一步體現NP-MLSTM模型負荷辨識效果的優越性,使用AllF特征作為對比實驗的模型輸入,將所提模型分別與樸素貝葉斯(na?ve Bayes)、決策樹(decision tree)、潛在狄利克雷分布(latent Dirichlet allocation)、回歸分析(logistic)、隨機森林(random forest)和長短時記憶網絡等模型在驗證集上進行辨識準確率對比,如表4所示。結果表明,在這些模型中,NP-MLSTM模型具有最高的辨識準確率,說明本文提出的基于分治策略的負荷辨識方法是卓有成效的。

表4 識別模型結果對比Tib.4 Comparison of results among different identification models
本文針對不同類別負荷樣本不平衡與負荷辨識準確率較低的問題,提出一種基于分治策略的NP-MLSTM非侵入式負荷辨識方法。該方法首先使用Mixup對數據集中小樣本進行虛擬樣本增強;然后使用核典型關聯分析對各特征變量進行相關性分析,并構建基于分治策略的多層擇優二分類識別模型;最后將該模型與多個識別模型進行結果對比。結果表明,該方法能夠有效地選擇用于負荷識別的最優特征變量,并利用這些特征獲得了92%以上的識別精度。但本文未使用智能優化算法對模型超參數進行尋優,采用該算法可進一步完善此問題。