杜國慶,石頡
(蘇州科技大學 電子與信息工程學院,江蘇 蘇州 215009)
低壓斷路器是保障低壓配電系統安全的關鍵設備,其健康狀態影響著配電系統的性能和穩定性[1]。其中分合閘線圈電流能夠很好地反映出低壓斷路器電磁系統參數變化以及故障的情況[2]。
隨著機器學習的不斷發展,目前許多機器學習方法都被廣泛運用到故障診斷中[3],而機器學習從不平衡數據中提取的特征往往是不準確的,其判別結果往往趨向于多數類,故不平衡數據集極大限制了機器學習模型對故障的準確診斷[4]。傳統對于數據集不平衡的問題,主要通過樣本擴充[5]和改良診斷模型[6]兩方面。雖然這些方法對不平衡數據集存在的問題做了改進,但還是難以生成逼真的樣本數據。
生成對抗網絡(Generative Adversarial Networks,Gan) 最初由Goodfellow 等人提出,最近被廣泛應用于對輸入樣本進行學習與訓練[7],為了提高GAN 訓練過程的穩定性以及各類別的差異性,本文引入最小二乘損失函數與標簽信息,首先通過將損失函數替換為最小二乘損失函數,提高了訓練過程的穩定性;其次引入不同類型數據的標簽,使得訓練出來的數據更符合其標簽描述,最后通過皮爾森相關系數、歐幾里得距離和余弦相似度驗證了生成數據的相似性。
生成對抗網絡的網絡結構通常包括生成器與判別器兩部分。其中生成器G輸入簡單的隨機噪聲,通過學習到與真實樣本間的映射關系,輸出盡可能真實的樣本數據;而判別器D的任務是盡可能判別出生成的樣本與真實的樣本[8],其網絡結構示意圖如圖1 所示。通過兩者的對抗博弈訓練,不斷優化各自性能,最后到達納什平衡[9]。其目標函數公式如下:

圖1 生成對抗網絡結構示意圖
式中:Pr為真實樣本分布,Pz為隨機噪聲分布,E(·)表示計算期望,G(z)表示生成器生成的樣本,D(·)表示判別器輸出的結果。
原始GAN由于采用交叉熵作為目標函數,在訓練過程中可能由于生成樣本與真實樣本分布差異較大,導致訓練過程中出現梯度消失的問題,從而導致生成的數據質量很差。故本文引入最小二乘生成對抗網絡(Least Squares Generative Adversarial Networks,LSGAN) ,將GAN 的目標函數由交叉熵改為最小二乘損失函數,解決了梯度易消失以及生成數據質量不高的問題。LSGAN的目標函數如式(2) 所示:
式中:a,b分別為生成樣本與真實樣本的標簽,c是判別器D對生成樣本判別為真的期望值,本文設置a=0,b=c=1。
原始GAN只能保證生成的數據盡可能真實,但是忽略了生成的數據是否符合對其描述的要求。因此本文引入了條件生成對抗網絡(Conditional Generative Adversarial nets, CGAN) ,將對樣本描述的條件信息C作為輸入,加入網絡中進行一起訓練,以此來指引GAN 的生成方向,使得生成的樣本數據更可控,更符合真實樣本規律,其網絡結構如圖2 所示。CGAN 的目標函數公式如下:

圖2 條件生成對抗網絡結構示意圖
式中:c為標簽信息,本文中該標簽信息設置為各類故障所對應的標簽。
基于最小二乘條件生成對抗網絡的數據增強方法(Least Square Condition Generative Adversarial Networks,LSCGAN) 流程設計主要分為三個環節:1)數據集準備;2)模型訓練;3)模型測試。具體步驟描述如下:
1) 將采集的斷路器分合閘線圈電流信號隨機劃分為訓練集與測試集。
2) 設計生成器與判別器網絡結構,并對模型參數初始化,以最小二乘作為損失函數。首先訓練判別器50 次使其具有稍好的判別功能,接著,讓生成器與判別器進行對抗博弈訓練,使兩者達到納什平衡,此時生成器生成的樣本數據達到以假亂真的程度。
3) 使用生成器生成的數據與測試集進行對比,對兩者的相似程度進行比較。
本文以“CW1-1600”型低壓萬能式斷路器為實驗對象,通過NI USB-6002 數據采集卡以50kHz 進行ad采樣,使用“CMS0 50NPT”型霍爾電流傳感器采集分合閘線圈電流,采集了:0-正常工作;1-動作電壓過低;2-合閘線圈老化;3-合閘鐵芯空行程過大;4-鐵芯卡澀狀態下的分合閘線圈電流數據,其中正常工作狀態100組,其余4種故障狀態各25組,每組波形包含了10 000個采樣點,各狀態典型電流波形如圖3所示。

圖3 分合閘線圈各狀態典型電流圖
為了評估生成樣本與真實樣本的相似性,本文通過皮爾森相關系數、歐幾里得距離和余弦相似度三個指標展示生成樣本的平均性能。
皮爾森相關系數用于度量兩個向量之間的線性相關性,其值介于-1 與1 之間。相關系數越接近于1或-1,相關度越強;相關系數越接近于0,相關度越弱。兩個向量間的皮爾森相關系數計算公式如下:
歐幾里得距離用于度量m維空間中兩個點之間的真實距離,它主要用于評價兩個向量在位置上的差異性,其值越小,表示兩者相似度越高。兩個向量間的歐幾里得距離計算公式如下:
余弦相似度將空間中兩個向量夾角間的余弦值作為衡量兩個個體之間差異的大小,余弦值接近1,夾角趨于0,表明兩個向量越相似;余弦值接近于0,夾角趨于90度,表明兩個向量越不相似。兩個向量間的余弦相似度計算公式如下:
本文實驗基于PyTorch 開發環境搭建的網絡模型,批處理量設為64,學習率設為0.000 1,迭代次數設為500,并使用SGD優化算法進行優化,訓練集與驗證集比例劃分為7:3。最終訓練完成的生成器生成的分合閘線圈各狀態電流波形如圖4所示。

圖4 生成分合閘線圈各狀態電流圖
為驗證生成樣本與真實樣本的相似性,利用生成器生成的樣本與測試集通過皮爾森相關系數、歐幾里得距離和余弦相似度進行驗證,為直觀反映出各狀態波形的相似性,通過引入混淆矩陣來展示每一個狀態的相似程度,其中橫軸表示生成樣本的類型編號,縱軸表示真實樣本的類型編號,如圖5所示。從皮爾森相關系數可以看出,同類型生成與真實樣本之間的皮爾森相關系數為0.999,而不同類型間的皮爾森系數偏小,說明同類型間的線性相關性較好。通過歐幾里得距離可以很明顯地看出,同類型間的歐幾里得距離最小,且相差較大,說明同類型間的位置差異性較小。通過余弦相似度可以看出,同類型間的余弦相似度最高,說明同類型間的方向差異性較小。由此可見,相同類型的生成樣本與真實樣本相似度較高,而不同類型間的差異較大,說明本文所提方法可以很好地學習到各類型真實樣本的特征與差異,能夠較好地完成對不平衡數據集進行擴充及平衡數據集的任務。

圖5 生成樣本與真實樣本相似性相關指標對比
本文提出了一種基于改進GAN 的斷路器線圈電流數據增強方法,該方法通過最小二乘替換原模型損失函數,提高了模型訓練的穩定性;通過加入樣本標簽信息一起訓練,提高了生成模型的可控性。通過皮爾森相關系數、歐幾里得距離和余弦相似度這三個相似性指標驗證了生成樣本質量的可靠性。結果表明,本文所提方法可以作為低壓斷路器線圈電流數據增強的一種有效手段,具有一定的工程應用價值。