吳晨曦,李博亞,孫弼洋,鐘素鵬
(國網浙江省電力有限公司超高壓分公司,杭州 310000)
輸電線路是電力傳輸的主要組成部分,也是電力系統安全運行的重要保障[1]。輸電線路的運行環境復雜多變、分布區域極廣、搭建成本高、運維檢修難度大,正確判斷其運行狀態對提高電力系統安全性具有重要意義??紤]到輸電線路種類繁多,關于其外部環境和內部結構的數據信息存在冗余,電網工作人員多依據主觀經驗提取重要指標對線路進行畫像構建,采用基于自回歸[2]和主成分分析[3]的方法對輸電線路各狀態因素進行權重評分,綜合總分對輸電線路進行評估。該方法受人為主觀因素影響較大,很大程度上依靠電網技術人員的經驗,因而推廣泛化能力較弱。
在輸電線路畫像建立方面,傳統研究大多使用K-means[4]算法對海量輸電線路數據進行降維和聚類,但K-means算法需要事先給定聚類數量,而且聚類數量的選取大多依據電網技術人員的主觀經驗,很大程度上影響了聚類效果。近年來,隨著機器學習技術在計算機視覺[5]、自然語言處理[6]、優化調度[7]等諸多領域的廣泛應用,電網技術人員嘗試基于網絡和學習的算法[8]對輸電線路建立狀態畫像。傳統的機器學習[9]算法主要有人工神經網絡、支持向量機、貝葉斯方法、組合方法、K 近鄰方法、決策樹等。張琦等[10]結合粗糙集理論中的決策表化簡算法,利用人工神經網絡對輸電線路的歷史狀態信息進行特征聚類;但是當出現數據規模大、特征信息多的情況時,人工神經網絡的訓練和收斂速度不夠理想。石萬宇等[11]利用支持向量機對輸電線路狀態因素信息進行聚類,然后依據輸電線路歷史狀態建立回歸模型;該回歸模型有較好的泛化能力,但特征提取能力不強。文獻[12]利用貝葉斯方法對輸電線路的外部環境和內部結構信息進行聚類,評估當前環境下輸電線路的狀態;貝葉斯方法雖然具有良好的聚類性能,但計算時間較長,不利于實際應用。上述算法雖然能夠完成一定程度的聚類分析,但對數據的特征提取和降維能力有限,需要人工提取海量數據特征,才能達到較好的評估效果。
在輸電線路狀態評估方面,目前流行的方法是自回歸綜合移動平均線法[13]及其變體。該方法雖然在處理基于時間序列的設備狀態評估問題上取得了較好效果,但仍存在如下不足:模型基于回歸方法進行狀態評估,缺乏輸入與輸出之間的非線性表達;在統計檢驗時,需要對數據分布等信息做出一些假設(比如滿足恒定標準差準則),但是該假設在實際電網場景中并不適用;該方法不適用于輸入數據量較大情況下的狀態評估。隨著深度學習的不斷發展,深度神經網絡[14]表現出良好的性能,能夠實現對海量數據進行非線性映射,具有更強的數據特征提取和理解能力。目前,以LSTM(長短期記憶)網絡、卷積神經網絡和稀疏自動編碼機為代表的深度學習模型在輸電線路狀態畫像與評估領域得到廣泛應用。深度置信網絡[15]由多層受限玻爾茲曼機和單層反向傳播網絡構成,可以利用海量輸電線路數據對輸電線路進行狀態評估。但是,深度置信網絡需要大量帶標簽的數據,收斂速度較慢,且容易陷入局部最優困境。深度卷積神經網絡[16]利用輸電線路的現場照片,對桿塔、導地線、絕緣子、金具等設備進行目標檢測和狀態評估,其評估準確率受圖片質量、數量及計算資源等影響較大。LSTM 網絡[17]采用遺忘門、輸入門和輸出門3種門控單元提取輸電線路畫像的固有特征和數據標簽,具有較好的輸電線路狀態評估效果。上述深度學習模型需要大量的數據訓練來提高網絡的特征提取能力,同時大規模的梯度反向傳播也給計算資源帶來嚴峻的挑戰。
基于此,本文按照先聚類后回歸的順序,提出一種基于自適應自組織神經網絡和雙向LSTM網絡的輸電線路狀態畫像與評估模型。首先,對輸電線路的海量數據進行降維解耦,自適應地提取出幾類最具代表性的核心數據信息。然后,將核心數據送入雙向LSTM 網絡,對模型進行雙向訓練,提升模型對輸電線路狀態的評估精度。自適應自組織神經網絡的引入極大地降低了數據規模,減少后續網絡的運算量,同時有效避免了人為主觀因素的影響;雙向LSTM 網絡對降維后的代表性數據進行監督學習,其雙向學習與評估的特性可以更好地對樣本數據進行特征提取,在合理運算量下得到更高的輸電線路狀態評估精度。以某省部分輸電線路數據作為訓練樣本,將本文方法與常用的人工神經網絡、支持向量機、稀疏編碼器等方法進行對比,以驗證本文方法的評估準確率。
本文聚焦輸電線路的畫像建立與狀態評估問題。輸電線路設備畫像旨在從公共安全類(塔基滑坡、雷擊、覆冰等)、地理信息類(桿塔位置坐標、標識球坐標等)、實時檢測類(絕緣子泄漏電流、架空線溫度等)、屬性標簽類(電纜規格型號、家族缺陷等)和運維信息類(基礎、金具、絕緣子、導地線、緊縮銷、接續管狀態)等多元數據中,提取出能夠描述線路運行狀態的核心指標,并進行具象化展示。線路評估是根據當前輸電線路信息,結合線路歷史數據,對線路的當前狀態進行評價(“正?!被颉爱惓!保S捎谳旊娋€路狀態量信息繁多冗雜,各數據信息之間存在耦合關聯,直接針對所有狀態信息進行狀態畫像和評估會消耗大量的計算資源,評估結果也不理想。為此,本文引入一種先聚類后回歸的方法,提出一種基于自適應自組織神經網絡的輸電線路畫像模型:對輸電線路的狀態信息進行降維聚類,提取核心特征,減少數據規模,建立線路的狀態畫像;基于具有核心代表性特征的線路信息,設計雙向LSTM 網絡,將前向學習和反向學習相結合,進行模型的雙向訓練與評估,建立輸電線路底層數據與其狀態的非線性映射關系。這種先聚類后回歸的方法可大幅減少計算時間,降低計算資源消耗,并可得到更好的評估效果。
本文旨在對電網場景下輸電線路的海量數據信息進行深入挖掘。輸電線路包括桿塔、導地線、絕緣子等內部設施數據和雷擊、覆冰、污閃等外部條件數據,線路的數據信息量極大且存在較多冗余,因此引入自適應自組織神經網絡模型,提取出最具有代表性的幾類指標信息,構建輸電線路畫像,同時無需工作人員事先給出聚類數量,以便對輸電線路狀態進行評估。
動態生長自組織神經網絡為兩層人工神經網絡,其輸入為某段輸電線路的多元數據信息X=(x1,x2,…,xN)∈RN。動態生長自組織神經網絡的輸出為競爭層神經元的權重M=(m1,m2,…,mZ)∈RZ。令輸出神經元的初始數量Z=4,對其權重進行隨機初始化。與自組織神經網絡訓練過程相似,在每個迭代時刻t隨機挑選一個輸入神經元x(t),在歐氏空間中,距離x(t)最近的輸出神經元即為獲勝神經元c(t),計算公式為:

獲勝神經元及鄰域神經元向輸入神經元x(t)靠近,滿足赫布學習規則:

式中:δ(t)為計算參數,δ(t)=0.8×0.97t-1;α(t)為學習率,其初始值為0.9,每20個迭代周期減少5%。隨著迭代過程不斷進行,輸出神經元逐步學習網絡輸入的模式和規律,逐漸成為輸入數據的類中心。
為使自組織神經網絡[18]能夠自適應尋找合適的聚類數,引入平均量化誤差概念來控制輸出神經元的分裂與聚合。假設輸入神經元的平均權重,則使用初始量化誤差einit作為衡量輸出神經元分裂聚合的依據:

式中:ei為輸出神經元mi(t)對輸入的量化誤差;N為輸入神經元的數量;nC為以輸出神經元mi(t)為類中心的輸入神經元數量,這類輸入神經元構成集合Ci。若ei>τ1·einit(τ1為分裂系數,取0.8),則該輸出神經元分裂為兩個神經元,否則不分裂;若ei<τ2·einit(τ2為聚合系數,取0.2),則該神經元進行聚合操作,即與最近的其他輸出神經元合二為一,形成新的輸出神經元。
輸電線路狀態評估模型通常利用人工或算法選取關鍵指標,采用自回歸或主成分分析法來確定各指標的權重。這些方法受技術人員主觀經驗影響,對線路狀態的評估不夠準確。為此,本文基于上述自適應自組織神經網絡提取的輸電線路核心信息,使用雙向LSTM 網絡,將前向學習和反向學習相結合,進行模型的雙向訓練與評估,建立輸電線路底層數據與其狀態的非線性映射關系,提高電網場景[19]下輸電線路狀態評估的準確率。LSTM 網絡一般包括遺忘門、輸入門和輸出門,如圖1所示,其中:下標t表示當前時刻,t-1表示上一時刻,下同;xt為連接輸入層的輸入向量;ht為隱含層輸出;ct為記憶單元狀態;σ為Sigmoid函數。遺忘門決定是否保留或刪除現有的信息;輸入門指定新信息將被添加到內存的程度;輸出門控制單元中現有的值是否對輸出有貢獻。

圖1 LSTM網絡門控單元
在使用神經網絡進行評估前,通常使用歸一化方法將不同量綱、量級的數據統一化為同一個量級的無量綱數據,以加速網絡的訓練和推理速度。常用的歸一化方法包括z-score歸一化和minmax 歸一化方法。z-score 歸一化是基于原始數據的均值和標準差來進行數據的標準化,處理后的數據滿足均值為0、方差為1 的正態分布:xnorm=(x-μ)/σ,其中x為原始數據,μ為原始數據的平均值,σ為原始數據的標準差,xnorm為歸一化后的數據。min-max 歸一化也稱為離差標準化,是對原始數據的線性映射,使歸一化后的數據保持在[0,1]區間:xnorm=,其中xmin和xmax為原始數據的最小值和最大值。
1)遺忘門。遺忘門通常使用Sigmoid函數[20]來決定需要從LSTM 網絡中刪除哪些信息。遺忘門輸出ft的值介于0~1,當ft趨近于0 表示傾向于遺忘該信息,當ft趨近于1 表示傾向于保留該信息。遺忘門的輸出ft可以表示為:

2)輸入門。輸入門決定新信息添加到網絡內存的程度。輸入門包括Sigmoid 和tanh 兩層網絡。Sigmoid 層決定需要更新值的向量it,tanh 層創建一個新的候選值向量,并將其添加到LSTM 網絡的內存中。具體公式表達如下:


3)輸出門。輸出門首先使用一個Sigmoid層來決定網絡內存的哪一部分用于輸出,執行一個tanh 函數來映射-1~1 之間的值,將結果乘以一個Sigmoid層作為輸出。

式中:ot為輸出門的輸出;為權重矩陣;bo為偏置矩陣。
雙向LSTM 網絡是LSTM 網絡的變體,由兩個LSTM 網絡構成,如圖2 所示。在第一輪中,輸入序列以前向傳播的方式輸入LSTM 網絡。在第二輪中,將輸入序列以反向傳播方式輸入到LSTM 網絡中。雙向LSTM 網絡將前向傳播與反向傳播相結合,使模型進行雙向訓練與評估,從而提高模型預測評估的準確性。

圖2 雙向LSTM網絡結構
本文采用某省電網100條輸電線路的14 300個樣本信息作為模型評估數據集,并依據所處區域差異構造Ⅰ、Ⅱ、Ⅲ3個子數據集?;谏a管理系統的設備臺賬信息、故障和計劃停電文本數據、斷面和告警類結構化信息和外部氣象條件數據,建立輸電線路狀態評估樣本集。每個樣本包括共40 個維度的信息:基礎、金具、桿塔、絕緣子、導地線、緊縮銷、接續管等12 類內部設施狀態數據(以桿塔為例,桿塔彎曲記為1,正常記為0);塔基滑坡、雷擊、覆冰、風偏、污閃等8類公共安全類數據(以雷擊為例,發生雷擊記為1,不發生則為0);桿塔位置坐標、標識球坐標等10類地理信息數據;電纜生產日期、規格型號、家族缺陷等6類屬性信息;絕緣子泄漏電流、架空線溫度等4類檢測數據。每個維度的數據均使用z-score進行歸一化處理,各樣本依據DL/T 1249—2013《架空輸電線路運行狀態評估技術導則》[21]要求標注“正?!被颉爱惓!睒撕?。以隨機選取方式劃分數據集,其中70%用于訓練雙向LSTM 網絡模型,其余30%作為測試集。
網絡參數方面,本文使用Adam優化器進行優化,學習率初始值設置為0.01,在前100輪訓練過程中,每20 輪訓練學習率減半,屬于模型粗調階段;在后150輪訓練過程中,學習率保持不變,進入模型微調階段。批量大小設置為12,共進行250輪訓練。每層網絡均使用Sigmoid激活函數以引入非線性成分,所有數據均進行z-score歸一化。
本文所有算法均在配備Intel(R)Core(TM)i7-8750H(2.20 GHz)處理器和8 GB 內存的Windows 10 計算機上進行測試。采用評估準確率A、F1值和偽正類率R作為評價模型性能的指標:評估準確率A反映模型評估的總體性能;F1值可以看作精確率與召回率的加權,F1值越大,模型性能越好;電網對輸電線路實際異常但被評估為正常現象的容忍度很低,因此引入偽正類率R來表征模型對這種情況的錯判率。表1為輸電線路狀態評估混淆矩陣,其中TP和FN分別為“正?!睒颖颈荒P驼_和錯誤評估的數量,TN和FP分別為“異?!睒颖颈荒P驼_和錯誤評估的數量。

表1 輸電線路狀態混淆矩陣
根據表1,評估準確率A、F1值和偽正類率R的計算公式分別為:
2.2.1 狀態畫像
本文基于某省電網公司的輸電線路數據信息,利用自組織神經網絡,自適應地提取并聚類出6類影響輸電線路狀態的外部因素(即風偏、覆冰、雷害、污閃、外力和其他故障程度),以及8 類影響輸電線路狀態的內部因素(即基礎、桿塔、導地線、絕緣子、金具、接地裝置、附屬設施和通道環境),構成輸電線路的狀態畫像。使用K-means算法對輸電線路數據進行聚類,與自組織神經網絡作對比,如圖3所示,其中數字表示該狀態因素在總體的外部或內部因素中的權重占比。由圖3可知,采用自組織神經網絡得到的輸電線路畫像中:覆冰在外部因素中的權重占比為0.33,高于采用K-means 得到的結果(0.23);絕緣子在內部因素中的權重占比為0.21,高于采用K-means 得到的結果(0.14)。
2.2.2 狀態評估
將聚類降維后的輸電線路數據作為雙向LSTM網絡的輸入,得到評估準確率、F1值和偽正類率。將所提出的模型與目前用于輸電線路評估的主流模型(如人工神經網絡、支持向量機、進化計算、K 近鄰算法等機器學習模型,稀疏自動編碼機、卷積神經網絡、傳統LSTM網絡等深度學習模型)進行對比,結果如表2和表3所示。

表2 基于K-means聚類的不同算法評估效果比較

表3 基于自適應自組織神經網絡聚類的不同算法評估效果比較
采用自適應自組織神經網絡聚類時:在數據集Ⅰ上,本文提出的雙向LSTM 網絡的評估準確率比次優的進化計算高0.6%,偽正類率低0.6%;在數據集Ⅱ上,本文算法的評估準確率比傳統的LSTM網絡高1.2%;在數據集Ⅲ上,本文算法的偽正類率比支持向量機低2.4%。同時,本文算法的求解速度明顯高于卷積神經網絡、進化計算和LSTM網絡等算法。
采用K-means 聚類時:本文算法的評估準確率在數據集Ⅰ、Ⅱ、Ⅲ上比次優的LSTM 網絡分別高0.5%、1.2%、0.6%,且計算時間分別少28 s、36 s、35 s。
實驗結果表明,本文提出的算法可在更短時間內獲得更好的輸電線路評估效果,有效地挖掘出海量輸電線路中的核心信息。
將模型所采用的z-score 歸一化方法分別替換成min-max 和無歸一化方法,得到迭代過程的評估準確率如圖4 所示。在整個迭代過程中,采用z-score 歸一化方法的模型的評估準確率要明顯高于其他兩種方法。

圖4 模型評估準確率比較
不同歸一化處理下的模型評估效果如表4 所示。采用z-score歸一化模型的評估準確率比采用min-max 歸一化模型高3.2%,比無歸一化模型高9.9%。采用z-score歸一化模型的偽正類率也遠小于其他兩種模型??梢?,對于雙向LSTM 網絡模型而言,z-score 歸一化方法要優于min-max 歸一化方法和不采用歸一化的方法。

表4 不同歸一化處理下的模型評估效果
本文提出一種基于深度學習的輸電線路狀態畫像與評估模型。具體而言,首先設計一種自組織神經網絡對輸電線路數據進行降維處理,提取出關鍵的幾類數據,進而構建出輸電線路的畫像模型,為輸電線路狀態評估提供全方位、多層次和多角度的數據支持。該網絡可以自適應地提取幾類關鍵信息,無需人為事先設定聚類數量。之后,針對線路的設備畫像數據,提出基于雙向LSTM 網絡的輸電線路評估模型。雙向LSTM 網絡由兩個獨立的LSTM 網絡構成,且參數彼此獨立。在訓練過程中,模型將前向學習與反向學習相結合,建立了線路關鍵指標與運行狀態的非線性映射關系,提高了電網場景下輸電線路狀態評估的準確率。
基于某省電網100條實際輸電線路狀態數據的實驗結果表明,與常用的支持向量機、人工神經網絡、稀疏自動編碼機等方法相比,本文方法可以更好地對輸電線路進行設備畫像和狀態評估。