張家琦,郭帥,李國昌,陳穎,宋瑋瓊,關慧哲
(1.清華大學 電機工程與應用電子技術系,北京 100084; 2.國網北京市電力公司,北京 100031)
智能電能表是重要的法制計量器具,是實現電力貿易結算的必要設備,其運行可靠性對保證用戶合法權益、電網公司經濟利潤等方面有重大影響[1-3]。傳統上,電網公司通常采用現場巡檢、遠程異常篩查、異常主動上報等方式開展智能電能表運行狀態評價,并依據評價結果開展相應的更換、修校等工作。但是,這種傳統運維模式對于人力物力要求較高,且工作周期較長,在保證智能電能表高可靠性的前提下需投入占用較多資源,且存在潛在的資產浪費風險[4-5]。近年來,隨著配電網中海量智能電能表的接入,形成了智能電能表大數據,其中包含著豐富的設備結構、檢修和運行狀態等信息。因此,基于大數據技術建立智能電能表可靠性評估模型,對運行中智能電能表的可靠性進行合理評估,對于增加智能電能表運維效率,保障現場運行水平,提升公司精益化管理水平有重要意義[6-7]。
目前,建立面向合理評估智能電能表可靠性的數學模型主要采用以下三種方法。首先,通過元器件應力法建立失效率模型,可以有效地對智能電能表基于硬件結構和功能設計的故障或異常情況進行模擬,并基于元器件手冊計算得到MTTF(Mean Time To Failure: 平均失效前時間),用以表征智能電能表的壽命估計值,可作為智能電能表可靠性評估的重要參數[8-11];其次,基于事先假定的一種智能電能表失效率分布如威爾遜分布等,根據智能電能表的故障數據對參數進行最小二乘法擬合,從而得到智能電能表的可靠性評估模型[12];此外,結合事先假定的智能電能表失效率分布和多應力Peck模型,對智能電能表進行加速壽命試驗,從而對智能電能表的可靠性進行評估[13-15]。但是,目前的研究大都存在智能電能表功能拓撲高度簡化、所形成的壽命模型參數較為靜態的問題,無法反映或適應智能電能表物理模型和運行環境條件變化的影響[16-17]。而加速壽命試驗較為復雜,且隨著智能電能表可靠性水平逐漸提高,試驗中所需要的失效樣本數據獲得成本較大。
智能電能表多源大數據中包含著運行狀態的相關信息,通過對其進行融合大數據分析和建模,可以有效地鑒定智能電能表的健康狀態,從而為電網公司實現相關資產管理工作的精益、高效提供合理建議。目前智能電能表多源數據由兩類構成。一是故障智能電能表的檢修數據,以下簡稱檢修數據,該類數據記錄了已經發生故障并拆回檢修的智能電能表的物理信息、故障類型和運行壽命;二是智能電能表的異常報警歷史記錄,以下簡稱異常數據,該類數據由用電信息采集系統進行采集和記錄,可以反映該電能表的運行健康水平[18-19]。因此,通過對檢修數據和異常數據的融合分析,可以有效建立智能電能表可靠性評估模型。
為解決現有可靠性評估方法的缺點,針對智能電能表可靠性進行合理評估,提出了基于多源數據融合的智能電能表可靠性評估建模方法。對智能電能表多源大數據融合整理后,采用生存分析理論對其進行建模,將其作為影響智能電能表可靠性的協變量刻畫智能電能表的生存函數。同時,采用深度神經網絡學習生存函數參數,得到了智能電能表在協變量影響下的生存函數模型,并通過算例分析與經典的元器件應力法等傳統方法的評估結果進行了對比,驗證了模型的合理性和可行性。
將規定時間和安裝條件下智能電能表成功執行標準中規定功能的能力稱為其可靠性。文中將一般的智能電能表失效的情況等同于智能電能表發生了故障。
對于智能電能表的可靠性進行定量評估,一般采用的指標有可靠度R(t)、失效率λ(t)和平均故障前時間MTTF等。假設某個產品服從某種概率分布F(t),在一個不可預測的隨機時間點失效,如式(1)所示:
F(t)=P(T≤t),t∈R+
(1)
該分布具有概率密度函數f(t)。則可定義以下概念:
(1)可靠度R(t):規定時間和安裝條件下智能電能表成功執行標準中規定功能的概率,如式(2)所示:
R(t)=Pr(T>t)=1-F(t)
(2)
式中T為智能電能表失效前的工作時間;t為所給定的時間。
(2)失效率λ(t):表示運行到某時刻未發生故障的智能電能表之后單位時間內發生故障的概率,如式(3)所示:
λ(t)=f(t)/R(t)
(3)
由于目前電網公司一般采用對達到使用期或發生故障的智能電能表進行整機更換的策略,因此將智能電能表視為不修產品,采用MTTF對其可靠性進行描述。
預先假設智能電能表失效率分布進行直接擬合或是加速壽命試驗,可得到智能電能表的失效率λ(t),進而得到可靠度R(t)。但是,直接利用故障數據擬合假設分布,得到的是靜態模型,無法反映隨著環境應力作用帶來的設備性能退化、可靠性下降等問題。采用加速壽命試驗得到的可靠性指標考慮了環境應力因子的影響,但是該方法依賴于在不同應力條件下智能電能表運行試驗得到的失效數據,過程復雜,執行難度較大。
智能電能表多源大數據中包含檢修數據和異常數據。前者記錄了智能電能表失效后,即發生故障后的壽命時間和故障信息;后者則包含了運行中智能電能表健康水平與異常狀態的相關性信息。由兩者融合分析即可建立智能電能表運行狀態與多種數據之間的關聯關系,從而打破傳統工作模式對智能電能表運行狀態進行評估的天然限制。
將智能電能表的檢修數據和異常數據進行整理融合,即得到具有如下格式的智能電能表失效數據,如式(4)所示:
(4)

由于實際中智能電能表故障率較低,導致失效數據中包含較多的刪失數據,即數據中部分智能電能表并未發生故障。由于刪失數據中包含設備可靠性信息,無法剔除。包含此類刪失數據的數據形式無法采用傳統可靠性理論進行分析。生存分析理論作為一種研究事件發生前時間(Time-to-event)分布規律的理論,可以有效處理刪失數據,從中提取有效信息。因此,采用生存分析理論對智能電能表失效數據進行建模分析,對智能電能表可靠性進行評估。
考慮對智能電能表失效數據進行整理,得到如下形式的數據向量,如式(5)所示:
(5)

為避免數據中無效樣本對預測模型的影響,需要對樣本進行清洗,刪去異常數目較少的樣本。其次,考慮到每個智能電能表不同異常發生的次數可能存在較大差異,為避免神經參數訓練發散,對其每列進行歸一化處理。歸一化所采用的公式如下:
(6)

(7)
式中X(i)=[x1(i),x2(i),…,xN(i)]。
生存分析是研究生存時間的分布規律以及生存時間和相關因素之間關系的一種統計分析方法,廣泛應用于病患壽命分析和機器設備的故障-時間分析等領域。生存分析中很多基本概念如生存函數、風險函數等與可靠性理論中的可靠度、失效率等基本概念相對應,下面結合智能電能表應用場景對所應用的基本術語進行介紹:
(1)事件:指智能電能表發生故障后/達到規定最長使用時間后,被更換;
(2)生存時間:指智能電能表從被安裝時刻到被確定發生故障/因達到規定使用最長時間后被拆換的持續時間;
(3)刪失:指智能電能表生存時間一直持續到最后觀察時間節點事件仍未發生的情況,即在觀察周期內智能電能表保持正產運行的情況;
(4)協變量:影響事件發生時間的變量因素,如智能電能表的異常報警次數;
(5)生存函數S(t):指個體的生存時間超過的概率,定義為S(t)=Pr(T>t);
(6)生存曲線:表征隨時間變化的生存率曲線。X軸和Y軸分別表示生存時間和生存概率;
(7)風險函數λ(t):表征瞬時死亡概率,定義如下:
(8)
CoxPH模型又被稱為Cox比例風險模型,該模型對風險函數所具有的形式做了如下假設,如下:
(9)

(10)
模型的求解過程包含兩部分:對hθ(X)和λ0(t)的求解。其中,對hθ(X)的求解較為復雜,hθ(X)求解后,即可基于Breslow估計器得到λ0(t)。因此,此處著重說明對hθ(X)的求解。
由于λ0(t)事先未定義,因此無法直接使用標準似然函數對預測模型進行擬合。CoxPH模型中定義了偏似然函數來對θ進行計算。假設精確生存時間有k個,數據集容量為n。將數據按照其生存時間排序t1 (11) 對所有死亡個體的條件概率相乘即有: (12) 式中R(ti)為ti時刻內仍然處于觀察研究的個體集合;Xi為觀察協變量。通過將偏似然函數最大化,即得到θ。一般求解時可以對其求取負對數,即: (13) 通過求取令其最小的θ,即可得到hθ(X)。隨后通過Breslow估計器,可求解λ0(t),從而得到完整的CoxPH模型。 生存分析理論中對CoxPH模型的評估主要依據Concordance-index,又稱C-index或一致性指數。該指標衡量的是預測結果和實際觀察結果相一致的概率。以智能電能表應用場景為例,將所有的研究對象(智能電能表)隨機地兩兩組對;對于某一對智能電能表,如果生存時間較長的一位,其預測生存時間長于生存時間較短的一位,或者預測生存概率高的一位的生存時間長于生存概率較低的另一位,則稱之為預測結果與實際結果相一致。C-index的取值范圍是[0, 1]。 傳統的線性CoxPH模型將協變量對于研究對象的生存函數的影響建模為線性關系。即假設部分風險函數如下: hθ(X)=θ·X (14) 但在現實應用場景中,該線性假設過于簡化數據關系的復雜程度。為了更好地擬合生存數據含有的非線性關系,現有研究工作中存在大量使用非線性對數風險函數的模型。神經網絡本身具有對非線性函數較好的擬合能力,1995年,文獻[3]提出了運用前饋神經網絡模型(NNS)對生存數據進行擬合。但隨后的研究中,NNs的測試表現并不能超過經典的線性CoxPH模型。 近些年來,隨著深度學習理論的迅速發展,深度神經網絡的強大表征能力為非線性關系的擬合提供了新思路。文獻[1]運用結合深度神經網絡的CoxPH模型對生存數據進行擬合,在多個現實數據集上測試得到優于經典線性CoxPH模型的性能。考慮到所處理應用場景數據的復雜性,為有效刻畫其蘊含的協變量非線性組合關系,采用結合深度神經網絡的CoxPH模型建立智能電能表的可靠性評估模型。 對含有深度神經網絡的模型進行訓練。參數設置如下:神經網絡輸入層節點數I=21,隱含層共兩層,節點數分別為H=10和H=5,輸出層節點數為O=1,神經網絡迭代次數T=4500。此處采用C-index作為所建立的智能電能表可靠性評估模型準確性的指示值。具體的訓練算法流程如圖1所示。 基于某城市實際智能電能表運維數據,對以上所提出的智能電能表可靠性評估模型進行了有效性驗證。實驗中的訓練樣本共包含49 640塊智能電能表的檢修數據和異常數據,將數據集按照4:1的比例劃分為訓練集Dtrain和測試集Dtest,其中異常種類數目N=21。 實驗的硬件平臺:操作系統為Windows 8.1,CPU為酷睿單核i5-5200U,2.20 GHz,代碼實現基于Python的Lifelines庫包以及TFDeepSurv庫包。輸入圖1所示訓練模型進行訓練。 圖1 模型訓練流程圖 訓練過程中損失函數的變化趨勢如圖2所示。在Dtrain上測試得到的一致性指數約為0.682,在Dtest上得到的一致性指數約為0.683。 圖2 訓練過程中損失函數的變化 為表示所得到的可靠性評估模型在不同協變量取值下得到的生存曲線,取協變量向量X(1),X(2),X(3),考察任意一種異常對應的協變量的影響,如異常5,滿足式(15)所示的約束: (15) 圖3 不同協變量取值的生存曲線示例 為了比較不同預測方法的優劣,基于同一批智能電能表的相關數據,分別采用元器件應力法計算其故障前平均壽命(MTTF)、先驗假定可靠性曲線分布函數進行參數擬合兩種方法對智能電能表可靠性進行評估,并與建立的評估模型進行比較。 采用元器件應力法對智能電能表可靠性進行評估,需要得到智能電能表元器件清單。一般將智能電能表考慮為簡單的串聯失效模型,即: (16) 式中λs為系統失效率(1/h),λi為第1~N個元器件的失效率(1/h)。針對某型號的智能電能表,通過分析智能電能表主板的元器件清單,選用 GJB/Z 299C-2006 電子設備預計手冊,推算出智能電能表的系統失效為λs=7.881 672(10-6/h),則智能電能表的平均故障前時間MTTF=1/λs=14.48年。 假設智能電能表時間-故障率關系服從威布爾分布,基于已有智能電能表數據,采用最大似然估計法得到智能電能表的可靠性曲線如圖4所示。 圖4 基于威布爾分布擬合得到的生存函數 以上三種辦法,從三種不同角度出發對智能電能表可靠性進行了有效評估,各自具有不同的優劣判斷標準,無法統一用準確率、C-index等概念進行衡量。因此,分別從模型泛化能力和結果可解釋性兩方面進行比較。 從泛化能力上比較,元器件應力法需要查找每一種類的智能電能表的元器件清單和元器件手冊中對應的失效率,所得到模型隨著智能電能表部件或部件組成的更換即發生變化,泛化能力較差;基于假設分布的參數擬合方法和文中所提預測方法均依賴于訓練所選取的智能電能表故障數據樣本,模型的泛化能力較依賴于樣本質量。 從預測結果可解釋性上比較,元器件應力法可以針對智能電能表內部的關鍵部件進行失效分析,可建立微觀元器件失效和功能失效上的串聯關系;但智能電能表發生故障時,常表現為某一功能模塊的失效,較難定位到某個具體元器件,且得到的MTTF為一定值,對智能電能表運維工作的指導意義較為有限。而預先假設智能電能表可靠性分布,利用數據對模型參數進行擬合的辦法采用經驗式的假設,無法對應到智能電能表內源性或外源性的可靠性影響因子,得到的評估曲線可解釋性較差;而文中所建立的考慮多個協變量影響的可靠性評估模型,可以通過分析單個協變量對生存概率曲線的影響,從而針對性地進行加強維護。 基于智能電能表多源大數據,通過融合分析智能電能表的檢修數據和異常數據,建立了智能電能表的可靠性評估模型;采用結合了深度學習的CoxPH模型,對融合分析的多源數據進行擬合,得到了智能電能表壽命-生存概率模型。基于實際智能電能表運維數據的測試結果表明該模型能給出在不同協變量影響下的生存概率曲線,該結果能夠反映智能電能表的狀態信息,相比元器件應力法和預先假設電能表可靠性分布的擬合結果更具有參考價值,對智能電能表運維工作具有重要意義。2.4 CoxPH模型的評估
3 結合深度學習的模型求解
3.1 非線性CoxPH模型
3.2 模型的訓練算法步驟
4 智能電能表可靠性評估實例

4.1 訓練結果



4.2 訓練結果對比與分析

5 結束語