黃曉晴黃 勇劉 輝褚 健鄧高峰
(1.廣西電網有限責任公司,廣西 南寧 530001;2.廣西電網有限責任公司南寧供電局,廣西 南寧 530001)
基于Apriori算法及方差分析的電力故障原因相關度分析
黃曉晴1黃 勇2劉 輝2褚 健2鄧高峰2
(1.廣西電網有限責任公司,廣西 南寧 530001;2.廣西電網有限責任公司南寧供電局,廣西 南寧 530001)
電力是國民經濟的支柱,是國家經濟的命脈。電力事故不僅影響電力系統的穩定,甚至影響到國家經濟和社會安全。故障樹分析法是一種有效的事故分析方法,能夠層層分析事故原因,但是不能直接分析出導致事故發生原因的相關程度。為此,本文提出了一種基于Apriori算法及方差分析的故障樹原因相關度的分析方法,首先利用Apriori算法在給定的數據庫中進行多遍掃描,得出頻繁項集,求出支持度;其次通過方差分析得出不同的原因對上級原因存在明顯的差異,得出不同原因的影響程度。有利于今后有針對性地對事故進行防范,降低事故發生的概率,減少事故的發生。
電力故障;Apriori算法;支持度;方差分析
電力系統在空間上的廣域分布,導致電力事故的發生是不可避免的,事故數據的收集、分析很難全面、系統地進行。分析2003年~2015年中國南方電網電力生產事故,目前同類事故重復現象比較普遍。采用故障樹分析法無法確定導致事故發生的上下級原因之間的相關度,不能確定主要的事故防范措施;另一方面,故障樹分析法缺乏對事故分析結果的系統應用,要想全面查找到各個根本原因間的邏輯關系,十分困難,不能建立多方面、多維度防范措施,無法真正達到事故預防目的。利用基于Apriori算法及方差分析的故障樹上下級原因相關度分析方法,分析事故上下級原因的相關度可以有針對性地對事故進行防范,降低事故發生概率,減少事故的發生。
Apriori算法是一種最有影響的挖掘布爾關聯規則頻繁項集合的算法。Apriori算法通過查找事務數據庫中所有支持度大于最小支持度的頻繁項集。將Apriori算法利用于事故樹上下級原因分析,得出的頻繁項集合的支持度便是事故樹上下級原因之間的相關度,此時最小支持度應該設定為零;另外,Apriori算法還可以在頻繁項集合中產生所有大于等于最小可信度的關聯規則,即可分析同級原因的關聯規則。
對于電網發生的電力事故來說,在某一個確定的時間段上,電力安全生產管理水平是趨于一個穩定的程度,則對應的電力生產事故發生的可能性也是趨于一個確定的值。因此,在一個確定的時間段內發生的電力生產事故的次數服從正態分布,也就是說在這段時間內導致電力生產事故發生的直接原因事件出現的次數成正態分布。
方差分析法是一種常用的統計方法,方差分析就是將總的方差分解為各個方差的成分,然后利用顯著性檢驗法進行分析判斷和做出適當的結論。對需要進行分析的因素進行方差分析,若分析結果落入拒絕域,說明下級因素對上級因素沒有顯著影響;若分析結果落在拒絕域外,則說明有顯著的影響。分析得出存在顯著影響的因素,可以針對性地對事故進行防范,降低事故發生的概率。
1.1概述
Apriori算法是一種以概率為基礎的具有影響的挖掘布爾型關聯規則頻繁項集合的算法。同時,Apriori算法是第一個關聯規則挖掘算法,也是最為經典的算法。Apriori算法利用逐步檢索的迭代方法尋找出某數據庫中項集合的密切聯系,通過這種密切聯系來形成規則。Apriori算法中包含了幾個重要的概念,其中項集(Itemset)就是項的集合,包含K個項的集合為k項集;項集合出現的頻率表示在某數據庫中,包含項集合的個數,稱為項集合的頻率。通過制定的最小支持度,如若某項集合滿足最小支持度,則稱它為頻繁項集。
Apriori算法是一個基于頻集理論遞推的方法,它利用“頻繁項集的所有非空子集必定是頻繁的,非頻繁項集的所有超級必定是非頻繁的”這一性質來實現。其根本原理是:通過查找數據庫中的所有數據項,從而得到一個大項集L1,如果大項集L1為非空,根據此大項集得到一個候選項集合C1,然后對該數據庫中的每一個數據項數據項t,求出t在C1中的全部子集Ct。子集Ct中的每一個的候選項集c,令c加l。當掃描該數據庫一遍后,篩選出候選項集合C1中所有計數大于或等于最小支持度的項集組成頻繁項集合。
1.2Apriori算法步驟
Apriori算法的挖掘任務分為以下問題:
(1)找出某數據庫中所有支持度大于或等于最小支持度的候選項集。具有最小支持度的候選項集稱為頻繁項目集。
(2)在頻繁項集合中產生所有大于等于最小可信度的關聯規則。
1.2.1具體步驟
首先確定在該數據下的最小支持度。
Apriori算法采用了候選項集合的概念,通過查找數據庫中的所有數據項,得到一個大項集L1,根據大項集得到候選項集,若候選項集的支持度大于或等于最小支持度,則該項集合為頻繁項集合(Large Itemset)。此支持度為頻繁項集合的概率。
假設一個簡單事務數據庫D的模型,數據庫D的數據如圖1所示的事故樹。分別求取一級原因A、B、C與事故之間的關聯程度,二級原因A1、B1、C1分別與一級原因A、B、C的關聯程度,三級原因A11、B11、B12、C11分別與二級原因A1、B1、C1的關聯程度,四級原因B111與三級原因B11的關聯程度,須從數據庫中計及事故的次數以及各原因的次數。
表1中:001—010代表10個電網事故故障樹編號,A、B、C、D、E分別代表事故一級原因。

表1 簡單事故樹數據庫的模型
若要求取一級原因與事故之間的額關聯程度首先通過掃描數據庫D,生成項集,見表2。

表2 生成階段
其次利用Apriori算法對數據庫中的項集進行掃描,計數每個項集在數據庫中的次數,即在每一次迭代過程中,Apriori算法都產生了一個大項集,然后計算每一個候選項集所出現的次數,最后在預先給定的最小支持度s=0%的基礎上確定大項集。
對上表所示的各個項集進行計數,通過掃描數據庫D中的數據得出表3所示的計數次數并求出其支持度。

表3 計算階段
由于某種事故原因導致事故發生是存在可能性的,盡管有些導致事故發生的概率很小,但是最終卻不可避免,所以在此設定最小支持度為s=0%,即出現的事故原因都應該納入考慮范圍。
發掘大項集,也就是支持度大于預先給定的最小支持度的項的集合。
在第一次迭代的第一步中,所有單個項都作為候選集。接著計算每一個候選集的出現次數,然后在最小支持度s的基礎上選擇頻繁項集。表3所示的S分別代表該項集的支持度即上下級原因之間的相關程度。
1.2.2具體實例
分析某110kV八所站1#主變因遭受雷擊,造成中壓側B相線圈損壞示例,其故障樹如圖2所示。
由上述事故樹分析得出該事故是由一級原因環境因素、物的因素-物理性危險和有害因素,二級原因自然因素、制造質量不良、設備缺陷、規劃設計不周和三級原因雷擊、工藝缺陷、絕緣不良、絕緣配合不當引起的。
利用Apriori算法對2003~2015年2046個事故樹進行掃描計數,統計到以上原因的次數和最小支持度見表4。

表4
如圖3所示,相關度的計算結果在事故樹模型的基礎上表示出來,可以直觀地看到各級故障原因之間的相關程度。通過進一步的計算便可以得出底層原因對該次事故的影響程度。
在實際問題的研究過程中,影響某一事物的因素往往很多。其中每一個因素的改變都有可能影響產品的數量和質量,并且有些因素影響大,有些因素影響小,所以要找出對產品數量和質量影響顯著的那些因素。方差分析是檢驗各因素對實驗結果影響程度的一種有效方法。
方差分析又稱“變異數分析”或“F檢驗”。多元方差分析要求樣本須滿足3個基本條件:(1)抽樣樣本是從母體中隨機選取;(2)樣本必須服從正態分布并且樣本相互獨立,(3)在各種處理條件下的樣本方差必須相同,也就是必須滿足方差齊性。對于一個企業或者一個行業來說,在某一個確定的時間段上,安全生產管理水平是趨于一個穩定的程度,某一穩定的值,則對應的事故發生的可能性也是趨于某一個穩定程度和某一個確定的值。因此,在一個確定的時間段內發生的電力生產事故的事故原因次數服從正態分布,也就是說在這段時間導致事故發生的直接原因事件出現的次數成正態分布。考慮電力事故下的各級事故原因是多因素影響下的,利用多元方差分析對下級原因對上級原因的影響程度作為一個研究母體。
2.1數學模型
電力生產事故是一種由于人、物、環境等的因素失去控制或錯誤引起的意外事件,可以認為是系統正常過程中出現的各類異常或者是所不期望的效應,或是某些計劃好的事情沒有按照計劃本身執行,出現在計劃外的偏差。而在理想情況下,事故是不會發生的,由于在人、物、環境和管理4種情況下差生偏差,事故就顯然發生了。
將某一段確定時間內、特定范圍內發生的所有電力生產事故事故原因集合在一起作為母體,即將導致這段時間、這個特定范圍內事故發生的原因事件作為母體,不同級的事故原因作為影響因子。結合對事故原因特點的統計分析,假設在各種的影響因子組合水平下的樣本方差相同,滿足方差分析的條件后,建立多元方差分析模型進行事故原因統計分析。
2.2統計分析
每個事故考慮下級原因對上級原因的影響程度,把上級原因所對應的所有下級原因作為影響因子,將事故下級原因發生對相應的上級原因發生的影響關聯程度假設為一級相關和二級相關,以A、B、C代表不同的下級原因,用1,2代表一級相關和二級相關,得到表5的所示的結果.。

表5 下級原因影響因子的水平組合表
2.3模型統計結果計算分析
根據傷亡事故原因統計的特點,假定母體Yn服從正態分布N(μijk,σ2),其中
式(1)中,ai,bj,ck分別表示下級原因A、B、C在各自對應水平上的效應。其中效應表示一個下級原因在某種水平上對母體平均數的影響程度。事故次數對應的數學模型如式(2)。
在公式(2)中,μ表示母體平均數,δijk是組合內部Yn因σ2引起的抽樣誤差。公式(2)須滿足3個約束條件,即:a1+a2=0,b1+b2=0,c1+c2=0。
(1)假設條件
假設3個下級原因中任意兩個原因之間沒有任何交互作用,為了檢驗下級原因A、下級原因B和下級原因C三種影響因子對母體所產生的效應,則需要進行影響效應的顯著性分析。假設的條件有以下3個:
假設H1:a1=a2=0
假設H2:b1=b2=0
假設H3:c1=c2=0
其中a1、a2代表下級原因A在各自水平上的效應。
若假設H1成立,則表示下級原因A在這一段時間內對上級原因的發生無顯著影響;否則,下級原因A在這一段時間內對上級原因的發生有顯著影響。同樣,假設H2和H3成立,則分別表示下級原因B和下級原因C在這一段時間內對上級原因的發生無顯著影響,否則,分別表示下級原因B和下級原因C在這一段時間內對上級原因的發生有顯著影響。
(2)計算平均數
①計算總平均數
電力生產事故發生總平均數在某一段時間內、某特定范圍內導致電力生產事故發生的直接原因事件出現的基本情況,用表示。
②計算各原因分水平平均值
下級原因A、下級原因B和下級原因C三個影響因子分別在一級相關和二級相關兩種水平上有其對應的平均值,反映一個原因在對應各種水平上導致上級原因發生的平均次數。
對于下級原因A來說,其兩種水平上的平均值分別用k1A和k2A表示。
同樣,對于下級原因B因素和下級原因C來說,其在兩種水平的平均值分別用k1B、k2B和k1C、k2C表示。
2.4計算離差平方和
離差平方和反映下級原因A、下級原因B和下級原因C三種影響因子對平均上級原因發生次數的離散程度,用QT表示。
式(10)可以進行分解:
其中:QA是下級原因A引起的離差平方和;QB是下級原因B引起的離差平方和;QC是下級原因C引起的離差平方和;QE表示誤差的大小。下級原因A引起的離差平方和QA反映了下級原因A在兩種相關水平上的平均值之間的差異;同理,QB和QC分別反映了下級原因B和下級原因C在不同的兩種相關水平上平均值之間的差異。
2.5判別量計算
(1)首先確定自由度
自由度等于水平減1,即QA、QB、QC的自由度都為1,QT的自由度為7。
(2)F值計算
利用分解定理可知,FA、FB、FC均服從自由度為(1,4)的F分布。
2.6假設檢驗
為了驗證3個假設H1、H2和H3是否成立,首先需要給定顯著水平α,通過查詢F分布上側分位數表,從表中得出與顯著水平α相同自由度對應的Fα值,使得P{F≥Fα}=α成立。
根據計算得到FA,如果存在FA≥Fα(1,4),則該數值表示小概率事件,則拒絕假設H1,即認為這一段時間內、特定范圍內下級原因A對所對應的上級原因的發生有顯著貢獻;如果存在FA<Fα(1,4),則該數值表示小概率事件沒有發生,則接受假設H1,即可認為這一段時間內、特定范圍內級原因A對所對應的上級原因的發生沒有顯著影響。
同樣,根據計算得到的FB、FC值,如果存在FB≥Fα(1,4)、FC≥Fα(1,4),則該數值表示小概率事件,則分別拒絕假設H2和H3,即認為這一段時間內、特定范圍內下級原因B或下級原因C對所對應的上級原因的發生有顯著貢獻;如果存在FB<Fα(1,4)、FC<Fα(1,4),則該數值表示小概率事件沒有發生,則分別接受假設H2和H3,即認為這一段時間內、特定的范圍內下級原因B或下級原因C因素對所對應的上級原因的發生沒有顯著貢獻。
3.1基礎統計量統計
為了驗證模型的實際可操作性,對中國南方電網自2003年~2015年期間發生的2046起電力生產事故按照本文建立的模型進行統計分析,其中上級原因(一級原因)環境因素出現的次數為855次,下級原因(二級原因)自然因素、生產環境不良、外力破壞分別出現的次數為557、68、338次,以其中某一年的54次為例,所對應的二級原因自然因素、生產環境不良、外力破壞(分別用A、B、C表示自然因素、生產環境不良、外力破壞)引起一級原因環境因素出現的次數見表6。

表6 中國南方電網2003~2015年電力生產事故環境因素多元方差分析基礎統計
3.2方差分析表
根據建立的模型,通過計算公式計算得到的數值,采用表格的形式給出,即得到表7的多元方差分析表。
3.3統計結果分析
假設給定的顯著水平α=0.1,查詢F分布上側分位數表可知:F0.1(1,4)=4.54。根據表3得到的FA和F0.1(1,4)相比較:存在FA>F0.1(1,4)=4.54,因此拒絕假設H1,即認為二級因素A對一級原因有顯著影響。同樣,將FB、FC與F0.1(1,4)比較:存在FB<F0.1(1,4)=4.54,FC<F0.1(1,4)=4.54,因此拒絕假設H2和H3,即沒有顯著影響。由此可以得出自然因素的影響較為顯著,與統計結果相符合。

表7 中國南方電網2003年~3015年電力生產事故環境因數多元方差分析
利用基于Apriori算法和方差分析的故障樹上下級原因相關度分析方法,分析事故上下級原因的相關度可以有針對性地對事故進行防范,降低事故發生概率,減少事故的發生。首先利用Apriori算法得出數據庫中事故上下級原因的相關程度,即支持度。在此基礎上建立了基于多元方差分析的電力生產事故原因統計分析模型,采用假設檢驗的方法給出某一段時間內、某特定范圍內對電力生產事故原因的發生具有顯著貢獻的直接原因事件類別,為安全管理工作指出偏重點,著重預防該類事故原因;并通過按照建立的模型對某一段時間內發生的電力生產事故原因進行實例統計分析,說明了該方法的可行性和有效性。
[1]蔡建壯,白同朔,侯志儉.電力系統偶然事故選擇中異常數據的鑒別與處理[J].中國電機工程學報,2002(8):27-31.
[2]牛麗敏.Apriori算法分析與改進綜述[J].桂林電子科技大學學報,2007(1):27-30.
[3]楊小勇.方差分析法淺析——單因素的方差分析[J].實驗科學與技術,2013(1):41-43.
[4]陳波,董鵬,邵勇.基于Apriori算法及其改進算法綜述[A].中國通信學會.中國通信學會第五屆學術年會論文集[C].中國通信學會,2008:6.
[5]錢光超,賈瑞玉,張然,等. Apriori算法的一種優化方法[J].計算機工程,2008(23):196-198.
[6]李學遠.基于方差分析的故障測距算法的研究[D].重慶大學,2007.
[7]顏雪松,蔡之華.一種基于Apriori的高效關聯規則挖掘算法的研究[J].計算機工程與應用,2002(10):209-211.
[8]饒正嬋,范年柏.關聯規則挖掘Apriori算法研究綜述[J].計算機時代,2012(9):11-13.
[9]羅可,賀才望.基于Apriori算法改進的關聯規則提取算法[J].計算機與數字工程,2006(4):48-51+55.
[10]李濤,王林元,康峰,等.基于多元方差分析的傷亡事故統計分析方法研究[J].石油化工安全環保技術,2014(2):31-35+2+1.
[11]馬明.基于多元統計方法的城市道路交通事故分析研究[D].武漢理工大學,2010.
[12]王慧,李陽萍.基于多元方差分析的我國中部六省新型工業化水平差異性研究[J].科技管理研究,2013(11):93-98.
[13]呂棟雷,曹志耀,鄧寶,等.利用方差分析法進行模型驗證[J].計算機仿真,2006(8):46-48.
[14]孫國紅,沈躍,徐應明,等.基于多元統計分析的黃河水質評價方法[J].農業環境科學學報,2011(6):1193-1199.
[15]劉明磊.正交試驗設計中的方差分析[D].東北林業大學,2011.
[16]楊瑞波.事故樹分析法在電力事故分析中的應用[J].云南電力技術,2015(4):52-55.
TP391
A