程 政,雷 霞,柏小麗,徐博海
(1.瀘州電業局,四川 瀘州 646000;2.西華大學電氣信息學院,四川成都 610039;3.國電大渡河瀑布溝水利發電總廠,四川雅安 625304)
安全性評價屬于風險管理范疇,是預防和控制企業事故行之有效的方法[1]。安全性評價是度量、預測系統安全基礎、控制事故的重要措施。中國已用法律形式將“安全第一,預防為主”確定為勞動保護方針,也是電力安全生產和建設管理的基本方針。編制安全性評價標準就是要切實貫徹“安全第一,預防為主”的方針。針對電網運行、設備工況、生產環境、作業過程等進行安全性評價實現對事故的超前預測和控制,達到消滅和減少事故的目的。1990年,華北電網公司借鑒國外風險評估等現代安全管理辦法,開始了發電機組并網安全性評價,目前已在全國全面推開。隨著安全性評價在電力系統中的應用,一些安全性評價管理系統已投入實際應用,但僅僅完成了安評數據的統計以及個別數據的追蹤功能,對于查評中隱藏的信息沒有進行有效的分析和挖掘。如何處理這些安評數據成為研究的首要問題,數據挖掘技術應運而生。數據挖掘也稱數據庫知識發現,它從大量的、不完全的、有噪聲的、隨機的實際應用數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程[2]。下面建立了數據挖掘模型,挖掘影響輸電網安全的危險點,從而指導管理者開展輸電網安全性評價工作。
關聯規則反映一個事物與其他事物之間的相互依存性和關聯性。如果兩個事物或者多個事物之間存在一定的關聯關系,那么,其中一個事物就能通過其他事物預測到。一般來說,關聯規則就是描述數據庫中數據項(屬性、變量)之間所存在的潛在關系的規則。設I={i1,i2,…,im}是m個不同項目的集合,D是針對I事物的集合,每一筆事物包含若干項目i1,i2,…,ik∈I。關聯規則形如 X?Y 的蘊含式,其中X?I,Y?I,X∩Y=Φ。關聯規則 X?Y在事務集 D中成立,具有兩個規則興趣度度量-支持度和置信度,它們分別反映發現規則的有用性和確定性。
定義1 支持度 X的支持度是事物集中A出現的事物數與總的事物數之比,即

定義2 置信度 規則X?Y的置信度是事物集中X、Y同時出現的事物數與X出現的事物數之比,即

如果規則的支持度大于最小支持度則認為此規則是頻繁項集,否則為非頻繁項集。同時滿足最小支持度與最小可信度兩屬性的規則稱為強關聯規則。關聯規則挖掘的目的就是從數據庫中挖掘出滿足用戶要求的最小支持度與最小可信度的強關聯規則。
挖掘關聯規則問題一般可以分解為以下兩個子問題[9]。
(1)找出存在于事物數據庫中的所有頻繁項集,即找出所有支持度滿足用戶所規定的最小支持度閾值的項集。
(2)用頻繁項集生成候選關聯規則,然后驗證候選關聯規則是否滿足用戶所規定的最小可信度閾值。若滿足,該候選關聯規則為要找的關聯規則。
要處理的問題是如何從數據源中挖掘到想要的危險點。那么建立了圖1給出了關聯規則模型。

圖1 關聯規則模型
模型解釋:數據源選擇是輸電網安全性評價管理系統中的數據;ETL技術指的是對數據源中數據的清理、轉換等;應用Apriori算法時用戶需對算法中的參數進行設置,其中min_sup代表最小支持度,min_conf代表最小置信度。通過數據挖掘技術挖掘出的危險點,可以直觀地展現給決策者。
2.2.1 數據預處理
由于自查評表中數據比較完整、數據易處理的。下面對數據進行如下處理。
(1)問題嚴重程度缺失的處理
在自查評過程中,問題嚴重程度的缺失是由于用戶在填寫自查評結果時漏填,因此為了不遺漏任何危險的因素,默認為問題的嚴重程度為嚴重。
(2)數據錯誤的處理
數據錯誤產生的原因主要有兩個:設計數據時沒有進行約束;數據的人為輸入錯誤。前者是在系統設計時沒有對用戶的輸入進行約束,使得用戶可以輸入不滿足要求的數據。后者是由于很多數據都是以字符串的形式來存儲的,無法使用約束來保證數據的正確性,而且由于用戶知識水平和文化背景的差異,輸入時往往會拼寫出錯或者錄入完全錯誤的數據。
在自查過程中,由于參評人員對標準的理解有差異,打出的分數不滿足系統要求,甚至可能打出錯誤的分數,因此得分率就有可能大于1或者小于0,必須進行清理。首先通過SQL語句找到所有錯誤的得分率,將這些得分率都默認為0。
(3)數據轉換
由于自查評表中的得分率在[0-1]區間,問題的嚴重程度分為一般和嚴重兩種。所用的Apriori算法是基于布爾型關聯規則的挖掘,那么現在將數據離散化處理。將得分率記為selfrate,問題的嚴重程度記為plevel。得分率在區間[0-0.5]之間記為 A1;在[0.5-1]之間記為A2。問題一般記為B1;問題嚴重記為B2。那么自查評表就轉化為最終的數據表,如表1所示。

表1 關聯規則模型最終事務表
2.2.2 數據挖掘的實現
首先采用Apriori算法生成頻繁項集,然后由頻繁項集根據最小支持度和最小置信度產生強規則。基于Apriori算法的數據挖掘流程如圖2所示。
2.2.3 關聯規則在輸電網安全性評價中的應用

圖2 數據挖掘流程
輸電網自查評表保存著輸電網安全性評價中用戶自查評時產生的數據,其中包括查評項目、查評得分、得分率等等。以自查評的項目為挖掘對象,以自查評表中的得分率(selfrate)和問題嚴重程度(plevel)為研究對象。通過前200次查評的歷史數據進行挖掘,對得分率和問題嚴重程度之間的關聯規則來判斷輸電網安全性評價指標是否存在危險點。
對于《輸電網安全性評價標準》中查評項目2.2.1[3],國家標準是這樣描述的:主力大容量電廠是否介入本網最高一級電壓電網。評分標準及方法:符合要求的滿分,基本符合要求得60%標準分,不符合要求不得分。對于次項目,取之前200次的查評數據進行分析,通過數據挖掘找到得分率和問題嚴重程度之間的關聯規則,對于得分率低且問題嚴重的關聯規則,可以得出項目2.2.1是存在危險點的。
2.2.4 挖掘結果及解釋
本模型對自查評表中查評項目2.2.1項前200次的查評歷史數據進行分析,設定最小支持度為0.5,最小置信度為0.6。最后得到3條強關聯規則。例如規則:A1?B2,其中支持度為50.2%,置信度為67.5%。意味著當“得分率”在[0-0.5]之間時,“問題嚴重程度”的概率為67.5%。那么針對這種得分率低而且問題嚴重的關聯規則,管理者可以對2.2.1項提前提出控制措施,達到預防事故的目的。
介紹了關聯規則在輸電網安全性評價中的應用,并建立了關聯規則模型,挖掘輸電網中存在的危險點。針對危險點,對輸電網提出相應的整改措施,對輸電網安全性評價有一定的指導作用。
[1]JiaweiHan,MichelineKambe著,范明,孟小峰譯.數據挖掘概念與技術[M].北京:機械工業出版社,2007.
[2]王金萍,樊鳳林,劉發旺,等.安全性評價在電力企業中的應用研究[J].華北電力技術,2005(5):23-26.
[3]國家電網公司.供電企業安全性評價標準[S].北京:中國電力出版社,2002.
[4]駱嘉偉,彭蔓蔓,陳景燕,等.基于消費行為的Apriori算法的研究[J].計算機工程,2003,29(5):72 -74.
[5]楊輔祥,劉云超,段智華.數據清理綜述[J].計算機應用研究,2002,19(3):3 -5.
[6]高艷霞.Apriori算法在學生成績管理中的應用[J].計算機時代,2009(8):30-31.
[7]陶建江,張文獻.關聯規則挖掘的基本算法[J].計算機工程,2004,15(30):34 -35.
[8]高杰,理紹軍,錢鋒,數據挖掘中關聯規則算法的研究及應用[J].2006(36):128 -131.
[9]程政,雷霞,廖翔,等.數據挖掘在電網安全性評價中的應用[J].2010(8):97-99.