尹蕊 郭江濤 王曉磊 王天軍 潘建笠



摘 要:為有效滿足智能電網的關聯規則挖掘需求,在繼承關聯規則挖掘頻繁樹算法優勢的基礎上完成了 FP-network模型的構建,在一個無向網絡圖上對所需挖掘的信息進行壓縮處理,在此基礎上完成事務項目關聯矩陣的構建,實現數據的存儲和挖掘過程。詳細介紹了在輸電線路故障分析中該關聯規則挖掘算法模型的應用流程,該挖掘算法只需掃描一次數據庫,顯著提高了關聯規則挖掘的效率,該模型能夠有效滿足智能電網大數據間關聯的挖掘需求。
關鍵詞:智能電網;關聯規則;挖掘算法;FP-network算法
Abstract:In order to effectively meet the needs of association rules mining in smart grids, this study completed the construction of the FP-network model by inheriting the advantages of association tree mining frequent tree algorithm, and compressed the information to be mined on an undirected network graph. On the basis of this, the paper completed the construction of the transaction item association matrix, realized the data storage and mining process. It also introduced in detail the application process of the association rule mining algorithm model in the transmission line fault analysis. The mining algorithm only needs to scan the database once. The efficiency of mining association rules is significantly improved, and the model can effectively meet the needs of mining big data associations in smart grids.
Key words:smart grid;association rules;mining algorithm;FP-network algorithm
0 引言
隨著自動化及智能化水平的持續提升,電力系統中的電力數據量不斷增加,電網運行需基于更高的實時數據質量實現,進而對數據的處理和分析過程提出了更高的要求,尤其是不良數據的及時檢測和辨識。目前應用處理不斷增加的智能電網數據時仍面臨著嚴峻的挑戰,主要表現在數據可視化、存儲及處理的實時性和效率、多源異構數據的有效融合等方面,為保障智能電網的安全穩定運行、充分發揮大數據的作用,本研究主要對面向智能電網的關聯規則挖掘算法進行了設計。
1 現狀分析
我國已相繼完成了特高壓和超高壓輸電線路的建設,電網規模及復雜程度不斷增加,智能電網管理過程中的用電預測、設備故障診斷等問題均需基于電力相關數據的處理完成,傳統的數據挖掘算法(包括分類、聚類、關聯規則等)雖已取得了不錯的效果,但隨著各輸電網區域間聯系日益緊密以及實際應用的不斷擴展,輸電網線路信息隨之增多,導致電力系統故障頻繁發,電力系統故障呈現出復雜多樣化特點,而電網故障的各屬性間存在不同程度的關聯性,傳統的數據挖掘算法大多建立在充足的數據源基礎上,對于較為稀疏分散的源領域數據會由于欠擬合問題的存在而難以有效滿足實際工作對電網數據的挖掘需求。將關聯規則挖掘算法運用于歷史故障信息中,通過分類和研究故障數據獲取潛在聯系,在此基礎上實現對故障的診斷和預測分析過程,以確保輸電網的安全穩定運行[1]。
2 FP-network模型
Agrawal等提出的關聯規則挖掘算法能夠在大量歷史數據中完成相關關聯性的尋找(包括頻繁項或屬性間的關聯),目前較為常用的關聯規則挖掘方法為FP-Tree(頻繁模式樹)和Apriori算法,需尋找大量侯選項目集的Apriori算法在數據庫較大的情況下易出現組合爆炸問題,并且需對數據庫進行多次掃描。通過FP-Tree 產生頻繁項集(J.Han提出)可彌補Apriori算法的不足,該算法在FP-Tree上壓縮處理數據庫(提供頻繁項集),并始于初始后綴模式完成條件模式基的構造以及條件FP-Tree的形成,然后在該樹上遞歸的進行挖掘,無需產生候選項,頻繁模式通過遞歸訪問 FP-Tree產生,僅需遍歷2 次事務數據庫,分別完成頻繁 1-項集及FP-Tree的創建。FP-Tree算法較難實現,雙向遍歷數據庫不利于數據庫更新的處理,因需不斷遞歸地生成“樹”增加了挖掘過程的時空復雜度。為此本研究通過在FP-network上壓縮所需數據(提供頻繁項集)及其形成的關聯矩陣實現計算機存儲和挖掘過程,無需產生候選項及數據庫重復掃描,更加適用于智能電網大數據的復雜規律的挖掘[1]。
2.1 FP-network模型的建立
電力系統的數據庫主要體現在事務和項目間的關聯,事務數據庫如表1所示。
2.2 FP-network的矩陣形式的構建
為使上述網絡圖形式存在的問題得以有效解決,計算機存儲采取了路徑-節點(對應智能電網電力系統的事務和項目)關聯矩陣的表示方式,具體由T=f(B,I)表示,假設,事務集合與項目集合分別由T和I表示,事務-項目關聯矩陣由矩陣B表示(由bij代表的元素構成,其中i=1,2…,9、 j= 1,2,…,5),bij定義為:在事務i同項目j相關聯的情況下bij取值為1,否則bij為0,以表1為依據建立如下關聯矩陣[4]。
在生成關聯矩陣過程中,由于智能電網大數據通常表現為項目數目遠小于事務數目,矩陣的時間復雜度近似為事務數目,數據庫存儲受到存儲和布爾矩陣B和I的轉換顯著節省了內存空間。
2.3 FP-network算法步驟
通過FP-network算法的使用使關聯規則的挖掘過程得以有效簡化,具體步驟為:首先給定由Smin表示的最小支持度閾值,然后對數據庫進行掃描,在Smin大于fj的情況下將第j個節點信息刪除,在此基礎上完成矩陣B、I的構建;接下來找到非零的nk,并以第k個節點作為挖掘初始節點,矩陣B中僅保留 bik取值1的節點k的路徑構成集合I(I={i|bik=1}),以點k前的節點信息作為保留內容,從而構成新的B、I矩陣;對于節點k在Smin小于nk的情況下,則將其作為頻繁項集的一個元素,Smin大于等于nk則刪去此節點信息,形成新的B、I矩陣,重新進行上述操作直至挖掘完全部 nk為非零的節點。以表1為依據取Smin=2,節點頻數均超過2的I1-I5的所有節點信息均保留下來,以節點I3作為挖掘起始點,節點I3在矩陣B中對應第3列,第3、5、6、7、8、9行的元素均為1需保留,得到新的矩陣表達式如下[5]。
3 基于FP-network算法的智能電網大數據算例分析
本研究通過設置對比實驗介紹基于FP-network算法的智能電網大數據挖掘過程,實驗環境選用Windows 10操作系統、CPU為Intel(R)Core(TM),結合運用Anaconda平臺和python開發語言,完成對FP-network、Apriori、FP-Tree三種算法的測試過程,傳統以估計后的算法為主的不良數據檢測方法的計算量較大,且易出現"殘差淹沒/污染"問題,為此需在估計前檢測辨識出不良數據,具體以輸電線路故障分析中關聯規則挖掘的應用為例,并以某電力公司提供的輸電線路故障信息作為實驗數據,預處理2010—2017年的歷史數據(包括除噪、清洗、過濾等)獲取有效信息共1 276條,構成線路典型故障事務數據庫,通過復制真實事務信息獲取事務數據庫(包含127 600條信息)以便更好的滿足算法測試需求。由于其他屬性本身就是離散變量,僅需離散處理數據庫的“時間”屬性,根據實際分析需要可不考慮年份信息,春季(3—5月)、夏季(6—8月)、秋季(9—11月)、冬季(12月至次年2月)分別由T1、T2、T3、T4表示,預處理后的結果如表2所示[6]。
在Smin=0.5%且實驗環境相同的情況下,對在不同規模數據庫下三種算法的運行速率進行測試,結果表明,如圖1所示。
相比于其他2種算法本研究算法的運行速率最優,隨著數據庫規模的增大FP-network的優勢更加明顯。支持度的改變會改變頻繁項集的規模(對事務數據庫的規模不產生影響),在不同支持度下(包括最小支持度)采用數據庫(包含127 600條信息)對算法性能及執行時間進行測試,如圖2所示。
結果表明在不同支持度下相比于其他兩種算法本研究算法的運行速率最優,3種算法的執行時間在調低最小支持度后均增加,但FP-network算法的運行速率變化幅度最小,能夠較好地應對支持度的變化。證明了FP-network算法的性能優勢,能夠有效滿足智能電網電力系統的大型數據庫的實時性處理需求。
取Smin=0.5%分析故障信息數據庫并獲取全部的頻繁項集,在此基礎上對關聯規則做進一步挖掘,所獲取的上百條關聯規則中并非全部都有價值,部分關聯性極弱的規則沒有實際的意義,通過使用計算規則置信度方法完成置信度超過75%的規則的篩選,部分結果如表3所示。
根據實際電力知識及獲取的挖掘結果即可對智能電網中的線路故障情況進行分析,找到薄弱環節并據此提出改進措施和方案:對于規則1,在3—5月份(春季)該省中部地區220 kV線路出現了導線及地線舞動,需做好相關預防措施;對于規則2,在6—8月該省南部地區出現了較多的導線及地線故障,主要由因外力破壞導致,需采取措施杜絕違規施工;對于規則3,在12月至次年2月,該省中部地區的500 kV出現了主要有絕緣子故障引起的線路故障,需檢修部門有針對性地對中部地區增加冬季巡查;對于規則 4,東部110 kV線路故障主要由導線及地線故障引發,需對脆弱地區的線路布局等進行優化處理;對于規則5,3—5 月是該省線路(以中部地區的500 kV線路為主)覆冰故障的集中發生期,需中部地區在此時段內加強線路監測并及時進行處理[7]。
4 總結
為進一步完善現有關聯規則挖掘算法,本研究根據智能電網大數據發展需求未處理更加適用的FP-network模型的構建,FP-network模型繼承了FP-Tree算法的優點,適用于分類(離散)變量,需先離散化處理事務數據,將所需數據壓縮于一個無向網絡圖上,只需掃描1次原數據庫,并采取矩陣式的存儲形式,顯著擴大了存儲的事務規模。使智能電網中的大型數據庫在時間和空間上的復雜度得到顯著降低,在簡化被挖掘數據的更新和維護過程的同時,提高了關聯規則挖掘算法的效率,能夠有效滿足智能電網大數據挖掘需求。
參考文獻
[1] 孟建良,劉德超.一種基于Spark和聚類分析的辨識電力系統不良數據新方法[J]. 電力系統保護與控制, 2016(3):85-92.
[2] 黃彥浩,于之虹,謝昶,等. 電力大數據技術與電力系統仿真計算結合問題研究[J]. 中國電機工程學報, 2018(1):13-22.
[3] 羅明,孟傳偉,黃海量. 基于加權頻繁模式樹的通信網絡告警規則挖掘方法[J]. 計算機工程, 2016(4):190-196.
[4] 薛振宇,胡航海,宋毅,等. 基于大數據分析的縣公司綜合評價策略[J].電力自動化設備,2017(9):199-204.
[5] 郝然,艾芊,肖斐. 基于多元大數據平臺的用電行為分析構架研究[J].電力自動化設備,2017(8):20-27.
[6] 王干軍,李錦舒,吳毅江,等. 基于隨機森林的高壓電纜局部放電特征尋優[J]. 電網技術,2019(4):1329-1336.
[7] 徐遐齡,胡偉,王春明,等. 考慮特征組合效應的電網關鍵穩定特征篩選方法研究[J]. 中國電機工程學報,2018(8):2232-2238.
(收稿日期:2019.09.23)