999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于FP-Growth的電力系統故障預測方法

2020-12-01 03:15:00潘磊
軟件導刊 2020年10期

潘磊

摘 要:為了提高電力系統中故障預測效率及便捷性,提出一種基于FP-Growth算法的電力系統故障預測方法,無需先驗知識及人工標注,便可從海量歷史日志數據中快速提取出故障信息模式,并基于實時日志數據對未來可能發送的系統故障進行預測。該方法首先根據電力系統不同類型的日志特征對原始數據進行預處理,然后基于FP-Growth算法挖掘日志中與故障事件相關的關聯規則,并使用關聯規則進行故障匹配,從而達到預測效果。算法經過真實電力系統日志數據集測試,結果表明該故障預測方法平均準確率為89.5%,平均召回率為79.8%,且執行效率較高,節省了業務人員50%以上的時間。

關鍵詞:FP-Growth;電力系統日志;關聯規則;故障預測;日志挖掘

DOI:10. 11907/rjdk. 201852

中圖分類號:TP301文獻標識碼:A 文章編號:1672-7800(2020)010-0152-04

Abstract:In order to improve the efficiency and convenience of fault prediction in the power system, a power system fault prediction method based on the FP-Growth algorithm is proposed by this paper. The method can extract fault prediction rules quickly from the massive power system history logs without any prior knowledge and manual annotation, and then predict future system failures based on the real-time logs. Firstly, the original logs are preprocessed according to the characteristics of the power system logs. Then the association rules related to the failure event in the log are mined based on the FP-Growth algorithm, and the association rules are used to match the failure. The algorithm has been tested on real power system log data sets. The results show that the average accuracy of the fault prediction method in this paper is 89.5%, the average recall rate is 79.8%, and the execution efficiency is high, saving more than 50% of the time of business staff.

Key Words:FP-Growth; power system log; association rule;fault prediction; log mining

0 引言

電力工業是我國國民經濟發展中的支柱型產業,電力系統為電力工業穩定運行提供了保障。隨著電力系統規模的擴大和復雜性的增加,系統故障發生已經成為一種常態[1]。嚴重的系統故障可能導致重要信息丟失甚至系統癱瘓,造成難以預料的后果。精確高效的故障預測能夠降低嚴重故障所帶來的風險,提高電力系統可靠性[2]。

故障預測最常用模型主要有兩類:故障歷史數據分析模型和實時狀態監控預測模型[3-4]。許多學者對其進行了研究,馮士龍等[5]通過滑動窗口方式將日志劃分為日志序列并將其向量化,從而進行日志異常檢測;文獻[6]分別使用數據挖掘的分類預測思想和基于概率統計的方法,分析系統日志并建立故障預測模型;文獻[7]通過提取日志模板建立故障分類器模型,可動態判斷當前新增日志是否與故障有關;王衛華等[8]提出一種基于頻繁日志事件序列的聚類算法,挖掘與故障事件相關的事件序列,從而實現故障預測;年夫順[9] 對各領域設備故障預測關鍵技術進行綜述,包括故障模型、狀態監控和故障預測等。

系統故障往往不是獨立產生的,而是與其它事件相關聯[10]。因此,可以通過機器學習算法挖掘包含故障事件的頻繁日志序列,根據日志事件的相關性進行故障預測[11-14]。在一般的機器學習問題中,FP-Growth方法通常被用來做關聯分析,而本文將其應用于無監督學習問題中,提出一種基于FP-Growth算法的電力系統故障預測方法,該方法在不需要先驗知識和專家干預的前提下,分析電力系統歷史日志數據,以及與故障事件相關的頻繁日志序列并抽取出關聯規則,再根據關聯規則對系統故障進行預測。該方法在真實數據集上進行測試與評估,且在實際應用中取得一定效果。

1 電力系統日志分析

1.1 日志結構

通常情況下,電力系統日志記錄與電力系統設備、軟件相關的操作和狀態,如設備連接和斷開、操作成功和失敗等。由于不同電力系統的日志格式不統一,日志文本多為非結構化文本,因此其語法和語義也不盡相同。本文以甘肅省電力投資集團有限責任公司電力系統2018年1月到6月的日志數據為例,該電力系統日志示例如圖1所示。

由圖1可知,日志數據通常包括兩種類型的信息:一種是文本格式固定的日志語義信息;另一種是變量或參數,例如IP地址、時間、設備名稱等,用于表示信息的重要屬性。由于原始日志數據存在較多與語義無關的參數,或者是重復的日志數據,因此需要對電力系統日志進行預處理。

1.2 日志預處理

參數類型的多樣性導致日志數據的數量非常多,海量的日志數據代表的事件數量卻有限,為了消除變量和參數對故障預測的影響,本文使用“X”替換日志數據中的IP地址、時間和設備名稱等變量,使得提取日志數據中所代表的事件更容易,同時方便后續的關聯規則挖掘。

系統集群出現故障時,往往會重復故障操作,例如重復要求連接等,此時相似或者相同的事件將被頻繁記錄到日志中,導致存在冗余日志。當發現相同的日志數據重復出現時,本文只保留第一條記錄,刪除其它后續記錄,消除冗余日志對關聯規則挖掘的負面影響。

2 關聯規則挖掘

2.1 基本概念

關聯規則挖掘屬于數據挖掘的一種研究方法,用以發現事務及關聯項之間的關系[15]。設[I={a1,a2,...,an}],其中a為n個不同的項,I稱為總項集,記N是事務處理S的集合,每個事務處理S是項的集合,則[S?I]。設X、Y是I的兩個不同非空子集,如果有[X→Y],則稱其是一條關聯規則。關聯規則的衡量標準用支持度support和置信度confident描述。式(1)和式(2)為support和confident的定義。

其中,support表示X與Y同時在事務集中出現的次數與事務總數N的比率,confident表示X與Y同時出現的次數與X單獨出現次數的比率。關聯規則的支持度和置信度越高,說明規則的關聯性越強。

關聯規則挖掘的本質就是給定事務集N,找出其中所有支持度不小于最小支持度min_support且置信度不小于最小置信度min_confident的關聯規則。關聯規則挖掘一般由兩步組成:①找出所有不小于最小支持度的項集,該項集稱為頻繁項集;②基于頻繁項集再生成不小于最小置信度的規則,該規則稱為強規則。

關聯規則挖掘經典算法Apriori,是由候選頻繁項集產生規則的算法代表,但Apriori在進行候選消除時,會產生大量的候選集,同時每次消除也可能重復掃描事務集,面對海量日志數據集時算法效率較低。FP-Growth是一種關聯規則挖掘算法,它通過兩次掃描事務集構造頻繁項樹實現頻繁項集挖掘,整個挖掘過程不必產生候選頻繁項集合[15]。FP-Growth算法處理海量數據時效率很高,適合運用在海量數據的關聯規則挖掘中,因此本文采用它挖掘歷史日志數據并生成故障事件關聯規則。

2.2 FP-Growth算法概述

FP-Growth算法基于Apriori原理,通過將事務集存儲到FP-tree(Frequent Pattern tree,頻繁項樹),進而挖掘頻繁項和關聯規則。FP-Growth算法挖掘關聯規則流程如圖2所示。

具體過程描述如下:

(1)掃描事務集N,找出所有頻繁模式下的頻繁項F1,將F1按支持度降序排序,生成頻繁項頭表。

(2)再次掃描事務集N,建立頻繁模式樹FP-tree并填寫頭表指針。FP-tree是一棵前綴樹,根節點是標記為“NULL”的root,不表示任何項,其余節點包含頻繁項和該項在本條路徑上的支持度。一條路徑上的節點集合都是事務集中滿足最小支持度的頻繁項集合,其中節點按照項的支持度排列,支持度越高的項離根節點越近,從而使更多的項可共享前綴。建立樹之后,填寫頻繁項頭表的指針,指向樹中該項的節點。同時相同的頻繁項之間使用指針相連。

(3)從底部遍歷頻繁項頭表。當遍歷未結束時,挖掘該項的頻繁項集和關聯規則。當遍歷完整個表之后,結束FP-Growth算法。

(4)提取頻繁項條件模式基。設此時遍歷的頻繁項為a,存在從root節點到節點a的路徑L,L上不包含a的部分所組成的路徑稱為a的前綴路徑Lp,a為Lp的后綴項。樹中可能存在多個a節點,則會得到多個前綴路徑,所有前綴路徑組成頻繁項a的條件模式基。

(5)判斷頻繁項a是否存在條件模式基,若其存在則繼續算法,否則返回到遍歷頻繁項頭表。

(6)得到頻繁項a的條件模式基后,將其作為新事務集建立一棵新的FP-tree,稱為a的條件模式樹。

(7)挖掘頻繁項集,生成關聯規則。首先在a的條件模式樹上挖掘頻繁項集,可得到與a相關的頻繁項集。若該頻繁項集中的任一項仍存在條件模式基,即遞歸重復地提取頻繁項集,直至所有頻繁項都沒有條件模式基,此時得到所有的頻繁項集。使用頻繁項集生成關聯規則,滿足最小置信度的規則即為有效規則。

3 故障預測

3.1 故障預測規則提取

電力系統日志數據經過預處理后,對于每一類故障事件f,通過截取發生在f之前相同時間內的日志序列,生成故障事件相關的日志序列,所有f的相關日志序列組成日志序列集合N。

對f的日志序列集N進行分析,統計不同日志數據項生成總項集[I={a1,a2,...,an,f}],a表示與事件f相關的日志數據。從總項集I中截取若干連續子序列[{am+1,am+2,...,] [am+j}],生成故障預測規則[r={am+1,am+2,...,am+j}→f]。此時的項集[{am+1,am+2,...,am+j,f}]即為頻繁項集,預測規則即為滿足置信度要求的關聯規則,故可使用FP-Growth算法提取預測規則。

經過詢問電力系統運維專家和實驗驗證,本文使用的最小支持度min_support為0.6,最小置信度min_confident為0.8,提取的所有故障預測規則r組成預測規則集R。

3.2 預測步驟

得到預測規則集R后,可根據實時的最新日志數據對系統故障進行預測。故障預測與時間緊密相關,假設T1表示預測模型預測故障f的時間,T2表示故障f實際發生時間,T3表示本次預測失效時間。若[T1

(1)生成待定規則集。對于故障預測規則[r={am+1,am+2,...,am+j}→f],用[am+j]匹配當前產生的日志數據,當日志[am+j]產生時,選取以[am+j]結束的規則作為待定規則,所有待定規則組成待定規則集。

(2)生成驗證規則集。截取日志[am+j]之前n行(這里n為參數)的日志數據序列段S,判斷S是否包含[{am+1,am+2,...,am+j-1}]規則集,若包含則匹配成功,將該待定規則加入驗證規則集,并記錄預測時間T1。

(3)故障預測。對于驗證規則集中的規則[r→f],預測故障事件f應在T3時間點之前發生。若f在時間點T3之前發生,則此次預測成功,否則預測失敗。

4 實驗評估

本文獲取甘肅省電力投資集團有限責任公司某電力系統中的50萬余條日志,日志時間范圍從2018年1月—2018年6月。在該日志數據集中,日志數據包含ERROR、FAIL、WRONG和FATAL等關鍵字,表示系統出現故障。本文將包含這4種關鍵詞的日志記錄標識為故障事件,其它日志則標識為正常事件。

本文使用了準確率accuracy、召回率recall對模型的預測效果進行評估。其中,準確率的計算方法如式(3)所示,召回率如式(4)所示。

[accuracy=正確預測的次數總預測次數] (3)

[recall=正確預測的故障事件數量總故障事件數量] (4)

在評估預測效果時,本文限制預測的有效時間為T1后的30min內,若被預測事件發生的時間T2滿足[T1

本文以2018年1-2月的日志作為訓練集,利用FP-Growth算法挖掘這兩個月的日志,并產生故障事件預測規則集R。以3-6月的日志數據作為測試集進行效果評估。算法評估結果如圖3所示,測試集中4個月的故障預測平均準確率為89.5%,平均召回率為79.8%。在這4個月日志數據上進行的預測結果相差不大,預測準確率和召回率都較高,但是召回率低于準確率。召回率較低的原因可能是,基于關聯規則挖掘提取的故障預測規則,只能預測與其它日志密切關聯的故障,同時該故障在訓練集中出現過,不能預測與其它日志關聯性很低或者訓練集中未出現的故障。3-6月的日志中可能出現關聯性很低的故障,或者電力系統在這段時間進行升級或改進,產生了訓練集中沒有的故障,故而預測結果的召回率略低。

如圖4所示,算法整體運行復雜度較低,與傳統的正則表達式匹配故障模式相比較,執行效率較高。綜上,該算法在電力系統的故障預測中取得了一定效果。

5 結語

本文在不需要電力系統領域先驗知識的前提下,提出一種基于FP-Growth算法的電力系統故障預測模型,挖掘系統歷史日志中的關聯規則并進行故障預測。首先,分析電力系統日志特征,根據故障預測需要,對原始日志進行替換和冗余過濾預處理;然后,介紹關聯規則挖掘和FP-Growth算法;再使用FP-Growth算法挖掘故障事件的預測規則,并生成待定規則集和驗證規則集,實現故障預測;最后,在電力系統日志數據集上進行實驗評估,由預測模型的平均正確率及平均召回率可以看出該方法有效。

雖然該方法取得了一定效果,但目前仍存在一定缺陷,如預測的平均召回率較低、不能預測日志中未曾發生過的故障等。故障預測規則自學習可能是解決該問題的一種方法,也是未來基于歷史日志挖掘故障預測規則的研究方向。

參考文獻:

[1] 賈統,李影,吳中海. 基于日志數據的分布式軟件系統故障診斷綜述. 軟件學報,2020,31(7):1997-2018.

[2] 李剛,陳怡瀟,黃沛爍.? 基于日志分析的信息通信網絡安全預警研究[J]. 電力信息與通信技術,2018,16(12):1-8.

[3] 廖湘科,李姍姍,董威,等. 大規模軟件系統日志研究綜述[J]. 軟件學報,2016,27(8):1934-1947.

[4] SALFNER F, LENK M, MALEK M. A survey of online failure prediction methods[J].? ACM Computing Surveys, 2010, 42(3): 1-42.

[5] 馮士龍,臺憲青,馬治杰. 改進的基于日志聚類的異常檢測方法[J]. 計算機工程與設計,2020,41(4):1087-1092.

[6] 王振華. 基于日志分析的網絡設備故障預測研究[D]. 重慶:重慶大學,2015.

[7] 崔元. 面向大規模網絡日志的主動故障檢測方法的研究[D]. 長春:東北師范大學,2017.

[8] 王衛華,應時,賈向陽,等. 一種基于日志聚類的多類型故障預測方法[J]. 計算機工程, 2018,44(7):67-73.

[9] 年夫順. 關于故障預測與健康管理技術的幾點認識[J]. 儀器儀表學報,2018,39(8):1-14.

[10] 樊建昌,余粟. 基于決策樹的日志分析方法[J]. 軟件導刊,2020,19(1):99-102.

[11] DU M, LI F,ZHENG G,et al. DeepLog: anomaly detection and diagnosis from system logs through deep learning[C]. ACM Sigsac Conference on Computer & Communications Security, 2017.

[12] LIN Q,ZHANG H,LOU JG,et al. Log clustering based problem identification for online service systems[C]. IEEE/ACM International Conference on Software Engineering Companion. IEEE,2016:102-111.

[13] TYAGI K, THAKUR S. Predictive classification of ECG parameters using association rule mining[J]. Advances in Computer and Computational Sciences ,2017:619-627.

[14] MENG W B, LIU Y, et al. LogAnomaly: unsupervised detection of sequential and quantitative anomalies in unstructured logs[C]. The Internationl Joint Conference on Artificial Intelligence,2019.

[15] 晏杰,亓文娟. 基于Aprior&FP-growth算法的研究[J]. 計算機系統應用,2013,22(5):122-125.

(責任編輯:孫 娟)

主站蜘蛛池模板: 国产免费久久精品99re丫丫一| 一级毛片免费观看久| 99爱视频精品免视看| 久久国产乱子| 日韩午夜片| 91麻豆国产精品91久久久| 老司机aⅴ在线精品导航| 天天综合网色中文字幕| 精品超清无码视频在线观看| 片在线无码观看| 666精品国产精品亚洲| 黄色不卡视频| 国产美女在线免费观看| 国产一二三区在线| 999精品色在线观看| 欧美一级爱操视频| 一级毛片高清| 98精品全国免费观看视频| 99在线视频免费| 91视频日本| 国产精品免费久久久久影院无码| 亚洲黄色高清| 久久精品国产国语对白| 无码中文字幕乱码免费2| 精品一区国产精品| 国产精品视频白浆免费视频| 欧美日韩专区| 日韩资源站| 538国产视频| 波多野结衣无码视频在线观看| 福利在线不卡一区| 日韩A∨精品日韩精品无码| 欧美日韩国产成人高清视频| 欧美成人午夜在线全部免费| 亚洲中文字幕久久精品无码一区| 婷婷六月激情综合一区| 国产爽歪歪免费视频在线观看| 91精品国产综合久久香蕉922| 国产网站免费| 免费国产高清视频| 欧美.成人.综合在线| 精品一区二区久久久久网站| 丁香五月亚洲综合在线| 99久久精品免费看国产电影| 欧美一区二区福利视频| 亚洲色图欧美视频| 久久精品娱乐亚洲领先| 亚洲欧洲日产无码AV| 四虎国产永久在线观看| 噜噜噜久久| 国产精品开放后亚洲| 亚洲视频二| 久久综合丝袜日本网| 欧美激情二区三区| 国产成人一级| 亚洲精品男人天堂| 国产日韩丝袜一二三区| 欧美区国产区| 欧美精品亚洲日韩a| 日韩在线视频网| 国产精品视频导航| 免费A级毛片无码无遮挡| 中文字幕亚洲第一| 丰满的熟女一区二区三区l| 亚洲成人精品| 伊人精品视频免费在线| 欧美成人国产| 伊人久久大线影院首页| 国产男女免费完整版视频| 少妇精品网站| 成人伊人色一区二区三区| 精品国产一二三区| 97se亚洲| 3p叠罗汉国产精品久久| 久久综合亚洲色一区二区三区| 国产午夜一级毛片| 91九色国产在线| 亚洲国产高清精品线久久| 精品人妻一区二区三区蜜桃AⅤ| 国产欧美日韩另类精彩视频| 日韩中文精品亚洲第三区| 亚洲精品不卡午夜精品|