摘 要:【目的】新能源設(shè)備某一處故障會(huì)使與之關(guān)聯(lián)的元件都生成大量告警信息,導(dǎo)致新能源設(shè)備運(yùn)維數(shù)據(jù)挖掘查全率與查準(zhǔn)率下降。為此,提出一種基于改進(jìn)決策樹(shù)的新能源設(shè)備運(yùn)維數(shù)據(jù)挖掘方法。【方法】結(jié)合運(yùn)維數(shù)據(jù)源分類(lèi)流程對(duì)新能源設(shè)備運(yùn)維數(shù)據(jù)進(jìn)行一體化關(guān)聯(lián)處理,解決運(yùn)維數(shù)據(jù)的分散性問(wèn)題,獲取新能源設(shè)備運(yùn)維關(guān)聯(lián)數(shù)據(jù)子集。針對(duì)關(guān)聯(lián)數(shù)據(jù)子集在挖掘預(yù)測(cè)過(guò)程中的特征選擇風(fēng)險(xiǎn),利用改進(jìn)決策樹(shù)對(duì)關(guān)聯(lián)數(shù)據(jù)子集展開(kāi)分裂信息度量,結(jié)合分裂信息度量結(jié)果,實(shí)現(xiàn)新能源運(yùn)維數(shù)據(jù)挖掘。【結(jié)果】實(shí)驗(yàn)結(jié)果表明,該方法對(duì)新能源設(shè)備運(yùn)維數(shù)據(jù)挖掘結(jié)果的查全率與查準(zhǔn)率較高,查全率在94%以上,查準(zhǔn)率在96%以上。【結(jié)論】該方法的數(shù)據(jù)挖掘效果好,可靠性較高,在提高新能源設(shè)備綜合運(yùn)行質(zhì)量方面具有一定的應(yīng)用價(jià)值。
關(guān)鍵詞:改進(jìn)決策樹(shù);新能源設(shè)備;運(yùn)維;數(shù)據(jù);挖掘
中圖分類(lèi)號(hào):TP181 " "文獻(xiàn)標(biāo)志碼:A " " 文章編號(hào):1003-5168(2025)06-0036-04
DOI:10.19968/j.cnki.hnkj.1003-5168.2025.06.006
Research on Data Mining of New Energy Equipment Operation and Maintenance Based on Improved Decision Tree
WANG Haicheng ZHAO Jinglei HU Kun SHAO Meng LIU Mingyue
(PowerChina Renewable Energy Co., Ltd., Beijing 100101, China)
Abstract:[Purposes] A fault in a new energy equipment will generate a large amount of alarm information from the associated components, resulting in a decrease in the recall and precision of data mining for new energy equipment operation and maintenance. Therefore, a new energy equipment operation and maintenance data mining method based on an improved decision tree is proposed. [Methods] Combining the classification process of operation and maintenance data sources,this paper will integrate and correlate the operation and maintenance data of new energy equipment, address the issue of data dispersion, and obtain a subset of operation and maintenance related data for new energy equipment. To address the feature selection risk of association processing subsets in the mining and prediction process, an improved decision tree is used to measure the split information of the association data subset, and the split information measurement results are combined to achieve new energy operation and maintenance data mining. [Findings] The experimental results show that the design method has high recall and precision in the data mining results of new energy equipment operation and maintenance.As a result, the recall rate is above 94%, and the precision rate is above 96%. [Conclusions] This method has good data mining performance, reliability, and certain application value, and can make certain contributions to improving the comprehensive operation quality of new energy equipment.
Keywords: improved decision tree; new energy equipment; operation and maintenance; data; excavation
0 引言
新能源設(shè)備是一種利用可再生能源進(jìn)行電力輸配存儲(chǔ)的特殊設(shè)備,包括風(fēng)力發(fā)電機(jī)、電容器、光伏板等。運(yùn)維數(shù)據(jù)是新能源設(shè)備性能評(píng)估與決策的基礎(chǔ),數(shù)量龐大且復(fù)雜度較高[1]。一般情況下,新能源設(shè)備運(yùn)維數(shù)據(jù)主要來(lái)源于設(shè)備監(jiān)控中心,包括實(shí)時(shí)采集的各項(xiàng)運(yùn)行參數(shù)、人工巡檢記錄的設(shè)備故障信息、數(shù)據(jù)分析平臺(tái)采集的有價(jià)值信息等。新能源設(shè)備運(yùn)維數(shù)據(jù)類(lèi)型較多[2],包括實(shí)時(shí)運(yùn)行數(shù)據(jù)(如發(fā)電功率、電流電壓等)、歷史數(shù)據(jù)(如過(guò)去的運(yùn)行故障維修記錄等)、外部數(shù)據(jù)源(包括氣象數(shù)據(jù)、市場(chǎng)數(shù)據(jù)等)[3]。為了分析設(shè)備的長(zhǎng)期運(yùn)行趨勢(shì),預(yù)測(cè)設(shè)備運(yùn)行狀態(tài),實(shí)時(shí)完成設(shè)備故障處理,需要對(duì)新能源設(shè)備運(yùn)維數(shù)據(jù)挖掘進(jìn)行深入研究。
事實(shí)上,新能源設(shè)備運(yùn)維數(shù)據(jù)挖掘需要明確具體的目標(biāo)與需求,并將不同來(lái)源的數(shù)據(jù)進(jìn)行有效整合,生成統(tǒng)一數(shù)據(jù)集。此外,還要填補(bǔ)數(shù)據(jù)缺失值,進(jìn)行歸一離散化處理,從原始數(shù)據(jù)中選擇相關(guān)特征,實(shí)現(xiàn)數(shù)據(jù)過(guò)濾。相關(guān)研究人員針對(duì)新能源設(shè)備運(yùn)行狀態(tài)設(shè)計(jì)了幾種常規(guī)的運(yùn)維數(shù)據(jù)挖掘方法。例如,李軍[4]提出了基于關(guān)聯(lián)規(guī)則的新能源設(shè)備運(yùn)維數(shù)據(jù)挖掘方法,通過(guò)篩選給定事務(wù)庫(kù),結(jié)合頻繁項(xiàng)集實(shí)現(xiàn)數(shù)據(jù)挖掘,但該方法易受置信度最小值偏移作用的影響,導(dǎo)致挖掘價(jià)值分布不佳;張海濤[5]提出了基于灰色關(guān)聯(lián)分析的運(yùn)維數(shù)據(jù)挖掘方法,構(gòu)建了運(yùn)維數(shù)據(jù)提取模型,結(jié)合數(shù)據(jù)映射離散值進(jìn)行數(shù)據(jù)挖掘,但在實(shí)際應(yīng)用中易受數(shù)據(jù)標(biāo)簽集變化影響,導(dǎo)致挖掘價(jià)值與預(yù)設(shè)閾擬合程度偏低。為了保證新能源設(shè)備運(yùn)行質(zhì)量,本研究基于改進(jìn)決策樹(shù)設(shè)計(jì)了一種新的運(yùn)維數(shù)據(jù)挖掘方法。
1 新能源設(shè)備運(yùn)維數(shù)據(jù)挖掘方法設(shè)計(jì)
1.1 新能源設(shè)備運(yùn)維數(shù)據(jù)一體化關(guān)聯(lián)處理
新能源設(shè)備運(yùn)維數(shù)據(jù)的分散性較強(qiáng),在挖掘過(guò)程中容易出現(xiàn)丟棄或修改問(wèn)題,難以保證數(shù)據(jù)挖掘價(jià)值。因此,本研究在運(yùn)維數(shù)據(jù)挖掘過(guò)程中進(jìn)行運(yùn)維數(shù)據(jù)源分類(lèi),完成一體化關(guān)聯(lián)處理。生成的運(yùn)維數(shù)據(jù)源分類(lèi)流程如圖1所示。
由圖1可知,按照上述流程可以完成數(shù)據(jù)分類(lèi)轉(zhuǎn)換,結(jié)合運(yùn)維數(shù)據(jù)挖掘需求進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)處理。首先,對(duì)待處理的數(shù)據(jù)參數(shù)表進(jìn)行時(shí)間間隔初始化調(diào)整[6],確定挖掘數(shù)據(jù)的類(lèi)型;其次,實(shí)時(shí)掃描數(shù)據(jù)源文件夾,按照數(shù)據(jù)清理規(guī)則進(jìn)行未知參數(shù)匯總,生成合法數(shù)據(jù)文件;最后,調(diào)用轉(zhuǎn)換系數(shù),并根據(jù)不同數(shù)據(jù)文件狀態(tài)進(jìn)行比較,結(jié)合數(shù)據(jù)特征完成分類(lèi)處理。
按照數(shù)據(jù)源分類(lèi)結(jié)果獲取一體化關(guān)聯(lián)處理規(guī)則,將挖掘問(wèn)題轉(zhuǎn)換為強(qiáng)關(guān)聯(lián)規(guī)則尋找過(guò)程,假設(shè)分類(lèi)完畢的頻繁項(xiàng)目集為I,不同挖掘事物對(duì)應(yīng)的強(qiáng)關(guān)聯(lián)屬性子集不同,可以進(jìn)行數(shù)據(jù)屬性相似度分析[7],奇異值分解處理[Q]的計(jì)算見(jiàn)式(1)。
[Q=Kia·ut] "(1)
式中:[Ki]代表挖掘數(shù)據(jù)驗(yàn)證權(quán)重;[a]代表挖掘特征向量;[u]代表挖掘加權(quán)值;[t]代表挖掘時(shí)間序列。
選取異常數(shù)據(jù)特征值進(jìn)行訓(xùn)練,完成運(yùn)維數(shù)據(jù)一體化關(guān)聯(lián)處理,處理后輸出的新能源設(shè)備運(yùn)維關(guān)聯(lián)數(shù)據(jù)子集[G]見(jiàn)式(2)。
[G=Qa(z)/R] (2)
式中:[a(z)]代表挖掘冗余信息向量函數(shù);[R]代表挖掘數(shù)據(jù)聯(lián)合分布概率。使用上述步驟處理可以顯著提高運(yùn)維挖掘數(shù)據(jù)質(zhì)量,降低冗余噪聲波動(dòng)風(fēng)險(xiǎn)。
1.2 基于改進(jìn)決策樹(shù)的新能源設(shè)備運(yùn)維數(shù)據(jù)挖掘
上述獲取的運(yùn)維數(shù)據(jù)關(guān)聯(lián)處理子集[G]在挖掘預(yù)測(cè)過(guò)程中存在特征選擇風(fēng)險(xiǎn),決策樹(shù)可以根據(jù)葉子節(jié)點(diǎn)標(biāo)簽進(jìn)行特征連接,提高屬性決策的準(zhǔn)確性。因此,本研究基于改進(jìn)決策樹(shù)設(shè)計(jì)了新能源設(shè)備運(yùn)維數(shù)據(jù)挖掘算法,從而保證數(shù)據(jù)挖掘質(zhì)量和效率。輸出子集的挖掘協(xié)方差的計(jì)算[Co(x,y)]見(jiàn)式(3)。
[Co(x,y)=1n-1(G-Gi)] "(3)
式中:[n]代表挖掘數(shù)據(jù)屬性維度,[Gi]代表關(guān)聯(lián)展示值。
原始決策樹(shù)可能受分類(lèi)器影響存在挖掘選擇異常問(wèn)題[8],為了提高挖掘?qū)傩灾捣植季庑裕诟倪M(jìn)決策樹(shù)設(shè)計(jì)了新能源設(shè)備運(yùn)維數(shù)據(jù)挖掘算法。按照上述計(jì)算的挖掘協(xié)方差比例計(jì)算香濃熵值[Ent(p)],見(jiàn)式(4)。
[En(p)=Co(x,y)·log(pi)] (4)
式中:[pi]代表挖掘樣本集合。由此,可以決定不同數(shù)據(jù)屬性的挖掘順序,按照映射信息要求確定挖掘分裂信息度量[Ga],見(jiàn)式(5)。
[Ga(p)=En(p)-piP·En(p)] "(5)
式中:[P]代表挖掘增益系數(shù)。基于此可以消除屬性變化對(duì)數(shù)據(jù)挖掘結(jié)果造成的影響,得到的新能源運(yùn)維數(shù)據(jù)挖掘結(jié)果見(jiàn)式(6)。
[SP(p)=Ga(p)En(p)] (6)
通過(guò)上述公式,可以有效掌握多運(yùn)維數(shù)據(jù)的重要度,在滿足挖掘決策標(biāo)準(zhǔn)化的基礎(chǔ)上,提高挖掘可靠性,保證挖掘價(jià)值最高。
2 實(shí)驗(yàn)
為了驗(yàn)證本研究設(shè)計(jì)的基于改進(jìn)決策樹(shù)的新能源設(shè)備運(yùn)維數(shù)據(jù)挖掘方法的挖掘效果,設(shè)置了有效的實(shí)驗(yàn)環(huán)境,將本研究設(shè)計(jì)的方法與基于關(guān)聯(lián)規(guī)則的新能源設(shè)備運(yùn)維數(shù)據(jù)挖掘方法、基于灰色關(guān)聯(lián)分析的運(yùn)維數(shù)據(jù)挖掘方法進(jìn)行了對(duì)比實(shí)驗(yàn)。
2.1 實(shí)驗(yàn)準(zhǔn)備
結(jié)合新能源設(shè)備運(yùn)維數(shù)據(jù)挖掘?qū)嶒?yàn)要求,本研究選取SFSTspan作為實(shí)驗(yàn)平臺(tái),該實(shí)驗(yàn)平臺(tái)屬增量式經(jīng)典序列挖掘平臺(tái),PC環(huán)境設(shè)置見(jiàn)表1。
由表1可知,該實(shí)驗(yàn)平臺(tái)可對(duì)原始挖掘數(shù)據(jù)進(jìn)行有效預(yù)處理,滑動(dòng)窗口為0.5 h,挖掘序列數(shù)據(jù)集數(shù)據(jù)共12 536條,平均序列長(zhǎng)度為14。實(shí)驗(yàn)利用Java11對(duì)Prefixpan進(jìn)行改進(jìn),動(dòng)態(tài)更新Redis數(shù)據(jù)庫(kù),完成等價(jià)更新數(shù)據(jù)處理。
針對(duì)實(shí)驗(yàn)算法的效度問(wèn)題,本研究進(jìn)行min-sup支持度處理,按照prefixpan、Incspan順序?qū)Ω婢隽啃蛄羞M(jìn)行挖掘,設(shè)置的數(shù)據(jù)頻繁項(xiàng)挖掘參數(shù)為2%。在實(shí)驗(yàn)過(guò)程中,需要對(duì)獲取的運(yùn)維數(shù)據(jù)進(jìn)行溯源,即進(jìn)行多維模塊轉(zhuǎn)換,結(jié)合增量式序列進(jìn)行關(guān)聯(lián)冗余過(guò)濾處理,生成挖掘關(guān)聯(lián)關(guān)系。實(shí)驗(yàn)數(shù)據(jù)庫(kù)是基于Mysql\Redis實(shí)現(xiàn)的,按照歷史告警數(shù)據(jù)庫(kù)要求實(shí)現(xiàn)持久化,為挖掘?qū)由蒳son接口,得到有效的設(shè)備運(yùn)維數(shù)據(jù)挖掘?qū)嶒?yàn)結(jié)果。
2.2 實(shí)驗(yàn)結(jié)果與討論
基于上述實(shí)驗(yàn)準(zhǔn)備,進(jìn)行新能源設(shè)備運(yùn)維數(shù)據(jù)挖掘?qū)嶒?yàn)。即設(shè)置多循環(huán)對(duì)應(yīng)反應(yīng)器,按照集中參與單元進(jìn)行循環(huán)調(diào)整,劃分運(yùn)維數(shù)據(jù)有價(jià)值挖掘閾值。考慮新能源設(shè)備的運(yùn)行狀態(tài)進(jìn)行數(shù)據(jù)量篩選,按照測(cè)量控制要求完成TEP過(guò)程模仿。此時(shí),分別使用基于改進(jìn)決策樹(shù)的新能源設(shè)備運(yùn)維數(shù)據(jù)挖掘方法、基于關(guān)聯(lián)規(guī)則的新能源設(shè)備運(yùn)維數(shù)據(jù)挖掘方法及基于灰色關(guān)聯(lián)分析的運(yùn)維數(shù)據(jù)挖掘方法進(jìn)行挖掘,三種方法的查全率實(shí)驗(yàn)結(jié)果如圖2所示。
由圖2可知,隨著實(shí)驗(yàn)次數(shù)的增加,上述三種方法的查全率均呈現(xiàn)顯著變化趨勢(shì)。其中,基于改進(jìn)決策樹(shù)的新數(shù)據(jù)挖掘方法的查全率在94%以上;基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法和基于灰色關(guān)聯(lián)分析的數(shù)據(jù)挖掘方法的查全率曲線波動(dòng)較大,且數(shù)值較低。由此說(shuō)明這兩種方法的數(shù)據(jù)挖掘效果遠(yuǎn)低于本研究設(shè)計(jì)的方法。
三種方法的查準(zhǔn)率結(jié)果如圖3所示。由圖3可知,基于改進(jìn)決策樹(shù)的新數(shù)據(jù)挖掘方法的查準(zhǔn)率在96%以上;基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法的查準(zhǔn)率在73%~88%;基于灰色關(guān)聯(lián)分析的數(shù)據(jù)挖掘方法的查準(zhǔn)率在72%~86%,查準(zhǔn)率曲線波動(dòng)較大。由此可知,本研究設(shè)計(jì)的方法挖掘效果較好,可靠性較高,具有一定的應(yīng)用價(jià)值。
3 結(jié)語(yǔ)
在全球能源飛速轉(zhuǎn)型背景下,新能源產(chǎn)業(yè)的發(fā)展速度越來(lái)越快。新能源設(shè)備的種類(lèi)較多,涉及的運(yùn)維數(shù)據(jù)復(fù)雜度較高、分布廣泛,難以收集處理與分析,為了解決新能源設(shè)備的挖掘決策問(wèn)題,本研究基于改進(jìn)決策樹(shù)設(shè)計(jì)了一種有效的新能源設(shè)備數(shù)據(jù)挖掘方法。實(shí)驗(yàn)結(jié)果表明,本研究設(shè)計(jì)的基于改進(jìn)決策樹(shù)的數(shù)據(jù)挖掘方法的挖掘效果較好,數(shù)據(jù)挖掘價(jià)值分布與預(yù)設(shè)閾擬合,可靠性較高,具有一定的應(yīng)用價(jià)值,可為新能源設(shè)備的生產(chǎn)優(yōu)化作出一定的貢獻(xiàn)。
參考文獻(xiàn):
[1]金海勇,吳其樂(lè),劉騰澤.基于模糊控制和大數(shù)據(jù)算法模型的電力運(yùn)維故障診斷設(shè)備方法[J].計(jì)算機(jī)測(cè)量與控制,2022,30(11):71-76.
[2]姚培福,王建國(guó),譚正洲.基于銅冶煉工廠歷史運(yùn)維大數(shù)據(jù)挖掘的業(yè)務(wù)流程再造模型研究[J].電子設(shè)計(jì)工程,2022,30(10):36-40,45.
[3]王璐,漆志剛,戴倚霞,等.國(guó)家高端智庫(kù)數(shù)據(jù)體系建設(shè)與應(yīng)用:中國(guó)石油集團(tuán)經(jīng)濟(jì)技術(shù)研究院智能化發(fā)展探索實(shí)踐[J].國(guó)際石油經(jīng)濟(jì),2024,32(S1):16-21.
[4]李軍.基于關(guān)聯(lián)規(guī)則的工業(yè)控制系統(tǒng)運(yùn)維數(shù)據(jù)挖掘方法[J].微型電腦應(yīng)用,2023,39(9):167-170.
[5]張海濤.基于灰色關(guān)聯(lián)分析的移動(dòng)終端運(yùn)維數(shù)據(jù)挖掘研究[J].信息與電腦(理論版),2022,34(18):4-6.
[6]劉金飛,彭旭初,劉四華,等.基于深度數(shù)據(jù)挖掘的水電能源工程數(shù)據(jù)智能分析處理算法[J].電子設(shè)計(jì)工程,2023,31(10):44-48.
[7]張衛(wèi)國(guó),宋杰,郭明星,等.考慮電動(dòng)汽車(chē)充電需求的虛擬電廠負(fù)荷均衡管理策略[J].電力系統(tǒng)自動(dòng)化,2022,46(9):118-126.
[8]張旭東,謝民,黃建平,等.基于數(shù)據(jù)挖掘的電力自動(dòng)化系統(tǒng)運(yùn)行數(shù)據(jù)中臺(tái)資源檢索技術(shù)研究[J].安徽師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2023,46(2):119-125.