趙貞



[摘 要]常規的電力企業財務信息異常數據挖掘方法以集群挖掘與分段挖掘為主,同一類別的異常數據挖掘效率較低,影響財務數據整合效果。因此,本文設計了基于關聯規則算法的電力企業財務信息異常數據智能挖掘方法。此方法標注電力企業財務信息數據挖掘異常點,建立電力企業財務信息數據集,逐步探查數據集中的異常數據,并將異常數據匯總到一個數據單元中,形成財務信息數據異常點。本文基于關聯規則算法挖掘電力財務異常頻繁項集,在電力財務數據異常點中,挖掘出存在價值的信息,確保異常數據挖掘的準確性。采用對比實驗,驗證了該方法的數據挖掘準確性更高,能夠應用于電力企業財務管理工作中。
[關鍵詞]關聯規則算法;電力企業;財務信息;異常數據;智能挖掘方法
doi:10.3969/j.issn.1673-0194.2024.05.024
[中圖分類號]F275 [文獻標識碼]A [文章編號]1673-0194(2024)05-0079-03
0? ? ?引 言
電力企業存在多種交易數據,匯總在財務部進行數據整合,有效地避免了電力企業的財務損失。在電力企業財務信息的海量數據中,存在著賬戶異常、財務報表異常、稅務異常等多種異常數據,影響電力企業財務數據的整合。針對此類問題,研究人員設計了多種異常數據挖掘方法。其中,基于改進關聯聚類算法的電力企業財務信息異常數據智能挖掘方法,與基于改進DPC算法的電力企業財務信息異常數據智能挖掘方法的應用較為廣泛。
基于改進關聯聚類算法的電力企業財務信息異常數據智能挖掘方法,主要是利用關聯規則提供異常數據挖掘環境,并利用自適應策略挖掘電力企業異常數據相關規則,以K-means算法檢測異常數據挖掘的準確性,從而確保數據挖掘效果[1]。基于改進DPC算法的電力企業財務信息異常數據智能挖掘方法,主要是利用密度峰值聚類算法,識別電力異常數據,并提取出異常數據的有效表征,降低運算復雜度,從而滿足異常數據挖掘需求[2]。以上兩種方法均存在不同程度的弊端,導致數據挖掘的準確性降低。因此,本文利用關聯規則算法,設計了電力企業財務信息異常數據智能挖掘方法。
1? ? ?電力財務信息異常數據關聯規則智能挖掘方法
設計
1.1? ?標注電力企業財務信息數據挖掘異常點
在挖掘異常數據之前,標注出數據異常點,避免異常數據挖掘錯漏問題[3]。異常點的實際值與期望值差別較大,可通過數據約束、層約束、異常約束等方面,使異常點的數據實體化,從而提高財務信息異常數據挖掘效率[4]。異常點獲取代碼如圖1所示。
如圖1所示,在異常點提取的過程中,建立數據集Ii,并將異常點標注為cui,實體化的異常點為cum,cui能夠通過cum計算出來,公式如下:
(1)
式(1)中,t(cui)為異常點可視化數據;size(cum)為cum的數量;size(P)為一個數據單元能夠容納的異常數據數量;ts為異常點標注代價。本文建立了電力企業財務信息數據集,逐步探查數據集中的異常數據,并將異常數據匯總到一個數據單元中,形成財務信息數據異常數據單元。
1.2? ?基于關聯規則算法挖掘電力財務異常頻繁項集
本文利用關聯規則算法,獲取電力財務異常頻繁項集,在電力財務數據異常點中,挖掘出存在價值的信息,確保異常數據挖掘的準確性[5]。對于異常數據集合Ii而言,I1的支持度表示為:
(2)
(3)
式(2)、式(3)中,Z(I1)為電力企業財務信息數據I1的支持度,表示I1同時包含財務信息正常數據與異常數據的比例;Ti為電力企業財務信息數據庫的第i條異常數據記錄;D為電力企業財務信息數據庫;Z(Ii)為第i個非空子集Ii的支持度;Min_Sup為最小支持度閾值。當滿足式(3)條件時,稱Ii為頻繁項集。給定電力企業財務信息數據全局項集Ii與D,對于兩個異常數據X、Y,計算出X、Y的置信度,公式如下:
(4)
式(4)中,C(X→Y)為異常數據X相對于Y的置信度,表示數據X中同時包含數據Y的比例;Z(X∪Y)為異常數據Y占X的比例;Z(X)為數據X的挖掘支持度。其中,XIi? 1,Y? Ii,
(5)
式(5)中,L(X,Y)為數據X、Y的提升度,包含兩個異常數據X、Y的相關性,能夠判斷異常數據智能挖掘效果;Z(Y)為數據Y的挖掘支持度。當L(X,Y)>1時,兩個異常數據X、Y的正相關性較高,表明數據X、Y同時被挖掘的可能性較高,異常數據智能挖掘效率更高[6]。當L(X,Y)<1時,兩個異常數據X、Y的負相關性較高,表明數據X、Y同時被挖掘的可能性較低,影響異常數據挖掘效率[7]。當L(X,Y)=1時,兩個異常數據X、Y不相關,數據X、Y為相互獨立的狀態,難以快速挖掘出同一類別的異常數據,影響異常數據挖掘效率。根據L(X,Y)的值,判斷電力企業財務信息異常數據智能挖掘效果,從而實現異常數據快速挖掘。
2? ? ?實 驗
為了驗證本文設計的方法是否滿足電力企業財務信息異常數據智能挖掘需求,本文對上述方法進行了實驗分析。最終的實驗結果則以文獻[1]基于改進關聯聚類算法的挖掘方法、文獻[2]基于改進DPC算法的挖掘方法,以及本文設計的基于關聯規則算法的挖掘方法進行對比的形式呈現。具體的實驗準備過程以及最終的實驗結果如下。
2.1? ?實驗過程
本次實驗以某電力企業的真實數據為主,確保實驗數據的真實有效性。電力企業的建設運營電網為核心業務,下屬14家供電企業,8家業務支撐機構,企業本部下設24個部門,服務各類用電客戶近千萬戶。電力企業的財務信息數據較多,需挖掘出異常數據,保留正常數據,確保財務信息的整合效果。因此,本文采用關聯規則算法,挖掘出異常數據,實驗流程如圖2所示。
如圖2所示,在確定異常點數據特征之后,計算出異常數據的支持度、置信度、提升度,使輸出的異常數據更加準確,滿足本次實驗需求。
2.2? ?實驗結果
在上述實驗條件下,本文隨機選取出多種電力企業財務信息異常數據類別,并分析挖掘出來異常數據的支持度、置信度、提升度進行分析。將三者作為本次實驗的判斷指標,并將文獻[1]基于改進關聯聚類算法的電力企業財務信息異常數據智能挖掘方法的性能指標、文獻[2]基于改進DPC算法的電力企業財務信息異常數據智能挖掘方法的性能指標,以及本文設計的基于關聯規則算法的電力企業財務信息異常數據智能挖掘方法的性能指標進行對比。實驗結果如表1所示。
如表1所示,電力企業財務信息異常數據被挖掘出來之后,該數據的支持度在0~1的范圍內變化,支持度越高,表示該數據在異常數據集中出現的頻率越高,數據挖掘的準確性隨之增加。被挖掘的數據置信度同樣在0~1的范圍內變化,置信度越高,表示異常數據出現的概率較高,異常數據挖掘的準確性也隨之提升。在其他條件均一致的情況下,使用文獻[1]基于改進關聯聚類算法的電力企業財務信息異常數據智能挖掘方法之后,電力財務異常數據挖掘的支持度與置信度在0.72~0.87的范圍內變化,提升度在0.92~1.25的范圍內變化。由此可見,該方法的支持度與置信度相對較低,存在提升度≤1的情況,異常數據挖掘的效率較低,影響電力企業財務信息整合效果。
使用文獻[2]基于改進DPC算法的電力企業財務信息異常數據智能挖掘方法之后,在投資異常的企業財務信息類別中,異常數據挖掘的提升度=1;在關聯交易異常的信息類別中,異常數據挖掘的提升度<1。由此可見,使用該方法之后,電力企業財務信息異常數據挖掘仍存在數據關聯性弱的問題,同一類別的異常數據挖掘困難,需對其進一步優化。而使用本文設計的基于關聯規則算法的電力企業財務信息異常數據智能挖掘方法之后,電力財務異常數據挖掘的支持度與置信度在0.98~1.00的范圍內變化,提升度均
>1,并未出現提升度≤1的情況。由此可見,使用本文設計的方法之后,能夠有效地挖掘同一類別的異常數據,提升了財務信息異常數據挖掘效率,為電力企業財務信息整合提供保障。
3? ? ?結束語
近些年來,電力企業的信息化程度不斷提升,財務信息管理也成為企業運營中的重要環節。電力企業的財務數據較多,能否在海量的數據中找出異常數據,對于電力企業的發展至關重要。因此,本文結合關聯規則算法,設計了電力企業財務信息異常數據智能挖掘方法。從異常點標注、頻繁項集挖掘等方面,快速找出財務信息異常數據的特征,提升了電力企業財務信息數據的整合效率。
主要參考文獻
[1]周燕,肖莉.基于改進關聯聚類算法的網絡異常數據挖
掘[J].計算機工程與設計,2023,44(1):108-115.
[2]李智宇.基于改進的DPC算法的ZDJ9轉轍機異常數據挖掘[J].鐵路通信信號工程技術,2022,19(5):1-6.
[3]常富紅,李麒,狄亞平,等.基于云計算的智能電網信息異常數據挖掘方法[J].信息與電腦,2022,34(24):177-179,202.
[4]國網無錫供電公司課題組.以大數據為基礎的風險導向內部審計研究:以電力企業為例[J].中國內部審計,2022(12):51-52.
[5]戴禮燦,代翔,崔瑩,等.基于深度集成學習的社交網絡異常數據挖掘算法[J].吉林大學學報(工學版),2022,52
(11):2712-2717.
[6]楊若松,張筱悅,陸興發.基于數據自動流動的電力企業物資業務全流程數字化管理系統研究[J].東北電力大學學報,2021,41(6):100-104.
[7]潘建宏,左石,李群英,等.大數據時代電力企業績效管理的總體思路及保障措施探討[J].企業改革與管理,2022
(23):95-97.