陳益果,何安宏
(南瑞集團有限公司(國網電力科學研究院有限公司),江蘇 南京 211100)
數據挖掘算法是大規模數據整合和分析的關鍵工作。為了科學表現大數據的特征,需要將對應這些數據的類型和形式算法進行定式化。這些算法是基于統計的統計方法,只有這樣,挖掘的數據才能夠充分發揮其本來價值。數據挖掘的主體沒有限制,主要是將現有數據通過數據挖掘算法進行預測性分析,進行一些高級別的數據分析,可利用Mahout工具實現,典型算法有SVM、Kmeans等[1]。下文將列舉一些比較常用的數據挖掘方法。
MBR(Memory-BasedReasoning)方式主要的核心是記憶基礎推理法,涵蓋距離函數和結合函數,前者旨在找到最相似案例,后者則將相似案例屬性結合起來,以便預測分析時使用。該方法的優點在于能夠容許各種型態的數據且不需要服從某些假設,具備自學習能力,能夠憑借舊案例的學習獲取關于新案例的知識,但需要大量歷史數據的支撐。處理費時,效率不高,在欺騙行為偵測、預測客戶反應、醫學診療等方面,有較強的應用前景[2]。
ClusterDetection(聚類分析)技術擁有廣泛的應用范圍,涵蓋基因算法、類神經網絡、統計學中的群集分析,主要是找出數據中以前未知的相似群體。
數據挖掘最重要的作用是為相關決策提供有效支撐。就企業來講,企業的ERP系統應用過程中能夠積累大量的業務數據,這對大數據技術的應用提供了較好的前提條件。所以,在運營過程中構建統一的數據平臺,可實現數據的集成和共享,為機構決策提供技術支撐。該機構基于市場風險、信用風險以及內部控制,建立起風險管理系統,整合現有風險控制形成風控戰略能力,建立起KRI(關鍵風險管理指標)、風險分析、風險組合管理、風險保管等,極大地提升了機構風險管理水平。同時,在統一平臺下實現了業務中心、各部門不同層次的風控要求,滿足了不同的業務需求[3],為該機構市場、信用以及倉儲三方面的風險控制提供了極大助力,且強大的開放性便于后續的擴展深化。具體而言,即建立風控計量模型,基于歷史數據和數據挖掘算法,針對模型進行調整優化,實現量化監控、預測分析以及自動預警。
本文主要研究數據挖掘技術在配電網故障風險預警工作中的應用,流程如圖1所示。
以某城市配電網運行數據為研究對象,利用從配電網管理系統中采集的數據進行分析,總結歸納得到故障特征,然后經過對故障關聯因素的進一步分析,剔除其中一些不適用的冗余特征,結果如表1所示。

表1 電力故障特征關聯因素

圖1 風險預警流程圖
然后,采用Relief算法計算得到所有特征值的權重大小,最終結果中與饋線故障直接相關的故障特征全部得以保留。這些特征與故障強相關,且各自相互獨立。
故障風險是不斷變化的,因此在對其進行分析時需要考量時變因素。本文選擇2016年5月到2017年4月的數據來作為訓練樣本,2017年6月、7月的數據作為測試數據。其中,訓練樣本用來進行相關模型的獲取和檢驗,測試樣本主要用來進一步優化模型,以便保證模型的預警效果。
風險等級的樣本數量如表2所示。
通過選擇使用基于RBF的SVM方法對樣本風險實施預警和分析,結果如表3所示。
由表3得知,該模型對饋線風險的預警準確率保持在90%以上。因此,從某種程度上講,該模型具有較強的實用性和準確性。
數據挖掘技術在大數據配電網故障風險預警中具有重要的作用。通過數據挖掘技術構建的風險預警模型,能夠準確的預警配電網風險,對保障電力安全具有重要意義。

表2 風險等級樣本的數量

表3 配電網故障風險等級預警結果