紀懷猛
(福州大學陽光學院,福建福州 350015)
由于科技水平的提高和發展,數據庫技術越來越多地應用在各行各業中。現有的絕大多數數據庫的功能是對數據進行錄入、查詢及統計等,并且處理后的信息只是當作數據庫信息的一部分。如果只是經這樣簡單的處理,根本就無法正確地對數據的整體性質進行描述,更不用說預測數據的發展方向了。隨著數據挖掘技術在數據庫中的應用,可以挖掘出許多有用的數據和數據模型,根據挖掘出來的有效信息,可以做出高效的決策。電力系統作為國家重要能源部門,在社會日常生產中有著不可替代的作用,它能否安全運行將直接影響到社會的各行各業能否正常運作,因此必須要確保電力系統安全運行[1]。對電力系統的運行狀態進行實時的監控,對運作性能進行查看分析和綜合評估,對電力設備的故障進行分析、診斷以及維修,已經變得越來越不可缺少。
近年來,隨著數據倉庫和統計學等技術水平的提高而出現的一種多領域綜合的、新型的數據處理技術——數據挖掘。數據挖掘是指從海量的數據中找出隱藏的、有用的數據模型的過程[2]。針對使用的數據多次使用相應數據挖掘算法從中找出符合要求的數據模型。即是根據預先假定的目標,對海量的數據進行分析處理和挖掘,找出其中隱含的、有用的信息,然后進一步把信息模型化和高效的技術處理過程[3]。隨著數據庫、計算機技術水平的快速提高和發展,數據挖掘已越來越多應用在各行各業中。
數據挖掘技術與已有的數據分析方式的主要區別是它們在發現數據關系時所使用的方法上有很大的區別。已有的數據分析方式主要使用的是基于驗證、分析的方法。然而,數據挖掘使用的是基于發現的方法。數據挖掘采用特有的挖掘算法來分析出數據之間的關系。知識發現過程如圖1所示。

圖1 知識發現過程
現在對知識發現過程有很多種說明方式,不過它們沒有多少本質上的不同。以下簡要地描述一下知識發現過程:
1)問題的認識和定義。技術人員與問題領域人士一起深入地理解和分析問題,描述出可能的解決方案和對模型結果的評估方法。
2)數據集成和選擇。在文件或數據庫中收集相關的數據。
3)數據變換和清理。消除噪聲和刪除不同的數據,然后通過數據的聚集操作把數據變換為一種統一的形式,方便數據挖掘。
4)算法選擇和運行。通過問題的定義和數據的描述形式來確定挖掘算法,然后根據確定的挖掘算法從數據中找出模型。
5)模式評估。根據問題的某種興趣度量來找出真正有用的模型。由問題的處理人來評價模型的符合度和高效性。
數據挖掘的算法很多,常用的幾種算法如下。
K-Means算法是一個聚類算法,接受的輸入為k,根據數據的屬性把n個數據劃分為k個聚類,k<n。K-Means算法根據各個聚類中數據的均值來獲取數據中自然聚類的中心。它以數據來自于空間向量為前提,并且以各個數據組的內部方差總和最小為目標。
由于ID3算法在實際的應用中存在缺陷,于是提出了C4.5算法。C4.5算法是一種分類決策樹算法,它包含了ID3算法的優點,并針對ID3算法的缺點進行了一些改進:
1)能夠離散化處理連續的屬性;
2)在樹構造過程中進行剪枝;
3)能夠處理不完整數據;
4)選擇屬性的依據是信息增益率。
C4.5算法有如下優點:可以生成易于理解、準確率較高的分類規則。但是在產生樹的過程中,需要對待處理的數據進行多次順序遍歷和排序,降低了該算法的效率,這也是它的缺點。
K最近鄰分類算法是一種機器學習算法,在理論上比較成熟。該方法的思路是:如果一個樣本在特征空間中的k個最鄰近的樣本中的大部分都屬于其中一個類別,那么這個樣本也屬于這個類別。
分類與回歸樹是采用一種二分遞歸分割的技術生成的結構簡潔的決策樹。其中有兩個關鍵的思路分別是遞歸地劃分自變量空間和用驗證數據進行剪枝[4]。
近年來,數據挖掘越來越多地應用在電力系統日常運行中。主要包括:
1)電力系統日常負荷調度;
2)電力系統日常負荷預測;
3)電力系統動態安全評估;
4)電力系統故障診斷等。
日常調度是電力系統一項非常重要的工作,主要是實時處理電力系統中的海量信息,并且對實時信息快速做出反應。由于電力系統服務的對象是整個社會,電力系統的調度中心首先要考慮系統能否安全可靠的運行,其次還要考慮國家的經濟利益。綜合以上因素,制定出較為合理的調度策略和符合市場要求的電價。要做出符合要求的調度策略,就不得不引入數據挖掘技術。我們可以把運行狀態分為:1)正常狀態;2)警戒狀態;3)緊急狀態;4)測試狀態;5)恢復狀態。如果電力系統的某一狀態被確定下來,就要將相應的操作方式傳遞給工作人員,讓他們完成工作。挖掘算法可以幫助我們對實時信息進行集成處理,獲得更加準確的數據,從而更迅速地下達有效的操作方式,而且還可以獲取電力系統的整體運行情況。比如說電力系統中某些器件出現故障,能夠快速地響應并定位故障,從而修復故障。
電力系統日常運行中的另外一項非常重要的工作是負荷預測,它涉及到各個電廠、電站新一年的生產計劃。是否能夠準確預算出社會用電量,這會直接影響電力部門能否高效地滿足社會生產需求以及國家的經濟效益。根據電力系統歷史負荷數據以及社會生產的變動情況,并集合數據挖掘算法和決策工具,可以設計出基于決策樹的數據模型,然后在日常電力負荷預測中應用數據挖掘。統計分析結果表明,文中數據模型完全符合實際需求,它能夠高效、準確地預測出日常的電力負荷[5]。根據自適應決策樹,對電力系統數據庫中的用戶信息,比如用電記錄、天氣以及季節等信息進行分析預測,可以幫助電力部門制定出合適的營銷策略。
電力系統故障診斷對于電力系統的穩定運行有重要的作用,主要根據電力系統保護裝置信息和繼電保護信息來鑒別電力故障的器件類型、故障所在位置,從而確定產生錯誤操作的裝置[6]。
數據挖掘在電力系統故障中的模型設計如圖2所示。

圖2 數據挖掘在電力系統故障中的模型設計
該模型主要分原始數據收集、數據抽取和精化、數據倉庫以及數據挖掘4個階段。原始數據收集作為該模型的底層,主要負責收集故障原始數據,并將故障數據傳輸至數據監視器;故障數據到達第二階段后,對故障數據進行分析,將故障數據進行有序的分類,包括故障時間、故障類型、故障位置等信息進行統計。整理好的數據輸送到數據倉庫之中保存,并為數據挖掘所使用,及時反饋相關數據。
在該模型中,數據挖掘階段是核心部分,對于小型電力系統和變電站的故障診斷中較適合使用基于粗糙集理論的挖掘模型。不過該模型在處理發生許多故障疊加的情況時,出現了不適應的情況,粗糙集方法將出現十分巨大的決策表,甚至會產生組合數據量過大等問題[7]。因此,在處理變電站故障時,可以采用決策樹的方式。它可以高效地找出以及描述出故障診斷信息,還可以獲得具有高效的決策樹形式表示的數據模型。對于電力系統這個復雜的大系統而言,可采用一種粗糙集理論的決策表約簡新算法,在電網故障診斷中應用故障所對應的綜合知識庫模型。在處理離散數據中非常適合采用粗糙集理論,在調度部門和各個發電廠之間存在著許多連續屬性的數據,因此需要離散化實測數據,然后利用粗糙集理論對數據進行綜合分析、集成處理,這樣可以及時地處理好電力系統故障。
采用數據挖掘中決策樹的劃分方法,可以把電力系統的運行狀態劃分為正常、異常兩種狀態。在系統數據中,依據數據挖掘的相應算法對數據進行自動處理,直到運行狀態變為正常狀態為止,運用所提取出的對安全運行有用的信息,從中可以找出電力系統中可能存在的導致系統異常的因素,并且可以綜合分析出系統的安全性和可靠性,得到提高電力系統安全可靠運行的解決方案。電力系統的工作人員能夠根據數據模型所得出的運行狀態的監控信息及故障的預測診斷結果,詳細檢查電力系統的各種運行狀況,并針對發現的問題迅速做出響應,這樣可以減少器件的維修成本,延長器件的使用周期,從而確保系統安全可靠地運行。
根據某省從2008-2012年的社會實際用電量,采用以決策樹算法模型和模糊聚類模型,對2008-2012年的用電情況進行預測,將其預測的值進行對比分析。某省2008-2012年社會用電量誤差分析見表1。

表1 某省2008-2012年社會用電量誤差分析 ×108 k W·h
由表1可以看出,基于決策樹算法模型的預測結果和基于模糊聚類模型的預測結果的誤差值均小于標準要求,其中,決策樹算法模型預測的結果更接近于真實值。
某省社會用電真實值與預測值曲線如圖3所示。
由圖3可以看出,我們提出的基于決策樹算法的模型對預測結果的誤差較小,在與真實值的比較中最大誤差為2.1%,在可以接受的范圍之內。其中,2012年的用電預測值與真實值完全吻合。因此文中提出的數據挖掘模型是可行和實用的。

圖3 某省社會用電真實值與預測值曲線圖
介紹了數據挖掘技術基本概念,較為詳細地分析了在電力系統各個日常運行中挖掘技術應用情況。與已有的分析方式相比較,數據挖掘計算高效,能更好地管理和檢測電力系統的運行狀態和故障信息,因此非常適合于電力系統這種大型復雜的系統。數據挖掘在電力系統的很多方面都有應用,并且效果明顯。但從我國目前的應用來看,數據挖掘技術還沒有大規模和普遍使用,而且數據挖掘本身還有很多問題需要解決,如數據挖掘算法的高效性、數據挖掘模型的通用性等。因此,想要在電力系統中更多地使用數據挖掘技術,還需要對數據挖掘技術進一步探討和研究。
[1] 郭創新,朱傳柏,曹一家,等.電力系統故障診斷的研究現狀與發展趨勢[J].電力系統自動化,2006,30(8):98-103.
[2] 王光宏,蔣平.數據挖掘綜述[J].同濟大學學報,2004,32(2):246-252.
[3] 宋佳麗,劉曉梅,王莉莉,等.基于數據挖掘技術的網絡入侵檢測系統[J].長春工業大學學報:自然科學版,2003,24(4):26-28.
[4] 麋元振.數據挖掘方法的綜述[J].南京化工大學學報,2001(5):110-195.
[5] 陳紅坤,黃娟.數據挖掘及其在電能質量分析中的應用[J].電力系統及其自動化學報,2009(5):51-55.
[6] 白雪峰,倪以信.電力系統動態安全分析綜述[J].電網技術,2004,28(16):14-19.
[7] 束洪春,孫向飛,于繼來.粗糙集理論在電力系統中的應用[J].電力系統自動化,2004,28(3):90-95.