摘 要:將數(shù)據(jù)挖掘技術(shù)應(yīng)用到電力負(fù)荷管理系統(tǒng)中,設(shè)計(jì)出電力負(fù)荷數(shù)據(jù)挖掘系統(tǒng),此系統(tǒng)包括數(shù)據(jù)預(yù)處理模塊,數(shù)據(jù)挖掘模塊和數(shù)據(jù)挖掘結(jié)果顯示模塊。根據(jù)電力系統(tǒng)數(shù)據(jù)的特點(diǎn),提出采用多元線形回歸模型進(jìn)行數(shù)據(jù)挖掘的方法,并成功運(yùn)用了實(shí)踐中實(shí)例表明該數(shù)據(jù)挖掘系統(tǒng)能夠?qū)﹄娏ω?fù)荷值進(jìn)行有效的預(yù)測,提高用電生產(chǎn)管理方面信息的準(zhǔn)確性和及時(shí)性,從而保證供電與用電的穩(wěn)定。
關(guān)鍵詞:數(shù)據(jù)挖掘;負(fù)荷數(shù)據(jù);數(shù)據(jù)預(yù)處理;多元線性回歸
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:B
文章編號:1004-373X(2008)10-036-03
Application of Data Mining Techniques in Power Load Management System
XU Wei,QIN Jun
(Institute of Computer Science,South Central University for Nationalities,Wuhan,430074,China)
Abstract:This paper applies data mining technology into the power load management system,and designs the power load management mining system.This system includes data preprocessing module,data mining module and data mining result display module.According to the power system data characteristic,the way of using multiple linear regression model to implement data mining is put forward and realized in practice.In this examples,it is indicated that the defect can be forecasted effectively in the data mining system,the accuracy of information on electricity production management is improved,the stable supply of electricity is guaranteed.
Keywords:data mining;load data;data preprocessing;multiple linear regression
1 引 言
2002年下半年以來,我國部分地區(qū)電力供需緊張,隨著經(jīng)濟(jì)的快速發(fā)展,供需緊張狀況進(jìn)一步加劇,全國各大電網(wǎng)的負(fù)荷都在迅速增加,為了加強(qiáng)電力需求管理,各地已實(shí)施或者正在實(shí)施全面的計(jì)算機(jī)信息管理,應(yīng)用技術(shù)、管理和宣傳、協(xié)調(diào)等手段切實(shí)做好負(fù)荷控制、電力調(diào)度和用電服務(wù)工作。當(dāng)這些系統(tǒng)正式運(yùn)行起來以后,勢必產(chǎn)生海量的負(fù)荷、控制等方面的數(shù)據(jù)。這些數(shù)據(jù)除極少量的部分被工作人員拿來進(jìn)行管理參考外,大多數(shù)都擱置一邊或者丟棄掉了,因?yàn)槿斯げ豢赡軐δ敲淳薮蟮臄?shù)據(jù)進(jìn)行認(rèn)真準(zhǔn)確的分析。這樣,在電力負(fù)荷管理系統(tǒng)中增加負(fù)荷數(shù)據(jù)挖掘系統(tǒng)這個(gè)子系統(tǒng)就顯得特別重要和必須。
數(shù)據(jù)挖掘是數(shù)據(jù)庫研究中一個(gè)很有應(yīng)用價(jià)值的新領(lǐng)域,是一門交叉性學(xué)科,融合了人工智能、數(shù)據(jù)庫技術(shù)、模式識別、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)和數(shù)據(jù)可視化等多個(gè)領(lǐng)域的理論和技術(shù)\\[1\\]。在學(xué)術(shù)界,一些學(xué)者只是把數(shù)據(jù)挖掘視為數(shù)據(jù)庫中知識發(fā)現(xiàn)(Knowledge Discovery in Databases,KDD)過程的一個(gè)基本步驟\\[2\\];但是大多數(shù)學(xué)者認(rèn)為數(shù)據(jù)挖掘和KDD是等同的。本文采用數(shù)據(jù)挖掘的廣義觀點(diǎn):數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中挖掘出有用的信息,從大量的數(shù)即從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中發(fā)現(xiàn)隱含的、規(guī)律性的、人們事先未知的,但又是潛在有用的并且最終可理解的信息和知識的非平凡過程\\[3\\] 。一個(gè)典型的數(shù)據(jù)挖掘過程一般包括數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理、數(shù)據(jù)變換、數(shù)據(jù)挖掘和解釋/評價(jià)等步驟\\[4\\]。把先進(jìn)的數(shù)據(jù)挖掘技術(shù)應(yīng)用到電力負(fù)荷管理系統(tǒng)中,開發(fā)出電力負(fù)荷數(shù)據(jù)挖掘系統(tǒng)能夠加深和加強(qiáng)系統(tǒng)對電力負(fù)荷數(shù)據(jù)的分析功能,這樣就能很好地保證用電線路的正常運(yùn)行。
2 電力負(fù)荷管理系統(tǒng)
電力負(fù)荷管理系統(tǒng)包括5大部分。第1部分是系統(tǒng)權(quán)限管理,他是為系統(tǒng)的保密性而設(shè)置的,主要為各個(gè)不同級別的用戶劃分不同的菜單和數(shù)據(jù)權(quán)限。第2部分是部門資料管理,包括基礎(chǔ)數(shù)據(jù)、和部門查詢2個(gè)模塊,這部分記錄所有部門的相關(guān)資料。第3部分是設(shè)備資料管理,包括基礎(chǔ)數(shù)據(jù)、和設(shè)備查詢2個(gè)模塊,這部分記錄所有設(shè)備管理的相關(guān)資料。第4部分是運(yùn)行記錄管理,包括運(yùn)行記錄、設(shè)備管理兩個(gè)模塊,是有關(guān)設(shè)備運(yùn)行的全部記錄資料。第5部分是電力負(fù)荷數(shù)據(jù)挖掘,包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘和數(shù)據(jù)挖掘結(jié)果顯示3個(gè)模塊,完成數(shù)據(jù)挖掘?yàn)橄到y(tǒng)提供有效信息的功能。本文設(shè)計(jì)的電力負(fù)荷數(shù)據(jù)挖掘系統(tǒng)就是電力負(fù)荷管理系統(tǒng)的第五部分,其充分利用電力負(fù)荷數(shù)據(jù)挖掘系統(tǒng)的數(shù)據(jù)資源,應(yīng)用先進(jìn)有效的數(shù)據(jù)挖掘技術(shù),達(dá)到了為系統(tǒng)提供負(fù)荷預(yù)測的目的。
3 電力負(fù)荷數(shù)據(jù)挖掘系統(tǒng)
3.1 系統(tǒng)總體框架
電力負(fù)荷數(shù)據(jù)挖掘系統(tǒng)從設(shè)備運(yùn)行數(shù)據(jù)庫和設(shè)備數(shù)據(jù)庫中獲取數(shù)據(jù),根據(jù)數(shù)據(jù)挖掘算法的需要進(jìn)行數(shù)據(jù)預(yù)處理,并建立數(shù)據(jù)挖掘模型,供用戶挖掘時(shí)使用。用戶只需要輸入簡單的一些參數(shù),系統(tǒng)就會(huì)自動(dòng)根據(jù)已建立的模型輸出相應(yīng)的結(jié)果并對此數(shù)據(jù)分析并進(jìn)行預(yù)測。
3.2 系統(tǒng)總體設(shè)計(jì)
電力負(fù)荷數(shù)據(jù)挖掘系統(tǒng)主要是通過對設(shè)備當(dāng)前的和歷史的負(fù)荷數(shù)據(jù)進(jìn)行分析,挖掘出其中隱含的知識和從中發(fā)現(xiàn)隱含的趨勢和規(guī)律。他主要包括數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)挖掘模塊和結(jié)果顯示模塊。
3.2.1 數(shù)據(jù)預(yù)處理模塊
數(shù)據(jù)預(yù)處理模塊的處理對象是大量的數(shù)據(jù),但往往不適合直接在這些數(shù)據(jù)上面進(jìn)行挖掘,需要做數(shù)據(jù)預(yù)處理工作,包括數(shù)據(jù)的選擇、數(shù)據(jù)清理、數(shù)據(jù)集成和轉(zhuǎn)換。數(shù)據(jù)預(yù)處理將直接影響數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模式的有效性。
(1) 數(shù)據(jù)選擇:數(shù)據(jù)選擇主要是分析所收集到的所有與處理事務(wù)有關(guān)的內(nèi)部信息和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘使用的數(shù)據(jù)。通過數(shù)據(jù)選擇可以使數(shù)據(jù)的規(guī)律性和潛在特性更加明顯。數(shù)據(jù)選擇包括屬性選擇和數(shù)據(jù)抽樣,即在數(shù)據(jù)源中選擇數(shù)據(jù)域和元組。例如數(shù)據(jù)庫中記錄有關(guān)設(shè)備數(shù)據(jù)是運(yùn)行的全部的數(shù)據(jù),其中包括溫度、電壓、電流、功率、電能、狀態(tài)等記錄,數(shù)據(jù)選擇就要從這些數(shù)據(jù)中找出與負(fù)荷監(jiān)測相關(guān)的數(shù)據(jù)。
(2) 數(shù)據(jù)清理:數(shù)據(jù)清理主要是針對多個(gè)數(shù)據(jù)源中數(shù)據(jù)的不規(guī)范性、二義性、重復(fù)和不完整等問題,對有問題的數(shù)據(jù)進(jìn)行相應(yīng)的清理操作。數(shù)據(jù)清理首先需要將數(shù)據(jù)值進(jìn)行標(biāo)準(zhǔn)化,即相同含義的值應(yīng)具有統(tǒng)一的形式,其次數(shù)據(jù)清理去除噪聲或無關(guān)數(shù)據(jù),并處理數(shù)據(jù)中缺失的數(shù)據(jù)域。
(3) 數(shù)據(jù)集成和轉(zhuǎn)換:數(shù)據(jù)集成和轉(zhuǎn)換包括同構(gòu)或異構(gòu)數(shù)據(jù)庫的集成以及語義轉(zhuǎn)換。多年來,各地供電公司積累了大量的設(shè)備運(yùn)行記錄信息,早期這些信息存儲在供電公司的設(shè)備檔案里,隨著數(shù)據(jù)庫技術(shù)的廣泛應(yīng)用,這些信息先后被存儲到各種數(shù)據(jù)庫中,如存儲在Oracle,Sybase,SQL Server等數(shù)據(jù)庫中。為了提高數(shù)據(jù)挖掘的效率,需要把存儲在同構(gòu)或異構(gòu)數(shù)據(jù)庫中的數(shù)據(jù)轉(zhuǎn)換格式并導(dǎo)人SQL Server Enterprise Manager中。首先建立一個(gè)數(shù)據(jù)庫如BDZ-DB。然后可以借助數(shù)據(jù)轉(zhuǎn)換服務(wù)(DTS)功能,將數(shù)據(jù)導(dǎo)人數(shù)據(jù)庫BDZ-DB中。轉(zhuǎn)換的另一個(gè)目的是將記錄中難以理解的符號轉(zhuǎn)換成實(shí)際的語義,以便在挖掘結(jié)果的可視化描述中一目了然,如“fhsj”的含義是負(fù)荷數(shù)據(jù)。原始數(shù)據(jù)通過數(shù)據(jù)選擇、清理、集成和轉(zhuǎn)換后生成數(shù)據(jù)挖掘庫,為下一步的數(shù)據(jù)挖掘做好準(zhǔn)備。
3.2.2 數(shù)據(jù)挖掘模塊
數(shù)據(jù)挖掘模塊的目的是生成可以據(jù)其所示的含義采取行動(dòng)的知識,也就是建立一個(gè)現(xiàn)實(shí)世界的模型。在數(shù)據(jù)挖掘中,可以使用許多不同的模型,如分類模型、回歸模型、時(shí)間序列模型、聚類模型和關(guān)聯(lián)規(guī)則模型。針對同一模型,可以使用不同的算法進(jìn)行數(shù)據(jù)挖掘,算法的目的就是找到適合于數(shù)據(jù)的模型\\[6\\] 。回歸模型主要是揭示事務(wù)問相關(guān)變量的數(shù)量關(guān)系。應(yīng)用回歸模型進(jìn)行設(shè)備缺陷預(yù)測的關(guān)鍵是建立回歸方程。回歸方程分為多種類型,當(dāng)相關(guān)關(guān)系的統(tǒng)計(jì)規(guī)律呈線性關(guān)系時(shí),稱其為線性回歸。在線性回歸中,自變量可以是1個(gè),也可是多個(gè)。僅有1個(gè)自變量的稱為一元回歸;有多個(gè)白變量的,稱為多元回歸。電力負(fù)荷數(shù)據(jù)挖掘系統(tǒng)不可能考慮設(shè)備自身因素和外部因素的所有因素,所以本文選擇其中的設(shè)備時(shí)間(日期)、溫度、濕度和設(shè)備投運(yùn)時(shí)間這些因素作為自變量。當(dāng)然本文設(shè)計(jì)的回歸模型是開放性的,自變量數(shù)量并不局限于4個(gè)。
因?yàn)樽宰兞坑?個(gè),因此必須采用多元線性回歸模型。設(shè)隨機(jī)變量y與一般變量x1,x2,…,xp的線性回歸模型為\\[5\\]:
y=β0+β1x1+β2x2+…+βpxp[JY](1)
其中,β0,β1,β2,…,βp是p+1個(gè)未知參數(shù),稱為回歸常數(shù);y為被解釋變量(因變量);而x1,x2,…,xp是p個(gè)可以精確測量并可控制的一般變量,為解釋變量(自變量)。對一個(gè)實(shí)際問題,如果獲得n組歷史數(shù)據(jù)(xi1,xi2,…,xip;y),i=1,2,…,n,則線性回歸模型式(1)的矩陣方程為:
[WTHX]y[WTBX]=[WTHX]Xβ[WTBX][JY](2)
其中:
[WTHX]y[WTBX]=y1y2y3y4,[WTHX]X[WTBX]=1x11x12…x1p1x21x22…x2p[]xn1xn2…xnp,[WTHX]β[WTBX]=β0β1β3
在式(2)中,矩陣X是一個(gè)n×(p+1)矩陣,稱為回歸設(shè)計(jì)矩陣或者資料矩陣。在實(shí)驗(yàn)設(shè)計(jì)中的元素是預(yù)先設(shè)定并可以控制。在本項(xiàng)目中自變量有4個(gè),因此n為4,x1為時(shí)間(日期),x2為溫度,x3為濕度,x4為設(shè)備投運(yùn)時(shí)間。如果分析2002年~2006年4年的歷史數(shù)據(jù),針對某一種數(shù)據(jù)就可以得到6組歷史數(shù)據(jù),然后用最小二乘法計(jì)算參數(shù)估計(jì)值,從而得到經(jīng)驗(yàn)回歸方程。通過這個(gè)回歸方程就可以對設(shè)備運(yùn)行情況進(jìn)行預(yù)測,是否需要重新配置負(fù)荷情況。
3.2.3 結(jié)果顯示模塊
結(jié)果顯示模塊是將數(shù)據(jù)挖掘后得到的知識和結(jié)果用可視化形式表示出來。在建立好相關(guān)數(shù)學(xué)模型后,把實(shí)際數(shù)據(jù)(時(shí)間、溫度、濕度和設(shè)備投運(yùn)時(shí)間)作為輸入信息,通過挖掘模型的計(jì)算獲得預(yù)測結(jié)果。其過程如圖1所示。
圖1 結(jié)果顯示模塊過程
4 系統(tǒng)應(yīng)用
將本系統(tǒng)應(yīng)用于武漢供電局,對供電公司武鋼6個(gè)變電站2002年~2006年7月的歷史數(shù)據(jù)進(jìn)行分析,然后對2007年7月的負(fù)荷運(yùn)行情況進(jìn)行預(yù)測,結(jié)果見表1,從表1中數(shù)據(jù)可以看出預(yù)測結(jié)果基本正確。根據(jù)負(fù)荷運(yùn)行情況發(fā)生的結(jié)果,可以指導(dǎo)管理者提前做好負(fù)荷控制的工作,達(dá)到預(yù)先管理的目的。
5 結(jié) 語
本文把先進(jìn)的數(shù)據(jù)挖掘技術(shù)應(yīng)用于電力負(fù)荷管理系統(tǒng)中,并且已經(jīng)實(shí)際應(yīng)用到武漢供電局,取得較好的效果。系統(tǒng)在提高供電企業(yè)現(xiàn)代化管理水平方面發(fā)揮著積極的作用,他能夠提高用電生產(chǎn)管理方面信息的準(zhǔn)確性和及時(shí)性,進(jìn)一步強(qiáng)化負(fù)荷控制管理過程中信息的分析,從而提高整個(gè)供電企業(yè)的科學(xué)管理水平,確保供電和用電的穩(wěn)定。
表1 2007年7月的正向負(fù)荷數(shù)據(jù)預(yù)測
參 考 文 獻(xiàn)
[1]王光宏,蔣平.數(shù)據(jù)挖掘綜述[J].同濟(jì)大學(xué)學(xué)報(bào),2004,32(2):246-252.
[2]Ken Collier,Bernard Carey,Donald Sautter,et al.A Method for Evaluating and Selecting Data Mining Software [C].Proceedings of the 32nd Hawaii International Conference on System Sciences,1999:1-11.
[3]張?jiān)茲徚?數(shù)據(jù)挖掘原理與技術(shù)[M].北京:電子工業(yè)出版社,2004.
[4]Margaret H.數(shù)據(jù)挖掘教程[M].Dunham,郭崇慧,田鳳占,等譯.北京:清華大學(xué)出版社,2005.
[5]何曉群,劉文卿.應(yīng)用回歸分析[M].北京:中國人民大學(xué)出版社,2001.
[6]張峰,陸榮華.電力負(fù)荷管理技術(shù)\\[M\\].北京:中國電力出版社,2005.
作者簡介
徐 巍 男,1983年出生,中南民族大學(xué)計(jì)算機(jī)科學(xué)學(xué)院碩士研究生。主要研究方向?yàn)閿?shù)據(jù)庫管理和網(wǎng)絡(luò)安全。
覃 俊 女,1968年出生,中南民族大學(xué)計(jì)算機(jī)科學(xué)學(xué)院碩士導(dǎo)師,博士,教授。主要研究方向?yàn)樾畔踩?/p>
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。