, (中國電力工程顧問集團西南電力設計院有限公司,四川 成都 610021)
數據挖掘在智能電網中的應用研究
袁麗娟,袁方
(中國電力工程顧問集團西南電力設計院有限公司,四川 成都 610021)
電力大數據已成為電網公司進行決策的基礎,但單純數據的積累并不能給電網公司帶來益處。因此充分利用這些基于電網實際的數據,對其進行深入分析,發現隱含的信息并加以利用,對指導電力企業做出正確的決策具有重大意義。提出了數據挖掘在智能電網中的應用場景,把數據挖掘技術應用于電力負荷預測,研究了在智能電網中應用數據挖掘技術的方法。
數據挖掘;智能電網;負荷預測
隨著中國智能電網的加快建設和發展,電網系統中積累了大量的電網基礎數據,為智能電網建設帶來了新的機遇與挑戰,同時成為電力生產和運行模式發生變革的重要驅動力。從海量數據中提取出蘊藏的關系和規則等信息,并且根據已有的歷史數據,預測未來的發展趨勢,為電力企業業務管理向著更精細、更敏捷、更有效發展提供決策支持,成為現今亟待解決的問題。針對這一狀況,數據挖掘技術應運而生。
下面將介紹數據挖掘技術及其在智能電網中的應用,側重研究數據挖掘在細分用戶電力負荷預測中的應用。
數據挖掘,又稱為知識發現(knowledge discovery),數據挖掘技術通過對海量數據進行建模,并運用數理模型對企業的海量數據進行整理與分析[1]。通過對這些數據進行微觀、中觀乃至宏觀的統計、分析、綜合和推理,發現數據間的關聯性、未來趨勢以及一般性的概括知識等,這些知識性的信息可用來指導高級決策活動。
常用的數據挖掘系統,一般分成三層結構[2],如圖1所示。
底層是數據源,包括數據庫、數據倉庫等。數據挖掘并不完全要建立在數據倉庫的基礎上,但數據挖掘若能與數據倉庫協同工作,則將大大提高數據挖掘的效率。
中間層是數據挖掘工具,利用數據挖掘方法分析數據庫中的數據,包括關聯分析、聚類分析、神經網絡方法、粗糙集方法、遺傳算法、模糊數學方法等。
上層是用戶層,將獲取的信息形象地展示給用戶,便于用戶理解和觀察,可以使用可視化工具。
為形成數據挖掘產業的統一規范,1999年歐盟等機構聯合起草了數據挖掘工業界的標準過程CRISP-DM[3-4](cross-industry standard process for date mining),即“跨行業數據挖掘標準流程”,它為數據挖掘項目的生命周期提供了一個綜合的描繪,它包括6個階段:商業理解、數據理解、數據準備、建模、評估和部署,如圖2所示。這些階段之間并不存在絕對的順序關系,各個階段一定會有反復的過程。究竟下一步要執行哪個階段或哪個特定的任務,取決于每個階段的結果。

圖1 數據挖掘分層結構

圖2 CRISP-DM數據挖掘過程模型
1)商業理解:這是數據挖掘的初始階段,確定數據挖掘的目的,明確需要解決的問題,并將這些目的與數據挖掘的定義以及結果結合起來。
2)數據理解:在業務分析目標的指導下,采集與業務對象有關的原始數據,并對可用的數據進行評估,并從中選擇出用于數據挖掘應用的專門分析型數據庫,以便提高數據挖掘的效率和結果的正確性。建立數據庫可分為以下幾個部分:數據收集、數據描述、數據選擇、數據質量評估、數據清理、數據合并與整合、構建元數據、加載數據挖掘數據庫、維護數據挖掘庫。
3)數據準備:對可用的原始數據進行一系列的組織及清洗,以便達到建模的需求。此步驟可以劃分為4個部分:選擇變量、選擇記錄、創建新變量、轉換變量。
4)建模:為實現數據分析目的,對預處理后的數據執行數據挖掘算法的過程。在實際應用中,通常在同一數據集上,應用多種數據挖掘算法,并通過對多個模型進行比較和選擇,最終確定在當前數據集上使用效果最好的模型。
5)評估:對數據挖掘過程中的每個處理環節、步驟進行驗證;對數據挖掘結果的質量、合理性、有效性等進行評價,重點考慮得出的結果是否符合第一步的商業目的。
6)部署:將發現的結果以及過程組織成為可讀文本形式。
在模型部署和應用之后,還要不斷監控模型的效果,隨著使用時間的增加,可能需不斷地對模型重新測試,甚至需重新建立模型。
電網業務數據大致分為三類[5-6]:1)電力企業生產數據,如電壓質量指標、發電量、電網檢測等方面的數據;2)電力企業運營數據,如交易電價、售電量等方面的數據;3)電力企業管理數據,如一體化平臺、協同辦公等方面的數據。智能電網相比傳統電網具有更高的智能化水平,需要采集的電網數據從TB級逐漸上升至PB級[7]。
隨著中國售電市場[8-9]的開放,今后用戶可自由選擇售電公司。電力企業“以人為本”的行業意識就需要提高,為了更好地了解電力用戶用電的需求,電力負荷預測成為一項重要的工作。下面重點研究數據挖掘在細分用戶電力負荷預測中的應用。
根據電力系統相關標準,按照數據挖掘工業界的標準過程CRISP-DM,電力負荷預測數據挖掘系統的總體結構如圖3所示。由圖3可以看出該系統主要包括原始數據層、數據獲取層、數據存儲層和前端應用層。

圖3 電力負荷海量數據挖掘系統
這里提出基于細分用戶負荷預測方法。該方法分為用戶細分與負荷預測兩個主要步驟:
1)用戶細分
用戶細分中涉及的主要指標包括行業分類、用電規模分類、用電類別分類、客戶信用分類、用戶地理位置分類等,因此大量的用戶細分工作還需要通過聚類分析來自動地進行聚合。
數據預處理:基于需求側用戶個性化的客戶價值、客戶的用電可靠性要求和客戶行為的特征,先用聚類算法對行業用戶進行了分組,將具有類似用電特征的用戶聚集在同一組內,以便充分了解群組的用電特征[10]。
常用的聚類算法包括:①K-Means算法,通過各個屬性間的距離度量值對輸入的數據對象進行劃分;②基于統計的COBWEB聚類,是一種增量式概念聚類方法,輸入對象是采用符號量(屬性-值)對來加以描述的,采用分類樹的形式來創建一個層次聚類;③EM算法,使用統計方法來確定各個分類中存在該用戶的概率,由此可以對用戶依照概率大小進行區分。
2)負荷預測模型
針對分組后的用戶組分別利用不同的時序預測算法進行負荷建模與預測,再將不同預測方法得到的預測結果進行加權平均。使用的預測方法主要有:RBF神經網絡、BP神經網絡、回聲狀態網絡、支持向量機等。
首先將各個用戶群組的時間序列歷史數據進行匯總分析,對每個群組內的計量點進行實時負荷疊加,分別得到疊加后的各點實時負荷序列數據。建立每個群組的實時負荷序列數據后,計算出該群組內每個日最大負荷值。不同日最大負荷構成該群組的日最大負荷序列,這樣就得到每個群組的最大日負荷歷史序列數據。在構建出每個群組的實時負荷歷史序列數據后,計算出該群組內每個月最大負荷值,不同月最大負荷構成該群組的月最大負荷序列,得到每個群組的最大月負荷歷史序列數據。這樣,就分別得出了各用戶群組的實時負荷、日最大負荷及月最大負荷歷史數據,由此得到完整的負荷預測模型。
該方法在可接受的時間成本下,能盡可能多地了解不同行業、不同類別用戶的用電需求,對發電調度、有序用電、精益化市場營銷具有重要的指導價值。
3)負荷預測模型分析
在進行負荷預測時,遵循“先細分、再預測”的原則,即先對用戶屬性進行選擇,并利用聚類算法將用戶負載細分為不同特性分類;再分別利用不同時序預測算法進行負荷預測,最后將各種預測算法下的負載預測結果進行加權求和,形成最終預測結果。另外還將預測結果與實際數據進行比較,對預測結果進行評價,并反饋至預測模型,通過調整建模參數,提高預測模型的精度。
智能電網中的大數據產生于電力系統的各個環節,通過有效地利用數據挖掘技術,從電力企業積累的數據中獲得有助于管理決策的知識,幫助企業解決面臨的現實問題,提高企業基于數據的業務管控能力和運營效率。
數據挖掘在智能電網的很多方面都有應用,并且效果明顯。以數據挖掘在細分用戶電力負荷預測中的應用為切入點,分析在售電側改革的背景下,利用數據挖掘技術提高電網企業的經濟效益、實現管理創新。
從中國目前的應用來看,數據挖掘技術在智能電網中還沒有大規模和普遍使用,并且數據挖掘在實際的實現過程中仍然存在著一些亟待解決的問題。因此,仍需要進一步開展數據挖掘技術理論與應用方面的研究。
[1] 溫滿華. 芻議大數據時代數據挖掘技術在電力企業中的應用[J].現代國企研究,2015(24):26.
[2] 于之虹,郭志忠.數據挖掘與電力系統[J]. 電網技術,2001,25(8):58-62.
[3] 陳星鶯,張曉花,瞿峰,等. 數據挖掘在電力系統中的應用綜述[J]. 電力科學與技術學報,2007,22(3):51 - 56.
[4] 羅輯,楊勁鋒,肖勇,等. 用電數據挖掘技術與應用[M]. 北京:中國電力出版社,2015.
[5] 宋亞奇,周國亮,朱永利.智能電網大數據處理技術現狀與挑戰[J].電網技術,2013,37(4):927-935.
[6] 鄧煒瑛.智能電網大數據處理技術現狀與挑戰[J].中外企業家,2015(6):126.
[7] 中國電機工程學會信息化專業委員會. 中國電力大數據發展白皮書[M]. 北京:中國電力出版社,2013.
[8] 白楊,謝樂,夏清,等. 中國推進售電側市場化的制度設計與建議[J].電力系統自動化,2015,39(14):104-109.
[9] 張曉萱,薛松,楊素,等. 售電側市場放開國際經驗及其啟示[J].電力系統自動化,2016,40(9):1-8.
[10] 張曉春,倪紅芳,李娜.基于數據挖掘的供電企業客戶細分方法及模型研究[J].科技與管理,2013,15(6):104-109.
In the age of large power data, large data has become the basis for power companies to make decisions. But the simple accumulation of data can′t bring benefits to the grid companies, so making full use of these actual data based on the grid, carrying on the thorough analysis, finding the implied information and using them to guide the power companies to make the right decision-making is of great significance. The application scenario of data mining in smart grid is put forward, and the data mining technology is applied to power load forecasting to study the method of applying the data mining technology to smart grid.
data mining; smart grid; load forecasting
TM769
A
1003-6954(2017)05-0015-03
袁麗娟(1981),大學本科,從事電力通信工作;
袁 方(1990),碩士研究生,從事信號與信息處理。
2017-06-27)