999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于降維聚類技術的電力負荷數據挖掘研究

2021-11-29 05:24:04萬嘉琳
能源與環保 2021年11期
關鍵詞:數據挖掘

郭 璟,萬嘉琳,劉 凱,秦 玥,金 晶,曾 斐

(國網上海浦東供電公司,上海 200122)

隨著社會經濟的高速發展,各類數據的規模急劇增加,得出數據背后的有效信息是十分艱巨而有用的工作,數據挖掘技術是必要的方法。數據挖掘技術在信息提取、信息預測方面體現出強有力的技術支持。而電力行業是國家發展的支柱性產業,電力負荷數據作為電力產業的寶貴信息,在向智慧電網發展轉變過程中,電力網絡規模越來越大,電力負荷數據爆炸性增長[1],利用數據挖掘技術對電力負荷數據進行有效挖掘,是十分必要的。而利用聚類分析和降維算法對電力負荷數據進行研究,解決行業面臨的痛點,具有重要的現實價值。

1 數據挖掘理論

1.1 數據挖掘的功能與常用技術

數據挖掘就是從海量數據中提取出有價值、有意義的信息,然后將這類信息用以指導實踐工作。數據挖掘的步驟比較簡單,主要包括數據清洗、數據集成、數據選擇、數據變換、模式評估以及知識表示[2]。數據挖掘主要的實現方式如圖1所示,其整個過程包括7個不同的階段,某一個階段一旦出現問題就會導致整個挖掘過程失敗。數據挖掘的功能很多,最直接的功能就是對數據進行類別的劃分,也可以對海量數據進行聚類和趨勢分析,然后結合當前的知識,根據歷史有用信息實現數據預測,提高效率。

圖1 數據挖掘過程示意

數據挖掘所包含的技術十分繁多,包含有關聯分析、人工神經網絡、聚類分析、決策樹技術、統計分析方法以及遺傳算法等[3]。本文主要以聚類分析為主,聚類分析就是通過算法學習的方式,將海量數據進行分類,讓數據依照預定的指標歸納為不同的類別,在該種劃分依據下,具有相同或者相似屬性的數據相互靠近,集合成一類數據。使具有不同屬性的數據不斷調整相互遠離。

1.2 數據挖掘在電力負荷數據中的應用

隨著電力行業的變革,對電力負荷數據的有效信息提取也是十分有價值的,利用數據挖掘技術對電力負荷數據進行分析,以某種度量方式將數據進行無監督的歸納,以共性抽取的方式提取出共同模式信息[4]。根據數據差異性的不同找出主要影響因素,依靠聚類分析的方法,可以從宏觀和微觀2種角度出發,觀察電力負荷數據的分布情況,并能定位異常電力負荷數據[5]。然后,將歷史數據作為神經網絡模型對進行輸入,對數據模型進行訓練和優化測試。通過不斷更新的數據,將最新的電力負荷數據放置到模型中,從而達到對未來電力負荷的準確預測。

2 K-means聚類分析算法

2.1 K-means聚類算法

聚類分析算法具有廣泛的應用,諸多類型的聚類分析算法被研究學者提出,聚類分析算法一般有劃分聚類、層次聚類、基于密度、網格和基于模型的算法[6]。本文主要是基于劃分聚類算法,劃分聚類算法是根據定義的度量距離對數據進行劃分,該距離被定義為歐式距離,劃分聚類算法包括常見的CLARANS算法、K-means算法以及K-means各種改進算法[7]。

K-means算法的實現步驟如圖2所示。

圖2 K-means算法流程

假設某一個數據集合里面具有N個數據對象,聚類數目為K個。首先遵照隨機性原則,從N個數據對象中抽取出K個聚類數目作為初始的聚類中心。其次,比較其他剩余數據對象與初始聚類中心的距離,距離最近的數據對象將被劃分到聚類中心所在類別中,當全部數據對象劃分后,發生變化的類簇的聚類中心發生了更新。然后,測量計算結果是否符合預期效果,一旦發生不符合的結果,重新進行距離計算,劃分類別,直至達到設計要求。通過分析算法實現過程就可以了解,該算法簡單高效、數據均勻性好、空間復雜度低、算法可伸縮性較好。但其缺點也比較明顯,容易受到異常點的干擾和噪聲影響,不適用于非凸數據集合。聚類分析的評價指標主要為戴維森堡丁(DBI)指數,DBI為指標考量類內聚合度和類間的分散度[8],DBI指數的計算公式分別見式(1)、式(2)。

(1)

(2)

式中,d(xk)和d(xj)分別為類內數據到類別中心的距離;d(ck,cj)為不同類別的向量距離。

2.2 數據采集與數據預處理

實驗數據取自美國代頓市某一年的居民住宅用戶1 436條的年度電力負荷數據,該數據存儲于美國開放能源信息網站,該網站致力于數據開放功能[9]。通過篩取1 395條數據組成有效的負荷曲線,從而構建出本文的實驗數據集。首先,將電力負荷數據集轉換成矩陣形式,將包含12個月的原始1 436條電力負荷曲線數據,構建成1 436×12維的數據矩陣,用x(i,r)表示第i條負荷曲線在r月上的電力負荷數據值。其數據矩陣形式X如公式(3)所示。

(3)

為了剔除異常數據值,針對一條曲線中12位數據值,如果缺失數值連續2位以及2位以上缺失或者數值不連續且不少于3位,則直接將該條數據刪除。對于原始數值中的異常篩選采用式(4)和式(5)分析曲線的組內均值和方差。而對于異常點的判斷標準是組內均值變化幅度超過了組內標準差的3倍以上,則判定為異常數值點,判別公式見式(6),經過上述的處理與剔除,篩選出1 395條數據,構建出1 395×12的實驗數據集矩陣。

(4)

(5)

(6)

為了保證減小數據量綱的復雜性同時提高計算效率[10],采用歸一化處理,將上述數據采取歸一化,使數值全部映射到0~1的統一區間,歸一化處理數據的公式見式(7):

xs=(x-xmin)/(xmax-xmin)

(7)

便于對數據的觀察和處理,也降低了實際計算成本。歸一化后電力負荷曲線的樣本分布情況如圖3所示。

圖3 電力負荷曲線總體分布情況

圖3中,數據體現出雜亂無章的分布情形,并且無法挖掘出有效的信息,需要進一步對數據進行降維處理,通過適當的聚類分析,得出客戶的用電分析行為模式。

3 電力負荷數據降維聚類分析

3.1 降維算法分析

數據體量的增加往往伴隨著數據維度的增加,數據維度的增加導致高位空間的數據稀疏性增加[11],導致數據價值的降低,利用數據挖掘技術獲取有用數據信息的成本增加,產生“維度災難”。所以針對高維度數據的降維處理是十分必要的。降維有助于減少數據存儲空間[12],利于分清數據背后的規律,并且有效去除冗余特征。其主要分為線性降維和非線性降維[13],其算法分類如圖4所示。

圖4 降維算法分類

選取降維算法PCA、KPCA、LLE、MDS、ISOMAP進行對照,將電力負荷數據進行壓縮。然后利用K-means算法進行最佳聚類,選取最佳聚類數K′=2,得到不同維度與DBI指標的關系,如圖5所示。同時,上述5種降維算法對應DBI的組內方差見表1。由表1的數據可知,線性降維算法與非線性降維算法在對聚類精度的影響方面顯示出不同。當維度為11時,PCA算法的DBI值對應組內方差為0.692 3,是非線性降維算法均值的2.46倍。由此,可以看出線性降維算法處理本文的實驗數據集效果比較差。并且5種算法在維度D=2時DBI的值都處于最小值,此時的聚類精度最高,那么輸出維度為2時可以作為該數據集的最佳輸出維度。由圖5和表1可以看出,KPCA算法和ISOMAP算法的降維效果最好,同時KPCA、ISOMAP的降維精度比較高。

圖5 不同降維算法在不同維度上的降維聚類精度對比

表1 不同降維算法對應DBI的組內方差

3.2 結合降維技術的聚類分析組合算法

選取降維算法KPCA和ISOMAP兩種方式,將實驗數據集合降維至維度為2。然后利用K-means聚類到最佳聚類數K′=2。將12維的電力負荷數據在二維平面展開后如圖6和圖7所示。

圖6 KPCA+K-means組合算法聚類結果

圖7 ISOMAP+K-means組合算法聚類結果

KPCA+K-means組合算法的聚類結果分布均勻,深色點表示聚類中心,淺色點表示電力負荷曲線平面點。而ISOMAP+K-means結果顯示數據稀疏區和數據密集區對比區分明顯。為了對比加入聚類分析方法,以及降維方法的對照,采用K-means、KPCA+K-means、ISOMAP+K-means三種算法,比較聚類精度和不同聚類數目下的時間,其對比如圖8和圖9所示。

圖8 3種算法在不同聚類數的聚類精度對比

圖9 3種算法在不同聚類數目下的聚類時間對比

對比KPCA+K-means組合算法與K-means的DBI指標,組合算法的聚類精度有所降低,而相比較下,ISOMAP+K-means組合算法的聚類精度比K-means的精度提升很多,大約為24.31%。KPCA+K-means組合算法會在提取數據的特征過程中造成部分信息的丟失。而在不同聚類數目下,計算時間最長的是ISOMAP+K-means組合算法,相比于K-means和KPCA+K-means組合算法的時間增加65.61%和74.89%,ISOMAP+K-means組合算法的計算效率最快。

綜上所述,由于ISOMAP+K-means組合算法將實驗數據集分為稀疏區和密集區分離開,聚類精度較高,但是計算速度不快。相比而言,KPCA+K-means組合算法數據分布均勻,可以有效地使計算速度提高。

4 結論

本文針對高維度的電力負荷數據作為分析對象,采用聚類分析作為挖掘技術的主要手段,對數據進行降維。采用美國開放能源信息網站的電力數據作為初始實驗數據集,然后對數據進行預處理。選取聚類能力最強的K-means算法作為聚類的主要手段。然后通過對比5種降維技術,采納ISOMAP和KPCA降維算法與K-means分別組合。通過綜合分析,得出結論:結合降維算法,聚類分析的聚類精度和聚類效率都會有所增強。在未來的研究中,提高K-means的并行算法能力是十分重要的研究方向,將是后續研究的重點。

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 亚洲天堂网2014| 免费观看男人免费桶女人视频| 亚洲美女视频一区| yjizz国产在线视频网| 国产福利在线免费| 日本亚洲国产一区二区三区| 蜜桃视频一区| 欧美成人国产| 久久久四虎成人永久免费网站| 色网站在线免费观看| 国产精品亚洲一区二区三区z | 伊人激情综合| 免费人成网站在线高清| 免费看av在线网站网址| 日本人又色又爽的视频| 亚洲一区二区三区香蕉| 亚洲成人一区在线| 老司机午夜精品网站在线观看| 欧美日一级片| 欧美日韩免费观看| 国产精品亚洲综合久久小说| 久久九九热视频| 亚洲精品无码高潮喷水A| 国产精品一区二区久久精品无码| 国产95在线 | 免费无遮挡AV| 中文字幕亚洲乱码熟女1区2区| 97超爽成人免费视频在线播放| 国产在线麻豆波多野结衣| 国产日韩欧美精品区性色| 亚洲综合极品香蕉久久网| 91在线日韩在线播放| 国产一级二级三级毛片| 日本影院一区| 一级爆乳无码av| 亚洲国产欧美自拍| 久久亚洲中文字幕精品一区| 亚洲第一av网站| 国产激情第一页| 天天操天天噜| 日韩视频精品在线| 日韩黄色在线| www.91中文字幕| 57pao国产成视频免费播放| 亚洲欧美不卡中文字幕| 无码日韩人妻精品久久蜜桃| 国产亚洲欧美在线专区| 国产永久在线视频| 在线播放国产99re| 亚洲第一页在线观看| 日韩欧美中文字幕在线韩免费| 九九视频免费看| 国产亚洲高清在线精品99| 亚洲色图欧美视频| 在线观看无码av免费不卡网站| 欧洲亚洲欧美国产日本高清| 女人毛片a级大学毛片免费| 亚洲天堂久久久| 国产精品任我爽爆在线播放6080 | 成人精品午夜福利在线播放| 亚洲欧美在线综合一区二区三区| 91亚瑟视频| 国产在线日本| 免费国产小视频在线观看| 免费看美女毛片| 国产超薄肉色丝袜网站| 欧美日韩在线成人| 色偷偷综合网| 亚洲欧美另类日本| 久久无码免费束人妻| 色偷偷一区二区三区| 亚洲欧美不卡| 亚洲综合色区在线播放2019| 东京热一区二区三区无码视频| 亚洲欧州色色免费AV| 欧美日韩免费在线视频| 亚洲无码37.| 久久无码高潮喷水| 人妻少妇乱子伦精品无码专区毛片| 99成人在线观看| 日本高清成本人视频一区| 无码福利日韩神码福利片|