999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DTW層次聚類算法的電力負荷數據特征研究

2020-12-17 12:45:08野,田
自動化儀表 2020年12期
關鍵詞:用戶

原 野,田 園

(云南電網有限責任公司信息中心,云南 昆明 650217)

0 引言

近年來,隨著傳感器、智能電表、智能變電站等的普及,數據采集與監視控制(supervisory control and data acquisition,SCADA)系統布局的完善,電力工業的信息化進程加速[1]。中國電力企業的信息化建設始于20世紀60年代,最開始是推行電力生產的自動化,接下來是倡導財務的電算化,近年來則是大力推進規模化的信息化建設。特別是隨著下一代智能變電站的全面鋪開,以物聯網大數據為核心的信息技術得到了電力公司的青睞,以能源互聯網為總體框架的電力大數據研究開始急劇增長,并形成了一定的規模。電力大數據是中國能源行業變革的關鍵。這不僅是技術層面的發展,而且是中國電力工業在信息化背景下發展理念、技術架構、管理制度等各方面的重大變革。電力大數據是中國電力工業實現核心價值觀塑造以及集約式增長的核心[2]。十二五時期,國家電網在發展部署時指出,全面實施人物財力的集約化使用,推進大建設、大檢修、大運行、大營銷以及大規劃(簡稱“三集五大”),從而實現國家電力發展的集約式增長。其中:五大體系與電力行業的配、輸、傳等環節全面呼應,電力大數據的高效利用將在電力行業各環節得到全面體現[3]。

1 電力負荷聚類概述

1.1 用戶負荷聚類

目前,按照應用方法,用戶負荷聚類可分為直接聚類與間接聚類兩大類。直接聚類在用戶日負荷曲線的基礎上直接聚類,計算復雜,涉及到的數據維度較高[3]。間接聚類則是指對用戶日負荷曲線進行預處理后再進行聚類分析,按照處理技術可以分為基于時間序列和基于降維技術兩種形式。用戶負荷聚類研究如圖1所示。

圖1 用戶負荷聚類研究示意圖

由于用戶用電數據隨時間的變化性較大,與時間成正向關系,呈現海量趨勢;另外,由于用戶的分散性,導致測量終端具有極強的分散性趨勢,因而用戶負荷聚類需要對大數據問題進行處理[4]。目前,常用的方法是利用人工智能算法,先對不同區域的用戶用電數據進行局部聚類分析;接著利用傳統聚類算法構建局部模型對其進行二次聚類,從而得到全局聚類模型;最后,將全局聚類結果反饋到局部數據中心,實現全局聚類最優分析。對用戶負荷聚類的研究具有多方面的積極作用:可以對負荷構成進行系統分析,從而對用戶的用電習慣進行調節,實現集約用電;還可以對負荷變化趨勢進行分析,從而為管理人員提供決策支持,實現電能的高效利用[5]。

1.2 變電站負荷聚類

變電站負荷聚類按照其狀態屬性,可以分為負荷靜態特性聚類與負荷動態特性聚類兩大類。靜態負荷特性聚類主要用于理論分析,實際應用較少;動態負荷特性聚類則主要用于負荷建模,實際分析較多[6]。負荷靜態特性聚類主要應用人工智能算法進行負荷分類,對負荷影響因素及其關聯進行分析。而動態負荷特性聚類的關鍵在于特征向量的選取。特征向量按照其特征,可以分為運行特征向量、動態特征向量、時間特征向量與參數特征向量。運行特征向量主要包括負荷功率、靜態負荷與感應電動機的比值等指標。動態特征向量主要是指感應電動機的特征值。時間特征向量包括年份、季度、月份、周數、天數等指標。參數特征向量則是指負荷相應的模型參數[7]。

變電站負荷聚類的應用主要包括兩大領域,分別是負荷建模與負荷預測[8]。常規負荷建模主要應用譜系數平均距離聚類算法,實現對全網負荷的精確分類。聚類算法的非線性映射能力較強,可實現大樣本數據中相似樣本的提取,因此可以通過負荷聚類實現氣候、季節、配電環境、裝置參數等各因素對負荷變化的分析,實現精確的負荷預測,為電能管理人員提供方法支持。

2 電力負荷數據特征分析模型

2.1 Hadoop平臺技術

Hadoop是一種分布式架構集成開發平臺,能夠對大數據進行高效、精確處理,應用領域非常廣泛[9]。Hadoop的主要構成包括Hbase、Hadoop分布式文件系統(Hadoop distributed file system,HDFS)、MapReduce、Hadoop內核、Zookeeper。其中,最為關鍵的部分是MapReduce以及HDFS。Hadoop的總控制中心位于Hadoop內核。MapReduce為平臺的分布式編程框架,主要功能是對大數據進行處理與挖掘工作。作為Hadoop的協調系統,Zookeeper可以實現復雜服務的封裝。作為Hadoop存儲結構的Hbase,利用分布式數據庫,能夠實現大數據的存儲。Hadoop平臺結構如圖2所示。

圖2 Hadoop平臺結構圖

Hadoop數據處理需要解決的最重要問題是大規模數據的存儲,僅靠集中式的物理服務器難以滿足現實企業與電力部門的需求[10]。因此,要實現系統大規模數據的管理,需要建立大量的分布式服務節點。Hadoop設計了分布式文件系統HDFS,以實現對節點的控制和管理。分布式文件系統作為Hadoop的重要組成部分,各集群由多DateNode節點以及單NameNode節點構成,是一種主從結構。其中:NameNode為控制中心,對整個文件系統進行管理;DateNode作為數據處理模塊,主要對數據存儲與輸出負責,以其強大的容錯性以及開源性而受到廣大企事業單位的青睞。為了適應分布式存儲,HDFS具有較強容錯能力、數據塊式的存儲模式、并行式的訪問模式、順序式的文件訪問、大規模數據存儲能力等特點[11]。較強的容錯能力則要求HDFS具有自檢測硬件故障的功能,使數據在故障發生后能夠得到快速的恢復,不存在數據丟失,從而保證平臺的穩定運行。為了對大規模數據進行處理,要求該系統具有分布式儲存能力,能夠對多數據節點進行有效管理,使其存儲容量隨著數據量的增加而不斷提升,最終成為一個大型的分部式數據處理文件系統。數據塊式的存儲模式對HDFS數據塊的大小進行了嚴格要求,將每個數據塊的默認容量設定為64 GB,使得數據塊的個數最小。此外,要求該系統能夠對節點進行隨機選擇,實現數據的不同節點存儲[12]。并行訪問模式則要求HDFS對多節點訪問模式進行詳細設計,實現同一時間點數據在多節點上的并發訪問。HDFS基本組成結構如圖3所示。

圖3 HDFS基本組成結構圖

由圖3可知,分布式文件系統在運行時會涉及到多模塊的協同運作,每個模塊實現不同的功能。分布式文件系統訪問的基本過程包括目標文件名發送、數據塊地址返回、處理結果提交這三大步驟。在目標文件名的發送過程中,需要HDFS與NameNode的協同合作。數據塊地址的返回要求NameNode接收到文件名后,通過HDFS對數據塊的DataNode地址進行查找,同時將這些地址反饋給客戶。而數據處理結果過程要求客戶收到DataNode地址后,就開始對數據進行處理,然后將處理結果提交至NameNode。

MapReduce是針對大數據的分布式編程模型,其計算過程主要分為Map處理、Reduce處理以及Shuffle處理三大部分。在Map處理過程中,大規模數據會進行排序處理,同時生成特殊格式的Key鍵值;接著在系統框架中對其進行儲存,并將其發送給下一階段。在Shuffle處理過程中,系統自動將具有相似或者相同屬性的關鍵值進行合并處理,即合并大鍵值對的過程。在Reduce過程中,各數據塊依據接收鍵值對數據進行分析處理,最后將處理結果存放在分布式文件系統(distributed file system,DFS)中,同時將其輸出。MapReduce的并行計算模型如圖4所示。

圖4 并行計算模型圖

2.2 基于R語言的數據挖掘技術

R語言常用于統計分析、制圖等過程。因此,R語言具有統計學的技術,例如線性建模與非線性建模、基于時間序列的統計分析、聚類、景點統計學測試等。同時,R語言具有處理結果可視化的功能。由于其開源性和較強的可用性,因而其應用領域較為寬泛。R語言的實質是一個免費數據解決方案,能夠進行全面的統計學習分析,幾乎包括了所有的數據分析技術;同時,R語言具有可視化處理功能,能夠以圖表的形式較直觀地展示統計分析結果。此外,R語言可以實現人機交互功能,任何分析操作都具有較強的交互性;其支持處理的數據格式多樣,既包括文本文件,又包括數據倉庫、數據庫等軟件數據類型;其兼容性也較高,幾乎可在市面上所有的操作系統上運行。

數據挖掘的前提是數據的真實和正確。但是很多時候,采集的數據都不是完整、準確的,因此需要對數據進行預處理,包括統一數據形式、消除數據冗余、填補數據缺失等[13]。電力大數據的采集方式主要為終端裝置讀數采集,即從變電站、智能表、母線段上獲取數據信息,并將這些信息存儲至數據庫中。常見的電力大數據異常情況包含連續時區某用戶用電負荷缺失一個值、某用戶用電負荷缺失多個值(用戶負荷值大面積缺失以及電力數據出現多個孤立點等)[14]。

電力數據中出現數據缺失情況最常見的思路是用可能值代替缺失值。本次研究采用缺失前三天的負荷數據彌補缺失數據。從源數據庫中得到的用戶負荷數據屬性為時間以及負荷。根據智能表采集規則對數據進行采集,采集頻率為20 min/次。若采集數據中出現缺失,研究中利用R語言實現所有用戶負荷文件的遍歷查詢,以與缺失值同時間點的前三天的數據進行填充[15]。

2.3 基于動態時間規整層次聚類算法

聚類算法中常采用歐氏聚類作為計量標準,對聚類對象臨近度進行計算。歐氏距離在對數據集合點距離相似度進行計算時具有較強的有效性,但是在涉及時間序列計算時則會出現較大的判斷誤差。例如,對于時間序列A{1,1,10,2,3,1}、B{1,1,2,10,3,1},若用歐氏距離進行判斷會出現較大的不一致性。但實際上這兩個時間序列的形狀相似度極高。動態時間規整(dynamic time warping,DTW)通過對非線性時間序列距離值的計算,從而找出序列間的最短距離。DTW算法基于動態規劃理論。其通過組建一個時間序列點矩陣,以兩條時間序列點間的距離為矩陣元素,應用動態規劃理論對最短路徑進行判定。假設兩個時間序列,分別為T=t1,t2,...,tn、D=d1,d2,...dn。首先,構建一個n階鄰接矩陣,鄰接矩陣中i、j間的距離就是ti與dj間的歐式距離;通過矩陣鄰接矩陣對最小距離路徑進行累積;對時間序列間的距離w進行比較。假設w=w1,w2,...,wk,則距離公式為:

wk=(ti-dj)2

(1)

式中:wk為ti到dj的距離。

距離的最小路徑如式(2)所示:

(2)

定義累積距離γ(i,j)從時間序列的第一個點開始,每到一個點就進行累加,直至時間序列的最后一個點。其得到的累積距離則為兩時間序列之間的相似距離。

γ(i,j)=d(ti,dj)+min{γ(i-1,j-1),γ(i-1,j),γ(i,j-1)}

(3)

以動態轉移方程遞歸的時間序列距離進行累加計算,最終得到最優距離。基于DTW的層次聚類方法準確性較高。但該方法在進行執行時需要生成鄰近矩陣,時間復雜度為0。因此,如果直接采用DTW層級聚類算法對電力大數據進行處理,時間復雜度相對較高。這是許多平臺不能處理的。對此,提出了基于Hadoop的DTW層次聚類算法。DTW的Hadoop其實現如圖5所示。

圖5 DTW的Hadoop實現

DTW算法需要對時間序列點與點間的距離矩陣進行構建,大規模數據要求較高的時間復雜度,難以對速度和時間進行保證。因此,為了解決此類問題,首先需對電力數據進行抽樣,以實現聚類分析。對部分數據的提取基于DTW層次聚類分析法,從而得到數據聚類中心點。接下來,將所有的電力負荷數據全部部署至HDFS中,通過MapReduce程序實現所有負荷數據到聚類中心的DTW距離計算,同時將每個負荷數據進行最近劃分,并以此為原則對所有數據進行排序與分類。最后,得到基于所有電力負荷數據的聚類分析結果。基于Hadoop的層次聚類分析法能夠克服大規模數據進行聚類分析時的不足,同時,通過Hadoop集群技術可以實現大規模電力負荷數據計算的高效率。

3 試驗結果及分析

3.1 試驗環境搭建

此次試驗的Hadoop集群使用一臺主機和三臺阿里云服務器進行搭建,同時使用Hadoop2.0版對生產環境進行部署。接下來,對HDFS的HA進行配置。主備NameNode的配置方法有多種。本次試驗使用JournalNode方式。利用三個節點作為JournalNode的節點。因為機器數量限制,這三個節點還用作其他服務的節點。為了防止試驗運行過程中出現宕機等情況,需要將主、備節點NameNode分別在不同節點上進行部署。主、備節點切換方式可以分為手動和自動兩種。其中,自動切換需要對Zookeeper進行部署。本次試驗主要運用手動切換模式。接下來對HDFS2.0集群進行部署,以Active NameNode作為NameNode的節點,備份節點采用StandByNameNode,實現主節點出現宕機后的及時替換。利用Journal Node節點實現數據的同步。主備節點主分別在NN1與NN2上進行部署,節點切換利用手動切換模式。

集成R和Hadoop技術主要有三種方法,分別是RHIPE、Hadoop streaming以及RHadoop。本次研究使用RHadoop技術進行整合。RHadoop是一種開源包集合,包含rhdfs、rhbase以及rmr,主要功能是基于R語言環境進行大數據處理。Rhdfs可以在R語言中提供HDFS的接口,從而使得其能夠通過HDFS API實現HDFS運行結果的迅速調用。而rmr會在R語言內部提供HDFS的功能接口。在R語言中,將程序分為Map與Reduce兩階段,然后通過rmr包提交試驗任務。Rhbase可以通過Thrift服務器對Hadoop Hbase數據源的R語言接口進行操作,從而實現數據的初始化以及讀寫等功能。RHadoop的環境配置分為兩個步驟,分別為在Linux環境下對R語言進行安裝、安裝RHadoopde 三個開源包。在Linux環境下安裝R比較簡單,這里不再詳細解釋。接下來,主要對安裝RHadoop的三個包進行詳細說明。安裝rmr需先安裝包digest、itertools以及RJSONIO,因為這些包之間具有相互依賴關系。因為rhdfs對rJAVA的依賴性較強,安裝rhdfs則需要安裝包rJAVA,最后安裝rhbase。安裝rhbase需要配置R CMD INSTALL ‘rhbase_1.2.1.tar.gz。完成上述R與Hadoop的包對接以后,在R語言控制臺即可對MapReduce進行調用,實現對數據的分析工作。

3.2 試驗結果可視化及其分析

選取X省某電網某地區大用戶正常工作日的日負荷曲線數據,通過基于Hadoopde平臺技術和DTW層次聚類算法對其進行聚類分析,得到了五種類型的用戶負荷數據特征。通過R語言實現結果的可視化。五類用戶的負荷曲線分別如圖6~圖10所示。

圖6 第一類用戶負荷曲線

圖7 第二類用戶負荷圖

圖8 第三類用戶負荷圖

圖9 第四類用戶負荷圖

圖10 第五類用戶負荷圖

由圖6可知,第一類用戶負荷曲線顯示出的平均負荷值較大,可以判斷其用戶均為大宗用戶中的大功率用戶。其主要工作時間較長,一般從凌晨持續到早上;同時,其電力負荷波動幅度較大,可以得知其用戶屬于晚上工作類型。

由圖7可知,第二類用戶負荷曲線顯示出的平均負荷值適中,可以判斷其用戶屬于大宗用戶中的中小功率用戶。一天時間內出現波峰3次,分別是10~12點、15~17點、19~21點;同時,其電力負荷波動幅度一般,可以得知其用戶屬于間歇性工作類型。

由圖8可知,第三類用戶負荷曲線顯示出的平均負荷值較大,可以判斷其用戶屬于大宗用戶中的中等功率用戶。每天除了12~15點有波谷現象出現外,其余時間均保持較高功率,可知其為全天工作類型。

由圖9可知,第四類用戶負荷曲線顯示出的平均負荷值中等偏上,可以判斷其用戶屬于大宗用戶中的小功率用戶。每天除了7~12點以及15~19點有波峰現象出現外,其余時間均保持較低功率,可知其為集中性工作類型。

由圖10可知,第五類用戶負荷曲線顯示出的平均負荷值中等偏上,同樣可以判斷其用戶屬于大宗用戶中的小功率用戶。較第四類用戶不同的是,第五類用戶的波峰出現時間為8~18點,可知其為正常工作類型。

4 結論

在對電力負荷數據特征的研究中,關鍵在于對信息技術的充分利用。本次研究在選取智能算法以及平臺技術的基礎上,采用基于Hadoop的DTW層次聚類方法對電力負荷數據的特征屬性進行研究。研究中,選取X省某電網某地區的大宗用戶正常工作日的日負荷數據進行試驗。試驗結果表明,該地區的大宗用戶電力負荷數據可分為長時間大功率用戶、間歇性中小功率用戶、全天候中等功率用戶、集中工作型小功率用戶以及正常工作類型的小功率用戶五大類。這五個類型的用戶用電時間均有較大的差別,一般用電時間長、負荷均值大的用戶都屬于大功率用戶,也符合基本常識;其余用電時間較短的用戶,其用電負荷曲線均值較為適中,屬于小功率用戶。根據上述的分類結果可知,DTW層次聚類算法能夠根據用戶用電的特征對用戶進行分類,不過研究過程中的數據略微偏少,精度仍然稍有欠缺。今后研究的方向在于進一步提高精度,增強用戶識別的準確度。

猜你喜歡
用戶
雅閣國內用戶交付突破300萬輛
車主之友(2022年4期)2022-08-27 00:58:26
您撥打的用戶已戀愛,請稍后再哭
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年5期)2016-11-28 09:55:15
兩新黨建新媒體用戶與全網新媒體用戶之間有何差別
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
挖掘用戶需求尖端科技應用
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 全部毛片免费看| 国产拍在线| 国产精品七七在线播放| 91视频青青草| 天天躁夜夜躁狠狠躁图片| 91最新精品视频发布页| 五月激情婷婷综合| 伊人91视频| 亚洲自拍另类| 国产91小视频在线观看| 无码一区二区波多野结衣播放搜索 | 四虎永久免费地址| 亚洲黄色高清| 毛片a级毛片免费观看免下载| 亚洲精品无码在线播放网站| 精品伊人久久久久7777人| 国产网站黄| 免费AV在线播放观看18禁强制| 亚洲av片在线免费观看| 欧美午夜理伦三级在线观看| 国产情精品嫩草影院88av| 热99精品视频| 国产AV毛片| 97se亚洲综合在线天天| 色成人综合| 99热这里只有精品在线观看| 无码乱人伦一区二区亚洲一| AV天堂资源福利在线观看| 久久国产V一级毛多内射| 四虎永久免费地址| 色婷婷亚洲综合五月| 免费看黄片一区二区三区| 国产aaaaa一级毛片| 孕妇高潮太爽了在线观看免费| 久久久久久久97| 热思思久久免费视频| 亚洲天堂成人在线观看| 国产欧美日韩精品第二区| 青草免费在线观看| 欧美日韩精品综合在线一区| 丁香五月婷婷激情基地| 亚洲午夜福利在线| 亚洲高清无在码在线无弹窗| 香蕉久久国产超碰青草| 一级毛片免费观看不卡视频| 国产一区二区网站| www精品久久| 久久免费观看视频| 国产福利大秀91| 国产精品女主播| 国产精品手机在线播放| 日韩一区二区三免费高清| 国产精品香蕉在线| 专干老肥熟女视频网站| 亚洲男人的天堂久久香蕉网| 在线免费观看AV| 亚洲a级在线观看| 亚洲综合网在线观看| 亚洲成在人线av品善网好看| 亚洲视频无码| 亚洲精品午夜天堂网页| 狠狠ⅴ日韩v欧美v天堂| 精品少妇三级亚洲| 国产欧美性爱网| 香蕉99国内自产自拍视频| 国产高清国内精品福利| 久久婷婷综合色一区二区| 国产免费看久久久| 99久久精品国产精品亚洲| 国产日本一线在线观看免费| 2021无码专区人妻系列日韩| 亚洲天堂网在线播放| 91青青视频| 3p叠罗汉国产精品久久| 91久久国产综合精品女同我| 日韩av高清无码一区二区三区| 97se亚洲综合在线韩国专区福利| 久久国产亚洲欧美日韩精品| 色婷婷综合激情视频免费看| 伊人91视频| 国产精品永久久久久| 五月婷婷亚洲综合|