999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于遺傳優化聚類的GRU 無損電力監測數據壓縮

2024-05-07 10:10:46屈志堅帥誠鵬吳廣龍梁家敏
電力系統及其自動化學報 2024年4期
關鍵詞:優化

屈志堅,帥誠鵬,吳廣龍,梁家敏,李 迪

(1.華東交通大學軌道交通基礎設施性能監測與保障國家重點實驗室,南昌 330013;2.華東交通大學電氣與自動化工程學院,南昌 330013)

在現代配電自動化系統中,利用互聯網、人工智能等技術,圍繞電力的各個環節實現配電網的數字化和智能化,使其具有全面感知、傳輸、高效處理和報警信息、便捷靈活應用等特點[1]。屬于處理層的電網調度中心[2],其數據量隨著現場設備種類和數量的不斷增加而呈現出不斷攀升的態勢,并以極其龐大的數量、規模和結構生成電力大數據[3]。電力數據主要分為3 個類型:第1 類是電網運行中設備監測數據,如監視控制與數據采集數據和智能電表的采樣數據;第2 類是包括成交價數據、售電量數據在內的電力營銷數據;第3類是內部電網數據等電力管理數據。目前學術界和工業界在針對千萬級的數據時,推薦分布式集群方式處理[4],但隨著數據體量增大會出現集群內存資源不足,傳輸效率降低,數據查詢時間增大等問題。

因此,學術領域的研究學者針對優化集群內存結構,減少磁盤儲存空間等問題展開了一系列研究[5-7]。文獻[8]以Gzip 壓縮算法為藍本,同時采用LZ77壓縮算法與霍夫曼編碼,設計了專用的硬件電路,實現了無損壓縮,提高了數據的壓縮速率,但數據的壓縮率依賴于硬件的性能。LZMA 是用LZ77字典編碼改良和優化后的壓縮算法,文獻[9]利用開源的LZMA 代碼進行系統移植,將LZMA 算法代碼封裝嵌入數據庫系統,將數據先進行壓縮,再傳輸至數據庫;文獻[10]提出一種基于深度學習的上下文自適應壓縮DeepCABAC(context-adaptive binary arithmetic coding for deep neural network compression),利用上下文匹配算法生成預測概率分布表,再將概率分布表輸入深度學習進行優化,但由于使用的上下文匹配算法比較依賴先驗數據的初始概率分布,仍很難滿足電網監測數據壓縮率的需求。隨著神經網絡算法的出現,人們開始將神經網絡的自主性特征學習功能應用于信息處理領域,文獻[11]通過神經網絡模型對大量樣本數據進行訓練,將循環神經網絡RNN(recurrent neural network)模型構建為序列數據的條件預測概率,并對字符的概率分布進行更新和優化,采用基于預測的無損數據壓縮原理,數據壓縮效果得到有效提升。但是,RNN 在處理長期依賴和計算距離比較遠的節點之間的聯系時,因為雅可比矩陣的多次相乘會造成梯度消失或梯度膨脹的現象,而本文提出的門控循環單元GRU(gated recurrent unit)神經網絡則能很好地解決這一問題。

另一方面,由于電網系統數據信息的復雜性,在數據壓縮之前對數據信息進行聚類預處理也可以有效地提高數據壓縮率。文獻[12-13]比較了多種傳統的聚類算法,對于進行聚類之前需要預先給定聚類中心數的K-means 算法來說,如果集群所有數據信息文件,不能確切地給出聚類中心,往往會造成不理想的聚類輸出結果。因此,文獻[14]根據密度峰值算法思想,對K-means 算法的距離和權重參數進行改進,引入了加權歐式距離,得到了較好的聚類結果。但是權值的分配還需要引入進化算法對其進一步優化。

為此,本文提出一種遺傳聚類優化的門控循環單元神經網絡GA-K-GRU(genetic algorithm optimizing K-clustering gated recurrent unit neural network)數據壓縮方法。先將分布式平臺集群的多維原始電力數據進行聚類,并通過遺傳算法迭代優化聚類中心的選取,再利用GA-K-GRU 的歷史參數記錄功能訓練輸出數據的概率分布模型,最后結合算術編碼將其編碼壓縮存儲至集群。實驗結果表明,本文方法的壓縮效果比LZMA、Gzip、DeepCABAC、RNN 等壓縮算法效果更好,有效緩解了集群存儲空間,提高了集群存儲速度,提升了集群查詢時間。

1 基于分布式平臺的集群壓縮模型設計

1.1 分布式集群實驗環境

在Ubuntu 18.04 系統環境下,按工程中典型調度主站2 臺數據服務器和2 臺主、備調度工作站4機配置,建立由1臺主調度機,2臺監控服務器,1臺備調度機構成的4機分布式集群實驗環境,其配置如表1所示。

表1 分布式集群實驗環境Tab.1 Distributed cluster experimental environment

1.2 分布式集群無損壓縮設計

電網監測數據分布式集群的數據處理任務包括Map和Reduce兩個進程,分布式集群為Map/Reduce任務處理提供多種數據壓縮格式的壓縮接口[15]。

輸入分布式集群中的數據文件被分割為若干個數據塊(Data1,Data2,…,Datam) ,各數據塊通過Map 任務以并行方式映射至分布式集群的任務監視節點,各節點處理后的數據以文件流的形式輸出至集群進行儲存,在Reduce 任務中進行排序與聚合,集群壓縮流程如圖1所示。

圖1 集群壓縮流程Fig.1 Cluster compression process

在處理傳輸電網監測數據文件的過程中,先對輸入的數據信息文件進行數據聚類處理,將文件聚類分成m個數據塊,再通過Map進程將m個數據塊并行運行在4臺集群中,分別對各個數據塊節點進行無損壓縮處理減少數據體量,最后將壓縮后的數據塊通過Reduce 進程匯總存儲至磁盤,緩解磁盤存儲壓力。

2 遺傳優化的電力監測數據聚類設計

由于K-means 聚類只是以數據文件中數據點到聚類中心的距離最小進行分類,而這個聚類中心個數(即K值)是人根據經驗設定,往往不是最優的聚類中心個數。而利用遺傳優化算法可以對不同K值的聚類效果構建適應度函數,通過不斷的迭代對K值進行尋優,最后輸出最優的聚類中心數。具體尋優過程如下。

1)可變長度字符染色體編碼

假設電力監測數據集V進行聚類后,每個聚類XM×N中總共有N個元素,每一個元素xi的維數為M,則可用向量={d1,d2,…,dn}表示,其中1 ≤i≤N。設種群大小為Qi,種群中的每一個個體都代表一種聚類方法,將個體表示為,其中1 ≤k≤Qi,這表示該個體有k個聚類中心,每個聚類中心的坐標用xˉc表示,1 ≤c≤k。

因為最佳的聚類中心數K不確定,因此個體編碼長度都是可變的,將種群中的每個個體編碼為可變長字符串,給種群中的聚類中心數目設置一個取值范圍Cmin≤k≤Cmax,然后將種群編碼為{V1,V2,…,Vj,…,VQ}。

2)適應度函數選擇

一般的K-means 算法將每個數據點到其對應的聚類中心的距離之和作為優化指標,并沒有考慮聚類中心之間的距離問題,導致聚類中心會受到孤立點影響的情況,所以本文選擇戴維斯-布爾丁指數DBI(Davies-Bouldin index)[16]作為衡量聚類效果的適應度函數。

DBI表示聚類中數據點之間的距離與聚類中心之間距離之比的平均值。DBI 的值越小,表示聚類后簇內距離越小,簇之間的距離越大。在迭代中通過消除具有較大DBI值的個體,可以維持種群的規模,并且會盡可能多地包含“精英”個體,從而可以加快最佳解決方案的速度。

3)交叉算子

交叉算子通過交換上一代個體的遺傳信息來產生新的子個體,從而擴大了問題解決領域的搜索范圍。

交叉過程如圖2 所示,隨機從群體中選擇2 個個體父代1、父代2 進行交叉,產生2 個新的個體子代1、子代2,重復進行直到產生Qc個新個體。

圖2 交叉過程Fig.2 Cross process

4)變異算子

變異算子通過修飾個體的某些染色體片段來維持個體的多樣性,從而解決局部最優的問題。在每個變異操作中,以概率Pn突變當前種群的個體Vx,直到產生Qn個新個體,并根據以下策略修改聚類中心的數量:如果聚類中心的數量大于(Cmin+Cmax)/2,隨機刪除1 個聚類中心;否則,隨機生成1個聚類中心。

5)個體消除策略

經過種群初始化、個體交叉及變異操作之后,種群生成了Qi+Qc+Qn個個體。經過交叉和變異,會產生相同序列或不同序列但具有相同染色體個數的個體,即相同聚類中心的個體。這些個體再次迭代會導致早期收斂到局部最優的問題。因此有必要比較相同長度的染色體用來除去多余的個體。最后根據DBI計算適應度,按照適應度進行總體排序,并消除具有較大DBI 值的個體,從而使種群的總體規模保持不變。

遺傳優化K-means聚類算法在最優K值的適應度達到給定閾值、最優K值的適應度不再提高或算法的迭代次數達到預設值時終止,然后輸出優化后K個聚類的數據文件。

任意的數據文件均可以看作是字母表中的一串字符,壓縮電力數據文件包含2個階段,需遍歷2次數據文件,第1次依據輸入的數據輸出概率分布模型,第2次將生成的概率分布模型與編碼器結合來制作壓縮文件。信息熵公式為

式中:H(U)為輸入全部數據壓縮后的數據大小;h(xi)為文件中每個數據的壓縮大小;P(xi)為每個數據出現的概率。

根據式(1)可知,電力監測數據集中數據的相關性越高,其高頻數據壓縮后占用的字節數越少,有利于緩解存儲和數據傳輸的壓力。利用皮爾遜系數對數據進行相關性驗證,得出相關性熱力表,驗證結果如圖3所示。

圖3 GRU 結構Fig.3 Gated recurrent unit structure

3 RNN 概率分布模型

3.1 GRU 神經網絡模型架構

對于給定的一組數據信息,RNN對其輸入序列進行建模,輸出數據的字符概率分布模型,并循環更新其隱藏狀態,但循環神經網絡存在的梯度消失或爆炸會導致同一組信息前后的關聯性減弱等問題,而GRU 神經網絡通過引入更新門和重置門可以很好地解決梯度消失或爆炸的問題。其中更新門決定保留多少數據歷史信息,添加多少新的數據信息;重置門控制過去的數據信息對待輸入數據信息的貢獻。單元重置和更新信息的公式為

式中:xt為t時刻輸入的數據段;zt、rt分別為數據段xt的更新門和重置門;是t時刻的候選狀態;ht為t時刻網絡隱藏層的輸出;Wz、Wr、Wh和Uz、Ur、Uh為權重參數;bz、br、bh為偏置參數。

GRU結構如圖3所示,GRU可以通過更新門機制更好地傳遞相隔距離較大的2 個數據段之間的依賴關系。當訓練基于GA-K-GRU 結構的電力監測數據集的概率分布模型時,GA-K-GRU有多個自由定義的參數,包括隱藏層層數、隱藏層單元個數以及單個神經元輸入的數據段大小等,GRU的具體參數如表2所示。

表2 GRU 參數Tab.2 GRU parameters

3.2 電力監測數據GRU 壓縮模型

為了訓練GA-K-GRU 結構的電力監測數據集的概率分布模型,將電力監測數據集分段,輸入GRU 神經網絡輸入端,利用GRU 神經網絡隱藏層中狀態量的傳遞性,訓練電力監測數據輸出的每個字符與其對應的字符概率分布表。通過該方法得出的整體性字符概率分布表將更為準確,使出現頻繁的字符對應的概率更高,壓縮后所占字節數更少,從而提高整體壓縮率,建模過程如圖4所示。

圖4 GRU 的概率分布建模流程Fig.4 Flow chart of probability distribution modeling of GRU

數據壓縮流程如圖5 所示,以電網監測數據中字段“Ua220V50HzUa221V50HzUa210V50Hz”為例說明字符概率分布表訓練流程。將電網監測數據中字段輸入GRU 模型,并分解為3 個數據段x1=“Ua220V50Hz” 、x2=“Ua221V50Hz” 、x3=“Ua210V50Hz”;首先,計算數據段x1中字符的概率分布,輸出概率分布{U:0.1,a:0.1,2:0.2,0:0.2,V:0.1,5:0.1,H:0.1,z:0.1};再將數據段x1的概率分布作為隱藏層信息h1傳遞至數據段x2,綜合h1與x2得出數據段x2的概率分布{U:0.1,a:0.1,2:0.2,0:0.15,V:0.1,5:0.1,H:0.1,z:0.1,1:0.05};最后,將數據段x2的概率分布作為隱藏層信息h2傳遞至數據段x3,最終模型輸出的字符概率分布為{U:0.1,a:0.1,2:0.17,0:0.17,V:0.1,5:0.1,H:0.1,z:0.1,1:0.06}。

圖5 電力監測數據分段壓縮流程Fig.5 Segment compression processof power monitoring data

利用GRU 模型訓練生成的字符概率分布,結合算術編碼對電網檢測數據進行壓縮處理。如圖6所示,輸入電力數據集中字符串“Ua220V50Hz”,通過GRU 神經網絡訓練地生成概率分布:{U:0.1,a:0.1,2:0.2,0:0.2,V:0.1,5:0.1,H:0.1,z:0.1}。

圖6 電網監測數據的算術編碼Fig.6 Arithmetic coding of power grid monitoring data

當字符串“Ua220”輸入時,第1 個字符為U,則標記位于區間[0.0,0.1)中,此時丟棄除此區間以外的其他部分,并按原區間比例繼續劃分;第2 個輸入字符為a,標記落在區間[0.01,0.02)中;繼續劃分第3 個字符,2 落在區間[0.012,0.014)中;第4 個字符2 落在區間[0.012 4,0.012 8)中;最后一個字符0定位于區間[0.012 56,0.012 64)中;區間[0.012 56,0.012 64)內任意一個浮點數,比如0.01262,可以表示字符串“Ua220”。

通過算術編碼方法處理,對于任意字符串,結合GRU 模型輸出的字符概率分布,都可以壓縮為一個浮點數;數據的解碼則是上述過程的逆過程。圖7為有功功率數據壓縮與解壓后的數據對比,可以看出,原始數據與解壓數據的波形完全吻合。由此可知,本文的GRU壓縮為無損壓縮。

圖7 無損壓縮性能驗證Fig.7 Verification of lossless compression performance

4 算例測試

4.1 數據準備

本研究算例測試數據來源于3 個電力監測數據集:荷蘭能源數據集DRED(Dutch residential energy dataset)[17]、英國電器級電力數據集UK-DALE(UK domestic appliance-level electricity)[18]和雨林電力采集自動化數據集RAE(rainforest automation energy)[19],如表3所示。

表3 算例測試的電力監測數據集Tab.3 Power monitoring datasets for example test

4.2 遺傳優化K-means 聚類的實驗驗證

本文基于可變長度染色體編碼的遺傳算法,在迭代過程中對K-means聚類算法的聚類中心數目K值進行尋優。遺傳算法參數設置:初始交叉概率Pc=0.7,初始變異概率Pv=0.04 ,最大迭代次數I=2 000,初始聚類中心數K值設為20。

為驗證遺傳優化K-means 聚類壓縮效果,將未遺傳優化的K-means聚類與進行遺傳優化K-means聚類對D4 數據集進行壓縮對比測試,壓縮率計算式為

式中:F1為電網檢測數據文件壓縮之后的大小;F2為電網檢測數據文件壓縮之后的大小。壓縮率對比測試結果如圖8所示。

圖8 遺傳優化K 聚類與K 聚類壓縮對比Fig.8 Comparison of compression between genetic optimization K-clustering and K-clustering

由圖8 可知,聚類數K=3 時壓縮率最低,且經過遺傳優化K-means 聚類的壓縮率比未經過遺傳算法優化的壓縮率更低。這是因為遺傳算法在對K值優化迭代的過程中不僅在尋找最優的聚類中心數,而且也在優化對每個聚類中心點位置的選取,所以本文利用遺傳算法優化聚類中心的數目和位置都是最優,提高了數據文件的聚類效果。

為驗證不同聚類算法下的壓縮性能比較,本文將遺傳優化K-means 算法與用遺傳優化算法優化聚類中心后的K-medoids 聚類、層次聚類和密度聚類3種聚類方法對數據集D1~D9進行壓縮對比,壓縮結果如表4和圖9所示。

圖9 4 種聚類的壓縮對比Fig.9 Comparison of compression among four clustering algorithms

表4 不同聚類算法平均壓縮率對比Tab.4 Comparison of average compression ratio among different clustering algorithms

從遺傳算法的原理可知,其優化的只是不同聚類算法的聚類中心數,以及對聚類中心點位置的選取,但是由于不同聚類算法本身對于聚類中心選擇的標準不同,所以優化后的效果也不同。由壓縮率測試結果可知,遺傳算法優化效果最好的是Kmeans聚類。

4.3 GA-K-GRU 算法壓縮效果對比

為驗證本文算法的壓縮效果,分別使用GRU、RNN[11]、DeepCABAC[10]、Gzip[8]、LZMA[9]5 種數據壓縮算法對表1 中的9 個數據集壓縮,計算壓縮率。對比測試結果如圖10所示,圖10(a)為數據文件沒有進行遺傳聚類優化的壓縮測試結果,圖10(b)為進行遺傳聚類優化后的壓縮測試結果。

圖10 5 種算法的壓縮對比Fig.10 Comparison of compression among five algorithms

從圖10 可以看出,對每一個數據集,無論在聚類與未聚類情況下,GRU的壓縮率均低于其他4種壓縮算法。這是因為對于同樣的數據信息,通過GRU 模型訓練輸出字符概率分布結合算術編碼更加接近信息熵,賦予數據信息中頻率高的字符更高的字符概率,減少了編碼字節數。

計算圖10中9個數據集的平均壓縮率,記錄于表5。由表5 可知,經過聚類處理的數據再輸入壓縮算法進行壓縮后,整體數據壓縮率都有降低,但仍然是GA-K-GRU的壓縮率較其他4種更低。這是因為GA-K-GRU 算法是先對數據進行遺傳聚類處理,數據聚類后可增加同一個聚類文件中數據的相似度,再通過門控循環神經網絡生成概率分布模型,使得高頻出現的數據所占字節數更少,大幅提高了電力監測數據無損壓縮的效果。

表5 聚類和未聚類的5 種壓縮算法的平均壓縮率對比Tab.5 Comparison of average compression ratio among five clustered and unclustered compression algorithms

5.4 不同壓縮算法集群性能對比測試

為驗證本文壓縮算法對集群性能的影響,在搭建的分布式平臺集群下,通過對5種壓縮算法與原始集群共6種實驗條件進行集群存儲空間、存儲速度及查詢性能3個指標進行對比測試。其中,集群內存占用空間是指數據集壓縮前后所占集群內存空間的大小;集群存儲速度是指數據壓縮前后導入同一個數據集所需要的時間;集群查詢時間是指數據壓縮前后對集群數據進行查詢查詢所消耗的時間。

存儲空間對比結果如圖11 所示。通過上述測試結果可以看出,數據在存儲前通過GA-K-GRU方法進行壓縮存儲后,集群磁盤的內存空間得到了極大的提升,占用減少了約96%左右。說明本文的GRU 壓縮算法非常有效地節約了電力數據的內存空間占用問題。

圖11 集群內存空間對比Fig.11 Comparison of cluster memory space

集群存儲速度如圖12 所示。從測試結果可以看出,數據集經本文設計的壓縮算法壓縮后,存儲速度平均提升約27%。這是因為壓縮后的數據更加整齊。

圖12 集群存儲速度對比Fig.12 Comparison of cluster storage speed

集群查詢時間對比如圖13 所示,從測試結果可以看出,本文壓縮算法使集群的查詢性能也有所提升,平均節約27%左右的查詢時間。

圖13 集群查詢時間對比Fig.13 Comparison of cluster query time

6 結 論

針對電力調度中心數據堆積越來越大的問題,結合數據聚類和神經網絡中的概率模型優化,提出了一種GA-K-GRU壓縮方法,通過對比實驗分析得出以下結論。

(1)遺傳優化K聚類算法可以很好地改善數據寫入神經網絡時屬性分散的問題,對體量較大、結構較為復雜的電力數據有比較好的聚類效果,GAK-GRU 比經過遺傳優化K 聚類后的Gzip、LZMA、DeepCABAC 和RNN 算法平均壓縮率分別低8.8%、3.7%、3.0%和1.3%,可以較好地緩解電網監測數據的傳輸壓力。

(2)以電力監測數據集為算例,搭建Hadoop 分布式集群平臺,進行多組不同壓縮算法下的集群性能對比。結果表明,本文設計的遺傳優化聚類門控神經網絡壓縮可以減少約96%集群內存空間占用,提高約27%集群數據存儲速度,提升27%集群數據查詢時間,均優于主流的LZ系列和自適應壓縮算法。

本文通過GA-K-GRU方法,提高了集群數據的壓縮效果,可以有效緩解集群空間壓力,但本文算法會占用較高的CPU資源,后續的研究重點會放在減少計算機資源占用上。

猜你喜歡
優化
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
PEMFC流道的多目標優化
能源工程(2022年1期)2022-03-29 01:06:28
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
由“形”啟“數”優化運算——以2021年解析幾何高考題為例
圍繞“地、業、人”優化產業扶貧
今日農業(2020年16期)2020-12-14 15:04:59
事業單位中固定資產會計處理的優化
消費導刊(2018年8期)2018-05-25 13:20:08
4K HDR性能大幅度優化 JVC DLA-X8 18 BC
幾種常見的負載均衡算法的優化
電子制作(2017年20期)2017-04-26 06:57:45
主站蜘蛛池模板: 久久婷婷五月综合色一区二区| 欧美一级高清免费a| 亚洲国产天堂久久综合226114| 成人第一页| 国产一级二级在线观看| 亚洲AV无码一区二区三区牲色| 四虎永久免费网站| 女同国产精品一区二区| 国产精品性| 中文国产成人久久精品小说| 亚洲av片在线免费观看| 在线播放精品一区二区啪视频| 国产免费黄| 日韩一区二区在线电影| 91伊人国产| 欧美一区二区三区欧美日韩亚洲| 亚洲中文字幕在线精品一区| 亚洲网综合| 无码专区第一页| 欧美中文字幕在线二区| 亚洲无线视频| 亚洲中文字幕久久精品无码一区 | 婷婷色在线视频| 久久精品中文字幕免费| 国产天天色| 精品超清无码视频在线观看| 午夜福利亚洲精品| 亚洲综合二区| 国产美女自慰在线观看| 全午夜免费一级毛片| 久草国产在线观看| 精品国产免费观看| 欧洲高清无码在线| 日韩精品欧美国产在线| 国产女人爽到高潮的免费视频| 国产浮力第一页永久地址| 精品国产免费观看| 色哟哟国产精品一区二区| 成人另类稀缺在线观看| 人妻丝袜无码视频| 久久久久无码精品国产免费| 青青青亚洲精品国产| 美臀人妻中出中文字幕在线| 啪啪永久免费av| 91视频99| 日本不卡在线视频| 一区二区自拍| 精品欧美一区二区三区久久久| 91九色国产porny| 婷婷在线网站| 国产精品美乳| 成年人久久黄色网站| 国产欧美日韩资源在线观看| 天天操精品| 国国产a国产片免费麻豆| 制服丝袜在线视频香蕉| 欧美中文字幕第一页线路一| 亚洲人妖在线| 国产成人调教在线视频| 欧美精品1区2区| 欧美在线黄| 亚洲大尺码专区影院| 免费人成在线观看成人片| 欧美日韩午夜| 欧美丝袜高跟鞋一区二区| 国产亚洲精品自在线| 国内毛片视频| 亚洲国模精品一区| 久久综合九色综合97婷婷| 国产日本欧美在线观看| 国产人免费人成免费视频| 四虎永久在线精品国产免费| 亚洲第一区欧美国产综合| 日本亚洲成高清一区二区三区| 国产第一页亚洲| 污视频日本| 精品久久久久成人码免费动漫| 国产爽妇精品| 久久国产拍爱| 亚洲第一视频网| 国产精品污污在线观看网站| 噜噜噜综合亚洲|