999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據內在特性和LSTM的用電數據異常檢測算法研究

2019-08-06 13:48:19吳剛
無線互聯科技 2019年10期
關鍵詞:深度學習大數據

吳剛

摘? ?要:為解決現有用電數據異常檢測算法準確率低的問題,首先,文章分析了用戶用電數據具有時間關聯特性、高維度特性,且容易受外部因素影響等特性。其次,基于數據內在特性和LSTM理論,提出了基于數據內在特性和LSTM的用戶用電數據異常檢測算法。該算法采用有放回的構造數據集策略,構造K個數據集合,采用4層LSTM網絡,實現高維數據特征提取,利用兩層全連接的隱含層組成的神經網絡,實現用戶特征數據匹配,采用大概率事件將K個數據集的結果中出現最多的分類作為該節點的分類。通過實驗,驗證了文章算法比傳統算法好,提高了準確率,降低了誤報率。

關鍵詞:大數據;異常檢測;深度學習;LSTM

1? ? 大數據和人工智能背景下的電力數據采集

隨著社會經濟快速發展,電力資源在人民群眾的日常生活中發揮的作用越來越重要。但是,個別用戶為了減少電力資源費用的支出,通過竊電、欺詐等欺騙手段進行偷電,給電力公司造成了嚴重的經濟損失。為解決此問題,電力公司已經采取了較多的措施進行檢查和整改,并且取得了一定的效果[1-2]。智能電網技術的快速發展,為用電數據異常分析提供了新的研究手段。在大數據電力設備采集下的用戶用電數據更加豐富、數據量更加龐大[3]、存儲設備和網絡通道的資源更加豐富[4]。例如,史玉良等[5]提出了傳統數據庫和MongoDB數據庫相融合的電力用戶數據存儲體系架構,實現了電力用戶數據的可擴展性存儲。

在此背景下,基于大數據和人工智能技術的用電數據異常檢測研究已成為當前的研究熱點和研究趨勢。根據研究采用的工具和方法不同,可以分為以下3類。(1)基于統計學理論知識進行異常用電數據挖掘研究,盛立锃等[6]將多項式擬合技術應用到異常用電數據檢測當中,有效地解決了用電量預測效率低的問題。Bianco等[7]分析了用電數據的內在特點和關聯關系,將用戶用電數據檢測問題轉換為線性回歸問題進行求解,提高了用戶用電數據檢測的準確率。Pappas等[8]、Wang等[9]分析了時間序列理論和自回歸理論,提出了自回歸移動模型,有效解決了季節變化對用戶用電異常檢測產生的負面影響。(2)基于數學建模與專家系統相結合的用電異常檢測研究,Arisoy等[10]基于電力公司長期運營的專家知識,對用電數據的時間關聯關系進行了數學建模,實現了用戶異常用電量的檢測,并通過仿真實驗,驗證了算法提高了檢測效率和性能。李亞等[11]將電力數據建模為聚類模型,基于專家知識分析,提出改進K-means聚類和反向傳播(Back Propagation,BP)神經網絡的臺區線損率算法,有效提高了用戶用電數據的線損率分類性能。石幫松等[12]從經濟學的視角,將電力用戶數據建模為博弈模型,從經濟學理論方面,研究了用電數據的特性。(3)基于深度學習等人工智能理論進行數據分析。Zhang等[13]、趙文清等[14]基于循環神經網絡理論和長短期記憶網絡理論,提出基于深度學習的用戶用電數據分析,有效提高了數據分析結果的準確率。許元斌等[15]分析了單一聚類算法在電力用戶數據分析時性能低的問題,提出了基于K-means和Canopy的雙聚類智能檢測算法,并通過實驗驗證了算法的運行效率。

基于上述分析可知,用戶用電數據異常檢測研究已經取得了較多研究成果。但是,當前研究主要集中在解決異常用電數據檢測的性能方面的問題。隨著電力用戶數據和用電設備地快速增長,用戶用電數據的維度和數據量也快速增加,導致現有用電數據異常檢測算法性能低的問題。為解決此問題,本文分析了用戶用電數據具有時間關聯特性、高維度特性,提出了基于數據內在特性和長短期記憶網絡(Long Short-Term Memory,LSTM)的用戶用電數據異常檢測算法。通過實驗,驗證了本文算法比傳統算法好,提高了算法性能。

2? ? 電力公司目前面臨的問題

在大數據環境下,電力公司可以通過網管系統采集和存儲的數據類型更加多樣,數據保存時間更長。這對于用戶用電異常數據檢測提供了豐富的數據資源。通過對長時間段內數據的關聯關系進行分析可知,不同用戶電力數據之間存在相似性,同一用戶在不同時間段內的數據也存在相關性。例如,某一個居民在未來幾天的用電量與當前時間的用電量類似和相關。居民的用電數據也具有一定的周期性和規律性。例如,每個月的用電數據量與之前月份或往年同期月份具有一定的相關性。此外,用戶的用電量與天氣、節假日等外部環境關系也比較緊密。

從上述分析可知,在進行用電量分析時,如果能夠同時對一個長時間段內的數據進行分析,將有助于通過用戶用電量的關聯關系,分析用戶用電數據之間的時序關系,有效挖掘用戶用電的異常數據。本文以378天為時間周期,選取了某省電力用戶的用電數據進行異常數據檢測。數據信息包括用戶ID、年月日、用電量等字段數據。

3? ? 數據準備和優化

3.1? 數據預處理

為提高數據質量,減少數據重復和數據缺失等錯誤導致的檢測算法性能低的問題,在執行檢測算法之前,對數據進行了預處理。其中,對于重復數據,采取刪除策略進行處理。對于缺失數據和錯誤數據,首先,建立數據字段的上限值和下限值。其次,從上下限區間采用隨機選擇的辦法進行填補。最后,對所有數據字段進行歸一化處理,避免不同字段取值范圍的區別導致的數據質量問題。歸一化處理采用公式(1)進行處理。其中,X={x1,x2,…,xn}表示包含n個數據的向量。mean(X)表示求解X的平均值。max(X)表示X的最大值。min(X)表示X的最小值。X'i表示對Xi執行歸一化之后得到的數據。

3.2? 生成K個數據集合

隨著存儲設備和存儲技術的豐富和成熟,電力公司存儲的用戶用電數據量爆發式增長,這些數據資源對用電異常檢測提供了豐富的資源。通過對已有的用電異常檢測研究分析可知,過擬合問題是一個常見問題。為了減小過擬合問題對檢測結果的影響,本文在生成測試集和訓練集的過程中,采用有放回的構造數據集的策略,構造K個數據集合,提高數據集合的隨機性。在選取K個數據集合之后,將其中90%的數據作為訓練集進行訓練,將剩余的數據作為測試集進行測試。

如果同時對一個較長時間段內的數據進行分析,需要檢測算法具備處理高維數據的能力。針對此問題,下一步將基于LSTM理論,提出能解決高維數據的異常數據檢測算法。充分挖掘隱含在高維數據中的關鍵特征,挖掘出的關鍵特征越多,檢測算法的檢測性能越好,將越有利于提出更加優化的檢測算法。

4? ? 基于數據內在特性和LSTM的用電數據異常檢測算法

4.1? 算法流程

基于數據內在特性和LSTM的用電數據異常檢測算法流程如圖1所示,包括5個過程。

(1)數據預處理:對于重復數據、缺失數據和錯誤數據進行清洗,采用歸一化處理方法,對數據實現歸一化處理。

(2)生成K個數據集合:采用有放回的構造數據集的策略,構造K個數據集合,提高數據集合的隨機性。

(3)對K個數據集進行特征提取:對于每個數據集,基于用電特性的4層LSTM算法,從378個特征中提取32個數據的內在關鍵特征。

(4)對K個數據集進行特征匹配:對于每個數據集,采用3層全連接層進行竊電識別,直到損失函數達到閾值,輸出2維的數據分布。

(5)求解數據集中數據的最佳分類:采用大概率事件,將K個數據集的結果中出現最多的分類作為該節點的分類。

4.2? 特征提取

由于LSTM網絡具備記憶功能,可基于時間關系關聯電力用戶數據,本文的特征提取模塊由多個長短期記憶塊連接組成,其結構如圖2所示。首先,將第K個數據集合劃分為3個數據子集作為輸入。其次,4層LSTM構成的特征提取模型對特征進行提取。

從用電特性角度分析可知,用電與溫度、節假日影響較大,考慮到春、夏、秋、冬4個季節,清明節、中秋節、端午節、元旦、五一、國慶節、春節7個關鍵節日,所以,本文在4層LSTM網絡實現特征提取時,將用電特征設置為32。對于每個LSTM網絡模塊,包括輸入門、遺忘門、輸出門3種門。其中,輸入門用于接收用戶用電數據xt和上一個時刻的輸出ht-1,輸入值z使用公式tanh(Wz[ht-1,xt])計算。輸入門的取值i使用sigmoid(Wt[ht-1,xt])進行計算。遺忘門的取值f使用公式sigmoid(Wf[ht-1,xt])進行計算。輸出門的取值o使用公式sigmoid(Wo[ht-1,xt])進行計算。基于此,LSTM網絡模塊的新狀態取值ct使用公式(2)進行計算,每個LSTM網絡模塊的輸出值ht使用公式(3)進行計算。

4.3? 特征匹配

為完成數據類型的標注,本文利用一個由2層全連接的隱含層組成的神經網絡實現用戶特征數據的匹配工作。該特征匹配模型中,輸入層輸入數據為特征提取獲得的32維數據。為提高算法的性能,本文使用均方差損失函數,對神經網絡的參數進行調整。均方差損失函數使用公式(4)進行計算。其中,yi表示特征匹配模塊的分類結果,表示用戶用電數據的真實分類結果,N表示特征匹配模塊分類的用電數據的數量。

4.4? 求解數據集中數據的最佳分類

考慮到K個數據集的特征配匹結果存在差異,不便于決定最優的分類結果。本文基于隨機森林算法求解數據最佳分類的方法,最終的分類結果采用概率事件進行計算,即對于每個用電用戶數據,將K個特征配匹結果中相同分類最多的類型作為最終的分類。

5? ? 性能分析

為了生成數據集,本文選取某省95 389個用電用戶的378天的電量數據,其中,異常數據3 528條,其余為正常數據。本文算法中K取值為[3,9],步長為2。在進行實驗時,為了防止正常數據和異常數據不均衡影響算法性能,在構造訓練數據時,對正常數據進行欠采樣,減小正常數據與異常數據的不均衡差距。實驗中,共生成10個數據集,每個數據集進行10次實驗,最終結果取平均值。

實驗中,首先,分析了K取值對算法性能的影響。其次,為了驗證本文所提模型的有效性,與傳統的機器學習算法支持向量機(ADoSVM)、使用單個數據集合算法(ADoIL-oneD)進行對比實驗。

首先,K取值為3,5,7,9時算法性能如圖3—4所示。隨著K取值增加,算法的準確率逐漸增加,誤報率逐漸降低。當K取值為9時,算法性能出現下降。實驗結果說明,K取值為7時,算法性能比較優化。

下面以K取值為7的情況下,與傳統的機器學習算法支持向量機(ADoSVM)、使用單個數據集合算法(ADoIL-oneD)進行對比實驗。算法性能如圖5—6所示。算法ADoIL-7和算法ADoIL-oneD兩種算法的準確率都高于算法ADoSVM,誤報率都低于算法ADoSVM,說明本文算法提出的異常檢測算法優于傳統的機器學習算法。另外,算法ADoIL-7的性能優于算法ADoIL-oneD,說明多數據集減小了過擬合問題對算法性能的影響,有助于求解最佳的分類結果,提高了異常檢測算法的檢測性能。

6? ? 結語

電力資源在人民群眾的日常生活中發揮的作用越來越重要。但是以竊電、欺詐等欺騙手段進行的偷電行為給電力公司造成了嚴重的經濟損失。用戶用電數據異常檢測研究對于電力公司的正常運營變得更加重要。為解決此問題,本文分析了用戶用電數據具有時間關聯特性、高維度特性,提出了基于數據內在特性和LSTM的用戶用電數據異常檢測算法。通過實驗,驗證了本文算法比傳統算法提高了算法性能。下一步工作中,將對該模型進行優化,基于遷移學習理論,生成通用性較強的模型,降低模型對運算環境的要求,提高算法的實用性。

[參考文獻]

[1]雷煜卿,李建岐,侯寶素.面向智能電網的配用電通信網絡研究[J].電網技術,2011(12):14-19.

[2]ULUDAG S,LUI K S,REN W,et al.Secure and scalable data collection with time minimization in the smart grid[J].IEEE Transactions on Smart Grid,2016(1):43-54.

[3]屈志堅,陳閣.容錯存儲的電力系統監測數據查詢優化技術[J].電網技術,2015(11):3221-3227.

[4]葛磊蛟,王守相,瞿海妮.配用電大數據存儲架構設計[J].電力自動化設備,2016(6):194-202.

[5]史玉良,王相偉,梁波,等.基于MongoDB的前置通信平臺大數據存儲機制[J].電網技術,2015(11):3176-3181.

[6]盛立锃,曾喆昭,李莎.基于代數多項式模型的用電量預測研究[J].電力科學與技術學報,2015(1):34-40.

[7]BIANCO V,MANCA O,NARDINI S.Linear regression models to forecast electricity consumption in Italy[J].Energy Sources Part B Economics Planning&Policy,2013(1):86-93.

[8]PAPPAS S S,EKONOMOU L,KARAMOUSANTAS D C,et al.Electricity demand loads modeling using Auto Regressive Moving Average(ARMA)models[J].Energy,2008(9):1353-1360.

[9]WANG Y,WANG J,ZHAO G,et al.Application of residual modification approach in seasonal ARIMA for electricity demand forecasting:a case study of China[J].Energy Policy,2012(3):284-294.

[10]ARISOY I,OZTURK I.Estimating industrial and residential electricity demand in turkey:a time varying parameter approach[J].Energy,2014(4):959-964.

[11]李亞,劉麗平,李柏青,等.基于改進K-means聚類和BP神經網絡的臺區線損率計算方法[J].中國電機工程學報,2016(17):4543-4551.

[12]石幫松,張靖,何宇,等.基于動態博弈的配電網單相電力用戶用電行為分析[J].電力系統自動化,2017(14):87-91,139.

[13]ZHANG J,ZHENG Y,QI D.Deep spatio-temporal residual networks for citywide crowd flows prediction[J].AAAI,2016(5):25-29.

[14]趙文清,沈哲吉,李剛.基于深度學習的用戶異常用電模式檢測[J].電力自動化設備,2018(9):34-38.

[15]許元斌,李國輝,郭昆,等.基于改進的并行K-means算法的電力負荷聚類研究[J].計算機工程與應用,2017(17):260-265.

猜你喜歡
深度學習大數據
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
基于深度卷積網絡的人臉年齡分析算法與實現
軟件工程(2016年8期)2016-10-25 15:47:34
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 日本www在线视频| 真人高潮娇喘嗯啊在线观看| AV无码无在线观看免费| 亚洲福利网址| 日韩精品亚洲精品第一页| 精品亚洲国产成人AV| 999精品视频在线| 国产拍揄自揄精品视频网站| 男女精品视频| 欧美精品H在线播放| 免费在线色| 亚洲国产在一区二区三区| 亚洲天堂2014| 国产精品福利导航| 国产91透明丝袜美腿在线| 欧美成人综合在线| 亚洲女同一区二区| 国产无码精品在线| 高清不卡毛片| 狼友视频国产精品首页| 国产又黄又硬又粗| 在线国产欧美| 国产精品三级av及在线观看| 欧美全免费aaaaaa特黄在线| 国产不卡网| 久久久四虎成人永久免费网站| 美臀人妻中出中文字幕在线| 国产在线98福利播放视频免费| 国产精品成人一区二区| 成人免费黄色小视频| 啪啪永久免费av| 国产女同自拍视频| 亚洲国产精品成人久久综合影院| 久久综合成人| 国产91在线|日本| 国产在线小视频| 免费一级无码在线网站| 久久精品视频亚洲| 国产麻豆福利av在线播放 | 日韩精品无码免费一区二区三区| 免费看美女自慰的网站| 国产日韩精品欧美一区灰| 欧美午夜性视频| 在线不卡免费视频| 97青草最新免费精品视频| 国产精品久线在线观看| 欧美综合区自拍亚洲综合天堂| 国内a级毛片| 露脸一二三区国语对白| 91精品国产91久久久久久三级| 性视频久久| 亚洲精品成人福利在线电影| 亚洲资源站av无码网址| 精品国产成人高清在线| 欧美无专区| 成人综合网址| 麻豆精品在线视频| 日韩在线视频网站| 久久久精品无码一区二区三区| 免费在线播放毛片| 免费jizz在线播放| 永久免费无码成人网站| 亚洲热线99精品视频| 国产导航在线| 欧美日韩动态图| av在线无码浏览| 91精品国产丝袜| 国产人人射| 亚洲第一成年人网站| 国产国语一级毛片| 性色在线视频精品| 91精品最新国内在线播放| 国产成人一二三| 亚洲午夜国产片在线观看| 97久久精品人人| 免费无码AV片在线观看中文| 国产精品美女自慰喷水| 色婷婷成人| 97精品久久久大香线焦| 无码视频国产精品一区二区| 亚洲欧美精品在线| 激情六月丁香婷婷四房播|