999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進孤立森林算法的異常用電行為識別方法

2023-12-08 02:35:46錢旭盛翟千惠張軒城
沈陽工業大學學報 2023年6期
關鍵詞:差異用戶

錢旭盛, 朱 萌, 翟千惠, 張軒城, 陳 可

(1. 哈爾濱工業大學 電氣工程及自動化學院, 黑龍江 哈爾濱 150006; 2. 國網江蘇省電力有限公司 營銷服務中心, 江蘇 南京 210018)

異常用電行為會造成電網的電能損失,該損失通常分為技術性和非技術性兩種[1-2],后者通常是由于電力用戶的竊電行為所造成的.而竊電則普遍通過私下篡改計量裝置與電力線路等方式實現,該行為不僅會給電網造成經濟損失,還存在嚴重的安全隱患。當前,異常用電行為主要依靠人工定期現場巡檢來進行識別,雖然消耗了大量的人、物及財力,但其覆蓋面窄且識別效率仍較低[3]。因此,利用現代數據挖掘技術實現異常用電行為的高效識別,對于電網的穩定運行及智能建設具有重要意義[4-5]。

現階段國內外應用于異常用電行為識別的數據挖掘方法分為有監督和無監督學習兩類。有監督學習需要人工對樣本數據進行類別標簽的標記,其主觀性較強且工作量較大。而無監督學習則不需要標簽標記即可識別更多數據之間的映射關系。NIZAR等[6]采用基于距離的聚類算法K-means對電力用戶的負荷數據進行聚合,以得到特征曲線,再根據兩者的偏離程度實現對異常用戶的識別;田力等[7]采用基于密度的聚類方法分析電力用戶的異常行為,并通過簇的異常程度得分來進行排序。莊池杰等[8]基于主成分分析(principal component analysis,PCA)法進行特征降維,并采用優化離群算法結合閾值設定識別出異常用電用戶。上述文獻所提方法均需要計算有關距離和密度的指標,因此對用電行為高維度數據的計算效率偏低,且精準度也會受到影響。本文提出一種基于孤立森林算法(isolation forest,iForest)的異常用電行為識別方法,該方法無須對距離與密度進行計算便可大幅提升速度并減少系統的開銷,同時文中還引入粒子群優化算法(particle swarm optimization,PSO)進一步增強了異常識別的檢測精度。

1 異常用電行為特征

電力負荷曲線雖然能在一定程度上反映異常用戶的某些規律,但其作為識別模型的特征并不明顯,因此需要進行數據探索,總結異常用戶的行為規律,再從相關數據中提取出描述異常用戶的特征指標,如圖1所示。提取的特征指標包括:電量下降趨勢、線損率以及告警類指標。

圖1 異常用電行為特征分類及其指標Fig.1 Classification and indexes of abnormal electricity user behavior

正常用戶的用電量在一個周期內較為平穩,而異常用戶的用電量則存在持續下降的情況。首先統計一個時間窗口內的電量下降趨勢,將時間窗口設定為當日的前后5日,并用斜率ki表示這11日中第i日的電量趨勢,即

(1)

線損率用于衡量供電線路的損失比例,若用戶用電異常、存在竊漏電行為,則當日的線損率便會增加,第i日線損率r可表示為

(2)

2 孤立森林算法理論

目前,異常用電行為識別方法主要使用正常樣本進行學習與訓練,并在特征空間中劃分出一個正常樣本區域,對于不屬于該區域的樣本,則判斷其為異常樣本。該方法的主要問題在于訓練過程中僅會對正常樣本的學習加以優化,由此可能出現大量誤報和漏報的情況。而孤立森林算法[9-10]并未學習正常的樣本,其利用二叉搜索樹結構以遞歸的形式隨機分割數據集,從而對異常樣本進行孤立。由于異常樣本具有數量較少且與大部分樣本疏離的特點,因此該樣本會被更早地孤立出來,其相比傳統聚類算法有更良好的魯棒性。孤立森林的分割示意圖如圖2所示。從圖2中可以較為直觀看到,正常樣本點x1經過12次分割才從整體中分離出來,而異常樣本x2僅需3次即可完成分割。

圖2 孤立森林示意圖Fig.2 Schematic Diagram of Isolated Forest

單棵孤立樹的構建流程如圖3所示。重復t次即可得到t棵孤立樹并生成孤立森林,隨后將每個樣本點x帶入孤立森林,計算異常得分,即

圖3 單棵孤立樹的構建流程Fig.3 Flow chart of single isolated tree construction

(3)

式中:h(x)為樣本x在孤立樹中的高度;c(β)為路徑長度的平均值,需要進行標準化處理。若

c(β)異常得分接近1,則為異常樣本;若c(β)異常得分遠小于0.5,則為正常樣本;若c(β)異常得分約為0.5,則表示不存在異常樣本。

3 基于粒子群的改進孤立森林算法

孤立森林的本質是一種基于套袋思想的集成算法,因此選擇精準度較高、差異度偏大的孤立樹子集有利于對異常用電行為的識別。通過粒子群算法尋找最優孤立樹子集,在降低孤立樹數量并提升運行效率的同時,還提高了異常用電行為的識別精度。

3.1 粒子群算法

粒子群算法[11-13]通過模擬鳥群飛行覓食的行為,將每只鳥均作為尋優的問題解,并利用群集智慧的思想,共同協作實現群體最優。每只鳥即一個粒子,在一個D維空間內進行個體和群體的尋優搜索,假設有N個粒子,粒子i的位置為

li=(li1,li2,…,liD)

(4)

每個粒子是否處于最佳位置,需要通過適應度函數f(x)進行判斷。對粒子賦予記憶功能,并記錄歷史搜索的最佳位置為

zbesti=(zi1,zi2,…,ziD)

(5)

其中,種群所經歷的最優位置為

gbesti=(g1,g2,…,gD)

(6)

在飛行搜索中每個粒子均具有一個速度vi=(vi1,vi2,…,viD),該速度決定了飛行搜索的距離和方向。根據自身及群體的飛行搜索情況對其速度進行動態調整,則粒子i的第d維速度與位置更新表達式為

(7)

(8)

式中:c1和c2分別為個體及群體的調節學習最大步長;r1和r2為隨機數,通常取值范圍為[0,1];ω為慣性權重。

3.2 改進孤立森林算法

根據選擇性集成思想,通過粒子群算法在孤立森林中選擇出精準度高、差異度大的孤立樹子集。做出上述選擇的原因在于:識別異常用電行為是一種基于投票的分類集成思想,低精度的孤立樹可能會對結果產生誤導;而差異度較大的孤立樹能夠互補不同個體間的學習信息,進一步增加孤立森林的泛化能力。為了平衡精準度和差異度的需求,建立適應度函數為

(9)

圖4 ROC曲線Fig.4 ROC curve

差異度采用漢明距離[14-16]進行評價,即比較兩個孤立樹集合之間對于相同樣本不同標記的個數,不同標記的個數越多,兩棵孤立樹之間的差異度就越大。為了消除量綱的影響,將評價指標映射到[0,1]范圍內,則有

(10)

式中:n為樣本數量,且T={s1,s2,…,sn};s=0或1,1和0分別表示識別正確及錯誤的樣本;D(Ti,Tj)為孤立樹Ti與Tj的漢明距離。Q越接近1表示差異度越大。

通過適應度函數計算粒子的適應度值,并更新粒子群的位置。將每個粒子維度對應到孤立森林的孤立樹中,并將孤立樹進行二進制編碼,‘1’表示選擇該孤立樹,‘0’表示未選擇。基于粒子群的改進孤立森林算法流程如圖5所示。最終輸出最優的孤立樹子集,其能夠同時滿足較高的精準度及差異度,可以直接用于用電行為數據的異常分析計算。

圖5 改進孤立森林算法流程Fig.5 Flow chart of improved isolated forest algorithm

4 實驗驗證分析

本實驗抽取某市近一個月的竊漏電用戶數據和部分正常用戶數據,兩類用戶共計3 910戶,其中異常的有148戶,占比3.79%。數據中包含用戶電力負荷、線損率及終端報警等信息。同時,實驗集成開發環境則采用Pycharm的Python 3.8.3。

由于在用戶負荷抽取中存在缺失值,因此本實驗采用拉格朗日插值法對該值填充,填充表達式為

(11)

填充完數據后便可進行特征提取,樣本示例如表1所示。

表1 特征提取后的樣本示例Tab.1 Sample demonstration after feature extraction

構建孤立森林模型有兩個重要參數:孤立樹棵數和采樣數。采用學習曲線的方法進行參數確認,結果如圖6、7所示。由圖6可知,孤立樹的棵數大于140之后,AUC值均較為接近,且在0.925上下波動;而采樣數在大于200時,AUC值約為0.93,之后則隨著采樣數的增加略有下降。因此,本文兩參數取值分別為140和200。接著再確定適應度函數α和γ的值,由于精準度與差異度同等重要,故α和γ均取值0.5。采用網格搜索的方法對粒子群進行調參,參數結果如表2所示。

表2 粒子群參數Tab.2 Particle swarm parameters

圖6 不同孤立樹棵數的AUC值Fig.6 AUC value of different isolated tree number

圖7 不同采樣數的AUC值Fig.7 AUC value of different samples

對改進孤立森林、傳統孤立森林和K-means聚類算法的精準度進行對比,結果如圖8所示。從圖8中可以看出,在148戶異常用戶中,3種算法分別識別出了133戶、126戶和99戶異常用戶,且改進孤立森林算法的真正率高達89.86%,從而大幅降低漏檢的風險性。而在3 762戶正常用戶中,3種算法識別出的異常用戶分別為194戶、243戶及350戶,且改進孤立森立算法假正率僅為5.16%,有效地降低了誤檢的可能性。由此說明,改進孤立森林算法的AUC值高于孤立森林及K-means聚類算法,能夠更為精準地識別出異常用戶。

圖8 不同算法的AUC值對比Fig.8 Comparison of AUC values of different algorithms

3種算法的執行效率對比情況如表3所示。其中孤立森林類算法由于省去了計算距離、密度指標所帶來的時間消耗,故其執行效率遠高于K-means聚類算法。而改進孤立森林則在原始孤立森林的基礎上,進一步采用粒子群算法選出了精準度高且差異度較大的最優孤立樹子集,從而減少了孤立森林的規模,且其執行效率約為傳統孤立森林的3倍。由此證實了改進孤立森林在異常用電行為識別上的優越性。

表3 3種算法的計算時間Tab.3 Computation time of three algorithms

5 結 論

本文提出了一種基于粒子群算法的改進孤立森林識別模型。通過提取樣本特征反映異常用戶的用電行為,并平衡精準度和差異度建立適應度函數,再結合學習曲線與網格搜索方法優化了模型參數。實驗結果表明,改進孤立森林算法在異常用電行為識別上的真正率及假正率均優于對比算法,故其漏檢和誤檢率更低,而且執行效率更高,因此具有更為理想的識別效果。未來將考慮通過其他的優化算法對孤立森林進行改進,以期進一步提升對異常用電行為的識別精度。

猜你喜歡
差異用戶
相似與差異
音樂探索(2022年2期)2022-05-30 21:01:37
找句子差異
DL/T 868—2014與NB/T 47014—2011主要差異比較與分析
生物為什么會有差異?
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
M1型、M2型巨噬細胞及腫瘤相關巨噬細胞中miR-146a表達的差異
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 国产区免费精品视频| 久久黄色免费电影| 国产成人高清精品免费软件| 在线精品视频成人网| JIZZ亚洲国产| 亚洲欧洲综合| 99视频免费观看| 人妻21p大胆| 午夜精品久久久久久久无码软件| 亚洲h视频在线| 国内精自线i品一区202| 午夜爽爽视频| 四虎亚洲国产成人久久精品| 九九久久精品免费观看| 日韩不卡免费视频| 国产精品美女免费视频大全| 一本久道久久综合多人| 丝袜亚洲综合| 操美女免费网站| 99久久亚洲综合精品TS| 亚洲精品在线观看91| 免费a级毛片18以上观看精品| 国产高清不卡| 2022国产无码在线| 99久久精品免费看国产电影| 欧美精品导航| 91小视频在线观看| 亚洲国产精品日韩欧美一区| 国产午夜福利亚洲第一| 高潮毛片免费观看| 久久国产乱子伦视频无卡顿| 欧美高清国产| 国内精品小视频在线| www.91在线播放| 免费观看男人免费桶女人视频| 亚洲一区二区三区中文字幕5566| 国产成人乱码一区二区三区在线| 女高中生自慰污污网站| 日本爱爱精品一区二区| 在线免费无码视频| 国产欧美日韩免费| 日韩东京热无码人妻| 国产欧美性爱网| a亚洲视频| 狠狠色香婷婷久久亚洲精品| 爱色欧美亚洲综合图区| 亚洲精品中文字幕午夜| 一级片免费网站| 91在线国内在线播放老师| 国产精品专区第1页| 992tv国产人成在线观看| 亚洲AⅤ永久无码精品毛片| 亚洲一区国色天香| 国产激情无码一区二区APP | 影音先锋丝袜制服| 亚洲国产高清精品线久久| 国产成人亚洲日韩欧美电影| 欧美亚洲日韩中文| 97超碰精品成人国产| 毛片网站在线看| 精品国产一区二区三区在线观看| 99视频在线精品免费观看6| 免费日韩在线视频| 91精品久久久无码中文字幕vr| 香蕉视频在线观看www| 欧美日韩在线亚洲国产人| 天天视频在线91频| 国产精品第三页在线看| 97人人模人人爽人人喊小说| 波多野结衣无码AV在线| 日韩成人在线网站| 亚洲日韩图片专区第1页| 免费高清a毛片| 日本爱爱精品一区二区| 久久久久亚洲av成人网人人软件| 一本久道久综合久久鬼色| 992tv国产人成在线观看| 欧美国产精品不卡在线观看| 成人亚洲天堂| 97狠狠操| 91高清在线视频| 亚洲欧洲日韩综合色天使|