999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于TLSmote-SVM的非均衡用戶竊漏電診斷算法

2021-01-18 08:14:24杜星秋溫東欣唐偉寧張洪明
吉林大學學報(理學版) 2021年1期
關鍵詞:分類用戶

劉 穎, 杜星秋, 溫東欣, 唐偉寧, 張洪明

(1. 吉林財經大學 管理科學與信息工程學院, 長春 130117;2. 國網吉林省電力有限公司 電力科學研究院, 長春 130021)

竊漏電行為是電力系統檢測的重點, 目前的反竊電方法主要為人工檢測, 存在工作量大、 效率低、 取證困難和缺乏針對性等問題. 機器學習源于統計模型擬合, 目前, 應用機器學習技術診斷竊漏電行為的方法主要有邏輯回歸[1]、 聚類分析[2]和深度學習[3]等. 支持向量機(support vector machines, SVM)作為一種經典的模式識別方法, 具有泛化能力強、 結構簡單, 易解決具有高維度、 小樣本等問題的優勢. 將支持向量機技術應用于竊漏電行為的檢測目前已有很多研究結果[4-6]. 竊漏電用戶用電檢測過程中, 異常用戶數量通常只占少數, 導致獲取的數據樣本存在嚴重的分布不均衡現象. SVM分類算法大多都基于正負類樣本數量大致相同的假設, 在SVM訓練分類模型過程中, 樣本不均衡可能導致分類超平面偏移而影響分類精度.

針對非均衡數據分類問題, 通常采用兩種解決策略: 一種是改變分類算法, 在傳統分類算法的基礎上對不同類別采用不同的加權方式, 更看重少數類; 另一種是改變數據分布, 從數據層面平衡樣本類別, 主要包括隨機欠采樣和過采樣方法. 欠采樣算法是減少多數類樣本數量, 預先設置多數類與少數類最終的數量比例, 在保留少數類樣本不變的情形下, 根據比例隨機選擇多數類樣本. 例如: 韓旭等[7]采用高斯混合模型對多數類樣本進行聚類欠采樣消除樣本間的不平衡問題; 金旭等[8]先通過求解樣本間的歐氏距離, 再利用k-means算法在大類樣本集上進行聚類, 使數據集在分布上更均衡; Liu等[9]將EasyEnsemble 和BalanceCascade兩種算法相融合提取多數類樣本子集, 從而實現數據的再平衡. 通常, 欠采樣依賴于樣本分布, 但也容易丟失部分多數類樣本信息. 過采樣方法主要是通過增加少數類樣本數量, 即在保留多數類樣本不變的情況下, 隨機復制少數類樣本. 蔣宗禮等[10]利用變分自編碼器均衡訓練數據集; Estabrooks等[11]提出基于隨機過采樣算法彌補SVM缺失的代價敏感性; Chawla等[12]和張月平等[13]采用Smote算法借助少數類樣本及其鄰域樣本生成新數據, 提高算法分類性能. 過采樣方法操作簡單, 但重復樣本過多, 易導致分類器的過擬合問題. 因此, 解決非均衡問題, 既要考慮多數樣本的數據分布, 避免剔除多數樣本時丟失有用信息, 又要克服分類器過擬合現象[14-15]. 基于此, 本文提出一種將欠采樣和過采樣相融合的TomekLink-Smote(TLSmote)方法, 解決竊漏電非均衡檢測問題, 先利用Smote方法擴充少數類樣本, 同時考慮距離SVM分類超平面較近的樣本, 根據其重要度使少數樣本被反復學習; 再采用Tomek-link算法剔除多數類樣本并進行噪聲處理. 將本文算法應用于非均衡用戶竊漏電診斷實驗, 結果表明, TLSmote-SVM算法既能有效去除非均衡優化過程中產生的噪聲樣本, 提高數據的利用率, 又能在保留盡可能多有用信息的前提下實現樣本均衡, 有效提高竊漏電用戶的檢測精度.

1 基于TLSmote算法的SVM竊漏電診斷模型

1.1 支持向量機

支持向量機是在特征空間中尋找一個將兩類樣本分隔的超平面, 且樣本與超平面的距離盡可能大. 設正負樣本與超平面的距離為

(1)

給定樣本x, 若使對應的y與距離的計算同號, 則

(2)

其中yi∈{+1,-1}為分類標記,b表示偏移量. 將其代入式(1)可得

(3)

SVM的核心思想是使γ盡可能大, 即‖w‖/2最小:

(4)

采用Lagrange乘子法得到其對偶問題為

(5)

求導解出w和b, 即可得到所求超平面.

支持向量機常用的核函數有線性核函數、 多項式核函數、 高斯核函數和Sigmoid核函數, 常用的參數包括核函數選擇參數Kernel、 懲罰參數C、 多項式維度參數Degree、 核函數參數Gamma、 核函數常數項coef0、 最大迭代次數max_iter等. 為比較不同核函數及參數取值對支持向量機分類精度的影響, 本文隨機抽取部分用戶用電數據, 在樣本均衡的情形下, 比較4種核函數的分類超平面變化情況. 圖1為SVM在線性核函數和高斯核函數下不同參數取值的分類結果. 由圖1可見, 不同核函數及參數取值對分類精度有較大影響, 根據實驗結果, 本文模型選用高斯核函數.

圖1 SVM在線性核函數和高斯核函數下不同參數取值的分類結果Fig.1 Classification results of SVM with different parameter values under linear kernel function and Gaussian kernel function

1.2 TomekLink-Smote算法

傳統Smote算法生成新的少數類樣本平衡數據類別時, 首先隨機選擇少數類樣本n, 從其最近鄰中隨機選取一個樣本m, 然后在n和m之間的連線上隨機生成一個樣本點作為新樣本. 通常, Smote算法忽略了少數類樣本類內不平衡現象的存在, 并易受噪聲影響. 當不平衡度較高時, 合成的新少數類樣本點會與原始數據高度相似, 甚至重復, 很難為分類器提供新的分類信息. Tomek-Link的基本思想是: 少數類樣本x與多數類樣本y, 如果不存在另外一個多數類樣本z, 使得d(x,z)

1.3 基于TLSmote算法的SVM分類模型

本文首先對樣本集進行預處理并對其屬性降維, 將欠采樣Tomek-Link與過采樣Smote算法相結合, 對二分類非均衡樣本集進行類別補全并剔除噪聲, 最后選擇不同正負比例的樣本對SVM進行訓練與測試, 比較最終分類的精度. TLSmote-SVM算法如下.

算法1TLSmote-SVM算法.

步驟1) 處理數據缺失值和異常值, 將數據歸一化;

步驟2) 根據協方差矩陣計算特征值和特征向量, 保留前4個特征向量;

步驟3) 利用Smote算法隨機選定n個少數類樣本, 采用歐氏距離計算距離最近的m個樣本, 在兩點間選定中間點作為新增樣本點, 使得少數類與多數類樣本數量均衡;

步驟4) 用TomekLink判定新增樣本點是否為有效點, 若有效, 則判定新增樣本為非噪聲樣本, 轉步驟5); 否則, 剔除噪聲樣本后重復步驟3)和步驟4), 直至正負樣本比例平衡;

步驟5) 初始化SVM分類器, 選擇高斯核函數, 參數C和Gamma取默認值, 利用測試集訓練SVM;

步驟6) 輸出準確率與精確度.

2 實驗結果與分析

2.1 數據來源

本文所用數據來自國網吉林省電力有限公司電力科學研究院, 數據包含2014—2017年吉林省某地區用電負荷數據, 數據規模為439 409條, 包括12個字段, 分別是用戶序號、 用戶類型、 供電電壓、 合同容量、 運行容量、 綜合倍率、 日期、 總用電量、 平時段用電量、 峰時段用電量、 尖時段用電量、 谷時段用電量. 通常, 竊電用戶通過篡改電表使電表用電負荷為零或小于其實際用電負荷, 圖2和圖3分別為正常用戶(編號為A01,A306,D081)和竊漏電用戶(編號為D8,C52,C17)使用電量的數據曲線.

圖2 正常用戶用電數據Fig.2 Electricity consumption data of normal users

圖3 異常用戶用電數據Fig.3 Electricity consumption data of abnormal users

2.2 數據預處理

本文用數據缺失值填補、 數據異常值處理以及數據歸一化3個步驟對電網數據進行預處理.

2.2.1 缺失值處理

當時間序列數據出現大量缺失值時, 缺失值的整體填充會引入噪聲. 為避免該問題, 本文首先剔除缺失量達50%的數據樣本, 同時對少量缺失值用下列均值填充的方法:

(6)

其中D表示缺失時間段用電量的均值,data1和data2分別表示缺失段后端和前端電表示數,num表示缺失段天數.

2.2.2 異常值處理

若用戶用電量數據中20%以上為負值, 則刪除該序列; 若少于20%為負值, 則視為缺失值, 對缺失值的處理同上.

2.2.3 數據歸一化

用歸一化消除不同量綱下的數據表示:

(7)

其中X表示數據歸一化前的原始數值,Xmax表示數據歸一化前所在維度下所有值的最大值,Xmin表示數據歸一化前所在維度下所有值的最小值,X*表示歸一化的特征值.

2.3 特征構建與降維

特征構建是檢測異常數據的關鍵, 本文分別按每日用電量、 每15 d用電量(當日及其后連續14 d用電量)對該數據集中所包含時間序列的特征進行提取. 10個特征分別是日用電量均值E_MEAN、 日用電量標準差E_STD、 日用電量方差E_VAR、 日用電量變異系數E_CV、 日用電量偏度E_SKEW、 每15 d用電量標準差系數均值FT_MEAN、 每15 d用電量標準差系數標準差FT_STD、 每15 d用電量標準差系數方差FT_VAR、 每15 d用電量標準差系數變異系數FT_CV、 每15 d用電量標準差系數偏度FT_SKEW等, 特征指標列于表1.

表1 特征指標Table 1 Characteristic indexes

從已知樣本中抽取20個用戶作為測試集, 從剩余樣本中抽取180條數據作為訓練集, 計算10個維度的特征值, 經主成分分析(PCA)得出貢獻度在10%以上的特征有4維, 實驗選取貢獻度前4維度指標訓練SVM分類器, 總方差解釋列于表2.

表2 總方差解釋Table 2 Total variance interpretation

2.4 不同樣本比例下分類器的比較分析

本文采用基于高斯核函數和TLSmote-SVM算法檢測國電網吉林省某地區非均衡竊漏電用戶, 并與傳統SVM, Smote-SVM算法進行對比. 利用混淆矩陣的準確度和精確度作為評價指標, 其中TN表示被正確識別的負類樣本, FP表示被錯誤識別的負類樣本, FN表示被錯誤識別的正類樣本, TP表示被正確識別的正類樣本, 準確度為

(8)

精確度為

(9)

實驗中, 取懲罰函數C=1.0, Gamma=0.1, 分類準確度和精確度結果列于表3. 由表3可見: 在樣本比例均衡情形下, SVM與TLSmote-SVM算法的準確度(0.84)相同, Smote-SVM和TLSmote-SVM算法的精確度高于SVM算法; 當樣本比例達7∶3時, TLSmote-SVM算法的準確度(0.92)和精確度(0.90)均高于Smote-SVM算法的準確度(0.88)和精確度(0.85), 更高于傳統SVM算法. 實驗結果表明, 本文方法在檢測用戶異常用電時更有效. 由表3還可見, 當樣本比例為8∶2和9∶1時, 3個模型的精確度和準確度相同, 說明當樣本出現極度不均衡時, 重采樣方法效果不佳.

表3 不同樣本比例的SVM模型分類準確度和精確度比較Table 3 Comparison of classification accuracy and precision of SVM models with different sample proportions

綜上所述, 本文以國電網吉林省某地區用戶用電數據為例, 分析了用戶用電過程中涉及的影響因素, 選取日用電量均值E_MEAN、 日用電量方差E_VAR、 日用電量標準差E_STD、 日用電量變異系數E_CV、 日用電量偏度E_SKEW、 每15 d用電量標準差系數均值FT_MEAN、 每15 d用電量標準差系數方差FT_VAR、 每15 d用電量標準差系數標準差FT_STD、 每15 d用電量標準差系數變異系數FT_CV、 每15 d用電量標準差系數偏度FT_SKEW作為特征指標體系. 針對傳統SVM分類器在處理非均衡數據時分類平面向少數類偏移而導致分類精度較低的問題, 提出了一種將Tomeklink欠采樣和Smote過采樣相融合的方法, 避免了欠采樣過程中剔除多數樣本時導致有用信息缺失以及克服Smote過采樣產生的過擬合問題, 模型使用支持向量機作為基分類器. 將TLSmote-SVM模型應用于竊漏電非均衡檢測問題, 實驗結果表明, 在竊漏電樣本非均衡分布時, 模型檢測效果較好.

猜你喜歡
分類用戶
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
給塑料分分類吧
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
主站蜘蛛池模板: 久久窝窝国产精品午夜看片| 亚亚洲乱码一二三四区| 国产成人亚洲毛片| 五月婷婷丁香综合| 夜夜高潮夜夜爽国产伦精品| 色视频国产| 亚洲精品不卡午夜精品| 99久久精品国产自免费| 91福利国产成人精品导航| 精品精品国产高清A毛片| 亚洲国产成人在线| 亚洲精品制服丝袜二区| 日韩欧美91| 国产幂在线无码精品| 欧美h在线观看| 一级毛片免费高清视频| 91精品国产91久久久久久三级| 精品人妻一区无码视频| 亚洲欧美日韩中文字幕在线一区| 中文字幕日韩丝袜一区| 激情乱人伦| 国产精品成| 国产精品部在线观看| 日韩毛片基地| 久久青草视频| 国产成人AV综合久久| 9久久伊人精品综合| 无码综合天天久久综合网| 色综合久久久久8天国| 国产特一级毛片| 色综合热无码热国产| 亚洲av无码片一区二区三区| 狠狠亚洲五月天| 国产00高中生在线播放| 88国产经典欧美一区二区三区| 免费在线一区| 91精品国产无线乱码在线| 精品国产91爱| 欧美国产在线看| 欧美一区二区精品久久久| 国产乱人免费视频| 久久国产精品波多野结衣| 色天天综合| 青草精品视频| 免费观看国产小粉嫩喷水| 天天综合网色中文字幕| 丁香五月亚洲综合在线| 日本免费新一区视频| 91精品综合| 在线观看精品国产入口| 日韩av无码DVD| 91美女视频在线| 久热re国产手机在线观看| 亚洲无码高清免费视频亚洲| 国产欧美又粗又猛又爽老| 青青草91视频| 91精品国产91久久久久久三级| 欧美成人手机在线观看网址| 熟女日韩精品2区| 国产成人8x视频一区二区| 91成人在线观看| 激情无码视频在线看| 成人在线亚洲| 干中文字幕| AV片亚洲国产男人的天堂| 午夜三级在线| 午夜国产理论| 国产在线精彩视频二区| 无码精油按摩潮喷在线播放 | 美臀人妻中出中文字幕在线| 男人天堂亚洲天堂| 国产精品女同一区三区五区| 91视频99| 亚洲人成网站在线播放2019| 色综合婷婷| 国产91精品久久| 国产一区二区三区夜色| 亚洲精品大秀视频| 精品成人一区二区| 国产精品主播| 91美女视频在线观看| 亚洲欧美日本国产综合在线|