999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

模式聚類與周期分解的能耗監測及異常檢測方法

2023-11-18 04:31:20金靜方園費洋魏源
電測與儀表 2023年11期
關鍵詞:檢測方法

金靜,方園,費洋,魏源

(1.西安市軌道交通集團有限公司,西安 710018; 2.南瑞軌道交通技術有限公司,南京 210061)

0 引 言

隨著智慧城軌的發展,城市軌道交通大多配備了智能電能表,獲取到足夠多可用于數據分析的時間序列數據。軌道交通耗電量巨大,國內主要城市平均每公里單個車輛的牽引能耗范圍在1.8 kW·h~1.9 kW·h,每個車站年平均照明用電為150萬kW·h~250萬kW·h[1]。根據國家政策要求,減少能耗排放、降低地鐵電能損耗有積極的作用。用電能耗異常檢測能幫助地鐵維修人員快速定位異常、進行故障檢測和維修,并降低不必要的資源損耗。時間序列數據在各方面都有體現,如傳感器[2]、物聯網數據[3]、心電圖[4]等。異常檢測在設備故障診斷[5]、入侵檢測[6]等方面都有應用。針對地鐵能耗數據的異常檢測方法也可以運用到更多的相似問題上。

時間序列異常檢測是現今一個熱門話題,其中一大研究課題是異常分類。文獻[7]將時間序列異常分為空間異常和時間異常。文獻[8]將其分為點異常、條件(上下文)異常和組異常,這也是目前在大多數論文中使用的分類方法。文獻[9]提出了一種行為驅動的分類方法來進行更細致劃分,此文獻將異常分為點異常和模式異常(見圖1),其中全局異常和上下文異常都屬于點異常,模式異常又可細分為季節異常、形狀異常和趨勢異常。異常通常定位于特定的場景中,文中使用點異常和模式異常這種分類方法,且著重于點異常的檢測,其中相比于全局異常,上下文異常檢測較為困難。

圖1 異常類型

由于時間序列的復雜性和多變性,異常檢測尤為困難。此外,不同領域數據的多樣性也增加了實現通用異常檢測方法的難度。近年來,由于研究目的和異常點標記的不同,大多數檢測算法是無監督的。基于簡單統計的異常檢測方法(如3sigma、箱型圖等)計算快速、簡單,但是并不適用于時間序列。子序列聚類等不一致性分析方法可以檢測出子序列間的異常,但會丟失局部時間信息,難以檢測出上下文異常。基于預測的方法包括統計自回歸方法(如VAR、ARIMA[10])和深度學習方法(自編碼器[11]、多元卷積[12]、RNN[13]等)。文獻[8]總結了用于異常檢測的深度學習框架并將其分為三類:用于一般特征提取的深度學習、用于正態性表示的學習和端到端異常評分學習。深度學習方法中模型準確性受異常值影響較大,需要正確的訓練數據。文獻[14]提出一種基于時間序列相似性的統計方法ESD(extreme studentized eeviate)。在此基礎上,文獻[15]提出S-ESD(seasonal ESD)和S-H-ESD(seasonal hybrid ESD)算法,利用季節分解來搜索異常。然而異常值的存在會影響分解后當前季節分量和鄰居季節分量,季節曲線有向周圍季節靠攏的趨勢,正常值會被誤判為異常值。

異常檢測是一個復雜的問題,具有異常未知、異常不規則、類別不平衡、異常類型不同等特點[8]。為解決上述問題,文章將時間序列異常檢測算法和聚類相結合[16-17]。聚類是一種無監督算法,可以分為基于劃分的方法(K-means[18-19]、K-shape[20]等)、基于模糊的方法[21]、基于密度的方法(DBSCAN,density-based spatial clustering of applications with noise[22])、基于層次的方法等。其中K-means的廣泛應用得益于其計算的簡單快速,但需要給出聚類的數量,初始聚類中心點的選取也會影響聚類結果,并且基于劃分的算法受異常值的影響較大。DBSCAN可以劃分出邊緣點,對異常點具有魯棒性,但該方法對超參數有很大的依賴性,需要設置聚類半徑和最小聚類數。此外,在計算過程中可能會將多個聚類合并為一個聚類,這是該算法的優點,而在缺乏細致調參的情況下也是算法的不足。密度峰值聚類算法(density peaks clustering,DPC)[23-24]通過計算獲取數據的密度峰值點,適用于文中的情況。

除了一般時間序列特征外,地鐵能耗數據還具有以下特點:

1)數據復雜多變且隨機性大,除節假日影響外還與當日的天氣、周圍是否有大型賽事、是否有交通管控等多種因素有關;

2)數據具有一定的季節性,可以表現為天、周、月、季度、年周期性;

3)隨著日升日落季節氣候的變化,周期會沿著時間方向有一定的前后推移;

4)某些特定周期模式的出現并不連續,具有稀疏性和偶發性。

地鐵能耗異常檢測需要滿足的要求如下:

1)盡可能多地檢測出點異常。對于模式異常,若只在上下文顯示異常而全局存在相同模式,則不認為是異常;

2)減少假陽性誤報率;

3)某些特殊日期會有提前開站和延遲關站的情況,這不應被視為異常。

針對上述問題,文章提出了基于模式聚類與周期分解的能耗異常檢測方法,使用子序列密度峰值聚類劃分相似模式簇集,減少檢測的假陽性;分別在聚類簇中使用S-H-ESD檢測異常,在重構誤差基礎上計算異常分數,用以輔助異常評判,提高檢測的準確性。實驗結果表明,所提算法得到了較為理想的效果,能夠實現復雜周期數據的異常檢測。

1 時間序列聚類

在原始數據上尋找異常時,由于周期模式不同,相同波動值的小異常在低量級上更容易被觀測到,但是在全局大數據量背景下容易被忽略。若按原始數據大小為基準判斷異常程度,則會放大低量級上的異常,而大量級上實際大變化值的異常程度會降低。在這種權衡下,先對時間序列進行模式聚類較為有效。

1.1 密度峰值聚類算法

密度峰值聚類算法根據數據的聚集程度將數據分為三種類型:峰值點、異常點和普通點。該算法基于兩個假設:一是聚類中心相距較遠;二是聚類中心的局部密度大于相鄰區域。關鍵計算分為局部密度ρ和相對距離δ兩個步驟。總步驟如下:

1)計算出各個點間的二維距離矩陣。

2)計算局部密度ρ。

對于文章的離散數據,局部密度可用截斷距離范圍內點的個數表示。

ρi=∑i≠jχ(dij-dc)

(1)

式中dij為點i到點j的距離;dc為給定的截斷距離;χ為一個二值函數,表示為:

(2)

3)計算相對距離δ。

(3)

若當前點為局部密度最大值,則相對距離為當前點到最遠點的距離;否則相對距離為局部密度大于當前點中與當前點最近的距離。

4)找聚類中點。

根據步驟2)和步驟3)得到的結果,可以畫出橫縱坐標分別是局部密度和相對距離的二維決策圖。其中,聚類中心有較大的局部密度和相對距離,在決策圖的右上角;離群點局部密度較小但有較大的相對距離,在圖的左側。根據相對距離的計算(式(3))可以看出,局部密度最大點的相對距離較其它點有較大飛躍,選擇斜率遞減的遞增函數來處理相對距離,在此使用負指數冪函數y=x-2。將處理后的局部密度和相對距離的乘積f(式(4))作為評判標準,數值越大,聚類中心點的可能性就越大;數值越小,極有可能是異常點。

(4)

5)聚類劃分。

根據計算的聚類中點和截斷距離劃分聚類簇有多種方法:使用廣度優先搜索劃分聚類簇,將相連聚類劃分為一個簇;根據點與聚類中心的距離直接劃分簇,文中采用這種方法。

1.2 距離度量

歐幾里得距離[25]是最經典、最常用的聚類度量方法,但它在高維數據上表現效果不佳。適用于計算高維數據相似度的距離度量包括余弦相似度、互相關(cross-correlation function,CCF)、Pearson相關系數[26]等,其中余弦相似度不考慮數據值的大小,而偏重于關注數據的變化。

對于數據偏移,一種方法是使用具有動態矯正的距離公式,如動態時間規整DTW(dynamic time warping)[27],這種方法適用于橫向拉伸數據的矯正,但計算復雜度較高;另一種方法是公式中加入偏移變量,將原始距離計算變為循環對齊的距離計算,這種方法適用于數據的整體相位偏移。由于數據偏移較小,文中采用改進的基于形狀的距離SBD(shape-based distance)即循環互相關方法進行距離度量。循環方法保持一個序列靜止,另一個序列首尾相連沿順時針或逆時針方向轉動,如圖2所示,i和-i時刻的序列首位分別為yi和yd-i+1。

圖2 循環序列

改進的SBD方法得到的序列距離表示為:

(5)

式中d為數據維度,使互相關函數SBD取最小值的i是相位偏移距離。

2 時間序列異常檢測與S-H-ESD算法

為了充分利用序列的時間信息,文章使用S-H-ESD檢測聚類簇內的異常。S-H-ESD是一種基于統計分析模型的輕量級計算方法,它不需要標簽學習且計算速度快。

2.1 S-H-ESD算法

S-H-ESD是ESD方法的改進,使用STL(seasonal trend decomposition procedure based on loess)周期分解。STL將時間序列數據Y分解為三部分:季節分量(seasonal)、趨勢分量(trend)和余項(residual),適用于多周期循環數據。季節分量表示數據的周期性,趨勢分量是數據整體的趨勢變化,余項則是數據擾動。用中位數替代趨勢分量得到修改后的余項公式Rd,如下所示:

Y=S+T+R

(6)

Rd=Y-S-median(Y)

(7)

中位數較均值和方程對異常值具有魯棒性,S-H-ESD使用絕對值偏差中位數(MAD,median absolute deviation)來解決異常數據敏感問題。

(8)

式中c為高斯分布中置信度為0.75的左單側置信上限。

在每一輪中選取與中位數偏差最遠的余項作為異常候選值,并從現有數據中刪除當前點。

(9)

式中Rdi為第i輪(i=1,2,3…)剩余的余項數據。

為了判斷當前點是否為異常,根據置信度?計算臨界值λ。

(10)

式中ppfT(1-p,n)是顯著性水平為p、自由度為n的t分布的左單側置信上限。若Ri大于臨界值,判定該點異常。

算法流程總結如下:

1)輸入最大異常個數M和置信度?;

2)STL將原數據分解為季節、趨勢和余項分量;

3)根據式(7)計算得到修改后的余項Rd;

4)根據式(8)和式(9)計算剩余數據MAD和與均值偏差最遠的余項Ri,并將Ri從數據中刪除;

5)根據式(10)計算剩余數據臨界值λi,若Ri>λi則該點為異常點;

6)當迭代次數達到M時停止,否則轉到步驟4)重復上述操作;

7)輸出異常點序列。

2.2 異常評分

S-H-ESD通過動態置信度選出異常偏差高的數據,也可使用下述評分函數輔助異常值篩選。

1)KNN評分。

最鄰近結點算法(K nearest neighbors,KNN)根據相鄰點的距離和狀態在每個聚類簇內評價異常值的異常程度,以S-H-ESD余項大小作為距離標準,相鄰點若為異常則狀態為積極,否則為消極。對每個異常點,分別找距離最近的k個點計算得分:

(11)

式中d為距離。若相鄰點為異常則加上得分,否則減去得分,最終得分越大表示異常程度越大。

2)高斯尾部概率規則。

高斯尾部概率規則[7](Gaussian tail probability)使用標準正態分布的右尾概率函數Q來評判異常程度,該方法可以根據異常偏差(即余項)從全局數據中找出短時間內連續出現大量異常的情況賦予高得分。

(12)

式中μw是窗口大小為w的偏差均值,μW和σW是窗口大小為W的偏差均值和方差,w<

3 評價指標與數據

3.1 聚類評價指標

聚類使用無標簽評判指標,根據數據本身的聚合程度評判聚類效果,包括輪廓系數和Calinski-Harabaz(CH)[28]。輪廓系數根據簇內點距和簇間點距各代表的聚合度和分離度評判結果好壞,取值范圍為[-1,1],結果越接近1效果越好。CH計算簇內協方差的數值,數值越大聚類效果越好。

3.2 異常檢測評價指標

異常檢測可看作異常二分類問題,根據分類混淆矩陣采取如下評價標準:

1)查全率(recall)。

(13)

2)查準率(precision)。

(14)

為了減少地鐵能耗異常的誤報率,權衡R和P,在保證查準率的前提下,力求最大的查全率,文章增加Fβ評價指標:

(15)

式中β<1,優先保證查準率,文中β設為0.8。

3.3 數據集

時間序列數據F=[s1,s2,...,sd],si對應i時刻數據,d為序列長度。序列中的點值為增量數據,是單位時間左開右閉區間中數據的累計值,并以區間左側時間為當前坐標。文章對4個地鐵站進行采樣,且每個地鐵站采樣四組能耗數據(共16組),以此展開研究。

實驗使用2021年7月—2022年1月廈門某地鐵線路上4個站點的能耗數據,包括兩個大客流量換乘車站和兩個非換乘車站。數據為24小時累計能耗數據,時間顆粒度為1小時,共有215天。

根據經驗,實驗標注了符合預期的異常數據,并選取四個與季節相關變化較大的數據序列,分別是牽引能耗、公共區域照明能耗、通風空調能耗和電扶梯能耗。

4 實驗分析

4.1 模式聚類實驗

在聚類前,為了防止異常值對距離計算的影響,對數據使用基于最小二乘法的Savitzky-Golay平滑濾波[29]。圖3是牽引用電使用DPC的模式聚類結果。其中圖3(a)是原始數據直接聚類后的結果,圖3(b)是對原始數據使用SBD循環相位矯正后再聚類的結果。實驗選取兩個聚類中點劃分簇集,在圖3中用純黑色點線標出。可以看出,雖然有相位偏移影響,實驗使用的聚類方法仍能找到相同的聚類中點,并且通過相位矯正后數據聚集程度更高,能夠實現更好的聚類效果。

圖3 聚類結果

從圖3中看出,地鐵從開站到關站基本處于高能耗狀態,凌晨處于低能耗狀態或停機狀態;高低能耗間有大約兩小時的過渡期;大部分能耗數據在5:00左右開始上升,在0:00左右趨近于0;少部分數據(2.3%)工作時間在6:00—次日1:00,有1小時的偏移。通過循環距離可以矯正相位偏移,從得到的二分類結果中可以看出第一種能耗模式最大值出現在早高峰和晚高峰時段;第二種模式在高低能耗狀態基本穩定,未見太大的能耗跳躍。

分別對16組地鐵能耗數據聚類與DBSCAN、K-means對比,取結果的平均值見表1。

表1 聚類結果對比

從表1中可以看出,文中的方法在照明、通風空調和電扶梯能耗上有較高的輪廓系數,在牽引和照明能耗上有較高的CH值,展現很好的聚類效果。與照明和電扶梯能耗相比,牽引能耗和通風空調能耗值更大,數據更有規律性,因此整體聚類準確度更高。

表1中序號1為牽引能耗;2為公共區域照明能耗;3為通風空調能耗;4為電扶梯能耗。

4.2 異常檢測

S-H-ESD設?置信度為0.04,最大異常點比例為5%。分別對原始數據和經過模式聚類后的數據使用S-H-ESD算法,得到的重構結果如圖4所示。原始數據和重構數據的差為S-H-ESD中的分解余項,即數據擾動,數據擾動越大則表示數據異常程度越大。圖4(b)數據以虛線為界分前后兩個模式簇,可以看出,直接周期分解原始數據在不同模式交界處有較大的重構誤差,而通過聚類后的重構數據更加貼合原始數據,表現數據周期波動的效果更好。

圖4 有無聚類的數據重構結果對比

分別對每份聚類數據使用S-H-ESD,并綜合聚類重構誤差整體評判數據的異常程度。圖5是牽引用電的異常結果。

圖5 牽引能耗異常檢測結果

可以看出原始數據的波動較大,模式較為多變。根據模式聚類后分解得到的重構誤差可以使用ESD篩選得到三處異常,第一處異常是在高峰期的突然置零,這可能是傳輸過程故障導致的數據丟失;第二處是突起的峰值點,為全局點異常;第三處是晚高峰時期的一段低能耗值。與雙側滑動窗口、線性自回歸模型(AR)、自回歸移動平均模型(ARIMA)和無聚類S-H-ESD結果作比較,評價指標平均值如表2所示。

表2 異常檢測實驗結果的評價指標

可以看出,本文提出的方法有較高的Fβ值,在查全率較高為0.798時可達到0.813的查準率,在地鐵能耗的實際應用中效果更好。

5 結束語

文章使用模式聚類和周期分解相結合的方法檢測地鐵能耗數據的異常,只在相同周期模式上考慮不同異常情況,屏蔽不同模式數據間的影響。DPC能夠篩選出合適的聚類中心點,根據此得到的聚類結果能更好反應數據間模式關系。S-H-ESD在聚類基礎上檢測出異常,與多種方法對比得到了較為理想的效果,適用于復雜周期模式的異常檢測。

該方法應用于離線數據,還有進一步改善的空間:將檢測方法運用到流數據上是今后可以繼續深入研究的方向。新到達的數據需要在每個聚類中都為異常才可判定為異常點,或自成一個新聚類。提供異常解釋算法,方便點對點錯誤糾察,減少誤報率。

猜你喜歡
檢測方法
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
學習方法
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
主站蜘蛛池模板: 国产97色在线| 久久精品人人做人人综合试看| 国产丝袜第一页| 亚洲六月丁香六月婷婷蜜芽| 免费一级毛片在线观看| 亚洲日韩日本中文在线| 欧美精品一区在线看| 国产亚洲欧美日韩在线一区| a级毛片在线免费观看| 婷婷五月在线视频| 欧美综合区自拍亚洲综合绿色| 国产一级毛片在线| 又爽又黄又无遮挡网站| 最新国产高清在线| 激情六月丁香婷婷四房播| 日本一本在线视频| 国产成人高清精品免费软件| 国产第八页| 毛片在线播放网址| 激情综合婷婷丁香五月尤物| 一本无码在线观看| 久久久久免费看成人影片| 亚洲香蕉在线| 欧美日韩午夜| 亚洲AV无码乱码在线观看裸奔| 一级毛片网| 久久久久九九精品影院| 亚洲综合第一区| 国产资源站| 日本在线免费网站| 谁有在线观看日韩亚洲最新视频| 国产欧美一区二区三区视频在线观看| 国产在线观看精品| 亚洲人成网站18禁动漫无码| 国产精品久久自在自2021| 狠狠操夜夜爽| 亚洲综合久久成人AV| 99re免费视频| 五月婷婷丁香综合| 亚欧乱色视频网站大全| 在线欧美日韩国产| www.av男人.com| 欧美va亚洲va香蕉在线| 久久久久青草线综合超碰| 白浆免费视频国产精品视频 | 国产一区二区色淫影院| 国产成人一区| 伊人色婷婷| 精品剧情v国产在线观看| 国产精品林美惠子在线播放| 亚洲中文字幕无码爆乳| 亚洲欧美在线综合一区二区三区| 亚洲精品午夜无码电影网| 国产第三区| 国产视频你懂得| 欧美成人第一页| 小13箩利洗澡无码视频免费网站| 激情六月丁香婷婷| 国产欧美日韩精品第二区| 在线观看无码a∨| 亚洲第一成人在线| 亚洲欧洲自拍拍偷午夜色无码| 伊人久久福利中文字幕| 久久黄色视频影| 色精品视频| 婷婷亚洲天堂| 亚洲色偷偷偷鲁综合| 蜜臀av性久久久久蜜臀aⅴ麻豆| 99久久精品久久久久久婷婷| 亚洲综合亚洲国产尤物| 五月婷婷丁香综合| 亚洲精品另类| 国产精品久线在线观看| 欧美精品高清| 久久国产乱子伦视频无卡顿| 国产日韩欧美中文| 美女国产在线| 中文无码伦av中文字幕| 国产午夜精品鲁丝片| 2022国产91精品久久久久久| 成人亚洲国产| 久久永久精品免费视频|