999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于信息熵的傳感器數據異常檢測方法

2018-10-19 05:34:30田黎明張冬梅
軟件 2018年9期
關鍵詞:檢測方法

田黎明,張冬梅

?

一種基于信息熵的傳感器數據異常檢測方法

田黎明,張冬梅

(北京郵電大學 網絡空間安全學院,北京 100876)

傳感器數據采集作為系統感知信息和獲取數據的重要手段,其數據的真實性和可靠性至關重要,數據異常檢測能提升數據的質量,挖掘出數據的潛在信息。基于分類、聚類等的檢測方法依賴于數據的空間相關性,且復雜度很高,不適用于智能家居等小型物聯網環境。基于數據距離的檢測方法適用于此場景,但是存在誤報率高的問題。針對這些問題,本文將傳感器滑動窗口內的數據值作為離散隨機變量,定義了數據流的信息熵,在此基礎上提出了一種通過計算滑動窗口內信息熵進而檢測數據異常的方法。模擬實驗表明,本文提出的方法能高效地檢測異常,并且有更高的檢測率及更低的誤報率,符合預期結果。

信息熵;滑動窗口;異常概率;異常檢測;時間相關性;統計特征

0 引言

傳感器作為系統感知信息和獲取數據的重要設備,在生態環境監測、工農業生產監控乃至國防軍工等領域都有廣泛的應用。由于傳感器部署區域不確定且設備資源有限,其易受到外界因素的干擾和破壞,故廣泛存在傳感器數據的不可靠性問題,如何保障和提高傳感器數據的質量是一個亟需解決的問題。

當前針對傳感器數據異常檢測的研究集中于無線傳感器網絡(WSN)環境[1]。在WSN環境下,為了提高系統整體的可用性,大量的無線傳感器被分散部署在能量和帶寬均受限的地區,這些傳感器節點密集組網、相互協作地提供數據服務。在該環境下可以利用不同傳感器節點數據流的時間與空間相關性進行異常檢測[2]。但是將這些檢測方法應用于一些智能家居或智能樓宇等小型物聯網環境時,由于環境中部署的同類型傳感器節點數量少,數據的空間相關性不足,基于空間相關性進行檢測不僅增加方法的復雜度,而且檢測效果也不理想。在該場景下,應綜合利用數據的時間相關性和統計特性對數據進行異常檢測。

本文結構如下:第一部分綜述傳感器網絡領域現有的數據異常檢測方法;第二部分介紹本文的相關定義;第三部分詳細闡述以信息熵為基礎的異常檢測方法的檢測原理和具體設計;第四部分通過實驗驗證方法的效果。

1 相關工作

無線傳感器網絡領域內的數據異常檢測方法主要分為以統計為基礎的、以距離為基礎的、以分類為基礎的和以聚類為基礎的。

文獻[3]提出通過計算數據的變寬直方圖進行異常數據檢測,即采用數據融合的技術將網絡中的動態數據聚合為變寬直方圖進而檢測出異常數據。文獻[4]提出一種基于假設數學統計模型和核密度函數的異常檢測方法。但該型方法需要傳感器數據分布的先驗知識,依賴于確定的數學模型,存在局限性,通用性弱。文獻[5~7]提出通過計算數據實例間的距離來判斷數據異常的方法,這種類型的方法便于理解和實現,但在檢測因開啟空調等引起數據正常變化的情況時存在誤報率過高的問題,有進一步改進算法的空間。文獻[8]提出一種基于SVM(Support Vector Machine)的異常檢測算法,該算法先使用訓練數據集來學習出一個分類模型,然后將數據實例分到所學習的類中,數據所屬的類數據較少時或不屬于任何分類時就被認為是異常數據。該算法需要較大的數據樣本作為訓練集,樣本的數量會成為算法的瓶頸,而且異常檢測的效果不理想。文獻[9]提出了一種基于K-means算法的異常檢測算法,該算法通過將相似的數據實例分到具有相似行為的數據簇中來實現對異常的檢測。該方法基于數據的空間相關性,未能引入和利用數據流的統計特征。文獻[10]提出一種通過結合K-means算法和FP增長算法進行異常檢測的算法,該方法先對數據建模,而后檢測異常數據。該方法聚類中心位置與數量的選擇對檢測結果有很大的影響,算法檢測效果不穩定,復雜度很高。文獻[11]提出了一種利用多模態數據流的相干性進行異常檢測的方法,該方法只適用于高數據維度的數據流,在數據維度低時的效果不好。文獻[12,13]提出基于分布式計算進行異常檢測的方法,該類型方法在大型分布式環境下具有良好的檢測效果,但是算法復雜不易實現,不適合部署在家居環境中。

在無線傳感器網絡領域,數據異常檢測常通過檢測數據之間的時間、空間相關性來實現。但是在特定的小型物聯網環境下,同類型傳感器節點數量不足,利用數據流的時序特征進行檢測有更好的效果。現有的基于距離的檢測方法適用于此場景,但是對數據流等距正常變化的場景存在誤報率高的問題。本文針對該場景和現有方法的缺陷,設計了一種基于信息熵的傳感器數據異常檢測方法。相比文獻中提及的方法,該方法不需要額外的傳感器節點提供數據,節省了通訊、存儲和計算的開支,并引入了滑動窗口,通過計算信息熵改進了在空調開啟時引起數據流等距變化等正常場景下的檢測,降低了誤報率。在單傳感器數據流的環境下,可高效準確地檢測到數據異常。

2 相關定義

即傳感器數據流的時間序列具有無限延展性,但傳感器節點的存儲空間和計算能力有限,故本文利用滑動窗口模型對數據流進行處理。

2.1 滑動窗口模型

2.2 信息熵

信息熵(Information entropy)是系統中數據有序程度的度量,和離散隨機變量出現概率相關,即一個系統越是有序,分布越集中,信息熵就越小,反之,一個系統越是混亂無序,分布越平均,信息熵就越大。通常在正常數據的鄰域里,數據有序且緊湊,信息熵保持穩定,而在異常數據的鄰域里,信息熵出現較大波動[14]。

2.3 數據距離

3 異常檢測算法

本文異常檢測的對象為單個傳感器節點,首先獲取一段時間內的數據序列,然后計算得到滑動窗口信息熵序列,再計算出滑動窗口內數據值異常概率和信息熵異常概率,最后通過計算聯合異常概率判斷數據流是否發生異常。當傳感器節點的聯合異常概率過高時,可以認為發生了數據異常。

對于一個溫度傳感器,其每天的溫度數據均遵循著相同的規律,溫度采樣值在此基礎上小幅波動。其數據值序列具有時序特征,在時間上存在相關性,信息熵序列反映了數據流的統計特征,具有統計特征的相關性。通過綜合計算數據值異常概率和信息熵異常概率,達到了綜合利用數據流的時間相關性及統計特征的目的,從而可以更加準確地檢測出異常數據。

3.1 滑動窗口信息熵序列計算

在抽樣概率的基礎上計算滑動窗口信息熵:

隨著窗口滑動,依次計算窗口數據的信息熵,故信息熵的時間序列可表示為:

3.2 異常概率計算

在文獻[15]中,Knorr EM等人提出一種通過計算數據對象之間距離進行異常檢測的方法,這種方法對數據異常的定義為:在數據集中,對于一個數據對象,在距離的圓內存在的數據對象數小于,則認為是異常。在每個檢測條件下都存在一個相鄰數據對象數閾值k且相互獨立,故難以在多個檢測條件下進行綜合判定。本文在上述基礎上,定義了異常概率與聯合異常概率,使之適用于多條件下異常的綜合判定,從而應用于數據流時間相關性及統計特征的綜合利用。

假設數據集中有個數據對象,若對于數據集中一個數據對象O,中存在個數據對象與對象的距離大于,則定義數據對象的異常概率p為/。其中取數據集的標準差

圖2 滑動窗口示意圖

如圖2所示,滑動窗口大小為5。對于數據對象7,在窗口內的鄰居對象為(3,4,5),不相鄰的對象為6,數據點7的數據值異常概率為20%。

3.3 異常判定

如果滿足下式,那么該測量值可能為異常數據。

4 仿真與實驗結果

4.1 實驗環境與評價指標

實驗環境:Intel Core 4代i5-4210H筆記本,8G內存,256G硬盤,操作系統為Windows 10,使用python軟件平臺對所提出的算法進行仿真分析。實驗數據來自于研究領域共同認可的英特爾伯克利研究所傳感器數據集,并通過向其中注入異常數據產生帶有數據異常標簽的數據流。實驗中滑動窗口的大小分別選擇為200、400、600、800和1000。

評價指標:本文選擇檢測率和誤報率作為算法的主要評價指標。檢測率TP(True Positive rate)是指算法檢測到的異常數據樣本數與實際的異常數據樣本總數的比值;誤報率FP(False Positive rate)是指算法將正常數據誤判為異常數據的樣本數與正常數據樣本總數的比值[16]。

4.2 檢測率與誤報率結果分析

本文設計的異常檢測算法綜合利用了數據流的時間相關性及統計特征,因此選擇將本文方法(方案1)與僅利用數據距離的檢測方法[6](方案2)以及僅利用信息熵距離的檢測方法(方案3)進行對比。分別基于方案1、方案2、方案3進行實驗,每次實驗時滑動窗口的大小分別設定為200、400、600、800和1000。實驗的檢測率對比結果如圖2所示,誤報率對比結果如圖3所示。

圖3 檢測率對比

圖4 誤報率對比

從結果中可以看出,方案1檢測率和誤報率的表現都優于方案2和方案3。在滑動窗口值起始較小時,隨著滑動窗口的增大,方案1的檢測率比方案2的提升幅度更大,誤報率也有更大幅度地下降。當滑動窗口增大到800后,方案1的檢測率和誤報率性能不再明顯提升,此時達到了該算法的瓶頸。從算法穩定性上看,隨滑動窗口的增大,方案1和方案3檢測率穩定上升,誤報率穩步下降,而方案2出現了一定的波動。基于上述實驗接軌,本文采用的方法有更高的檢測率、更低的誤報率和更佳的穩定性。

5 結論

本文針對智能家居傳感器等小型物聯網應用場景,結合現有的研究方法和成果,提出了一種基于信息熵的滑動窗口內異常檢測算法。該方法通過綜合利用單傳感器數據流的時間相關性及統計特征,可以更加準確地區分數據流的正常和異常變化,相比現有的僅利用數據距離進行判定的檢測方法,提高了檢測率的同時降低了誤報率。實驗結果表明,該方法在大數據規模下具有理想的檢測效果。該方法計算聯合異常概率時需要權重參數,未來需要對參數的選擇依據進行研究,進一步提升方法的檢測率,降低誤報率。

[1] Branch J W, Giannella C, Szymanski B, et al. In-network outlier detection in wireless sensor networks[J]. Knowledge and information systems, 2013, 34(1): 23?54.

[2] 崔莉, 鞠海玲, 苗勇等. 無線傳感器網絡研究進展[J]. 計算機研究與發展, 2005, 42(1): 163?174.

[3] 姜旭寶, 李光耀, 連朔.基于變寬直方圖的無線傳感器網絡異常數據檢測算法[J].計算機應用, 2011, 31(3): 694-697

[4] Samparthi V S K, Verma H K. Outlier Detection of Data in Wireless Sensor Networks Using Kernel Density Estimation[J]. International Journal of Computer Applications, 2010, 5(6): 28-32.

[5] 趙學良, 朱慶生. 基于距離的數據流離群點快速檢測[J].世界科技研究與發展, 2013, 35(4): 462-464.

[6] 龍瀅, 裘曉峰. 基于滑動窗口的單傳感器數據異常檢測[J]. 軟件, 2014, 35(12): 49-57

[7] Oussama Ghorbel, Walid Ayedi, Hichem Snoussi, Mohamed Abid. Fast and Efficient Outlier Detection Method in Wire-less Sensor Networks. IEEE Sensors Journal, 2015, 15(6): 3403 - 3411

[8] Zhang Y, Meratnia N, Havinga P J M. Distributed Online Outlier Detection in Wireless Sensor Networks Using Ellipsoidal Support Vector Machine[J]. Ad Hoc Networks, 2013, 11(3): 1062-1074

[9] Kiss I, Genge B, Haller P, et al. Data clustering-based anomaly detection in industrial control systems[C]//Proc of International Conference on Intelligent Computer Comm-unication and Processing. 2014: 275-281

[10] Elijorde F, Kim S, Lee J. A wind turbine fault detection approach based on cluster analysis and frequent pattern mining[J]. Ksii Transactions on Internet & Information Systems, 2014, 8(2): 664-677

[11] 費歡, 肖甫, 李光輝等. 基于多模態數據流的無線傳感器網絡異常檢測方法[J]. 計算機學報, 2017, 40(8): 1829- 1842.

[12] Wenjie Li, Francesca Bassi, Davide Dardari, Michel Kieffer, Gianni Pasolini. Low-complexity distributed fault detection for wireless sensor networks. IEEE International Conference on Communications (ICC). 2015.

[13] Wenjie Li, Francesca Bassi, Davide Dardari, Michel Kieffer, Gianni Pasolini. Iterative Distributed Outlier Detection for Wireless Sensor Networks: Equilibrium and Convergence Analysis. IEEE 54th Annual Conference on Decision and Control (CDC). 2015.

[14] 李少波, 魏中賀, 孟偉. 基于距離的數據流在線檢測算法研究[J]. 計算機應用研究, 2015, 32(12): 3579-3581.

[15] Knorr E M, Ng R T. Algorithms for Mining Distance-Based Outliers in Large Datasets[C]// International Conference on Very Large Data Bases. Morgan Kaufmann Publishers Inc. 1998: 392-403.

[16] 胡石, 李光輝, 馮海林. 基于Top-k(σ)的無線傳感器網絡異常數據檢測算法[J]. 南京大學學報(自然科學), 2016, 52(2): 261-269.

An Anomaly Detection Method of Sensor Data Based on Information Entropy

TIAN Li-ming, ZHANG Dong-mei

(School of Cyberspace Security, Beijing University of Post and Telecommunication, Beijing 100876, China)

As an important means to perceive information and obtain data, it is crucial to make sensor datas accurate and reliable. Data anomaly detection can improve the quality of data and the mining of potential information. The detection method based on classification and clustering relies on the spatial correlation of data, and the complexity is very high. It is not suitable for smart home and other micro IOT environments. Besides, the detection method based on data distance is suitable for this scenario, but it has a high false positive rate. In order to solve these problems, the data values in the sliding window of the sensor are used as discrete random variables, and then the information entropy of the data flow is defined. On this basis, a method of anomaly detection for data in sliding window based on information entropy is proposed. Simulation experiments show that the proposed method can detect anomalies efficiently and has higher true positive rate and lower false positive rate, which is in line with the expected results.

Information entropy; Sliding window; Anomaly probability; Outlier detection; Temporal correlation; Statistical characteristics

TP393

A

10.3969/j.issn.1003-6970.2018.09.015

田黎明(1993-),男,碩士研究生,主要研究領域:物聯網安全;張冬梅(1972-),女,副教授,博士,主要研究方向:物聯網安全、網絡安全與軟件安全。

本文著錄格式:田黎明,張冬梅. 一種基于信息熵的傳感器數據異常檢測方法[J]. 軟件,2018,39(9):69-73

猜你喜歡
檢測方法
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
學習方法
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
主站蜘蛛池模板: 欧美性色综合网| 国产丝袜91| 亚洲一区二区日韩欧美gif| 国产精品无码AV片在线观看播放| 中国国产A一级毛片| 亚欧美国产综合| 亚洲第一香蕉视频| 国产精品自在在线午夜区app| 国产超碰一区二区三区| 91福利在线观看视频| 99久久免费精品特色大片| 欧美精品亚洲精品日韩专区va| 老司国产精品视频| 麻豆国产精品| 欧美在线免费| 中文字幕无码电影| 九色91在线视频| 狠狠躁天天躁夜夜躁婷婷| 色哟哟国产精品一区二区| 国产成人久久综合777777麻豆| 国产网友愉拍精品视频| 国产高清自拍视频| 成人免费网站久久久| 精品国产乱码久久久久久一区二区| 日韩毛片基地| 欧美一级大片在线观看| 国产日韩AV高潮在线| 欧洲极品无码一区二区三区| 国产丰满大乳无码免费播放| 国产在线观看99| 日韩不卡免费视频| 免费一级毛片在线观看| 国产一区免费在线观看| 国产00高中生在线播放| 91精品专区国产盗摄| 成人亚洲视频| 亚洲浓毛av| 亚洲国产亚洲综合在线尤物| 成人免费视频一区| 日本a级免费| 亚洲一区网站| 欧美国产日韩在线观看| 亚洲综合亚洲国产尤物| 国产精品视频第一专区| 精品久久久久无码| 婷婷色在线视频| 啪啪免费视频一区二区| 亚洲乱伦视频| 国产精品亚洲精品爽爽| 亚洲无码高清免费视频亚洲| 色综合综合网| 欧美高清国产| 国产亚洲精品资源在线26u| 中文字幕欧美日韩| 国产激爽大片高清在线观看| 国产成+人+综合+亚洲欧美| 中文字幕丝袜一区二区| 久久96热在精品国产高清| 欧美激情首页| 久久久久无码精品| 国产色爱av资源综合区| 亚洲Av激情网五月天| 性色生活片在线观看| 国产成人艳妇AA视频在线| 国产精品内射视频| 午夜视频免费一区二区在线看| 永久天堂网Av| a免费毛片在线播放| 一本一道波多野结衣一区二区| a级毛片免费在线观看| av色爱 天堂网| 99性视频| 日韩最新中文字幕| 2021天堂在线亚洲精品专区| 欧美人人干| 3344在线观看无码| 2021国产乱人伦在线播放| 97在线碰| 人妻精品全国免费视频| 国产精品偷伦视频免费观看国产 | 999精品在线视频| 国产区免费|