999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于信息增益的高維數據的異常檢測算法

2021-11-22 04:04:10閻少宏葛子軒史冰冰
新一代信息技術 2021年18期
關鍵詞:檢測信息

陳 曉,閻少宏,葛子軒,史冰冰

(1. 華北理工大學 理學院,河北 唐山 063210;2. 河北省數據科學與應用重點實驗室,河北 唐山 063210;3. 唐山市數據科學重點實驗室,河北 唐山 063210;4. 華北理工大學 電氣工程學院,河北 唐山 063210;5. 華北理工大學 人工智能學院,河北 唐山 063210)

0 引言

異常存在于各個領域,比正常攜帶的信息更多也更為重要,這些信息可能是災難性后果的預警或者標志,及時檢測出異常尤為重要[1]。隨著信息技術和網絡技術的發展,數據集變得更加龐大,結構更加復雜,空間維度更高。這些問題導致異常檢測的難度越來越大,同時也會帶來召回率跟精確率下降的問題。文獻[2]提出一種基于偏最小二乘(PLS)法和核向量機(CVM)組合式的異常入侵檢測方法。文獻[3]提出基于 KNN的累積距離的異常檢測方法。文獻[4]提出基于熵和改進的 SVM 多分類器的異常流量檢測方法。文獻[5]提出了一種基于迭代隨機采樣策略的排序算法。文獻[6]提出一種信息熵加權的異常檢測方法。上述算法大多應用于數據維度較小的數據集中,但是隨著維度的不斷增加,高維數據的異常檢測會有精確率跟召回率下降的問題。針對高維屬性對異常檢測帶來的維數災難問題,本文提出一種結合信息增益方法和 Top-k算法的異常檢測方法。

1 相關知識

1.1 聚類算法

聚類算法是一種無監督學習的典型算法,通常在異常檢測中異常類數據較少甚至沒有,因此不能直接借用監督型學習方法[7]。無監督異常檢測方法因其簡單、高效的特點,被廣泛用于大數據中的異常檢測[8]。其中應用最廣泛的是K-means聚類,但是K-means算法存在幾個問題:一是中心初始位置選擇不好會導致迭代次數增多和計算量增大,嚴重影響聚類效果。二是并未考慮數據中不同屬性之間的差異,不同屬性的信息增益占比不均衡。針對以上出現的問題,本文提出改進的聚類算法,通過肘部法則選擇最佳的聚類數,通過 1.2的方法確定初始聚類中心,替代原有的隨機選擇方法。

1.2 初始聚類中心的確定

傳統K-means算法的初始聚類中心是隨機生成的,如果初始聚類中心選擇不好,會導致聚類迭代次數的增多和計算量的增大[9]。為了消除這種影響,在初始數據集中選取兩點直徑距離盡量遠的點構成K個初始聚類中心,并依此完成改進的K-means算法,一定程度消除了以上因素的影響。具體算法流程如下:

輸入:樣本集M,初始聚類中心個數K,聚類中心{};

Step.1計算樣本集M中的平均值,將此平均值設為樣本中心C;

Step.2計算樣本集M中的每個點到樣本中心C的距離,選擇離樣本中心最遠的那個點C1作為第一個初始聚類中心,此時聚類中心為{C1};

Step.3計算剩余的M-1個點到C1點的距離,選取最遠的那個點C2,加入初始聚類中心,此時聚類中心為

Step.4重復Step.2-Step.3步直到找到K個初始聚類中心

1.3 信息增益

針對高維數據對異常檢測的檢測率和檢測時間產生不利影響的問題。通過對數據降維保留信息增益占比較大的屬性,更有利于提高異常檢測的準確率,信息增益的計算公式如下:

(1)信息熵的計算:

其中訓練數據集總個數為|D|,某個分類的個數為|CK|。

(2)選定A的條件熵計算:

其中|Di|為選定特征的某個分類的樣本個數,交集|Dik|可以理解在Di條件下某個分類的樣本個數。

(3)信息增益的計算:

信息增益越大表示該屬性對數據的影響越大,在進行數據分析時應該重點考慮。

2 基于信息增益的異常檢測算法

算法步驟

Step.1計算每個屬性的信息增益,用 Top-k算法選擇信息增益排名的前K個屬性,對其他屬性進行裁剪;

Step.2利用肘部法則,對數據集確定合適的初始聚類數;

Step.3利用本文1.2改進后的初始聚類中心的選擇辦法,選擇合適的初始聚類中心;

Step.4在 K-means聚類算法中引入 Step.2、Step.3方法,將數據集聚成M類;

Step.5計算每個簇中的平均距離,以及各個點到聚類中心的距離,如果點到聚類中心的距離大于平均距離,就把該點作為異常點;

Step.6對數據集中的數據取不同的前K個屬性再次重復Step.1~Step.4。

3 實驗分析

3.1 實驗設計與結果分析

實驗運用本文 1.2的方法確定初始聚類中心后運用K-means算法進行聚類,通過歐式距離計算每個點到簇中心距離,如果大于平均距離就把該點定為異常點,實驗結果顯示改進的 K-means聚類后得異常點個數為289。

運用相同的數據集,加入了加權信息熵的方法后進行聚類,異常點的個數為 288。可以看出加權信息熵的辦法在高維數據中的異常檢測效果并不理想,在加權信息熵的基礎上進一步計算每個維度的信息增益,并進行排序。分別取前10、20、30、40、50、60、70、80、90 維數據重新進行聚類,計算每一次聚類結束后的異常點的個數,分別求出異常點的個數為337、341、331、269、276、259、264、260、262。異常點的個數如圖1所示。

圖1 取前M維信息增益的異常點的個數圖Fig.1 shows the number of outliers with the first m-dimensional information gain

基于加權信息熵聚類的過程中,當迭代次數為 10時異常點的個數趨于穩定,取信息增益前10、20、30、40、50、60、70、80、90 維數據進行聚類的過程中,迭代次數分別為16、10、10、9、11、16、20、20、16。可以看出在加權信息熵的基礎上運用信息增益取前K個屬性的方法同樣也會增加異常點的個數,說明本算法對高維數據異常點的檢測效率有所提高。將召回率和精確率作為異常檢測性能的評價指標。本文所提的算法(前20維)與加權信息熵的算法進行比較,如表1所示,在異常點個數增多的前提下,召回率跟精確率也有一定的提高。

表1 兩種算法在數據集中的實驗對比結果Tab.1 experimental results of two algorithms in datasets

3.2 實驗小結

實驗結果表明與加權信息熵的異常檢測算法相比,本文提出的改進算法的召回率和精確率分別提高 53.65%和 29.49%,在異常點個數的檢測上也有明顯的提高。究其原因如下:首先,改進算法引入了信息增益的概念,根據各屬性影響程度的不同,計算出影響異常點檢測中每個屬性的信息增益;其次改進算法選擇了更優的初始中心,在迭代過程中數據對象的異常度計算與其所屬的簇中心相關。從而使得異常計算的結果更加準確,提高了異常檢測的性能。

4 結論

本文根據異常檢測以及聚類的特點在基于信息熵異常檢測算法基礎上改進了結合信息增益和Top-k的異常算法,通過計算數據每個屬性的信息增益,取前K個屬性,忽略掉非重要屬性重新進行聚類,有效的避免了其他屬性對異常檢測的影響,異常檢測的效果更優。實驗結果表明異常點的檢出個數比加權的信息增益算法明顯增多,取得了明顯的效果。但是本算法對非數值型數據的處理較差,如何進一步提升算法效率、處理多種數據類型以及設計不確定性異常的檢測方法是未來的研究重點。

猜你喜歡
檢測信息
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
小波變換在PCB缺陷檢測中的應用
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产精品青青| 99re视频在线| 亚洲A∨无码精品午夜在线观看| 免费毛片全部不收费的| 久久精品中文字幕免费| 蜜臀av性久久久久蜜臀aⅴ麻豆 | 国产亚洲男人的天堂在线观看| 国产99精品视频| 欧美一级视频免费| 久热re国产手机在线观看| 毛片在线播放a| 欧美日韩国产在线人成app| www.精品国产| 精品久久久无码专区中文字幕| 亚洲三级影院| 狠狠色噜噜狠狠狠狠色综合久| 亚洲天堂在线视频| 精品久久久久久久久久久| 国产资源免费观看| AV不卡无码免费一区二区三区| 欧美精品三级在线| 亚洲一区二区无码视频| av性天堂网| 一级毛片视频免费| 无码综合天天久久综合网| 国产丝袜第一页| 中文字幕2区| 麻豆精品在线| 精品国产毛片| 亚洲精选无码久久久| 沈阳少妇高潮在线| 99视频在线观看免费| 欧美国产日产一区二区| 亚洲精品欧美日本中文字幕| 992tv国产人成在线观看| 国产乱人视频免费观看| 国产一级在线播放| 亚洲精品人成网线在线 | 红杏AV在线无码| 91福利一区二区三区| 福利在线不卡| 久久亚洲美女精品国产精品| 欧美区在线播放| 国产成人无码综合亚洲日韩不卡| 久久青青草原亚洲av无码| 精品福利视频导航| a欧美在线| 99无码中文字幕视频| 国产精品乱偷免费视频| 4虎影视国产在线观看精品| 四虎永久免费网站| 好久久免费视频高清| 国产精品免费p区| 国产午夜小视频| 日本AⅤ精品一区二区三区日| 亚洲欧美精品日韩欧美| 538国产在线| 69视频国产| 91年精品国产福利线观看久久| 美女被操91视频| 怡春院欧美一区二区三区免费| 国产精品专区第1页| 亚洲美女一区二区三区| 91无码视频在线观看| 久热中文字幕在线观看| 亚洲中文精品人人永久免费| 成人在线天堂| 91九色国产在线| 99精品视频九九精品| 亚洲无限乱码一二三四区| 欧美成人精品欧美一级乱黄| 欧美自拍另类欧美综合图区| 伊人天堂网| 日本91视频| 欧美国产日韩在线播放| 久久久久国产精品免费免费不卡| 四虎影视永久在线精品| 国产大片喷水在线在线视频 | 精品久久高清| 国产91视频免费观看| 亚洲午夜综合网| 一区二区三区国产精品视频|