999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進隨機森林的海量結(jié)構(gòu)化數(shù)據(jù)異常辨識算法

2023-12-13 14:26:16宋冀峰
微型電腦應用 2023年11期
關(guān)鍵詞:模態(tài)

宋冀峰

(中國政法大學, 刑事司法學院, 北京 100088)

0 引言

隨著社會信息化水平的不斷提升,網(wǎng)絡(luò)中的結(jié)構(gòu)化數(shù)據(jù)呈現(xiàn)爆發(fā)式增長。而面對如此海量的結(jié)構(gòu)化數(shù)據(jù),確定其中的異常數(shù)據(jù)能夠充分滿足高速存儲應用、數(shù)據(jù)備份、數(shù)據(jù)共享以及數(shù)據(jù)容災需求。但是由于結(jié)構(gòu)化數(shù)據(jù)具有較高的復雜性,導致異常點識別精準率低與辨識耗時長的問題出現(xiàn)[1],因此尋找一種面向海量結(jié)構(gòu)數(shù)據(jù)異常點辨識的方法是很有必要的。

為此相關(guān)研究人員陸續(xù)提出各種結(jié)構(gòu)化數(shù)據(jù)辨識算法。文旭等[2]針對數(shù)據(jù)辨識精度差問題,提出一種基于因子分析的數(shù)據(jù)異常辨識算法。通過分解大數(shù)據(jù)負荷曲線,獲得波動特征較為顯著的隨機分量,求解了隨機分量中的異常數(shù),但在實際應用中,這一算法僅適合于單個異常點檢測,對于連續(xù)范圍的異常點檢測的效果差;殷浩然等[3]提出一種基于三維卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)異常辨識算法,提取數(shù)據(jù)矩陣中的異常特征,利用三維卷積神經(jīng)網(wǎng)完成辨識任務(wù)。但該算法的運行過程較為復雜,導致耗時增加。

為此,綜合上述問題,提出基于改進隨機森林的海量結(jié)構(gòu)化數(shù)據(jù)異常辨識算法。隨機森林作為一種深度學習算法,在數(shù)據(jù)異常點分類問題中的應用較為廣泛,使用隨機選擇特征子集增加結(jié)構(gòu)化數(shù)據(jù)中決策樹的隨機性,從而縮小異常檢測的范圍;通過局部敏感哈希算法對結(jié)構(gòu)數(shù)據(jù)異常點度量,引入相關(guān)的向量空間,最終完成對數(shù)據(jù)異常辨識。

1 海量結(jié)構(gòu)化數(shù)據(jù)去噪處理

由于原始結(jié)構(gòu)化數(shù)據(jù)中存在大量環(huán)境噪聲分量,這些均是大量不可用的數(shù)據(jù),即噪聲點,需要對數(shù)據(jù)中的噪聲點進行去除。通過互補集合經(jīng)驗模態(tài)分解[4]方法,得到結(jié)構(gòu)數(shù)據(jù)的本征模態(tài)函數(shù),對本征模態(tài)函數(shù)分量進行重構(gòu),獲得增強后的數(shù)據(jù),實現(xiàn)數(shù)據(jù)去噪處理。

互補集合經(jīng)驗模態(tài)分解方法[5]主要依賴于經(jīng)驗模態(tài)分解方法,假設(shè)初始結(jié)構(gòu)化數(shù)據(jù)信號為Z(t),在信號引入正值的隨機白噪聲[6]ui(t)與負值的隨機白噪聲-ui(t),此時的結(jié)構(gòu)化數(shù)據(jù)信號表達式如下:

Zi(t)=Z(t)+ξ0ui(t),i=1,2,…,n

(1)

(2)

式(2)中,k代表最大相關(guān)熵。將正數(shù)值的隨機白噪聲的輪數(shù)進行到2M輪次數(shù)時,結(jié)合文獻[8]的研究成果對于經(jīng)驗模態(tài)分解互補集合進行推理,其具體的表達式如下:

(3)

將經(jīng)驗模態(tài)分解集合結(jié)果與殘差數(shù)值進行組合重構(gòu),獲得去噪的結(jié)構(gòu)化數(shù)據(jù):

(4)

2 基于改進隨機森林的異常數(shù)據(jù)范圍確定

隨機森林[9]是當前最廣泛的分類器之一,通過隨機選擇特征子集來分裂決策樹的節(jié)點,提高決策樹的隨機性,以此實現(xiàn)隨機森林改進,進而提高結(jié)構(gòu)化數(shù)據(jù)異常范圍的確定精準度。

(5)

式(5)中,T代表超參數(shù),fk(x)代表無剪枝的決策樹,抽樣數(shù)據(jù)集的預測公式為

(6)

式(6)中,I代表指示函數(shù)。AdaBoost算法有著非常優(yōu)秀的泛化能力,該方法通過不斷更新樣本的權(quán)重,使決策樹將精力都使用在之前的分類樣本上,進而提高泛化能力,AdaBoost算法對隨機森林進行T輪加權(quán)的具體公式如下:

(7)

式(7)中,αi代表每輪權(quán)重系數(shù)。經(jīng)過i-1輪迭代隨機森林模型表達式如下:

Fi-1(x)=α1f1(x)U1(x)+…+Ui-1(x)αi-1fi-1(x)

(8)

結(jié)合上述分析,搭建泛化風險函數(shù),具體表達式如下:

(9)

(10)

3 結(jié)構(gòu)化數(shù)據(jù)異常辨識方法設(shè)計

通過局部敏感哈希算法,在數(shù)據(jù)異常范圍內(nèi)訓練數(shù)據(jù),將牽引數(shù)據(jù)集按照不同類別進行分類,設(shè)定異常縮小范圍后的數(shù)據(jù)Q,建立相應的哈希表。其在高斯分布中分布均勻,形成高斯矩陣A,通過結(jié)構(gòu)化數(shù)據(jù)在高維空間中分布稀疏的情況,獲得結(jié)構(gòu)化數(shù)據(jù)的中空間幾何坐標位置,假設(shè)結(jié)構(gòu)化數(shù)據(jù)的異常特征向量用(wq1,wq2,…,wqj)表示,j代表結(jié)構(gòu)化數(shù)據(jù)異常簇個數(shù),wqj代表第j個異常簇在結(jié)構(gòu)數(shù)據(jù)庫中的比重,向量空間模型中結(jié)構(gòu)化數(shù)據(jù)異常簇之間的相似度[11]表達式:

(11)

式(11)中,wij代表結(jié)構(gòu)化數(shù)據(jù)異常簇頻率[12]。通過概率設(shè)定閾值,完成異常數(shù)據(jù)的判斷。

4 實驗檢測與分析

為了驗證提出的基于改進隨機森林的海量結(jié)構(gòu)化數(shù)據(jù)異常辨識算法有效性,選擇因子分析異常辨識算法與三維卷積神經(jīng)網(wǎng)絡(luò)算法進行對比實驗。

實驗的基礎(chǔ)使用Windows 10系統(tǒng),在仿真軟件中設(shè)定二叉樹為100,數(shù)據(jù)樣本量為400 GB。

為了更深程度地對結(jié)構(gòu)化數(shù)據(jù)進行異常點辨識,對結(jié)構(gòu)化數(shù)據(jù)中的特征值與梯度值的變化曲線進行實驗分析。

分析圖1中的結(jié)構(gòu)化數(shù)據(jù)特征值變化曲線可知,當時間周期為7、9、10的情況下,結(jié)構(gòu)化數(shù)據(jù)特征值高于告警值,這說明結(jié)構(gòu)化數(shù)據(jù)可能存在異常問題,因此這些數(shù)據(jù)中可能存在異常數(shù)據(jù),非常適合進行后續(xù)實驗。分析圖2中的結(jié)果可知,所有周期的結(jié)構(gòu)化數(shù)據(jù)梯度值均位于下告警值上方,且周期為8的情況下結(jié)構(gòu)化數(shù)據(jù)梯度值超過了上告警值,說明非結(jié)構(gòu)數(shù)據(jù)集合中的異常特征顯著,這種幅度突增的關(guān)系顯示了結(jié)構(gòu)化數(shù)據(jù)存在異常點,以此為基礎(chǔ)進行實驗測試所得的結(jié)果具備真實性和可靠性。

圖1 結(jié)構(gòu)化數(shù)據(jù)特征值變化曲線

圖2 結(jié)構(gòu)化數(shù)據(jù)梯度值變化曲線

海量結(jié)構(gòu)化數(shù)據(jù)異常辨識精準度表示被正確標注為異常的數(shù)據(jù)在所有被標識為異常的數(shù)據(jù)中的比例,其中異常數(shù)據(jù)總量為5000個,則3種方法的異常數(shù)據(jù)辨識數(shù)量如表1所示。

表1 3種方法的異常數(shù)據(jù)辨識數(shù)量

結(jié)合上述數(shù)據(jù)得出3種算法的海量結(jié)構(gòu)化數(shù)據(jù)異常辨識精準度對比結(jié)果,具體如圖3所示。

圖3 三種方法的辨識精準度對比結(jié)果

分析圖3中的數(shù)據(jù)可知,隨著實驗次數(shù)的增加,3種算法的海量結(jié)構(gòu)化數(shù)據(jù)異常辨識精準度均呈現(xiàn)顯著的波動變化趨勢。因子分析算法與三維卷積神經(jīng)網(wǎng)絡(luò)算法的辨識精準度都相對較低,且曲線浮動過于不穩(wěn)定,精準度水平并不高。其中,因子分析算法的辨識精準度最大值為74.7%,最小值為61.9%;三維卷積神經(jīng)網(wǎng)絡(luò)算法的辨識精準度最大值為81.2%,最小值為68.4%。與實驗對比算法相比,所提算法的異常數(shù)據(jù)辨識精準度最高,辨識精準度最高達到了95.8%,且精準度曲線相對穩(wěn)定,這是由于所提算法使用隨機選擇特征子集增加了結(jié)構(gòu)化數(shù)據(jù)中決策樹的隨機性,確定了異常范圍,進一步提高了異常數(shù)據(jù)辨識精準度。

3種算法的異常數(shù)據(jù)辨識耗時數(shù)據(jù)如表2所示。

表2 異常數(shù)據(jù)辨識耗時數(shù)據(jù)

為了更為清晰的看到3種算法的辨識耗時的變化趨勢,結(jié)合上述數(shù)據(jù)繪制辨識耗時對比結(jié)果圖像,具體如圖4所示。

圖4 3種方法的辨識耗時對比結(jié)果

分析圖4中的結(jié)果可知,隨著結(jié)構(gòu)化數(shù)據(jù)量的增加,3種算法的辨識耗時均呈現(xiàn)上升趨勢。當結(jié)構(gòu)化數(shù)據(jù)量為100 G的情況下,所提算法的辨識耗時為0.77 min,因子分析算法的辨識耗時為2.64 min,三維卷積神經(jīng)網(wǎng)絡(luò)算法的辨識耗時為1.85 min;當結(jié)構(gòu)化數(shù)據(jù)量為200 G的情況下,所提算法的辨識耗時為1.79 min,因子分析算法的辨識耗時為5.74 min,三維卷積神經(jīng)網(wǎng)絡(luò)算法的辨識耗時為4.01 min;當結(jié)構(gòu)化數(shù)據(jù)量為300 G的情況下,所提算法的辨識耗時為2.52 min,因子分析算法的辨識耗時為5.72 min,三維卷積神經(jīng)網(wǎng)絡(luò)算法的辨識耗時為4.51 min;當結(jié)構(gòu)化數(shù)據(jù)量為400 G的情況下,所提算法的辨識耗時為2.52 min,因子分析算法的辨識耗時為5.72 min,三維卷積神經(jīng)網(wǎng)絡(luò)算法的辨識耗時為4.51 min。綜合來看,所提算法的辨識耗時更短、效率更高。

5 總結(jié)

為了在海量數(shù)據(jù)中精準辨識數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)異常,其首要工作就是解決原始結(jié)構(gòu)化數(shù)據(jù)中存在外界環(huán)境噪聲干擾的問題。由于原始數(shù)據(jù)中有大量噪聲數(shù)據(jù),通過對互補集合經(jīng)驗模態(tài)分解方法進行噪聲點去除,在此基礎(chǔ)上通過改進隨機深林模型確定異常點范圍,憑借局部敏感哈希算法對結(jié)構(gòu)化數(shù)據(jù)異常點進行異常度量,可以有效辨識結(jié)構(gòu)化數(shù)據(jù)中的異常點。實驗結(jié)果證明,該算法的辨識精準率高、時間短,具有較強的適用性,可以提高海量結(jié)構(gòu)化數(shù)據(jù)網(wǎng)絡(luò)的安全性,有效避免數(shù)據(jù)錯誤和異常對用戶造成影響。

猜你喜歡
模態(tài)
基于BERT-VGG16的多模態(tài)情感分析模型
跨模態(tài)通信理論及關(guān)鍵技術(shù)初探
一種新的基于模態(tài)信息的梁結(jié)構(gòu)損傷識別方法
多跨彈性支撐Timoshenko梁的模態(tài)分析
車輛CAE分析中自由模態(tài)和約束模態(tài)的應用與對比
國內(nèi)多模態(tài)教學研究回顧與展望
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
利用源強聲輻射模態(tài)識別噪聲源
日版《午夜兇鈴》多模態(tài)隱喻的認知研究
電影新作(2014年1期)2014-02-27 09:07:36
主站蜘蛛池模板: 久久女人网| 欧美特级AAAAAA视频免费观看| 久久综合九色综合97婷婷| 亚洲精品欧美日韩在线| 日韩在线网址| 国产精品亚欧美一区二区| 日韩在线播放中文字幕| 国产在线精彩视频二区| 久久久久九九精品影院 | 狂欢视频在线观看不卡| 日韩中文字幕免费在线观看 | 国产精品久久久久久久伊一| 免费看a毛片| 亚洲成肉网| 免费A∨中文乱码专区| 亚洲成人高清在线观看| 亚洲欧美自拍中文| 日本免费高清一区| 潮喷在线无码白浆| 最新日本中文字幕| 午夜毛片免费看| 天天综合网色| 亚洲一区二区三区中文字幕5566| 青青操国产| 九色视频线上播放| 99热这里只有精品国产99| 亚洲AV成人一区国产精品| 亚洲中文制服丝袜欧美精品| 99re在线观看视频| 欧美日韩国产成人在线观看| 国产在线观看一区精品| 无码人中文字幕| 自拍偷拍欧美| 色爽网免费视频| 色网站在线免费观看| 国产精女同一区二区三区久| a在线亚洲男人的天堂试看| 精品一区二区三区水蜜桃| 91日本在线观看亚洲精品| 欧洲亚洲一区| 亚洲国产亚洲综合在线尤物| 日韩午夜片| 无码人妻热线精品视频| 亚洲国产中文欧美在线人成大黄瓜| 亚洲人人视频| 亚洲综合香蕉| 中文无码精品A∨在线观看不卡| 五月六月伊人狠狠丁香网| 亚洲精品国产综合99久久夜夜嗨| 亚洲区一区| 欧美精品H在线播放| 少妇精品久久久一区二区三区| 伊人色婷婷| 青青青视频蜜桃一区二区| 国产午夜精品一区二区三区软件| 国产精品九九视频| 欧美 国产 人人视频| а∨天堂一区中文字幕| 日本AⅤ精品一区二区三区日| 91香蕉国产亚洲一二三区| 亚洲男人的天堂在线| 狠狠五月天中文字幕| 日韩精品亚洲一区中文字幕| 亚洲日韩精品欧美中文字幕| 日本日韩欧美| 97国产成人无码精品久久久| 538国产在线| 国产精品大白天新婚身材| 99re免费视频| 国产呦视频免费视频在线观看| 色久综合在线| 亚洲欧洲日韩综合色天使| 国产人人乐人人爱| 色婷婷在线影院| 特级欧美视频aaaaaa| 亚洲欧美成人网| 亚洲av无码成人专区| 狠狠亚洲婷婷综合色香| 国产一二视频| 欧美精品H在线播放| 91久久国产成人免费观看| 午夜老司机永久免费看片|