999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

粗糙集下網絡大數據混合屬性特征檢測仿真

2021-11-18 05:06:14張德宇羅玉梅
計算機仿真 2021年1期
關鍵詞:特征檢測方法

張德宇,羅玉梅

(貴州師范大學國際教育學院,貴州 貴陽 550001)

1 引言

大數據具有多屬性特征,對網絡安全的防護起到重要作用,而對于其混合屬性特征的識別技術仍處于未開發階段,因此對網絡大數據混合屬性特征進行識別是極其重要的。網絡大數據混合屬性特征的準確識別不僅可以觀測目標網絡的整體運行情況,同時還能夠針對特定數據屬性進行高精度監管,做到既不影響網絡運行情況的同時,還能夠對網絡惡意攻擊行為發出預警。然而,隨著網絡惡意攻擊手段的不斷更新,現有的混合屬性特征檢測方法在當前較為復雜的網絡環境下都存在著難以突破和逾越的技術瓶頸。

文獻[1]提出基于特征選擇的網絡入侵檢測方法。該方法采用特征選擇算法生成具有顯著差異的多個屬性特征子集,并對不同的屬性特征子集進行統一處理,利用相關分類算法對統一化處理后的屬性特征進行學習建模,完成混合屬性特征檢測。但該方法的特征選擇操作復雜,并且會占用大量的存儲空間,導致檢測大數據時效率降低。文獻[2]提出基于特征和分類器參數組合優化的網絡入侵檢測方法。該方法分開考慮了屬性特征、分類器參數對混合屬性特征檢測結果的影響,組建相應的組合優化模型,利用生物地理學優化算法求解組合優化模型最優解,完成混合屬性特征檢測。但該方法的檢測過程存在不穩定因素,導致檢測結果有不小的誤差。文獻[3]提出基于深度信念網絡和線性單分類SVM的混合屬性特征檢測方法。該方法利用深度信念網絡先進行網絡大數據混合特征提取,實現屬性降維;將降維處理后的屬性特征輸入到單分類支持向量機中,實現混合屬性特征的檢測。該方法在處理屬性特征時經常含有大量的冗余特征,使大數據屬性特征的提取消耗大量資源,導致使用性差,影響檢測效果。

上述方法還普遍存在檢測速度慢的問題,該現象會造成混合數據特征漏檢、誤檢情況的發生,進而影響目標網絡數據安全。為此,提出一種基于粗糙集的網絡大數據混合特征檢測方法。利用粗糙集理論對屬性特征和冗余屬性特征進行簡約,通過分類裝置檢測出冗余的屬性特征信息,并進行刪除,從而提高了大數據混合屬性特征檢測時的效率和精準度。

2 基于粗糙集理論的屬性特征約簡

粗糙集能在保證分類性能不變的情況下對大數據屬性特征進行約簡,建立于信息系統的基礎上,采用粗糙集理論對大數據混合屬性進行分析。

首先構建一個四元組,并在四元組中任意選取一個鄰域信息,通過鄰域信息的距離系數分析,獲取信息的長度函數。為有效實現網絡大數據混合屬性特征的約簡,本文將通過結合粗糙集理論利用長度函數獲取數據相似值,最后完成鄰域熵的求解。

1)四元組I=(U,A,V,f)是一個信息系統,其中U是有限對象的集合,稱之為論域;A是大數據屬性集合,V∈Va,Va是屬性a的值域:f是函數信息,它為所有數據屬性都給予唯一值,即對任意u∈U和a∈A有f(u,a)∈Va。

在傳統的粗糙集[4]中,擁有相同特征屬性的對象應當歸入一個集合中。如果價值相同的特征都有同樣的標簽,則可認為特征是一致的,這是因為在連續性特征中,同等價值的特征對象出現的幾率較小。因此,相關研究學者用鄰域來代替等價特征。

2)擬定一個鄰域信息SU,其鄰域可表示為

δSU(xi)={xj|xj∈U,d(xi,xj)≤δ}

(1)

其中,d(xi,xj)表示xi到xj的距離的距離,δ是鄰域的大小。

其中,距離的獲取公式為

(2)

其中,k=1,2.…,N。當P=1時,該長度為曼哈頓長度[5];當P=2時,該長度為歐幾里德長度;當P=∞時,該長度為契比雪夫長度[6]。

根據大數據混合屬性數據集的特點,提出新的鄰域信息測度來檢測大數據混合屬性特征。由于大數據混合屬性信息的決策屬性是按照排列形式出現的,為了衡量排列間的距離長度,距離需要滿足以下兩個條件

a)d(xi,xj)≠0;

b)δS(xi)>d(xi,xj)。

為了把兩個排列之間的長度融入到鄰域粗糙集的規劃框中,針對標簽混合屬性數據集的決策屬性,需根據距離擬定新的長度函數,該長度函數可以測量兩個排列之間的相似度[7]。

3)設π和σ是u個標簽的兩個排列,那么這兩個排列之間的相似度可用式(3)表示

(3)

經前文描述可知,兩數據排列間的長度距離函數可表示為相似度判斷函數。式(3)中,該距離可以滿足上述兩條性質,取值為[0,1]時,d(π,σ)=0,則可推出π=σ;若d(π,σ)=1,則表示π和σ之間是互逆的。

因為標簽排列混合屬性數據集中存在不同種類的屬性特征,在鄰域粗糙集中,也要同時使用兩種不同類型的距離測度,即對條件屬性使用歐幾里德距離[8],對決策屬性使用上述(3)中的長度函數。依據兩種不同類別的距離測度獲得的樣本xi的鄰域分別標記為δ1(xi)和δ2(xi),相應的其閾值[9]也分別標記為δ1和δ2,則

(4)

(5)

其中,πi代表樣本xi的標簽排列,l為排列πi的長度。

4)設N是一個決策屬性,則其鄰域熵可用公式表示為

a)若B?C,則

(6)

b)若B=D,則

(7)

結合粗糙集理論和鄰域熵的求解,完成了網絡大數據混合屬性特征的約簡。

3 基于支持向量機的約簡特征集檢測

對約簡后的網絡大數據混合屬性約簡特征集進行檢測。傳統的統計學方法都是以大數據為基礎進行討論,要求數據樣本的數量足夠充足。然而在實際使用中,因為各方面的不定性因素,檢測結果往往很難得到準確保證。

基于粗糙集理論提出的支持向量機充分減少了算法設計的隨機性,并且解決了上述小樣本實現高效分類的問題。支持向量機分類的基本思想是通過函數轉換的方法,將大數據混合屬性的分類問題變換為線性可分問題,然后在新的空間中求解最佳分類面。

支持向量機最初用于對數據進行二值分類處理,對線性可分問題,擬定訓練樣本{(x1,y1),(x2,y2),…,(xN,yN)},期望輸出Y∈{-1,1},分別表示不同類別標識[12]。用于分類的大數據混合屬性最優超平面方程為

f(x)=ωx+b

(8)

其中,ω為權重向量,x為輸入向量,b為誤差值。支持向量機的目的是為了尋找一個劃分邊緣最大的超平面,使不同類別的數據屬性最大程度地分離,與最佳超平面距離較近的數據屬性樣本,將其稱作支持向量。對于任意一確定的最佳分類超平面,所有數據混合屬性樣本都滿足

yif(x)≥1,i=1,2,…,N

(9)

大數據混合屬性非線性可分模式的分類問題,會存在一些不滿足式(9)的約束條件,影響分類結果。因此需要適當的放寬約束,將其變更為

yif(x)+ξi≥1,i=1,2,…,N

(10)

式中,加入了松弛變量ξi,i=1,2,…,它用于度量一個數據特征點對線性可分理想條件的誤差程度。當0≤ξ≤1時,特征點落入分離區域的內部,并且在分類平面正確的方向;當滿足ξ>1時,特征點進入分類器超平面錯誤的方向;當滿足ξ=0時,出現特征可分問題。

針對非特征問題,尋找ω和b的最優值,使其在式(10)的約束下,將ω和ξi的目標函數關系最小化,即

(11)

其中,Ck為錯誤系數。

使用Lagrange法求解上述最優化問題,上述方程可變更為下列問題

(12)

約束條件

0≤ai≤Ck,i=1,2,…,N

(13)

其中,e為單位矩陣,Q為半正定矩陣。采用的RBF函數求解約簡特征集檢測結果為

(13)

綜上所述,采用粗糙集理論對網絡大數據混合屬性進行分析,約簡屬性特征。利用支持向量機,對約簡后的屬性特征集進行檢測,實現粗糙集下網絡大數據混合屬性特征的檢測。

4 仿真驗證

為了驗證所提粗糙集下網絡大數據混合屬性特征檢測方法的有效性,進行了如下仿真。

4.1 實驗環境的設定及實驗數據的選取

仿真環境為Intel Xeon500雙CPU,512M內存,80G硬盤,WindowsNT操作系統的服務器,所有仿真均在Intel Xeon500雙CPU上進行。

為了驗證提出的粗糙集下網絡大數據混合屬性特征檢測方法的準確性和時間性能,實驗選取基于LFR基準程序生成的網絡大數據集,其詳細內容如表1所示。

表1 LFR基準程序生成的網絡大數據集

通過基于LFR基準程序生成的網絡大數據集來對比所提方法和文獻[2]提出的基于特征和分類器參數組合優化的網絡大數據混合屬性特征檢測方法的優劣。

4.2 實驗結果分析

表2給出的是所提方法和文獻[2]檢測方法特征選擇數量的結果。

表2 不同方法屬性特征約簡結果

分析表2可以看出,所提方法和文獻[2]方法都能有效約簡屬性,相比原基于LFR基準程序生成的網絡大數據集,很多冗雜屬性均被消除,尤其對于wdbc數據集,所提方法將混合屬性從大小為34GB的數據約簡至22.8GB。說明所提方法對于高維混合大數據集,能夠選擇出更少的屬性特征集。

根據上述網絡大數據混合屬性特征約簡的結果,對屬性特征重新整合構成新的屬性集,經過屬性約簡后的屬性特征不會影響網絡數據之間的相關性,而且可以降低存儲空間。在后續通過支持向量機進行屬性特征檢測的時候,根據約簡后的屬性特征,對屬性特征樣本集進行支持向量機的構建。

在表1獲取數據的基礎上,另外向上述數據集各添加100條無關數據,并分別應用本文方法、文獻[2]方法以及文獻[3]方法進行檢測,判斷采集的數據是否為原始數據量大小,并檢查該數據是否為數據集包含內容。得到檢測數據數量如表3所示。

表3 不同方法屬性特征約簡結果

根據表3檢測結果進行數據獲取的查全率性能對比,圖2為所提方法與文獻[2]屬性特征檢測方法檢測查全率(%)的對比。

圖2 不同方法檢測查全率對比結果圖

通過圖2進行分析可以看出,所提方法的屬性特征檢測串查全率明顯高于文獻[2]及文獻[3]的屬性特征檢測方法地檢測查全率,主要原因在于所提方法結合粗糙集理論進行混合屬性特征約簡,去除了大量冗余特征,保證了后續網絡大數據混合屬性特征檢測的準確性。

5 結論

所提的粗糙集下網絡大數據混合屬性特征檢測方法,其所使用的粗糙集使網絡大數據混合屬性從1120個約簡至37個,大幅度減少了計算復雜度:

1)所提方法、基于特征和分類器參數組合優化的網絡大數據混合屬性特征檢測方法,兩者的屬性約簡數量級有很大差別,從實驗數據來看所提方法極具優勢;

2)使用粗糙集屬性約簡的檢測方法比傳統檢測方法檢測準確率更高;

3)相對于原始基于LFR基準程序生成的網絡大數據集,所提方法通過使用粗糙集屬性約簡后,檢測精度有顯著提高。

所提粗糙集下網絡大數據混合屬性特征檢測方法雖取得一定的成果,具有一定的優越性,但仍存在不足之處。未來將針對網絡大數據混合屬性特征的約簡速率進行深入研究,從約簡速率提升的角度來提高屬性特征的檢測速度,在保證檢測準確性的基礎上,進一步提高檢測的效率。

猜你喜歡
特征檢測方法
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 免费一级毛片| 一区二区在线视频免费观看| 亚洲一级毛片在线播放| www.99精品视频在线播放| 国产在线自在拍91精品黑人| 久久一本日韩精品中文字幕屁孩| 日本黄色不卡视频| 国产乱子伦精品视频| 亚洲大尺码专区影院| 中文无码精品A∨在线观看不卡| 国产成人精品2021欧美日韩| 亚洲国产精品人久久电影| 97超爽成人免费视频在线播放 | 国产欧美性爱网| 久久99国产精品成人欧美| 久久亚洲中文字幕精品一区| 看看一级毛片| 54pao国产成人免费视频| 欧洲熟妇精品视频| 日韩午夜福利在线观看| 中文字幕 91| 国产69囗曝护士吞精在线视频 | 美女潮喷出白浆在线观看视频| 老司国产精品视频91| 亚洲日韩高清在线亚洲专区| 尤物视频一区| 波多野结衣爽到高潮漏水大喷| 免费毛片全部不收费的| AV无码无在线观看免费| 亚洲人妖在线| 精品一區二區久久久久久久網站| 国产又色又爽又黄| 国产成人h在线观看网站站| 精品一区二区三区自慰喷水| 91www在线观看| 久99久热只有精品国产15| 亚洲人成在线精品| 色哟哟国产精品一区二区| 99免费视频观看| 制服丝袜一区二区三区在线| 自拍偷拍欧美日韩| 日本免费福利视频| 亚洲人网站| 亚洲三级a| 深夜福利视频一区二区| 国产成年女人特黄特色毛片免| a天堂视频| 久久婷婷五月综合97色| 日韩黄色精品| 一本二本三本不卡无码| 国产自在线播放| 欧美色图第一页| 夜夜操天天摸| 日本一区高清| 国产裸舞福利在线视频合集| 亚洲成av人无码综合在线观看| 久久综合九色综合97网| 国精品91人妻无码一区二区三区| 亚欧美国产综合| 久综合日韩| 成人中文在线| 国内自拍久第一页| 欧美中文字幕第一页线路一| 欧美伦理一区| 伊人久综合| 精品1区2区3区| 四虎影视库国产精品一区| 欧美成人手机在线观看网址| 国产精品综合色区在线观看| 亚洲欧美综合精品久久成人网| 日韩精品成人在线| 天堂在线视频精品| 欧美成人看片一区二区三区| 久久成人免费| 免费女人18毛片a级毛片视频| 免费Aⅴ片在线观看蜜芽Tⅴ| 亚洲第一精品福利| 成人午夜精品一级毛片| 婷婷99视频精品全部在线观看| 欧美日韩亚洲国产| 成人在线不卡视频| 久久久久亚洲av成人网人人软件 |