999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

優化PSO-BP算法及其在校園網安全日志分類上的應用

2018-09-12 09:52:08梁師哲梁京章梁成國
網絡安全技術與應用 2018年9期
關鍵詞:分類

◆梁師哲 梁京章 梁成國

?

優化PSO-BP算法及其在校園網安全日志分類上的應用

◆梁師哲 梁京章 梁成國

(廣西大學計算機與電子信息學院 廣西 530004)

伴隨著傳統教育步入大數據時代,高校對于大數據安全平臺的部署和數據挖掘變得越來越廣泛和深入。為了提高高校海量安全日志的識別分類準確率,預測網絡攻擊行為,避免高校校園網因網絡攻擊造成更多的損失,本文提出了一種改進的基于粒子群優化的BP(back propagation)神經網絡強學習算法,用于校園網安全日志的分類,提取日志中的屬性值作為BP神經網絡的輸入值,利用粒子群優化算法(PSO)初始化BP神經網絡連接權值和閾值,結合Adaboost算法的思想將多個BP神經網絡弱學習算法組合構建為一個強學習算法,并針對校園網海量日志存在的非平衡數據及算法本身等問題提出改進,設計基于Adaboost優化的PSO-BP算法的校園網安全日志分類模型。利用真實校園網安全日志數據進行驗證,實驗結果表明經過改進的算法可以提高BP弱學習算法的分類性能,適用于識別安全日志,預測攻擊行為。

校園網;安全日志;PSO-BP;神經網絡;Adaboost

0 引言

隨著國家對網絡安全宣傳的逐漸重視,作為信息化建設的主體,高校網絡安全問題逐漸成為建設的焦點問題。校園網對于網絡攻擊事件的安全防范通常都是以日志記錄以及告警的形式輸出數據,并管理控制潛在的風險,分析這些校園網安全日志是通過收集分析各種安全日志文件以識別出入侵和入侵企圖,是網絡安全防御系統的重要組成部分,在網絡安全中起著重要作用[1]。在大數據時代,各高校部署的安全平臺更趨于完善,對于海量安全日志的收集和分析手段更加豐富,人們對校園網的安全防范意識也逐漸加強。校園網的海量安全日志不僅記錄了一段時期內針對校園網的攻擊和試探行為,同時也蘊含了大量攻擊行為的特征,這些特征和規律更值得我們關注、分析和挖掘。

數據挖掘技術是在海量數據環境中收集并分析數據的技術,目的是發現未知的關系和以數據擁有者可以理解并對其有價值的新穎方式來總結數據[2],又稱為數據庫中的知識發現(KDD),即從大量數據中提取或“挖掘知識”。針對日志文件的數據挖掘技術主要有統計分析[3,4]、序列模式分析[5,6]、關聯規則[7,8]、分類和聚類[9,10]等。一般校園網日志的關鍵詞有Web訪問、流量信息、被屏蔽的網絡訪問、攻擊、各種服務(Web、FTP、Email、VPN等)以及網關登錄、維護信息等等[11],校園網安全日志分析是通過對校園網安全日志文件的數據進行統計分析,發現有關訪問者連接的特征。上述方法中,統計分析方法雖能提高性能但無法對特征進行深層次的分析,序列模式更注重時間順序上的數據項,更適用于Web日志的挖掘,關聯規則和聚類方法則更關注于訪問者的行為挖掘,因此針對于具有攻擊行為的日志識別,這些方法都不適用。

本文采用機器學習中的神經網絡分類算法對校園網安全日志進行分類識別預測。傳統的BP神經網絡學習采用梯度下降算法,通過學習得到的誤差值反向傳播調整整個網絡的權值和閾值,因此合理的初始值會影響到整個算法的性能。為避免出現學習過程中易陷入局部最優解、泛化能力差等問題,本文采用基于粒子群優化的算法,通過神經網絡學習的誤差值找到使得群體適應度最小的粒子,利用該粒子的位置矢量設置神經網絡最合適的初始權值和閾值;同時,結合Adaboost算法的思想,將優化后的BP神經網絡作為弱學習算法,組合構建由多個BP神經網絡輸出的強學習算法,以提高對安全日志的識別準確率,使校園網安全日志的分類更加可靠。

1 PSO-BP算法

1.1 粒子群算法

粒子群算法(PSO算法),也稱為粒子群優化算法或鳥群覓食算法(Particle Swarm Optimization),是由J. Kennedy和R. C. Eberhart[12]等于1995年提出并應用于函數優化的進化算法(Evolutionary Algorithm - EA)。PSO 算法和其他進化算法相似,通過隨機初始化的粒子迭代進化尋找最優的位置矢量,并依據適應度來評價解的品質[13]。PSO算法基于粒子群體,采用實數求解,且需要調整的參數較少,通過追隨當前搜索到的最優值來尋找全局最優,因此廣泛應用于函數優化、神經網絡和其他遺傳算法等領域。

PSO算法通過將鳥的飛行空間看作為問題的解空間,將每只鳥的個體看作為一個粒子,粒子規模為N,每個粒子i在N維空間中都有其空間位置Xi=(x1,x2,?,xN)和速度Vi=(v1,v2,?,vN),并依據自己的飛行經驗和群體全局的飛行經驗動態地調整自己的飛行軌跡。每個粒子在進化中通過由目標函數決定的適應值(fitness value)知道自己目前位置的好壞。當每輪進化結束后,粒子可以知道自己能發現的最好位置(pbest),并通過更新全局獲得粒子群全局最好的位置(gbest),這也決定了每個粒子在下一步進化中的飛行方向和粒子群總體的飛行方向:

vi=w*vi+c1*rand()*(pbest[i]-x[i])+c2*rand()*(gbest-x[i]) (1)

xi=xi+vi(2)

上式中粒子迭代尋找最優解,利用找到的最優位置pbest[i]和粒子群全局最優解gbest這兩個極值來更新自己的速度和位置。其中,vi為粒子的速度,xi為粒子的位置,rand()產生0到1之間的隨機數,w為慣性權重,c1和c2為學習因子。在進化迭代過程中,需根據實際需要為vi和xi指定范圍。

1.2 BP神經網絡

BP神經網絡是人工神經網絡的一種,它模擬人類大腦的神經元工作,是一種按照誤差逆向傳播算法訓練的多層前饋神經網絡[14]。因為BP神經網絡有很強的非線性映射能力且結構相對簡單,所以如今已被廣泛應用于各行業的研究。三層BP神經網絡如圖1所示,即輸入層、隱藏層(中間層)、輸出層,各層之間的神經元實行全連接,同層內的神經元無連接,各層神經元的個數可以根據實際情況決定,其訓練的效果也會因此有所不同。

圖1 BP神經網絡結構

輸入樣本數據從網絡輸入節點向前傳播后,分別經由隱藏層和輸出層的線性函數作用和非線性函數的變換,最終從輸出節點得到結果。如果輸出的結果與訓練結果預期有差別,則定義網絡輸出結果與期望輸出的誤差信號,并將誤差信號逆向傳播,反復修改每層網絡的權值和節點的閾值,直到輸出誤差減小到一定的范圍。

1.3 基于PSO優化的BP神經網絡

BP神經網絡雖然已得到成熟的應用,但也存在一些缺陷,其中最主要的就是學習速度慢,有時對于一個神經網絡的多次訓練也有可能得到較差的收斂效果。其次,BP神經網絡采用誤差反向傳播來調整網絡連接權值,也會陷入粒子尋優過程中局部最優解的問題,從而導致無法找到全局最優解,本文引入了基于PSO改進的算法以解決這個問題。基于PSO優化的BP神經網絡算法步驟如下:

(1)處理數據。對訓練數據進行預處理并歸一化;

(2)確定參數。確定BP神經網絡的結構以及PSO粒子的相關參數;

(3)初始化粒子。隨機初始化粒子位置和速度;

(4)進化粒子。訓練神經網絡,將輸出誤差作為粒子的適應度,并得到該粒子的個體最優值和全局最優值;

(5)更新粒子。根據(1) (2)式更新粒子的位置和速度;

(6)判斷是否大于迭代次數,如果大于,保存參數,進行步驟(7),否則跳轉到步驟(4);

(7)賦值參數。將獲得全局最優值的粒子的位置參數作為BP神經網絡的權值和閾值;

(8)輸出結果。對神經網絡進行訓練直至結束,輸出分類結果。

上述步驟中,步驟(4)通過將適應度值設置為使用該組權值時的網絡輸出誤差,在預設的迭代次數內搜索最優的網絡權值,這樣可以提高神經網絡的學習速度,同時也有效避免了BP神經網絡學習時陷入局部最優解的問題。

2 基于Adaboost改進的PSO-BP分類模型

2.1 Adaboost算法

AdaBoost算法是基于Boosting思想的機器學習算法[15],其基本思想是通過迭代尋找合適的弱學習算法,并將多個弱學習算法組合構建為一個強學習算法以減小學習誤差。Hansen和Salamon[16]證明了組合多個BP神經網絡訓練后的輸出可以提高算法的識別能力。

Adaboost算法主要是通過每次訓練樣本集的分類結果情況,以及之前總體分類的準確率,以確定每個訓練樣本的權值。將修改權值的新數據傳送給下次迭代的學習算法進行訓練,然后將每次訓練得到的弱學習算法融合起來,組合構建成最后的強學習算法。Adaboost強學習算法的步驟如下:

a)選擇數據。訓練集中每個樣本有一個權重D,也稱為樣本權重。α為弱學習算法的權重。對于樣本的訓練集{(xi,yi)}(i=1,2,…,N),初始化時設定每個樣本數據的權重:

D1=(w1,1,w1,2,…,w1,N) (3)

w1,i=1/N,i=1,2,…,N (4)

b) 訓練弱學習算法。利用h1弱學習算法對數據進行學習,學習后計算錯誤率:

其中#error為錯誤分類數,#all為分類總數。

c) 計算序列權重。將錯誤率ε作為計算弱學習算法的權重的一部分:

d)訓練數據權值更新。更新訓練數據集的權值分布:

其中,Zt是歸一化因子;

e)判斷是否大于迭代次數,如果大于,進行步驟f),否則跳轉到步驟b)繼續訓練弱學習算法;

f)強學習算法計算。經過t輪的學習后,得到t個弱學習算法{h1,h2,…,ht}及其權重{α1,α2,…,αt}。分別計算t個弱學習算法的輸出{h1(X),h2(X),…,ht(X)},最終得到Adaboost算法的輸出結果為:

2.2 基于改進的PSO-BP的校園網安全日志分類模型設計

基于Adaboost算法原理對PSO-BP算法做出以下改進:針對BP權值初始化問題,采用先用PSO算法優化后得到效果較優的權值和閾值后再進行BP神經網絡的初始化;并將PSO優化后的算法作為弱學習算法,結合AdaBoost算法進行多次弱學習算法訓練,最終加權組合成強學習算法,以提高模型預測準確度。改進后的算法學習模型如圖2。

圖2 改進的學習算法流程圖

2.3 主要問題及改進

(1)由于校園網安全日志中多數記錄了無攻擊行為的正常訪問數據,而記錄攻擊行為的日志占極少數,所以是非平衡數據集。非平衡數據集在普通的學習過程中會因分類器更加傾向于多數類數據而導致在稀有類數據上的分類效果很差[17]。針對這個問題,采用隨機過抽樣技術,通過將攻擊日志數據隨機復制樣本集增加到非平衡數據集中,以獲得更好的分類性能;

(2)雖然大多安全日志數據的屬性值為標稱型數據,都是合法數據且可以作為分類算法的輸入值,但基于網絡安全的常識,有的屬性值如端口號、協議等存在多值問題,這些數值中大部分對于攻擊行為的識別沒有幫助,反而會降低學習的效率。因此需要依照經驗預先設定閾值,清理這些無效的數據,保留閾值范圍內的屬性值;

(3)針對PSO優化的過程中易陷入局部最優解的問題,采用自適應變異的方法。在PSO算法分別中,兩個學習因子分別控制粒子自身和粒子群全局這兩個部分對粒子速度的影響。在粒子尋優過程中,我們希望算法初期能在整個粒子空間內搜索解,從而避免提前陷入局部最優解中,因此在進化過程中控制rand()的值,當rand()值大于閾值而使得粒子或全局部分的比重過大時,重新賦予粒子均勻的隨機值。

3 實驗及結果分析

本文采用Matlab R2016a軟件,實驗用計算機配置為Intel Core i7-4790 CPU,3.60GHz主頻,8GB內存。

3.1 實驗數據集

本文采用廣西大學信息網絡中心某一月份的校園網安全日志,約有300萬條日志數據,其中約2000條記錄了帶有攻擊的行為,將這些數據標識為安全日志和攻擊日志兩類,隨機選取其中70%作為訓練數據,30%作為測試數據。校園網日志文件包括時間、源地址、源端口、目的地址、目的端口、URL、MAC地址、協議等屬性,將數據預處理后的屬性值作為特征屬性。

本文通過對單個弱BP神經網絡學習算法、PSO-BP神經網絡算法和改進后的強學習算法入手,對日志數據進行訓練。從訓練數據集中隨機選取1500組數據用于訓練,之后逐漸增加訓練集的數量,利用驗證集數據驗證三種算法的分類準確率。通過將輸入數據轉換為數值的方式,將BP神經網絡弱學習算法輸入節點設為5個,輸出節點設為2個,根據多次實驗比較,將隱藏層節點數設為10個時分類效果最佳,同時采用梯度下降算法更新權值和閾值;設置粒子規模為30,最大進化次數為100次,慣性權重為0.5,學習因子c1和c2均為1.5;強學習算法使用5個相同BP神經網絡弱學習算法組合。下表1為三種算法在10次不同數量驗證集下分類的準確率。

表1 三種算法的分類準確率

將表1映射到圖3中,可知三種算法在訓練集樣本量很小的情況下分類效果并不理想,但隨著樣本規模的增大,PSO-BP神經網絡算法的分類準確率明顯大于BP神經網絡的分類準確率,如圖4即為PSO優化過程中適應度最優的個體的變化曲線,PSO算法使得BP神經網絡多次跳出局部極小值;同時,改進后的強學習算法的分類準確率也明顯大于其他兩類算法;BP神經網絡算法和PSO-BP算法的分類誤差變化幅度較大,而改進后的強學習算法的分類誤差較小且相對平穩。圖5為改進后的強學習算法和單個弱BP神經網絡學習算法分類準確率的差距,可見其準確率有較大提升,提升率達到5%~20%左右。

圖3 三種算法的分類準確率

圖4 每次迭代中最優粒子適應度

圖5 強學習算法與弱BP學習算法效果的提升

綜上分析,通過基于Adaboost改進的PSO-BP神經網絡學習模型用于校園網日志識別更為合理,更加有效地提高了識別的泛化能力和可靠性。

4 結論

校園網安全問題已經逐漸成為高校建設的焦點問題,對大數據平臺海量日志的分析和挖掘越來越有深刻的意義。對于如何提高校園網安全日志識別準確率,不僅需要對分類學習算法改進設計,還要對數據集本身進行合適特征選擇和提取。本文提出一種基于Adaboost思想改進的PSO-BP強學習算法,并通過真實校園網安全日志的實驗驗證了改進后的算法具有良好的分類準確率,對于傳統BP神經網絡的分類效果有明顯改善,能夠更加有效地識別具有攻擊行為的校園網安全日志,預測網絡攻擊。

[1]姜傳菊.網絡日志分析在網絡安全中的作用[J].現代圖書情報技術,2004.

[2]Hand D J, Smyth P, Mannila H. Principles of data mining[J]. Drug Safety, 2007.

[3]Osmar R. Za?ane, Xin M, Han J. Discovering Web Access Patterns and Trends by Applying OLAP and Data Mining Technology on Web Logs[C]// Advances in Digital Libraries Conference. IEEE Computer Society, 1998.

[4]郭巖,白碩,楊志峰等.網絡日志規模分析和用戶興趣挖掘[J].計算機學報,2005.

[5]Deshpande M, Karypis G. Selective Markov models for predicting Web page accesses[J]. Acm Transactions on Internet Technology, 2004.

[6]Sarukkai R R. Link prediction and path analysis using Markov chains 1[J]. Computer Networks, 2000.

[7]Liu B, Hsu W, Ma Y. Mining association rules with multiple minimum supports[C]// Proc. of the ACM SIGKDD Intl. Conference on Knowledge Discovery and Data Mining. 1999.

[8]Chen M S, Park J S, Yu P S. Data mining for path traversal patterns in a web environment[C]// International Conference on Distributed Computing Systems. IEEE Computer Society, 1996.

[9]陳澤紅.基于Web訪問日志的用戶聚類研究[D].廈門大學,2014.

[10]邢東山,沈鈞毅,宋擒豹.從Web日志中挖掘用戶瀏覽偏愛路徑[J].計算機學報, 2003.

[11]劉進軍,張明勇.基于校園網日志數據挖掘系統的研究[J].滁州學院學報,2007.

[12]Kennedy J, Eberhart R. Particle swarm optimization[C]// IEEE International Conference on Neural Networks, 1995. Proceedings,1995.

[13]沈學利,張紅巖,張紀鎖.改進粒子群算法對BP神經網絡的優化[J].計算機系統應用,2010.

[14]周志華.機器學習 : = Machine learning[M].清華大學出版社, 2016.

[15]曹瑩,苗啟廣,劉家辰等.AdaBoost算法研究進展與展望[J].自動化學報,2013.

[16]Hansen L K, Salamon P. Neural network ensembles[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2002.

[17]職為梅,郭華平,范明等.非平衡數據集分類方法探討[J].計算機科學,2012.

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 国产h视频免费观看| 日本欧美精品| 国产精品国产三级国产专业不| 456亚洲人成高清在线| 欧美色香蕉| 五月婷婷伊人网| 色妺妺在线视频喷水| 久久久久中文字幕精品视频| 久久久久亚洲Av片无码观看| 亚洲第一国产综合| 国产在线精品99一区不卡| 欧美精品一二三区| 国产免费自拍视频| 999国产精品| 久青草网站| 亚洲国产日韩欧美在线| 国产一二三区视频| 国产精品粉嫩| 国产a v无码专区亚洲av| 欧美亚洲国产精品第一页| 免费jjzz在在线播放国产| 国产精品视频白浆免费视频| 视频二区中文无码| 一本大道东京热无码av| 91午夜福利在线观看精品| 欧美另类精品一区二区三区| 欧美日韩国产精品综合| 伊人久久福利中文字幕| 亚洲第一成网站| 国产精品55夜色66夜色| 国产肉感大码AV无码| 无码免费的亚洲视频| 国国产a国产片免费麻豆| 在线观看热码亚洲av每日更新| 国产一级毛片在线| 日韩a级毛片| 欧美日韩国产综合视频在线观看 | 91福利免费视频| 亚洲精品手机在线| 在线精品亚洲国产| a网站在线观看| 亚洲精品桃花岛av在线| 国产丝袜无码一区二区视频| 成人字幕网视频在线观看| 青青操国产视频| 国产成人AV综合久久| 狠狠色丁香婷婷综合| 亚洲无码在线午夜电影| 国产永久无码观看在线| 久久久久久尹人网香蕉| 国产哺乳奶水91在线播放| 亚洲不卡影院| 国产精品女熟高潮视频| 精品国产成人国产在线| 亚洲欧美成人| 国产va在线| 午夜爽爽视频| 国产成人免费高清AⅤ| 午夜在线不卡| 美女无遮挡拍拍拍免费视频| 亚洲精品视频免费看| 日韩欧美中文字幕在线精品| 国产精品夜夜嗨视频免费视频| 老汉色老汉首页a亚洲| 国产欧美自拍视频| 国产中文在线亚洲精品官网| 国产亚洲欧美日韩在线一区二区三区 | 99福利视频导航| 欧美a级在线| 国产又粗又爽视频| 国产三级韩国三级理| 国产精品亚洲一区二区三区在线观看| 日韩欧美国产精品| 久久免费视频播放| 免费国产小视频在线观看| 亚洲第一极品精品无码| 亚洲视频在线网| h视频在线观看网站| 免费A级毛片无码无遮挡| 热这里只有精品国产热门精品| 久久99国产精品成人欧美| 久久精品国产91久久综合麻豆自制|