面向社會安全事件的分布式神經網絡攻擊行為分類方法

2017-12-14 05:22:12肖圣龍

計算機應用 2017年10期

關鍵詞：分類

肖圣龍,陳昕,李卓,2

(1.北京信息科技大學計算機學院,北京 100101; 2.網絡文化與數字傳播北京市重點實驗室,北京 100101) (*通信作者電子郵箱chenxin@bistu.edu.cn)

面向社會安全事件的分布式神經網絡攻擊行為分類方法

肖圣龍1,陳昕1*,李卓1,2

(1.北京信息科技大學計算機學院,北京 100101; 2.網絡文化與數字傳播北京市重點實驗室,北京 100101) (*通信作者電子郵箱chenxin@bistu.edu.cn)

大數據時代下,社會安全事件呈現出數據多樣化、數據量快速遞增等特點,社會安全事件的事態與特性分析決策面臨巨大的挑戰。高效、準確識別社會安全事件中的攻擊行為的類型,并為社會安全事件處置決策提供幫助,已經成為國家與網絡空間安全領域的關鍵性問題。針對社會安全事件攻擊行為分類,提出一種基于Spark平臺的分布式神經網絡分類算法(DNNC)。DNNC算法通過提取攻擊行為類型的相關屬性作為神經網絡的輸入數據,建立了各屬性與攻擊類型之間的函數關系并生成分布式神經網絡分類模型。實驗結果表明,所提出DNNC算法在全球恐怖主義數據庫所提供的數據集上,雖然在部分攻擊類型上準確率有所下降，但平均準確率比決策樹算法提升15.90個百分點，比集成決策樹算法提升8.60個百分點。

社會安全;大數據;Spark分布式系統;神經網絡;分類算法

0 引言

社會安全事件主要包括恐怖襲擊事件、經濟安全事件和涉外突發事件等[1]，社會安全事件頻繁發生,給人民群眾的生命和財產帶來嚴重損害[2]。本文以恐怖事件為例分析社會安全事件。近幾年，恐怖事件發生的數量急劇增加[3]。在1970年—2015年期間,全球恐怖事件數據庫(Global Terrorism Database, GTD)(http://www.start.umd.edu/gtd/)收集超過156 000個來自200多個國家和地區[4]的恐怖主義事件。根據GTD搜集的數據,可以發現從2012年—2015年,恐怖襲擊的數量增加了52 134件,3年的時間發生的恐怖事件數量是過去45年總數量的1/3。如今,我們生活在大數據時代,大量的信息被產生,被收集并存儲在數據存儲系統中[5],如何在大數據量的背景下,分析社會安全事件各個屬性之間復雜的內部關系,針對社會安全事件攻擊類型實現快速準確的分類,給社會安全事件預警和分析提供數據支撐,成為一個備受關注的問題。

分析社會安全事件攻擊行為,可以發現社會安全事件攻擊行為類型與許多因素有關,各因素與社會安全事件攻擊行為類型呈現非線性關系。神經網絡采用廣泛互聯的結構與有效的學習機制來模擬人腦信息處理的過程,是人工智能發展中的重要方法,在諸如手寫體識別、圖像標注、語義理解和語音識別等技術領域取得了非常成功的應用[6]。BP神經網絡在人工神經網絡模型中最廣泛的一種網絡模型，是多層前向神經網絡的一種,可用任意精度逼近任意非線性函數,逼近性能尤其明顯[7]。根據社會安全事件攻擊行為類型特征進行指標提取,映射指標與社會安全事件攻擊行為類型的關系,訓練各個指標的權重,模擬出社會安全事件攻擊行為類型的網絡模型,實現社會安全事件攻擊行為類型分類。

受學習速率的限制，BP神經算法需要花費幾個小時甚至更長的時間來完成訓練任務[6]。隨著互聯網的發展,傳統的大數據計算平臺涌現出了一批新的大數據處理框架,包括Apache Hadoop、Dyrad、Yahoo S4、Apache Spark等,作為最流行的大數據處理框架Spark[8],吸引了越來越多的關注,而基于彈性分布式數據集(Resilient Distributed Dataset, RDD)的Spark編程模式在實際項目中的應用也越來越廣[9]。基于Spark的分布式神經網絡將神經網絡的訓練任務分發到多個主機同時進行訓練,可以提高訓練速度。本文針對社會安全事件攻擊行為分類,提出了一種基于Spark平臺的分布式神經網絡分類(Distributed Neural Network Classification, DNNC)算法。

1 相關工作

社會安全事件中,恐怖事件比重較大,嚴重破壞社會穩定與發展。為了減少恐怖事件的發生,降低恐怖事件的發生數量,世界各個國家各個科研機構都進行大量的研究人員投入。各個科研機構根據近40多年來收集的GTD,分析恐怖事件發生的原因,對恐怖事件進行分類,研究各個類別攻擊的不同點,以及各個類別之間存在的相關性,預測恐怖事件的發生,并對恐怖事件進行預警。

Freilich等[10]總結了社會安全事件中恐怖主義事件的一些特殊問題,概括了恐怖事件的各種描述方法，評估了各種描述方法之間的優缺點,加深了對社會安全事件中恐怖主義事件的理解。Meierrieks等[11]根據1984年—2007年共58個國家的樣本數據,研究了藥物生意對恐怖主義事件的影響,其研究結果表明藥物的上漲會減少社會安全事件中恐怖主義事件的發生。Lutz等[12]介紹了全球化的思想和恐怖主義事件的定義,分析了恐怖主義事件對旅游和外國投資的影響,得出全球化會導致社會混亂,社會混亂將導致恐怖主義事件的發生；反過來,恐怖主義事件會影響旅游業和外國投資。

Sakhare等[13]先對犯罪數據進行整體分析,根據1 000條犯罪記錄數據集抽取了20個犯罪特征,并運用J48決策樹算法對犯罪人員進行分類,通過混淆矩陣、TP(True Positive)率、FP(False Positive)率、分類精度、召回率、F檢驗、MCC(Matthews Correlation Coefficient)值等屬性檢驗J48算法決策樹的可靠性和穩定性,分類結果用于確定是否懷疑特殊人員可能進行犯罪。Sakhare等[14]提出了可以將數據挖掘算法運用在犯罪和刑事數據源方面,用于識別犯罪嫌疑人的犯罪活動,同時使用J48、樸素的貝葉斯和JRip算法對犯罪樣本和犯罪庫進行識別,識別率最高的算法用來識別潛在的犯罪嫌疑人,其實驗結果表明貝葉斯是最有效的和花費時間最少的算法。Joshi等[15]基于計算機處理器的分支預測技術提出了HB(History Bit)算法,該算法通過對屬性的優先級進行分類,根據分類的前后賦予不同分組的權重，其實驗結果表明,HB算法分類的準確性比傳統的貝葉斯和決策樹有顯著的提高。

Sivaraman等[5]基于GTD提出了一種集成決策樹分類算法。該算法集成J48、C4.5,通過提取17個恐怖事件攻擊相關屬性訓練集成決策樹,以實現恐怖事件攻擊類型識別，其實驗結果表明，與單一的決策樹算法相比,該算法在召回率和準確率方面有顯著提升。Sheikh[16]使用1970年—2014年的GTD恐怖事件數據,針對發生的恐怖事件進行預測建模,根據城市、攻擊類型、目錄類型、聲稱模式、武器的攻擊類型和動機等屬性通過分類技術對未來恐怖襲擊進行預測。Wu等[17]基于傳統的遞歸神經網絡開發了一個新型遞歸神經網絡,并建立一個Situation-Aware公共安全評估平臺,該平臺基于GTD為每個國家,預測恐怖襲擊風險水平，以及哪個國家最有可能受到潛在的恐怖組織的攻擊。Strang等[18]使用Hadoop大數據處理平臺在Google新聞上收集大量復雜的恐怖主義信息,運用統計產品與服務解決方案(Statistical Product and Service Solutions, SPSS)軟件分析恐怖組織的意識形態和恐怖襲擊類型的關系。

綜上所述,在面向社會安全的恐怖事件攻擊行為分類上,現有算法分類的準確性不高,為此本文提出的基于Spark平臺的DNNC算法以提高攻擊行為分類的準確性。將大數據處理技術運用在面向社會安全的恐怖攻擊行為分類問題,可以快速地從大量龐雜的數據堆里分析出有用的信息,挖掘數據的有用價值,提高社會安全事件攻擊行為分類的準確性。社會安全攻擊行為準確分類,可以提高社會安全事件分析的效率,可以更加準確地分析和總結出不同社會安全事件發生的原因,針對不同的類別的社會安全事件,應該如何進行提前防范和預警,降低事件發生帶來的損失。

2 基于Spark平臺的DNNC算法

2.1 Spark平臺

大數據時代下,出現很多大數據處理框架。在計算方面,主要有MapReduce框架[19-20]和Spark框架[21-22]。Spark是加州大學伯克利分校AMP(Algorithms, Machines, and People)實驗室開源的計算框架,基于內存計算的Spark在計算效率上是基于磁盤計算的MapReduce的100倍。Spark逐漸形成了自己的生態圈,如圖1所示,并成為Apache頂級項目,是現今最流行的開源分布式大數據計算平臺,非常適合迭代的機器學習任務[23]。

圖1 Spark生態圈

Spark生態圈即伯克利數據分析棧(Berkeley Data Analytics Stack, BDAS)包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等組件,Spark Core提供內存計算框架、Spark Streaming的實時處理應用、Spark SQL的即席查詢、MLlib或MLbase的機器學習和GraphX的圖處理,它們由加州大學伯克利分校AMP實驗室提供,能夠無縫地集成并提供一站式解決平臺。

2.2 DNNC算法

2.2.1 算法流程

源數據是對一個恐怖事件進行詳細描述,存在數據不規范、類型不統一、數據缺失、數據重復、數據異常等問題,無法直接對數據進行模型訓練,必須對源數據進行數據處理,隨后將預處理的數據傳入到分布式神經網絡進行模型訓練,實現面向社會安全恐怖事件分類。算法主要包括6個步驟:

1)數據抽取。

源數據中addnotes等屬性是對事件的一些補充描述,對攻擊行為分類關系不大,可直接刪去。summary屬性簡要介紹事件發生的過程，其中包括事件發生的時間、地點等,可以通過其他屬性進行表示,可直接刪去summary屬性。country和country_txt,region和region_txt等,存在重復定義,保留country、region等這類編號屬性,將文字描述屬性country_txt、region_txt等屬性直接刪去。Nhostkid等屬性在幾萬條事件記錄中只有3 000多條有對應的屬性值,數據嚴重缺失,提供的有用信息較少,直接刪去。通過對源數據進行數據抽取,刪除無用或者作用較小的屬性，保留有用的屬性。有用的屬性包括國家編號、地區編號、經度、維度、武器編號、死亡人數、受傷人數、目標子類型編號等。

2)數據轉換。

源數據經過數據抽取后,得到相對有價值的數據,該數據類型也存在一定的規范性,但還是無法直接進行模型訓練,抽取后的數據存在的主要問題是數據類型不統一,有的屬性字段是日期類型,有的是字符串類型,有的是數值類型等。模型訓練需要的數據是量化后的數值類型數據,針對無法進行計算的非數值型屬性字段,需要進行數據類型轉換，例如對字符串類型的數據,通過按英文字母排序,將排序的編號作為該屬性的一個映射值。

3)數據預處理。

數據預處理階段主要完成填充缺失數據值、刪除異常值數據和重復數據。缺失值填充主要使用拉格朗日插值法；對異常值數據主要采用箱型圖分析法來檢查重復數據,對重復的數據記錄只保留其中一條。

4)數據規范化。

不同評價指標往往具有不同的量綱,數值間的差別可能很大,不進行處理會影響數據分析的結果。為了消除指標之間的量綱和取值范圍差異的影響,需要進行標準化處理,將數據按照比例進行縮放,使之落入一個特定的區域,以便于進行綜合分析。本文使用最小-最大值規范化也稱為離差標準化,對原始數據進行線性變換,將數值映射到區間[0,1]內,轉換公式如式(1)所示:

(1)

其中:max為樣本數據的最大值;min為樣本數據的最小值；max-min為極差。離差標準化保留原來數據中存在的關系,是消除量綱和數據取值范圍影響的最簡單方法。

5)數據相關性分析。

數據進行規范化之后就可以直接運用于模型的訓練。為了進一步提高模型的可靠性,還需對數據各屬性進行相關性分析,對每個屬性則進行兩兩相關性計算,相關性分析主要使用Person相關系數,兩個屬性存在較高的相關性,即Person相關系數接近1,在兩個屬性中舍棄與目標屬性相關性較低的屬性。

6)模型訓練與事件分類。

將處理后的數據作為模型的輸入數據，同時為模型設置初始化參數，然后對模型進行訓練。訓練結束后，可以獲得各個神經網絡層的權重，通過權重可以得面向社會安全分類模型，最后對社會安全事件進行分類。

2.2.2 算法設計

基于Spark分布式平臺實現分布式神經網絡算法對社會安全事件攻擊行為進行分類,系統整體結構如圖2所示。

圖2展示了分布式神經網絡系統整體結構,整個系統搭建在Spark分布式平臺上,數據存儲使用分布式文件系統。整個系統包含4個節點,也就是4臺主機,分別是1臺Master和3臺Worker。Master節點是控制節點,進行任務調度和分配;Worker節點是計算節點,進行模型訓練。

圖2 分布式神經網絡系統整體結構

Worker節點都是使用三層前饋神經網絡,輸入層有n個神經元,隱含層有p個神經元,輸出層有m個神經元。社會安全事件攻擊行為數據,在經過數據處理后生成規范的數據,存儲在分布式文件系統,長度為n的社會安全事件攻擊行為序列數據x=x1x2…xn,則分別輸入到計算節點進行計算,其他變量和函數的定義如下。

隱含層輸入向量:g=(g1,g2,…,gp)

隱含層輸出向量:h=(h1,h2,…,hp)

輸出層輸入向量:s=(s1,s2,…,sm)

輸出層輸出向量:y=(y1,y2,…,ym)

期望輸出向量:d=(d1,d2,…,dm)

輸入層到隱含層的連接權值:wih

隱含層到輸出層的連接權值:who

隱含層各神經元的閾值:bh

輸出層各神經元的閾值:bo

樣本數據個數:k=1,2,…,t

權重學習率:η

利用輸出層各神經元的y(k)和隱含層各神經元的輸出來修正連接權值who(k):

(2)

(3)

利用隱含層各神經元的h(k)和輸入層各神經元的輸入修正連接權值wih(k):

(4)

(5)

計算全局誤差:

(6)

面向社會安全事件的分布式神經網絡系統中,Master節點進行權重的廣播和權重的回收,Worker節點獲取Master節點廣播的權重,進行模型訓練。詳細構成如下:

1)Master節點進行初始化模型參數，隨機生成初始權重,并通過broadcast(廣播)的方式把模型的初始化參數和初始權重傳到各個Worker節點上。

2)各個Worker節點根據broadcast得到模型的初始化參數和初始化權重,對各自的神經網絡模型進行初始化,根據分配的數據訓練神經網絡模型,調整權重,使誤差值e不斷減小。訓練結束后,將最終調整的權重傳遞給Master節點。

3)Master節點收集各個Worker節點的權重,計算更新權重w′,判斷全局誤差最小值是否小于設定值,或者循環次數是否達到設定值：兩個條件有一個成立,結束循環，全局誤差最小的權重作為最終模型的訓練參數,得到社會安全事件攻擊行為分類模型；兩個條件都沒有達到,進行步驟4)。

4)將更新權重w′重新broadcast到各個Worker節點。各個Worker節點進行新一輪的循環。

基于BP神經網絡和分布式系統架構設計DNNC算法。

算法1 DNNC算法。

輸入攻擊行為類型識別輸入樣本x。

輸出模型訓練后的權重wih和who。

1)Master節點:初始化權重wih=rand(-1,1),who=rand(-1,1),bh=rand(-1,1),bo=rand(-1,1),并將初始化參數進行廣播。

2)Worker節點:分別根據式(2)、(4)計算權重更新量Δwho和Δwih(k)。

3)Worker節點:分別根據式(3)、(5)計算更新權重,根據式(6)計算全局誤差,并將更新權重和全局誤差傳回Master節點。

4)Master節點:根據傳回的權重進行權重,并將權重從新分發給各個Worker節點。

5)重復2)～4),直到全局誤差小于設定值或者循環次數到達最大值。

3 實驗與分析

3.1 實驗環境

實驗使用的測試平臺為搭建的Spark分布式集群,集群規模為本校計算中心分配的4個虛擬計算節點,每個節點的操作系統為Centos6.5,4核CPU,內存為16 GB,存儲為50 GB,Hadoop版本為2.6.5,Spark版本為1.6.0,開發環境為IDEA2016.2.5。

3.2 數據集

本文實驗使用了GDT全球恐怖事件數據庫2012年—2015年的47 000多條記錄,源數據記錄了恐怖事件的事件編號、國家、地區、事件發生的經度、事件發生的緯度、攻擊類型等80個屬性,數據集的部分數據如表1所示。

表1 全球恐怖事件數據集的部分數據

根據GTD,對數據進行攻擊行為分類統計,統計信息如表2所示。

表2 攻擊行為分類統計信息

3.3 模型訓練

分布式神經網絡結構為三層：第一層是輸入層,第二層是隱含層,第三層是輸出層。輸入神經元個數為10,隱含神經元個數為15,輸出神經元個數為8;每組數據量為50個；最大循環次數1 000；數據訓練集和測試集比例為4∶1；隱含層激活函數為tanh()；初始學習率為2.0;學習率調整比例為1.0,輸出函數為sigm()。

3.4 實驗結果對比

模型訓練完成后,得到分布式神經網絡模型權重wih和who，根據得到的權重進行攻擊類型識別,本文提出的DNNC算法的識別準確率如表3所示。

表3 DNNC算法的識別準確率

本文算法與決策樹算法和集成決策樹算法[5]的比較結果如表4所示。

表4 幾種算法準確率比較

實驗結果表明：本文提出的DNNC算法僅部分攻擊類型上識別準確率有所下降(主要因為DNNC考慮的是全局最優)，但總體優勢明顯。DNNC算法的平均準確率比決策樹算法提升15.90個百分點，比集成決策樹算法提升8.60個百分點。DNNC算法對社會安全事件進行分類,能更加準確地學習各個屬性與分類目標之間存在的關系,通過各個層之間的變換,關聯各個屬性,挖掘各個屬性之間存在的隱含關系,相對于決策樹,每次只考慮一個屬性值進行決策分類,更具有優勢,分類準確性更高。

4 結語

本文分析了恐怖事件攻擊行為的數據特征,從數據的層面挖掘攻擊行為與哪些屬性具有相關性、哪些屬性影響攻擊行為的類別;同時提出了分布式神經網絡分類算法,來解決恐怖事件攻擊行為分類問題。神經網絡的非線性擬合特性可以準確地構建恐怖事件攻擊行為分類模型,而Spark作為基于內存計算的分布式平臺,非常適合反復進行迭代的神經網絡算法,能提高神經網絡訓練速度。結合神經網絡和Spark分布式平臺的優勢,將其運用于恐怖事件攻擊行為的分類,比傳統的恐怖事件分類算法更有優勢,識別率更高。但從社會安全事件攻擊行為分類問題上看,對于樣本數量較小的攻擊類別的識別率還需要進一步提高。從大數據背景看,對分布式神經網絡算法訓練速度的提高,也將是下一步工作研究的重點。

References)

[1] 國務院. 國家突發公共事件總體應急預案[J]. 中國中醫基礎醫學雜志, 2006, 12(1):77-79.(State Council. National emergency response plan for public emergencies [J]. Chinese Journal of Basic Medicine in Traditional Chinese Medicine,2006, 12(1):77-79.)

[2] 孫越恒, 王文俊, 遲曉彤, 等. 基于多維時間序列模型的社會安全事件關聯關系挖掘與預測[J]. 天津大學學報 (社會科學版), 2016, 18(2): 97-102. (SUN Y H, WANG W J, CHI X T, et al. Correlation mining and prediction of social security events based on multi-dimensional time series model[J]. Journal of Tianjin University (Social Sciences), 2016, 18(2): 97-102.)

[3] BACKER D A, BHAVNANI R, HUTH P K. Peace and Conflict 2016[M]. Oxford: Routledge, 2016: 67.

[4] KLUCH S P, VAUX A. The non-random nature of terrorism: an exploration of where and how global trends of terrorism have developed over 40 years[J]. Studies in Conflict amp; Terrorism, 2016, 39(12): 1031-1049.

[5] SIVARAMAN R, SRINIVASAN S, CHANDRASEKERAN R M. Big data on terrorist attacks: an analysis using the ensemble classifier approach[EB/OL]. [2017- 01- 10]. http://edlib.net/2015/icidret/icidret2015042.pdf.

[6] 焦李成, 楊淑媛, 劉芳, 等. 神經網絡七十年: 回顧與展望[J]. 計算機學報, 2016, 39(8): 1697-1716. (JIAO L C, YANG S Y, LIU F, et al. Seventy years beyond neural networks: retrospect and prospect [J]. Chinese Journal of Computers, 2016, 39(8): 1697-1716.)

[7] 劉暢. BP神經網絡的權值快速計算法及其逼近性能分析[J]. 科技視界, 2016(11): 130-131. (LIU C. Fuzzy calculation method and approximation performance analysis of BP neural network [J]. Science amp; Technology View, 2016(11): 130-131.)

[8] SALEHIAN S, YAN Y. Comparison of spark resource managers and distributed file systems[C]// Proceedings of the 2016 IEEE International Conferences on Big Data and Cloud Computing, Social Computing and Networking, Sustainable Computing and Communications. Piscataway, NJ: IEEE, 2016: 567-572.

[9] LIU T, FANG Z, ZHAO C, et al. Parallelization of a series of extreme learning machine algorithms based on spark[C]// Proceedings of the 2016 IEEE/ACIS 15th International Conference on Computer and Information Science. Piscataway, NJ: IEEE, 2016: 1-5.

[10] FREILICH J D, LAFREE G. Measurement issues in the study of terrorism: introducing the special issue[J]. Studies in Conflict and Terrorism, 2016, 39(7/8): 569-579.

[11] MEIERRIEKS D, SCHNEIDER F. The short-and long-run relationship between the illicit drug business and terrorism[J]. Applied Economics Letters, 2016, 23(18): 1274-1277.

[12] LUTZ B J, LUTZ J M. Globalization, terrorism, and the economy[M]// LUTZ B J, LUTZ J M. Globalization and the Economic Consequences of Terrorism. Berlin: Springer, 2017: 1-30.

[13] SAKHARE N N, JOSHI S A. Classification of criminal data using J48-decision tree algorithm[J]. IFRSA International Journal of Data Warehousing amp; Mining, 2014, 4(3): 167-171.

[14] SAKHARE N, JOSHI S. Criminal identification system based on data mining[C]// Proceedings of the 3rd International Conference on Recent Trends in Engineering and Technology. Chandwad, Nashik, India: [s.n.], 2014.

[15] JOSHI S, SAKHARE N. History bits based novel algorithm for classification of structured data[C]// Proceedings of the 2015 IEEE International Advance Computing Conference. Piscataway, NJ: IEEE, 2015: 609-612.

[16] SHEIKH H R. Use of predictive modeling for prediction of future terrorist attacks in Pakistan[EB/OL]. [2017- 01- 10]. http://koha.isra.edu.pk: 8080/jspui/handle/123456789/59.

[17] WU S, LIU Q, BAI P, et al. SAPE: a system for situation-aware public security evaluation[C]// Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence. Menlo Park: AAAI Press, 2016: 4401-4402.

[18] STRANG K D, SUN Z. Analyzing relationships in terrorism big data using Hadoop and statistics[J]. Journal of Computer Information Systems, 2017, 57(1): 67-75.

[19] DEAN J, GHEMAWAT S. MapReduce: simplified data processing on large clusters[J]. Communications of the ACM, 2008, 51(1): 107-113.

[21] ZAHARIA M, CHOWDHURY M, FRANKLIN M J, et al. Spark: cluster computing with working sets[C]// HotCloud 2010: Proceedings of the 2nd USENIX Conference on Hot Topics in Cloud Computing. Berkeley: USENIX Association, 2010: 10.

[22] ZAHARIA M, CHOWDHURY M, DAS T, et al. Resilient distributed datasets: a fault-tolerant abstraction for in-memory cluster computing[C]// Proceedings of the 9th USENIX Conference on Networked Systems Design and Implementation. Berkeley: USENIX Association, 2012: 2.

[23] MENG X, BRADLEY J, YUVAZ B, et al. MLlib: machine learning in Apache Spark[J]. The Journal of Machine Learning Research, 2016, 17(1): 1235-1241.

Distributedneuralnetworkforclassificationofattackbehaviortosocialsecurityevents

XIAO Shenglong1*, CHEN Xin1, LI Zhuo1,2

(1.SchoolofComputerScience,BeijingInformationScienceandTechnologyUniversity,Beijing100101,China;2.BeijingKeyLaboratoryofInternetCultureandDigitalDissemination,Beijing100101,China)

In the era of big data, the social security data becomes more diverse and its amount increases rapidly, which challenges the analysis and decision of social security events significantly. How to accurately categorize the attack behavior in a short time and support the analysis and decision making of social security events becomes an urgent problem needed to be solved in the field of national and cyberspace security. Aiming at the behavior of aggression in social security events, a new Distributed Neural Network Classification (DNNC) algorithm was proposed based on the Spark platform. The DNNC algorithm was used to analyze the related features of the attack behavior categories, and the features were used as the input of the neural network. Then the function relationship between the individual features and attack categories were established, and a neural network classification model was generated to classify the attack categories of social security events. Experimental results on the data provided by the global terrorism database show that the proposed algorithm can improve the average accuracy by 15.90 percentage points compared with the decision tree classification, and by 8.60 percentage points compared with the ensemble decision tree classification, only decreases the accuracy on part attack type.

social security; big data; Spark distributed system; neural network; classification algorithm

2017- 04- 24;

2017- 06- 14。

國家自然科學基金資助項目(61370065,61502040);國家科技支撐計劃項目(2015BAK12B00)。

肖圣龍(1991—),男,福建莆田人,碩士研究生,主要研究方向:大數據分析、網絡安全; 陳昕(1965—),男,江西南昌人,教授,博士生導師,博士,CCF高級會員,主要研究方向:大數據分析、網絡安全; 李卓(1983—),男,河南南陽人,講師,博士,CCF會員,主要研究方向:移動無線網絡、分布式計算。

1001- 9081(2017)10- 2794- 05

10.11772/j.issn.1001- 9081.2017.10.2794

TP391.41

This work is partially supported by the National Natural Science Foundation of China (61370065, 61502040), the National Key Technology Research and Development Program of the Ministry of Science and Technology of China (2015BAK12B00).

XIAOShenglong, born in 1991, M. S. candidate. His research interests include big data analysis, network security.

CHENXin, born in 1965, Ph. D., professor. His research interests include big data analysis, network security.

LIZhuo, born in 1983, Ph. D., lecturer. His research interests include mobile wireless network, distributed computing.