


摘 要:通過對全球恐怖主義數據庫(GTD)進行分析,為未來反恐防恐行動提供有價值的信息支持,提出利用大數據挖掘方法對未來反恐態勢進行分析。首先采用N-gram模型對原始數據中的motive屬性進行挖掘,分析恐怖襲擊事件發生的主要動機。其次通過AR自回歸模型,對恐襲造成的死亡人數進行預測。最后通過構建TreeMap圖,展示未來全球某些重點地區的反恐態勢,從恐怖事件發起動機、死亡人數、重點地區3個方面對未來恐怖襲擊進行預測。實驗結果顯示,采用大數據分析預測精度較高。
關鍵詞:N-gram模型;AR自回歸模型;TreeMap圖;自然語言處理
DOI:10. 11907/rjdk. 182602 開放科學(資源服務)標識碼(OSID):
中圖分類號:TP301文獻標識碼:A 文章編號:1672-7800(2019)007-0028-04
Research on Future Counter-terrorism Situation Based on Big Data Analysis
MAO Wei
(School of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Technology,Shanghai 200093,China)
Abstract: The analysis of data in the global terrorism database (GTD) can provide reliable and valuable information support for future counter-terrorism and counter-terrorism operations. This paper proposes the method of big data mining to analyze and study the future counter-terrorism situation. First, n-gram model is used to mine motive attributes in original data and analyze the main motivation of terrorist attacks. Secondly, AR autoregressive model was used to predict the death toll caused by terrorist attacks. Finally, TreeMap map was constructed to show the counter-terrorism situation in some key regions of the world in the future. The obtained results are used to predict future terrorist attacks from three aspects: the motivation of terrorist incidents, the number of deaths, and key areas. Experimental results show that the prediction accuracy of big data analysis is relatively high.
Key Words: N-gram model; AR autoregressive model; TreeMap diagram; natural language processing
作者簡介:冒偉(1993-),男,上海理工大學光電信息與計算機工程學院碩士研究生,研究方向為機器學習、自然語言處理。
0 引言
2001年9月11日美國發生恐怖襲擊事件已經過去了17年。恐怖襲擊不僅造成重大人員傷亡和財產損失,而且給世界帶來巨大的心理陰影,嚴重擾亂社會秩序,阻礙世界經濟發展。在信息時代,通過對恐怖襲擊事件相關數據進行分析,了解受害者、兇手、傷亡和后果等信息,可更深入探尋近20年恐怖襲擊事件發生規律,為未來的反恐防恐行動提供有價值的信息支持。
文獻[1]提出應用改進神經網絡模型對恐怖襲擊進行預測,利用BP神經網絡實現風險指數預測,并結合遺傳算法優化神經網絡的初始值和閾值。但該方法預測模型的外推年份由專家評估而定,存在一定的主觀性,而且使用遺傳算法對BP神經網絡進行改進,時間復雜度較高。文獻[2]利用隱馬爾可夫模型與貝葉斯網絡方法,通過分析一些先前發生的事件預測未來一段時間可能發動的恐怖活動。該方法檢測過程獲取的情報信息較少,一定程度上影響了模型結果的精確度。文獻[3]利用改進的隨機森林算法對犯罪進行預測,但由于缺少實際應用數據,分類精度和分類可靠性得不到保證。文獻[4]利用加權貝葉斯方法預測恐怖組織行為,所提算法在準確度及時間復雜度上優于CAPE算法,但存在計算繁瑣、耗時長等問題。
針對以上問題,本文對全球恐怖主義數據庫(GTD)中1998-2017年世界發生的恐怖襲擊事件記錄進行分析。首先采用自然語言處理中常用的N-gram模型對原始數據中的motive屬性進行挖掘[5],分析恐怖襲擊事件發生的主要動機。具體采用二元Bi-gram和三元Tri-gram生成詞云方法[6-7],分析出大部分恐襲事件動機與宗教暴力及武裝暴力有關[8]。其次,通過對歷史數據進行分析,得出歷年恐襲造成的死亡人數隨時間變化折線圖,將2014年后的數據作為訓練對象,通過AR自回歸模型[9-11],對2018年恐襲造成的死亡人數進行預測,結果為18 934人左右。通過繪制歷年各地區恐襲死亡人數折線圖,分析出中東、北亞、南亞和亞撒哈拉地區是近幾年恐襲死亡人員重災區。最后,通過構建TreeMap圖,獲得歷史上國家死亡人數和受傷人數樹形圖,發現伊拉克、尼日利亞、阿富汗、敘利亞是全球恐怖襲擊重災區,需要動用國際力量重點防范。
1 數據預處理
(1)動機(motive)分析。需對全球恐怖主義數據庫(GTD)中motive字段中出現的常見詞/無意義的詞進行過濾,如“Unknown”,“attack”,“specific”,“motive”,“sources”,“unknown”,“claimed”,“targeted”,“carried”,“noted”,“incident”,“stated”,“responsibility”,“the”,這些詞沒有包含有價值的信息,會對分析產生干擾。
(2)時間特性分析。主要關注事件死亡人數和受傷人數。從死亡人數出發去評判襲擊事件影響程度、地區受災程度以及預測來年可能產生的恐怖襲擊所造成的死亡人數,預測未來幾年恐怖襲擊態勢。
2 模型建立
動機分析指挖掘恐怖襲擊兇手的主要作案動機[13-14]。通過挖掘原始數據里的motive屬性,對動機進行詳細分析[15-16]。采用自然語言處理中常用的N-gram模型[17],它是一種基于統計語言模型的算法,其基本思想是將文本里的內容按照字節進行大小為n的滑動窗口操作,從而形成長度是n 的字節片段序列。每一個字節片段稱為gram,再對所有gram的出現頻度進行統計,并且按照事先設定好的閾值進行過濾,形成關鍵gram列表,也就是該文本的向量特征空間,列表中的每一種gram就是一個特征向量維度。該模型基于馬爾科夫假設,即假設在一段文本中第N個詞的出現只與前面n-1個詞相關,與其它任何詞都不相關。基于這樣一種假設,可以評估文本中每個詞出現的概率,整句的概率就是各個詞出現概率的乘積,這些概率可通過直接從語料中統計N個詞同時出現的次數得到。本文采用常用的二元Bi-Gram和三元Tri-Gram生成詞云[18]。
針對時空分析,采用自回歸AR模型預測2018年恐怖襲擊可能造成的死亡人數。自回歸模型是一種用于處理時間序列預測的回歸模型,是用同一變量之前的表現情況預測該變量本期的表現。本文中需要預測的變量即為2018年恐怖襲擊造成的死亡人數,而訓練數據即為往年的死亡人數。
3 模型求解
3.1 動機分析
動機分析采用基于N-gram模型的關鍵詞提取算法,具體流程如下:
求解過程偽代碼:
輸入:[(w1,w2,w3,?,wn)]
計算:[P(w1,w2?,wm)=P(w1)*P(w2|w1)*P(w3|w1,w2)?][P(wm|][w1,w2,?,wm-1)]
二元-gram模型計算公式: [P(w1,w2,?,wm)=i=1mP][(wi|wi-1)]
三元-gram模型計算公式: [P(w1,w2,?,wm)=i=1mP][(wi|wi-2,wi-1)]
輸出:概率最大的N個[(w1,w2,w3,?wn)]詞序列
根據計算結果,使用二元Bi-gram和三元Tri-gram生成的詞云如圖1、圖2所示。其中詞短語越大其出現的概率越高,也相對更重要。
圖1 二元Bi-gram模型詞云
圖2 三元Tri-gram模型詞云
根據詞云生成結果,可發現最常見的詞組包括:“trend sectarian violence”,“larger sectarian violence”,“larger trend violence”,“sectarian violence iraqs”,“trend violence related”,“violence iraqs sunni”,“iraqs sunni minority”等。
通過對這些常見詞組分析得到如下結論:①大部分恐怖襲擊事件的動機都和宗教暴力及武裝暴力有關;②伊拉克是恐怖襲擊的重災區;③larger 等詞匯暗示了近幾年恐怖襲擊的程度與規模還會繼續增長。
3.2 時空特性分析
為對未來態勢進行較為準確的評估,首先需要對歷史數據進行分析。以時間年份為橫坐標,死亡人數為縱坐標,繪制歷年恐襲造成的死亡人數折線圖,如圖3所示。
圖3 歷年恐襲造成的死亡人數折線
通過對圖3進行分析,可以很直觀地看出2014年是恐怖襲擊造成死亡人數最多的年份,此后死亡人數呈線性降低態勢。截取2014年后的數據作為訓練數據,因為其符合AR自回歸模型所要求的變量之間存在線性關系的要求。利用自回歸模型對2018年死亡人數進行預測,模型公式如下:
[X=c+i=1pφiXt-i+εt]? ? ?(1)
式(1)中,c是常數項,[εt]為隨機誤差值。通過計算,預測2018年死亡人數應該在 18 934左右。
圖4 2018年恐襲死亡人數預測
4 反恐態勢預測
為研究下一年全球或某些重點地區的反恐態勢,繪制歷年各地區恐怖襲擊造成的死亡人數折線圖,如圖5所示。從圖5可以發現,中東、北亞、南亞和亞撒哈拉地區是這幾年死亡人數重災區域,其中,中東、北亞、南亞都有放緩趨勢,但是亞撒哈拉地區2017年略有增長,從而判斷其在2018年可能會有小幅增長。對重點反恐地區進行預測,構建TreeMap圖[19-20],從而獲得歷史上國家死亡人數和受傷人數樹形圖,如圖6所示。圖6中,正方形面積越大,代表該國家該年份恐怖襲擊造成的死亡人數越多,同時顏色越深,代表恐怖襲擊造成的受傷人數越多。
圖5 歷年恐襲造成的各地區死亡人數
圖6 各國歷年恐襲造成死亡/受傷人數
從圖6可以發現,伊拉克、尼日利亞、阿富汗、敘利亞仍是恐怖襲擊的重災區,雖然死亡人數逐年下降,但其規模從全球角度看依然很大,因此這些地區需要重點防范。
5 結語
采用N-gram模型有效挖掘了恐怖襲擊的常見動機,并通過詞云進行可視化分析,形象直觀。使用自回歸模型對恐怖襲擊可能造成的死亡人進行量化預測,從而有效預測未來的恐怖襲擊事態。構建了TreeMap圖,從樹狀圖中可以發現,伊拉克、尼日利亞、阿富汗、敘利亞仍然是恐怖襲擊重災區。本文采用大數據挖掘方法,有效分析預測了全球恐怖事件發展態勢,較傳統方法在預測精度上有了顯著提高。
參考文獻:
[1] 項寅. 基于改進神經網絡的恐怖襲擊風險預警系統[J]. 災害學, 2018(1):32-33.
[2] 戰兵,韓銳. 基于隱馬爾可夫的恐怖事件預測模型[J]. 解放軍理工大學學報:自然科學版,2015,16(4): 386-393.
[3] 孫菲菲,曹卓,肖曉雷. 基于隨機森林的分類器在犯罪預測中的應用研究[J]. 情報雜志,2014,33(10): 148-152.
[4] 薛安榮,毛文淵,王孟頔,等. 基于貝葉斯方法和變化表的恐怖行為預測算法[J]. 計算機科學,2016, 43(12): 130-134.
[5] TRIPATHY A,AGRAWAL A,RATH S K. Classification of sentiment reviews using n-gram machine learning approach[J]. Expert Systems with Applications, 2016(57):117-126.
[6] DURRANI N,SCHMID H,FRASER A,et al. The operation sequence model—combining n-gram-based and phrase-based statistical machine translation[J]. Computational Linguistics,2015,41(2): 185-214.
[7] POPOVI? M. Chrf: character n-gram f-score for automatic mt evaluation[C]. Proceedings of the Tenth Workshop on Statistical Machine Translation,2015: 392-395.
[8] GOLDWATER S. Anlp lecture 6 n-gram models and smoothing[EB/OL]. https://onlinelibrary.wiley.com/journal/18673899,2018.
[9] WANG C,CHAN K S. Quasi-likelihood estimation of a censored autoregressive model with exogenous variables[J]. Journal of the American Statistical Association, 2018, 113(523): 1135-1145.
[10] PALM B G, ALVES D I, VU V T, et al. Autoregressive model for multi-pass sar change detection based on image stacks[C]. Image and Signal Processing for Remote Sensing XXIV,International Society for Optics and Photonics, 2018.
[11] KALLIOVIRTA L, MEITZ M, SAIKKONEN P. A gaussian mixture autoregressive model for univariate time series[J]. Journal of Time Series Analysis, 2015, 36(2): 247-266.
[12] 褚曉敏,朱巧明,周國棟. 自然語言處理中的篇章主次關系研究[J]. 計算機學報,2017,40(4): 842-860.
[13] CONNEAU A,SCHWENK H,BARRAULT L,et al. Very deep convolutional networks for natural language processing[J]. arXiv preprint, 2016(4):394-399.
[14] BROWN D, DALTON J, HOYLE H. Spatial forecast methods for terrorist events in urban environments[C].International Conference on Intelligence and Security Informatics. Springer, Berlin, Heidelberg, 2004: 426-435.
[15] CLAUSET A,WOODARD R. Estimating the historical and future probabilities of large terrorist events[J]. The Annals of Applied Statistics, 2013, 7(4): 1838-1865.
[16] NAJGEBAUER A,ANTKIEWICZ R,CHMIELEWSKI M,et al. The prediction of terrorist threat on the basis of semantic association acquisition and complex network evolution[J]. Journal of Telecommunications and Information Technology, 2008(3): 14-20.
[17] 吳應良,韋崗,李海洲. 一種基于 N-gram 模型和機器學習的漢語分詞算法[J]. 電子與信息學報, 2001, 23(11): 1148-1153.
[18] 徐志明,王曉龍. N-gram 語言模型的數據平滑技術[J]. 計算機應用研究,1999,16(7): 37-39.
[19] 艾廷華,周夢杰,陳亞婕. 專題地圖屬性信息的 LOD 表達與 TreeMap 可視化[J]. 測繪學報,2014,42(3): 1-3.
[20] 周寧,陳旭毅,曾楨. 主題數據模型的可視化挖掘方法應用研究[J]. 數據分析與知識發現,2010,26(7/8):22-26.
(責任編輯:杜能鋼)