999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向涉恐領域的知識圖譜構建方法*

2019-09-17 00:39:58廖浚斌何小海王正勇卿粼波
網絡安全與數據管理 2019年9期
關鍵詞:信息

廖浚斌,周 欣,2,何小海,王正勇,卿粼波

(1.四川大學 電子信息學院,四川 成都 610065;2.中國信息安全測評中心,北京 100085)

0 引言

目前,世界處于網絡時代,各領域的信息呈爆炸式增長。涉恐信息零散地分布在海量的數據中[1],包括涉恐分子信息、涉恐組織信息、涉恐事件信息以及反恐策略等信息。如果能夠有效地獲取、組織及利用這些信息,將對各個國家在反恐、防恐工作中起到重要的促進作用。為了幫助相關人員對多元化的涉恐信息進行更好的分析及表達,需要建立一個基于涉恐領域的知識圖譜。涉恐領域知識圖譜的建立可以將海量的涉恐信息整合成結構化的有意義的知識,極大程度地方便了安全人員對涉恐人員及組織的分析[2]。

1 涉恐領域知識圖譜實現流程

涉恐領域知識圖譜技術路線如圖1所示。具體流程為:(1)數據獲取,使用分布式爬蟲技術采集互聯網上已存在的非結構化數據和半結構化數據;(2)信息抽取,對于半結構化數據,需要根據其數據結構特征提取出人物、組織等實體和實體間的關系信息,對非結構化數據需要進行信息抽取,如采用實體識別[3-4]、關系抽取以及屬性抽取等技術,最終使數據通過三元組的方式進行鏈接;(3)實體對齊,借助構建的涉恐領域本體庫來輔助判斷數據中任意兩個實體是否指向真實世界同一對象,消除異構數據中的實體沖突、實體間指向不明等實體間的指向二義性問題[5];(4)通過構建的本體庫對數據進行推理補充,進一步完善數據,最終形成涉恐領域的知識圖譜。

1.1 數據采集

本知識圖譜主要從互聯網數據中獲取與恐怖主義相關的人物與組織信息,這些信息主要以兩種形式存在:半結構化的形式和非結構化的形式。第一類數據主要是各種社交媒體數據,如維基百科、FaceBook、Twitter等。第二類數據來源主要以政府網站、新聞媒體網站以及各研究機構的公開網站為主,該類型網站的數據往往以非結構化的文本形式存在。針對以上兩類信息,考慮到其信息量的巨大,本文采用分布式爬蟲進行數據的采集。分布式爬蟲架構如圖2所示。

圖1 涉恐領域知識圖譜實現流程

圖2 分布式爬蟲架構

分布式爬蟲由三部分組成:(1)集中的統一資源定位符(Uniform Resource Locator,URL)調度管理和分配,即URL倉庫;(2)爬蟲節點;(3)數據存儲。URL倉庫負責對URL隊列進行管理并將URL分配給各爬蟲節點;爬蟲節點由多個子節點構成,每個子節點負責獲取和解析不同網站的數據,最終將爬取的數據存儲到數據庫中。

1.2 實體關系抽取

實體關系抽取是指從文本信息中提取出實體之間隱含關系的方法,是實現知識圖譜的關鍵技術之一[6]。本文在構建涉恐領域知識圖譜時應用BI-GRU+Att模型完成了文本信息中實體的關系抽取任務,模型結構如圖3所示。

圖3 BI-GRU+Attention模型

其中,門控循環單元(GRU)網絡是循環神經網絡的一種變體[7],可以有效地克服循環神經網絡無法很好處理遠距離依賴的問題;而注意力機制可以增大關鍵詞的注意力權重,使得神經網絡更關注與關鍵詞相關的上下文信息[8]。

1.3 涉恐領域本體庫構建

本體是對特定領域中的概念及其相互關系的形式化表達,是同一領域不同主體進行交流、連通的基礎[8-10],其相鄰層節點之間具有嚴格的從屬關系。在知識圖譜中,本體庫是用于管理知識圖譜的模式層,用于描述概念層次體系,是知識圖譜中知識的概念模板。通過本體庫形成的知識圖譜層次結構分明、冗余度小[11]。本文使用Protege本體庫構建工具進行涉恐領域本體庫的構建,Protege軟件是語義網中本體構建的核心開發工具。

2 涉恐領域知識圖譜實現

本節將主要對數據爬取、實體的關系抽取和本體庫構建的實驗進行說明。

2.1 數據爬取

本文使用的涉恐領域的人物及組織信息主要從維基百科網站進行爬取,另外通過對反恐怖主義信息網、環球網等網站的爬取獲取更多的信息。總計獲取人物實例數據1 000條,組織實例數據200條。爬取的人物實例之一如表1所示,組織實例之一如表2所示。

表1 人物信息

表2 組織信息

2.2 關系抽取

本文使用BI-GRU+Att模型對隱含在涉恐人物和組織數據中的關系進行抽取,結果如表3所示。

表3 本文應用模型評價

從表3可以看出,本文針對涉恐信息的關系抽取方法由于網絡結構簡單,且使用字符級向量作為輸入,所以得到了較高的準確率。因此可以證明本文針對涉恐信息的關系抽取任務使用的關系抽取模型有一定的效果,但還有一定的提升空間。表4為人物關系抽取的實例展示,表5為組織關系抽取的實例展示。

表4 人物關系實例

表5 組織關系實例

從表4、表5可以得知,本文模型可以較好地從文本中抽取出實體間隱含的關系。

2.3 本體庫的構建

本文構建的人物本體庫與組織本體庫的類同屬于超類“Thing”,統稱為涉恐領域本體庫的類,本體庫的類結構如圖4所示。

圖4 類層次結構圖

其中人物庫的類包括人物類(People)和地點類(Location),而組織庫的類包括組織類(organization)、事件類(Event)和地點類(Location)。

2.4 涉恐領域知識圖譜可視化

本文通過使用非關系型圖數據庫Neo4j將通過上述流程所得的信息轉換為圖數據庫。圖5為知識圖譜部分節點的可視化展示。圖中展示的是與國家民主聯盟組織節點相關的節點。

圖5 知識圖譜可視化

3 結論

本文首先使用了分布式爬蟲技術從互聯網中爬取涉恐領域的人物與組織數據,然后利用BI-GRU+Att模型等技術實現對信息的抽取,并構建了涉恐領域的本體庫,最終實現涉恐領域的知識圖譜以及使知識圖譜可視化。因為本文的研究重點集中于特定領域的知識圖譜實現,而針對基于知識圖譜的應用的研究尚處于初級階段,所以在未來的工作中將進一步研究基于知識圖譜的問答等應用領域,以便更好地滿足涉恐領域的需求。

猜你喜歡
信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息超市
大眾創業(2009年10期)2009-10-08 04:52:00
展會信息
展會信息
展會信息
展會信息
展會信息
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 毛片最新网址| 久久久久国产一级毛片高清板| 亚洲日本中文综合在线| 国产成人夜色91| 久久国产精品影院| 国产色伊人| 欧美激情视频在线观看一区| 国产一区二区免费播放| 18禁黄无遮挡网站| 中文字幕色在线| 一级毛片在线免费视频| 四虎亚洲国产成人久久精品| 国产成人综合日韩精品无码不卡| 欧美日韩精品综合在线一区| 香蕉在线视频网站| 992tv国产人成在线观看| 国产一级裸网站| 天堂在线亚洲| 午夜精品国产自在| 亚洲色图欧美在线| 伊人成人在线| 色呦呦手机在线精品| 欧美成人免费午夜全| 成人免费视频一区二区三区 | 国产精品视频久| 香蕉视频在线观看www| 久久九九热视频| 久久人人妻人人爽人人卡片av| 国产又爽又黄无遮挡免费观看| 国产人碰人摸人爱免费视频| 国产最爽的乱婬视频国语对白 | 91精品国产自产91精品资源| 九色91在线视频| 激情无码视频在线看| 精品一区二区三区波多野结衣| 色欲不卡无码一区二区| 国产精品成| 伊人色在线视频| 亚洲欧美h| 亚洲伦理一区二区| 国产传媒一区二区三区四区五区| 在线精品亚洲一区二区古装| 国产白浆一区二区三区视频在线 | 日韩高清中文字幕| 国产美女免费网站| 色亚洲成人| 日韩资源站| 国产裸舞福利在线视频合集| 国产网友愉拍精品| 综合天天色| 无码区日韩专区免费系列| 无码一区二区波多野结衣播放搜索| 国产成人久视频免费| 亚洲国产成人精品一二区| 亚洲综合九九| 免费无码AV片在线观看国产| 亚洲成人动漫在线观看| 91精品亚洲| 日韩精品毛片| 国产成人精品一区二区免费看京| 欧美精品一二三区| 国产SUV精品一区二区| Aⅴ无码专区在线观看| a亚洲视频| 女同国产精品一区二区| 国产91熟女高潮一区二区| 国产乱码精品一区二区三区中文| 亚洲午夜福利精品无码不卡| 久久6免费视频| 国产后式a一视频| 久996视频精品免费观看| 色丁丁毛片在线观看| 色135综合网| 毛片免费网址| 国产麻豆另类AV| 色婷婷色丁香| 国产亚洲精品在天天在线麻豆| 69精品在线观看| 第一页亚洲| 国产美女一级毛片| 999精品视频在线| 亚洲欧美日韩中文字幕一区二区三区|