999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

BERT+CRF模型的漏洞信息結(jié)構(gòu)化抽取方法

2021-06-03 06:11:16云南電網(wǎng)有限責(zé)任公司曲靖供電局朱家山
電子世界 2021年9期
關(guān)鍵詞:關(guān)鍵文本信息

云南電網(wǎng)有限責(zé)任公司曲靖供電局 朱家山

漏洞攻擊是信息安全領(lǐng)域的典型事件,全球范圍內(nèi),每年因漏洞攻擊帶來的損失不計其數(shù),甚至產(chǎn)生顛覆性的破壞。2015年,攻擊者通過線上變電站攻擊及線下的電力客服中心進(jìn)行電話DDoS攻擊導(dǎo)致烏克蘭首都及西部地區(qū)140萬居民遭遇了長達(dá)數(shù)小時的大規(guī)模停電,造成了巨大的經(jīng)濟(jì)損失。在電網(wǎng)信息化轉(zhuǎn)型的背景下,各供電企業(yè)加大了信息化建設(shè)及改造升級的力度,隨著信息系統(tǒng)數(shù)量及種類增多,系統(tǒng)之間的信息資源共享使得各系統(tǒng)之間交互更加頻繁,系統(tǒng)的關(guān)聯(lián)關(guān)系呈現(xiàn)復(fù)雜化特征,為電力企業(yè)的信息安全管理帶來極大的挑戰(zhàn)。現(xiàn)階段,電力企業(yè)高度依賴于信息系統(tǒng),電力系統(tǒng)已經(jīng)演變成集營銷管理系統(tǒng)、計量計費系統(tǒng)、電力MIS系統(tǒng)、電力自動化系統(tǒng)等的電力資源整合系統(tǒng),信息系統(tǒng)安全是保障電力系統(tǒng)安全、穩(wěn)定運行的基礎(chǔ)。

本文針對近年來的漏洞信息抽取技術(shù)進(jìn)行了深入的研究,提出了一種基于BERT+CRF模型的漏洞信息結(jié)構(gòu)化抽取的方法,采用人工智能深度學(xué)習(xí)方法進(jìn)行建模,基于序列標(biāo)注模型實現(xiàn)漏洞關(guān)鍵信息抽取,解決了現(xiàn)有人工手段抽取漏洞信息中人力投入大、漏洞信息精確度不高等問題。

1 設(shè)計方案

通過從全球范圍內(nèi)權(quán)威的漏洞信息共享平臺獲取漏洞數(shù)據(jù),對各平臺發(fā)布的漏洞信息構(gòu)成要素進(jìn)行分析,整合各漏洞信息共享平臺的屬性集合,去除漏洞集合中存在冗余的屬性、對相似性屬性及同類不同名屬性進(jìn)行統(tǒng)一命名,構(gòu)建漏洞信息本體模型。針對漏洞信息本體模型制定標(biāo)注方案,從漏洞數(shù)據(jù)集中劃分出部分?jǐn)?shù)據(jù)集,進(jìn)行序列標(biāo)注,生成模型訓(xùn)練語料。基于訓(xùn)練語料及序列標(biāo)注模型構(gòu)建漏洞信息結(jié)構(gòu)化抽取模型,通過漏洞信息結(jié)構(gòu)化抽取模型從漏洞數(shù)據(jù)集中抽取漏洞關(guān)鍵信息要素。基于標(biāo)注的語料和漏洞本體模型設(shè)計漏洞關(guān)鍵信息抽取模型的性能評估方法,對漏洞信息抽取模型進(jìn)行性能評估,并基于評估結(jié)果改進(jìn)及優(yōu)化模型。根據(jù)抽取到的漏洞關(guān)鍵信息及漏洞本體模型構(gòu)建結(jié)構(gòu)化的漏洞數(shù)據(jù)庫。

2 關(guān)鍵技術(shù)

2.1 漏洞信息本體模型構(gòu)建

構(gòu)建漏洞信息本體模型的過程中,需要從漏洞描述、網(wǎng)絡(luò)安全公告等文本信息中抽取出相關(guān)的實體、建立各實體之間的關(guān)聯(lián)關(guān)系。在進(jìn)行實體的抽取過程中,對于結(jié)構(gòu)化數(shù)據(jù),需要通過領(lǐng)域本體的抽取方式進(jìn)行本體抽取,對于非結(jié)構(gòu)化數(shù)據(jù)需要借助信息抽取技術(shù)從非結(jié)構(gòu)化文本中抽取結(jié)構(gòu)化信息。通過領(lǐng)域本體方法進(jìn)行本體的抽取過程中首先對領(lǐng)域的術(shù)語及術(shù)語之間的關(guān)系進(jìn)行整合,構(gòu)建術(shù)語表,將術(shù)語表中的術(shù)語作為本體的概念集合,并確定概念之間的關(guān)系,將術(shù)語表直接轉(zhuǎn)換為本體集合。對于非結(jié)構(gòu)化數(shù)據(jù)的信息抽取技術(shù)中,需要用到命名實體識別及實體關(guān)系抽取技術(shù),一種普遍的做法是通過人工預(yù)先標(biāo)注數(shù)據(jù),利用標(biāo)注好的數(shù)據(jù)集訓(xùn)練本體模型,利用訓(xùn)練好的本體模型從非結(jié)構(gòu)化文本中提取命名實體。

具體實施步驟如下:(1)選取權(quán)威漏洞信息共享平臺,獲取漏洞信息,構(gòu)建本體漏洞概念的屬性集合,對各個漏洞庫的屬性集合進(jìn)行整合,剔除冗余屬性,對相似性屬性及同類屬性進(jìn)行合并,定義漏洞必要屬性、可選屬性、關(guān)鍵屬性、非關(guān)鍵屬性,其中必要屬性指指漏洞信息中應(yīng)包括的最少屬性;可選屬性指漏洞的屬性中除了必要屬性之外的屬性;關(guān)鍵屬性指描述和解決該漏洞所需要的關(guān)鍵要素;非關(guān)鍵屬性指漏洞屬性中除了關(guān)鍵屬性之外的屬性。必要屬性:本地編號、漏洞名稱、危害等級、發(fā)布時間、漏洞影響的實體;可選屬性:漏洞公告、參考網(wǎng)址、補丁、廠商、威脅類型、漏洞來源;關(guān)鍵屬性:漏洞名稱、漏洞簡介、危害等級、威脅類型、發(fā)布時間、漏洞影響的實體、漏洞補丁;非關(guān)鍵屬性:廠商、漏洞來源、參考網(wǎng)址。(2)構(gòu)建漏洞實體詞典,基于CRF模型引入詞典特征構(gòu)建漏洞命名實體識別器,識別漏洞描述中的相關(guān)漏洞概念屬性。(3)對概念本體的完整性、正確性及可擴(kuò)展性進(jìn)行評估,保障每個概念定義清晰,不存在歧義,滿足完整性需求。

表1 漏洞描述文本對應(yīng)的序列標(biāo)注

2.2 基于BERT+CRF模型的漏洞抽取

從漏洞信息數(shù)據(jù)集中篩選部分樣本進(jìn)行序列標(biāo)注,采用BIO標(biāo)注法,將單個字符作為最小的標(biāo)注粒度,標(biāo)注每個字符對應(yīng)的具體類別,其中類別標(biāo)簽中B開頭的表示詞的起始位置,I開頭表示詞的所有字符中除了起始位置之外的位置,O開頭表示無關(guān)字符。標(biāo)簽中B、I、O之后的表示字符對應(yīng)的類別,以“-”隔開,其中“entity”表示漏洞影響的實體名稱,“version-i”表示離散的實體版本號,“version-b”表示連續(xù)的版本號的開始版本號,“version-n”表示連續(xù)的版本號的結(jié)束版本號,“type”表示漏洞影響的類型等。例如漏洞信息短文本描述如下:“該漏洞影響了Pillow的4.0.1和5.1.2之間的版本”,漏洞描述文本對應(yīng)的序列標(biāo)注如表1所示。

圖1 BERT+CRF模型結(jié)構(gòu)圖

基于標(biāo)注的數(shù)據(jù)訓(xùn)練漏洞關(guān)鍵信息抽取模型,采用BERT+CRF模型結(jié)構(gòu),首先通過BERT模型對漏洞描述文本進(jìn)行特征提取及編碼,獲得文本對應(yīng)的字符向量,將之映射為CRF層的發(fā)射概率,經(jīng)過CRF層輸出每個字符對應(yīng)的類別概率,最后通過字符及字符的位置關(guān)系及類別得到該文本中包含的漏洞關(guān)鍵信息,BERT+CRF模型結(jié)構(gòu)如圖1所示。

如圖1所示,w表示漏洞描述文本,通過將漏洞描述文本進(jìn)行字符分割處理,分割成單個字符輸入至BERT模型中,經(jīng)過BERT模型訓(xùn)練,每個字符得到一個對應(yīng)的編碼向量,通過將向量降維到與標(biāo)簽類別數(shù)目相同的維度之后,將向量中的值壓縮至0-1之間作為CRF層的發(fā)射概率,CRF層擬合之后輸出每個字符對應(yīng)的標(biāo)簽概率P,最后根據(jù)輸出結(jié)果與定義的標(biāo)簽進(jìn)行合并,獲得漏洞關(guān)鍵信息。

漏洞關(guān)鍵信息抽取模型構(gòu)建完成后,需要從標(biāo)注的漏洞數(shù)據(jù)中隨機抽取出一部分未參與訓(xùn)練的樣本,用模型抽取出關(guān)鍵信息與標(biāo)注結(jié)果對比,設(shè)計對比的方法,計算出漏洞抽取模型的精度。

最后,將利用模型抽取到的非結(jié)構(gòu)漏洞關(guān)鍵信息與原來已經(jīng)存在的結(jié)構(gòu)化信息進(jìn)行融合,結(jié)合構(gòu)建的漏洞本體模型中定義的屬性及邏輯關(guān)系構(gòu)建電力企業(yè)內(nèi)部漏洞數(shù)據(jù)庫,支撐信息安全管理工作。

結(jié)語:本文分析了電力企業(yè)在信息安全領(lǐng)域面臨的嚴(yán)峻形勢,提出了一種基于BERT+CRF的漏洞信息結(jié)構(gòu)化抽取方法,通過從全球權(quán)威的漏洞信息共享平臺獲取漏洞描述文本信息,采用基于序列標(biāo)注的方法對漏洞描述中的關(guān)鍵信息進(jìn)行抽取,并結(jié)合漏洞本體構(gòu)建電力企業(yè)內(nèi)部漏洞數(shù)據(jù)庫,形成常態(tài)化的漏洞信息收集、分析及通報工作機制,提升電網(wǎng)信息系統(tǒng)的安全防范能力及信息安全水平。

猜你喜歡
關(guān)鍵文本信息
高考考好是關(guān)鍵
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
獲勝關(guān)鍵
NBA特刊(2014年7期)2014-04-29 00:44:03
如何快速走進(jìn)文本
語文知識(2014年1期)2014-02-28 21:59:13
生意無大小,關(guān)鍵是怎么做?
中國商人(2013年1期)2013-12-04 08:52:52
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 亚洲永久免费网站| 欧美精品1区2区| 五月婷婷伊人网| 亚洲午夜综合网| 国产麻豆精品久久一二三| www.91在线播放| 国产精品一区二区久久精品无码| 国产国拍精品视频免费看| 浮力影院国产第一页| 欧美日韩一区二区三| 久久这里只有精品国产99| 91po国产在线精品免费观看| 毛片免费观看视频| 久久青草免费91线频观看不卡| 欧美成人一级| 亚洲精品国产日韩无码AV永久免费网| 国产精品视频导航| 直接黄91麻豆网站| 一本一道波多野结衣一区二区| 干中文字幕| 欧美成人综合视频| 91精品在线视频观看| 波多野结衣中文字幕久久| 国产欧美视频在线观看| 免费jjzz在在线播放国产| 国产丝袜无码精品| 中文字幕免费在线视频| 久久国产精品77777| 亚洲侵犯无码网址在线观看| 亚洲一区二区约美女探花| 国产欧美日韩视频怡春院| 亚洲日韩Av中文字幕无码| 国产尤物在线播放| 国产特级毛片aaaaaaa高清| 中文字幕亚洲综久久2021| 97在线免费视频| 日韩一级二级三级| 欧美精品亚洲精品日韩专区va| 国产制服丝袜无码视频| 素人激情视频福利| 四虎精品黑人视频| 野花国产精品入口| 91亚洲精品国产自在现线| 在线观看欧美国产| 嫩草影院在线观看精品视频| 亚洲男人天堂网址| 国产国语一级毛片在线视频| 久久综合色88| 五月婷婷精品| 免费毛片a| 国产精品欧美日本韩免费一区二区三区不卡 | 露脸国产精品自产在线播| 无码专区在线观看| 免费jizz在线播放| 草逼视频国产| 播五月综合| 国产欧美一区二区三区视频在线观看| 国产成人永久免费视频| 久久精品中文无码资源站| 国产日本视频91| 国产精品成人久久| 亚洲中文字幕日产无码2021| 亚洲人在线| 亚洲欧洲自拍拍偷午夜色无码| 丁香五月激情图片| 久久精品国产免费观看频道| 久久这里只精品国产99热8| 无码 在线 在线| 久久久黄色片| 五月婷婷综合色| 亚亚洲乱码一二三四区| 亚洲精品无码日韩国产不卡| 亚洲精品人成网线在线| 亚洲一级无毛片无码在线免费视频 | 成人亚洲天堂| 狠狠色综合久久狠狠色综合| 国产在线观看一区二区三区| 免费观看无遮挡www的小视频| 毛片在线播放a| 日本久久免费| 欧美在线一级片| 亚洲人成人伊人成综合网无码|