999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT的安全事件命名實體識別研究

2021-03-11 06:04:08竇宇宸
信息安全研究 2021年3期
關(guān)鍵詞:文本模型

竇宇宸 胡 勇

(四川大學網(wǎng)絡(luò)空間安全學院 成都 610065)

(douyuchen_jl@163.com)

隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,我國的互聯(lián)網(wǎng)規(guī)模迅速增長,“上網(wǎng)沖浪”已經(jīng)成為我們?nèi)粘I钪蝎@取信息的重要方式,但其中海量數(shù)據(jù)也帶來了不少“信息重復”及“信息冗雜”等問題,抽取句子中的重要信息并準確定位公眾關(guān)注的事件信息則尤為重要.在我們?nèi)粘=佑|到的新聞、網(wǎng)頁、微博、公眾號及常見新聞等獲取渠道中,每一篇文章甚至每一個句子都可能包含巨大的信息量,由于中文語義的復雜性及句子用詞的隨意性,使用人工方法區(qū)分關(guān)鍵信息工作量巨大.命名實體識別(name entity recognition,NER)正是解決這個問題的有效自動化方法之一.NER指從1段自然語言文本中找出特定類型的實體(如人名、組織名稱、地點、時間及行為等),并標注其位置,是信息檢索及關(guān)系抽取等工作的基礎(chǔ).前期研究人員經(jīng)常使用的統(tǒng)計模型有隱馬爾科夫模型(HMM)、支持向量機(SVM)、最大熵模型(ME)及條件隨機場(CRF)等,這類方法通常是將實體識別任務(wù)轉(zhuǎn)換為從文本輸入到特定目標結(jié)構(gòu)的預測,使用如上的統(tǒng)計模型來構(gòu)造輸入與輸出的關(guān)聯(lián),并使用機器學習方法來學習模型的參數(shù).但是這些方法均需要人工提取特征,不僅會導致研究人員在標注文本時承受龐大的工作量,也會使得提取的特征易丟失文本本身的情感信息,實體識別的效果欠佳.與傳統(tǒng)的機器學習識別方法相比,針對文本信息中語義不明確且上下文關(guān)聯(lián)不明晰的情況,命名實體識別的方案逐漸從需要大量人工提取特征的統(tǒng)計概率模型逐步轉(zhuǎn)向深度學習領(lǐng)域,深度神經(jīng)網(wǎng)絡(luò)可以自動地從數(shù)據(jù)中提取有用的特征,將其應(yīng)用于非結(jié)構(gòu)化、模式多變的數(shù)據(jù)中具有顯著優(yōu)勢,并可以更好地解決文本特征稀疏等問題.

在中文命名實體識別領(lǐng)域,2005年,向曉雯等人[1]采用隱馬爾科夫模型進行詞性標注,還對上下文相關(guān)的命名實體識別作了初步嘗試.2011年,龔凌暉[2]針對現(xiàn)代漢語文本的特點,以人名、地名及組織名為核心內(nèi)容的中文命名實體識別問題,基于LSA(潛在語義分析)實現(xiàn)對命名實體的歧義消解,實現(xiàn)了一個基于CRF的中文命名識別系統(tǒng),驗證了用算法建立一個有效實體庫的可行性.2016年,朱丹浩等人[3]針對中文機構(gòu)名結(jié)構(gòu)復雜、罕見詞多及識別難度大問題,采用RNN重新定義了機構(gòu)名標注的輸入與輸出,在識別機構(gòu)名實體的F1值上有一定的提升.2018年,李麗雙等人[4]采用CNN-BiLSTM-CRF的模型,利用CNN訓練單詞形態(tài)特征的字向量,再組合語義向量輸入至BiLSTM層,該模型應(yīng)用在生物醫(yī)學語料上取得了較好的結(jié)果.2019年,黃煒等人[5]使用BiLSTM網(wǎng)絡(luò)完成語句的上下文關(guān)聯(lián)語義分析后,接入CRF層添加約束的方法應(yīng)用在涉恐信息實體識別領(lǐng)域,有效獲取涉恐人員恐怖主義機構(gòu)及暴恐實施地點等重要信息.2021年,范曉霞等人[6]設(shè)計了一個針對暗網(wǎng)市場文本的命名實體識別系統(tǒng),使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)進行字符向量化以學習單詞形態(tài)特征,將雙向長短時記憶神經(jīng)網(wǎng)絡(luò)應(yīng)用于暗網(wǎng)市場文本的命名實體識別,并采用CRF模型實現(xiàn)序列標簽之間的約束性,目前該系統(tǒng)在暗網(wǎng)市場文本命名實體識別領(lǐng)域內(nèi)效果較佳,準確率達到98.59%.

上述方法中字向量為使用已經(jīng)被大量語料訓練完成的詞嵌入(word embedding).詞嵌入是自然語言處理領(lǐng)域早期的預訓練技術(shù),Bengio等人[7]提出了神經(jīng)網(wǎng)絡(luò)語言模型.Mikolov等人[8]對神經(jīng)網(wǎng)絡(luò)語言模型優(yōu)化,提出Word2Vec,并提出2種語言模型——連續(xù)詞袋模型(CBOW)和Skip-gram模型.Word2Vec能捕捉詞語之間的相似性,可根據(jù)上下文預測中間的詞匯,但沒有考慮單詞的詞序問題.Pennington等人[9]提出Glove詞向量,可獲取全局信息,更容易并行化,與Word2Vec相比,在數(shù)據(jù)集較大時,Glove可更快地進行訓練.

上述詞向量可以在一定程度上提高模型準確率,但不同語境下的詞向量相同,無法解決一詞多義問題[10].同一個字或詞語在1個句子中的語義不同,例如句子“你這著真絕,讓他干著急,又無法著手應(yīng)付,心里老是懸著.”4個“著”字在客觀上表達的是不同的詞意,但在Word2Vec,Glove等字向量表示方法中,4個“著”的字向量表示完全一致,這與我們正常理解這句話的含義不同.所以準確地描述當前詞在上下文中的含義對于文本中提取字或詞的向量十分重要.由于BERT預訓練模型采用雙向Transformer 編碼器對上下文信息都進行了提取,融合左右2側(cè)的語境,得到一個深度雙向Transformer. BERT對單詞及上下文關(guān)系作了充分描述,能有效實現(xiàn)多義詞的消歧.所以本文選擇使用BERT預訓練模型替代傳統(tǒng)的詞嵌入方法,接入BiLSTM以解決一詞多義的問題.楊飄等人[11]針對字多義性,使用BERT-BiGRU-CRF融合模型在MSRA語料中作的命名實體識別的效果好于目前最優(yōu)的Lattice-LSTM模型.

為解決公共安全事件的命名實體識別問題,本文使用已被大規(guī)模中文語料訓練完成的BERT模型作為雙向長短時記憶網(wǎng)絡(luò)的輸入,獲取漢字的語義向量表示,確保在識別標注的任務(wù)中的字向量具有多義性.在雙向長短時記憶網(wǎng)絡(luò)后接入CRF層,從而實現(xiàn)了對公共安全事件命名實體的自動識別.實驗表明,該方法能夠取得較好的效果,可以在一定程度上解決公共安全事件領(lǐng)域命名實體識別問題.

1 模型結(jié)構(gòu)

本文將公共安全事件的文本輸入至BERT預訓練語言模型,獲取每個字的向量表示.將字向量序列輸入BiLSTM層用以提取特征,最后通過CRF層選擇概率最大的標注輸出為各字的標簽,即將BiLSTM層原本的Softmax層替換為CRF層.本文中使用的BERT-BiLSTM-CRF模型整體結(jié)構(gòu)如圖1所示,模型包含以下4個部分:預訓練層、BiLSTM網(wǎng)絡(luò)層、特征提取層及CRF層.

圖1 BERT-BiLSTM-CRF模型結(jié)構(gòu)圖

1.1 預訓練層模型

在NER研究中的模型大多采用已預訓練好的Word2Vec,Glove等獲取文本的詞嵌入向量表示,未使用預訓練模型,在其研究上也能夠達到不差的效果.用稀疏向量表示文本,即所謂的詞袋模型在NLP有著悠久的歷史.正如上文中介紹的,早在 2001年就開始使用密集向量表示詞或詞嵌入.Mikolov等人[8]在2013年提出的創(chuàng)新技術(shù)是通過去除隱藏層,逼近目標,進而使這些單詞嵌入的訓練更加高效.雖然這些技術(shù)更新本質(zhì)上很簡單,但它們與高效的Word2Vec配合使用,才能使大規(guī)模的詞嵌入訓練成為可能.但是使用這些詞向量忽略了詞的上下文關(guān)系,在不同場景下詞的向量表示是相同的,缺乏消歧能力.本文使用基于BERT預訓練模型,采用BERT官方的大規(guī)模中文語料訓練模型,可包含大多數(shù)的詞匯與場景,竭力解決一詞多義問題.

從BERT的結(jié)構(gòu)層面來看,它和GPT,ELMo一樣都采用Transformer的結(jié)構(gòu),相對于GPT來說,BERT是具有雙向Transformer的模型結(jié)構(gòu),BERT的模型結(jié)構(gòu)如圖2所示.BERT在預訓練過程中提出了掩碼語言模型與下一條句子預測,作用分別是作上下文預測與學習語料中數(shù)據(jù)的相關(guān)性.

圖2 BERT模型結(jié)構(gòu)圖

在掩碼語言模型任務(wù)中,BERT會隨機選擇1個句子中15%的詞,用它們的上下文來作預測用以訓練,而不是像CBOW一樣將每個詞都預測1遍,最終的loss只計算被[MASK]的15%的詞.在隨機[MASK]時將10%的單詞替換為其他單詞,10%的單詞不作替換,剩余80%被替換為[MASK].

在下一條句子預測任務(wù)的目的是讓模型理解2個句子之間的聯(lián)系,例如句子A與句子B,B有一半的概率是A的下一句,輸入這2個句子來預測B是不是A的下一句.

BERT模型的輸入為3個向量,分別為詞向量、分段向量及位置向量.詞向量指當前詞的詞向量表示,第1個單詞是[CLS]標識;分段向量是表示當前詞所在句子的位置向量.位置向量是表示當前詞屬于哪個句子.樣例如圖3所示.在BERT模型中的輸入可以為單一的句子或是句子對,實際輸入是這些向量之和.將以上向量之和輸入到12層的雙向Transformer網(wǎng)絡(luò)中,最后一層Transformer結(jié)構(gòu)得到的即為BERT層輸出.

圖3 BERT輸入向量表示

1.2 BiLSTM層模型

自RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))提出以來,被大量運用于NER等領(lǐng)域,具有記憶的能力,但由于RNN存在梯度消失或梯度爆炸的問題,在處理長序列的數(shù)據(jù)方面很困難,研究人員對RNN作出了一些改進,得到了RNN的另一種形態(tài),它可以捕捉長期依賴關(guān)系,即LSTM. LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,由于它長時間的記憶能力,在自然語言處理和語音識別等領(lǐng)域應(yīng)用廣泛.

圖4 LSTM神經(jīng)元結(jié)構(gòu)圖

LSTM模型的計算過程如下:

ft=σ(Wfhht-1+Wfxxt+bf),

(1)

it=σ(Wihht-1+Wixxt+bi),

(2)

ot=σ(Wohht-1+Woxxt+bo),

(3)

ct=ittanh(Wchht-1+Wcxxt+bc)+ftct-1,

(4)

ht=ottanh(ct),

(5)

其中,對于時刻t,ht-1,xt分別表示隱層狀態(tài)及輸入詞;W表示LSTM的權(quán)重矩陣;b表示偏置;ft,it,ot分別表示LSTM的遺忘門、輸入門、輸出門,σ表示激勵函數(shù)Sigmoid,tanh表示雙曲正切函數(shù).

單向LSTM由于按文本序列輸入,無法編碼從后到前的信息,只能處理上文的信息而忽略了下文信息.繼而研究人員又提出了BiLSTM模型(如圖5所示),也就是雙向LSTM結(jié)構(gòu),對每一個訓練序列分別訓練一個向前LSTM和向后的LSTM網(wǎng)絡(luò).這種網(wǎng)絡(luò)的結(jié)構(gòu)可以將前后LSTM的輸出拼接成一個完整的序列,從而提供每一個序列點完整的上下文信息.

圖5 BiLSTM模型結(jié)構(gòu)圖

1.3 CRF層模型

CRF是給定1組輸入隨機變量條件下另一組輸出隨機變量的條件概率分布模型,其特點是假設(shè)輸出隨機變量構(gòu)成馬爾科夫隨機場.廣義CRF的定義是:滿足P(Yv|X,Yω,ω≠v)=P(Yv|X,Yω,ω~v).線性鏈條件隨機場(其結(jié)構(gòu)如圖6所示)可以用于標注問題.此時在條件概率模型P(Y|X)中,Y是輸出變量,表示標記序列,也可稱為狀態(tài)序列;X是輸入變量,表示需要標注的觀測序列.在模型學習時,對訓練數(shù)據(jù)集進行正則化的極大似然估計得到條件概率模型;在預測時,對給定的輸入地址序列,求出條件概率最大的地址標注序列[12].

圖6 CRF鏈式結(jié)構(gòu)圖

2 實 驗

2.1 實驗環(huán)境

本文采用Tensorflow作為深度學習框架,數(shù)據(jù)集預處理使用Java實現(xiàn).實驗運行環(huán)境為Windows終端,在Windows 10 教育版64 b的操作系統(tǒng)下完成該實驗,內(nèi)存大小為16 GB,處理器型號為Intel Core i7,GPU顯卡是GTX 1060,顯存為5 GB.

2.2 數(shù)據(jù)集描述

本文采用的數(shù)據(jù)集是中文突發(fā)事件語料庫[13](Chinese emergency corpus, CEC)由上海大學(語義智能實驗室)所構(gòu)建,他們從互聯(lián)網(wǎng)上收集了5類突發(fā)事件的新聞報道作為生語料,然后再對生語料進行文本預處理、文本分析、事件標注以及一致性檢查等處理,最后將標注結(jié)果保存到語料庫中,CEC合計332篇.CEC 采用了XML語言作為標注格式,其中包含了6個重要的標記:Event,Denoter,Time,Location,Participant,Object,CEC語料庫的規(guī)模雖然偏小,但是對事件和事件要素的標注卻最為全面.

本文使用該數(shù)據(jù)集標記的Denoter,Time,Location,Participant作為本文的主要標記,記為ACT,TIME,LOC,PER,分別表示行為、時間、地點及參與者.數(shù)據(jù)的統(tǒng)計信息及標記的數(shù)量等如表1所示.數(shù)據(jù)標注示例如表2所示.

表1 數(shù)據(jù)集分布

表2 數(shù)據(jù)標注示例

2.3 實驗設(shè)計

本實驗分為4個部分,分別為數(shù)據(jù)預處理、數(shù)據(jù)預訓練、輸入BiLSTM層和輸入CRF層,一共332篇文章,本文將數(shù)據(jù)集按7∶2∶1的比例隨機劃分,分別為訓練集、測試集和驗證集.

2.3.1 數(shù)據(jù)預處理

本文的數(shù)據(jù)集采用BIO序列標注法,即將每個元素標注為“B-XXX”,“I-XXX”,“O”,其中,“B-XXX”表示此元素所在的標注序列中屬于XXX類型并且是這個標注序列的開頭,“I-XXX”則表示此元素所在的標注序列中屬于XXX類型并且在這個序列標注的中間部分.由于CEC語料庫使用XML語言進行標記,獲取其 Denoter,Time,Location,Participant標簽作為序列標注的特征,分別提取為ACT,TIME,LOC,PER.由于該語料庫已經(jīng)被預處理過1次,不需要再進行停用詞去除等操作.

2.3.2 數(shù)據(jù)預訓練

本文使用Google大規(guī)模中文語料訓練好的模型[14],調(diào)整運行batch_size并設(shè)置為16,將該模型載入BERT,再將BERT作為入口,輸入作為預處理的訓練集、測試集及驗證集.

2.3.3 BiLSTM層

將預訓練層輸出的每個字的字向量輸入BiLSTM層,提取文本特征.

2.3.4 CRF層

將BiLSTM層提取的特征的輸出放入CRF層,經(jīng)過序列標注后得到最終結(jié)果.實驗具體參數(shù)見表3所示:

表3 超參數(shù)設(shè)置

2.4 實驗分析

2.4.1 評價標準

本文采用常用的NER評價指標[15]來衡量實驗結(jié)果:精確率P(precision)、召回率R(recall)和F1(F-measure)值.

(6)

(7)

(8)

2.4.2 實驗結(jié)果及分析

為了證明本文方法的有效性,實驗首先要證明BERT預訓練模型是否能夠消歧并解決一詞多義的問題,本文使用BERT與其他2種常用的詞嵌入模型作對比實驗.目前常用Glove與Word2Vec獲取預訓練詞向量,故分別使用Word2Vec和Glove與本模型對比,以獲取詞向量.將通過上述3種方法獲取的詞向量再輸入到BiLSTM-CRF中進行實驗,測試集實驗結(jié)果如表4所示:

表4 不同預訓練模型性能

從表4看出,常用的Word2Vec與Glove模型分別得到了0.691,0.703的F1值,不難看出這2種模型由于欠缺語義上下文的相關(guān)性分析,對于任務(wù)作業(yè)沒有明顯的提升.而本文使用的BERT模型在作業(yè)中的F1值達到了0.859,證明了具有消歧作用的BERT模型在該任務(wù)上具有更好的性能,克服了傳統(tǒng)的一詞多義問題.

其次,為了證明本文使用融合模型的性能,對CRF,BiLSTM,BiLSTM-CRF,BERT-BiLSTM-CRF這4種方法的總體精確率、召回率及F1值作對比,如表5所示:

表5 模型整體序列標注性能

從表5可知,上述4種方法得到的F1值分別為0.659,0.703,0.763,0.859.其中,本文使用的BERT-BiLSTM-CRF模型的3個指標均最高,其次為常用的BiLSTM-CRF方法,各方面性能與本文方法相差10%,說明了預訓練模型BERT消歧的有效性.CRF與BiLSTM方法相差5%左右,說明BiLSTM在處理文本關(guān)系上的性能優(yōu)于CRF模型.最終,可以得出結(jié)論:本文使用的BERT-BiLSTM-CRF模型在對公共安全事件命名實體識別整體性能優(yōu)于其他3種方法.

最后選取本文模型與其中表現(xiàn)較好的BiLSTM-CRF模型對公共安全事件各個序列標注的F1值作細化對比,結(jié)果如表6所示:

表6 BERT-BiLSTM-CRF與BiLSTM-CRF模型LOC標簽F1值對比

從表6可看出,2種模型都對LOC(位置)標簽的序列標注的誤差相對其他標簽較大,本文也通過多次實驗得出每次訓練得到的LOC標簽的F1值均高于75%,本文模型在LOC識別的方面遠高于另一模型.在PER(參與者)的標注序列中,顯然本文使用的模型優(yōu)于另一模型,高于其13%左右,歸因于BiLSTM-CRF所使用的詞嵌入模型缺少上下文分析,未能解決一詞多義的問題.在ACT(行為)和TIME(時間)標簽的序列標注中,上述模型均表現(xiàn)較好,F(xiàn)1值均達到80%以上.

基于上述對比實驗可知,本文使用的BERT-BiLSTM-CRF模型可獲得更優(yōu)的效果.在BiLSTM-CRF模型標注的基礎(chǔ)之上,使用BERT預訓練模型提取特征向量,對多義詞進行消歧,解決相同字詞在安全事件領(lǐng)域的歧義問題,效果優(yōu)于其他神經(jīng)網(wǎng)絡(luò)模型及機器學習方法.

3 結(jié) 論

本文對公共安全事件文本中的命名實體進行研究,針對公安全事件文本冗雜的特性及中文字詞的多義性,在原有研究的基礎(chǔ)上進行改進.在經(jīng)過BiLSTM-CRF模型標注的基礎(chǔ)上,加入BERT預訓練模型,提高了實體識別的效果.使用BERT預訓練模型獲取詞向量,解決了一詞多義的問題,使用BiLSTM模型解決了特定領(lǐng)域嚴重依賴人工特征的問題.經(jīng)過對比實驗表明,本文模型具有較好的準確性,與其他模型相比有提升,F(xiàn)1值達到85%以上.由于實驗的數(shù)據(jù)集規(guī)模較小,接下來將在增加語料的基礎(chǔ)上對方法繼續(xù)優(yōu)化,進一步找出安全事件領(lǐng)域中命名實體之間的關(guān)系,并創(chuàng)建能被輿情分析或應(yīng)急響應(yīng)系統(tǒng)使用的安全事件序列標注的數(shù)據(jù)集是下一步要研究的重點.

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 99久视频| 国产免费怡红院视频| 日本一区高清| 成人在线不卡| 欧美日韩导航| 国产精品久久久久久久久久久久| 伊人久久久久久久久久| 久久久久青草线综合超碰| www.99精品视频在线播放| 国产亚洲视频播放9000| 免费观看无遮挡www的小视频| 精品久久综合1区2区3区激情| 日韩乱码免费一区二区三区| 巨熟乳波霸若妻中文观看免费| 欧美a级在线| 欧美成一级| 在线精品欧美日韩| 国产91丝袜在线观看| 色窝窝免费一区二区三区| 一级爆乳无码av| 国产毛片高清一级国语 | 亚洲Av激情网五月天| 色爽网免费视频| 欧美精品在线免费| 播五月综合| 成人在线亚洲| 一本大道无码日韩精品影视| 亚洲aaa视频| 国产精品.com| 亚洲欧美极品| 天堂中文在线资源| 久久中文字幕2021精品| a毛片免费看| 成人一级黄色毛片| 青青草欧美| 亚洲国产精品VA在线看黑人| 国内精品91| 97超碰精品成人国产| 日韩av高清无码一区二区三区| 日本高清免费不卡视频| 日韩色图区| 亚洲精品麻豆| 中文毛片无遮挡播放免费| 国产不卡一级毛片视频| 亚洲狼网站狼狼鲁亚洲下载| 中文字幕中文字字幕码一二区| 色综合激情网| 在线观看无码av免费不卡网站| 国产自在自线午夜精品视频| 91在线播放国产| 91口爆吞精国产对白第三集| 国产成人免费视频精品一区二区| 日韩精品久久无码中文字幕色欲| 亚州AV秘 一区二区三区| 在线精品视频成人网| 激情综合网址| 1024国产在线| 亚洲美女操| 亚洲第一成年免费网站| 亚洲另类色| 精品久久久久久久久久久| 全免费a级毛片免费看不卡| 国产资源站| 一级一级一片免费| 亚洲毛片一级带毛片基地| 久久精品国产在热久久2019| 波多野结衣在线se| 国产另类视频| 久久国产成人精品国产成人亚洲 | 五月婷婷中文字幕| 免费AV在线播放观看18禁强制| 成人伊人色一区二区三区| 精品伊人久久久大香线蕉欧美| 亚洲精品视频免费看| 无码电影在线观看| 久久免费观看视频| 久久国产精品波多野结衣| 精品亚洲国产成人AV| 伊人大杳蕉中文无码| 国产精品尤物在线| 在线观看无码av免费不卡网站| 潮喷在线无码白浆|