999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT-BiLSTM-CRF 的網(wǎng)絡(luò)敏感詞及變體實(shí)體識(shí)別?

2023-10-20 08:24:04鄭賢茹李柏巖馮珍妮劉曉強(qiáng)
關(guān)鍵詞:規(guī)則文本檢測(cè)

鄭賢茹 李柏巖 馮珍妮 劉曉強(qiáng)

(東華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 上海 201620)

1 引言

近年來(lái),隨著信息技術(shù)的高速發(fā)展,我國(guó)互聯(lián)網(wǎng)普及率迅速提高。與此同時(shí),用戶的大量增長(zhǎng)也帶來(lái)了互聯(lián)網(wǎng)信息的急劇膨脹,一些不法分子出于各種目的,往往會(huì)在Web網(wǎng)頁(yè)上發(fā)布包含有暴恐反動(dòng)和低俗辱罵等不良信息。為了躲避相關(guān)部門(mén)的審查,其發(fā)布者往往會(huì)使用“火星文”的形式,將敏感信息通過(guò)繁體化、字形拆分、首字母縮寫(xiě)、諧音變換等各種變體來(lái)替代原來(lái)的詞,例如,“法輪功”變形成如“法輪功”、“三去車(chē)侖工力”,“FLG”“發(fā)論功”等形式,這樣既可以逃避系統(tǒng)的審查又可以順利傳達(dá)出其要表達(dá)的信息。這類敏感詞變體往往會(huì)導(dǎo)致傳統(tǒng)檢測(cè)方法失效,因此,準(zhǔn)確檢測(cè)敏感詞及其各種變體,凈化網(wǎng)絡(luò)環(huán)境,成為一個(gè)亟待解決的研究課題。

敏感詞變體種類繁多[1],由于其產(chǎn)生規(guī)則各異,相應(yīng)的處理方法也互不相同[1~2],缺少一種能夠統(tǒng)一檢測(cè)、識(shí)別各種敏感詞變體的方法。近年來(lái),基于深度學(xué)習(xí)的命名實(shí)體識(shí)別(Named Entity Recognition,NER)技術(shù)在自然語(yǔ)言處理領(lǐng)域取得了顯著進(jìn)展[3~5],為敏感詞變體識(shí)別提供了一種新的有效途徑。本文將敏感詞及變體作為實(shí)體識(shí)別的目標(biāo),標(biāo)注了包含敏感詞及變體的實(shí)體識(shí)別數(shù)據(jù)集,提出了結(jié)合中文預(yù)訓(xùn)練模型BERT 的敏感詞命名實(shí)體識(shí)別方法,使用BERT-BiLSTM-CRF 框架對(duì)網(wǎng)頁(yè)上多種敏感詞變體進(jìn)行端到端的統(tǒng)一檢測(cè)。通過(guò)與現(xiàn)有方法的比較,本文所提出的模型在標(biāo)注的語(yǔ)料庫(kù)上取得了較好的效果。

2 相關(guān)工作

最早的敏感詞識(shí)別方法主要是敏感詞表匹配法,這種基于字符串匹配的方法能夠快速有效找到文本中的敏感詞[6]。該類方法技術(shù)實(shí)現(xiàn)簡(jiǎn)單但擴(kuò)展性不強(qiáng),需要?jiǎng)討B(tài)更新敏感詞詞典。對(duì)此,文獻(xiàn)[7]提出的ST-DFA 算法對(duì)傳統(tǒng)DFA 算法改進(jìn),當(dāng)敏感詞語(yǔ)料庫(kù)發(fā)生更新時(shí)可實(shí)時(shí)更新決策樹(shù)進(jìn)行多次檢測(cè)過(guò)濾,但該方法對(duì)敏感詞的變形體檢測(cè)準(zhǔn)確率不高。在敏感詞變形體檢測(cè)方面,文獻(xiàn)[8~10]提出了一種基于變體識(shí)別的敏感詞相似度計(jì)算方法。文獻(xiàn)[11]提出了一種基于決策樹(shù)的敏感詞識(shí)別算法。這些方法雖然在一定程度上能達(dá)到檢測(cè)出敏感詞及變形體的目的,但計(jì)算較為復(fù)雜,隨著敏感詞及其變體數(shù)量的增大,檢測(cè)時(shí)間變長(zhǎng),難以實(shí)際應(yīng)用。

由于傳統(tǒng)算法在敏感詞及變體識(shí)別上存在一定缺陷,部分學(xué)者開(kāi)始將文本敏感信息檢測(cè)看作命名實(shí)體識(shí)別任務(wù)展開(kāi)研究。文獻(xiàn)[12~13]提出了一種面向安全漏洞領(lǐng)域的命名實(shí)體識(shí)別方法,文獻(xiàn)[14~16]針對(duì)通用領(lǐng)域模型無(wú)法有效解決信息安全領(lǐng)域的實(shí)體識(shí)別問(wèn)題提出一種BiLSTM-CRF 模型。借鑒這些成果,本文通過(guò)人工標(biāo)記低俗辱罵類敏感文本數(shù)據(jù)集和構(gòu)建命名實(shí)體識(shí)別模型,為網(wǎng)頁(yè)中相關(guān)敏感詞及變體的識(shí)別提出了一種更有效的解決方案。

3 敏感詞變體分析及處理方法

3.1 敏感詞變形體

通過(guò)對(duì)互聯(lián)網(wǎng)中出現(xiàn)的各種敏感詞變體進(jìn)行分析可以發(fā)現(xiàn),盡管這些變形體形式上變化多端,但主要生成方法大致可分為以下幾類。

1)用特殊字符產(chǎn)生變體

含有特殊字符的敏感詞變形體分為兩種情況:1)字符起填充作用,比如在“法輪功”這個(gè)敏感詞之間插入非中文字符形成變形敏感詞“法/輪/功”。2)字符起替代作用,比如用“*”替代“法輪大法”一詞中的某個(gè)字形成變形敏感詞“法輪*法”等。

2)利用語(yǔ)音相似產(chǎn)生變體

漢字一般由聲母、韻母和聲調(diào)三部分組,一音多字。利用漢字的發(fā)音相似性,可以把敏感詞用相似語(yǔ)音的詞或拼音字母替代。發(fā)音替換并不是任意的,而是有一定的規(guī)則,根據(jù)網(wǎng)絡(luò)統(tǒng)計(jì),常用的是改變字符的初始輔音或最終音節(jié),如圖1所示。

圖1 語(yǔ)音相似敏感詞變體常用替換方法

3)利用漢字的結(jié)構(gòu)產(chǎn)生變體

漢字依其構(gòu)成單位可分為獨(dú)體字和合體字兩大類。通常來(lái)說(shuō),敏感詞結(jié)構(gòu)拆分類的變體會(huì)選擇符合漢字組成規(guī)則的合體字,根據(jù)偏旁部首等進(jìn)行單個(gè)字符拆解,如將“抵押貸款”拆成“扌氐扌甲貸款”。

3.2 敏感詞變體的處理方法

與基于字符匹配的檢測(cè)方法不同,本文不根據(jù)變體產(chǎn)生的規(guī)則來(lái)識(shí)別,而是利用敏感詞變體的各種產(chǎn)生規(guī)則直接生成該敏感詞各種常見(jiàn)的變體,將這種工具稱為敏感詞變體生成器,然后用這些生成的變體在語(yǔ)料集中替換該敏感詞,擴(kuò)充語(yǔ)料集,進(jìn)行數(shù)據(jù)增強(qiáng),最后用增強(qiáng)后的訓(xùn)練語(yǔ)料集對(duì)模型進(jìn)行訓(xùn)練。生成器首先維護(hù)一個(gè)敏感詞字典集,在添加新敏感詞的時(shí)候,選擇適合該敏感詞的各種生成規(guī)則。敏感詞的生成規(guī)則大致有如下幾種。

1)特殊字符變形體

規(guī)則1:在敏感詞中插入特殊符號(hào),常用符號(hào)有“/”、“”、“-”和“%”等。

規(guī)則2:用計(jì)算機(jī)中常用的通配符“*”對(duì)敏感詞部分文字進(jìn)行替換。如“法輪大法→法輪*法”。

2)語(yǔ)音相似變形體

規(guī)則3:用敏感詞的拼音首字母生成變體,如“法輪功→flg”、“他媽的→tmd”。

規(guī)則4:利用同音字生成敏感詞變體,選擇其中常見(jiàn)的組合,如“發(fā)輪功”、“他媽滴”。

3)字形變形體

規(guī)則5:用繁體字生成變體,如“法輪功→法輪功”。

規(guī)則6:用字形拆分生成變體,如“法輪功→三去輪功|三去車(chē)侖功|三去車(chē)侖工力”。

3.3 敏感詞檢測(cè)模型

本文把敏感詞及變體看成一種領(lǐng)域內(nèi)的特殊實(shí)體,利用NER 技術(shù)可以準(zhǔn)確高效地識(shí)別文本中的敏感詞實(shí)體,相較于一般的字符串匹配和計(jì)算相似度等方法,在處理敏感詞集的規(guī)模和速度上有較明顯的優(yōu)勢(shì)。本文所構(gòu)建的敏感詞命名實(shí)體識(shí)別模型BERT-BiLSTM-CRF 的框架如圖2 所示。模型在結(jié)構(gòu)上大體分三部分:預(yù)訓(xùn)練模型BERT、雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型BiLSTM 和條件隨機(jī)場(chǎng)模型CRF。首先對(duì)標(biāo)注好并經(jīng)過(guò)數(shù)據(jù)增強(qiáng)的敏感詞訓(xùn)練語(yǔ)料集,使用預(yù)訓(xùn)練模型BERT 獲取含有語(yǔ)義信息的向量表示,然后將得到的向量輸入到BiLSTM模塊做特征提取,以捕獲文本序列的特征表征,最終由CRF模塊結(jié)合上下文序列標(biāo)簽的相關(guān)性,對(duì)各個(gè)實(shí)體進(jìn)行提取分類,輸出最終的標(biāo)記序列。

圖2 BERT-BiLSTM-CRF模型框架

鑒于敏感詞的復(fù)雜形態(tài),一般分詞工具不可能將這些詞準(zhǔn)確切分到一起,因此本文對(duì)輸入文本不做切分處理,而將單個(gè)漢字看作獨(dú)立的單位,提取其豐富特征。由于Word2Vec在處理多義詞上具有較大的局限性,故本文選擇能根據(jù)語(yǔ)境動(dòng)態(tài)輸出詞向量的BERT模型來(lái)向量化輸入文本。Google的中文BERT-Base 模型的隱藏層是768 維,有12 層Transformer,對(duì)每個(gè)詞進(jìn)行3 個(gè)嵌入,分別是Token Embeddings、Segment Embeddings 和Position Embeddings。一段長(zhǎng)度為n 的輸入文本分別經(jīng)過(guò)三個(gè)嵌入后,將所得的三個(gè)向量表示求和,生成的張量作為輸入表示傳遞給BERT 的編碼器層進(jìn)行特征提取。編碼器Transformer 是一個(gè)基于自注意力機(jī)制的深度網(wǎng)絡(luò),由6 個(gè)同構(gòu)層構(gòu)成,每個(gè)層由兩個(gè)子層組成,分別為多頭自注意力層和全連接前饋神經(jīng)網(wǎng)絡(luò)。全連接前饋網(wǎng)絡(luò)的兩層激活函數(shù)分別是ReLU 和一個(gè)線性激活函數(shù),在每個(gè)子層后使用一次殘差連接,并進(jìn)行層歸一化。

BiLSTM 模塊作為BERT 的下游任務(wù)負(fù)責(zé)進(jìn)一步獲取文本序列的特征和語(yǔ)義信息。它由前向LSTM 與后向LSTM 組合而成,可以結(jié)合語(yǔ)料從前到后和從后向前的兩部分信息,更好地捕捉一段文本雙向的語(yǔ)義依賴關(guān)系。它接受經(jīng)由BERT 處理后的向量化輸入,輸出包含敏感文本正向和逆向語(yǔ)句的序列狀態(tài)信息。在敏感文本中,BiLSTM 可以通過(guò)前向和后向的組合信息提取敏感文本的豐富特征,進(jìn)而準(zhǔn)確識(shí)別出敏感詞及變體所在。

經(jīng)過(guò)BiLSTM 層處理后,模型能夠輸出每個(gè)字對(duì)應(yīng)各個(gè)標(biāo)簽的分?jǐn)?shù),這些分?jǐn)?shù)將作為CRF層的輸入,分?jǐn)?shù)數(shù)值越大表示越有可能預(yù)測(cè)為對(duì)應(yīng)的標(biāo)簽。BiLSTM 層只考慮了含有上下文信息的字向量而忽略了標(biāo)簽之間可能存在的關(guān)系,例如在標(biāo)注數(shù)據(jù)時(shí),一般不存在諸如I作為開(kāi)頭的詞、兩個(gè)連續(xù)的B 等一些情況,因此CRF 層的作用主要就是通過(guò)學(xué)習(xí)標(biāo)簽之間的約束和依賴關(guān)系來(lái)修正BiLSTM層的輸出以保證預(yù)測(cè)標(biāo)簽的合理性。

4 實(shí)驗(yàn)及結(jié)果分析

4.1 數(shù)據(jù)集

由于網(wǎng)絡(luò)上公開(kāi)的敏感詞語(yǔ)料集很少,本文使用的語(yǔ)料由作者自己收集,其中很大一部分語(yǔ)料是從淘寶產(chǎn)品評(píng)論(http://detail.tmall.com)中爬取,并經(jīng)過(guò)手工篩選得到。數(shù)據(jù)集中人工標(biāo)注的包含敏感詞及變體的文本數(shù)據(jù)共5000 條,再利用敏感詞變體生成器擴(kuò)充語(yǔ)料,生成用于訓(xùn)練模型的語(yǔ)料集。在收集到滿足要求的語(yǔ)料集之后,需要對(duì)這些語(yǔ)料進(jìn)行實(shí)體標(biāo)注。命名實(shí)體識(shí)別任務(wù)常用的標(biāo)注體系有BIO、BIOE 及BIOES 等,本文采用BIO,它要求輸入的每行只包含單字、空格和該字對(duì)應(yīng)的標(biāo)簽,最終得到的語(yǔ)料標(biāo)注形式如圖3 所示。圖中,標(biāo)簽B 代表B-sensitive,即敏感詞的開(kāi)始部分;I 代表I-sensitive,即敏感詞的中間部分;O 代表Other,即文本的其他非敏感無(wú)關(guān)字符。準(zhǔn)備好數(shù)據(jù)集之后,將數(shù)據(jù)集按照8∶1∶1 的比例劃分為訓(xùn)練集、測(cè)試集和驗(yàn)證集,輸入到模型中進(jìn)行訓(xùn)練。

圖3 語(yǔ)料標(biāo)注的最終格式示例

4.2 實(shí)驗(yàn)環(huán)境與評(píng)價(jià)指標(biāo)

本文的實(shí)驗(yàn)在Linux 操作系統(tǒng)環(huán)境下進(jìn)行,支持軟件版本為Python 3.6、Tensorflow 1.13.1。執(zhí)行訓(xùn) 練 的 服 務(wù) 器CPU 為Intel(R)Xeon(R)Silver 4208,64G內(nèi)存,GPU為4核GTX2080Ti。

為驗(yàn)證使用BERT-BiLSTM-CRF 模型對(duì)敏感詞及變體檢測(cè)的可行性和準(zhǔn)確性,本文采用召回率R、精準(zhǔn)率P 和F1 值來(lái)評(píng)判模型的性能,各評(píng)價(jià)指標(biāo)的計(jì)算方法如下:

其中,s 是識(shí)別正確的敏感詞實(shí)體數(shù),X 是實(shí)際所有敏感詞實(shí)體數(shù),Y是識(shí)別出的實(shí)體數(shù)。

4.3 實(shí)驗(yàn)結(jié)果及對(duì)比

為了使模型具有更好的效果,在訓(xùn)練過(guò)程中需要不斷進(jìn)行參數(shù)調(diào)整優(yōu)化,經(jīng)過(guò)反復(fù)的訓(xùn)練實(shí)驗(yàn)后,模型訓(xùn)練主要參數(shù)設(shè)置如下:learning_rate:0.00002,max_seq_length:500,batch_size:2,bilstm_size:128,drop_out:0.5,模型訓(xùn)練采用Adam 優(yōu)化器、交叉熵?fù)p失函數(shù),實(shí)驗(yàn)采用在預(yù)訓(xùn)練語(yǔ)言模型BERT 上做微調(diào)(Fine-tuning)的訓(xùn)練方式,利用BERT 提取敏感詞變體的結(jié)構(gòu)特征,這樣既可以使訓(xùn)練的收斂速度更快,也能確保模型在較少的訓(xùn)練樣本上也能取得不錯(cuò)的效果。

根據(jù)上述參數(shù)設(shè)置,對(duì)模型進(jìn)行訓(xùn)練的實(shí)驗(yàn)結(jié)果如表1 所示。為了證實(shí)所提出模型的有效性,本文在同一標(biāo)注數(shù)據(jù)集上分別訓(xùn)練了BiLSTM 和BiLSTM-CRF 模型。從表中可以看出,BiLSTM-CRF模型在精準(zhǔn)率、召回率和F1 值上均優(yōu)于BiLSTM 方法,這是因?yàn)锽iLSTM 模型雖然能根據(jù)目標(biāo)實(shí)體自動(dòng)提取文本序列特征,卻無(wú)法學(xué)習(xí)到輸出的標(biāo)簽之間的約束條件和依賴關(guān)系,從而影響模型效果。BERT-BiLSTM-CRF模型則既兼具了BiLSTM-CRF模型的優(yōu)點(diǎn)又在此基礎(chǔ)上對(duì)文本向量化過(guò)程加以改進(jìn),利用預(yù)訓(xùn)練語(yǔ)言模型BERT 的優(yōu)勢(shì)自動(dòng)提取文本序列豐富的語(yǔ)義特征、詞級(jí)特征和語(yǔ)法結(jié)構(gòu)特征,因此對(duì)敏感詞變體的實(shí)體識(shí)別效果明顯優(yōu)于其他兩個(gè)模型,精準(zhǔn)率、召回率和F1 值分別達(dá)到了95.00%,92.68%和93.83。

表1 不同模型結(jié)果比較(%)

5 結(jié)語(yǔ)

敏感詞及其變體檢測(cè)是過(guò)濾網(wǎng)絡(luò)信息內(nèi)容、清潔網(wǎng)絡(luò)環(huán)境的一個(gè)重要手段。而敏感詞變體層出不窮,變化多端也為這項(xiàng)工作不斷提出新的挑戰(zhàn),因此,找到一種檢測(cè)速度快,準(zhǔn)確率高、擴(kuò)展能力強(qiáng),并能適應(yīng)多種敏感詞變體的檢測(cè)方法十分必要。本文利用深度學(xué)習(xí)命名實(shí)體識(shí)別技術(shù)的最新成果,提出了基于BERT-BiLSTM-CRF 敏感詞及變體的檢測(cè)模型,把敏感詞及其變體的檢測(cè),轉(zhuǎn)換成命名實(shí)體的識(shí)別問(wèn)題,把匹配復(fù)雜多樣變體的問(wèn)題,轉(zhuǎn)換為針對(duì)包含敏感詞語(yǔ)料的數(shù)據(jù)增強(qiáng)。實(shí)驗(yàn)結(jié)果表明,本文提出的方法,檢測(cè)速度快,準(zhǔn)確率高,可擴(kuò)展性強(qiáng),而且不需要敏感詞及其變體字典的在線支持。本文將BERT-BiLSTM-CRF 模型與BiLSTM 和BiLSTM-CRF 模型在同一標(biāo)注數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn),精準(zhǔn)率、召回率和F1 值都有顯著提高,證明其效果顯著。然而由于敏感詞的變體特征多樣,含義隱晦,本文標(biāo)注的語(yǔ)料庫(kù)仍有不足,且尚未覆蓋一些文本色情、暴恐反動(dòng)、政治敏感等語(yǔ)料,今后將繼續(xù)擴(kuò)充數(shù)據(jù)集并增加標(biāo)注不同種類的敏感文本及變體數(shù)據(jù),進(jìn)一步擴(kuò)展模型的識(shí)別范圍。

猜你喜歡
規(guī)則文本檢測(cè)
撐竿跳規(guī)則的制定
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
數(shù)獨(dú)的規(guī)則和演變
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規(guī)則對(duì)我國(guó)的啟示
小波變換在PCB缺陷檢測(cè)中的應(yīng)用
主站蜘蛛池模板: 高h视频在线| 青草娱乐极品免费视频| 免费一级毛片完整版在线看| h视频在线观看网站| 麻豆精品久久久久久久99蜜桃| 欧美一级黄色影院| 在线视频97| a级高清毛片| yjizz国产在线视频网| 丰满人妻久久中文字幕| 99久久亚洲精品影院| 亚洲男人的天堂在线| 国产精品视频白浆免费视频| 国产激情无码一区二区APP| 波多野结衣中文字幕久久| 久久久久亚洲av成人网人人软件| 久久这里只有精品8| 四虎国产在线观看| av手机版在线播放| 国产精品夜夜嗨视频免费视频| 无码国内精品人妻少妇蜜桃视频 | 欧美日韩免费在线视频| 亚洲精品无码日韩国产不卡| 国产chinese男男gay视频网| 欧美一区二区精品久久久| 國產尤物AV尤物在線觀看| 亚洲日本中文字幕天堂网| 久视频免费精品6| 亚洲中文字幕久久无码精品A| 高清视频一区| 成人国产免费| 国产视频a| 免费国产在线精品一区| 91福利在线观看视频| 亚洲无码不卡网| 啦啦啦网站在线观看a毛片| 一级毛片无毒不卡直接观看| 不卡午夜视频| 亚洲黄网在线| 亚洲黄色视频在线观看一区| 免费在线色| 国产亚洲第一页| 日本亚洲成高清一区二区三区| 久久久久久国产精品mv| 无码一区中文字幕| 久久国产精品夜色| 国内精自线i品一区202| 亚洲h视频在线| 91午夜福利在线观看| 新SSS无码手机在线观看| 日本中文字幕久久网站| 影音先锋亚洲无码| 日韩高清中文字幕| 亚洲最大情网站在线观看| 国产成人高精品免费视频| 国禁国产you女视频网站| 亚洲一级毛片| 热久久这里是精品6免费观看| 看国产一级毛片| 国产丰满成熟女性性满足视频| 日本在线亚洲| 国产视频只有无码精品| 热99精品视频| 亚洲av日韩av制服丝袜| 国产精品污污在线观看网站| 国产h视频免费观看| 欧美中文一区| 热伊人99re久久精品最新地| 免费视频在线2021入口| 欧美成人午夜视频免看| 一区二区三区在线不卡免费| 超清无码一区二区三区| 午夜福利在线观看入口| 亚洲高清在线天堂精品| 欧美精品1区2区| 亚洲精品无码不卡在线播放| 99久久免费精品特色大片| 国产成人精品18| 亚洲爱婷婷色69堂| 伊人久久大香线蕉综合影视| 亚洲人成在线免费观看| a级毛片网|