













摘" 要:為提升涉密敏感信息管理工作智能化水平,該文提出一種BERT-BGRU-CRF深度學(xué)習(xí)方法,實(shí)現(xiàn)對(duì)涉密敏感信息的自動(dòng)識(shí)別。該方法先是采用BERT模型對(duì)文本信息進(jìn)行預(yù)處理,再采用雙向門控循環(huán)單元(BGRU)模型獲取上下文語義特征,最后將提取后的信息輸入到條件隨機(jī)場(chǎng)模型中進(jìn)行序列標(biāo)注,從而得到最優(yōu)解。實(shí)驗(yàn)結(jié)果表明,在自建數(shù)據(jù)集上,所提方法相較于BERT-CRF、BERT-LSTM-CRF、BERT-BiLSTM-CRF三個(gè)識(shí)別方法,在精確率、召回率和F1值等方面均取得了較高的分?jǐn)?shù),證明該方法是適用于涉密敏感信息智能識(shí)別工作的。
關(guān)鍵詞:敏感信息識(shí)別;深度學(xué)習(xí);門控循環(huán)單元;BERT;條件隨機(jī)場(chǎng)
中圖分類號(hào):TP391;TP18 文獻(xiàn)標(biāo)識(shí)碼:A" 文章編號(hào):2096-4706(2024)11-0171-05
Research on Sensitive Information Recognition Technology Based on Deep Learning
ZENG Qingrui
(AECC Guiyang Engine Design Research Institute, Guiyang" 550081, China)
Abstract: To improve the intelligence level of sensitive information management work, this paper proposes a BERT-BGRU-CRF Deep Learning method to achieve automatic recognition of sensitive information. This method first preprocesses the text information using the BERT model, then uses the Bidirectional Gated Recurrent Unit (BGRU) model to obtain contextual semantic features, and finally inputs the extracted information into the Conditional Random Field model for sequence annotation to obtain the optimal solution. The experimental results show that on the self-built dataset, the proposed method achieves higher scores in accuracy, recall, and F1 value compared to the three recognition methods BERT-CRF, BERT-LSTM-CRF, and BERT-BiLSTM-CRF, proving that this method is suitable for intelligent identification of sensitive information.
Keywords: sensitive information recognition; Deep Learning; Gated Recurrent Unit; BERT; Conditional Random Field
0" 引" 言
涉密敏感信息識(shí)別與分析是軍工科研單位日常保密管理的重要工作內(nèi)容。在內(nèi)部管理方面,當(dāng)前傳統(tǒng)文件定密、標(biāo)密等工作主要通過人工判別涉密敏感信息點(diǎn)的方式進(jìn)行,工作效率較低且存在標(biāo)密不準(zhǔn)確的現(xiàn)象,如何依賴信息化技術(shù)提高敏感信息判定工作的效率,提高定密、標(biāo)密等工作的準(zhǔn)確性和智能化水平,是當(dāng)前保密工作的現(xiàn)實(shí)問題和迫切需求[1]。在外部管理方面,隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)空間失泄密問題正在日益加劇,如何快速實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)空間涉密敏感信息的預(yù)警,及時(shí)發(fā)現(xiàn)和切斷涉密敏感信息傳播渠道,消除或降低影響也是未來國(guó)家安全保密工作的重要工作范疇。
深度學(xué)習(xí)作為人工智能的代表性技術(shù),在對(duì)象理解加深、特征學(xué)習(xí)以及分類預(yù)測(cè)方面表現(xiàn)突出,可以幫助人類理解和總結(jié)文本信息,在敏感信息識(shí)別方面具有較大的潛力,是當(dāng)前研究的熱點(diǎn)領(lǐng)域。劉聰[2]基于情感分析算法設(shè)計(jì)了一種敏感信息識(shí)別方法并建立了相應(yīng)的識(shí)別系統(tǒng);黃建橋[3]基于BiLSTM-CRF模型實(shí)現(xiàn)了對(duì)網(wǎng)絡(luò)敏感信息識(shí)別;李姝等[4]提出了融合關(guān)鍵詞特征的Mer-Hi-Bert方法實(shí)現(xiàn)互聯(lián)網(wǎng)新聞敏感信息識(shí)別;童瀛等[5]利用深度神經(jīng)網(wǎng)絡(luò)對(duì)網(wǎng)絡(luò)中高敏感信息的實(shí)現(xiàn)監(jiān)測(cè)與預(yù)警;樸承哲[6]構(gòu)建了網(wǎng)絡(luò)敏感信息的傳感信息融合識(shí)別模型;王亞欣[7]設(shè)計(jì)了一種先是采用預(yù)訓(xùn)練語言模型進(jìn)行預(yù)處理再采用雙向長(zhǎng)短時(shí)記憶(BiLSTM)和雙向門控循環(huán)網(wǎng)絡(luò)(BGRU)模型的敏感信息識(shí)別模型;黃誠(chéng)等[8]提出了一種基于ELMo語言模型詞嵌入和A-ELMo注意力機(jī)制的敏感信息檢測(cè)方法;路松峰等[9]提出了融合變體字還原和語義分析的敏感信息檢測(cè)模型。Neerbek等[10]提出了一種在遞歸神經(jīng)網(wǎng)絡(luò)中將敏感文檔與非敏感文檔分開的學(xué)習(xí)短語結(jié)構(gòu),能夠用于更復(fù)雜的敏感信息特征檢測(cè);Yang等[11]提出這是一種基于用戶隱式規(guī)范識(shí)別敏感數(shù)據(jù)的自動(dòng)化方法,在該方法中綜合考慮了語義、句法和詞匯信息,以描述性文本的語義來識(shí)別敏感數(shù)據(jù)。
實(shí)現(xiàn)涉密敏感信息的智能化、精準(zhǔn)化管理,是未來保密工作的重要研究課題。本文利用深度學(xué)習(xí)技術(shù)對(duì)涉密敏感信息智能化識(shí)別進(jìn)行了初步的研究,提出了BERT-BGRU-CRF模型,并在基于開源信息構(gòu)建的涉密敏感信息數(shù)據(jù)集上,與其他三個(gè)模型進(jìn)行了對(duì)比驗(yàn)證,證實(shí)了所提方法的可行性。
1" 識(shí)別方法
涉密敏感信息識(shí)別本質(zhì)上是一項(xiàng)命名實(shí)體識(shí)別工作。本文提出了一種基于BERT-BGRU-CRF深度學(xué)習(xí)模型的軍工敏感信息識(shí)別方法,模型結(jié)構(gòu)如圖1所示。具體步驟如下:
1)數(shù)據(jù)預(yù)處理,即對(duì)原始的敏感信息文本數(shù)據(jù)集進(jìn)行處理,并將數(shù)據(jù)集為H = {h1,h2,…,hn},其中第i個(gè)敏感信息文本為hi = lt;wi1,wi2,…,wingt;。預(yù)定義實(shí)體類別為C = {c1,c2,…,cm}按字符等級(jí)劃分和標(biāo)注,標(biāo)注時(shí)字符和預(yù)定義類別用空格分隔。
2)構(gòu)建敏感信息文本訓(xùn)練數(shù)據(jù)集。
3)模型訓(xùn)練,即訓(xùn)練BERT-BiGRU-CRF識(shí)別模型。以敏感信息文本集為例Dtest = {d1,d2,…,dn}作為輸入,并將實(shí)體及其對(duì)應(yīng)的類別對(duì)作為輸出:{lt;m1,c1gt;,lt;m2,c2gt;,…,lt;mn,cngt;},其中實(shí)體mi = lt;hi,bi,eigt;為文檔中出現(xiàn)的實(shí)體;hi、bi和ei分別為hi中mi的首尾位置,且實(shí)體間沒有重疊要求,即ei<bi+1。
BERT-BGRU-CRF模型包括三層結(jié)構(gòu),第一層BERT模型,主要是輸入的文本信息進(jìn)行初步的預(yù)處理,將句子中的每個(gè)單詞轉(zhuǎn)換為低維向量形式;第二層BGRU模型,對(duì)預(yù)處理后的信息開展編碼和解碼工作,旨在從上下文中自動(dòng)提取語義和時(shí)間特征;第三層CRF模型,旨在求解輸出標(biāo)簽之間的依賴關(guān)系,得到文本的全局最優(yōu)標(biāo)注序列,生成敏感詞的預(yù)測(cè)結(jié)果。
1.1" BERT模型
BERT預(yù)訓(xùn)練語言模型自2018年由谷歌發(fā)布以來,已在越來越多的自然語言處理研究中用作下游任務(wù)的第一個(gè)模型。BERT模型采用了雙向Transformer作為其特征提取器,所以具有較強(qiáng)的特征提取能力,在經(jīng)過優(yōu)化改進(jìn)后,在各種文本挖掘任務(wù)中具有廣泛的應(yīng)用潛力。在BERT-BGRU-CRF模型中,可直接將整個(gè)句子輸入到BERT模型中,經(jīng)該模型特征提取后再以特征向量的形式輸出,用作下一層模型的輸入。BERT模型的預(yù)訓(xùn)練由“預(yù)訓(xùn)練-微調(diào)”兩個(gè)階段構(gòu)成。本文所提的模型中,輸入的句子輸入到BERT模型中,首先調(diào)用BERT模型在預(yù)訓(xùn)練階段已經(jīng)訓(xùn)練好的參數(shù),對(duì)模型進(jìn)行初始化操作,后在自建的敏感信息數(shù)據(jù)集上對(duì)模型進(jìn)一步“微調(diào)”,完成敏感信息識(shí)別任務(wù)中的文本初始向量化工作。
1.2" BGRU模型
門控循環(huán)單元(Gated Recurrent Unit, GRU)是在長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上,通過將LSTM模型的遺忘門和輸入門合并得到更新門,并增加細(xì)胞和隱藏兩個(gè)狀態(tài)的方式,對(duì)LSTM模型改進(jìn)優(yōu)化,得到的神經(jīng)網(wǎng)絡(luò)模型。相較于LSTM模型,改進(jìn)后的GRU模型在保持了前者特征提取效果的同時(shí),不僅有效解決了重要信息記憶過程中的梯度消失問題,同時(shí)也具有模型結(jié)構(gòu)簡(jiǎn)單、快速收斂、模型參數(shù)較少等優(yōu)點(diǎn),其結(jié)構(gòu)如圖2所示。
在圖2中,t為模型所處的某一時(shí)刻,xt為某一時(shí)刻的輸入,ht為模型在某一時(shí)刻的輸出。在模型動(dòng)態(tài)門結(jié)構(gòu)中,更新門zt主要作用在于控制前一時(shí)刻(即t-1)隱藏層的輸出對(duì)當(dāng)前時(shí)刻(即t時(shí)刻)隱藏層的影響程度,而重置門rt主要功能是控制忽略前一時(shí)刻(即t-1)隱藏層中的有效信息的程度,其輸出范圍值從0到1,其中0值為完全丟棄當(dāng)前信息,并允許忘記前一計(jì)算狀態(tài),1為完全保留。GRU的計(jì)算式如(1)~(4):
zt = σ (Wz [xt,ht-1] + bz)" " " " " " " " " (1)
rt = σ (Wr [xt,ht-1] + br)" " " " " " " " " (2)
= tanh(Wh [xt,rt ht-1] + bh)" " " " " " " (3)
(4)
其中,ht-1為在t-1時(shí)刻隱藏狀態(tài)輸出的激活值; 為t時(shí)刻候選隱藏狀態(tài);W為單元的權(quán)重,b為單元的矩陣偏置。
由于GRU是一種單向神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),狀態(tài)的傳遞是從前到后的,為了獲取來自兩個(gè)方向的上下文語義特征,在本文所提出的模型中使用BGRU [12]模型在前后方向上開展信息提取,最終輸出的信息是:
(5)
其中, 和" 分別為在t時(shí)刻的隱藏狀態(tài)下,正向GRU和反向GRU。
1.3" CRF函數(shù)
敏感信息識(shí)別本質(zhì)上是一個(gè)多分類問題。經(jīng)過BGRU層后得到整個(gè)句子的向量表示后,將其輸入到CRF層中,防止可能會(huì)出現(xiàn)的標(biāo)注無效情況。CRF通過將所有特征進(jìn)行全局歸一化來得到全局最優(yōu)解,能夠較好地解決標(biāo)記偏置等問題。
對(duì)于給定輸入序列x = (x1,x2,…,xn)和對(duì)應(yīng)的標(biāo)簽序列y = ( y1,y2,…,yn)CRF定義評(píng)估分?jǐn)?shù)為:
(6)
其中,W為轉(zhuǎn)移矩陣, 為從標(biāo)簽yi-1到標(biāo)簽yi的轉(zhuǎn)移概率, 為輸入xi映射到標(biāo)簽yi的非歸一化概率。
輸入序列到標(biāo)簽序列的對(duì)應(yīng)概率p ( y | x)可用Softmax函數(shù)進(jìn)行計(jì)算:
(7)
其中,Yx為所有可能預(yù)測(cè)的標(biāo)簽序列。
在訓(xùn)練中,最大化p ( y | x)的對(duì)數(shù)似然,可將損失函數(shù)定義為:
(8)
解碼時(shí),選擇y*為輸出預(yù)測(cè)標(biāo)簽序列,通過動(dòng)態(tài)規(guī)劃算法求得最優(yōu)解:
(9)
2" 實(shí)驗(yàn)與分析
2.1" 實(shí)驗(yàn)數(shù)據(jù)
由于保密的需要,本文中所采用的數(shù)據(jù)主要以外軍同類型裝備開源信息為主。數(shù)據(jù)信息主要涉及武器裝備技術(shù)文檔、相關(guān)研究論文、新聞、論壇等。由于部分?jǐn)?shù)據(jù)存在較多特殊符號(hào),在數(shù)據(jù)集構(gòu)建過程中采用正則表達(dá)式等方式對(duì)原始數(shù)據(jù)進(jìn)行了預(yù)處理。通過整理得到敏感信息數(shù)據(jù)12 100條,將敏感信息定義為機(jī)構(gòu)(ORG)、指標(biāo)(IND)、進(jìn)展(PRO)、名稱(NAM)、事件(EVE)、用戶(USE)6類,并采用BIO標(biāo)注規(guī)范進(jìn)行標(biāo)注(如圖3所示),共計(jì)8 634個(gè)敏感關(guān)鍵詞。根據(jù)實(shí)驗(yàn)要求,將構(gòu)建的數(shù)據(jù)集按照8:1:1進(jìn)行劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集,用于模型的訓(xùn)練、驗(yàn)證和測(cè)試。數(shù)據(jù)集分布如表1所示。
2.2" 實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置
實(shí)驗(yàn)所采用的實(shí)驗(yàn)環(huán)境配置,如表2所示。
BERT-BGRU-CRF模型參數(shù)的設(shè)置對(duì)模型的識(shí)別精度和工作的穩(wěn)定性有很大的影響。本文為了充分利用預(yù)訓(xùn)練模型,BERT層采用與官方模型發(fā)布的超參數(shù)保持一致,如表3所示。BERT-BGRU-CRF模型參數(shù)通過調(diào)參優(yōu)化獲得,主要參數(shù)調(diào)參結(jié)果如圖4-7所示。當(dāng)前常見的優(yōu)化器主要包括SGD、Adagrad、RMSProp、Adam和Adamax,由圖4可知,訓(xùn)練模型使用Adam優(yōu)化器效果最好、準(zhǔn)確率最高。選定優(yōu)化器后對(duì)模型訓(xùn)練次數(shù)Epoch、模型批量大小batch size和學(xué)習(xí)率lr分別進(jìn)行調(diào)整,由圖5-7可知,當(dāng)模型Epoch設(shè)置為25、batch size設(shè)置為32、學(xué)習(xí)率lr設(shè)置為0.001時(shí),模型能夠獲得較好的識(shí)別效果。
2.3" 評(píng)估標(biāo)準(zhǔn)
通過準(zhǔn)確率P、召回率R和調(diào)和平均值F1對(duì)識(shí)別指標(biāo)進(jìn)行實(shí)驗(yàn)結(jié)果評(píng)價(jià),具體公式為:
(10)
(11)
(12)
其中:Tp為模型正確識(shí)別出的敏感詞數(shù);Fp為模型識(shí)別出的不相關(guān)敏感詞數(shù);Fn為模型沒有檢測(cè)到的敏感詞數(shù)。
2.4" 實(shí)驗(yàn)結(jié)果及分析
為驗(yàn)證本文所提出的敏感信息方法的有效性,本文將該模型,分別與BERT-CRF、BERT-LSTM-CRF以及BERT-BiLSTM-CRF三個(gè)識(shí)別方法在前文構(gòu)建的數(shù)據(jù)集上分別進(jìn)行對(duì)比實(shí)驗(yàn),對(duì)比其精準(zhǔn)率、召回率以及F1值,實(shí)驗(yàn)結(jié)果如圖8、9所示。
通過圖8、圖9可知,BERT-BGRU-CRF方法相較于BERT-BiLSM-CRF、BERT-LSTM-CRF、BERT-CRF等方法其準(zhǔn)確率分別提升了1.03%、2.00%、3.94%,其F值分別提升了0.85%、1.84%、4.03%,這表明所提方法具有可行性,可以滿足涉密敏感信息識(shí)別工作的要求。對(duì)比分析BERT-BGRU-CRF與BERT-BiLSTM-CRF兩種方法,作為BiLSTM模型的重要改進(jìn),BGRU在準(zhǔn)確率和F值提升僅為0.99%和0.79%,這可能與所構(gòu)建的數(shù)據(jù)集多是領(lǐng)域信息,特征較為明顯有著直接關(guān)系。綜上分析四種方法可知,領(lǐng)域文本上下語義蘊(yùn)含著重要且豐富的信息,敏感信息識(shí)別需要注重對(duì)長(zhǎng)句子信息的提取。
3" 結(jié)" 論
針對(duì)當(dāng)前涉密敏感信息人工識(shí)別工作量大、耗時(shí)耗力等問題,本文提出了BERT-BGRU-CRF深度學(xué)習(xí)方法,并在自建敏感信息數(shù)據(jù)集上通過實(shí)驗(yàn)對(duì)比驗(yàn)證了該方法的有效性。研究結(jié)果表明,深度學(xué)習(xí)技術(shù)在涉密敏感信息的識(shí)別上具有較高的應(yīng)用潛力,既可在內(nèi)外網(wǎng)數(shù)據(jù)交換、文件定密等過程中實(shí)現(xiàn)對(duì)信息的初步鑒別,也可對(duì)公共網(wǎng)絡(luò)空間相關(guān)敏感信息進(jìn)行全天候監(jiān)測(cè)預(yù)警,是未來安全保密技術(shù)的重要發(fā)展方向。在以后的研究中,一方面既要進(jìn)一步豐富涉軍領(lǐng)域敏感數(shù)據(jù),加大對(duì)行業(yè)“黑話”、變體信息、縮寫詞等信息的識(shí)別分析等,另一方面,也要加大對(duì)敏感信息識(shí)別方法的性能優(yōu)化和應(yīng)用場(chǎng)景拓展。
參考文獻(xiàn):
[1] 楊瑋祺.基于深度學(xué)習(xí)的輔助定密系統(tǒng)研究與實(shí)現(xiàn) [D].北京:北京交通大學(xué),2021.
[2] 劉聰.基于情感分析的敏感信息識(shí)別方法研究 [D].南京:南京理工大學(xué),2020.
[3] 黃建橋.基于深度學(xué)習(xí)的網(wǎng)絡(luò)敏感信息感知研究 [D].武漢:湖北工業(yè)大學(xué),2020.
[4] 李姝,張祥祥,于碧輝,等.互聯(lián)網(wǎng)新聞敏感信息識(shí)別方法的研究 [J].小型微型計(jì)算機(jī)系統(tǒng),2021,42(4):685-689.
[5] 童瀛,周宇,姚煥章,等.深度神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)高敏感信息預(yù)警算法 [J].西安工程大學(xué)學(xué)報(bào),2021,35(1):69-74+87.
[6] 樸承哲.基于改進(jìn)深度學(xué)習(xí)的網(wǎng)絡(luò)敏感信息快速過濾研究 [J].寧夏師范學(xué)院學(xué)報(bào),2021,42(1):85-90.
[7] 王亞欣.基于文本內(nèi)容的敏感信息識(shí)別 [D].蘭州:蘭州大學(xué),2022.
[8] 黃誠(chéng),趙倩銳.基于語言模型詞嵌入和注意力機(jī)制的敏感信息檢測(cè)方法 [J].計(jì)算機(jī)應(yīng)用,2022,42(7):2009-2014.
[9] 路松峰,鄭召作,周軍龍,等.融合變體字還原和語義分析的敏感信息檢測(cè) [J].湖北大學(xué)學(xué)報(bào):自然科學(xué)版,2023,45(6):879-887.
[10] NEERBEK J,ASSENT I,PETER D. Detecting Complex Sensitive Information via Phrase Structure in Recursive Neural Networks [C]//22nd Pacific-Asia Conference on Knowledge Discovery and Data Mining.Melbourne:Springer,2018:373-385.
[11] YANG Z Q,LIANG Z K. Automated Identification of Sensitive Data from Implicit User Specification [J/OL].Cybersecurity,2018,13(1)[2024-02-18].https://cybersecurity.springeropen.com/articles/10.1186/s42400-018-0011-x#citeas.
[12] YU Q,WANG Z Y,JIANG K W. Research on Text Classification Based on BERT-BiGRU Model [J].Journal of Physics:Conference Series,2021,1746(1):012019.
作者簡(jiǎn)介:曾慶瑞(1983.02—),男,漢族,山東菏澤人,工程師,本科,研究方向:安全保密技術(shù)。
收稿日期:2024-03-13