李 姝,張祥祥,于碧輝,于金剛
1(沈陽(yáng)理工大學(xué) 裝備工程學(xué)院,沈陽(yáng) 110159) 2(中國(guó)科學(xué)院大學(xué),北京 100049) 3(中國(guó)科學(xué)院 沈陽(yáng)計(jì)算技術(shù)研究所,沈陽(yáng) 110168)
據(jù)第45次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》統(tǒng)計(jì),截至2020年3月,我國(guó)網(wǎng)絡(luò)新聞?dòng)脩粢?guī)模達(dá)7.31億,占網(wǎng)民整體的80.9%.新聞資訊聚合平臺(tái)每天整合著海量新聞媒體內(nèi)容.隨著以手機(jī)為載體的移動(dòng)互聯(lián)網(wǎng)普及,社會(huì)的新聞傳播方式途徑以及輿論生態(tài)正在發(fā)生巨大變革.
在自媒體時(shí)代,網(wǎng)民個(gè)體可以依托新聞資訊聚合平臺(tái)產(chǎn)出新聞信息,在“內(nèi)容為王”的大基調(diào)下,卻也存在著利用新聞發(fā)放平臺(tái)進(jìn)行色情信息傳播、發(fā)表反社會(huì)言論、銷(xiāo)售國(guó)家違禁物品的現(xiàn)象.這些質(zhì)量不佳的敏感信息嚴(yán)重?fù)p害了和諧社會(huì)的媒體生態(tài)和輿論生態(tài),甚至?xí)?duì)價(jià)值觀未成型的未成年人造成極為惡劣的影響.因此對(duì)互聯(lián)網(wǎng)新聞信息進(jìn)行有效監(jiān)管是當(dāng)前的重要命題,是人民群眾網(wǎng)絡(luò)空間權(quán)益的重要保障.識(shí)別并過(guò)濾互聯(lián)網(wǎng)新聞中的敏感信息,具有深刻的社會(huì)意義與現(xiàn)實(shí)意義.
對(duì)于互聯(lián)網(wǎng)新聞的敏感信息識(shí)別,現(xiàn)有的方法主要是基于敏感關(guān)鍵詞的方法進(jìn)行過(guò)濾[1],這種方法有兩個(gè)非常明顯的缺陷,一方面,由于互聯(lián)網(wǎng)新聞是不斷變化的,每天都會(huì)產(chǎn)生新的術(shù)語(yǔ)和詞語(yǔ),需要不斷更新迭代敏感關(guān)鍵詞,費(fèi)時(shí)費(fèi)力,泛化性能弱;另一方面,基于敏感關(guān)鍵詞的方法很容易對(duì)正常新聞造成誤傷,也就是將正常新聞?wù)`認(rèn)為是敏感新聞,所以也就導(dǎo)致了基于敏感關(guān)鍵詞的方法識(shí)別準(zhǔn)確率不高.而最近幾年,隨著硬件設(shè)備、計(jì)算能力的提高,深度學(xué)習(xí)開(kāi)始流行并快速發(fā)展著.深度學(xué)習(xí)的最大優(yōu)點(diǎn)是利用神經(jīng)網(wǎng)絡(luò)從文本信息中自動(dòng)學(xué)習(xí)敏感信息特征,無(wú)需人工制定敏感信息特征,是端到端的方法,對(duì)于敏感信息識(shí)別可以取得良好的效果,深度學(xué)習(xí)中的預(yù)訓(xùn)練模型在大規(guī)模語(yǔ)料上通過(guò)無(wú)監(jiān)督的方法學(xué)習(xí)到了大規(guī)模的先驗(yàn)知識(shí)與語(yǔ)義特征,往往可以取得很好的效果.
本文所要識(shí)別的敏感信息包括反動(dòng)、色情、暴力、違禁4種類型,反動(dòng)主要指涉及革命英雄人物、國(guó)家領(lǐng)導(dǎo)人、社會(huì)的消極反面言論,色情主要指低俗、有害未成年人身心健康的不良信息,暴力主要指暴力行為,違禁主要指國(guó)家命令禁止的相關(guān)物品.
本文首次將傳統(tǒng)敏感關(guān)鍵詞方法與深度學(xué)習(xí)方法相結(jié)合應(yīng)用于互聯(lián)網(wǎng)敏感信息識(shí)別,提出 Mer-Hi-Bert(Merge Hierarchical Bert )即融合敏感關(guān)鍵詞特征的分層Bert模型識(shí)別互聯(lián)網(wǎng)敏感信息.本文的創(chuàng)新之處在于:一是對(duì)Bert模型進(jìn)行改進(jìn),原始的Bert模型不適合互聯(lián)網(wǎng)新聞長(zhǎng)文本任務(wù),改進(jìn)后的分層Bert模型與Attention機(jī)制相結(jié)合更適合于新聞長(zhǎng)文本的敏感信息識(shí)別;二是將敏感關(guān)鍵詞策略融入深度學(xué)習(xí)模型中,融合了傳統(tǒng)敏感關(guān)鍵詞特征的Mer-Hi-Bert模型性能優(yōu)于未融合關(guān)鍵詞特征的Hi-Bert模型,在本文數(shù)據(jù)集上取得了最好的效果.
目前,已經(jīng)有很多研究者探索如何識(shí)別互聯(lián)網(wǎng)信息中的敏感信息.早期的主流方法主要是基于關(guān)鍵詞的方法.關(guān)鍵詞方法包括硬匹配、跳詞匹配[2]等,但是為逃避計(jì)算機(jī)的識(shí)別,敏感信息往往以變形形式出現(xiàn),使得敏感信息的識(shí)別變得困難.針對(duì)這一問(wèn)題,F(xiàn)orman等[3]提出了一種多模式模糊匹配的敏感關(guān)鍵詞過(guò)濾算法.通過(guò)對(duì)用戶自定義的關(guān)鍵詞進(jìn)行拆分,并利用拼音編碼為關(guān)鍵詞建立索引表,實(shí)現(xiàn)同音變形的匹配.關(guān)鍵詞方法是最基礎(chǔ)、最有效的方法,但是容易誤傷,且關(guān)鍵詞難以窮舉.
統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型如SVM[4]、XGBoost[5]等被成功地用于敏感信息識(shí)別,且獲得了較好的效果,主要是通過(guò)文本分析的操作,提取頁(yè)面文字的特征為樣本進(jìn)行詞法分析,并以詞頻和加權(quán)的方法,來(lái)甄別該頁(yè)面是否存在敏感內(nèi)容.但是領(lǐng)域內(nèi)資源或特征的獲取耗時(shí)耗力,傳統(tǒng)的特征提取過(guò)程中會(huì)用到復(fù)雜的NLP 工具,會(huì)造成誤差傳遞,大量的特征工程難以實(shí)現(xiàn).
最近幾年,隨著硬件設(shè)備、計(jì)算能力的提高,深度學(xué)習(xí)開(kāi)始流行并快速發(fā)展著[6].深度學(xué)習(xí)的最大優(yōu)點(diǎn)是利用神經(jīng)網(wǎng)絡(luò)從文本中自動(dòng)學(xué)習(xí)語(yǔ)義特征,無(wú)需人工制定特征.Yoon Kim[7]等提出了 TextCNN,首次將卷積神經(jīng)網(wǎng)絡(luò) CNN 應(yīng)用到分類任務(wù)中,CNN 模型利用多個(gè)不同尺度的卷積核可以提取局部的 n-gram 特征,但是對(duì)于遠(yuǎn)距離特征,單層 CNN 無(wú)法捕獲.Zhou等[8]等提出BiLSTM與Attention相結(jié)合用于分類任務(wù),BiLSTM[9]模型利用門(mén)控機(jī)制可以捕獲長(zhǎng)距離依賴,進(jìn)而更好的對(duì)文本信息進(jìn)行語(yǔ)義特征編碼,但缺點(diǎn)在于不能并行計(jì)算,Attention機(jī)制可以更好的抓住分類的重要特征如敏感信息的特征;Transformer[10]是 Google 的團(tuán)隊(duì)在 2017 年提出的一種NLP經(jīng)典模型.Transformer利用self-attention 機(jī)制[11],允許詞之間直接建立聯(lián)系,能更好地捕獲長(zhǎng)距離依賴,其編碼能力超過(guò)了LSTM,且可以并行計(jì)算.
以Transformer為基礎(chǔ)的預(yù)訓(xùn)練模Bert[12]、Roberta[13]、XLnet[14]等在大規(guī)模語(yǔ)料上通過(guò)無(wú)監(jiān)督的方法學(xué)習(xí)到了大規(guī)模的先驗(yàn)知識(shí)與語(yǔ)義特征,在下游任務(wù)互聯(lián)網(wǎng)敏感信息識(shí)別上只需要進(jìn)行微調(diào)就可以取得很好的效果.
本文提出的融合關(guān)鍵詞特征的互聯(lián)網(wǎng)新聞敏感信息識(shí)別模型 Mer-Hi-Bert結(jié)構(gòu)如圖 1 所示,該模型由 4 部分組成,第1部分是分句模塊,將文檔級(jí)別的互聯(lián)網(wǎng)新聞分成若干個(gè)片段,每個(gè)片段長(zhǎng)度不超過(guò)設(shè)置的最大長(zhǎng)度.第 2 部分是敏感關(guān)鍵詞抽取模塊,該模塊通過(guò)使用關(guān)鍵詞策略,提取切分后的互聯(lián)網(wǎng)新聞片段中的敏感關(guān)鍵詞,然后使用[SEP]分隔符將敏感關(guān)鍵詞拼接在片段后面.第 3 部分是互聯(lián)網(wǎng)新聞文本語(yǔ)義特征編碼器模塊,使用目前最先進(jìn)的預(yù)訓(xùn)練模型Bert對(duì)互聯(lián)網(wǎng)新聞進(jìn)行語(yǔ)義編碼,但是原始的Bert模型不適合互聯(lián)網(wǎng)新聞長(zhǎng)文本任務(wù)(文本長(zhǎng)度>512)[15],由于第1部分已經(jīng)將長(zhǎng)文本切分成多個(gè)片段,所以本文改進(jìn)后的分層Bert模型可以對(duì)切分后的互聯(lián)網(wǎng)新聞片段進(jìn)行語(yǔ)義編碼,提取每個(gè)片段語(yǔ)義向量.第4部分是Attenion模塊,相比與直接將第3部分得到的每個(gè)片段的語(yǔ)義向量進(jìn)行求和拼接(Add),Attention模塊將第3部分得到的每個(gè)片段的語(yǔ)義向量按照重要性進(jìn)行求和拼接,進(jìn)而實(shí)現(xiàn)對(duì)整篇新聞的語(yǔ)義編碼,最終將整篇新聞文檔的語(yǔ)義編碼用于敏感信息識(shí)別.

圖1 模型結(jié)構(gòu)圖Fig.1 Model structure diagram
針對(duì)互聯(lián)網(wǎng)新聞長(zhǎng)文本問(wèn)題(文本長(zhǎng)度>512不能直接使用Bert進(jìn)行語(yǔ)義編碼),本文使用了基于標(biāo)點(diǎn)符號(hào)的歸并切分策略對(duì)長(zhǎng)文本進(jìn)行切分,保證了每個(gè)片段長(zhǎng)度相當(dāng)且不會(huì)在句子中間進(jìn)行切分,使得語(yǔ)義信息更加完整.具體做法時(shí)首先按照“。;? !”等符號(hào)對(duì)文本進(jìn)行切分,接著由于切分后的句子可能過(guò)短,本文采用歸并的策略,將短文本歸并,使得歸并后的文本長(zhǎng)度不超過(guò)設(shè)置的最大長(zhǎng)度.
關(guān)鍵詞抽取模塊的作用就是提取互聯(lián)網(wǎng)新聞每句話中的敏感關(guān)鍵詞,然后使用
提取互聯(lián)網(wǎng)新聞中的敏感關(guān)鍵詞并不是簡(jiǎn)單的基于關(guān)鍵詞的匹配,為逃避計(jì)算機(jī)的識(shí)別,敏感關(guān)鍵詞往往以變形形式出現(xiàn),因此需要使用多種關(guān)鍵詞策略來(lái)識(shí)別出關(guān)鍵詞.最基礎(chǔ)的關(guān)鍵詞策略,就是對(duì)關(guān)鍵詞的硬匹配[16].比如,添加“槍支,聯(lián)系”這樣的組合關(guān)鍵詞,就可以攔截“需要xx槍支的,請(qǐng)聯(lián)系我,微信號(hào):efc123”這樣的敏感信息.除此之外,關(guān)鍵詞策略通常還包括,拼音關(guān)鍵詞策略(qiangzhi--> 買(mǎi)槍支的找我)、跳字匹配(槍支 --> 買(mǎi)?槍?支的找我)等.
本文使用的敏感關(guān)鍵詞詞典來(lái)源于互聯(lián)網(wǎng)公開(kāi)的敏感關(guān)鍵詞詞典與長(zhǎng)期以來(lái)的積累,最終本文所使用的詞典包含反動(dòng)、色情、暴力、違禁4大類共計(jì)4639個(gè)敏感關(guān)鍵詞.
為了將經(jīng)過(guò)關(guān)鍵詞抽取模塊處理后的互聯(lián)網(wǎng)新聞文本輸入到模型中進(jìn)行處理,需要使用編碼器對(duì)文本進(jìn)行語(yǔ)義特征提取[17].本文使用目前最先進(jìn)的預(yù)訓(xùn)練模型Bert對(duì)互聯(lián)網(wǎng)新聞進(jìn)行語(yǔ)義編碼,預(yù)訓(xùn)練模型在大規(guī)模語(yǔ)料上通過(guò)無(wú)監(jiān)督的方法學(xué)習(xí)到了大量的先驗(yàn)知識(shí)與語(yǔ)義特征,有很強(qiáng)的上下文建模能力.但是原始的Bert模型對(duì)于長(zhǎng)度為N的文本來(lái)說(shuō),復(fù)雜度為O(N2)且最大編碼長(zhǎng)度為512[18],所以原始的Bert模型并不適合對(duì)互聯(lián)網(wǎng)新聞這樣文檔級(jí)的長(zhǎng)文本進(jìn)行建模.由于第1部分分句模塊已經(jīng)將長(zhǎng)文本切分成多個(gè)片段,每個(gè)片段的長(zhǎng)度小于512,所以本文改進(jìn)后的分層Bert模型可以對(duì)切分后的互聯(lián)網(wǎng)新聞片段進(jìn)行語(yǔ)義編碼,提取每個(gè)片段語(yǔ)義向量.
本文使用的Bert模型由12層Transformer 編碼器組成的,具有很強(qiáng)的上下文語(yǔ)義編碼能力.Transformer 利用 self-attention 機(jī)制,允許詞之間直接建立聯(lián)系,能更好地捕獲長(zhǎng)距離依賴,其編碼能力超過(guò)了 LSTM[19],且可以并行計(jì)算.
(1)
Transformer實(shí)際使用的是基于self-attention機(jī)制的Multi-Head Attention相當(dāng)于 h 個(gè)不同的 self-attention 的集成,可以從多個(gè)維度來(lái)把握詞的語(yǔ)義信息,語(yǔ)義特征提取能力更強(qiáng).
MultiHead(Q,K,V)=Concat(head1,…,heads)WO
(2)
在第3部分得到的每個(gè)互聯(lián)網(wǎng)新聞片段的語(yǔ)義向量基礎(chǔ)之上使用Attention機(jī)制,注意力機(jī)制將每個(gè)片段的語(yǔ)義向量按照重要性進(jìn)行求和拼接而不是簡(jiǎn)單的求和拼接(Add),進(jìn)而實(shí)現(xiàn)對(duì)整篇新聞的語(yǔ)義編碼,最終將整篇新聞文檔的語(yǔ)義編碼用于敏感信息識(shí)別.Attention 機(jī)制可以描述為一個(gè)查詢到一系列鍵值對(duì)的映射,假設(shè)輸入為 query,source中以(key,value)形式存儲(chǔ)需要的上下文[20].如圖2所示.

圖2 鍵值映射Fig.2 Mapping of key and value
在計(jì)算 Attention 時(shí)主要分為3步:將查詢和每個(gè)關(guān)鍵字進(jìn)行相似度計(jì)算得到權(quán)重;一般再使用一個(gè) softmax 函數(shù)對(duì)這些權(quán)重進(jìn)行歸一化;最后將權(quán)重和相應(yīng)的鍵值進(jìn)行加權(quán)求和得到最后的 Attention:
ei=a(q,ki)
(3)
αi=softmax(ei)
(4)
(5)
所以 Attention 的本質(zhì)是對(duì) Source 中元素的 Value 值進(jìn)行加權(quán)求和,權(quán)重的分配就是模擬人類的注意力的重點(diǎn)關(guān)注和自動(dòng)忽略.從而有效的從海量的數(shù)據(jù)信息中有側(cè)重點(diǎn)的進(jìn)行選擇具有高價(jià)值的信息.
目前國(guó)內(nèi)還沒(méi)有互聯(lián)網(wǎng)新聞敏感信息數(shù)據(jù)集,實(shí)驗(yàn)所用數(shù)據(jù)集為使用 Python 爬蟲(chóng)抓取的互聯(lián)網(wǎng)新聞資訊,來(lái)源包括新聞門(mén)戶網(wǎng)站、社區(qū)論壇等.因?yàn)樵紨?shù)據(jù)來(lái)源較多,含有較多非法字符,所有數(shù)據(jù)都經(jīng)過(guò)了預(yù)處理,包括使用正則表達(dá)式刪除特殊符號(hào)、刪除url鏈接等.通過(guò)整理實(shí)際獲取到的新聞數(shù)據(jù)為141000條,所有新聞數(shù)據(jù)平均長(zhǎng)度為823字,是典型的長(zhǎng)文本問(wèn)題.另外,本文定義了反動(dòng)、色情、暴力、違禁4大類4639個(gè)敏感關(guān)鍵詞.將新聞數(shù)據(jù)分為訓(xùn)練集(80%,112800條數(shù)據(jù))、驗(yàn)證集(10%,14100條數(shù)據(jù))和測(cè)試集(10%,14100條數(shù)據(jù))用于模型訓(xùn)練、驗(yàn)證與測(cè)試,實(shí)驗(yàn)數(shù)據(jù)分布如表1所示.

表1 實(shí)驗(yàn)數(shù)據(jù)分布Table 1 Data distribution
實(shí)驗(yàn)環(huán)境如表 2 所示.
在實(shí)驗(yàn)中,我們使用了谷歌開(kāi)源的Bert預(yù)訓(xùn)練權(quán)重[12],隱層輸出維度為768,我們使用差分學(xué)習(xí)率,Bert層學(xué)習(xí)率設(shè)為2e-5,Attention層和分類層學(xué)習(xí)率設(shè)為2e-3,優(yōu)化器使用AdamW,dropout率設(shè)置為0.2,設(shè)置切分后的每個(gè)互聯(lián)網(wǎng)新聞片段最大長(zhǎng)度為200.

表2 實(shí)驗(yàn)環(huán)境Table 2 Lab environment
在本實(shí)驗(yàn)中,采用準(zhǔn)確率,召回率以及精確率和 F1值作為評(píng)價(jià)指標(biāo),為了驗(yàn)證模型的有效性,本文實(shí)現(xiàn)了 3 個(gè)對(duì)比實(shí)驗(yàn)?zāi)P团c本文提出的模型進(jìn)行比較.
KWM:是指基于關(guān)鍵詞策略的敏感信息識(shí)別方法[2],這也是目前用的最多的方法,但是由于互聯(lián)網(wǎng)新聞信息是不斷變化的,每天都會(huì)產(chǎn)生新的術(shù)語(yǔ)和詞語(yǔ),需要不斷更新迭代關(guān)鍵詞,費(fèi)時(shí)費(fèi)力,泛化性能弱,且很容易對(duì)正常互聯(lián)網(wǎng)新聞造成誤傷.
TextCNN:Yoon Kim[7]提出了 TextCNN,首次將卷積神經(jīng)網(wǎng)絡(luò) CNN 應(yīng)用到自然語(yǔ)言處理任務(wù)中,利用多個(gè)不同 size 的 kernel 來(lái)提取句子中的關(guān)鍵信息(n-gram 特征),從而能夠更好地捕捉局部相關(guān)性,該模型經(jīng)常作為敏感信息識(shí)別的基準(zhǔn)模型.
Hi-Bert(Att):本文提出的對(duì)Bert模型進(jìn)行改進(jìn)使其可以適應(yīng)互聯(lián)網(wǎng)新聞長(zhǎng)文本的分層Bert模型,該模型沒(méi)有融合傳統(tǒng)方法關(guān)鍵詞特征,與融合了關(guān)鍵詞特征的Mer-Hi-Bert模型作為對(duì)比,從而驗(yàn)證融合了關(guān)鍵詞特征的Mer-Hi-Bert模型的有效性.
Hi-Bert(Add):直接將互聯(lián)網(wǎng)新聞每個(gè)片段的語(yǔ)義向量進(jìn)行求和拼接(Add),而不是使用Attention模塊將互聯(lián)網(wǎng)新聞每個(gè)片段的語(yǔ)義向量按照重要性進(jìn)行求和拼接.與Hi-Bert(Att)形成對(duì)比,從而驗(yàn)證Attention模塊的有效性.
對(duì)比模型和本文提出的模型在互聯(lián)網(wǎng)新聞數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表3所示.

表3 實(shí)驗(yàn)結(jié)果Table 3 Lab result
由表 3 可以看出:
1)基于基于關(guān)鍵詞策略的敏感信息識(shí)別方法KWM準(zhǔn)確率與F1值都不是很高,這是因?yàn)樵诨ヂ?lián)網(wǎng)新聞中,文本都很長(zhǎng),相比于短文本來(lái)說(shuō),更容易誤認(rèn)為正常新聞為含有敏感信息的新聞.
2)與KWM相比,TextCNN模型有較大的提升,這是因?yàn)樯疃葘W(xué)習(xí)方法可以學(xué)習(xí)到文本更深層次的語(yǔ)義特征,從而減少誤傷情況,并且有些文本僅憑關(guān)鍵詞是無(wú)法識(shí)別敏感信息的,必須更深層次的去理解上下文的語(yǔ)義和邏輯才能準(zhǔn)確識(shí)別是否屬于敏感信息.
3)與TextCNN相比,Hi-Bert模型有了很大的提升,這是因?yàn)槟壳白匀徽Z(yǔ)言處理領(lǐng)域最先進(jìn)的預(yù)訓(xùn)練模型在大規(guī)模語(yǔ)料上通過(guò)無(wú)監(jiān)督的方法學(xué)習(xí)到了大規(guī)模的先驗(yàn)知識(shí)與語(yǔ)義特征,在下游任務(wù)如敏感信息識(shí)別上只需要進(jìn)行微調(diào)就可以取得很好的效果,相比于TextCNN來(lái)說(shuō),Hi-Bert模型的上下文語(yǔ)義編碼能力更強(qiáng),可以學(xué)到更多深層次的語(yǔ)義信息.
4)與Hi-Bert模型相比,融合了敏感關(guān)鍵詞特征的Mer-Hi-Bert模型有一定的提升,在本次數(shù)據(jù)集上取得了最好的效果.這說(shuō)明將傳統(tǒng)的基于敏感關(guān)鍵詞策略的方法與目前深度學(xué)習(xí)中最先進(jìn)的預(yù)訓(xùn)練方法相結(jié)合可以取得更好的效果,不應(yīng)該徹底拋棄傳統(tǒng)的方法.
5)相比與直接將互聯(lián)網(wǎng)新聞每個(gè)片段的語(yǔ)義向量進(jìn)行求和拼接(Add),使用Attention模塊(Att)將互聯(lián)網(wǎng)新聞每個(gè)片段的語(yǔ)義向量按照重要性進(jìn)行求和拼接更有效.
針對(duì)于互聯(lián)網(wǎng)新聞的敏感信息識(shí)別任務(wù),本文提出了一種融合關(guān)鍵詞特征的互聯(lián)網(wǎng)新聞敏感信息識(shí)別模型 Mer-Hi-Bert.該模型改進(jìn)了Bert模型,原始的Bert模型不適合新聞長(zhǎng)文本任務(wù),改進(jìn)后的分層Bert模型第1層是通過(guò)分句模塊將長(zhǎng)文本分句歸并成多個(gè)片段,對(duì)每個(gè)片段使用Bert模型提取語(yǔ)義特征,第2層是對(duì)于提取后的多個(gè)語(yǔ)義特征向量使用Attention機(jī)制按照重要性進(jìn)行求和拼接,相比與直接求和拼接更適合于新聞長(zhǎng)文本的敏感信息識(shí)別,因?yàn)槊總€(gè)片段對(duì)于整篇文檔的敏感信信息識(shí)別貢獻(xiàn)程度不同,包含了敏感信息的片段重要性更高,給與更高的權(quán)重更有利于敏感信息識(shí)別.融合了敏感關(guān)鍵詞特征使得模型能更大程度上的學(xué)習(xí)到互聯(lián)網(wǎng)新聞敏感信息特征,傳統(tǒng)方法與深度學(xué)習(xí)方法相結(jié)合產(chǎn)生了更好的效果.最終,通過(guò)爬取的真實(shí)互聯(lián)網(wǎng)新聞數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比,本文的模型比其他方法在敏感信息識(shí)別上有更好的準(zhǔn)確率與F1值.目前文章模型中傳統(tǒng)方法與深度學(xué)習(xí)方法結(jié)合較為簡(jiǎn)單,未來(lái)可以進(jìn)一步設(shè)計(jì)模型加強(qiáng)傳統(tǒng)方法與深度學(xué)習(xí)方法的結(jié)合.