黃誠,趙倩銳
基于語言模型詞嵌入和注意力機制的敏感信息檢測方法
黃誠,趙倩銳*
(四川大學 網絡空間安全學院,成都 610065)( ? 通信作者電子郵箱2018141531131@stu.scu.edu.cn)
針對基于關鍵詞字符匹配和短語級情感分析等傳統敏感信息檢測方法準確率低和泛化性差的問題,提出了一種基于語言模型詞嵌入和注意力機制(A-ELMo)的敏感信息檢測方法。首先,進行字典樹快速匹配,以最大限度地減少無用字符的比較,從而極大地提高查詢效率;其次,構建了一個語言模型詞嵌入模型(ELMo)進行語境分析,并通過動態詞向量充分表征語境特征,從而實現較高的可擴展性;最后,結合注意力機制加強模型對敏感特征的識別度,從而進一步提升對敏感信息的檢測率。在由多個網絡數據源構成的真實數據集上進行實驗,結果表明,所提敏感信息檢測方法與基于短語級情感分析的方法相比,準確率提升了13.3個百分點;與基于關鍵字匹配的方法相比,準確率提升了43.5個百分點,充分驗證了所提方法在加強敏感特征識別度、提高敏感信息檢測率方面的優越性。
敏感信息;語言模型詞嵌入;語境分析;注意力機制;字典樹
隨著計算機技術和網絡通信技術的快速發展,社交網絡的規模不斷壯大,推動著商業、文化、教育等領域的革新迭代。社交網絡每天產生的信息量數以億計,信息類別龐雜,涉及行業眾多。可見,社交網絡已經成為了社會信息傳遞的重要途徑。得益于此,廣大的網民可以利用社交平臺分享自己對事件的觀點、看法。然而,隨著社交網絡的發展及網民規模的增長,也有越來越多的不法分子利用互聯網的匿名性,在社交平臺發表惡意評論或觀點,傳播暴力、反動、色情、賭博等敏感信息,也有邪教組織開始利用社交網絡進行邪教思想傳播,目前我國已有多起利用微信群、QQ群等傳播邪教信息的案件發生。
近年來,研究者們開始關注敏感信息檢測問題,并積極開展相關研究和探索[1-3]。現有的研究工作更多關注對敏感詞本身的檢測,檢測方法一般采用關鍵字匹配方法,即根據現有語料庫設置敏感詞,構建出對應的詞庫,在實際檢測過程中將待檢測文本與詞庫進行比對,如果比對結果不為空,系統就將其標記為敏感信息并發出警告。這種方法的優勢在于實現難度較低、誤報率低,但是也存在明顯的不足,如檢測結果過于依賴詞庫,僅關注敏感詞本身,對于敏感詞的上下文信息考慮不足,不能很好地解決一詞多義問題,且敏感詞需要大量人工選擇和標記,難以適用于大規模的語料環境。
為了彌補上述缺陷,本文提出了一種基于語言模型詞嵌入和注意力機制(Attention mechanism-based Embedding from Language Model, A-ELMo)的敏感信息檢測方法。該方法將注意力機制與語言模型詞嵌入(Embedding from Language Model, ELMo)結合,加強模型對敏感特征的識別度,提升模型對敏感信息的檢測率,從而對文中的敏感詞進行有效分類和判定。本文的主要工作如下:
1)采用語言模型詞嵌入(ELMo)替代傳統的Word2Vec、GloVe等模型,通過運用動態詞向量來表征多義詞,以解決固定詞向量不能很好表征多義詞的問題,并通過在真實敏感信息上實驗測試,驗證了該模型的有效性。
目前,越來越多的學者注意到基于關鍵字匹配方法存在過于依賴詞庫,對敏感詞以外的信息考慮不足等缺陷,并提出一系列方法來改進基于關鍵字匹配的敏感詞檢測方法[4-7]。鄧一貴等[8]提出了一種基于決策樹的信息過濾算法,該算法考慮了敏感詞以外的要素,并以此確定敏感詞權重,建立了敏感詞檢測模型。付聰等[9]考慮了敏感詞的變形體檢測問題,研究了敏感詞的拼音、簡稱、拆分三種變形體,分別針對三種變形體提出了相應的識別算法,實驗結果表明可以有效檢測敏感詞。上述方法的檢測對象不再局限于敏感詞本身,而是考慮了詞頻、變體等其他要素,提升了對敏感信息的檢測效果;但本質上仍是基于關鍵字匹配方法,檢測對象盡管由敏感詞延伸至拼音、簡稱等變體,但仍僅關注對象本身,缺乏對上下文信息的考慮,因此其效果有待進一步提高。
為彌補敏感詞匹配僅考慮檢測對象本身的缺陷,李揚等[10]提出了基于情感分析的敏感詞檢測方法,該方法考慮了實際數據中敏感詞的分布特性、情感極性等要素,以此提升對文本敏感性的判別效果。姚艷秋等[11]提出了一種基于Laplace平滑情感判定的文本分類方法,該方法使用Laplace算法對詞典進行擴充,然后對文本進行詞間、句型、句間等規則分析,并計算情感值,最后在此基礎上對情感文本進行分類。胡思才等[12]提出了一種基于擴展的情感詞典和卡方模型的中文情感特征選擇方法,該方法考慮了情感極值對分類的影響,通過基于字頻的相似度計算,提出了帶有情感極性的詞典建立方法,并將帶有情感極性的詞典與卡方模型結合,提出了基于卡方模型的情感詞分類方法,實驗結果表明該方法可以一定程度上提升情感詞分類的效果。上述方法通過對詞典進行擴充、情感極性分析等,一定程度考慮了上下文信息,然而,通過對句子打分或情感極性評價來進行情感分類的方法過于片面,實際情況中,一段文本包含多個情感詞,即使同一個情感詞也會因為修飾對象不同而體現不一樣的情感傾向,所以僅在整體文本的粒度上考慮情感詞的特性和極值不足以對其中的敏感詞進行有效識別。明弋洋等[13]提出了一種基于短語級情感分析的敏感信息檢測方法,該方法考慮到了敏感信息所在的語境語義,同時考慮了句子的語法規則,在一定程度上提升了上下文信息不同時的檢測效果,但是該方法的泛化性較差,不僅依賴情感詞庫,而且依賴所使用的語法規則,現實中的中文句式種類龐雜,依靠經驗建立的語法規則難以適用。Guo等[14]提出一種從非結構化數據中提取敏感信息的方法,利用了基于內容和基于上下文的提取機制,但是沒有考慮到真實的語境信息。Wang等[15]提出了一種基于卷積神經網絡(Convolutional Neural Network, CNN)和最新的預訓練基于變換器的雙向編碼器表示(Bidirectional Encoder Representations from Transformers, BERT)技術的網絡敏感信息分類模型,提高了詞嵌入的泛化能力,但并未考慮短文本評論的互動關系,影響了短文本的預測效果。薛朋強等[16]提出了一種基于確定有窮自動機的改進算法,該算法使用決策樹分流提高了查詢效率以及借助拼音縮小了查詢的范圍,但較難識別多形式的同義詞。Fu等[17]提出了一種基于變異識別和關聯分析的敏感詞檢測方法,給出了變異識別和相似度計算的方法,主要包括同義詞、代用詞、縮略語和詞形變化,然后結合規則對敏感詞進行判斷,但其運行成本太大,很難運用于不斷變化形式的網絡敏感詞。此外,文獻[18-19]從多種角度檢測敏感信息,但是仍未從根本上解決誤報問題。
可見,盡管現有研究對基于關鍵字匹配的敏感詞檢測方法進行了不同程度的改進,但仍然存在不能很好表征多義詞、檢測時準確率低、誤報率高的問題,本文提出一種基于語言模型詞嵌入和注意力機制的敏感信息檢測方法,利用語言模型詞嵌入可以有效表征多義詞,結合注意力機制可以進一步提升對敏感信息的檢測率,降低誤報率。
字典樹[17]是一種類似于哈希樹的變種多叉搜索樹,又稱為trie或前綴樹,主要用于字符串的快速檢索和存儲,其中根節點不存儲任何字符,其余每個節點存儲一個字符,根節點遍歷至葉子節點的完整路徑代表一個字符串,搜索字符串時將目標字符串與路徑上的字符串進行比較。與哈希樹不同的是,一個節點的所有后代都必須有一個共同的前綴,這樣可以最大限度地減少無用字符的比較,極大提高查詢效率。
詞嵌入是現在自然語言處理中最常用的單詞表示法,從早期的獨熱編碼到神經網絡語言模型訓練得到的分布式詞向量[20],以及之后的眾多嵌入式靜態詞向量都無法解決一詞多義的問題。就Word2Vec而言,其本質上是一個靜態模型,也就是說Word2Vec采用固定的詞向量表征策略,詞匯一旦經過轉換后,其詞向量是固定不變的,不會因為上下文信息不同而改變,這種情況對于多義詞是非常不友好的。例如英文中的Bank這個單詞,既有河岸的意思,又有銀行的意思,但在使用Word2Vec進行詞向量表征的預訓練時,對于多義詞Word2Vec會輸出一個混合多義詞的詞向量,但這個詞向量是固定的,不會隨語境改變。
ELMo是一種在詞向量或詞嵌入中表示詞匯的新方法,與Word2Vec、GloVe等同屬于詞向量嵌入模型,其中包含字符級CNN、雙向長短期記憶(Long Short-Term Memory, LSTM)等子模塊。ELMo的提出就是為了解決這種語境問題,動態地去更新詞的詞嵌入。ELMo的本質思想是:事先用語言模型在一個大的語料庫上學習好詞的詞嵌入。在實際使用中,既能以詞匯為單位生成詞向量作為ELMo模型的輸入,也能以字符為單位生成字符向量作為輸入。為了避免詞典外的詞語無法被表示以及詞匯過多造成的存儲空間利用率低的問題,本文以字符為單位生成字符向量,再將字符向量作為CNN的輸入,生成的詞向量作為ELMo的輸入,在使用過程中僅需保存字符向量和模型參數,減少了存儲空間的占用。
(2)生產階段。從檢驗單證的監管部門責任及信息采集實現,到生產階段的產品等級劃分及層級包裝形成在倉儲和運輸環節可追溯的包裝體系建設。
本文提出的基于A-ELMo的敏感信息檢測方法優勢在于:1)采用ELMo替代傳統的Word2Vec、GloVe等模型,通過運用動態詞向量來表征多義詞,有效彌補傳統方法不能很好處理一詞多義的缺陷;2)在ELMo語言模型之上引入注意力機制,根據敏感程度賦予詞匯不同的權重,加強了模型對敏感信息的識別;3)引入了字典樹匹配,在進行情感分析前,先使用結巴(jieba)函數將文本切分成詞,輸入字典樹對敏感詞進行快速匹配,有效減少了需要A-ELMo分析的詞匯數量,提高了檢測效率。如圖1所示,收到待檢測文本后,首先將文本按一定的規則進行分句,再以分句為單位進行分詞,獲得輸入字符;其次,構建敏感詞所對應的字典樹,從根節點開始,將輸入字符依次向下匹配,判斷輸入內容是否包含敏感詞,如果包含,則使用A-ELMo進行情感分析,分析的結果用于判斷該句子是否需要報警。

圖1 基于A-ELMo的敏感信息檢測方法流程
英文有天然的空格作為分隔符來區分單詞,而中文的單詞之間不存在分隔符,分詞后會產生大量的單詞字符,若將所有待檢測文本作為ELMo輸入會影響時間及準確率。為解決這一問題,本文將對數據進行預處理并使用字典樹判斷,作為初步篩選,減少需要輸入到ELMo的字符數量。首先,是對待檢測文本按一定的規則進行分句,以句子為單位進行處理。由于在關鍵字匹配階段采用的是字典樹快速匹配,所以需要對句子進行分詞。考慮到待檢測的文本是以句子為單位,每個句子所含分詞有限,本文對各種類型敏感詞庫中的敏感詞構建相應的字典樹,利用不同字符串有相同的前綴來構建節點,不僅在一定程度上縮小了存儲空間,也提高了字符串檢索的速度和檢測的準確率。對于輸入的待檢測文本,先用jieba函數切分成詞后,再依次輸入字典樹進行匹配,從而快速匹配出敏感詞。
如果匹配到敏感詞匯,則進一步輸入A-ELMo進行情感分析,模型結構如圖1中A-ELMo情感分析部分所示,包含注意力機制和ELMo。ELMo的詞向量是在雙層雙向語言模型上計算的,由兩層雙向的長短期記憶網絡疊在一起,每層都有前向和后向兩種迭代。將句子處理為詞向量后,輸入雙向語言模型中第一層;前向迭代中包含了該詞以及該詞之前的一些詞匯或語境的信息;后向迭代中包含了該詞之后的信息;這兩種迭代的信息組成了中間詞向量;這些中間詞向量被輸入到模型的下一層;最終表示(ELMo)就是原始詞向量和兩個中間詞向量的加權和。因為雙向語言模型的輸入度量是字符而不是詞匯,該模型能捕捉詞的內部結構信息。比如“反動”和“反動的”,即使不了解這兩個詞的上下文,雙向語言模型也能夠識別出它們在一定程度上的相關性。



本文所提模型結合了前、后向語言模型,最大化其聯合似然函數,如式(3)所示:



如圖2所示,敏感性越高的詞匯其權重越高。生成ELMo向量后再使用一個全連接層神經網絡層[21]和SoftMax[22]函數進行分類。
在報警決策階段,本文制定了如下規則[8]:當正向敏感信息所在句子的情感是積極的,負向敏感信息所在的句子情感是消極的,則不報警;反之則報警。對于中性敏感詞,無論其所在情感傾向如何,都做出報警決策。
本文從敏感信息檢測方法、詞嵌入模型及語言模型訓練效率三個方面對所提基于A-ELMo的敏感信息檢測方法的性能表現進行了實驗驗證。搭建實驗環境為Intel Core i7-9700 CPU @3.00 GHz,8 GB RAM,Windows 10 OS,編程語言為Python 3.7。采用準確率、召回率以及精確率作為評估所提方法性能表現的3種評價指標。
將本文方法與常用于敏感信息檢測的短語級情感分析法[6]及關鍵詞匹配法進行了對比實驗。將本文采用的A-ELMo和GloVe[23]、Word2Vec[24]、FastText[25]、文獻[26]方法、文獻[27]方法等進行了實驗對比。其中:Word2Vec和GloVe均采用固定詞向量表征+詞匯級別的詞向量嵌入方式,FastText采用固定詞向量表征+字符級別的詞向量嵌入方式,文獻[26]方法采用注意力機制和卷積神經網絡檢測敏感信息,文獻[27]方法采用自注意力機制和圖卷積神經網絡檢測敏感信息。此外,還將本文方法與無詞向量嵌入的情況進行了消融實驗對比,無詞向量嵌入實驗中去除了A-ELMo,將詞在語料庫中的索引經過簡單編碼后作為輸入。在訓練效率上,本文將A-ELMo中的Bi-LSTM替換成其他具有相同功能的模型進行了消融實驗對比。
本文爬取了人民網、新華網、央視新聞等網頁上的486篇新聞報道作為白樣本,另外從境外中文網站下載了357篇博客文章作為黑樣本,組合形成本文所使用的數據集。其中,486篇新聞報道包含了15 800個“共產黨”“中國政府”等敏感詞匯,但均屬于正常的新聞報道;357篇博客文章包含類似敏感詞匯9 350個,均屬于敏感文章。本文將新聞報道和博客文章按自然句劃分,并按句子長度設置閾值進行過濾,提取并選擇實驗數據如表1所示。在實驗過程中,按7∶3劃分訓練、測試數據。

表1 實驗數據集
在進行情感分析之前,需要對ELMo進行預訓練,以獲得上下文相關的詞向量信息。原始數據包括正常的新聞數據集和敏感信息數據集,預處理首先去除內容中的空行、特殊符號,過濾詞語少于3個的句子,利用jieba分詞進行每句話的切詞處理。
本文使用Word2Vec工具的skip-gram[28]模型作為字符向量表征模型,在獲得字符向量后,將其作為輸入來初始化字符級卷積神經網絡的嵌入層,學習分詞語料,獲得模型參數。
將本文所提的敏感信息檢測方法與短語級情感分析方法[13]、關鍵字匹配方法進行對比實驗,在準確率、召回率、精確率3個指標上進行了性能對比,結果如表2所示。

表2 3種方法在3個指標上的性能對比 單位:%
本文方法不僅與關鍵字匹配方法相比,在檢測的準確率和速度上有提升,在準確率、召回率上較基于短語級情感分析的不良信息檢測方法[13]也有較大提升。另外,雖然模型訓練所用的數據集不是真正敏感信息數據集,而是采用大量公開數據集進行訓練,但在所選的測試數據集上已取得較高的召回率。
考慮到不同的訓練數據和測試數據會造成不同的結果,本文將數據隨機化后,按照4∶1的比例切分訓練數據和測試數據,結果如表3所示。實驗結果表明,本文的方法在新的訓練數據和測試數據下依舊保持良好的檢測效果,相較于現有的短語級情感分析、關鍵字匹配有明顯的提升。

表3 3種方法經數據隨機化后的在3個指標上的性能對比 單位:%
此外,將本文方法分別與FastText[25]、Word2Vec[24]、GloVe[23]、文獻[26]方法、文獻[27]方法及無詞向量嵌入情況分別進行了充分的實驗對比,結果如表4所示。

表4 7種方法所用的詞嵌入模型在3個指標上的性能對比 單位:%

為了研究LSTM的訓練效率,將本文A-ELMo的Bi-LSTM部分替換成具有相同功能(可作為語言模型)的一維卷積神經網絡(1D-CNN)、層級softmax[22]、Transformer[19]進行對比,其中層級softmax為FastText[25]工作中使用的方法、Transformer為文獻[19]中使用的方法,1D-CNN是大量用于序列建模的基準方法。不同方法達到各自最佳測試性能對應的訓練時間如表5所示。

表5 4種語言模型在4個指標上的性能對比
實驗結果表明:盡管Bi-LSTM的訓練時間相較于其他方法更長,但其測試效果有顯著提高;此外,由于Bi-LSTM能提取更為抽象的語義,且與ELMo的詞嵌入更加適配,可以更好解決一詞多義問題,因此其檢測準確率明顯優于其他方法。
針對基于關鍵詞字符匹配和短語級情感分析方法等傳統敏感信息檢測方法準確率低和泛化性差的問題,本文提出了一種基于語言模型詞嵌入和注意力機制(A-ELMo)的敏感信息檢測方法。該方法采用了ELMo進行語境分析,有效降低了一詞多義對檢測效果的影響,并結合注意力機制,增強了模型對敏感特征的識別度,進一步提升對敏感信息的檢測率。在由多個網絡數據源構成的真實數據集上進行實驗,驗證了所提方法在檢測敏感信息上的有效性。
從實驗結果來看,所提方法的精確率相較準確率和召回率依然具備一定的提升空間,可以在未來工作中考慮運用在線學習的方法來進一步提高檢測精確率,減少誤報。
[1] QIAO H, TIAN Z, LI W L, et al. A sensitive information detection method based on network traffic restore[C]// Proceedings of the 12th International Conference on Measuring Technology and Mechatronics Automation. Piscataway: IEEE, 2020: 832-836.
[2] XU Y Y, LI Y X, ZHANG Z Y. Sensitive text classification and detection method based on sentiment analysis[J]. International Core Journal of Engineering, 2021, 7(5): 60-66.
[3] DIAS M, BONé J, FERREIRA J C, et al. Named entity recognition for sensitive data discovery in Portuguese[J]. Applied Sciences, 2020, 10(7): No.2303.
[4] ESIN Y E, ALAN O, ALPASLAN F N. Improvement on corpus- based word similarity using vector space models[C]// Proceedings of the 24th International Symposium on Computer and Information Sciences. Piscataway: IEEE, 2009: 280-285.
[5] SUNDERMEYER M, SCHLüTER R, NEY H. LSTM Neural networks for language modeling[C]// Proceedings of the Interspeech 2012. [S.l.]: International Speech Communication Association, 2012: 194-197.
[6] LIU W Y, WEN Y D, YU Z D, et al. Large-margin softmax loss for convolutional neural networks[C]// Proceedings of the 33rd International Conference on Machine Learning. New York: JMLR.org, 2016: 507-516.
[7] GUTHRIE D, ALLISON B, LIU W, et al. A closer look at skip-gram modelling[C]// Proceedings of the 5th International Conference on Language Resources and Evaluation. [S.l.]: European Language Resources Association, 2006: 1222-1225.
[8] 鄧一貴,伍玉英. 基于文本內容的敏感詞決策樹信息過濾算法[J]. 計算機工程, 2014, 40(9):300-304.(DENG Y G, WU Y Y. Information filtering algorithm of test content-based sensitive words decision tree[J]. Computer Engineering, 2014, 40(9): 300-304.)
[9] 付聰,余敦輝,張靈莉. 面向中文敏感詞變形體的識別方法研究[J].計算機應用研究, 2019, 36(4):988-991.(FU C, YU D H, ZHANG L L. Study on identification method for change from of Chinese sensitive words[J]. Application Research of Computers, 2019, 36(4): 988-991.)
[10] 李揚,潘泉,楊濤. 基于短文本情感分析的敏感信息識別[J]. 西安交通大學學報, 2016, 50(9):80-84.(LI Y, PAN Q, YANG T. Sensitive information recognition based on short text sentiment analysis[J]. Journal of Xi’an Jiaotong University, 2016, 50(9): 80-84.)
[11] 姚艷秋,鄭雅雯,呂妍欣. 基于LS-SO算法的情感文本分類方法[J]. 吉林大學學報(理學版), 2019, 57(2):375-379.(YAO Y Q, ZHENG Y W, LYU Y X. Emotional text classification method based on LS-SO algorithm[J]. Journal of Jilin University (Science Edition), 2019, 57(2): 375-379.)
[12] 胡思才,孫界平,琚生根,等. 基于擴展的情感詞典和卡方模型的中文情感特征選擇方法[J]. 四川大學學報(自然科學版), 2019, 56(1):37-44.(HU S C, SUN J P, JU S G, et al. Chinese emotion feature selection method based on the extended emotion dictionary and the chi-square model[J]. Journal of Sichuan University (Natural Science Edition), 2019, 56(1): 37-44.)
[13] 明弋洋,劉曉潔. 基于短語級情感分析的不良信息檢測方法[J]. 四川大學學報(自然科學版), 2019, 56(6):1042-1048.(MING Y Y, LIU X J. Sensitive information detection based on phrase-level sentiment analysis[J]. Journal of Sichuan University (Natural Science Edition), 2019, 56(6):1042-1048.)
[14] GUO Y Y, LIU J Y, TANG W W, et al. ExSense: extract sensitive information from unstructured data[J]. Computers and Security, 2021, 102: No.102156.
[15] WANG Y J, SHEN X J, YANG Y J. The classification of Chinese sensitive information based on BERT-CNN[C]// Proceedings of the 2019 International Symposium on Intelligence Computation and Applications, CCIS 1205. Singapore: Springer, 2020: 269-280.
[16] 薛朋強,努爾布力,吾守爾·斯拉木. 基于網絡文本信息的敏感信息過濾算法[J]. 計算機工程與設計, 2016, 37(9):2447-2452.(XUE P Q, NURBOL, ISLAM W. Sensitive information filtering algorithm based on text information network[J]. Computer Engineering and Design, 2016, 37(9): 2447-2452.)
[17] FU Y, YU Y, WU X P. A sensitive word detection method based on variants recognition[C]// Proceedings of the 2019 International Conference on Machine Learning, Big Data and Business Intelligence. Piscataway: IEEE, 2019: 47-52.
[18] DING M, WANG X, WU C M, et al. Research on automated detection of sensitive information based on BERT[J]. Journal of Physics: Conference Series, 2021, 1757: No.012088.
[19] BIGONHA M A S, FERREIRA K, SOUZA P, et al. The usefulness of software metric thresholds for detection of bad smells and fault prediction[J]. Information and Software Technology, 2019, 115: 79-92.
[20] 李丹陽,趙亞慧,羅夢江,等. 基于字典樹語言模型的專業課查詢文本校對方法[J]. 延邊大學學報(自然科學版), 2020, 46(3):260-264.(LI D Y, ZHAO Y H, LUO M J, et al. Query text proofreading method of professional courses based on trie tree language model[J]. Journal of Yanbian University (Natural Science), 2020, 46(3): 260-264.)
[21] LOPEZ M M, KALITA J. Deep learning applied to NLP[EB/OL]. (2017-03-09) [2021-03-13].https://arxiv.org/pdf/1703.03091.pdf.
[22] 周飛燕,金林鵬,董軍. 卷積神經網絡研究綜述[J]. 計算機學報, 2017, 40(6):1229-1251.(ZHOU F Y, JIN L P, DONG J. Review of convolutional neural network[J]. Chinese Journal of Computers, 2017, 40(6):1229-1251.)
[23] PENNINGTON J, SOCHER R, MANNING C D. GloVe: global vectors for word representation[C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2014: 1532-1543.
[24] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[EB/OL]. (2013-09-07) [2021-03-13].https://arxiv.org/pdf/1301.3781.pdf.
[25] JOULIN A, GRAVE E, BOJANOWSKI P, et al. Bag of tricks for efficient text classification[C]// Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics (Volume 2: Short Papers). Stroudsburg, PA: Association for Computational Linguistics, 2017: 427-431.
[26] SHARMIN S, CHAKMA D. Attention-based convolutional neural network for Bangla sentiment analysis[J]. AI and Society, 2021, 36(1): 381-396.
[27] LIU Y, YANG C Y, YANG J. A graph convolutional network-based sensitive information detection algorithm[J]. Complexity, 2021, 2021: No.6631768.
[28] BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003, 3: 1137-1155.
HUANG Cheng, born in 1987, Ph. D., associate professor. His research interests include network security, attack and defense technology.
ZHAO Qianrui, born in 2000. Her research interests include cyberspace security.
Sensitive information detection method based on attention mechanism-based ELMo
HUANG Cheng, ZHAO Qianrui*
(,,610065,)
In order to solve the problems of low accuracy and poor generalization of the traditional sensitive information detection methods such as keyword character matching-based method and phrase-level sentiment analysis-based method, a sensitive information detection method based on Attention mechanism-based Embedding from Language Model (A-ELMo) was proposed. Firstly, the quick matched of trie tree was performed to reduce the comparison of useless words significantly, thereby improving the query efficiency greatly. Secondly, an Embedding from Language Model (ELMo) was constructed for context analysis, and the dynamic word vectors were used to fully represent the context characteristics to achieve high scalability. Finally, the attention mechanism was combined to enhance the identification ability of the model for sensitive features, and further improve the detection rate of sensitive information. Experiments were carried out on real datasets composed of multiple network data sources. The results show that the accuracy of the proposed sensitive information detection method is improved by 13.3 percentage points compared with that of the phrase-level sentiment analysis-based method, and the accuracy of the proposed method is improved by 43.5 percentage points compared with that of the keyword matching-based method, verifying that the proposed method has advantages in terms of enhancing identification ability of sensitive features and improving the detection rate of sensitive information.
sensitive information; Embedding from Language Model (ELMo); context analysis; attention mechanism; trie tree
This work is partially supported by National Natural Science Foundation of China (61902265), Key Research and Development Program of Science and Technology Department of Sichuan Province (2020YFG0076).
1001-9081(2022)07-2009-06
10.11772/j.issn.1001-9081.2021050877
2021?05?27;
2021?08?27;
2021?08?30。
國家自然科學基金資助項目(61902265);四川省科技廳重點研發計劃項目(2020YFG0076)。
TP183
A
黃誠(1987—),男,重慶云陽人,副教授,博士,CCF會員,主要研究方向:網絡安全、攻防技術; 趙倩銳(2000—),女,四川巴中人,主要研究方向:網絡空間安全。