基于NER和TF/IDF算法的涉密文件的脫密鑒別方法研究

2022-01-10 08:08:38李云亞

無線互聯科技 2021年21期

王雷，李云亞

（江蘇金盾檢測技術有限公司，江蘇南京 210042）

1 網絡泄密的典型案例

以文字、圖表、音像及其他記錄形式記載商業、軍事、國家秘密內容的資料被稱為涉密文件，國家安全利益、企業商業利益直接與這類文件存放是否得當相關聯[1]。隨著網絡以及各類應用的發展，涉密材料往往在網絡渠道傳播、流傳過程中，由于其中一人疏忽，造成整個安全屏障的破壞而引發泄密事件。

案例二：2018年4月，某市機要部門通知某局涉密文件專管員周某緊急取涉密文件。由于周某臨時有手頭工作，便找來剛剛入職的司機趙某代領。接受“重要任務”的趙某受寵若驚，取件返回途中，將3份機密文件打開，拍照后，上傳至微信群，造成泄密。

這些案例都是網絡泄密的典型例子，而且往往是涉密材料已經傳播一定的范圍之后，才能引起相關部門的注意并采取相應的措施。在公開網絡產生泄密事件處理過程中，最重要的因素是在泄密材料出現于公開網絡并廣泛傳播之前，發現并確定傳播材料是否涉密、可能的來源以及相應的密級。因此，涉密文件的鑒別與響應速度是關鍵的要素。但是，涉密文件在傳播前經常往往會被刻意地去除保密標記、密級以及相關的信息，使得涉密文件鑒別較為困難。同時又因為涉密文件來源眾多，確定文件的來源不易，進一步造成涉密文件鑒別的難度。因此，有必要構建一個統一的涉密文件快速鑒別與響應平臺。通過統一的平臺實現可以隨時監控在公開網絡中出現的各類電子文件與相關材料，并快速予以鑒別。對于可能的涉密文件發出預警信息。

本文提出一種基于NER和TF/IDF算法的涉密文件的脫密鑒別方法，利用NER和TF/IDF算法識別涉密文件中的命名實體，構成矩陣，經過HASH脫密，發送統一中心平臺存儲。鑒別時，取出文件中各命名實體對應的TF/IDF值乘以出現的次數并求和，其值跟預先設定的閾值比較，以此來確定是否為涉密文件，從而進一步判斷涉密文件的來源。

2 數據脫密的相關研究

在網絡環境的高度開放性面前，涉密文件保密工作顯得十分被動，面臨嚴峻考驗，如何避免重要文件信息遭到泄漏和竊取成為關乎各單位生存發展的重要課題[2]。在公開網絡產生泄密事件處理過程中，在涉密文件廣泛傳播之前鑒別出材料為涉密文件是關鍵的要素。由于鑒別文件之前需要對涉密文件進行脫密處理，所以脫密技術成為鑒別的關鍵。脫密是國內外普遍采用的地理信息安全保密技術手段，目前已有很多關于脫密技術的研究。

部分學者對數據脫密展開了研究，具體如下：李安波等[3]為實現精度可控矢量地理數據脫密處理，提出基于Logistic混沌系統的干擾脫密方法和基于輔助點的精密控制方法。閆娜[4]實現了以數據拓撲結構不改變為前提，以密鑰為依據對DOM數據進行脫密，同時可用密鑰進行恢復。謝年[5]分別對每個網格內要素的節點和相對坐標進行偏移，改變了每個要素節點的絕對坐標和相對坐標，脫密程度較高，且不可逆。

TF/IDF算法和NER也是本文提出方法的重要基礎。趙曉平等[6]針對海量短文本，傳統文本聚類算法存在聚類性能差的問題，融合TF-IDF方法和詞向量，提出一種新的短文本聚類算法。李昆侖等[7]為了提高推薦系統的精度，提出了一種基于注意力機制與改進TF-IDF（AMITI）的推薦算法，通過注意力機制和AMITI算法分配權重，加強模型的特征挖掘能力，從而提高推薦精度。Bikel[8]于1999年提出基于隱馬爾科夫模型的IdentiFinderTM系統，識別和分類名稱、日期、時間和數值等實體，是最早的命名實體識別。Yamada等[9]針對日文提出一個基于SVM的命名識別系統，此系統為Kudo的分塊系統的擴展。之后隨著深度學習的興起，NER結合深度學習方法稱為該領域研究的重點。

3 涉密文件的脫密鑒別方法

由于涉密文件的特殊性，顯然不可能將所有的涉密文件明文統一集中存儲并予以比對，因為會造成機密集中存儲的風險，因此本文提出采用一種基于NER與TF/IDF算法實現對涉密文件的鑒別。

不少人把“一個角色59個演員”當成笑話看，對何翔一家給予各種調侃。據稱，原本何翔在學校各方面都很優秀，這次卻因為這部電影遭到了同學們的嘲笑，變得悶悶不樂。看到網友評論，估計一家人更會著急。

3.1 基于NER的涉密文件處理

命名實體識別（Named Entity Recognition，簡稱NER）是信息提取、問答系統、句法分析、機器翻譯等應用領域的重要基礎工具，在自然語言處理技術走向實用化的過程中占有重要地位。命名實體識別旨在從屬于預定義語義類型（如人、位置、組織等）的文本中識別剛性指示符。NER不僅是信息提取的獨立工具，而且在文本理解、信息檢索、自動文本摘要、問答、機器翻譯以及知識庫建設等方面多有運用。

NER中應用的技術，主要有4種：（1）基于規則的方法，由于依賴手工規則，不需要注釋數據。（2）無監督學習方法，它依賴無監督算法，沒有手工標記的訓練例子。（3）基于特征的監督學習方法，它依賴于經過仔細特征工程的監督學習算法。（4）基于深度學習的方法，以端到端方式從原始輸入中自動發現分類或檢測所需的表示。

命名實體是一個單詞或短語，從一組具有類似屬性的其他項中清楚地標識一個項。命名實體的例子有一般領域中的組織名稱、個人名稱、地點名稱；生物醫學領域的基因、蛋白質、藥物和疾病名稱。NER是將文本中的命名實體定位和分類為預定義實體類別的過程，其應用類型如圖1所示。

圖1 NER應用類型

基于NER的涉密文件處理的基本思想就是將各涉密單位的涉密文件庫中的涉密文件取出，通過NER識別文件中的實體，統計每篇文件中各實體出現的次數與值對，然后構建矩陣，再將矩陣按行進行歸一化，即第i各列除以第i行各列總和。基于NER的涉密文件處理流程如圖2所示。加，但同時會隨著它在語料庫中出現的頻率成反比下降。TFIDF算法的思想就是一個詞語在一篇文章中出現次數越多, 同時在所有文檔中出現次數越少, 越能夠代表該文章，這也就是TF-IDF的含義。

圖2 基于NER的涉密文件處理流程

TF-IDF分為詞頻（Term Frequency，TF）和逆文件頻率（Inverse Document Frequency，IDF）兩個概念。

3.2.1 TF

TF表示詞條在文本中出現的頻率，這個數字通常會被歸一化（一般是詞頻除以文章總詞數），以防止它偏向長的文件（同一個詞語在長文件里可能會比短文件有更高的詞頻，而不管該詞語重要與否）。TF用公式表示如下：

3.2 基于TF/IDF算法的涉密文件脫密鑒別

其中，ni,j表示詞條在文檔中出現的次數，TFi,j就是表示詞條在文檔中出現的頻率。但是，需要注意，一些通用的詞語對于主題并沒有太大的作用，反倒是一些出現頻率較少的詞才能夠表達文章的主題，所以單純使用TF是不合適的。權重的設計必須滿足：一個詞預測主題的能力越強，權重越大，反之，權重越小。

詞頻-逆向文件頻率算法（Term Frequency-Inverse Document Frequency，TF/IDF）是一種用于資訊檢索與資訊探勘的常用加權技術。文件的重要程度對涉密文件來說是十分重要的信息，可以通過 TF-IDF這種統計方法來評估一個字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增

3.2.2 IDF

如果包含詞條i的文檔dj越少，IDF越大，則說明該詞條具有很好的類別區分能力。某一特定詞語的IDF，可以由總文件數目除以包含該詞語之文件的數目，再將得到的商取對數得到：

其中，∣D∣表示所有文檔數量，∣j∶ti∈dj∣表示包含詞條ti的文檔數量，這里的加1主要是防止包含詞條ti的數量為0從而導致運算出錯的現象發生。

4 基于NER和TF/IDF算法的涉密文件的脫密與建模

鑒于上面介紹的兩種方法，本文提出一種基于NER和TF/IDF算法的涉密文件的脫密鑒別方法，利用NER和TF/IDF算法識別涉密文件中的命名實體，構成矩陣，經過HASH脫密，發送至統一中心平臺存儲。鑒別時，取出文件中各命名實體對應的TF/IDF值乘以出現的次數并求和，其值跟預先設定的閾值比較，以此來確定是否為涉密文件，從而進一步判斷涉密文件的來源。基于NER和TF/IDF算法的涉密文件的脫密鑒別框架如圖3所示。

圖3 基于NER和TF/IDF算法的涉密文件的脫密鑒別框架

整個涉密文件的脫密流程分為兩個大部分：（1）對涉密文件的處理。（2）對文件的脫密鑒別。

4.1 涉密文件具體步驟

（1）將各涉密單位的涉密文件庫中的文件依次取出，并通過NER識別文件中的實體，統計每篇文件中各實體出現的次數與值對＜E,C＞，其中E是實體命名，C為實體在該文件中出現的次數。

（2）構建矩陣，其中每行i代表一篇文件，各列j為涉密文件庫中所有實體命名，＜i,j＞為該實體命名實體j在文件i中的出現次數，按行進行歸一化，即第i各列除以第i行各列總和。

（3）根據上述的統計結果，調用TF/IDF算法云計算該單位的涉密文件中各命名實體的TF/IDF值并對命名實體進行HASH脫密。

（4）將構建完成的矩陣與各值對序列發送到統一中心平臺存儲。

4.2 文件的脫密鑒別具體步驟

（1）通過NER算法對待鑒別的文件材料進行處理，提取出其中的命名實體以及各命名實體出現的次數，通過查找，按來源單位依次取出各命名實體對應的TF/IDF值乘以出現次數并求和。

（2）若求和的值大于一定的閾值，則可能為涉密材料，進一步判斷涉密材料的來源。

（3）對于文件材料中命名實體及出現的次數進行歸一化，形成一個向量V，查詢存儲在庫中的各單位涉密文件的脫密矩陣，進行投影操作，取出待鑒定材料中命名實體組成的子矩陣，遍歷子矩陣中每一行向量，通過余弦相似度判斷待鑒別材料與各行向量代表的涉密文件的相似度。

（4）按相似度選出前N個行向量，按各行向量對應的文檔來源進行分類，來源分類中包含行向量數越多的，待鑒定材料來源可能性越高。

5 結語

本文針對涉密文件泄露時無法快速集中地鑒別涉密文件，判別涉密文件來源，以防止涉密文件進一步散播的現狀，提出一種基于NER和TF-IDF算法的涉密文件集中脫密鑒別方法。該方法簡單快速，能有效預防涉密文件的泄露或者能有效鑒別出已泄露的涉密文件，從源頭切斷，防止進一步散播。該方法構建一個統一的涉密文件快速鑒別與響應平臺，通過統一的平臺實現隨時監控在公開網絡中出現的各類電子文件與相關材料，快速鑒別并對于可能的涉密文件發出預警信息。

無線互聯科技2021年21期

無線互聯科技的其它文章: 以學科競賽為驅動的“傳感網絡原理及應用”課程教學改革研究; “信息素養”視域下“Python開發技術”課程混合式教學模式研究; 非常態下線上線下混合式教學學習效果滿意度調查研究—以江蘇農林職業技術學院為例; “四維三同二融一體”的互聯網專業方向人才培養模式研究與實踐; “互聯網+”背景下翻轉課堂教學模式構建研究; 基于微課的職校計算機專業課主題式教學設計