基于K 近鄰分類算法的敏感信息過濾方法研究

2020-09-23 02:52:24路士兵

科學技術創新 2020年28期

路士兵

（武警海警學院，浙江寧波315801）

信息化時代飛速發展背景下，新聞、網絡文學等信息，在各類社交平臺上快速傳播，給每個人提供最新的資訊，但網絡技術發展背景下，一些人采取非法手段，在網絡中發布傳銷內容、非法廣告以及反動言論等不和諧的信息，污染整個網絡環境，給海量文字信息的分享與傳播，帶來了較為惡劣的影響[1]。因此傳統方法參考文獻[2]，通過構建決策樹，對敏感信息進行過濾[2]。但隨著網絡信息體量的不斷增加，傳統過濾方法出現了一些弊端，因此提出一個基于K 近鄰分類算法的敏感信息過濾方法[3]。此次提出的敏感信息過濾方法，以傳統方法為研究基礎，在K近鄰分類算法的應用下，重新創建決策樹，為網絡信息的使用安全，提供更嚴謹的技術支持。

1 基于K 近鄰分類算法的敏感信息過濾方法

1.1 劃分敏感詞匯內容和等級

過濾敏感信息要有一個過濾標準，因此需要劃分敏感詞內容和等級。構建一個敏感詞數據庫，用于存儲需要被禁止使用的敏感詞，還有賭博類的非法廣告。按照不同類型的敏感詞匯，將敏感詞劃分為n 個類別，并對每一類別信息，設置3 個敏感等級。

將敏感信息分成三個類別，分別是政治類、色情類以及廣告信息類。其中，反動類敏感詞匯包括：政治主張、軍事主張以及恐怖信息等，此類信息涉及到國家發展、社會穩定、人民團結，因此此類型信息的敏感等級較高。色情類與廣告類信息，會給社會風氣帶來不良影響，給人的精神方面、財產方面，帶來了極大的隱患，因此此類信息的級別，稍低于反動類敏感詞匯。

針對上述劃分的三個敏感級別，將每一級別中所有的敏感詞匯作為過濾標準，構建敏感信息決策樹，并利用K 近鄰分類算法，設置敏感信息過濾邏輯。

1.2 基于K 近鄰分類算法創建敏感信息決策樹

首先要從敏感信息數據庫中，提取敏感詞匯，并將這些敏感關鍵詞，添加到決策樹的基本結構中，按照敏感詞第一個關鍵字的拼音首字母，對敏感關鍵詞進行排序，構建決策樹的根目錄子樹。

每一個子樹中的敏感信息，要按照第一個關鍵字的第二、或第三個拼音字母，或第二個關鍵字的首字母進行排序。需要注意，構建敏感信息決策樹的子樹信息時，還要將敏感詞匯的拼音包含進去，防止類似敏感詞匯，在過濾時被遺漏。

當敏感信息決策樹中存在孩子節點時，且該節點包含的信息，不是敏感信息的最后一個關鍵字，那么將此類節點作為非葉子節點；當敏感信息決策樹中，不存在孩子節點時，且包含的信息，是敏感詞的最后一個關鍵字，那么將此節點作為葉子節點；當敏感信息決策樹有孩子節點、且包含的信息，為敏感詞的最后一個關鍵字時，那么將此類節點作為偽葉子節點。令isLeaf表示敏感詞結束，則各個節點的表現形式，如下列公式所示：

公式中：a 表示非葉子節點的對應值；b 表示葉子節點的對應值；c 表示偽葉子節點的對應值。根據上述內容，將敏感詞數據庫，建成了一個敏感信息決策樹，在進行敏感信息過濾時，大大減少了過濾匹配范圍。

例如檢測網絡文章中，是否存在敏感關鍵詞時，只需要對決策樹中敏感詞匯所帶字的子樹進行檢測。若敏感詞數據庫更新，只需要在決策樹的相應位置上，直接添加新的敏感關鍵詞即可。

將K 近鄰分類算法，與創建的決策樹相結合，對網絡中的敏感信息，進行集中一次過濾。

具體步驟如下：

首先將待分類的敏感詞數據庫中的敏感關鍵詞，看做一個整體，假設該整體為集合W，對其進行向量化處理；假設集合W中共包含i×j 個文本，注意i>j，計算矩陣Wi，j的協方差矩陣Vj，j；根據所得結果計算其特征向量，分別用x1，x2，…，xn、y1，y2，…，yn來表示；計算所有個特征值，對協方差矩陣的權重和累計權重，計算結果如下列公式所示：

公式中：k∈n，表示k 個特征向量。根據權重大小確定降維后的矩陣維數，再按照從大到小的順序，將特征值對應的特征向量，作為投影矩陣。按照上述步驟設置決策樹的過濾邏輯，實現基于K 近鄰分類算法的敏感信息過濾。

2 測試與分析

將此次研究的過濾方法，作為實驗組測試對象；將傳統過濾方法，作為對照組測試對象，分析不同方法應用下，兩個測試組的敏感信息過濾效果。

設定三個敏感詞匯A、B、C，分別從政治、經濟、體育三個方面進行敏感詞搜索，下圖1 是設定的3 個敏感信息，在網絡中的占比情況。

圖1 敏感信息在網絡信息中的占比

分別利用兩種敏感信息過濾方法，檢測并過濾其中的敏感信息，實驗共進行5 次。下表1、表2、表3，是兩個測試組的敏感信息過濾準確率統計結果。

表1 政治領域敏感信息過濾準確率統計結果

表2 經濟領域敏感信息過濾準確率統計結果

表3 體育事業敏感信息過濾準確率統計結果

根據表中的測試結果可知，在三個領域中，實驗組政治領域的敏感詞過濾準確率平均值為90.05%；對經濟領域的敏感詞過濾準確率平均值為90.13%；對體育領域的敏感詞過濾準確率平均值為90.39%。而對照組對政治領域的敏感詞過濾準確率平均值為83.53%；對經濟領域的敏感詞過濾準確率平均值為85.58%，對體育領域的敏感詞過濾準確率平均值為85.58%。綜合上述分析可知，此次研究的過濾方法，在K 近鄰分類算法的控制下，過濾出的敏感信息準確率，總體提升了5.29%。可見提出的敏感信息過濾方法滿足研究要求。

3 結論

互聯網時代，我們利用海量的網絡信息解決生活和工作任務，而此次研究的過濾方法，幫助凈化網絡信息，維護網絡安全與社會穩定。但根據K 近鄰分類算法的基本特點可知，該算法還可以與其他算法結合使用，因此可對K 近鄰分類算法進行改進，進一步優化敏感信息過濾結果，通過更加詳細的信息分類與相似度計算，得到更為完整的網絡敏感信息。