路士兵
(武警海警學院,浙江 寧波315801)
信息化時代飛速發展背景下,新聞、網絡文學等信息,在各類社交平臺上快速傳播,給每個人提供最新的資訊,但網絡技術發展背景下,一些人采取非法手段,在網絡中發布傳銷內容、非法廣告以及反動言論等不和諧的信息,污染整個網絡環境,給海量文字信息的分享與傳播,帶來了較為惡劣的影響[1]。因此傳統方法參考文獻[2],通過構建決策樹,對敏感信息進行過濾[2]。但隨著網絡信息體量的不斷增加,傳統過濾方法出現了一些弊端,因此提出一個基于K 近鄰分類算法的敏感信息過濾方法[3]。此次提出的敏感信息過濾方法,以傳統方法為研究基礎,在K近鄰分類算法的應用下,重新創建決策樹,為網絡信息的使用安全,提供更嚴謹的技術支持。
過濾敏感信息要有一個過濾標準,因此需要劃分敏感詞內容和等級。構建一個敏感詞數據庫,用于存儲需要被禁止使用的敏感詞,還有賭博類的非法廣告。按照不同類型的敏感詞匯,將敏感詞劃分為n 個類別,并對每一類別信息,設置3 個敏感等級。
將敏感信息分成三個類別,分別是政治類、色情類以及廣告信息類。其中,反動類敏感詞匯包括:政治主張、軍事主張以及恐怖信息等,此類信息涉及到國家發展、社會穩定、人民團結,因此此類型信息的敏感等級較高。色情類與廣告類信息,會給社會風氣帶來不良影響,給人的精神方面、財產方面,帶來了極大的隱患,因此此類信息的級別,稍低于反動類敏感詞匯。
針對上述劃分的三個敏感級別,將每一級別中所有的敏感詞匯作為過濾標準,構建敏感信息決策樹,并利用K 近鄰分類算法,設置敏感信息過濾邏輯。
首先要從敏感信息數據庫中,提取敏感詞匯,并將這些敏感關鍵詞,添加到決策樹的基本結構中,按照敏感詞第一個關鍵字的拼音首字母,對敏感關鍵詞進行排序,構建決策樹的根目錄子樹。
每一個子樹中的敏感信息,要按照第一個關鍵字的第二、或第三個拼音字母,或第二個關鍵字的首字母進行排序。需要注意,構建敏感信息決策樹的子樹信息時,還要將敏感詞匯的拼音包含進去,防止類似敏感詞匯,在過濾時被遺漏。
當敏感信息決策樹中存在孩子節點時,且該節點包含的信息,不是敏感信息的最后一個關鍵字,那么將此類節點作為非葉子節點;當敏感信息決策樹中,不存在孩子節點時,且包含的信息,是敏感詞的最后一個關鍵字,那么將此節點作為葉子節點;當敏感信息決策樹有孩子節點、且包含的信息,為敏感詞的最后一個關鍵字時,那么將此類節點作為偽葉子節點。令isLeaf表示敏感詞結束,則各個節點的表現形式,如下列公式所示:

公式中:a 表示非葉子節點的對應值;b 表示葉子節點的對應值;c 表示偽葉子節點的對應值。根據上述內容,將敏感詞數據庫,建成了一個敏感信息決策樹,在進行敏感信息過濾時,大大減少了過濾匹配范圍。
例如檢測網絡文章中,是否存在敏感關鍵詞時,只需要對決策樹中敏感詞匯所帶字的子樹進行檢測。若敏感詞數據庫更新,只需要在決策樹的相應位置上,直接添加新的敏感關鍵詞即可。
將K 近鄰分類算法,與創建的決策樹相結合,對網絡中的敏感信息,進行集中一次過濾。
具體步驟如下:
首先將待分類的敏感詞數據庫中的敏感關鍵詞,看做一個整體,假設該整體為集合W,對其進行向量化處理;假設集合W中共包含i×j 個文本,注意i>j,計算矩陣Wi,j的協方差矩陣Vj,j;根據所得結果計算其特征向量,分別用x1,x2,…,xn、y1,y2,…,yn來表示;計算所有個特征值,對協方差矩陣的權重和累計權重,計算結果如下列公式所示:

公式中:k∈n,表示k 個特征向量。根據權重大小確定降維后的矩陣維數,再按照從大到小的順序,將特征值對應的特征向量,作為投影矩陣。按照上述步驟設置決策樹的過濾邏輯,實現基于K 近鄰分類算法的敏感信息過濾。
將此次研究的過濾方法,作為實驗組測試對象;將傳統過濾方法,作為對照組測試對象,分析不同方法應用下,兩個測試組的敏感信息過濾效果。
設定三個敏感詞匯A、B、C,分別從政治、經濟、體育三個方面進行敏感詞搜索,下圖1 是設定的3 個敏感信息,在網絡中的占比情況。

圖1 敏感信息在網絡信息中的占比
分別利用兩種敏感信息過濾方法,檢測并過濾其中的敏感信息,實驗共進行5 次。下表1、表2、表3,是兩個測試組的敏感信息過濾準確率統計結果。

表1 政治領域敏感信息過濾準確率統計結果

表2 經濟領域敏感信息過濾準確率統計結果

表3 體育事業敏感信息過濾準確率統計結果
根據表中的測試結果可知,在三個領域中,實驗組政治領域的敏感詞過濾準確率平均值為90.05%;對經濟領域的敏感詞過濾準確率平均值為90.13%;對體育領域的敏感詞過濾準確率平均值為90.39%。而對照組對政治領域的敏感詞過濾準確率平均值為83.53%;對經濟領域的敏感詞過濾準確率平均值為85.58%,對體育領域的敏感詞過濾準確率平均值為85.58%。綜合上述分析可知,此次研究的過濾方法,在K 近鄰分類算法的控制下,過濾出的敏感信息準確率,總體提升了5.29%。可見提出的敏感信息過濾方法滿足研究要求。
互聯網時代,我們利用海量的網絡信息解決生活和工作任務,而此次研究的過濾方法,幫助凈化網絡信息,維護網絡安全與社會穩定。但根據K 近鄰分類算法的基本特點可知,該算法還可以與其他算法結合使用,因此可對K 近鄰分類算法進行改進,進一步優化敏感信息過濾結果,通過更加詳細的信息分類與相似度計算,得到更為完整的網絡敏感信息。