999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于K 近鄰分類算法的敏感信息過濾方法研究

2020-09-23 02:52:24路士兵
科學技術創新 2020年28期
關鍵詞:詞匯分類信息

路士兵

(武警海警學院,浙江 寧波315801)

信息化時代飛速發展背景下,新聞、網絡文學等信息,在各類社交平臺上快速傳播,給每個人提供最新的資訊,但網絡技術發展背景下,一些人采取非法手段,在網絡中發布傳銷內容、非法廣告以及反動言論等不和諧的信息,污染整個網絡環境,給海量文字信息的分享與傳播,帶來了較為惡劣的影響[1]。因此傳統方法參考文獻[2],通過構建決策樹,對敏感信息進行過濾[2]。但隨著網絡信息體量的不斷增加,傳統過濾方法出現了一些弊端,因此提出一個基于K 近鄰分類算法的敏感信息過濾方法[3]。此次提出的敏感信息過濾方法,以傳統方法為研究基礎,在K近鄰分類算法的應用下,重新創建決策樹,為網絡信息的使用安全,提供更嚴謹的技術支持。

1 基于K 近鄰分類算法的敏感信息過濾方法

1.1 劃分敏感詞匯內容和等級

過濾敏感信息要有一個過濾標準,因此需要劃分敏感詞內容和等級。構建一個敏感詞數據庫,用于存儲需要被禁止使用的敏感詞,還有賭博類的非法廣告。按照不同類型的敏感詞匯,將敏感詞劃分為n 個類別,并對每一類別信息,設置3 個敏感等級。

將敏感信息分成三個類別,分別是政治類、色情類以及廣告信息類。其中,反動類敏感詞匯包括:政治主張、軍事主張以及恐怖信息等,此類信息涉及到國家發展、社會穩定、人民團結,因此此類型信息的敏感等級較高。色情類與廣告類信息,會給社會風氣帶來不良影響,給人的精神方面、財產方面,帶來了極大的隱患,因此此類信息的級別,稍低于反動類敏感詞匯。

針對上述劃分的三個敏感級別,將每一級別中所有的敏感詞匯作為過濾標準,構建敏感信息決策樹,并利用K 近鄰分類算法,設置敏感信息過濾邏輯。

1.2 基于K 近鄰分類算法創建敏感信息決策樹

首先要從敏感信息數據庫中,提取敏感詞匯,并將這些敏感關鍵詞,添加到決策樹的基本結構中,按照敏感詞第一個關鍵字的拼音首字母,對敏感關鍵詞進行排序,構建決策樹的根目錄子樹。

每一個子樹中的敏感信息,要按照第一個關鍵字的第二、或第三個拼音字母,或第二個關鍵字的首字母進行排序。需要注意,構建敏感信息決策樹的子樹信息時,還要將敏感詞匯的拼音包含進去,防止類似敏感詞匯,在過濾時被遺漏。

當敏感信息決策樹中存在孩子節點時,且該節點包含的信息,不是敏感信息的最后一個關鍵字,那么將此類節點作為非葉子節點;當敏感信息決策樹中,不存在孩子節點時,且包含的信息,是敏感詞的最后一個關鍵字,那么將此節點作為葉子節點;當敏感信息決策樹有孩子節點、且包含的信息,為敏感詞的最后一個關鍵字時,那么將此類節點作為偽葉子節點。令isLeaf表示敏感詞結束,則各個節點的表現形式,如下列公式所示:

公式中:a 表示非葉子節點的對應值;b 表示葉子節點的對應值;c 表示偽葉子節點的對應值。根據上述內容,將敏感詞數據庫,建成了一個敏感信息決策樹,在進行敏感信息過濾時,大大減少了過濾匹配范圍。

例如檢測網絡文章中,是否存在敏感關鍵詞時,只需要對決策樹中敏感詞匯所帶字的子樹進行檢測。若敏感詞數據庫更新,只需要在決策樹的相應位置上,直接添加新的敏感關鍵詞即可。

將K 近鄰分類算法,與創建的決策樹相結合,對網絡中的敏感信息,進行集中一次過濾。

具體步驟如下:

首先將待分類的敏感詞數據庫中的敏感關鍵詞,看做一個整體,假設該整體為集合W,對其進行向量化處理;假設集合W中共包含i×j 個文本,注意i>j,計算矩陣Wi,j的協方差矩陣Vj,j;根據所得結果計算其特征向量,分別用x1,x2,…,xn、y1,y2,…,yn來表示;計算所有個特征值,對協方差矩陣的權重和累計權重,計算結果如下列公式所示:

公式中:k∈n,表示k 個特征向量。根據權重大小確定降維后的矩陣維數,再按照從大到小的順序,將特征值對應的特征向量,作為投影矩陣。按照上述步驟設置決策樹的過濾邏輯,實現基于K 近鄰分類算法的敏感信息過濾。

2 測試與分析

將此次研究的過濾方法,作為實驗組測試對象;將傳統過濾方法,作為對照組測試對象,分析不同方法應用下,兩個測試組的敏感信息過濾效果。

設定三個敏感詞匯A、B、C,分別從政治、經濟、體育三個方面進行敏感詞搜索,下圖1 是設定的3 個敏感信息,在網絡中的占比情況。

圖1 敏感信息在網絡信息中的占比

分別利用兩種敏感信息過濾方法,檢測并過濾其中的敏感信息,實驗共進行5 次。下表1、表2、表3,是兩個測試組的敏感信息過濾準確率統計結果。

表1 政治領域敏感信息過濾準確率統計結果

表2 經濟領域敏感信息過濾準確率統計結果

表3 體育事業敏感信息過濾準確率統計結果

根據表中的測試結果可知,在三個領域中,實驗組政治領域的敏感詞過濾準確率平均值為90.05%;對經濟領域的敏感詞過濾準確率平均值為90.13%;對體育領域的敏感詞過濾準確率平均值為90.39%。而對照組對政治領域的敏感詞過濾準確率平均值為83.53%;對經濟領域的敏感詞過濾準確率平均值為85.58%,對體育領域的敏感詞過濾準確率平均值為85.58%。綜合上述分析可知,此次研究的過濾方法,在K 近鄰分類算法的控制下,過濾出的敏感信息準確率,總體提升了5.29%。可見提出的敏感信息過濾方法滿足研究要求。

3 結論

互聯網時代,我們利用海量的網絡信息解決生活和工作任務,而此次研究的過濾方法,幫助凈化網絡信息,維護網絡安全與社會穩定。但根據K 近鄰分類算法的基本特點可知,該算法還可以與其他算法結合使用,因此可對K 近鄰分類算法進行改進,進一步優化敏感信息過濾結果,通過更加詳細的信息分類與相似度計算,得到更為完整的網絡敏感信息。

猜你喜歡
詞匯分類信息
分類算一算
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
本刊可直接用縮寫的常用詞匯
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
本刊一些常用詞匯可直接用縮寫
主站蜘蛛池模板: 伊人天堂网| 老司机午夜精品网站在线观看 | 久久动漫精品| 国产在线观看人成激情视频| 91原创视频在线| 久久综合色天堂av| 亚洲国产日韩视频观看| 波多野衣结在线精品二区| 国产在线精彩视频二区| 婷婷伊人五月| 在线观看视频一区二区| 日本尹人综合香蕉在线观看| 欧美色亚洲| 国产精品成人啪精品视频| 国产亚洲精品yxsp| 久久狠狠色噜噜狠狠狠狠97视色 | 国产电话自拍伊人| 国产乱人激情H在线观看| 国产精品hd在线播放| 国产91全国探花系列在线播放| 超清无码一区二区三区| 国产精品黑色丝袜的老师| 日本三区视频| 色综合久久综合网| 巨熟乳波霸若妻中文观看免费| 在线观看亚洲精品福利片 | 国产91成人| 欧美成一级| 久久香蕉欧美精品| 国产成熟女人性满足视频| 一级香蕉人体视频| 国产精品成人一区二区不卡| 国产丝袜第一页| 日本欧美一二三区色视频| 欧美性爱精品一区二区三区| 亚洲精品午夜无码电影网| 亚洲精品无码在线播放网站| 欧美成人h精品网站| 亚洲天堂网站在线| 亚洲中文字幕手机在线第一页| 婷婷丁香在线观看| 国产伦精品一区二区三区视频优播 | 精品视频91| 91精品免费久久久| 欧美不卡在线视频| igao国产精品| 国产一二视频| 精品一區二區久久久久久久網站| 亚洲无码高清免费视频亚洲| 又猛又黄又爽无遮挡的视频网站| 国产亚洲精品va在线| 日本亚洲欧美在线| 国产99免费视频| 最新亚洲人成无码网站欣赏网 | 亚洲精品成人福利在线电影| 久久男人视频| 亚洲视频a| 久久精品电影| 日韩在线成年视频人网站观看| 国产在线精彩视频二区| 亚洲丝袜中文字幕| 麻豆精品在线视频| 人妻夜夜爽天天爽| 国产精品久久久久久搜索| 欧美第一页在线| 国产午夜福利在线小视频| 久久这里只精品国产99热8| 99视频精品全国免费品| 亚洲swag精品自拍一区| 亚洲天堂网在线播放| 六月婷婷精品视频在线观看| 精品無碼一區在線觀看 | 日韩无码真实干出血视频| 欧美国产在线看| 欧美一区二区精品久久久| 欧美成人午夜视频免看| 夜夜操狠狠操| 91久久夜色精品| 欧美在线黄| 国产精品人成在线播放| 精品国产自在在线在线观看| 国产高清在线观看|