鄧一貴,伍玉英
(重慶大學a.信息與網絡管理中心;b.計算機學院,重慶400030)
;
基于文本內容的敏感詞決策樹信息過濾算法
鄧一貴a,伍玉英b
(重慶大學a.信息與網絡管理中心;b.計算機學院,重慶400030)
隨著互聯網的高速發展,各種各樣的信息資源呈指數級增長,隨之出現許多負面影響,需要構建一個安全健康的網絡環境。為此,提出針對網頁文本內容的敏感信息過濾算法(SWDT-IFA)。該算法不依賴詞典與分詞,通過構建敏感詞決策樹,將網頁文本內容以數據流形式檢索決策樹,記錄敏感詞詞頻、區域信息以及敏感詞級別,計算文本整體敏感度,過濾敏感文本。實驗結果表明,SWDT-IFA算法具有較高的查準率和查全率,且執行時間能夠滿足當前網絡環境的實時性要求。
文本過濾;敏感級別;決策樹;分流;詞頻
隨著互聯網時代的到來,海量網絡信息資源使得人們獲取信息、生活交流、購物理財等變得越來越方便快捷。但是在人們獲得便利的同時,各種色情、暴力、反動、迷信等非法信息也接踵而至,給人們尤其是青少年帶來了巨大的危害,也給社會帶來了諸多不良影響。對此,從事信息安全的研究人員做了多方面研究,提出多種內容過濾技術。
針對Web上大量的網頁文本內容,本文利用決策樹分流特性提出了敏感詞決策樹信息過濾算法SWDT-IFA。該算法基于敏感詞庫,通過構建敏感詞決策樹,以數據流形式處理網頁文本內容,綜合考慮區域、詞頻、敏感詞級別三大要素,最終給出候選敏感詞權重,計算文本整體敏感度,實現敏感文本檢測。……