陸向艷,陸生權,劉峻


摘要:當前用戶在互聯網中發布的一些文本信息中包含色情、暴力、政治敏感或惡意廣告等不良信息,對網絡生態環境造成破壞,特別對廣大青少年網民的健康成長影響較大。本文提出一種基于SVM的不良信息識別方法,該方法包括文本標記、文本分詞、Doc2Vec文本向量化、SVM不良信息分類器訓練、SVM不良信息測試5個步驟。實驗結果表明該方法能有效識別網絡不良信息,為網絡不良信息的甄別提供了一種方法參考。
關鍵詞:不良信息 ;SVM;識別;Doc2Vec;Jieba分詞
中圖分類號:TP391? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)34-0097-02
1引言
當前互聯網進入了快速發展的階段,第44次《中國互聯網絡發展狀況統計報告》[1]顯示,截至2019年6月,我國網民數量達8.54億。互聯網信息發布呈指數級的快速增長,其中一些信息內容涉及色情、暴力、政治敏感或為惡意廣告,這些信息對網絡生態環境造成了不良影響,若不加甄別將對廣大青少年網民的健康成長帶來不利影響。將網絡不良過濾后,再呈現給青少年具有重要意義。當前互聯網不良信息識別主要有基于語義和基于機器學習兩種方法[2-5],基于后者本文提出一種基于SVM的不良信息識別方法,為不良信息識別,凈化網絡提供參考。
2? 基于SVM的網絡不良信息識別方法
2.1 識別模型
基于SVM的網絡不良信息識別方法包括文本標記、文本分詞、Doc2Vec文本向量化、SVM不良信息分類器訓練、SVM不良信息測試5個步驟,方法模型如圖1所示。
2.2文本標記
用爬蟲收集網絡文本數據集,將數據集分成訓練集和測試集兩部分,并進行分類標記,不包含色情、暴力、政治不良和廣告這四種敏感詞的文本數據集標記為正面數據,包含的則標記為負面數據,并按類別分開訓練和測試。
2.3文本分詞
應用Python中文分詞組件Jieba分詞的精確模式對所有文本數據集進行分詞、去除停用詞處理。
2.4 Doc2Vec文本向量化
用Doc2Vec模型將文本分詞進行向量化,設置詞向量長度為200(對于SVM來說就是有200個特征),形成文本數據的向量化表示,用于后續的SVM訓練和測試。
2.5 SVM不良信息分類器訓練
經過Doc2Vec文本向量化后的訓練數據集表示為{T1,T2,T3,T4}分別代表政治敏感、色情、廣告和暴力四個類別的數據集,第i個數據集:Ti={(ai1,bi1),(ai2,bi2),...,(aim,bim)},其中aij表示第i個數據集第j個文本的詞向量,bij表示第i個數據集第j個文本的是否為不良信息,是則取值為1,不是則取值為0。分別用SVM算法對數據{T1,T2,T3,T4}進行訓練得到對應的分類器。
2.6 SVM不良信息測試
SVM訓練成功后.利用訓練好的SVM分類器對向量化以后的測試數據集進行不良信息分類測試,以確定測試文本是否為不良信息。
3 實驗和結果分析
實驗數據是用爬蟲進行數據爬取,收集政治敏感、色情、廣告和暴力四個類別文本數據各800個,600個文本用于訓練,200個文本用于測試。將本文方法和基于樸素貝葉斯(NB)的不良信息識別方法進行對比實驗,驗證本文提出的基于SVM的網絡不良信息方法的有效性。采用正確率,召回率,F1值作為評價指標,計算公式為:
正確率=(TP+TN)/(P+N) ? ? (1)
召回率=TP/(TP+FN) ? ? (2)
F值=(TP+TN)/(P+N) ? ? (3)
其中,P為正面樣本數,N為負面樣本數,P+N為總樣本數,TP為將正的預測為正的數目,TN表示將負的預測為負的數目,TP+FN為預測總信息數。實驗結果如表1所示。
實驗對于暴力和政治敏感數據集,SVM算法和樸素貝葉斯算法的準確率和召回率基本相同,而對于色情和廣告數據,SVM方法的準確率和召回率都高于樸素貝葉斯方法,主要原因是樸素貝葉斯的屬性獨立性假設造成,因為色情和廣告文本分詞比政治敏感及暴力文本具有更大的屬性相關性。
4 結論
網絡不良文本信息會對網絡生態環境造成破壞,尤其會對青少年兒童的健康成長具有較大的影響。本文提出一種基于SVM的網絡不良信息識別方法。實驗結果表明本文方法能有效識別不良文本信息。對凈化網絡環境,輔助青少年網民健康成長具有重要意義。
參考文獻:
[1] 于朝暉.CNNIC發布第44次《中國互聯網絡發展狀況統計報告》[J].網信軍民融合,2019(9):30-31.
[2] 湯烈,穆合義,候愛蓮,等.基于K最近鄰算法的網絡不良信息過濾系統研究[J].計算技術與自動化,2019,38(4):172-175.
[3] 李兆翠,朱振方,李穎.基于改進SVM的網頁過濾系統研究[J].軟件導刊,2016,15(2):159-161.
[4] 劉玉娥.基于數據挖掘技術的網絡信息過濾系統設計[J].現代電子技術,2018,41(16):51-54.
[5] 劉凱.移動網絡環境中不良信息智能過濾方法仿真[J].計算機仿真,2018,35(10):329-332.
[6] 王斌.基于樸素貝葉斯算法的垃圾郵件過濾系統的研究與實現[J].電子設計工程,2018,26(17):171-174.
[7] 孫玉杰.中文詞匯語義關系抽取及應用研究[D].南京:南京師范大學,2014.
[8] 聶證,曹燕.大數據時代面臨的信息安全機遇和挑戰[J].信息記錄材料,2018,19(2):47-48.
【通聯編輯:唐一東】