999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的網站識別方案

2020-07-13 07:06:54劉天一張汝嫻袁藝邢韋川林清然周延森指導老師
網絡安全技術與應用 2020年7期
關鍵詞:檢測模型

◆劉天一 張汝嫻 袁藝 邢韋川 林清然 周延森指導老師

(國際關系學院 北京 100091)

1 引言

近年來互聯網技術發展迅速,網絡資源豐富了生活。但與此同時,大量博彩、色情等非法網站的出現嚴重影響了網絡環境,非法網站檢測也成為保護網絡安全的一環。

有關部門已開展大量專項整治行動,但由于網絡建站成本低、活動隱蔽性強及監管難度大等特點,許多諸如色情、博彩等非法網站仍屢禁不止,對網絡安全造成嚴重威脅,目前急需高效檢測的技術手段。

非法網站檢測目前主要有三類技術:黑名單、靜態檢測、動態檢測?;赨RL 檢測黑名單的技術簡單且準確率較高,但靈活性較差,且人工維護黑名單耗時耗力。靜態檢測是目前主流,多數預先采用網絡爬蟲獲取目標網站靜態數據,通過機器學習提取特征構建分類識別模型[2-4],其關鍵是選取有效檢測特征與構建適合的分類器。動態檢測耗時長且難度較大,針對掛馬類惡意網站識別率較高,而對于博彩、色情等網站效果欠佳。

相比已有的非法網站檢測工作,我們針對不同類型非法網站采用不同手段,進而提高識別的準確性與效率。一方面,使用自然語言處理技術提取網頁特征并利用SVM 生成博彩網站識別與分類模型。另一方面,在已有NSFW 色情圖片識別平臺基礎上實現色情網站檢測模型。

2 非法網站系統構建

本文所設計的非法網站檢測系統框架如圖1,輸入指定URL 后系統依次對其進行是否為博彩、色情網站的識別,從而對其是否為非法網站作出初步判斷。

圖1 非法網站識別系統

2.1 基于SVM 的博彩網站檢測

博彩網站檢測模型構建步驟如圖2。

(1)請求URL 獲取HTML 文本;

(2)通過正則匹配從HTML 指定標簽中提取文本。由于各個國家對非法網站的界定不同,目前本模型只針對國內網站進行識別,因此正則后只保留中文字符;

(3)對中文文本進行分詞并保留詞性。依據經驗制定任務相關停用詞表,并同通用停用詞表結合,移除停用詞及非動、名詞等無意義的詞,過程中建立語料庫,統計加入了語料庫詞的詞頻;

(4)采用指定方式對語料庫排序,進行特征選擇。分別采用信息增益、卡方檢驗、頻次等方式排序,指定維數并且完成特征提取;

(5)根據所選特征,即排序后的前[指定維數]個詞,重復(2)(3),計算tf-idf,形成特征向量。

至此得到HTML 的特征向量,將其作為分類器的輸入,完成分類、識別等任務。

本實驗選用已知非法網站和從chinaz 中隨機選取的URL 組成數據集,預先分別將其標注為合法/非法。選取過程中過濾不可正常訪問網站和非中文網站。考慮到數據集規模較小,特征維數較高,任務目標為二分類,因此選用SVM。考慮到過擬合等問題,此處在特征選擇時指定維數為3000。數據集劃分為70/30 進行訓練/測試,并統計訓練集和測試集的各項指標。

實驗結果表明訓練集中測試的準確率為97.14%,測試集中為95.56%,而80/20 劃分訓練/測試集的情況下可達99.9%,未發生過擬合。其中,采取了十折交叉驗證以保證可信度。后期如需進一步擴大數據集,特征選擇時選定的維數應相應增多。實驗說明本文通過自然語言處理對HTML 進行的特征提取、特征選擇等操作可形成明確劃分界限,可供分類器進行處理,以及結合SVM 進行分類的模型基本可行。

2.2 基于NSFW 的色情網站識別

NSFW 標識鏈接中存在的不適宜公眾場合內容。本文基于NSFW色情圖片識別模型來實現網站檢測,該模型經訓練能對圖像進行5個維度的檢測并輸出符合概率,因此可用于檢測URL 中圖片。5 個維度分別是:繪畫drawings、變態hentai、中立neutral、色情porn、性感sexy,其概率總和為1。

借助NSFW,本文從每個URL 中爬取所有圖片,將單個網站的所有圖片輸入以獲取概率結果,與設定的閾值比較,以此來判別。為避免漏報,使用MAX(Porn)+MAX(Hentai)作為score 值輸出,此即網站的描述特征。只要某網站中一張圖片被判定為色情圖片,就將其識別為存在色情信息的網站。

本實驗數據集構造與前一模型相似。逐一計算URL 所對應的score,與設定的閾值比較,如低于閾值則輸出“通過檢測”,反之判定為色情網站并輸出“未通過檢測”。

色情網站界定標準存在主觀因素,需反復調整,通過實驗分析大量正常網站閾值的各項統計指標,最終將閾值取0.85 較合理。

最終以此確定色情網站識別模型,與博彩網站檢測并行,構成一個功能較為多元的非法網站檢測系統。

3 總結

本文以非法網站檢測為目標,基于機器學習算法實現了集成博彩和色情網站識別的檢測系統??梢愿倪M的地方在于本系統目前只能針對合法網站數據量進行擴展,沒有更多的訓練評估。未來可以考慮在非法網站獲取樣本,檢驗本文的檢測算法對此類非法樣本的可靠性。

猜你喜歡
檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測中的應用
主站蜘蛛池模板: 免费国产小视频在线观看| 激情成人综合网| 成人午夜精品一级毛片| 亚洲热线99精品视频| 亚洲欧美激情另类| 色综合中文字幕| 国产主播在线一区| 亚洲视频黄| 日韩少妇激情一区二区| 色综合中文| 国产v欧美v日韩v综合精品| 久久网综合| 国产视频久久久久| 亚洲日本中文字幕天堂网| 亚洲第一视频网站| 国产视频一区二区在线观看| 国产精品流白浆在线观看| 国产福利小视频在线播放观看| 色婷婷在线播放| 97在线国产视频| 亚洲色图综合在线| 国产精品吹潮在线观看中文| 欧美激情第一欧美在线| 国产在线精品美女观看| 国产精品va免费视频| 国产91丝袜在线观看| 亚洲AⅤ波多系列中文字幕| 亚洲色欲色欲www网| 国语少妇高潮| 亚洲 欧美 中文 AⅤ在线视频| 国产成人精品一区二区免费看京| 超碰aⅴ人人做人人爽欧美| 国产va欧美va在线观看| 国产人成在线观看| 91丝袜美腿高跟国产极品老师| 任我操在线视频| 亚洲国产日韩在线观看| 亚洲有无码中文网| 制服丝袜国产精品| 免费人成在线观看视频色| 国产精品粉嫩| 欧美在线精品怡红院| 午夜欧美在线| 国产尤物在线播放| a毛片基地免费大全| 亚洲精品欧美日本中文字幕| 无码中字出轨中文人妻中文中| 亚洲无码视频图片| 伊人成人在线| 狼友视频一区二区三区| 亚洲精品国产自在现线最新| 99精品视频九九精品| 一本视频精品中文字幕| 午夜视频www| 99久久精品国产自免费| 亚洲综合精品第一页| 国产91特黄特色A级毛片| 亚洲精品无码AⅤ片青青在线观看| 中文字幕无码电影| 国产凹凸视频在线观看| 一区二区日韩国产精久久| 91原创视频在线| 99国产精品免费观看视频| 美女无遮挡免费网站| 久久永久精品免费视频| 97av视频在线观看| 久久久久国产一级毛片高清板| 亚洲第七页| 亚洲精品男人天堂| 欧美性爱精品一区二区三区| 高清不卡毛片| 67194亚洲无码| 亚洲乱码在线视频| 四虎成人免费毛片| 亚洲天堂网站在线| 这里只有精品在线播放| 亚洲男人天堂2020| 久久a级片| 日韩精品无码免费专网站| 首页亚洲国产丝袜长腿综合| 少妇露出福利视频| 国产精品原创不卡在线|