互聯網不良信息監控在電信運營商的研究與應用

2020-06-09 07:52:20時鎮軍

江蘇通信 2020年2期

時鎮軍

中國移動通信集團江蘇有限公司

0 引言

近年來，隨著互聯網技術的迅猛發展和用戶規模的快速擴大，在巨大的市場規模和非法利益的驅使下，網絡不良信息泛濫。據統計，互聯網上12%的網站涉及不良信息，25%的搜索關鍵詞涉及不良信息，35%的網絡下載涉及不良信息，每秒鐘2.7 萬用戶正在觀看不良信息。這種現象嚴重敗壞了社會風氣，社會各界對此深惡痛絕。

為加強互聯網不良信息監控，構建綠色文明的互聯網絡，我國出臺了一系列法律法規，2006 年頒布了《信息網絡傳播權保護條例》，2012 年出臺了《關于加強網絡信息保護的決定》《互聯網信息服務管理辦法》，2016 年頒布了《中華人民共和國網絡安全法》。除了需要法律支撐外，在實際網絡不良信息監控中還需要依靠技術手段。世界各國在互聯網管理過程中，均是采用“政府立法+技術過濾”的管制模式。如韓國要求公共上網場所安裝過濾軟件，保證未成年人獲取健康信息，還限制青少年的深夜網絡游戲行為；芬蘭教育部在全國學校和圖書館的電腦上安裝攔截軟件，過濾和屏蔽不良網站；芬蘭電信運營商也為家長提供“家長網上監控”服務，通過過濾器過濾掉網上不健康的內容；澳大利亞的“互聯網安全計劃”要求網站加強個人認證；英國設立了專門網站，向家長提供最新的網絡安全信息。

為嚴厲打擊利用互聯網傳播不良信息的行為，全國“掃黃打非”工作小組辦公室、國家互聯網信息辦公室、工業和信息化部、公安部每年開展一次“掃黃打非”凈網專項行動。其公告第三項“各互聯網站、基礎電信運營企業、網絡接入服務企業立即開展自查自糾，主動清理網上淫穢色情信息或鏈接”。

為落實國家相關部委及集團總部關于互聯網資源信息安全的治理工作考核要求，本文將研究不良信息監控平臺及在運營商中的應用，實現對不良信息的智能監測與管理，解決互聯網用戶綠色上網的問題。

1 系統架構

平臺通過主動爬蟲獲取用戶網絡中的文字、圖像、視頻數據，利用計算機視覺相關技術（包括文字匹配算法、模式識別、深度學習、圖像指紋技術等）對網絡中的文本、圖像、視頻進行自動檢測與識別。識別的目標包括：黃色文字、圖像與視頻、暴力恐怖圖像、反動圖像與視頻等。平臺對發現不良信息內容進行預警，同時為用戶提供掃描檢測報告和相關的統計分析和管理功能。

圖1 系統架構圖

如圖1 所示，系統包括數據采集和預處理、內容識別、應用四個主要部分。

（1）采集層

通過鏡像、網絡爬蟲或者數據共享接口獲取待處理的文字、圖像、視頻數據。網絡爬蟲采用分布式并行處理方式，負責對所有的網站按照一定的周期進行深度遍歷與抓取，包括采集任務調度、網站內容遍歷、視頻下載、集群運行狀態監控等模塊。

（2）預處理層

通過協議還原、內容解析、內容去重等方式對采集的數據進行預處理。

（3）處理層

主要對采集并預處理后的數據進行識別分析，包括文字識別、圖像視頻模式識別、圖像視頻指紋比對識別三個主要功能。

（4）應用層

主要實現垃圾彩信監測分析功能、不良信息審核功能、黑白名單管理、違規內容告警、系統自學習、IP/域名自動歸并、域名模糊封堵、網址位置精確定位、網站內容分析識別策略管理。

2 主要技術

2.1 爬蟲采集

通過對數據進行基礎協議解析及處理，并按照支持的協議范圍，對數據包中的文本、圖片數據進行還原，實現對網絡出口高速流量的數據內容爬取，同時解析出關聯的URL 域名、訪問URL 的源IP 地址、目的IP 地址、源訪問端口、目的端口、訪問時間等信息以供后續處理使用。主要包括域名爬蟲、URL 爬蟲、IP 段爬蟲。

域名爬蟲：對添加到系統的網站地址進行主動爬取，并通過自動鏈接提取模塊完成子任務的提取，從而實現深度遍歷式爬取，支持文本、圖片、視頻、各類附件。

URL 爬蟲：需要與訪問日志端建立連接獲取URL 接口，通過URL 爬蟲對接收的URL 進行掃描獲取內容，以供后續處理使用。

IP 段爬蟲：使用IP+端口號方式爬取網站內容。

2.2 內容去重

根據互聯網長尾效應，80%的訪問請求20%的內容，因此為了節約系統資源，需要對采集的數據預處理，去除重復信息。主要采用方法如下：

URL 級別去重：MD5 比對法、Hash 表配合URL 壓縮法、Bloom Filter 去重。

文件唯一編碼級別的去重：一般通過文件MD5 進行相同文件的去重。

文件特征的去重：使用特征提取和比對技術進行文件相似性比對去重。

圖像特征由全局描述子和局部描述子兩部分組成。全局描述子用于建立數據庫索引，系統利用全局描述子快速地從數據庫中篩選出可能相似的圖像，然后利用局部描述子進一步計算檢索圖像與篩選出來的候選圖像的相似度，然后根據相似度從高到低將結果返回。

圖2 圖像特征的提取過程圖

2.3 文本識別

關鍵字過濾：對采集獲取的文本數據編碼進行UTF8轉碼；對轉碼后的文本數據進行關鍵字/關鍵字組合的搜索；將搜索到的關鍵字/關鍵字組合進行標記并計算權重。

語義分析：對采集獲取的文本數據編碼進行UTF8 轉碼；對進行轉碼后的文本數據進行分詞；對分詞結果進行統計，生成特征向量；將特征向量輸入到文本分類模型進行識別，得到文本是否為不良文本的識別結果，并將文本傳送至后臺。

2.4 圖像識別

第一層（指紋庫）：利用視頻圖像指紋庫技術，建立分類指紋庫，包括黃色、反動、暴力、敏感事件等。對于系統采集的數據，首先進行指紋快速比對，發現與指紋庫中的數據相似的數據，則直接進行過濾處理。

第二層（特定模式識別庫）：對網絡中不同來源的數據進行分級處理，對于一些特殊的圖片網站（如電商、人物寫真），利用模式識別技術，采集相關的樣本進行針對性的學習與訓練，在完成指紋識別后，先使用針對性的圖像庫訓練模型進行識別。

第三層（機器學習）：利用基于膚色特征的SVM 分類器進行快速過濾。互聯網中的圖像大部分是正常圖像。膚色特征過濾器能快速過濾那些明顯非黃色的圖像。在不降低識別率的情況下，保證系統能快速識別正常圖像，提升系統的處理性能。

第四層（深度學習）：利用世界領先的深度學習算法，對畫面中的內容進行識別，當前系統支持數萬種特定正常場景的圖像識別。

第五層（人臉檢測）：對于泳裝照片的識別，利用人臉識別算法識別出人臉的區域，同時對人臉周邊區域的相關分析，降低系統的誤判。

2.5 視頻識別

通過指紋特征提取及指紋比對檢索，實現對圖像視頻的監測。圖像視頻匹配的核心問題是將同一目標在不同時間、不同分辨率、不同光照、不同位姿情況下所成的圖像相對應。具體為：

（1）構建尺度空間：這是一個初始化操作，通過生成尺度空間來創建原始圖像的多層表示，以保證尺度不變性。

（2）LoG 近似：使用Laplacian of Gaussian 能夠很好地找到圖像中的興趣點。

（3）找到關鍵點：利用近似我們可以找到特征點，它們是Difference of Gaussian 圖像的極大、極小值。

（4）除去不好的特征點：邊界和低亮度區域是不好的特征點，除去它們以使算法有效和魯棒，在這里使用近似Harris Corner 檢測器。

（5）給特征點賦值一個方向：為每個特征點計算一個方向，依照這個方向做進一步的計算，這個操作有效地取消了方向的影響，使得算法具有旋轉不變性。

（6）生成特征：利用位置上的尺度和旋轉不變性，能夠生成一個表示，它能幫助唯一地識別特征。通過這個表示，我們可以很容易地識別尋找的特征。

（7）指紋比對檢索：相似的圖像或視頻在經過變化后的檢索匹配。

圖3 圖像識別特征生成過程

3 平臺功能

3.1 互采集功能

平臺需支持移動互聯網GRE、HTTP、WAP1.x、WAP2.0、MMS、SMTP、POP3、FTP、Telnet 等多種協議的業務信息進行采集和識別，并且可以根據內容類型（文字、圖片、音視頻）進行分類識別。

3.2 內容預處理

將互聯網流量中大部分的重復訪問進行去重處理。經過去重分析處理后的記錄在數據庫中減少90%，經過黃色圖片智能識別系統審核后的嫌疑圖片占總數的1%左右，低于識別門限的小圖片被自然過濾。

3.3 內容識別功能

實現對文本、圖片、視頻、不良網址的分析，通過文本內容比對、圖片不良特征匹配、視頻指紋特征提取及比對檢索，識別不良信息。

3.4 應用功能

（1）垃圾彩信監測分析功能

在WAP不良信息監控系統上實現垃圾彩信監測分析功能。

（2）不良信息審核功能

系統應支持審核配置管理功能，通過關鍵字匹配、色情圖片識別和樣例圖片識別技術，提取出網站中疑似的內容違規信息，由人工對疑似違規數據進行確認審核。

（3）黑白名單管理

網站黑白名單庫，減少系統資源消耗。

（4）違規內容告警

系統支持發現違規內容時自動提供網頁方式的告警功能，提示審核人員及時處理。

（5）系統自學習

內容匹配識別引擎可實現分類內容的自動識別匹配，通過人工反饋機制實現匹配算法的學習。

（6）IP/域名自動歸并

系統可以自動整理出雷同域名的IP 地址，并提出對IP 地址進行封堵。

（7）域名模糊封堵

系統可以自動歸并出有害域名的最親父節點，通過與現網已建設的移動互聯網惡意程序監測封堵系統聯動，對這個父節點實施模糊封堵。

（8）網址位置精確定位

通過DNS 逆向解析功能，系統可以精確定位每一個URL的真實IP 地址，并通過查詢得到網站的物理位置。

（9）網站內容分析識別

內容識別策略包括關鍵字庫策略、圖像特征庫策略、不良網址庫策略。

4 應用方案

4.1 組網方案

基于現有上網日志留存系統或上網導航系統，獲取上網話單中的URL 數據，進行互聯網頁面爬取，并基于現有系統已匯聚后的彩信流量，從彩信中心近端交換機鏡像流量到新增的彩信專用采集機上，在云平臺資源部署不良監測系統進行監控。

圖4 不良信息監控平臺系統組網圖

4.2 接口方案

（1）DPI 接口

不良信息監控系統從DPI 設備中獲取指定協議的會話信息、所有被還原的文本、圖片，以及文本與圖片對應的會話關聯信息。

前端采集機與后臺通過SFTP 進行通信，其中前端采集機為SFTP 客戶端，大區后臺為SFTP 服務器端。若傳輸失敗，采集機定時（可配置周期）重傳。包括數據傳輸接口、XDR上傳接口、策略同步接口、時鐘同步接口。

（2）時鐘同步接口

支持通過NTP 時鐘同步服務器從指定平臺同步時鐘。

（3）網管接口

在網絡管理需求上，系統前端設備網管接口支持SNMP、FTP 等管理協議，即數據網設備提供SNMP、FTP、Telnet、數據庫接口中的三種網絡管理接口。

5 結束語

本文針對互聯網不良信息泛濫的問題，研究了不良信息監控平臺及其在運營商的應用方案。監測系統的總體目標是對用戶管轄范圍內的目標網站進行爬蟲搜索監測，針對互聯網網頁，系統能自動爬行頁面所有下級鏈接頁面，標記其中鏈接信息，抓取頁面中的相關內容，并對這些內容進行監測，包括信息采集和分類管理、信息內容（包括文本、圖片等）監測和匹配識別，并建立管轄范圍內的互聯網監測信息基礎數據庫，對違規信息進行統計分析，為互聯網信息的監測工作提供高效的技術手段，并為互聯網信息數據進行特定應用挖掘提供基礎數據。

本文結合工程實際情況提出不良信息監控平臺建設的功能架構和接口方案，為運營商構建類似系統提供一些借鑒和參考。