劉佳 張琳
一、背景
近年來,移動網絡不斷發展,4G網絡已經深深融入社會生活的方方面面,人們通過移動網絡進行數據處理,溝通交流。在網絡資源越來越豐富的同時,垃圾信息,不良網站等不健康內容也充斥著移動網絡,如何更好的利用信息網絡,保證上網環境的健康和安全是移動運營商非常重視的問題。
本文結合中國移動各類富媒體業務,研究文本、圖片、音視頻等富媒體不良信息識別技術,對各項同類技術進行評估和比較,并提出了未來移動網絡不良信息治理技術的發展建議。
二、富媒體不良信息識別技術
富媒體不良信息一般指包含不良內容的文字、圖片、音視頻等多媒體內容。為了能夠實現對這些多媒體內容特別是反動涉黃類內容的識別和封堵,需要運用行之有效的不良信息識別技術才能達到較好的治理效果。
(一)文本識別技術
1. 關鍵詞識別技術
關鍵詞識別技術是一項比較成熟的識別技術。關鍵詞識別技術的實現原理非常簡單。首先與關鍵詞庫進行關鍵詞匹配,然后通過統計一篇文檔中關鍵詞出現的次數,與事先設定的判別閾值進行比較,如果大于閾值,則認為是不良的文本。
此外,現有的關鍵詞識別技術一般也支持關鍵詞的“與”、“或”邏輯組合關系。另外,為了提升關鍵詞判別的準確性,可對關鍵詞進行分級,并進行不同的權重設置,即對于非常敏感的詞匯一般可設置權重比較高,或者可直接攔截/封堵,對于一般敏感或者比較中性的詞匯,則可進行設置較低的權重。
2. 文本分類識別技術
文本分類識別技術涉及的算法很多,包括K臨近算法、貝葉斯算法、動態詞典算法、卷積神經網絡算法等。這里重點介紹一下較為常見的K臨近算法和樸素貝葉斯算法。
(1) K臨近算法(KNN算法)
KNN算法的基本思路即在訓練文本集中找出與待測文本距離最近(最相似)的K個文本,然后計算新文本屬于每類的權重,最后將其分到權重最大的一類中。一般的計算方式是:在訓練文本集中選出與待測文本最相似的K個文本;對文本進行預處理,形成去掉特殊符號、數字后的純文字類文本;把預處理后的文本看成是一個字的集合,并設計兩個文本的相似度;通過相似度進一步計算新文本在每一類文本中的權重,并將新文本劃分到權重最大的一類當中。K臨近算法的關鍵是如何設計文本相似度,對文本識別的準確性至關重要。
(2)樸素貝葉斯算法(NB算法)

3. 文本識別技術小結
基于移動網絡業務特點,在現網中應用的主要技術仍是關鍵詞識別技術,同時結合樸素貝葉斯等分類識別技術進行策略優化,進而提升文本識別準確率,降低人工審核工作量。各類文本識別技術在應用中各有優缺點,總結如下:
(二)圖片識別匹配技術
圖片的識別一般分為普通圖片、變形圖片、文字圖片、涉黃圖片等幾類,識別方法也不盡相同。
1. 一致性對比技術
一致性比對技術即采用MD5技術比對。MD5是message-digest algorithm 5(信息-摘要算法)的縮寫,被廣泛用于加密和解密技術上,它可以說是文件的“數字指紋”。任何一個文件,無論是可執行程序、圖像文件、臨時文件或者其他任何類型的文件,也不管它體積多大,都有且只有一個獨一無二的MD5信息值,并且如果這個文件被修改過,它的MD5值也將隨之改變。通過比較圖像的MD5值,可以判斷兩個圖像的內容是否完全一致。
2. SIFT圖片模糊匹配技術
違法者常常將同一張圖片進行縮放、拉伸、截取、遮蓋、變色、翻轉、扭曲、羽化等操作形成一系列不影響視覺含義的變形圖片,來輕易繞過監控系統的識別,從而導致監控策略的查全率很低。因此需要引入圖片模糊匹配技術,這種技術主要基于計算機圖形學中比較成熟的SIFT(Scale Invariant Feature Transform)特征算子的方法來實現。SIFT特征算子具有尺度、平移、旋轉、仿射等諸多不變性,同時它表示的是圖像內容的本質屬性特征,能夠在觀測條件變化大,遮擋,雜亂干擾等復雜情況下對圖像內容進行有效地描述。通過分別對樣例圖片和待匹配圖片進行SIFT特征提取,并進行相似性比對,可以判斷出兩幅圖像的相似程度。
3. 文字圖片識別技術
現有不良信息監控系統發現許多不法分子都是將反動文字作為圖片發送來繞過監控系統的審查,危害性較大。當前比較成熟的OCR(Optical Character Recognition)技術,在文字較多且字體較規整的情況下識別率較高。但其對源數據不加區分。即使圖片中不包含任何文字,也會強行進行轉換。一方面無效轉換浪費了大量時間,另一方面轉換結果中會包含垃圾信息,給后續的關鍵字匹配帶來額外開銷,查準率也會降低。因此一般在OCR轉換前會對圖像進行二值化處理,對文字圖片進行篩選,能夠對文字圖片過濾進行一定的輔助識別。
4. 淫穢色情圖片識別技術
黃色圖片具有皮膚裸露面積大的特點,一般需要進行人臉檢測、膚色監測、紋理監測檢測等。人臉識別一般通過小波來提取并描述人臉中的一些局部特征點(節點),并把它們用成標記圖(Labeled Graph)的形式連接起來,用標記圖之間的相似度來衡量人臉圖像之間的相似度。膚色檢測是黃色圖片識別的一個重要手段,一般采用膚色模型(高斯模型)YCbCr空間膚色區域模型來確定各像素是否屬于膚色范疇。紋理檢測能夠輔助膚色檢測,一般是將膚色掩碼圖中誤識為膚色像素的像素點(例如黃色的沙發)去除。一般可采用小波紋理檢測算法,對膚色掩碼圖進行修正后得到皮膚掩碼圖。除此之外,色情圖片識別技術也會基于關鍵部位檢測等多概念檢測方式,來彌補膚色、紋理模型的不足,從而顯著提高檢測性能。
5. 圖像識別技術小結
目前在移動現網中樣例圖片檢測、淫穢色情圖像識別等主要技術均有應用,具體識別方法不盡相同。針對本文介紹的各類圖片識別方法的優缺點總結如下:
(三) 音視頻識別技術
1. 一致性對比技術
與圖像的一致性對比技術相同。通過比較音視頻的MD5值,可以判斷兩個文件的內容是否完全一致。
2. 色情視頻識別判定技術
色情視頻識別的原理是對視頻文件提取關鍵幀,關鍵幀即圖像內容大幅跳變的關鍵點。形成關鍵幀組成的一組圖片,然后使用圖片識別技術進行內容判別,從而識別出視頻中是否包括淫穢的內容。由于視頻中的證據數據較多,即聯合多個圖片進行判定,因此色情視頻識別查準率和查全率甚至會優于色情圖片識別。
3. 音頻識別匹配技術
在移動網絡應用中純不良音頻的識別應用較少,一般通過語音識別形成語音文本,再加以關鍵詞處理找出敏感詞,最終通過深度神經網絡模型、音頻指紋模型等進行聲紋識別確定敏感人的方式進行識別處理。
三、不良信息治理建議
根據前面的各類技術的介紹,可以看出目前文本識別技術比較成熟,圖片、視頻、音頻識別技術識別準確率較文本差一些。為了進一步提升富媒體不良信息識別準確率,建議除了不良內容的檢測技術之外,需要加入一些輔助策略,治理效果會事半功倍。具體建議如下:
用戶屬性過濾策略,包括黑名單、白名單等用戶分級過濾機制;
行為過濾策略,顧名思義,即反應用戶的基本行為的策略,對特殊行為的用戶進行重點監測。這類的策略一般包括信息發布或轉發頻次,相似內容過濾,收發比行為,設備行為等;
熱點追蹤策略,即根據最新時事熱點進行跟蹤和過濾。
除了以上策略之外,一般為了降低誤判,會再加上人工復合,但是前期策略的合理配置會大大提升系統識別準確率,并降低人工審核工作量,從而實現高效的不良信息識別和治理。