(廣西師范學院 計算機信息工程學院 科學計算與智能信息處理廣西高校重點實驗室, 南寧 530001)
摘 要:針對當前基于內容理解的網絡不良信息過濾國內外研究現狀,簡要介紹了基于內容理解的不良信息過濾技術的相關概念和特點,并對基于內容理解的不良信息過濾關鍵工作中的主要算法和技術的基本原理及優缺點進行了系統的探討和分析。最后討論了當前基于內容的不良信息過濾技術存在的困難和發展趨勢。
關鍵詞:不良信息過濾;色情信息過濾;圖像過濾;內容理解;內容安全
中圖分類號:TP311.13 文獻標志碼:A
文章編號:10013695(2009)02043306
Studies on objectionable information filtering technology based on contents understanding
PENG Yuzhong,YUAN Changan,WANG Yan,QIN Xiao
(Key Laboratory of Scientific Computing Intelligent Information Processing in Universities of Guangxi, School of Computer Information Engineering, Guangxi Teacher Education University, Nanning 530001, China)
Abstract:This paper studied international researches on the network objectionable information filtering based on understanding of the content with its status and the advances.It briefly introduced the conception and traits of objectionable information filtering technology based on contents understanding, elaborated and analyzed the basic principles of major algorithm and technology in key works, including the advantages and disadvantages. Finally,gave some difficulties and future directions of the research.
Key words:objectionable information filtering; pornography filtering; image filtering; content understanding; content security
0 引言
隨著信息通信技術的迅速發展,網絡信息安全問題日漸突出,特別是網上色情、暴力、反動等不良信息的傳播和泛濫,嚴重地敗壞了社會風氣,極大地影響了廣大青少年的健康成長,已經成為世界各國共同面對的難題和挑戰。根據國際著名的Internet Filter Review的統計結果表明,目前全球大約有420萬個色情網站,占所有網站總數的12%,互聯網上色情網頁超過了3.72億個[1]。另據中國互聯網信息中心統計報告指出,至2006年6月,中國網民的總人數為12 300萬人,中小學生互聯網滲透率達到15.4%,其中高中生已超過一半[2]。網絡色情對青少年的健康成長存在著極大的隱患,許多未成年人誤入并沉溺于黃網,由瀏覽各種不良信息而引發的各種社會犯罪現象時有發生,而且呈上升趨勢。近年來,國家有關部門大力開展網絡反黃行動,引起了社會各界的強烈反響,但網絡色情等不良信息依然難以杜絕,且日漸呈現出更為隱蔽、普遍的跡象[1,3,4]。如何抑制互聯網不良內容的擴散,保證青少年健康上網是整個社會、學校、家庭所面臨的亟待解決的問題。
不良信息過濾是抑制互聯網不良內容的擴散的一種有效途徑。網絡不良信息過濾,實質上是信息的二分類問題,是在對Web挖掘的過程中附加一些與探測、發現不良信息相關的條件,從而判斷是否含有不良信息;如果存在不良信息,則對含有不良信息的頁面進行處理,最后將處理后的結果返回給請求該Web頁的用戶。從海量的Web文檔中識別出含有不良內容的信息并將其屏蔽,目前已經成為信息過濾中一個新的研究領域。與一般信息過濾相比,網絡不良信息過濾具有以下特點:a)過濾的目標和對象明確且相對穩定;b)待過濾的內容常呈現出表現形式多樣性、隱蔽性和多變性;c)樣本分布不均衡,負面樣本少。
目前國內外的各種不良網頁過濾軟件或系統,在網頁信息鑒別上主要使用四種過濾技術,即基于因特網內容分級平臺(PICS)過濾、數據庫過濾(IP庫、URL庫)、關鍵字過濾以及智能內容理解過濾。但實際上,不法分子是不會主動給其傳播的不良信息內容按照PICS標準貼標簽的,所以基于PICS過濾在實際應用中效果不大;數據庫過濾方法對許多寄生在綜合性網站內的不良信息無法過濾,對一些經常性地更改IP、URL,或采取多級代理方式的含有不良信息網站也無法過濾;基于關鍵字的不良信息過濾技術能獲得較快的過濾速度[5,6],但往往不考慮上下文的關聯性,漏報、錯報率高,而且關鍵字是目前人們常使用的詞,有些信息內容的發布者可能有意避開使用這些詞,用其他的詞或圖片替代,使得基于關鍵詞的信息過濾機制不能識別。對網頁內容進行實時分析理解的智能內容理解過濾技術能動態地辨別文檔的實際含義,可有效地克服前面三種方法的不足,獲得較好的過濾性能。盡管目前的智能內容理解過濾技術也遇到了技術不成熟、計算量大、過濾速度慢等難題,特別是對于詞語間無間隔標志的中文等,比詞語間有間隔標志的英文等西方文字計算機語義分析起來更有難度,但其發展前景是巨大的。目前國內外在基于網絡內容理解過濾方面均已開展了研究,并取得了一定的成果。本文主要針對當前智能內容理解的網絡不良信息過濾的關鍵技術進行分析研究和探討。
1 基于內容理解的過濾技術
基于內容理解的過濾是指對獲取的網絡信息內容進行識別、判斷、分類,確定其是否為需過濾的目標內容,并對已確定的目標內容進行過濾等檢測控制的技術。它涉及了多個學科和領域,包括自然語言處理、圖像處理、圖像理解、計算機視覺、數理統計分析、模式識別、數據庫、知識論和人工智能等學科的相關理論和技術,所以工程復雜且難度大。內容分析過濾技術一般包括文本內容分析過濾、圖像內容分析過濾、視頻內容分析過濾和智能混合過濾等。它是根據色情信息的一些內容所呈現的特征來進行判斷的一種識別過濾方法,如主題、內容、格式、段落、圖片、音/視頻等信息技術特征,它具有適應強、精度高等特點,能有效地解決基于數據庫和關鍵字的過濾技術不能處理好的問題。根據基于內容分析理解的不良信息過濾技術的原理和待過濾內容的特點,可以將基于內容理解的不良信息過濾的關鍵技術工作概括為兩個方面:a)內容預處理,即對信息源中的內容進行數據預處理,并從中提取出能反映或有助判別內容性質的顯性和隱性特征,使待過濾的內容通過特征項有效表示出來;b)內容匹配,即根據一定的匹配規則和方法將不良信息模板與待過濾內容匹配,根據匹配結果對信息源進行相應處理,最后將處理后的結果返回給請求該Web頁的用戶。基于內容理解的過濾技術有兩個突出特點,即內容性和實時性。這兩個特點決定了衡量內容過濾的技術優劣的標準是過濾精度和過濾速度。
1.1 文本內容理解的過濾技術
文本內容理解的過濾技術是在簡單的關鍵字過濾方法的基礎上,通過運用各種自然語言處理(NLP)、人工智能理論和數據挖掘等方法和技術,根據文章內容的上下文語境等文本要素分析和理解文本內容的語義,從而發現目標信息的過濾技術。這種內容語義分析的過濾分析不是一個絕對的判斷,不能靠一兩個關鍵字就完成過濾,它依賴于文本內容的語義。比如,文本中出現了“乳房”這個詞,但不能因此就把它過濾掉,還需要根據整篇文本的結構和語義來綜合分析其是否為色情類信息,否則會誤過濾掉醫學、性教育等健康信息。較早利用文本分析理解的方法進行不良信息過濾的研究有文獻[7],它提出一種基于簡單規則的過濾方法。該方法是人類專家根據大量知識總結出來的對確定性事件進行定性描述的規則和確定性的演繹推理來識別文本內容的方法。近年來互聯網迅速發展,各種良莠不齊的信息數量急劇膨脹,網絡信息安全問題日漸突出,社會和個人對信息的過濾需求日益強烈,國內外很多學者在基于網絡內容理解的不良信息過濾方面紛紛開展了研究,并取得了一定的成果。
1.1.1 文本內容的預處理
信息內容預處理的結果好壞是影響過濾精度的決定性因素之一。對文本內容進行數據預處理,主要包括將信息源中(通常是Web) 的無關文本信息的清除,如刪除描述網頁信息的標簽、腳本及非文本對象等,保留有用文本信息并將其描述特征(即字、詞和短語等文本單位)分離出來進行量化,然后將能反映或有助判別內容性質的顯性和隱性信息(即識別特征)提取出來, 使待過濾的內容能通過特征項有效表達。對于中文文本過濾來說,涉及到中文的分詞、語法語義分析等自然語言處理過程和停用詞處理、描述特征項維數約簡等文檔向量降維過程。與正常的Web頁不同的是,含有不良信息內容的網頁具有很多非內容的暗示性和隱性的特征。特別是近年,不良文本內容為躲避監控日漸呈現出表現多樣性、隱蔽性和多變性等特點,給Web文本內容,尤其是中文文本的數據預處理和特征提取算法進行不良文本信息過濾帶來了巨大的挑戰。傳統文本挖掘的方法很難有效提取出能表達文本性質的特征信息來對文本進行性質判別。
對于過濾系統無法對一些發生形式變化的詞條進行識別的問題,文獻[8]提出利用關聯分析的方法挖掘不良文檔中潛在的特征項,通過實驗驗證了該方法對特征詞條的識別具有較高的查全率和準確率。文獻[9]對色情網頁的頁面布局、因特網內容選擇平臺(PICS)等級評定應用、暗示性條文和文檔內容四個方面的特征進行了詳細的分析探討,并提出了相應的提取特征項的方法。文獻[10]對互聯網中表現多樣性和多變性的非法文本具有的內容結構和用詞形式兩方面的特征進行了研究分析,并提出對此類文本的預處理方法。該方法充分利用此類信息中詞出現的特征,在屬性預選取中,將標點符號作為潛在特征詞的觸發信息進行文本預選屬性集的提取,最后實驗驗證了該方法對增加合法文本與非法文本的區分度有較明顯的效果。文獻[11]對多語種不良網頁結構布局和暗示條文等進行了分析,并提出了相關的挖掘和處理隱性特征的方法及通過字符編碼方式的差異處理多語言混合不良內容。文獻[12]針對不良信息的特征變化導致預處理時不良信息匹配率低的問題,提出了在文本預處理階段的文本分詞時,首先考慮對不良信息敏感詞的形式進行識別,可以避免對文本直接進行分詞后造成不良信息特征值出現的概率降低的現象。該方法通過調整分詞后建立的特征向量值在很大程度上提高了不良信息的匹配率,并減少了傳統預處理方法造成的過濾方法失效等情況的發生。文獻[13]提出了一種先對變形文本進行預處理,然后通過建立的不良詞匯詞典,使用通用詞典匹配改進算法,對簡體中文、繁體中文、日文、英文甚至是任意語種的文本進行判定,并在文中實驗驗證了其提出的改進算法具有較好的有效性和魯棒性。
1.1.2 文本內容匹配算法模型
匹配算法的速度是決定信息過濾速度的主要因素之一,它通常由基本的過濾模型所決定。目前常用的基于文本內容理解的基本信息過濾模型主要有向量空間模型(VSM)[14~16]、貝葉斯(Bayse)決策模型[16~18]、神經網絡模型[11,19,20]、潛在語義索引模型(LSI)[21,22]、基于規則的模型[7,23~26]、支持向量機模型[27~29]等。
向量空間模型是基于統計的分類系統中廣泛采用的文本計算模型,它把文檔簡化為以特征項的權重為分量的一個高維向量表示,把文本信息過濾過程簡化為空間向量的運算,使得問題的復雜性大大降低。在進行信息過濾的過程中,首先對請求的頁面數據進行加工,將其看成是一個由m個特征項及其權值表示的向量D,然后比較向量D和不良信息模板向量P的相似程度sim(D,P)。設定過濾閾值ψ,當sim(D,P)≥ψ,則文檔向量D所對應的內容符合不良信息類別的判斷條件,應過濾掉。其最突出的特點是可以方便地計算出數據庫中不良文本向量和輸入文本向量的相似度,然后通過兩向量的相似性確定輸入文本是否過濾目標。該方法可以簡單地將文檔與模板的表示統一起來, 表示簡潔、計算簡單有效、可操作性好,使過濾系統的實現比較容易,因而在文本過濾中獲得了廣泛應用并取得了良好效果[30]。缺點是使用的語義和語法要素較少,特征項之間的互相獨立,不能區分特征項出現在不同位置對表達文檔主題性質能力的差異,不能保留文本結構信息,不能充分反映出文本總體面貌。而且,特征項權重難確定,文檔的相關度計算量大,影響過濾速度。
貝葉斯決策模型通常是利用簡單而有效的樸素貝葉斯理論建立模型的。基于樸素貝葉斯決策模型的過濾算法的基本思想是根據以往的判斷經驗估計某一文檔屬于相關文檔或無關文檔的概率。它將訓練實例S分解成特征向量X(X1,X2,X3,…,Xn)和決策類別變量C,并假定特征向量的各分量間相對于決策變量是相對獨立的。基于樸素貝葉斯決策模型在計算文檔所屬類別時,文檔屬于類別的概率等于文檔中每個特征項屬于類別的概率的綜合表達,最后根據各類別的概率的計算結果選擇概率最大的類別作為該文檔的類別。算法中將信息源的文檔分別分成正常信息和不良信息兩類(C1,C2),在檢測新文檔時,根據特征詞分詞,按下面的樸素貝葉斯公式計算該文檔X屬于正常信息(即C1)和不良信息(即C2)的概率:
p(Cj|X)=P(X|Cj)P(Cj)/P(X)=ni=1P(Xi|Cj)P(Cj)/P(X)(1)
使用貝葉斯決策模型來判定文本,能夠解決預處理算法對多語種兼容性問題,而且算法邏輯簡單、易于實現,過濾過程中時間空間開銷小、算法穩定、健壯性比較好。因此,貝葉斯決策模型在各種信息分類和過濾領域中得到了廣泛的應用,特別是在垃圾郵件過濾領域。但是,這種模型并沒有考慮特征項在文檔中出現的頻率(因為所有的權重都是二元的),而且特征項是建立在獨立性假設基礎上的,但獨立性假設在許多實際問題中并不成立,所以在實際的內容過濾任務,特別是在復雜內容的過濾時,常會引起判別的誤差。
神經網絡是從神經生理學和認知科學出發,并結合各種數學模型來實現它的功能的一種并行分布處理系統,具有高度并行計算能力、自學能力和容錯能力[30]。基于神經網絡模型的過濾技術旨在模仿人腦的神經系統結構與功能,把不良信息模板表示成一個人工神經網絡系統來反復訓練學習數據集,從待分析的數據集中發現用于預測和分類的模式信息以實現對信息的分類判斷和過濾。該算法的優點是具有很強的自學習功能和自適應能力,可以在較少人為干預的情況下實現自我更新和完善;但同樣具有算法復雜、容易受過度訓練的影響、不支持部分匹配、結果推理和產生過程不透明、訓練過程復雜且時間長、執行速度慢的缺點,因此,尚不符合實時過濾的要求[20]。
潛在語義索引模型過濾法是采用數學/統計方法可分析并推斷文本中的詞、段落和篇章之間存在的某種潛在語義結構的性質的算法模型。該方法利用文檔集中潛在的語義關系構造一個索引項文檔空間,相似主題的文檔在該空間中對應的位置點相距很近,可以通過對待過濾文本和過濾模板的向量及根據設定的閾值來進行信息過濾。該方法表達能力強,既保持了特征項與文檔之間的語義關系,又去除了因用語習慣和語言多義性問題對內容理解的影響,因而過濾精度較高[31]。但因采用潛在的語義結構,缺乏直觀意義,不便理解。此外,進行信息提取時,忽略了包含詞語之間更深層次的語義關聯信息的語法結構,也會影響對文本內容的理解能力;而且算法復雜、執行速度慢,隨著大量新詞的加入,會使概念空間上的查詢、過濾性能下降,所以實際應用不多。
基于規則的內容過濾技術一般是利用包含了各種約束條件的規則集作出決策進行過濾,它的本質上是一種確定性的演繹推理方法。其中,每一規則都能表示用戶的信息需求或信息過濾模型,根據這些規則及規律對需要過濾的文本進行匹配,并考慮上下文關系,以確定是通過還是濾掉該文本。過濾規則的定義和產生方式有多種方法可實現。文獻[7]根據領域專家知識人工定義過濾規則;文獻[23]利用規則演算的方法定義元符號、規則集、演算規則和組合規律;文獻[24]利用nary tree生成規則,并通過MCRDR(multiple classification rippledown rules)的增量式學習方法不斷增加和更新規則;文獻[25]提出一種利用粗糙集理論生成規則;文獻[26]提出一種基于雙層規則的不良文本過濾方法,它采用基于屬性權重的方法提取第一層分類規則,通過統計分析非法文本用詞特征定義第二層規則,最后通過權重函數將兩層規則綜合起來對文本主題性質進行判斷。總的來說基于規則的過濾模型實現簡單、相關理論和技術也較成熟,有些統計方法無法解決的問題,利用規則卻很容易解決;而且匹配無須太多計算時間,其決策制定的過程是可見的。但不足之處是,對新來的非結構化的信息,必須用系統的信息分析構件作必要的推導,而定義規則以及對非結構化數據進行推導都是很困難的;同時,在不確定性事件的描述、規則之間的相容性等方面存在一些缺陷和限制。而且,一般基于規則的過濾模型會隨著時間的增長,過濾器中包含的規則會逐漸過時[24]。
SVM算法是基于有序風險最小化歸納法的統計學習方法。其核心思想是使用簡單的線性分類器劃分樣本空間,通過在特征空間構建具有最大間隔的最佳超平面得到兩類主題之間的劃分準則,使期望風險的上界達到最小。對于在當前特征空間中線性不可分的模式,則使用一個核函數把樣本映射到一個高維空間中,并在新的空間完成點積運算,使得樣本能夠線性可分[32]。支持向量機在文本分類領域得到了比較成功的應用[32,33],具體過程如下[29]:a)根據訓練集生成向量空間;b)生成訓練集的特征向量; c)利用訓練集的特征向量進行訓練,產生決策函數; d)對來自網絡的文本內容向量化,生成該文本內容的特征向量;e)利用決策函數對該特征向量進行分類,根據分類結果進行不良信息過濾決策。基于支持向量機的過濾模型的優點是訓練樣本數量增減對分類器影響不大,可以通過有限的訓練樣本學習而獲得較好的分類效果,可有效克服不良信息過濾中樣本分布不平衡的問題;其主要缺點是計算量大、速度慢。
1.1.3 小結
文本內容數據預處理是信息過濾中的重要步驟,其結果將直接影響信息內容識別、分析和類別判定的質量。不良信息過濾獨具的信息特征隱蔽性等三個特點使得其過濾難度比一般信息過濾的數據(尤其是中文信息)預處理更艱難,質量更差。盡管國內外許多研究者在改進數據預處理效果上已做了許多出色的工作,但是越來越多的不法分子將不良信息表達得與性教育和醫療健康信息的區分界限更模糊,將不良文字信息通過圖片和符號的形式來表達,這些都給數據預處理帶來更大的挑戰。
當前常用的文本內容匹配算法模型表現形式各異、性能表現各有千秋,但都是某種形式上的淺層次概念匹配,而非深層次的語義匹配。系統難以理解文本的深層含義,因此對于相似文本區分效果有限,如有關性文化、性教育的內容與色情文本在關鍵詞方面非常相似,這將給識別和過濾帶來很大的誤差。潛在語義索引模型在理解文本語義方面表現出色,但也忽略了一些更深層次的語義關聯信息,同時因該算法復雜、執行速度慢等問題導致難以滿足實時過濾。此外,除人工神經網絡和基于規則過濾模型以外,當前常用的文本內容匹配算法模型都必須事先知道每一類的中心向量或者每個詞在每類中的幾率,比較適合于傳統的類別特征比較穩定的一般信息過濾。但因不良信息經常變動,很難找出一個穩定的中心向量,每個詞在不良信息中的幾率也很難預測,這將影響匹配算法模型的性能。同時采用這些方法的系統和基于規則的過濾系統一樣,獨立性很差,一旦決策系統改變,整個系統也必須隨之改變,增加了系統維護的難度。雖然人工神經網絡模型算法可以很好地避免這些缺點,但神經網絡也有執行太慢等問題使得其難以在實時過濾中應用。
總之,盡管文本內容理解分析法在信息過濾中已有不少應用,但總體上來說仍是相當粗糙的。由于不良信息及其文檔的特殊性、自然語言的復雜性和網絡信息跨語種、多媒體的特點,如果要實現較高的過濾正確率和較低的誤判率還有很長的路要走[34]。
1.2 圖像內容分析的過濾技術
圖像內容分析過濾技術是根據圖像的色彩、紋理、形狀和輪廓以及它們之間的空間關系等外觀特征和語義作為索引,通過圖像之間相似程度的匹配而進行的過濾技術[34,35]。當前,不良圖像信息過濾的研究主要以色情圖像過濾為主。早在1996年Fleck等人[36]就利用計算機視覺和圖像內容理解技術對色情圖片識別進行了研究,通過對圖片膚色分割和人體姿態的幾何特征檢測來判別圖片中是否含有色情成分。目前,圖像內容分析過濾技術的研究主要通過機器學習手段,從大量色情圖像樣本中發現出該類圖像在語義特征上呈現的規律,利用這些規律去分析判斷現實世界中的其他圖像[23]。因為圖像的內容非常豐富,目前的計算機視覺技術還不能很好地從大量色情圖像樣本中發現出該類圖像在語義特征上呈現的規律,尤其是全局視覺內容特征顯然無法表達圖像的語義,再加上圖像分割技術的不成熟,使得基于局部特征的視覺特征也不能很好地表達語義特征。所以,很難簡單地從圖像中抽取出可以區分不同類別圖像的有效特征,圖像過濾是一個比較困難的問題。
近年來,很多研究者迎難而上,對圖像內容分析過濾技術展開了研究,并取得了豐碩的成果[36~54]。但因圖像內容豐富而處理復雜等客觀因素的影響,基于內容理解的色情圖像過濾的準確率還不是很高。影響過濾系統性能的關鍵技術有[35]:a)用來描述問題的數學模型的建立;b)用來描述圖像內容的圖像特征的選擇和提取;c)基準特征庫的建立;d)刻畫圖像特征間相似程度的相似性測度的選擇;e)進行圖像特征檢索時應用的索引技術。
1.2.1 圖像內容的特征描述和識別技術
圖像內容特征的識別和提取是基于圖像內容過濾(CBIF)的最關鍵環節,也是長期以來CBIR (基于圖像內容的檢索)和CBIF領域的研究重點。目前,國內外對于基于圖像內容的不良圖像過濾技術的研究和應用的層次主要是采用基于視覺特征的識別方式,主要包括基于顏色特征的圖像識別、基于紋理特征的圖像識別、基于形狀和輪廓特征的圖像識別以及基于空間關系特征的圖像識別。
由于人主觀感覺的存在,使得對圖像語義特征的抽取包含了一定的非客觀因素,定義一個通用的圖像語義分割算法是非常難實現的。對此,人們提出了不同的算法來描述敏感圖像的視覺特征。其中,利用顏色和紋理特征進行識別起步較早,取得了一定的研究成果。Forsyth等人[37]認為人體可以被視為圓柱體的近似組合,提出了采用基于人體平面圖顏色與紋理的特征抽取技術來檢測人的裸體,算法主要由皮膚過濾器和人形分組器組成。其中,皮膚過濾器主要是根據皮膚區域無紋理且屬于一定顏色集合的特點,采用基于顏色與紋理的特征抽取技術來確定圖像中的皮膚區域;而人形分組器主要是在皮膚區域內尋找柱狀投影區,并將柱狀區按人體肢體分組、連接并識別。Wang等人[38]實現了基于小波的敏感圖像過濾系統,該系統結合Daubechies小波、歸一化中心矩和色彩直方圖來生成特征向量,用于敏感圖像和正常圖像的分類;Jones等人[39]對統計膚色模型進行了深入的研究,他們先從互聯網上采集了大量圖像作為訓練樣本從中提取膚色模型,最后以膚色為主要信息去檢測敏感圖像;Bosson等人[40]把檢測出的膚色區域作小橢圓塊處理,對每個橢圓都提取諸如面積、中心點、軸長、離心率等特征,并對這些特征進行分類。
針對以上經典的膚色和紋理特征描述及識別算法的過濾的準確率和誤判率不佳、過濾速度慢等問題,不少研究者在這些算法主要思想的基礎上進行了改進研究。Duan Lijuan等人[41]根據色情圖片在色度空間YUV和YIQ中分布具有一定特性,將基于YUV空間相位角和YIQ空間的I分量聯合的統計膚色模型與支持向量機分類器結合對色情圖像進行檢測過濾,改進了文獻[39]算法中分類器的不足,取得了較好的效果。Hammami等人[42]將色情圖像像素的描述和區分能力分別在RGB、HSV、YIQ、YCbCr、CMY等顏色空間中進行了對比測試,發現HSV的區分能力最強,于是將基于HSV顏色空間的膚色模型與人臉識別技術結合對Web的不良圖像和視頻進行過濾,取得了不錯的效果。徐欣欣等人[43]提出一種基于自適應小波不變矩的皮膚紋理檢測方法,首先利用統計顏色空間模型分割出疑似皮膚區域,再利用自適應小波不變矩具有平移和縮放不變性的優點,把它作為紋理描述符,與標準皮膚紋理進行比較,判定分割出來的區域是否是皮膚,最后以皮膚為主要信息去檢測敏感圖像,實驗結果表明,該方法具有較好的準確率和檢出率。趙曉暉等人[44]在基于傳統的膚色色度空間模型上提出了基于亮度的自適應色度空間模型膚色算法,該算法能夠根據膚色自動調整閾值,自適應性較強,實驗表明在誤檢率和檢測時間相對變化不大的情況下達到了較高的色情圖像識別準確率。
關于膚色和紋理特征外的其他特征的描述和識別技術研究也取得了一定的成果。許強等人[45]提出基于Daubechies小波與正則中心矩相結合的輪廓特征提取技術和基于多種特征檢索技術,結合信息反饋與知識輔助功能,從而克服了Forsyth系統準確性不高、實時性不強的缺點,實現了基于語義特征上的特征向量匹配,開發了一種具有一定自主適應性的基于圖像內容過濾的智能防火墻系統。臺灣國立成功大學的胡冠宇[46]提出了一種基于膚色、形狀和空間關系特征檢測人體特定部位的敏感圖像過濾器,該過濾器可以檢測到裸露人體的胸前部位和私處部位,這一檢測思想為敏感圖像過濾提供了新思路。楊金鋒等人[47]通過膚色濾波器來獲取圖像中的膚色信息,并引入非線性Gamma矯正方法以弱化光照影響,采用圖像區域分割、塊區域生長、點與區域的投票機制獲取圖像中感興趣的區域,然后在這些區域內勾畫出軀干的輪廓并獲取局部信息,實現了一種新型的網絡敏感圖像過濾系統。段立娟等人[48]提出了一種多特征特定類型圖像過濾方法。該方法首先對圖像進行膚色和紋理特征檢測;然后提取膚色占膚色矩形區域的比例、膚色色度矩及膚色區域的連通等特征的多個統計特征;最后采用決策樹分類器進行分類。與其他方法相比,該方法具有較高準確率和較快的過濾速度。王宇石等人[49]針對傳統淫穢圖像檢測方法主要以皮膚檢測結果為基礎,提取其顏色、紋理、形狀等低層特征進行判斷,在獲得高正確率的同時也導致了大量誤檢的問題,提出了從獲得更直觀和高層的語義知識著手對淫穢圖像中常見的局部形態或場景進行描述、建模。該方法首先檢測圖像中局部形態變化突出的位置,并建立關于該區域形態的SIFT描述向量。把這些描述向量抽象地看做視覺“單詞”,并收集淫穢圖像中常見的單詞,依據圖像中單詞出現的情況來檢測是否包含淫穢成分。
1.2.2 分類器模型
過濾系統提取出能描述和有助于反映圖像內容的性質的視覺和語義特征后,把這些特征作為分類向量,通過學習后的分類器對提取得到的特征向量進行分類,最終判斷該圖像是否為敏感圖像,從而實現過濾功能。所以,分類器模型和系統結構的設計也是過濾系統的重要部分。人們在這方面的研究也得到了一定成果,其中下列的研究較有代表性。Drimbrean等人[50]將一系列的方法串聯起來形成了一個層層過濾的敏感圖像識別系統。首先通過膚色模型觀察圖像中是否含有膚色,如果沒有,判斷為非敏感圖像;如果有,則接著判斷圖像中是否含人臉。對于含人臉的判斷為非敏感圖像,對于不含人臉的圖像進行身體各部位的識別。如果沒有含人體部位,則判斷其為非敏感圖像;如果有,則接著再采用姿勢的識別,若發現有淫穢的姿勢,則判斷其為敏感圖像。該方法通過層層排除的方式進行,過濾效果很好,但涉及技術較多,可實施性不強。段立娟等人[51]通過研究人類視覺對圖像的分析機理,提出了以膚色模型檢驗為基礎,運用SVM分類和最近鄰方法校驗等多分類器綜合處理的多層次特定類型圖像過濾法。Zeng Wei等人[52]設計了一個先提取簡單的關于皮膚區域形狀、顏色、紋理的一些特征,然后使用AdaBoost方法產生一系列決策樹作為分類器,最后綜合結果進行決策過濾的成人圖像監控系統,取得了不錯的過濾效果。Jeong等人[53]提出了一種基于膚色、紋理、形狀等多特征與人臉識別結合的過濾方法。該方法首先對圖像人臉檢測,如果沒有檢測到人臉則認為是正常健康的圖像,否則列為可疑對象;然后繼續對其進行膚色及紋理及形狀等特征分析;最后利用支持向量機分類器進行分類。王少鵬等人[54]針對傳統的圖像內容過濾算法和系統的檢測與過濾對象為包含大量內容信息的所有網頁中的圖像,導致過濾速度慢、準確性低等問題,提出了一種新穎的圖像內容過濾防火墻,將過濾對象定位于各個網頁中的標志圖片(logo)。針對logo進行圖像內容分析,綜合應用多種算法比較各個標志之間的相似度,由此來判定是否過濾網頁,該方法大大提高了系統過濾的速度。
1.2.3 小結
基于圖像內容的色情圖像過濾在近年得到了快速的發展,產生了一大批研究和應用成果。在如何識別色情圖像的問題上,學者們提出了各種各樣的方法和技術,但目前各種方法的主要圖像識別技術都是利用圖像的低層次語義特征進行相似性匹配,對圖像的描述不可能很精確,在特征提取上和選擇上也往往偏向某方面的特征,不夠全面,缺乏高層語義特征的識別和理解,難以把握圖像的整體特性和自然含義。因而,總體準確性不高和實時性不強是當前圖像內容過濾的普遍存在的問題。另外,現有的分類器一旦訓練結束后,就固定不變了,很難準確識別互聯網上的圖像來源不一、成像條件千差萬別、不斷出現的無窮的新樣本。
2 未來研究重點及展望
基于內容分析理解的不良信息過濾技術是一個新興研究領域,雖然已取得了很多突破性的進展,但很多理論和技術還不成熟。在文本內容分析理解方面,智能領域的自然語言理解技術在短期內還很難取得質的飛躍,而以文字形式表達不良信息依然是不良信息傳播的極重要的方式,因此在網絡內容安全領域中較為矚目的文本內容理解和過濾技術也進展緩慢,現有的一些技術都或多或少存在著缺陷和問題,運行效率和準確率都需要不斷提高。圖像比文本具有更豐富的信息,因而,不良圖像比不良文本的危害更大。而當前的圖像分析處理技術不高,基于物理表現的圖像低層次語義特征與基于人類概念認知的高層次語義特征之間還存在難以逾越的鴻溝,嚴重地制約著基于內容分析的圖像過濾技術發展,致使目前的不良圖像內容過濾技術整體存在過濾準確率低、誤過濾率高、運行效率低和魯棒性弱等問題。綜觀當前基于內容分析理解的不良信息過濾技術的發展狀況和缺陷,以及各種信息傳播的發展特點和趨勢,筆者認為需要進一步研究的重點和難點問題主要包括:
a)如何定義和規范不良信息的界限和過濾標準,杜絕“擦邊球”信息和“魚目混珠”的現象出現是首要解決的問題;
b)如何讓計算機準確識別經過復雜變形的隱蔽性和多變性的不良文本信息;
c)如何將自然語言的深層語義知識有效地應用于過濾模型中,達到對文本更高層次的語言理解;
d)如何提高圖像分析和處理技術,更有效地描述和提取圖像的內容特征信息;
e)如何縮小圖像底層物理特征與高層語義特征之間的鴻溝,對圖像進行高級語義的理解;
f)如何提高海量信息網絡中動態文本分析法和圖像識別技術的分辨能力和可靠性,使其能將色情信息與性教育和醫療健康等近似的信息正確地區分開,準確識別來源和形式各異、變化多端的網絡不良信息。
此外,隨著寬帶網絡的蓬勃發展和流式媒體的流行,基于內容的視頻過濾也已逐漸引起關注[53,55]。如何有效地識別和過濾不良視頻內容,將是網絡內容安全更新的更大挑戰。
3 結束語
互聯網的開放性、互連性以及使用的高自由性、信息來源的不可控性等,使得網絡內容安全對社會的潛在威脅和危害是不可估量的。如何有效地控制不良信息的傳播,從而營造健康的網絡環境,已成為社會的關注焦點,也是當今網絡內容安全技術中的一大熱門。本文以一種高級、有效和極具前景的過濾方法——基于內容理解的不良信息過濾的發展現狀研究為主,分析探討了基于內容分析的不良信息過濾技術的概念、特點、各主要算法和技術的原理及優缺點,并指出了當前基于內容的不良信息過濾技術存在的困難和發展趨勢。目前,國內外關于基于內容的不良信息過濾技術的介紹還不多,希望本文系統化的介紹和分析能夠對不良信息監控和管理工作提供有用的參考。
參考文獻:
[1]
Internet filter software reviews 2007[EB/OL].(20070420).http://internetfilterreview.toptenreviews.com/.
[2]中國互聯網絡信息中心(CNNIC)發布第18次中國互聯網絡發展狀況統計報告[EB/OL].(200607).http://tech.sina.com.cn/focus/cnnic18/.
[3]反黃軟件緣何難堵網絡黃流[EB/OL].(20060104).http://chinese.mediachina.net/index_news_view.jsp?id=80005.
[4]National Coalition for the Protection of Children Families.The effects of pornography and sexual messages[EB/OL].(20070410).http://www.nationalcoalition.org/effects.asp.
[5]宋華,戴一奇.一種用于內容過濾和檢測的快速多關鍵詞識別算法[J].計算機研究與發展,2004,41(6):940945.
[6]SU Guiyang,LI Jianhua,MA Yinghua,et al.Improving the precision of the keywordmatching pornographic text filtering method using a hybrid model[J].Journal of Zhejiang University Science,2004,5(9):11061113.
[7]POLLOCK S.A rulebased message filtering system[J].ACM Trans on Information Systems,1988,6(3):232254.
[8]李寶林,張翼英,蘭蕓.用關聯分析技術識別不良信息特征項的新方法[J].計算機工程與應用,2003,39(28):3941.
[9] 呂宏偉,唐小力,王申.網頁內容過濾技術中的特征提取[J].計算機工程與應用,2004,40(31):145146.
[10]張永奎,李東艷.互聯網中非法文本特征分析及其屬性預選取新方法[J].計算機應用,2004,24(4):113114.
[11]LEE P Y,HUI S C.An intelligent categorization engine for bilingual Web content filtering[J].IEEE Trans on Multimedia,2005,7(6):11831190.
[12]吳慧玲,耿西偉,沈建京,等.一種不良信息過濾的文本預處理方法研究[J].微計算機信息,2006,22(123):5860.
[13] 賴勇浩,謝贊福.防干擾的不良網頁過濾算法研究[J].計算機工程,2007,33(11):9899.
[14] 李強,李建華.基于向量空間模型的過濾不良文本方法[J].計算機工程,2006,32(10):45.
[15]曹毅,賀衛紅.基于向量空間模型的信息安全過濾系統[J].計算機工程與設計,2006,27(2):224227.
[16]張廣成,湯璐,李生紅,等.基于粗糙集理論色情信息過濾研究與實現[J].信息安全與通信保密,2006,3:6869.
[17]HO W H,WATTERS P A.Statistical and structural approaches to filtering Internet pornography[C] //Proc of IEEE International Confe-rence on Systems,Man and Cybernetics.2004:47924798.
[18]樊興華,孫茂松.一種高性能的兩類中文文本分類方法[J].計算機學報,2006,29(1):124131.
[19]LEE P Y,HUI SC,FONG A C M,et al.Neural networks for Web content filtering[J].IEEE Intelligent Systems,2002,17(5):4857.
[20]任家東,黃輝宇.基于人工神經網絡的有害信息過濾智能決策系統[J].計算機工程,2004,30(16):149150.
[21]FLOTZ P W. Using latent semantic indexing for information filtering[J].ACM SIGOIS Bulletin,1990,11(23):4047.
[22]李振星,陸大玨,任繼成,等.基于潛在語義索引的WEB信息預測采集過濾方法[J].計算機輔助設計與圖形學學報,2004,16(1):142147.
[23]滕少華,張巍,黎嘉喜.基于規則演算的不良信息文本過濾模型[J].計算機應用與軟件,2004,21(3):8385.
[24]CHURCHAROENKRUNG N,KIM Y S,KANG B H.Dynamic Web content filtering based on user’s knowledge[C]//Proc of Internatio-nal Conference on Information Technology:Coding and Computing,2005:184188.
[25]朱愛華.粗糙集理論在Web信息過濾中的應用研究[D].成都:四川大學,2005.
[26]李東艷,黃鵬鶴.基于雙層規則的內容安全過濾方法[J].大連交通大學學報,2007,28(3):6770.
[27]孫強,李建華,李生紅.基于一類分類法的不良信息過濾模型[J].上海交通大學學報,2005,39(12):19931996.
[28]KIM Y,NAM T.An efficient text filter for adult Web documents[C]//Proc of the 8th International Conference on Advanced Communication Technology.2006:2022.
[29]楊道勉.基于內容的網絡分析與網絡過濾技術研究[D].蘭州:西北師范大學,2006.
[30]何靜,劉海燕,張惠民.基于文本的內容過濾算法的比較[J].計算機工程,2002,28(11):910.
[31]THOMAS H.Probabilistic latent semantic indexing[C]//Proc of the 22nd ACM International Conference on Research and Development in Information Retrieval.New York:ACM Press,1999:5057.
[32]JOACHIMS T.Learning to classify text using support vetor machines:methods,theory,and algorithms[M].Norwell:Kluwer Academic Publisher,2002.
[33]JOACHIMS T.Text categorization with support vetor machines:lear-ning with many relevant features[C]//Proc of European Conference on Machine Learning.Berlin:SpringerVerlag,1998:137142.
[34]黃曉斌,邱眀輝.網絡信息過濾方法的比較研究[J].大學圖書館學報,2005,23(1):4248.
[35]董開坤,胡銘曾,方濱興.基于圖像內容過濾的防火墻技術綜述[J].通信學報,2003,24(1):8390.
[36]FLECK M M, FORSYTH D A, BREGLER C.Finding naked people[C]//Proc of the 4th European Conference on Computer Vision.London:SpringerVerlag,1996:593602.
[37]FORSYTH D A,FLECK M M.Identifying nude pictures[C]//Proc of the 3rd IEEE Workshop on Applications of Computer Vision.Wa-shington DC:IEEE Computer Society,1996:103108.
[38]WANG J Z,LI Jia,WIEDERHOLD G,et al.System for screening objectionable images[J].Computer Communications Journal,1998,21(15):13551360.
[39]JONES M J,REHG J M.Statistical color models with application to skin detection[C]//Proc of Computer Vision and Pattern Recognition.1999:274280.
[40]BOSSON A,CAWLEY G C,CHAN Y.Nonretrieval:blocking pornographic images[C]//Proc of International Conference on Image and Video Retrieval.Berlin:Springer,2002:5060.
[41]DUAN Lijuan,CUI Guoqin,GAO Wen,et al.Adult image detection method based on skin color model and support vector machine[C]//Proc of the 5th Asian Conference on Computer Vision.2002:797800.
[42]HAMMAMI M,TSISHKOU D,CHEN Liming.Adult content Web filtering and face detection using datamining based skincolor model[C]//Proc of IEEE International Conference on Multimedia and Expo.Piscataway:IEEE Press,2004:403406.
[43]徐欣欣,袁華. 一種基于自適應小波不變矩的色情圖像過濾方法[J]. 清華大學學報:自然科學版,2005,45(1):18781881.
[44]趙曉暉,張福威,申鉉京.基于亮度自適應色度空間模型膚色算法及應用[J].吉林大學學報:信息科學版,2006,24(1):6875.
[45]許強,江早,趙宏.基于圖像內容過濾的智能防火墻系統研究與實現[J].計算機研究與發展,2000,37(4):458464.
[46]胡冠宇.基于膚色之裸體影像偵測之研究[D].臺南:國立成功大學,2004.
[47]楊金鋒,傅周宇,譚鐵牛,等.一種新型的基于內容的圖像識別與過濾方法[J].通信學報,2004,25(7):93106.
[48]段立娟,包振山,毛國君. 多特征特定類型圖像過濾方法[J].北京工業大學學報,2005,31(4):352357.
[49]王宇石,李遠寧,高文.運用局部形態SIFT描述法過濾網絡淫穢圖像方法的研究[J].刑事技術,2007(2):911.
[50]DRIMBREAN A F,CORCORAN P M,CUIC M,et al.Image proces-sing techniques to detect and filter objectionable images based on skin tone and shape recognition[C]//Proc ofInternational Conference on Consumer Electronics.2001:278279.
[51]段立娟,崔國勤,高文,等.多層次特定類型圖像過濾方法[J].計算機輔助設計與圖形學學報,2002,14(5):404409.
[52]ZENG Wei,GAO Wen,ZHANG Tao,et al.Image guarder:an intelligent detector for adult images[C]//Proc of the 6th Asian Conference on Computer Vision.2004:198203.
[53]JEONG C,KIM J,HONG K.Appearancebased nude image detection[C]//Proc of the 17th International Conference on Pattern Recognition.Washington DC:IEEE Computer Society,2004:467470.
[54]王少鵬,孫敏.基于網頁標志的圖像內容過濾防火墻的研究[J].計算機工程與應用,2008,44(1):119122.
[55]蔡群,陸松年,楊樹堂.基于音視特征的不良視頻片段檢測方法[J].計算機工程,2007,33(22):240242.