文/趙旭
網絡時代信息技術飛速發展,各種各樣的信息資源呈指數級增長,文化傳播方式、社會經濟發展方式不斷發生改變。人們獲取信息越來越方便的同時有害信息也得到了新的載體與傳播方式,敏感信息不利于社會穩定與經濟發展,尤其是未成年人健康發展的阻礙不斷的引起人們的關注。敏感信息是指帶有敏感政治傾向(或反執政黨傾向)、暴力傾向、不健康色彩的信息,它就有社會危害性、隱秘性和廣泛性的特點。網絡信息形式多樣,敏感信息可以以文字、圖像、聲音等各種形式存在和傳播,如何有效的識別與過濾這些敏感信息具有非常重要的意義。
為構建一個安全健康的網絡環境,就要有效的識別并過濾掉敏感信息。敏感信息識別過濾技術有很多,如網絡內容分級、URL過濾技術、文本內容過濾技術、多媒體信息過濾技術等等。傳統的信息過濾方案如黑名單,關鍵詞匹配和代理服務器端過濾等,很少采取圖像識別分析來實現敏感信息的過濾。
比起文字類的敏感信息,圖片類的敏感信息相對更加難以識別與過濾,這也是目前網絡敏感信息過濾面臨的難題。現有的敏感圖像過濾方案大多工作原理類似,主要是通過利用瀏覽器的緩存機制,充分利用各種瀏覽器緩存到硬盤中的圖像進行比對分析計算,將包含有敏感信息的有害網頁地址加入黑名單,由此來實現網絡敏感信息的過濾。網絡敏感信息過濾技術的核心在于圖像過濾算法,如何辨別敏感圖像的突出特征并將這些突出特征提取出來是亟待解決的問題。
對于敏感圖像,最直觀和基本的特征就是大片的裸漏皮膚,因此膚色和圖像理特征可以用來鑒別圖像是否為敏感圖像。文章結合Daubeachies小波、歸一化中心矩和色彩直方圖生成特征向量,由此來實現敏感特征的提取,對敏感圖像與正常圖像進行分類。還有許多敏感圖像特征信息提取方案通過建立膚色模型來隊敏感圖像進行甄別。
在很多的敏感信息過濾方案中,會在識別到敏感信息后將該網站加入黑名單,但“不健康”圖像依舊會顯示并且緩存中會留有痕跡,用戶可以脫機瀏覽,楊金鋒等人通過瀏覽器模塊與圖像過濾模塊的協同工作實現了一種新型的給予內容的圖像識別與過濾方法,將實時過濾后的網頁顯示給用戶。2001年中科院計算所的段麗娟等人提出一種基于計算機視覺和模式識別的色情圖像過濾方法,通過研究人類視覺對圖像的分析機理, 提出綜合膚色模型檢驗、支持向量機(SVM) 分類和最近鄰方法校驗的多層次圖像處理框架。
近年來,對于基于圖像識別的敏感信息過濾技術已經得到了很好的發展,更多的敏感信息過濾技術也開始注意信息過濾的實時性,不斷有新的處理技術被提出,很多技術得到了實踐應用,目前比較得到認可的系統性軟件有“火眼金睛”、“網絡爸爸”、“美萍反黃專家”、“護花使者”、Image-Filter等。目前各種敏感圖像識別與信息過濾方法的檢出率與誤檢率并未達到理想狀態,依舊需要進一步的探索與討論。
基于圖像識別的網絡敏感信息過濾技術已經得到大量的研究投入,但存在很多問題依舊很難界定,需要不斷的努力,如準確性、時效性、可操作性等,在現實實現中,需要合理的權衡三者的比重以實現高檢出率與低誤檢率。
通過各類膚色模型或者各種人體姿態幾何特征的比對可以識別很大一部分,但是將被檢測圖像與事先收集的材料,即與典型敏感圖像及非敏感圖像比較的方案進行敏感圖像識別并不能覆蓋包含所有的敏感圖像,如何創建一個全面的數據庫集合值得進一步的研究。
現有的網絡信息過濾系統處理速度較慢,無法滿足網絡條件下大規模的圖片信息實時處理,這就使得網絡信息過濾時效性得到了挑戰,既要滿足敏感圖像識別過濾的準確性,又要實現識別過濾的高效率,這對基于圖像識別的網絡信息過濾算法的時間復雜度提出了嚴峻挑戰。
很多研究者將一系列的方法串聯起來形成逐層過濾的敏感圖像識別辦法,理論上十分嚴謹也具有很強的說服性,但是經常涉及太多的技術,同時對硬件要求很高,可實施性并不強。
信息時代帶來了許多便利,但也帶了了許多問題,如何甄別網絡信息中的敏感圖像實現網絡信息過濾是一個非常嚴肅的問題,為了肅清網絡垃圾,基于內容的圖像過濾技術適合時機的出現了。網絡信息過濾技術在文字類的信息過濾上已經接近成熟,但是在圖像類敏感信息識別與過濾上需要不斷的提升。
對于圖像過濾技術進一步的發展,必須要實現準確性、時效性、可操作性三者的有機結合,圖片庫、皮膚紋理識別等將會是將來著重研究發展的方向。通過各方面的研究與努力,網絡環境會越來越健康,帶給人們更加美好的體驗。