【摘要】信息過濾作為解決網絡信息超載問題而發展起來的技術與方法,目前主要集中運用于不良信息過濾和獲取與用戶需求密切相關的信息。本文對信息過濾技術的分類及應用進行了研究探討。
【關鍵詞】信息過濾;技術;應用
信息過濾(information filtering,IF)作為解決網絡信息超載問題而發展起來的技術與方法,最初運用于新聞和電子郵件過濾,后來被用于各類信息源過濾。目前國內外關于信息過濾的研究主要集中在兩個方面:一是不良信息過濾,主要目的在于維護網絡信息的健康,凈化網絡環境;二是獲取相關信息過濾,過濾掉無用或不相關的信息,主要目的在于獲取與用戶需求密切相關的信息。
本文著重探討網上不良信息的過濾,不良信息是一個主觀的、相對的概念,同一信息相對于不同的用戶、不同的監管者和不同的環境條件來說,可能會有不同的定位。我國自1996年以來,已經制定了20多個涉及互聯網非法內容的法律文件。一般情況下,凡是違背社會主義精神文明建設要求,違背中華民族優良文化傳統與習慣,以及其他違背社會公德的各類文字、圖片、音視頻信息都可視為不良信息。
1.信息過濾技術的分類
目前國內外的各種不良信息過濾軟件或系統,在網頁信息鑒別上主要使用四種過濾技術,即基于因特網內容分級平臺過濾(PICS)、數據庫過濾(IP庫、URL庫)、關鍵詞過濾以及基于內容理解的過濾。
1.1基于因特網內容分級平臺過濾(PICS)
為了保護用戶免受網絡不良信息的侵擾, W3C(World Wide Web Consortium)于1995年8月組織當時因特網上的主導力量共同商討制定一套技術規范,即因特網內容分級平臺( platform for Internet content selection,簡稱PICS),它是一種分級過濾軟件標準,為網上信息內容的標記、分級提供一個平臺,使用戶或組織能夠根據各自認同的分級體系對網絡內容進行分級,分級體系(rating system)規定了分級的類目、類目的級別和分級的標準。
分級得到被稱為分級標記(content rating)的數據集,分級標記產生以后,凡是遵循PICS技術規范開發的軟件都可以對其進行處理。用戶可以通過分級標記了解到分級機構和分級體系的情況,從而在使用時下載合適的過濾系統分級檔案,并在瀏覽器中設置不同的向度,在瀏覽網頁時,瀏覽器會依據用戶設定的向度級別篩選出合適的信息。
利用網頁內容分級法,采取人工分級方法過濾不良信息,其錯誤率相對較低,并可以準確地對圖像、視頻等多媒體信息進行準確分級,尤其是網頁作者能主動采用標準的分級體系分級時,將對過濾不良信息、凈化網絡環境有較大的推動作用。但這與網頁作者希望更多的人瀏覽其網頁的初衷是相違背的,如果網頁作者是惡意地傳播不良信息的話,用戶對其是無法控制的。
1.2數據庫過濾
數據庫過濾就是通過對網上各種信息進行分類后,精確地匹配URL和與之對應的頁面內容,形成一個預分類的網址庫。網址庫有兩種類型的列表,一種為“黑名單”,包括禁止訪問的目標網站的URL,另一個是“白名單”,包括允許訪問的目標網站的URL。在用戶訪問網頁時,依據數據庫中的IP地址或URL來判定是否需要過濾掉相應的內容。數據庫必須依賴事先列出的特定網址,對非法URL的覆蓋程度不高,此外這種方法對許多寄生在綜合性網站內的不良信息也無法過濾。但數據庫過濾的過濾速度快,準確率比較高,且經過系統的不斷訓練反饋,通過一定時間一定規模的積累之后,禁用地址數據庫將動態地修改完善,在一定程度上可以滿足用戶要求。
1.3基于關鍵詞的過濾
基于關鍵詞的過濾原理簡單,就是給定一系列描述文檔特征的關鍵字或索引詞,或者時間、作者姓名等個性信息。在過濾過程中,它以數據流中是否包含關鍵詞或衡量與關鍵詞的相似度,判斷是否要過濾掉該頁面。這種方法的性能取決于是否建立精確完備的禁用關鍵詞庫,它過濾速度快,但往往不考慮上下文的關聯性,漏報、錯報率較高,而且有些信息內容的發布者可能有意避開使用這些詞,用其他的詞或圖片替代,使得基于關鍵詞的信息過濾機制不能識別。
1.4基于內容理解的過濾
基于內容理解的過濾是指對獲取的網絡信息內容進行識別、判斷、分類,確定其是否為需要過濾的目標內容,并對已確定的目標內容進行過濾等檢測控制的技術。它是根據不良信息的一些內容所呈現的特征來進行判斷的一種識別過濾方法。基于內容理解的過濾技術具有適應性強、精度高等特點,能有效地解決基于數據庫和關鍵詞的過濾技術不能處理好的問題,包括文本內容理解過濾、圖像內容分析過濾、視頻內容分析過濾和智能混合過濾等。
1.5其他過濾策略
基于提高過濾不良信息的整體性能和運行速度考慮,分級匹配過濾的策略也被提出來。第一級過濾是基于查詢關鍵詞的過濾和基于數據庫的過濾,這兩種過濾方式過濾速度快,可以快速剔除一部分不良信息,緩解了系統壓力。第二級過濾是基于內容理解的過濾,是主要的過濾環節。兩種過濾方式的有機結合,在一定程度上提高了過濾的效率和準確率。
2.信息過濾技術的應用
通過在服務器端或是計算機終端安裝過濾產品,信息過濾技術已經被廣泛地應用于網絡環境的凈化。公安、安全網絡監察部門廣泛采用各種信息過濾產品,實現對互聯網接入單位網絡出口的信息審計管理。教育部、財政部、工業和信息化部、國務院新聞辦2009年4月下發通知,為各中小學校聯網的計算機終端免費提供綠色上網過濾軟件,以凈化校園網絡環境。中國電信、中國網通等運營商也陸續在全國各地推出綠色上網業務,為用戶提供不良信息過濾服務,這些舉措都可以為部隊網絡管理部門所借鑒。
目前,經過公安部審核頒發銷售許可證的硬件或軟件的信息過濾產品已達30余種,可以實現IP過濾、自動收集、識別網上的各種信息,具有智能化地提取摘要和關鍵詞、建立索引、提供查詢和對不良信息的報警等功能。基于中間服務器過濾的網絡安全管理系統或網關型產品,對于部隊網絡管理部門來說是一個良好的選擇,所有的信息都要經過它的過濾才能進出內網,可以對不良信息進行有效控制,實現把內網安全管理由被動防護轉變為主動檢測,根據用戶工作性質設置管理策略,對用戶網上行為進行監管、審計、追蹤等,能夠有效提高網絡信息管理水平。
依靠專門的網絡信息過濾產品,在隔離不良信息方面雖然能起到明顯的作用,但任何一種過濾策略不可能剔除網上所有的不良信息。創建良好的網絡環境,引導和督促使用者養成良好的上網習慣,加強對上網行為的嚴格管理是關鍵。在現實生活中,管理者往往只關注系統是否完備、應用是否通暢,以及設備的檢修維護等,卻忽視了對上網人員的行為管理和教育。
上網行為管理,又稱網絡行為管理,就是對上網人員在網上進行的各種個人或社會活動,進行合理的、規范的管理。近幾年來,上網行為管理已經引起各國政府的關注,上網行為管理產品也逐漸形成了獨立的系統。這些產品以網絡行為記錄和控制為主要手段,可以對BBS發帖內容等進行關鍵詞過濾,并對此類行為自動記錄;對流量進行控制,保障重要用戶和核心用戶的帶寬;進行網絡行為客觀評估,形成詳盡的網絡流量日志、郵件日志、網絡監控日志等統計報表,并向管理者報告;對不規范網絡行為進行阻斷,實現帶寬資源的合理利用,保障健康網絡文化的傳播。上網行為管理支持網關模式、網橋模式等多種方式,由用戶根據需要自由選擇,與各種網絡安全軟件和防病毒、防入侵技術相互補充,為各個內部網絡安全建設和管理提供幫助。在平時的管理工作中,準確把握不良信息傳播的動向,及時采取有效的過濾處理技術,堵住不良信息來源路徑,切斷傳播渠道,并教育和引導用戶增強識別不良信息的判斷力、抵抗力,有效防止和控制不良信息侵入內部網絡。