999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網絡有害信息的發現機制研究綜述

2010-08-15 00:42:56林向陽
網絡安全技術與應用 2010年1期
關鍵詞:文本信息

林向陽

中國移動通信集團福建有限公司福州分公司支撐中心 福建 350001

0 引言

互聯網的快速發展使得人們可以很方便的獲得各種信息,與此同時,抵御互聯網上的反動、淫穢或色情等有害信息的思想文化滲透成了一個迫切需要解決的問題。如何監管和控制這些有害信息,使之不會對互聯網和國家社會造成危害,是一個頗具研究價值的課題。

互聯網上主要有兩類有害信息:一類是反動、色情、迷信、謾罵和機密等有礙社會公德和不便公開的信息;另一類是會影響互聯網本身和用戶計算機安全的不良代碼,如特殊控制、計算機病毒等。

1 網絡有害信息的發現研究

網絡有害信息的發現機制主要有主動發現和被動防御兩種方式。主動發現的方式主要有基于搜索引擎的有害信息主動監測,被動防御的方式以網絡內容過濾為主。

1.1 基于搜索引擎的有害信息主動監測技術

采用主動掃描探測方法進行有害信息監控的系統,首先要設計網絡蜘蛛模塊,實現對html、asp、php和jsp等網頁的自動抓取,采用算法實現中文分詞,開發信息索引模塊,實現對網頁的批量和增量索引,并且包含有害信息檢索模塊,實現有害信息監控及預警功能。

搜索引擎,概括起來其組成大致分為四個部分:

(1)搜索器。主要完成互聯網上獲取網頁和鏈接結構信息進行分析處理;

(2)索引器。理解搜索器所搜索的信息,從中抽取出索引項,用于表示文檔以及生成文檔庫的索引表,為用戶檢索奠定基礎。索引器可以使用集中式索引算法或分布式索引算法 ;

(3)檢索器。用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,并實現某種用戶相關性反饋機制;

(4)用戶接口。主要作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制。主要目的是方便用戶使用搜索引擎,高效率和多方式地從搜索引擎中得到有效并且及時的信息。

1.2 內容過濾技術

內容過濾技術一般包括名單過濾技術、關鍵詞過濾技術、圖像過濾技術、模版過濾技術和智能過濾技術等。

現階段的內容過濾技術主要分為基于網關和基于代理兩種,二者都不能解決的問題是對網絡速度的負面影響。而且因為是串行處理,如果網關和代理出現故障都會使網絡不通。

目前過濾技術大多在網絡處理的應用層實現,適應性和安全性較差。基于網絡層的實現,最大的挑戰有兩個方面:首先,應用層分析技術必須全面, 因為直接對網絡包進行應用層分析,需要充分了解需要過濾的所有應用在網絡層是如何實現的。其次,是實現兼容性,為實現與操作系統網絡底層處理融合,需要充分了解操作系統網絡實現機制,甚至替代部分功能,如何不影響操作系統的原有功能是相當困難的,特別是在Windows環境缺乏底層資料的情況下。

1.3 有害信息監測的核心技術

有害信息監測的核心技術包括分詞技術、文本內容分類、關鍵字識別、變形關鍵字識別、錨文本分析、有害代碼特征識別等。

1.3.1 分詞技術

對網頁進行監測時需要進行特征項的提取。對于英文文本,一般是進行詞匯的提取, 由于詞匯之間有天然的分隔符(空格),所以特征項的提取比較容易。中文信息沒有這個特點,所以必須采用中文分詞技術,把沒有詞匯標示的中文句子,通過某種特殊的技術切分出詞匯。現有的分詞算法可分為三大類 :基于字符串匹配的分詞方法(機械分詞方法)、基于理解的分詞方法和基于統計的分詞方法。基于字符串匹配的分詞方法也稱為基于詞典的分詞方法是目前三種分詞方法中最快的。影響這種方法分詞速度的因素主要有兩點:詞典的結構以及匹配算法。

1.3.2 文本內容分類

文本內容分類是一個廣泛研究的課題,它的任務是把一篇文章分類到一些預定義的類型中。在對網頁進行監測時可以通過文本分類的方法,把網頁分為有害信息網頁和普通信息網頁。現有的文本分類方法有支持向量機(SVM)、決策樹、Nearest neighbor、algorithm等。這些訓練過程的基本思路都是從文章中抽取出一些特征關鍵詞,根據這些關鍵詞在文章中的出現次數對文章進行向量化之后進行訓練。

1.3.3 關鍵字識別

1.3.4 變形關鍵字識別

為了逃避過濾,不法分子會故意將留言中的關鍵字進行適當變形后進行提交。關鍵字常用的變形方法有同音字法、拼音法、字詞顛倒法、字詞間加其它字符串、以及多種變形混用法等。

由于關鍵字特征被完全打亂,基本上找不到可以匹配的關鍵字。因此首先根據關鍵詞識別的情況,就可以判斷出屬于此類問題。然后只要采用矩陣的轉秩算法就可以將這段文字恢復回正常的順序,最后再進行過濾。

1.3.5 錨文本分析

每一個超級鏈接都有一個描述文本即錨文本,這個文本反映了該網頁與該鏈接所至網頁的某種關系,是互聯的關鍵所在。通過分析這個描述文本,就可以得到網頁之間重要的關系。導向詞是一組關鍵詞,它們會引導搜索器按照一定順序搜索網絡。通過設置導向詞以及對應的權值,錨文本中含有導向詞的網頁會被優先進行信息采集。權值的設定有根據經驗手工設定和采用程序進行特征提取兩種方法。

1.3.6 有害代碼特征識別

網絡上除了有礙社會公德的有害信息外,還存在影響互聯網本身和用戶計算機安全的不良代碼,如特殊控制、計算機病毒等。計算機病毒等可以通過各類防火墻的殺毒模塊進行查殺,而在網絡論壇上可以通過BBS提交的惡意代碼,則是網絡過濾的重點。

基于瀏覽器的BBS不僅能發表文字信息,而且還能在信息中加入超文本代碼。如果這些超文本代碼含有有害指令,輕則會使用戶顯示異常,重則會傳播病毒,甚至會在客戶機上安裝木馬程序等。因此需要過濾掉發言信息中有害的代碼。

(1)可執行代碼的過濾

2.5 兩組手術前后CSI及BSI比較 術前,兩組CSI及BSI比較,差異無統計學意義(P>0.05);術后,兩組CSI及BSI均下降,組間比較差異無統計學意義(P>0.05)。見表5。

HTML是一種標記語言,即在普通文本中插入一些標記(Tag)來控制文本的顯示屬性。通常HTML本身不具有執行程序的功能,但HTML支持插入功能各異的ActiveX控件,如一般的客戶端瀏覽器就支持非常流行的VbScript腳本語言和Java.Script腳本語言。為使調用Script腳本語言的代碼失效,可以用“<”代替“<”。因為“<”是“<”的轉定義字符,瀏覽器在解釋“<”時會把它當作“<”來處理,但它這時不會把“<”作控制符看,而只是把它當作顯示字符。為避免大小寫混寫的“<Script>”查不出來,可使用Lcase()函數先把字符串變成小寫再查,這樣就限制了“<Script>”后面的腳本程序的執行,同時將代碼顯示出來。

(2)貼圖代碼的過濾

在BBS中,文字可使用過濾的方法進行處理,圖像信息和視頻信息目前卻無好的解決辦法。通常的做法是在BBS中禁用貼圖和加視頻流的代碼。在HTML中,除了正常的貼圖指令<IMG SRC=“…”>以外,還有很多可以貼圖的非正規指令,也必須一一找出來加以過濾。

(3)其它代碼的過濾

除上述代碼外,還有一些代碼如果出現在BBS中,也有可能造成危害,因而需要在過濾程序中將這些代碼過濾掉,如包含頁代碼<IFRAME></IFRAME>,可以在頁面中插入任何其它頁面;自動跳轉頁面代碼<meta http-equiv=“refresh”content=“3;url=http://……/newpage.htm”>可以將頁面從當前頁跳轉到任何頁面。如果包含頁或跳轉頁面含有有害信息,則客戶機同樣將受到危害。因此這兩條指令也是需要過濾掉的。一般來說,在BBS中需要過濾掉的代碼有<img,background,<embed,<input,<iframe,<object,<applet,<script,<meta等。

2 結論

網絡有害信息的發現和處置方面還有很多研究工作要做,以下幾方面值得考慮:

(1)為提高信息查找的準確性,還需要進一步研究采用語法和語義分析,自然語言理解等技術;為了提高信息獲取的效率,更好的適應網上各種機器環境,還需要進一步研究采用分布式的多智能體系統協同工作。

(2)現有的面向互聯網上的智能檢測還不能令人滿意地解決中文信息的查詢問題,還有必要在漢語分詞、漢語的信息提取和理解等方面進行研究,以期獲得更為理想的監控過濾效果。

(3)內容過濾技術最終的發展方向必然是實時、準確、智能地進行內容分類。中文的詞義/語義分析和圖形的識別需要進一步研究和實用化。

(4)基于高層協議解析的入侵檢測是未來的入侵檢測技術方向。

(5)由于HTML語言特點,使得Web信息的組織結構性很差,如何利用XML語言更有效地實現對Web有害信息的挖掘,是值得研究的方向。

未來的研究需要把網絡有害信息的發現與各類網絡安全技術結合起來,創造出更加安全、更加干凈的互聯網絡環境。

[1] 王艷華.一種基于人工神經網絡的有害信息實時動態監測系統模型及其實現.燕山大學學報.2004.

[2] 張曉梅,蘇斌,王竹林,楊柳.基于搜索引擎的有害信息監控系統的設計與實現.鐵路計算機應用.2007.

[3] 黃東平,田芳.BBS信息過濾技術研究.長江大學學報(自然科學版).2004.

[4] 劉宗仁.網上內容過濾技術的現狀及面臨的問題.現代情報.2005.

[5] 唐文榮.網絡有害信息識別和控制技術.西安交通大學碩士學位論文.2003.

[6] 宋治國.數據挖掘在Internet有害信息過濾中的應用.山東師范大學碩士學位論文.2006.

[7] 馬驪.基于搜索引擎技術的警情信息搜集系統的研究與實現.山東大學碩士學位論文.2006.

猜你喜歡
文本信息
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产真实乱人视频| 二级毛片免费观看全程| 国产人妖视频一区在线观看| 日韩第一页在线| 国内精品视频在线| 在线国产毛片| 午夜影院a级片| 午夜啪啪福利| 亚洲AV无码一区二区三区牲色| 在线观看亚洲人成网站| 国模在线视频一区二区三区| 伊人色在线视频| 一级毛片在线免费视频| 精品国产一区91在线| 亚洲精品在线影院| 久久精品国产精品国产一区| 国产中文一区a级毛片视频| 丝袜亚洲综合| 99久视频| 四虎国产在线观看| 无码电影在线观看| 成年人久久黄色网站| 波多野结衣的av一区二区三区| 亚洲av日韩av制服丝袜| 国产成人久久777777| 国产精品成人观看视频国产 | 在线观看亚洲精品福利片| 欧美国产日韩一区二区三区精品影视| 乱人伦视频中文字幕在线| 亚洲免费毛片| 五月天婷婷网亚洲综合在线| 欧美日韩中文国产| 91小视频在线观看免费版高清| 国产成人一级| 日本欧美在线观看| 午夜国产精品视频| 中字无码精油按摩中出视频| 久久男人资源站| 成年午夜精品久久精品| 欧美午夜视频在线| 亚洲va欧美va国产综合下载| 国产乱子伦一区二区=| 亚洲精品国产精品乱码不卞| 亚洲品质国产精品无码| 亚洲中文字幕无码爆乳| 婷婷六月综合网| 亚洲第一精品福利| 亚洲AV无码一区二区三区牲色| 久久精品国产在热久久2019 | 免费中文字幕一级毛片| 网久久综合| 欧美亚洲国产视频| 欧美日韩亚洲综合在线观看| 欧美精品v欧洲精品| 18禁黄无遮挡免费动漫网站| 欧美视频在线观看第一页| 99视频在线免费观看| 黄色一及毛片| 亚洲国产精品VA在线看黑人| 手机在线看片不卡中文字幕| 亚洲无限乱码一二三四区| 天堂成人在线| 欧美一级特黄aaaaaa在线看片| 综合天天色| 思思热精品在线8| 久久久久久午夜精品| 欧美一区二区福利视频| 久久久久国产精品免费免费不卡| 色综合天天综合中文网| 久操中文在线| 欧美亚洲第一页| 在线国产毛片手机小视频 | 国产福利免费在线观看| 一边摸一边做爽的视频17国产| 久久男人资源站| 久久这里只有精品国产99| 国产真实自在自线免费精品| 国产高清在线观看91精品| 先锋资源久久| 国产欧美另类| 91偷拍一区| 亚洲aaa视频|