999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種互聯網內容安全檢測過濾系統

2008-12-31 00:00:00王勵成
計算機應用研究 2008年9期

摘 要:為了解決互聯網上內容安全問題,提出一種互聯網內容安全檢測系統。該系統包括四層,即網絡層、信息識別層、信息流過濾層和內容檢測層。網絡層中是互聯網上通過的文本信息、音頻信息以及圖像與視頻信息等。這一層網絡中的信息可以通過網絡抓包器來捕獲網絡數據包,并送給第二層信息識別層進行分類。信息識別層中主要是對從網絡上來的信息進行識別,分清楚它們是文本信息、音頻信息還是圖像及視頻信息。信息流過濾層主要任務是對信息識別層傳來的信息進行多特征融合判定。對有用的信息進行過濾,對信息的格式進行標準化等。內容檢測層是整個系統的核心部分。它的主要功能是通過模式匹配,檢測過濾層傳輸上來的信息中是否含有特定的內容。通過這四層的工作,可以檢測過濾互聯網上的內容信息。

關鍵詞:內容安全; 檢測過濾; 模式匹配; 串匹配技術

中圖分類號:TP393.08 文獻標志碼:A

文章編號:10013695(2008)09283402

Internet content information detection and filtration system

GU Yang1, LI Jian1, JING Bo1,2, WANG Licheng1

(1. Information Security Center, Beijing University of Posts Telecommunications, Beijing 100876, China; 2. Beijing Institute of AppliedMeteorology, Beijing 100029, China)

Abstract:In order to solve the problem of Internet content security, an Internet content information detection and filtration system was present. The system included four layers: network layer,information identification layer, information stream filtration layer and content detection layer. In the network layer, there were text information, audio information, image information and video information etc. The information in this layer could be captured by network sniffer, and then sent to the second layer. The second layer was information recognition layer, the function of this layer was to classify the information to text information,audio information, image information and video information etc. The third layer was information stream filter layer, the function of this layer was to fuse the information transferred form the nether layer by multicharacters, and filter the useful information, standardize the information format. The last layer was the core of the whole system. Its main function of this layer was to filter the information to find the special content information by pattern match algorithm.

Key words:content security; detection and filtration; pattern match; string match technology

Internet是全球信息共享的基礎設施,是一種開放和面向所有用戶的技術。它一方面要保證信息方便、快捷的共享;另一方面要防止垃圾信息的傳播。網絡內容分析是一種管理信息傳播的重要手段。它是網絡信息安全核心理論與關鍵技術研究網絡內容分析所涉及的新理論、新體系結構、新方法和新技術,是未來幾年內容安全研究的重要挑戰。

根據CNNIC在2007年1月的第19次中國互聯網絡發展狀況報告統計,中國網民總人數為13 700萬人。這其中僅有8.4%的網民對網絡內容的健康性非常滿意。也就是說有91.6%的中國網民(12 550萬人)都或多或少地對網絡內容的健康性不滿意[1]。

網絡內容傳播以一種實時、連續的數據流(data streams)方式進行[2]。它不宜用持久穩定的方式建模,而適宜用實時動態的方式建模。這類系統被稱為數據流管理系統。數據流管理技術具有非常廣泛的應用領域,如網絡內容安全、金融服務、電信數據管理等。在這些應用中,數據通常以大量、快速、持續的數據流形式到達。如何對這些數據進行有效處理將是一個具有挑戰性的問題。本文以互聯網內容安全為背景,提出一種互聯網內容安全檢測過濾系統。

1 相關研究方法

STREAM項目由美國NSF(國家自然科學基金)提供支持。其主要目標是研究一個通用的數據流管理系統,包括提供一個通用和靈活的體系結構、相關的理論結果和算法、數據模型、相關的語言和語義;探討多個連續、快速、可變的數據流的連續查詢處理、優化和資源分配問題;希望最后提供一個通用的數據流管理系統,使用戶可以用類似于SQL的語言來指定查詢。目前其在DSMS的體系結構、數據模型和語義、語言、資源分配和查詢優化等方面取得了部分成果,但是系統還沒有真正完成。

NIAGARA項目也是由美國國家自然科學基金支持的,主要研究目標是在Internet環境下的XML數據檢索和過濾系統。該系統從Internet上采集和監管信息,然后包裝為XML數據流供檢索和過濾使用。這樣利用XML的語義信息可以提供更加準確的數據流檢索和過濾。目前其研究目標主要集中在可擴展性和性能優化方面,主要技術是查詢分組和增量維護。但是在這個項目中,研究的數據僅僅限于XML數據,而沒有考慮互聯網上眾多的其他信息,如HTML、OWL、語音圖像內容等的過濾。

Berkeley的Telegraph項目的研究目標是對網絡監聽器的輸出數據流和Web數據流等提供自適應的查詢。目前其特色是數據流的自適應查詢處理,包括自適應連接和自適應操作調整。另外MIT和Brown大學的項目Aurora,目標也是對各種各樣的嵌入式設備產生的數據流進行監管和查詢。其研究的內容都沒有應用在互聯網上,并且也沒有對于音/視頻等信息進行檢測。

2 本文提出的系統

2.1 系統概述

本文提出的一種內容安全監測過濾系統,如圖1所示。整個系統中過濾的信息全部來自互聯網應用層的海量信息。該系統可以分為以下四層:

a)網絡層。此層是互聯網上通過的文本、音頻以及圖像與視頻信息等。這一層網絡中的信息可以通過網絡抓包器來捕獲網絡數據包,并送給第二層信息識別層進行分類。

b)信息識別層。在這一層主要是對從網絡上來的信息進行識別,分清楚它們是文本、音頻還是圖像與視頻信息。

c)信息流過濾層。這一層主要任務是對信息識別層傳來的信息進行多特征融合判定;對有用的信息進行過濾,對信息的格式進行標準化等。

d)內容檢測層。這一層是整個系統的核心部分。其主要功能是通過模式匹配[3],檢測過濾層傳輸上來的信息中是否含有特定的內容。

2.2 文本識別檢測

文本識別技術主要表現在文本實時過濾與文本深度處理技術兩方面。圖2為文本識別與處理子系統。

2.2.1 文本實時過濾技術

文本實時過濾最主要的技術就是字符串匹配[4],涉及以下主要內容:

a)復雜規則的匹配技術。由于過濾系統的功能不斷增強,基于關鍵詞匹配的簡單規則已經不能滿足需求,系統需要更復雜的規則支持更準確的判定和更快速的過濾[5]。復雜規則匹配有近似、邏輯表達式和正則表達式等,它們的支持力度不盡相同。在系統中,可以根據不同的應用場景采用不同的表達式匹配方法[6]。

(a)近似匹配中大部分都是基于動態規劃的。本系統中采用最經典的Sellers算法。Sellers算法是Sellers于1980年設計的近似匹配算法。動態規劃算法的時間復雜度為O(mn),但稍經修改便能適用于很多復雜的距離模型。

(b)邏輯表達式匹配是介于精確串匹配和正則表達式匹配之間的一種復雜規則匹配,它是在多個特征串之間增加“與”“或”“非”的邏輯關系以達到更強功能的過濾。使用帶條件的邏輯表達式匹配還可以解決定序、窗口中的復雜匹配等問題。

(c)正則表達式匹配的功能最強,相應的復雜度也最高。在本系統中采用由Thompson于1968年提出的正則表達式的匹配技術,通過構建NFA自動機來識別正則表達式。該算法空間開銷為O(m),掃描匹配時間復雜度為O(mn)。

b)大規模串匹配技術。本系統采用的是L. Salmema提出的方法,它基于模式串在文本中出現的概率較低的前提,將多個模式串合并為一個模式串,采用了位并行的方法進行匹配。算法僅在萬級規模下表現良好,但當命中率高時,其性能下降較快。

c)模糊匹配技術。模糊匹配是為了實現一些在已有特征串之上進行擴展的功能。這些擴展概括起來有字符組、限長空位、可選字符和重復字符。使用擴展匹配可以實現很多功能,如大小寫不敏感匹配、中文特征串的各種變形(拼音、拆分等)匹配、限定長度的通配符匹配等。擴展串匹配根據需求不同可以分別選擇邏輯表達式、正則表達式、近似串等技術來實現。

d)硬件串匹配技術。本系統采用N. Tuck的基于FPGA/ASIC的硬件串匹配技術,使用位圖壓縮和路徑壓縮兩種方法來節省存儲空間。

2.22 文本深度處理技術

就文本深度處理而言,本系統主要涉及文本結構化表示與文本內容的挖掘技術。

1)文本結構化表示 目前大多數網絡信息處理仍然采取傳統的基于關鍵字匹配和向量空間的信息處理技術[7,8]。由于對網絡信息缺乏深層理解,這種技術機械性太強,利用知識、分析推理的能力太弱,已經不能滿足Internet進一步發展的需求[9,10]。基于內容理解的網絡信息處理技術日益受到人們的重視。其中,語義Web是Internet 發展的重要趨勢。它具有復雜的層次結構,其核心動力來源于廣泛的統一和共享。本體在基于內容理解的網絡信息處理中扮演著核心的角色。按照Tim BernersLee 所設想的,基于機器可理解的數據和利用元數據的啟發信息,語義Web 能夠提供更多的自動化服務。本系統中,文本結構化表示采用語義Web中的OWL語言來表述。

2)面向海量文本信息的分類聚類技術 文本聚類是指將一堆未標記類別的文本按其內容相似性自動歸為若干組,使每一組內的文本盡可能相似,而組之間的文本盡可能不相似。本系統中的聚類方法包括五個步驟,即文本表示、特征選擇、相似性度量、聚類算法本身和聚類結果評價。

23 音頻識別

本系統中音頻識別模塊主要包括關鍵詞檢出、說話人識別、固定音頻匹配,如圖3所示是語音識別系統模型。

1)關鍵詞檢出技術 它指在連續無限制的自然語音流中識別出一組給定詞,是連續語音識別技術的一個分支。這里采用填充(filler)模板方法,主要研究filler模板建模和關鍵詞確認等。在filler模板建模上,采用一定數量的整詞集合來作為filler模板;在關鍵詞確認方面,采用基于后驗概率的方法。

2)說話人識別技術 語音過濾中采用的說話人識別技術主要是指與文本無關的說話人辨認技術。在這方面,本系統采用基于全互連HMM(ErgodicHMM)方法。

3)固定音頻匹配技術 這是將待分析的數據與一段已知音頻信息進行匹配,根據聲學上的相似性判斷待分析數據中是否包含已知音頻。本系統采用基于直方圖的快速搜索算法。

24 圖像與視頻識別檢測

針對圖像和視頻內容安全檢測,研究有效的多媒體特征提取和表示方法,主要包括文本、聽覺、視覺特征提取技術,重點研究視覺不變量特征提取技術、視覺關鍵詞表的建立及其表示、多特征融合;采用融合SIFT特征和不變矩特征,以不變矩取代SIFT梯度方向直方圖特征的方法,降低特征維數;采取視頻幀的主運動信息和圖像的有效幾何限制,加速特征匹配過程,進一步提高匹配算法的穩健性。圖4為圖像與視頻識別處理流程。

3 結束語

本文提出一種互聯網內容過濾檢測系統。該系統通過網絡層、信息識別層、信息流過濾層和內容檢測層的工作,可以有效檢測過濾互聯網上的內容信息。在以后的工作中,將對這四層內容技術進行進一步的研究開發,研究出一種實用的、高效的內容安全檢測系統工具。

參考文獻:

[1]CNNIC.中國互聯網絡發展狀況統計報告[EB/OL].(200701).http://www.cnnic.cn.

[2]CARNEY D, CETINTERNEL U, CHERNIACK M,et al. Monitoring streams: a new class ofDBMS applications,CS0201[R].[S.l.]:Department of Computer Science, Brown University,2002.

[3]KNUTH D E, MORRIS J H, PRATT V R. Fast pattern matching in strings[J]. SIAM Journal on Computing,1977,6(1):323350.

[4]NAVARRO G, RAFFINOTM. Flexible pattern matching in strings:practical online search algorithms for texts and biological sequences[M].Cambridge: Cambridge University Press, 2002.

[5]AHO A V,CORASICK M J. Efficient string matching:an aid to bibliographic search[J]. Communication of the ACM,1975,18(6):333340.

[6]WU S, MANBER U. Fast text searching allowing errors[J].Communications of the ACM,1992,35(10):8391.

[7]BABCOCK B, BABU S, DATAR M,et al. Models and issues in data stream systems[C]//Proc of ACM Symp on Principles of Database Systems (PODS 2002). 2002.

[8]BABCOCK B, DATAR M, MOTWANI R. Sampling from a moving window over streaming data[C]//Proc of Annual ACMSIAM Symp on Discrete Algorithms. 2002:633634.

[9]BABU S, WIDOM J. Continuous queries over data streams[M].[S.l.]:Sigmod Record, 2001.

[10]BOYER R S, MOORE J S. A fast string searching algorithm[J].Communications of the ACM,1977,20(10):762772.

主站蜘蛛池模板: 国产精品大白天新婚身材| 国产00高中生在线播放| 欧类av怡春院| 玖玖精品视频在线观看| 欧洲日本亚洲中文字幕| 久久先锋资源| 亚洲免费黄色网| 国产午夜人做人免费视频中文 | 99精品在线视频观看| 亚洲精品国产自在现线最新| 久久九九热视频| 国产精品福利尤物youwu| 国产91小视频在线观看| 亚洲爱婷婷色69堂| 亚洲中文字幕23页在线| 国产91成人| 亚洲成在人线av品善网好看| 有专无码视频| 国产丝袜丝视频在线观看| 日本免费一区视频| 午夜不卡福利| 亚洲成aⅴ人在线观看| 99在线视频免费| 久青草免费在线视频| 蜜臀AV在线播放| 激情爆乳一区二区| 国产精品区视频中文字幕| 国产91麻豆免费观看| 99er这里只有精品| 日韩高清中文字幕| 婷婷五月在线| 国产午夜福利在线小视频| 国产无码制服丝袜| 日韩无码视频网站| 一本色道久久88亚洲综合| 无遮挡一级毛片呦女视频| 五月天香蕉视频国产亚| 无码专区第一页| 嫩草国产在线| 91免费片| 8090成人午夜精品| 91精品最新国内在线播放| 国产精品成人观看视频国产| 美女潮喷出白浆在线观看视频| 欧美日韩精品在线播放| 特级毛片免费视频| 国产精品女主播| 黄片一区二区三区| 国产精品第页| 精品人妻无码区在线视频| 婷婷六月综合| 国产美女精品在线| 国产精品久线在线观看| 日韩av无码DVD| 2020亚洲精品无码| 国产91视频免费观看| 精品国产自| 欧美丝袜高跟鞋一区二区| 国产在线观看一区精品| 中文字幕无码av专区久久 | 欧美不卡视频一区发布| 免费va国产在线观看| 亚洲精品国产首次亮相| 国产无遮挡裸体免费视频| 国产永久在线观看| 好吊日免费视频| 99久久亚洲精品影院| 国产成人91精品| 色综合久久无码网| 国产乱子伦一区二区=| 色哟哟精品无码网站在线播放视频| www欧美在线观看| 国产伦精品一区二区三区视频优播 | 免费一级成人毛片| 青青青国产免费线在| 国产00高中生在线播放| 欧美精品一区在线看| 99久视频| 日本尹人综合香蕉在线观看| 日韩精品一区二区三区中文无码| 欧美国产精品不卡在线观看| 国产精品偷伦视频免费观看国产 |