999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種利用OCR技術進行互聯網涉密檢查的方法

2014-06-18 02:30:53陸春祥王偉
中國科技縱橫 2014年4期
關鍵詞:互聯網

陸春祥 王偉

【摘 要】 近年來,互聯網泄密事件逐漸增多,傳統人工檢查方法難以應對海量信息的合規審查,本文通過一種基于圖文識別OCR的方法,通過分布式部署互聯網檢查設備,可以快速發現互聯網違規發布的涉密文件,大幅提升互聯網涉密信息檢查能力。

【關鍵詞】 互聯網 海量信息 OCR

1 引言

近年來,在各級機關的保密檢查中發現通過互聯網違規發布涉密文件資料的案件逐年增多。其中涉密文件為圖片格式的案件比例呈現更加明顯的上升趨勢。相關人員通過截圖等形式,便可輕易的傳遞一些不合規的信息,而不被現有的設備檢查出來,致使互聯網信息管控存在嚴重的漏洞。

如何才能堵上這一傳播不合規信息的漏洞呢?依靠傳統的方法即采用人工查看的方式在互聯網上搜索到圖片格式的涉密文件,費時費力,無異于大海撈針。利用圖文識別技術,又稱為OCR(Optical Character Recognition,光學字符識別),則能夠較好地解決該問題。 OCR的原理主要是指利用各種識別算法分析圖像中包含的文字形態特征,判斷出文字的標準編碼,并按通用格式存儲在信息化設備中。

2 方法介紹

下面結合實例,對利用OCR技術進行互聯網涉密檢查的技術方案進行描述。場景為采用分布式部署實現互聯網檢查設備中對圖片中文字內容的審計。互聯網檢查設備由2臺設備組成,一臺負責對內部網絡連接到互聯網的數據流進行采集、分析和識別,并將采集的圖片文件,通過網絡發送給單獨部署的另一臺OCR服務器進行圖片檢查,以實現對圖片中文字的內容審計。

(1)互聯網檢查服務器(簡稱“檢測器”)。

互聯網檢查服務器負責對內部網絡連接到互聯網的數據流進行采集、分析和識別,并將采集到的圖片文件,發送給后端的互聯網檢查OCR服務器。

(2)互聯網檢查OCR服務器(簡稱“OCR服務器”)。

互聯網檢查OCR服務器負責接收前端互聯網檢查服務器傳送來的圖片,并使用其上的OCR組件解析出圖片上的文字信息。而后,對照用戶設定的關鍵詞策略,判斷該圖片是否含有不合規的信息。

(3)以下以BDOCR協議舉例說明互聯網檢查服務器與互聯網檢查OCR服務器之間的通信。1)BDOCR:指藍盾互聯網檢查設備中互聯網檢查服務器與互聯網檢查OCR服務器之間的TCP通信協議。2)前端互聯網檢查服務器負責從交換機抓取數據包,而后將采集到的圖片文件傳送給后端互聯網檢查1)OCR服務器,由其負責進行圖片所含文字部分的檢查。3)報文規格。BDOCR協議為TCP協議的載荷,協議包包含兩部分,頭部及BDOCR協議的載荷部分。

下面給出BDOCR協議包的封裝格式(如圖1):

各字段的含義如下:

版本:2字節,表示BDOCR協議版本。其中高8位為主版本號,低8位為次版本號。

流程ID:2字節,標示該BDOCR數據包的類型及具體的請求動作。其中:

關鍵詞策略下發報文: 0x01

圖片下發報文: 0x02

中標回復報文: 0x04

異常通報報文: 0x08

ID:4字節,事務標志,同一事務的所有通信包其ID保持一致。可以使用一個無符號整數表示,每構建一個事務,該值加1,保證在4G個包內其ID值是唯一的。

時間:4字節,構造、發送數據包時的時間,標示從1970年1月1日0時0分0秒至今的秒數

載荷長度:4字節,標示該BDOCR數據包載荷部分的數據長度。

載荷:根據報文類型具備不同的長度。

關鍵詞策略下發報文:由檢測器向OCR服務器下發關鍵詞策略。載荷內容如圖2所示:

策略ID:4個字節。各策略的ID互不相同,用于標示各策略。策略名長度:4個字節。標示策略名部分的數據長度。策略名:不定長。用于在界面上顯示策略,策略名也是唯一的。策略長度:4個字節。標示策略內容部分的數據長度。策略內容:不定長。用戶設定的關鍵詞策略,用于匹配信息(圖片所含文字部分)是否合規。

圖片下發報文:由檢測器向OCR服務器下發圖片文件。載荷內容如圖3所示:

圖片ID:4個字節。各圖片的ID互不相同,用于標示各圖片。圖片類型:4個字節。標示圖片的不同類型,如JPEG、BMP、TIFF、GIF、PNG等。文件長度:4個字節。標示圖片文件部分的數據長度。

圖片文件:不定長。需要進行內容檢查的圖片文件。

中標回復報文:當OCR服務器檢查發現有不合規的圖片文件,向檢測器回復中標信息。載荷內容如圖4所示:

圖片ID:4個字節。各圖片的ID互不相同,用于標示各圖片。中標策略數:4個字節。標示該圖片匹配到的策略個數。中標策略ID:4個字節。各策略的ID互不相同,用于標示各策略。

異常通報報文:當某設備本身發生異常,向另一臺設備通報自身異常。如設備發生多類異常,則都需一一進行通報。載荷內容如圖5所示:

異常ID:4個字節。用于標示各類異常。異常情況:4個字節。0x0000:標示設備已恢復正常;0x0001:標示設備發生異常。

3 結語

本文實現的互聯網檢查方法,除了可以監控一般的文字信息外,還可以對以圖片形式出現的文字內容進行檢查。可以快速發現互聯網違規發布的涉密文件,大幅提升互聯網涉密信息檢查能力。當然,這些方法只是治標之策,唯有增強相關人員保密意識,加強信息公開保密審查,實現辦公網絡與互聯網物理隔離等措施多管齊下,才能及時發現和有效防范互聯網泄密行為,保護國家秘密。

參考文獻

[1]蔣俊杰.身份識別與接入控制系統的研究與應用[J].信息與電腦(理論版),2010年12期.

[2]孫羽菲.低質量文本圖像OCR技術的研究[D].中國科學院研究生院(計算技術研究所),2005年.

[3]閻彩英.淺析電子政務外網互聯網出口的安全技術構架[J].中國信息界.2011年02期.

[4]劉海波,顧國昌,張國印.Internet信息涉密檢查系統的設計與實現[J].計算機工程與應用,2004年09期.endprint

猜你喜歡
互聯網
互聯網+背景下數學試驗課程的探究式教學改革
科技視界(2016年21期)2016-10-17 18:47:55
基于“互聯網+”的京東自營物流配送效率分析
科技視界(2016年21期)2016-10-17 18:37:15
互聯網+醫療保健網的設計
科技視界(2016年21期)2016-10-17 17:07:28
試論網絡大環境下音樂作品的法律保護問題
商(2016年27期)2016-10-17 06:43:49
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
淺析互聯網時代維基百科的生產模式
今傳媒(2016年9期)2016-10-15 22:51:03
“互聯網+”環境之下的著作權保護
今傳媒(2016年9期)2016-10-15 22:15:57
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
從“數據新聞”看當前互聯網新聞信息傳播生態
今傳媒(2016年9期)2016-10-15 22:06:04
互聯網背景下大學生創新創業訓練項目的實施
考試周刊(2016年79期)2016-10-13 23:23:28
主站蜘蛛池模板: 97国产成人无码精品久久久| 国产精品手机视频一区二区| 成人午夜在线播放| 国产色婷婷视频在线观看| 国产va在线观看免费| 精品欧美一区二区三区在线| 久久国产拍爱| 亚洲午夜国产片在线观看| 国产视频入口| 日本高清免费不卡视频| 国产日韩欧美成人| 视频二区亚洲精品| 真人高潮娇喘嗯啊在线观看| 欧美不卡视频在线| 97青青青国产在线播放| 老司机精品久久| 日韩欧美国产中文| 在线免费看黄的网站| 国产午夜福利亚洲第一| 亚洲日本中文综合在线| 国产成人综合在线视频| 日本在线视频免费| 一本综合久久| 久久久国产精品免费视频| 国产网站免费看| 亚洲中文字幕无码爆乳| 成人另类稀缺在线观看| 五月天丁香婷婷综合久久| 亚洲国产欧美中日韩成人综合视频| 久久无码免费束人妻| 成年A级毛片| 日韩天堂视频| 色色中文字幕| 黄色成年视频| аv天堂最新中文在线| 亚洲天堂自拍| 中文字幕第4页| 黄网站欧美内射| 亚洲精品福利网站| 91福利在线看| h网址在线观看| 亚洲人成网线在线播放va| 国产精品嫩草影院视频| 国产成人久视频免费| 亚洲精品手机在线| 蜜桃视频一区二区| 亚洲乱伦视频| 欧美在线一级片| 国产一区二区三区精品久久呦| 国产精品真实对白精彩久久| 日本不卡视频在线| 激情综合图区| 在线国产毛片| 国产成熟女人性满足视频| 日韩中文欧美| 制服丝袜国产精品| 2020国产在线视精品在| 国产精品精品视频| 色婷婷成人网| 91极品美女高潮叫床在线观看| 亚洲欧美另类中文字幕| 伊人久久综在合线亚洲2019| 日韩久草视频| 麻豆精品在线| 青草91视频免费观看| 四虎永久在线| 91av成人日本不卡三区| 六月婷婷精品视频在线观看| 国产精品偷伦视频免费观看国产 | 国产欧美精品一区aⅴ影院| 国产AV无码专区亚洲A∨毛片| a国产精品| 久久这里只有精品免费| 伊人成色综合网| 高清欧美性猛交XXXX黑人猛交| 国产va欧美va在线观看| 日本手机在线视频| 强奷白丝美女在线观看| 国产在线专区| 亚洲欧美另类色图| 六月婷婷激情综合| 久久天天躁夜夜躁狠狠|