999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向航天專網的敏感內容審查系統構建淺析

2020-12-23 08:19:54北京空間機電研究所劉麗玲范慧莉趙青青閆順琪孫麒劉啟賢
網信軍民融合 2020年8期
關鍵詞:文本內容系統

◎北京空間機電研究所 劉麗玲 范慧莉 趙青青 閆順琪 孫麒 劉啟賢

隨著網絡化、智能化技術的飛速發展,航天企業的信息化、辦公自動化水平顯著提升,與此同時,也給國家涉密信息的安全防護工作帶來了新的挑戰。在保密管理工作中敏感內容輸出檢查是一個重要的環節。目前,大部分航天企業對專網用戶日常處理的信息進行監督和檢查時,還只是通過對保密安全系統的入口進行監督和審計。近些年,為適應運營業務需要,航天企業建立了多種保密安全系統,由于系統入口數量多,各系統審計的顆粒度、審計標準不統一,給涉密信息內容的檢查帶來了諸多問題,因此構建面向航天專網的敏感內容審查系統,改進檢查方法手段,加強對日常工作中傳播文件敏感信息的識別與控制,在航天企業保密安全管理工作中顯得尤為重要。

面向航天專網的敏感內容審查系統需要實現以下三方面的目標功能:

1、根據統一的敏感信息篩查規則,對所有客戶端的打印內容進行自動檢查,審計高密級文檔按低密級打印等違規行為。

2、根據統一的敏感信息篩查規則,對所有客戶端的刻錄內容進行自動審查,審計高密級文檔按低密級刻錄等違規行為。

3、對定制化的敏感信息防護要求,能夠對待檢查的文件內容進行全文檢索審查。

一、解決方案

設計面向所有應用系統的統一的接口協議,敏感內容審查系統通過調用統一的接口可以收集郵件系統、導入導出系統、打印系統等第三方系統的數據,基于數據解析技術、OCR識別技術,進行文本內容提取。利用全文檢索技術,根據預先定義的敏感內容審查規則對數據進行深度的內容審查,通過上述的主要功能,構建一套集安全、可控、高效于一體的保密審查管理體系。

圖1 內容審查管理系統架構圖

敏感內容審查系統架構圖如圖1所示。

(一)審查內容同步

借助統一的接口協議,利用OCR內容識別提取技術、數據傳輸技術來自動同步郵件、導入導出、打印等辦公應用系統的任務日志和任務內容文件,將同步的數據通過數據解析技術進行文字解析提取后保存在數據庫中,用于后續的內容審查。

(二)保密審查員管理

系統管理員可根據實際管理要求,配置企業級保密審查員和多個部門級保密審查員,并配置審查員的相應權限和審查范圍。通常審查范圍要求如下:

所級審查員:具有定期對全企業各涉密系統、所有客戶端文件檢索審查的權限。

部門級審查員:具有對部門內所有客戶端文件檢索審查的權限,可以自定義審查規則。

(三)敏感內容篩查規則

保密審查員可以按照涉密等級、業務內容設定敏感內容、風險篩查點規則,其規則通常為關鍵主題詞的集合,如密級、型號代號、型號名稱等不同類型關鍵字或者具體的型號名稱和型號代號值。

(四)審查報告生成

根據審查員設定的敏感內容篩查規則,自動對系統中存儲的文本內容或圖片進行全文檢索,并生成風險報告。根據風險報告按照審查員預先設定的審查周期自動生成審查報告。生成周期分為日報、周報、月報、季報、年報。也可以根據實際業務需要,指定特定的時間范圍進行手動生成審查報告。

(五)關鍵敏感詞檢索

保密審查員可以自定義關鍵敏感詞進行全文檢索,系統將含有關鍵字的所有文本內容顯示在列表中,審查員可以根據需要顯示檢索內容的上下文,也可以查看任務的預覽文件和下載原文。關鍵字在上下文及預覽文件中全部以高亮顯示,便于用戶迅速查看定位,根據敏感詞所處語境判斷是否涉密。

二、關鍵技術

(一)OCR內容提取

敏感內容審查系統的OCR(Optical Character Recognition)內容提取采用的是光學字符識別技術,對圖片中的圖像數據進行轉碼、數據處理、字符識別、位置識別等。OCR的概念最早由德國科學家TauSheck在1929年首次提出,我國在“863”計劃以后開始OCR技術的研究,經過近百年的發展,軟件硬件的不斷更新換代,目前對漢字的識別率已經超過98%[1-2]。在信息識別領域比較常用的有開源的Tesseract、OCRopus、Cuneiform等,商用的有漢王、ABBYY、ExperVision TypeReader等。

面向航天專網的敏感內容審查系統在選擇OCR引擎時,應主要考慮以下幾個方面:

(1)完全斷網使用。航天企業根據不同工作環境的限制,存在離線工作情況,所以OCR系統從圖片識別,到授權方式必須支持在離線的環境中進行,且不能引入其他的硬件設備。

(2)詞語識別準確率。經過調研發現,市場上存在的部分產品對拉丁語系的轉換識別效果不錯,對中文的識別準確率不高。對于排版不規整的圖片,識別準確率相對較低。

(3)操作系統的適配。對軍工企業,操作系統正在逐步國產化,OCR引擎開發需要兼容國產化的操作系統,可以適配Windows平臺及國產化操作系統。

1、Tesseract技術原理

Tesseract OCR引擎功能強大,由于識別準確率高,多用于駕駛證識別、車牌識別、醫學化驗單識別、快遞單號識別等領域,其主要功能概括地可以分為兩部分:

(1)圖像輪廓分析是字符識別的準備階段?;谥票砦粰z測的方法對頁面布局進行分析提取,將圖像的表格、文本、圖片等元素內容進行區分。

(2)文本塊分割和識別是整個Tesseract的核心,工作內容最為復雜。首先是文本塊切割,包括粗略切分和精細切分兩個過程:

粗略切分,就是利用字符間的間隔進行切分,得到大部分的字符文本塊,也有粘連文本塊或者錯誤切分的文本塊。然后通過字符區域類型來判定識別字符,通過與字符庫中的文本進行比對,完成第一次字符的識別。

精細切分,就是根據粗略切分識別出來的字符,對粘連的文本塊進行二次切割,同時合并錯誤分割的字符,完成文本塊的精細切分。

Tesseract OCR引擎識別步驟[3]:

如歷代江西文學就是江西人民創造的優秀的文化遺產,發掘其深厚意蘊可以讓青年學生了解江西文學、文化、歷史的發展軌跡,江西對全國的貢獻、江西在全國的地位,樹立江西青年的自豪感、自信心、責任感,激發他們對江西的熱愛之情,培養他們的鄉土情懷,促進精神文明建設。

(1)字符輪廓區域分析,檢測出圖片字符區域,以及子輪廓,進一步將眾多輪廓線集合為塊區域。

(2)由字符輪廓和塊區域得出文本行,并且通過字符間的空格識別出詞語。對于固定間距的文本塊利用字符單元分割出單個字符,而對百分號的文本通過模糊間隔來分割。

(3)使用具有學習能力的自適應分類器,逐次對每個單詞進行分析。分析過程中將滿足條件的字符記錄到分類器中,這樣越到后面識別的字符越準確。識別到頁尾后,再對頁首識別不準確的字符進行二次識別,識別精度越來越高。

(4)最后,借助其他方法,識別含糊不清的空格,如通過筆畫高度識別小寫字母、大寫字母的文本。

2、Tesseract OCR 引擎的應用

文字識別引擎可應用于許多領域,包括輸入文本、自動處理郵件以及自動獲取文本的其他領域。這些領域涵蓋零售商品價簽信息提取、快遞單號信息識別、銀行支票的處理、身份證件識別、醫療化驗單信息識別等很多場景,方便用戶快速錄入信息、提取信息、識別信息,提高各行各業的工作效率[4]。

(二)全文檢索

面向航天專網的敏感內容審查系統其核心是對文本內容進行快速遍歷檢查,根據檢查規則找出并定位到具體的關鍵詞語。

內容審查分兩個階段:

1、在各類安全系統任務執行過程中,對單個任務的文本內容進行篩查,判斷是否符合保密要求,給審查者提供意見。

2、在任務結束后,對大量任務的文本數據進行檢索遍歷。

在任務執行過程中進行簡單的文字搜索,實現較為簡單,可以滿足第1個階段的需求,但在第2個階段,對大量的數據進行批量檢索,耗時會比較長,無法滿足日常保密審查應用要求。所以研究所在系統建設中引入全文檢索引擎。全文檢索引擎產品類型較多,包括基于Java的Lucene、ElasticSearch、Solr,C++的Xapian、 Sphinx,Python的Whoosh,Go的wokong等[5-6]。

航天企業選型時需要從以下幾個方面綜合考慮:

(1)性能、穩定性、成熟度。全文檢索引擎需要保存所有入口的文本內容,并創建一對一的索引,以便快速檢索、定位,屬于核心中間件。

(2)中文分詞。拉丁語系是以空格作為語句單元分割,但對于中文就較為復雜,尤其是在應對新詞的情況下,必要時在性能和準確性方面應有所取舍,建議優先考慮檢索內容的可靠性。

(3)部署和可擴展性。支持多平臺,在單服務器無法支持的情況下可以方便的橫向擴展。

(4)選型時還要綜合考慮成本、易用性等。

作者所在研究所選擇使用ElasticSearch作為全文檢索引擎。

對ElasticSearch進行簡單的性能測試。測試樣本為1.95GB的純文本,共2001個文件,其中最大文件為31.1MB,對應Word文檔約為12038頁,1000萬字。一次性對所有文本創建索引,三次平均耗時為29分43秒,期間CPU使用率在2%~18%間浮動。索引完成后,索引數據共3.21GB。索引創建完成后,按短語搜索的方式進行查詢,同一字符,第一次搜索較慢,消耗在0.7s到2s間浮動,第二次及之后的耗時在0.2s以下。內存大小對檢索速度影響較大。 (注:以上時間包含測試程序運行時間,HTTP RESTFul通信時間,ElasticSearch檢索時間。測試機CPU:Intel(R)Core(TM) i7-3720QM CPU @ 2.60GHz,RAM 12GB。)

1、Elastic Search原理

圖2 Elastic Search全文檢索原理圖

Elastic Search(ES)是一個基于Apache Lucene構建的開源、分布式的全文搜索引擎,同時也是一個分布式文檔庫,庫中的每個字段均是被索引的數據且可被搜索,能夠擴展至數以百計的服務器,存貯與處理PB級的數據,可以短時間存儲、搜索和分析大量的數據,具有高效搜索的能力,Elastic Search全文檢索原理圖如圖2所示。

Elastic Search具有以下4個主要特點[6]:

(1)高度的可擴展性:增加一臺機器,只需要添加集群配置,啟動Elastic Search進行即可;

(2)分片機制:一個索引可以分成多個Sharding,提高處理效率;

(3)高可用性:每個分片可以設置多個備份,少量機器宕機不影響正常使用;

(4)不僅具有全文搜索能力,還可以按照字段進行結構化搜索、聚合分析。

2、Elastic Search的應用

Elastic Search多應用于熱點圖、交通情況信息圖等需要實時數據搜索和顯示的場景以及數據更新頻繁的場景等。

(1)2 013 年初,GitHub放棄Solr,使用Elastic Search來做P B級的搜索。GitHub使用ElasticSearch搜索20TB的數據,包括13億文件和1300億行代碼。

(2)維基百科啟動以elasticsearch為基礎的核心搜索架構。

(3)SoundCloud使用ElasticSearch為將近1.8億用戶提供即時且精準的音樂搜索服務。

(4)百度目前廣泛采用ElasticSearch作為文本數據分析,收集百度所有服務器上的各類指標數據及用戶定義數據,通過對數據進行多維分析展示,用來輔助定位分析實例異常或業務層面異常。目前已覆蓋百度20多個業務線,包括casio、云分析、網盟、預測、文庫、風控等,單集群最大100臺機器,200個ES節點,每天導入30TB以上的數據。

(5)此外,新浪,阿里,有贊等著名公司也開始了ES方面的相關技術研發和實踐。

三、結語

本文針對航天專網涉密信息審計存在多入口、人工審計成本高、效率低、審計結果不精準等問題,提出了通過信息化手段實現自動風險篩查的解決方案,輔助管理員審查敏感內容,提高審查效率。通過在本單位實際應用表明,敏感內容審查系統可以對保密安全管理提供有效的支撐。

猜你喜歡
文本內容系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产精品亚洲αv天堂无码| yy6080理论大片一级久久| 欧美午夜久久| 国产成人a毛片在线| 国产日韩精品一区在线不卡 | 精品视频福利| 欧美午夜视频在线| 国产69精品久久| 中文字幕久久波多野结衣| 免费Aⅴ片在线观看蜜芽Tⅴ| 国产美女叼嘿视频免费看| 国产成人综合亚洲欧美在| 亚洲视频四区| 91精品啪在线观看国产60岁| 国产69囗曝护士吞精在线视频| 欧美第一页在线| 日本一区二区三区精品AⅤ| 无码专区国产精品第一页| 波多野结衣一区二区三区四区视频| 国产成人综合亚洲网址| 91精品日韩人妻无码久久| 国产网站免费| 无码日韩人妻精品久久蜜桃| 欧美成人a∨视频免费观看| 日本人妻丰满熟妇区| 精品乱码久久久久久久| 又黄又湿又爽的视频| 亚洲无码91视频| 四虎国产永久在线观看| 少妇人妻无码首页| 国产综合另类小说色区色噜噜| 亚洲AV无码不卡无码| 欧美成人手机在线观看网址| 日韩国产 在线| 午夜不卡福利| 久久精品国产一区二区小说| 全部免费毛片免费播放| 五月天丁香婷婷综合久久| 久久77777| 九色免费视频| 日韩免费无码人妻系列| 国内精品久久九九国产精品 | 亚洲国产精品日韩av专区| 91精品国产综合久久不国产大片| 四虎亚洲国产成人久久精品| 午夜国产大片免费观看| 国产在线视频导航| 日本日韩欧美| 欧美精品啪啪一区二区三区| 东京热一区二区三区无码视频| 成人亚洲视频| a毛片基地免费大全| 精品国产免费人成在线观看| 亚洲最黄视频| 操国产美女| 中文字幕亚洲综久久2021| 91国内在线视频| 欧美一级黄片一区2区| 久久久受www免费人成| 亚洲成人网在线播放| 国内99精品激情视频精品| 91丝袜在线观看| 好紧太爽了视频免费无码| 亚洲欧美日韩另类在线一| 国外欧美一区另类中文字幕| 欧美综合一区二区三区| 亚洲无码高清免费视频亚洲| 国产一级小视频| 一区二区三区成人| 国产日韩欧美中文| 国产男女XX00免费观看| 亚洲国产清纯| 在线观看亚洲国产| 日本不卡在线| 欧美成人一区午夜福利在线| 免费国产高清精品一区在线| 亚洲看片网| 久久国产精品夜色| 欧美一级夜夜爽www| 国产国产人在线成免费视频狼人色| 国产91丝袜| 六月婷婷激情综合|