999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語義擴展技術在敏感數據識別中的應用研究

2016-04-12 00:00:00徐建忠羅準辰張亮
現代電子技術 2016年12期

摘 要: 為了解決用戶在敏感內容檢測時給定關鍵詞較少的問題,在此提出一種基于語義擴展技術識別敏感數據的方法。主要是通過對用戶給定的關鍵詞,進行基于搜索引擎、百度百科以及搜索引擎結果頁面三種模式的語義擴展,然后借助少量人工方式整體評價,得到用戶所需的擴展詞。實驗結果表明,與語義擴展之前相比,語義擴展之后敏感數據識別的準確率P、召回率R和評價值F均有所提高,說明該方法能夠有效地提高敏感數據識別結果的全面性和準確性。

關鍵詞: 語義擴展; 敏感數據; 搜索引擎; 數據安全

中圖分類號: TN911?34 文獻標識碼: A 文章編號: 1004?373X(2016)12?0080?03

Abstract: To solve the problem of less key words given in sensitive content inspection, a sensitive data identification method based on semantic extension approach is proposed. The semantic extension based on three forms of search engine, Baidu Encyclopedia and results page of searching is performed through the keywords given by users, by which the extension words is obtained through the overall evaluation in a manual way. The experimental result shows that, with the three forms of semantic extension, the accuracy P, recall R and evaluation value F of sensitive data identification have all been improved, which illustrates that the approach can effectively improve the comprehensiveness and accuracy of sensitive data identification.

Keywords: semantic extension; sensitive data; search engine; data security

0 引 言

隨著信息技術的高速發展,國內外信息安全形勢越來越嚴峻,多起信息安全事件(如,斯諾登事件)的發生給個人和社會帶來了嚴重的影響,尤其是敏感數據的泄露,直接影響國家的安全和社會的穩定。

數據防泄漏技術作為信息安全的基礎性技術,其作用無論從國家安全的高度還是從經濟發展的角度來看都變得日益重要。目前,敏感數據防泄漏的關鍵技術包括:敏感數據識別、敏感數據標記、敏感數據阻斷、銷毀和策略管理等。其中敏感數據識別是敏感數據防泄漏解決方案中非常關鍵的一環,只有準確地識別出了敏感數據才能對這些數據進行有效保護。以往的敏感數據識別方法[1?2]大都通過建立敏感數據庫,通過用戶輸入關鍵詞或者預定義相關內容匹配敏感數據庫來檢測實現。這種方法忽略了很多用戶缺乏對相關領域知識的了解,造成提交的關鍵詞數量有限且缺乏代表性,使得提交的關鍵詞不能全面準確地表達用戶的實際查詢意圖的現狀。此方法容易造成檢測結果不全面或不準確。基于這個問題本文研究了一種能夠解決用戶給定較少關鍵詞,準確高效識別敏感數據的語義擴展關鍵詞方法。

在此主要通過三種模式對用戶給定的關鍵詞進行語義擴展:基于搜索引擎的語義擴展、基于百度百科的語義擴展和基于搜索引擎結果頁面的語義擴展。對這三種模式返回的候選詞借助少量人工方式進行整體評價,得到用戶所需的擴展詞。實驗結果表明,此方法能夠有效解決有限關鍵詞意圖表示模糊的問題,并且提高了敏感數據識別的準確率。

1 相關工作

語義擴展是指語義在原有的基礎上進行了延伸,其最直接也是最明顯的一個結果就是使原有詞匯使用的范圍更廣或者使表達的內容更加深刻[3]。語義擴展技術主要應用于文本分類、信息檢索、搜索引擎等領域。它是以關鍵詞匹配為技術基礎,由于用戶對相關領域了解較少以及大量同義詞和多義詞的存在,用戶對查詢請求的表達形式多樣。根據有關實驗[4]統計,兩個人使用相同關鍵詞描述同一事物的概率小于20%。

在檢索時,用戶通常只用少量關鍵詞來表達自己的請求,導致檢測結果不全面和不準確。例如,Franzen K等人分析了微軟公司旗下的Encarta在線百科全書網站[5]連續兩個月的用戶查詢記錄后發現,49%的用戶僅用一個關鍵詞來表達自己的查詢請求,33%的用戶使用兩個單詞進行查詢,用戶平均使用1.4個單詞描述他們的查詢。查詢使用的關鍵詞越少,檢索結果命中率就越低。為了提高查詢的命中率,需要盡量增加檢索關鍵詞的數量[6]。但是由于用戶體驗的原因,在此無法強制規定用戶提交關鍵詞的數量,因此需要通過一定的技術對用戶提交的關鍵詞進行擴展,以彌補用戶給定關鍵詞數量不足的缺陷。本文主要將語義擴展技術應用于敏感數據識別,試圖解決用戶給定較少關鍵詞難以滿足敏感內容文本表示復雜的問題。

2 語義擴展技術方法

2.1 方法概述

本文提出一種在敏感數據識別中使用語義擴展技術的方法,該方法首先使用三種擴展模式對用戶給定的關鍵詞進行擴展,然后借助少量的人工方式對擴展的候選詞進行整合評價,從而得到與用戶提交的關鍵詞內容相關的擴展詞,如圖1所示。

圖1 方法流程

(1) 語義擴展。對用戶給定關鍵詞進行三種模式的擴展:基于搜索引擎的擴展、基于百度百科的擴展、基于搜索引擎結果頁面的擴展。

(2) 整合評價。利用三種擴展模式返回的擴展候選詞,借助少量人工方式進行整合評價。

2.2 語義擴展

2.2.1 基于搜索引擎的擴展

主要利用目前搜索引擎強大的查詢擴展功能對給定的敏感詞進行擴展。其中,搜索引擎可以選擇當前主流的,例如百度、谷歌、雅虎、必應等,本文選取百度作為擴展的搜索引擎。具體的操作:如“財務”是一般單位認為比較敏感的信息,要想得到財務相關的擴展詞,即在百度中輸入查詢詞,見圖2和圖3,圈標注的相關搜索作為其擴展詞。

2.2.2 基于百度百科的擴展

主要利用百度百科相關詞條進行擴展,具體流程如下:

(1) 首先利用搜索引擎找到相關的百度詞條,在搜索引擎中輸入“給定詞and百度百科”,如“財務 and 百度百科”,如圖4所示。

(2) 返回的搜索結果中,存在的百度百科詞條網頁鏈接為相關的百科詞條(見圖4中用圈標注的),然后點擊進入百度百科相關詞條網頁,選取(可以寫程序采用自動化的方式)存在的鏈接詞作為擴展詞,見圖5,圈內標注的詞認為是擴展詞。

2.2.3 基于搜索引擎結果的擴展

這種方法主要是利用搜索引擎,獲取敏感詞相關的頁面。然后抓取頁面后,利用開源的關鍵詞提取器,進行關鍵詞提取,建議抓取返回結果第一頁10條鏈接網頁進行提取,提取過程中可以單篇提取然后整合,也可以將所有網頁合成為一個文本后進行關鍵詞提取,提取數目可以任定。

2.3 整合評價

以上三種方式可以產生一些基于給定詞擴展的候選詞,但并不是所有的候選詞都能滿足用戶的需求,因此人工的少量參與是必須的。對于每個候選詞,可以邀請3位人員進行人工評價,如果2位以上人員認為候選詞有意義,則判斷該候選詞為用戶需要的擴展詞。

3 實 驗

3.1 實驗數據以及評價方法

本文通過整理某市部分單位的一些公告和相關新聞資訊,構建了一個包含1 500個文檔的測試集,該測試集包含了敏感信息文檔和非敏感信息文檔,其中敏感信息文檔指的是文檔中包含一般單位認為比較敏感的人事、財務相關信息,非敏感信息文檔指文檔中不包含任何敏感信息。本文中通過人工方法統計人事相關的文檔486個,財務相關文檔574個,其他非敏感信息文檔440個。

本文使用信息檢索領域的評價準則(準確率P、召回率R和評價值F)對敏感數據識別進行評價,具體定義為:

[P=AA?B;R=AA?C;][F=2×P×RP+R]

其中:A表示系統識別出敏感詞相關的文檔總數;B表示系統識別出敏感詞不相關的文檔總數;C表示系統沒有識別出敏感詞相關的文檔總數。

3.2 實驗過程及結果

在實驗中,本文選取人事、財務兩個敏感詞作為用戶給定關鍵詞,并且對這兩個詞語通過三種模式的語義擴展得到相關擴展詞。例如,對于給定詞人事,通過語義擴展之后得到相關擴展詞:任命、任免、任職、提拔、擬任、擬聘、罷免、辭去;財務,通過語義擴展之后得到相關擴展詞:經營狀況、資金、資產、損益表、總賬、增值、負債、周轉、虧損、預算、凈利潤。最后通過對比語義擴展之前與之后敏感數據識別的準確率(P)、召回率(R)以及評價值(F)進行分析評價。結果如表1所示。

表1 語義擴展之前與之后敏感數據識別結果對比 %

分析表1中的結果可以發現,語義擴展之后敏感數據識別的實驗結果都要好于語義擴展之前(即用戶給定關鍵詞),這是因為對給定關鍵詞擴展之后得到很多相關的擴展詞,所以在進行敏感數據識別的時候可以檢索出擴展之前不能檢索出來的文檔,并且本文中語義擴展的方法借助人工評價,這樣得到的擴展詞都是與用戶給定關鍵詞很相關的,這也是敏感數據識別準確率和查全率提高的主要原因。

4 結 語

為了解決用戶給定較少關鍵詞難以滿足敏感數據高準確率識別的問題,本文提出一種將語義擴展技術應用于敏感數據識別的方法。該方法通過基于搜索引擎、百度百科以及搜索引擎結果頁面三種模式對給定的關鍵詞進行語義擴展,借助少量人工方式整體評價,得到用戶所需的擴展詞,從而解決了給定關鍵詞較少語義表示模糊的問題,提高了敏感數據識別的全面性和準確性。

參考文獻

[1] 李偉偉,張濤,林為民,等.基于文本內容的敏感數據識別方法研究與實現[J].計算機工程與設計,2013,34(4):1202?1206.

[2] 林臻彪.基于數據流分析的防文件網絡泄露關鍵技術研究[D].鄭州:解放軍信息工程大學,2009.

[3] 付義軍.語義擴展的認知機制[J].青春歲月,2013(15):121.

[4] 黃名選,嚴小衛,張師超.查詢擴展技術進展與展望[J].計算機應用與軟件,2007,24(11):1?4.

[5] FRANZEN K, KARLGREN J. Verbosity and interface design [R]. Sweden: Swedish Institute of Computer Science (SICS),2000.

[6] 徐建斌,施亞東.基于概念的文本自動分類研究的綜述[J].福建電腦,2005(2):2?4.

[7] 汪晨,鄧松,張濤,等.智能電網環境下用戶行為可信數據安全交換研究[J].現代電子技術,2014,37(1):75?79.

主站蜘蛛池模板: 成人av专区精品无码国产| 国产一二视频| 精品超清无码视频在线观看| 午夜视频www| 久久这里只有精品23| 黄色网页在线播放| 原味小视频在线www国产| 国产乱人伦偷精品视频AAA| 91小视频在线观看| 网友自拍视频精品区| 亚洲一区二区黄色| 九九九精品视频| 99久久国产综合精品2023| 国产激爽大片高清在线观看| 91成人在线观看| 国产成人精品男人的天堂| 精品一区二区三区波多野结衣 | 激情综合网激情综合| 欧美怡红院视频一区二区三区| 亚洲综合天堂网| 亚洲乱码在线视频| 国产成人免费手机在线观看视频| 日本国产精品一区久久久| AV老司机AV天堂| 国产一级视频久久| 四虎影视国产精品| 欧美成人区| 亚洲高清无码精品| 成人在线第一页| 精品人妻无码中字系列| 欧美.成人.综合在线| 欧美日韩国产系列在线观看| 久久国产精品电影| 日韩精品一区二区三区大桥未久 | 国产尤物视频在线| 亚洲精品大秀视频| 婷婷成人综合| 99热这里只有精品国产99| 欧美一级夜夜爽www| 色香蕉影院| 99精品国产电影| 国产爽妇精品| 精品国产一区91在线| 亚洲无码熟妇人妻AV在线| 久久久精品无码一二三区| 在线播放国产一区| 国产欧美日韩另类精彩视频| 成人日韩视频| 色妞永久免费视频| 亚洲一区二区三区香蕉| 亚洲va在线∨a天堂va欧美va| 亚洲精品无码专区在线观看| 久视频免费精品6| 97亚洲色综久久精品| 国产91蝌蚪窝| 久久精品无码中文字幕| 亚洲综合九九| 久久久久久国产精品mv| 久久久久88色偷偷| 国产精品va免费视频| JIZZ亚洲国产| 成人小视频在线观看免费| 国产亚洲精品无码专| 国产精品99久久久| 在线人成精品免费视频| 国产欧美性爱网| 亚洲Av激情网五月天| 久久9966精品国产免费| 高潮爽到爆的喷水女主播视频 | 99久久国产综合精品2020| 午夜不卡视频| 国产后式a一视频| 色偷偷一区二区三区| 国产一级在线播放| 国产精品夜夜嗨视频免费视频| 丁香五月激情图片| 国产永久免费视频m3u8| 国产v欧美v日韩v综合精品| 免费无码在线观看| 天天干天天色综合网| 日本午夜精品一本在线观看 | 青青草原国产免费av观看|