侯 君
(大慶油田信息技術公司北京分公司,北京 100000)
基于信息安全考慮的數據識別分析
侯君
(大慶油田信息技術公司北京分公司,北京 100000)
數據識別技術,對于企業內網數據的有效處理和安全保護等方面意義重大,在當前大數據的環境下,對于數據識別技術的需求尤為突出。基于此種考慮,本文首先針對油田工業環境中的數據特征及數據安全狀態展開了深入的分析,然后進一步在此基礎之上,對如何切實推動數據識別技術的發展予以深入討論。
信息安全;數據識別;油田企業
在工業生產工作環境中,數據主要來源于管理和工業生產兩個領域。管理領域的數據相對而言比較常規化,主要涉及人力資源等相關管理領域工作數據,但是隨著科技的不斷深入發展,大量生產流程中的設備狀態數據納入到企業數據環境之中,而這種趨勢,在油田工業領域中更是尤為突出。油田生產工作過程中一貫以數據的龐大繁雜著稱,數據用以反映生產過程中眾多設備的狀態。通過這些數據可以判斷整個工作過程的安全水平,然后展開進一步的調整。
隨著物聯網相關技術的發展,更多的數據納入油田工業環境之中,實時性和海量性成為其主要特征。對于實時性而言,油田工業環境之中,生產過程中的數據關系到諸多設備的工作狀態及安全水平,因此,只有對其展開及時的識別才能妥善處置。而對于海量性而言,主要是考慮到油田工業領域中必然會引入的大數據技術,從客觀上要求對這些數據展開及時的深入分析,發揮其既有價值。因此從這樣的兩個方面看,對數據展開必要的識別,是有效針對不同種類來源的數據展開及時分析的必然要求。
與此同時,從安全的角度看,數據識別同樣意義重大。當前數據安全的解決方案,通常會從傳輸和存儲兩個方面展開,即在傳輸過程中通過各種類型的網關等來對傳輸數據實現過濾,或者面向存儲狀態的數據展開分析,來確定數據中是否夾雜有不安全的因素。此種安全分析工作方式在傳統企業環境下,當數據量以及傳輸總量相對較少的時候能夠十分有效地展開工作,但是隨著數據量的不斷增加,流媒體數據也開始涌入到工業生產環境之中,想要切實有效地對所有的數據展開分析,就顯得較為困難。相關安全系統的計算能力不斷得到挑戰,必須采取必要的措施改善此種情況。
在這樣的背景之下,如何實現有效的數據識別,就顯得意義重大。良好的數據識別體系,能夠幫助安全系統以及相關的大數據技術依據不同的數據特征展開區分,從而來決定為不同的數據群體提供不同安全級別的保障,也便于為大數據分析系統優化其數據材料,并且在最短時間內響應不同數據消費端的查詢請求。
數據識別服務于整個油田數據系統。數據識別工作展開的有效性,關系到整個企業局域網數據的安全水平,對于其他多個方面的數據信息處理工作也有不容忽視的重要價值。從目前數據識別技術的發展狀況看,主要是基于數據特征的識別技術,但是隨著工業環境中更多數據的涌入,基于數據生命周期的識別技術同樣也是未來發展的主要特征。
對于基于特征的數據識別方法而言,具體包括兩個階段的工作,第一,元數據和樣本數據的采集;第二,敏感數據數據的識別與分類。
在第一個階段中,數據識別系統的主要工作任務是通過自動化的方式面向數據庫、文件系統及傳輸過程展開對于數據的結構化與非結構化數據樣本和元數據信息的采集。采集主要內容包括元數據信息(數據表和字段的名稱、類型、注釋信息等)、文件類型數據(在獲取文件格式的基礎上,采用自動化分詞等相關技術將文件內容進行切割和合并,并且建立起對應的文件特征數據)。然后在這樣的采集基礎之上,對獲取到的數據進行梳理和過濾,提升樣本整體質量。
在第二階段中,展開對于敏感數據數據的識別與分類。應用數據識別技術,對不同類型的數據進行甄別,確定其中的敏感數據,并對其進行甄別和分級分類,從而便于進行更具有針對性的數據安全保護工作。這一部分的工作,具體包括詞庫建立、敏感特征提取、敏感特征匹配以及敏感數據識別質量評估等幾個方面。其中詞庫建立主要是對采集到的數據進行收集和整理,剔除其中的無價值詞匯,獲取到符合識別需求的詞庫。而敏感特征提取,則是在建立起詞庫的基礎之上,對詞庫展開分析和識別,以相關人員作為主要的力量進行構建,并且隨著人工智能的發展,相關技術也在逐步引入到該環節之中。敏感特征匹配主要是對分類和識別目標展開特征提煉,將目標數據采用分詞技術進行分詞處理,然后進一步將提取到的特征與詞庫進行匹配,依據匹配情況進行排序。最后,敏感數據識別質量評估主要對識別結果進行評價,包括對錯誤分類的進一步糾正和對于未能識別的敏感詞的補充,完善詞庫。
除此以外,基于生命周期的數據識別也是未來發展的一個重要方向,同樣不容忽視。這主要是考慮到數據從誕生到消亡,不同的數據在不同的生命階段中會呈現出不同的安全需求,并且數據在不同環境下面對的人群不同所產生的功能和價值,也均會有所不同。從油田工業環境的角度看,實時性強的數據隨著時間的流逝,其安全價值呈現出逐步遞減的趨勢,而核心技術領域的數據,通常需要自始至終的密切保護。因此,對于數據產生環境和來源等方面特征的識別,能夠進一步提升數據安全工作的針對性,提高數據安全體系工作整體效率。
在面臨油田大數據環境時,數據識別技術是不容忽視的重要支持。只有在實際工作中不斷深入分析和完善對應的識別規則,才能獲取良好效果,為油田的發展奠定堅實基礎。
主要參考文獻
[1]馮建云,張月琴.內網安全信息防泄漏系統的開發與實現[J].電腦開發與應用,2010(7).
10.3969/j.issn.1673 - 0194.2016.14.108
G203
A
1673-0194(2016)14-0154-01
2016-06-08