999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據脫敏技術現狀與建議

2017-07-14 01:15:25黎俊延
商情 2017年18期

黎俊延

摘要:目前,大數據的應用廣泛的同時,個人信息保護受到了前所未有的挑戰。人民在享受數據分析給自己生活帶來的貼切服務的同時,也深受個人信息泄露甚至被騷擾的困擾。相關報道指出,黑客所掌握的用戶數據庫數量超過了1億條,信息黑市產業鏈的規模或高達上百億元。個人敏感信息保護迫在眉睫。本文將從數據脫敏的角度分析我國信息保護現狀以及問題,并給出相關解決辦法和建議。

關鍵詞:數據脫敏 脫敏系統 數據隱私

一、我國數據脫敏現狀簡述

數據脫敏就是對敏感信息通過脫敏規則進行數據的變形,實現敏感隱私數據的可靠保護。“當大數據進行交易的時候,目前據不完全統計80%是個人信息。大數據交易的過程中最重要兩個環節一是清洗和脫敏,脫敏又叫匿名化,但全球都尚未形成脫敏的具體標準。”這是2016年北京強國知識產權論壇“互聯網安全與治理模式創新”分享會上,重慶大學法學院博士導師齊愛民教授指出的,我國信息脫敏日益受到重視,可是還處于一個不健全可靠的一個生長階段。具體問題表現為:

(一)敏感數據標準不一

我國缺乏個人信息保護相關法律,個人敏感信息沒有明確的劃分,導致脫敏技術程序標準不統一。因為數據量龐大,數據處理一般通過程序執行。在明確劃分后,如何通過程序識別敏感信息進行處理,敏感信息的字段名稱、類型、長度、賦值范圍的如何設定,也是一個難題。

(二)脫敏技術的可逆性和處理后數據的不可應用性

由于脫敏標準不一樣,脫敏深度也沒有具體標準。部分企業業務采用可恢復性脫敏的數據存在可逆化,比如數據加密,而部分企業業務采用不可恢復性脫敏。數據在脫敏之后,不應該提現出用戶的敏感信息。數據脫敏不完整或不全面,在數據交叉到一起就存在識別出用戶個人身份的情況發生。由脫敏標準不統一造成的信息泄露問題,在大數據應用的傳輸過程中可能被放大。同時,不可逆性脫敏后的數據在企業運營中會不會影響效率也是也是一個實際問題。一般來說,只要處理到無法推斷原有個人信息,不會造成個人資料泄露。但如果修改過多,容易導致丟失原有特性。企業數據應用端對數據的提煉就會受到不可逆的影響。

(三)形式重視大于方式重視企業運營環節容易出現泄漏

信息黑市的信息來源有很大一部分是企業內部信息泄露引起的,這涉及到了企業管理規范問題,現階段我國大部分企業對數據處理人員的工作監管缺乏力度。同時,企業日常運營也存在問題。

二、數據脫敏規范及建議

(一)敏感數據標準劃定

首先,需要明確的是區分大數據與個人信息的區別。在當下大數據時代,許多人甚至企業把大數據與個人信息混為一談,這使得企業數據運營中個人信息保護無從下手。英國頒布的《開放數據白皮書》中要求,各政府部門開放數據策略中時應明確將開放數據劃分為大數據(big data)和個人數據(my data),大數據是日常業務過程中收集到的數據,可以對所有人開放,而個人數據僅僅對某條數據所涉及到的個人自己開放。下面介紹一下個人信息的具體分類。

一般情況下個人資料包括:1.姓名、性別、年齡、戶籍、身份證號碼、遺傳特征、指紋、揭示種族或民族起源、政治意見、宗教信仰;2.與醫療相關信息包括有健康情況、病歷;3.通信以及活動方式信息包括有財務情況通信地址、E-mail地址、家庭住址、工作單位、電話、賬號與密碼;4.社會經歷信息包括有學歷、犯罪記錄、婚姻。

在科技發展背景下的活動記錄信息及其他可以識別該個人的信息則為大數據面向的信息:如通話記錄、網上購物記錄、網站瀏覽痕跡、IP地址等網上活動。

(二)脫敏技術

目前數據脫敏的技術方法有很多種,目前投入實際應用的技術有k-匿名、L-多樣性、數據抑制、數據擾動和差分隱私。

(1)k-匿名:

企業因為業務原因公開數據時候都會簡單處理,例如會把姓名刪除,但如果黑客通過其他渠道獲得的信息與之相匹配,就可以獲得敏感數據。這稱作為鏈接攻擊。匿名化就是為了解決鏈接攻擊造成的敏感信息泄露問題而提出的。它要求發布的數據中存在至少為k的在準標識符上不可區分的記錄,使攻擊者不能判別出隱私信息所屬的具體個體, k-匿名通過參數k指定用戶可承受的最大信息泄露風險。定義參數k,則視具體數據與脫敏深度要求而定。

(2)L-多樣性:

L-多樣性樣性是在k-匿名的基礎上提出的,外加了一個條件就是同一等價類中的記錄至少有L個“偽真實”的值,使得隱私泄露風險不超過 1/L,“偽真實”的意思是該數據有多個格式合法的近似值。比如這幾個值不同,或者信息熵至少為logL等等。

(3)數據抑制

數據抑制又稱為隱匿,是指用最一般化的值取代原始屬性值。在k-匿名化中,若無法滿足k-匿名要求,則一般采取抑制操作,被抑制的值要不從數據表中刪除,要不相應屬性值用“ **”表示。例子如下:

>>> s = "CREDITCARD"處理后為>>> s[-4:].rjust(len(s)或 "*")'******CARD'

(4)數據擾動

數據擾動是通過對數據的擾動變形使數據變得模糊來隱藏敏感的數據的規則,即將數據庫 A變形為一個新的數據庫 A′以供研究者或企業查詢使用。A′會和 A很相似,從 A′中可以挖掘出和 A相同的信息。這種方法通過修改原始數據,使得敏感性信息不能與初始的對象聯系起來或使得敏感性信息不復存在,但數據對分析依然有效。

(5)差分隱私

差分隱是基于數據失真的隱私保護技術,采用添加噪聲的技術使敏感數據失真但同時保持某些數據或數據屬性不變。數據微小變化后,分析人員仍然可以從數據中進行正常的數據挖掘工作。其中分析人員通過數據的可用性來定義數據變化的幅度大小,這種變化的范圍由參數ε控制,對任何可能的結果,該參數設置了變化的邊界。ε的低值,例如0.1,意味著關于任何個人的看法的改變非常少;ε的高值,例如50,意味著關于個人的看法的變化更大。正式的定義如下。

當且僅當以下情況下,算法A是ε-差分隱私的:

Pr[A(D) = x]≤ e^? * Pr[A(D') = x]

差分隱私保護可以保證,在數據集中添加或刪除一條數據不會影響到查詢輸出結果,因此即使在最壞情況下,攻擊者已知除一條記錄之外的所有敏感數據,仍可以保證這一條記錄的敏感信息不會被泄露。

(三)脫敏系統

常見的脫敏系統中有兩種,人工識別系統與自動識別系統。在脫敏過程中,一般分為兩個階段。一是敏感數據識別,二是數據脫敏任務執行階段。人工識別系統與智能識別系統區別在于敏感數據識別方式不同。

1.人工識別系統

下面舉Oracle數據脫敏技術Data Masking(下面簡稱DM)為例簡述脫敏系統運作流程。

DM并不是簡單的把數據加密或者混淆就好了,為了讓脫敏后的資料能在非生產環境完全正確運作,需要考慮字段的依賴,保證引用的完整性。可以說DM給測試人員或者開發人員提供了一份“最真實的假數據”。這也是數據脫敏的核心所在。DM提供兩個功能:(1)屏蔽格式庫,格式庫內包含一組即用型屏蔽格式。掩蔽格式可以是您創建的格式,也可以是Oracle提供的默認掩碼格式的列表格式;(2)掩蔽定義,屏蔽定義要在數據庫中的一個或多個表上實現的數據屏蔽操作。屏蔽定義將表格列與用于屏蔽數據的格式相關聯。他們還使用相關列維護數據庫中未正式聲明的列之間的關系。

作為最佳做法,組織應為所有常見的受管制信息創建掩蔽格式,以便不管敏感數據位于哪個數據庫中,敏感數據應用于數據庫表格之間。這樣可確保所有敏感數據在整個運營過程中始終屏蔽。

通過Oracle數據庫進行人工識別并進行數據脫敏的步驟一般為以下四步:加載管理數據屏蔽格式庫、識別數據庫中敏感數據、使用預定義掩碼格式和創建并應用用戶定義的掩碼。

第一步:加載管理數據屏蔽格式庫

Oracle創建數據屏蔽軟件包是為安全管理員提供了維護常見屏蔽格式集中式定義的能力。此集中式定義可確保數據庫在整個企業中應用相同的屏蔽規則,而不管敏感數據所在的數據庫。因此,組織和企業可以確保敏感數據被一致地屏蔽,并符合既定的數據共享標準。簡單的說應用Oracle數據庫的用戶都可以共享統一標準的脫敏數據。Oracle使用格式庫這種預加載模板的方法,有利于增加統一脫敏標準后數據的可移植性。

第二步:識別數據庫中敏感數據

數據庫中數據是通過識別主鍵 -外鍵來互相關聯的,這也是需要脫敏的數據的識別源。數據通過主鍵 -外鍵識別后,就需要通過已定的數據屏蔽模式進行屏蔽。數據屏蔽定義是具有掩蔽格式的一組模式中的表和列的關聯,包含應用程序表中敏感列的列表。

第三步:使用預定義掩碼格式

Oracle提供的預定義掩碼格式一般是生成隨機數或隨機數,并執行后期處理,以確保最終結果是有效的現實值,在Oracle數據庫11.2版中,足夠支持絕大部分數據庫的數據類型脫敏,支持屏蔽的數據類型包括:(1)數字類型(Numeric Types):NUMBER、FLOAT、RAW、BINARY_FLOAT、BINARY_DOUBLE;(2)字符串類型(String Types):CHAR、NCHAR、VARCHAR2、NVARCHAR2;(3)日期類型(Date Types):DATE、TIMESTAMP

第四步:創建并應用用戶定義的掩碼

如果應用程序或業務有非常具體的要求,則需要創建特殊掩碼。需要創建掩蔽定義時,數據庫管理員導入掩碼模板。注意創建自定義掩碼時,確保選擇的格式不違反檢查約束,并且不會破壞任何使用數據的應用程序。創建自定義掩碼的一般步驟為:(1)輸入掩碼定義名稱,(2)選擇所需操作表格中的敏感信息主鍵,(3)選擇敏感數據工具并選為用戶定義功能,(4)定義掩碼名稱,確定后注意生成掩碼格式。系統通過驗證掩碼模板并基于模板創建掩碼定義來進行響應,并生成脫敏腳本,(5)此后,數據庫管理員使用新創建的掩碼定義來啟動數據庫的屏蔽。系統通過驗證屏蔽定義,驗證空間可用性,然后將掩碼格式應用于測試階段數據庫中的數據來進行響應。完成數據自定義脫敏步驟。自定義掩碼對數據庫使用者友好,能比較簡便對特殊數據進行匹配掩碼模板制定掩碼,這要求使用者對數據庫功能有一定的掌握。

2.自動識別系統

自動識別是在手動識別基礎穩定后才可以實現的,目前處于理論階段。區別于手動識別系統,建立自動識別脫敏系統,需要在敏感數據識別階段前針對不同數據的特點,設計建立敏感數據識別所需的模型、算法、知識庫等,在數據錄入的時候進行匹配識別。因此自動識別數據脫敏系統主體流程包括脫敏配置、敏感數據識別、脫敏策略配置和數據脫敏四個個環節。(1)脫敏配置:根據數據庫對應的表格類型,預先設定需識別的數據類型,根據信息的內容價值分配脫敏的權重,根據權重進行定義配置。(2)敏感數據識別:對用戶的數據庫進行識別時,根據對主鍵-外鍵的處理,需要對字段的格式與語義進行分析,從而識別出系統中的敏感數據。(3)脫敏策略配置:根據業務情況,可供兩種脫敏策略,一種是基于系統配置的敏感數據類型,采用系統智能匹配的脫敏技術進行脫敏策略;一種是用戶自定義,貼合與實際要求的脫敏策略。(4)數據脫敏:按照用戶使用情況選擇靜態數據脫敏和動態數據脫敏。

三、企業脫敏系統應用案例分析

(一)案例背景

東營銀行全名東營銀行股份有限公司,是山東省的一家地方性城市商業銀行。截至2015年年底,全行資產總額560億元,各項存款余額450億元,貸款余額289億元。

東營銀行信息技術部負責全行信息系統的開發、運維和管理。部門員工20人,而負責運維的各類信息系統有50個以上。為解決人員少工作量大的問題,外包成為該銀行常用的手段。隨著東營銀行管理分析類系統的建設,東營銀行的數據資產面臨很大的泄露風險,特別是銀行卡數據、客戶信息數據、經營管理信息。同時,監管部門也要求做好客戶信息的保護工作。結合銀監會2015年銀行信息科技風險管理課題研究,東營銀行開始啟動數據脫敏系統建設項目。

(二)脫敏系統建設情況

項目建設的總體目標為:根據東營銀行現有業務為基礎建立一套易用安全的數據安全保護系統,該系統防止內部數據資產泄露,并具有良好業務擴展性。其中脫敏系統的基本功能包括:

(1)敏感信息發現和提取

通過預先設定敏感數據特點格式,來實現敏感數據識別。系統管理界面可以提供敏感數據的生產規則分析,檢測到的敏感信息字段會顯示在管理界面中提供查看,降低識別錯誤率。

(2)脫敏規則管理

數據脫敏系統可針對不同業務系統、不同表的相同類型數據應采用相同的數據脫敏規則。在此基礎上,對于業內不同的業務環境,分別配備不同的脫敏策略。

(3)脫敏操作管理

數據脫敏系統針對每一個脫敏任務分別進行記錄并展示。脫敏任務運行過程中,系統針對每一個脫敏任務生成一個唯一的任務ID,而這些ID會被存儲在元數據庫中。用戶可以通過狀態監控窗口檢查詳細的狀態,包括輸入的參數,選擇的紀錄,作業描述,當前狀態,執行時間標簽和一個詳細的日志文件等。

(4)監控管理

數據脫敏系統通過狀態監控、調試配置、子任務狀態、日志文件來實現對脫敏任務的監控。通過反映信號能監控到脫敏進程的執行情況,確保運維人員能夠清晰判斷執行結果。同時,每個作業都會有資料輸出方與操作人員的工號記錄。造成信息事故的員工會追究責任。

(5)權限管理

數據脫敏系統具備完善、統一的權限管理體系,可以針對用戶設定不同的使用權限,可以針對業務對象授予不同的訪問權限,實現數據行級的權限控制。

(三)系統實施結果

東營銀行最終敲定脫敏系統分為以下分支系統,其對應的數據庫版本如下表4-3-1所示。

脫敏系統對敏感數據進行脫敏處理,保持了脫敏數據的數據主外-鍵關聯性、關聯字段的業務語義關聯性以及業務語義不變。經過銀行業務流程系統測試,脫敏后數據可滿足系統對數據仿真度要求,保持業務規則與脫敏數據通用性。表4-3-2是客戶名稱和證據號碼關系表,表4-3-3為該表脫敏后效果。

數據脫敏系統的建設大大提高了東營商業銀行測試數據準備效率,通過規范化的系統脫敏,如今東營銀行可以獨自進行敏感數據處理,有助于形成企業內閉環信息流大大提高非生產環境數據使用的安全性。同時并幫助企業符合法律法規要求,達到安全管理部門的審計監管要求,取得較好成果。具體表現為:

(1)加快運營速度。通過數據脫敏系統的應用,東營銀行在數據隱私保護的處理過程中實現了全自動化、安全化、工具化、流程化、智能化,加快了其在大數據金融的建設速度。

(2)減少成本。數據脫敏系統基于東營銀行業務需求進行研究,對開發和測試部門提供合適大小的數據庫,降低開發、測試和交付可靠應用的總體成本。

(3)提高效率。減少了銀行DBA和質量保證測試人員的工作量。

(4)降低風險。數據脫敏系統通過一系列的規章制度,明確了數據脫敏工作中的工作職責,減少了銀行隱私數據的泄露風險,減少系統上線后的出錯風險。

五、結語

社會對于企業數據使用的規范的呼聲也日益高漲,同時數據脫敏能有效使企業數據運營得到安全保障。未來數據脫敏將會發展得更全面,結合不同生產環境,對于數據的脫敏的標準與深度會有更詳細的定義。在大數據背景下,統一標準與深度的數據脫敏將從自動化發展,高效處理大量數據。從而構造一個用戶安心,滿足企業與社會要求的和諧網絡環境。

參考文獻:

[1]大數據隱私保護技術之脫敏技術探究. http://mt.sohu.com/20161119/n473618006.shtml.2016.

[2] Database Management 11g Release 1 (11.1).

http://docs.oracle.com/cd/E11857_01/em.111/e11982/database_management.htm#DAFGJEIF.

[3]Replacing Sensitive Data Using the Data Masking Pack.http://www.oracle.com/webfolder/technetwork/tutorials/obe/em/obe10gemgc_10204/datamask/datamask.htm?cid=5387&ssid=35030654250237.

[4]陳天瑩,陳劍鋒.大數據環境下的智能數據脫敏系統[A].通信技術,2016,49(7).

[5]吳行飛.中小城市商業銀行數據脫敏研究--以東營銀行為例[D].山東大學,2016.

主站蜘蛛池模板: 国产欧美在线观看视频| 一本一道波多野结衣一区二区| 乱人伦99久久| 欧美成a人片在线观看| 中文字幕1区2区| 亚洲国产成人自拍| 久热中文字幕在线观看| 久久这里只精品国产99热8| 国产精品视频观看裸模| 免费看av在线网站网址| 天天干天天色综合网| 欧美啪啪精品| 88av在线播放| www.精品国产| 美女扒开下面流白浆在线试听 | 久久精品人妻中文系列| 免费看美女毛片| 免费可以看的无遮挡av无码| 在线亚洲精品福利网址导航| 韩日免费小视频| 国产丰满大乳无码免费播放 | 波多野一区| 亚洲an第二区国产精品| 伊人久久久久久久| 丁香婷婷综合激情| 国产一区二区三区免费观看| 亚洲综合色婷婷| 国产电话自拍伊人| 亚洲成A人V欧美综合| 国外欧美一区另类中文字幕| 996免费视频国产在线播放| 老司机久久99久久精品播放| 久久久久夜色精品波多野结衣| 色综合综合网| 中文无码伦av中文字幕| 欧美一级高清免费a| 成人毛片免费在线观看| 一级毛片在线直接观看| 成人在线亚洲| 激情乱人伦| 小蝌蚪亚洲精品国产| 亚洲热线99精品视频| 在线观看免费AV网| 播五月综合| 国产精品粉嫩| 国产欧美日韩91| 精品国产一区91在线| 亚洲色图在线观看| 中国精品自拍| 久久久久无码国产精品不卡| 亚洲无码电影| 国产亚洲精久久久久久久91| 国产精品自在在线午夜| 99re精彩视频| 97青草最新免费精品视频| 亚洲视频三级| 亚洲精品高清视频| 亚洲欧美精品在线| 四虎精品免费久久| 国产视频 第一页| 中文字幕在线永久在线视频2020| 国产视频 第一页| 91小视频版在线观看www| 视频二区欧美| 久久久久国色AV免费观看性色| 午夜精品久久久久久久99热下载| 国产无吗一区二区三区在线欢| 精品久久久久久久久久久| 亚洲黄色网站视频| 六月婷婷激情综合| 三上悠亚一区二区| 免费A级毛片无码无遮挡| 国产一在线观看| 国产成人AV综合久久| 欧美在线天堂| 亚洲精品中文字幕午夜| 第一区免费在线观看| 国产青榴视频| 久久99精品久久久大学生| 国产va在线观看| 日韩 欧美 小说 综合网 另类| 日韩在线欧美在线|