一種基于保形加密的大數據脫敏系統實現及評估

2017-04-13 06:42:38卞超軼朱少敏周濤

電信科學 2017年3期

卞超軼，朱少敏，周濤

（1.北京啟明星辰信息安全技術有限公司，北京 100193；2.北京郵電大學，北京 100876）

卞超軼1,2，朱少敏1，周濤1

（1.北京啟明星辰信息安全技術有限公司，北京 100193；2.北京郵電大學，北京 100876）

數據脫敏，是指對數據中包含的一些涉及機密或隱私的敏感信息進行特殊處理，以達到保護私密及隱私信息不被惡意攻擊者非法獲取的目的。保形加密是眾多數據脫敏技術的一種，但其具有保持原始數據格式不變的重要優勢，從而在一定程度上對上層應用透明。隨著大數據時代的到來以及Hadoop平臺的廣泛應用，傳統的基于關系型數據庫的數據脫敏技術已不能滿足實際的生產需要。針對Hadoop大數據平臺實現了一種基于保形加密的數據脫敏系統，支持對多種數據存儲格式以及純數字、純字母或數字—字母混合等多種數據類型敏感數據的加密脫敏處理。然后對3種不同的實現方式進行了探討，并開展了一系列實驗對系統的加密脫敏性能進行詳細的評估比較。

大數據；數據脫敏；保形加密；系統；評估

1 引言

數據脫敏，是指對數據中包含的秘密或隱私信息，如個人身份識別信息、商業機密數據等進行特殊處理，以達到數據變形的效果，使得惡意攻擊者無法從經過脫敏處理的數據中直接獲取敏感信息，從而實現對機密及隱私的防護。在金融、醫療、電信、電力等諸多行業，數據脫敏都有著非常廣泛的應用。例如，在電力系統中，用戶用電信息中就包含著很多重要的敏感數據，一旦泄露出去，就可能被不法分子利用來分析用戶行為以及電網的組織結構等，因此在存儲、傳輸及共享時必須進行脫敏處理。根據數據脫敏的效果，可以將其分為兩大類——可恢復類和不可恢復類。可恢復類指經過脫敏處理的數據可以通過一定的方式恢復成原始數據，以各種加解密算法為代表；不可恢復類則是指經過脫敏處理的數據無法復原，如模糊、掩蓋等。不可恢復類脫敏主要用于數據的共享與公開，而可恢復類則同時可用于靜態存儲和動態傳輸時數據安全隱私的防護。因此，可恢復類數據脫敏技術具有更加廣泛的應用場景。保形加密（format-preserving encryption，FPE）屬于可恢復類數據脫敏技術的一種，它的特點是密文與原文具有相同的數據格式，從而具備對上層應用透明的優勢。

隨著大數據時代的到來，以Hadoop為代表的大數據平臺被廣泛應用，而針對關系型數據庫的脫敏技術及產品不能直接沿用至新型的大數據平臺。雖然保形加密算法已經較為成熟，但是將其應用于大數據平臺的研究和產品還很少見。因此，本文針對Hadoop平臺實現了基于保形加密的大數據脫敏系統，支持包含 HDFS文件、HBase表、Hive表等多種不同的數據存儲格式，能夠高效完成對純數字、純字母以及數字—字母混合 3種不同類型數據的脫敏操作。同時，還嘗試了幾種不同的實現方式，并在實驗平臺上開展了相應的測試來評估比較加密處理的性能。

首先針對Hadoop大數據平臺設計了一種保形加密機制，能夠將Hadoop平臺上多種存儲形式和數據類型的敏感數據進行脫敏處理，并達到保留數據格式不變的效果；然后采用了多種不同的實現方式達到同樣的數據脫敏效果，包括簡單的單機處理模式、ETL（extract-transform-load，抽取—轉換—加載）工具模式、Spark并行處理模式，可以適用于不同的場景，滿足不同的需要；最后在實際的Hadoop集群上開展一系列實驗對多種實現方式及數據規模進行了詳細的性能評估，比較了不同場景下的性能差別，同時也驗證了系統用于實際生產環境下大數據脫敏的可行性。

2 研究背景及相關工作

對研究背景及相關工作進行具體的描述，主要包含對保形加密與Hadoop大數據平臺的介紹。

2.1 保形加密

保形加密（也稱為保留格式的加密）是一類特殊的對稱加密機制，它最主要的特點就是保證密文的格式與加密前的明文格式完全相同，例如，對由16位數字組成的銀行卡號進行加密后仍為 16位數字，從而具有無需更改數據庫范式以及對上層應用透明的優勢。保形加密可用于數據的掩蓋，并可通過調節加密的位數來實現不同的訪問控制粒度。

學術界在保形加密領域的研究關注已經持續了10多年。2002年，Black和Rogaway首次從密碼學的角度對保形加密進行了研究[1]，關注于整數域上的保形加密問題，并提出了 3種構造加密機制的方法：Prefix、Cycle-walking及Generalized-Feistel。這3種方法中均利用了分組加密算法來產生偽隨機置換，因為雖然真隨機置換是一種理想的保形加密機制，但對于數域較大的場景預先生成并記憶隨機置換表在實際中是不可行的。研究證明了保形加密的安全性與構造中所使用的分組加密算法的安全性相同。后續研究提出了一系列的加密算法及模型，其中比較典型的有FFSEM[2]、FFX[3]、RtE[4]、BPS[5]等。在這些算法及模型中，Feistel網絡得到最為廣泛的采用，因為它具有可證明的安全性，得到了更多認可。Feistel網絡是分組加密算法（如DES）中經常采用的對稱加解密結構，包含多輪的迭代過程，其中每一輪都需要一個偽隨機數值作為輸入，通常用AES來產生。

美國國家標準與技術研究院（National Institute of Standards and Technology，NIST）針對保形加密發布了相關的標準草案——SP800-38G[6]，并給出了3種具體的加密算法：FF1、FF2及FF3。這些算法的主體流程是類似的，其核心均為一個Feistel網絡結構，如圖1所示。圖1中繪出了3輪迭代過程的示意：在每一輪中數據被劃分成兩段——Ai及Bi，Bi在經過函數FK變換后再與Ai相加得到下一輪的Bi+1，而下一輪的Ai+1則為本輪的Bi。其中，函數FK中包含了AES的加密運算，K表示加密密鑰。FK函數還需要3個額外的輸入——基數n、tweak值T以及當前迭代輪數。標準草案中給出的3種不同算法主要在于FK函數的不同形式以及迭代輪數。

圖1 Feistel網絡結構示意

國內的研究學者在保形加密方面也開展了相應的工作[7-10]，主要是利用Feistel網絡來設計構造新的加密算法，將算法的適用性范圍擴展到任意分組長度、任意字符集以及變長編碼字符集（如同時包含中英文字符的數據），從而可以對更多類型的數據進行加密。

將保形加密應用于數據脫敏在傳統的關系型數據庫上已經相對成熟，但在大數據平臺方面的工作還很少見，僅有個別最新產品（如HP security voltage[11]）提供了相關功能以支持NIST標準草案中的保形加密算法。本文工作嘗試彌補這一方面的不足，開發實現了面向Hadoop大數據平臺的保形加密系統，并評估比較了不同實現方式的加密性能，為在實際生產環境中應用提供重要參考價值。

2.2 Hadoop大數據平臺

Hadoop[12]是由 Apache軟件基金會負責開發及維護的開源軟件框架，主要目標是針對大數據的分布式存儲及分布式處理。Hadoop的核心由分布式存儲組件HDFS與運算處理組件MapReduce組成。

HDFS是一種分布式的文件系統，它將文件分塊并分布式地存儲到多個數據節點（datanode）上，由元數據節點（namenode）負責管理文件系統的命名空間并存儲所有文件及文件夾的元數據信息。由于分布式的特性，HDFS能夠提供高吞吐量的數據訪問，從而適合大規模數據集上的應用。同時，HDFS提供多文件副本的冗余存儲及數據校驗，具有高容錯性的特點。

MapReduce是一種用于大規模數據集的并行運算模型，它由map（映射）與reduce（化簡）兩步組成，通過多個mappers并行地處理鍵值對，從而映射成新的鍵值對，再將這一中間結果輸出到相應的 reducers并發地進行化簡運算處理以得到最終結果。MapReduce最大的特點是充分利用分布式計算以提高大規模數據集的計算處理效率。

在HDFS文件存儲管理及MapReduce運算處理支持的基礎上，Hadoop平臺上發展出豐富的組件及多種數據管理訪問方式，除了基本的HDFS文件外，廣泛使用的還包括列式存儲的HBase和用類似關系型數據庫中以表結構存儲、SQL查詢語言訪問管理的Hive等。

然而，MapReduce也存在一些缺點，其中在性能方面的一個重要不足是其需要將每步處理的中間結果通過硬盤進行中轉，從而帶來大量的硬盤I/O開銷。針對此問題，UC Berkeley（美國加利福尼亞大學伯克利分校）的研究者開發了Spark[13]通用并行計算框架及平臺。Spark在存儲方面沿用 HDFS，主要是重新實現了分布式計算部分，將中間計算結果通過內存中轉，從而大幅提升了計算處理的效率。

本文工作面向Hadoop大數據平臺，支持Hadoop平臺上的多種數據存儲管理方式，并且探討了多種不同的系統實現方式，其中包含利用相對更高效的Spark并行計算框架以提升加密效率。

3 保形加密大數據脫敏系統

本節對保形加密大數據脫敏系統進行具體描述，并對一些重要的實現細節給出說明。

3.1 概述

本文共嘗試了3種不同的系統實現方式，分別是簡單單機模式、ETL工具模式以及Spark并行模式。這3種模式均是面向Hadoop大數據平臺上存儲的數據，區別主要在于核心的計算流程。簡單來說，單機模式是先將數據從Hadoop平臺上導出，然后再使用單機程序進行數據加密操作；ETL工具模式是利用支持Hadoop平臺的ETL工具作為媒介，形成“導出—加密—輸出”的流水線操作；Spark并行模式則是直接使用Spark并行計算框架進行開發，將加密操作以Spark作業的方式提交到集群上運行。在這些實現方式中，采用的保形加密算法是經過簡單修改的NIST標準草案中的FF1算法[6]。

3.2 保形加密算法

為了同時支持純數字、純字母及數字—字母混合這3種類型數據的加密操作，對NIST標準草案的FF1算法[6]進行了簡單修改。在給定分組加密密鑰K、基數n及tweak值T時，FF1算法能夠對明文P進行保形加密，默認n=10以下字符集對應數字0～9，再往上增長則依次對應英文字母a～z，如16進制對應的字符集為{0,1,…,9,a,b,…,f}。該算法給出了在FF1算法基礎上進行簡單修改后的保形加密算法整體流程的偽代碼描述。

輸入明文P、FF1加密算法F、分組加密密鑰K、基數n、tweak值T

輸出密文C

（1）判斷基數n是否不大于10，或者等于36

（2）如果是，則C=F（n,K,T,P），返回

（3）如果不是，則再判斷n是否等于26

（4）如果是，則

（5） P*=Map（P）

（6） C*=F（n,K,T,P*）

（7） C=InverseMap（C*），返回

（8）如果不是，返回基數設置異常錯誤

算法通過對基數 n的設置來調節所支持的字符集，n的取值范圍是{1,2,3,…,10,26,36}（其中n=1表示字符集只包含一個數字0，沒有意義）。舉例來說，n=10表示加密數域是十進制數，也就是字符集為數字（即 0～9）；n=36表示加密數域是36進制數，從而支持字符集為數字及英文字母混合（即 0～9、a～z）；而為了支持純英文字母字符集（即a～z）的加密，可令n=26，此時原本對應的字符集為0～9、a～p，所以需要在加密前及加密后附加進行一次額外的映射操作（第（5）行和第（7）行），將其轉換成a～z。

算法是不區分大小寫字母的，但可對其進行進一步的擴充，也就是說可以將同時包含數字及大小寫字母的字符集看作62進制數域，再進行相應的字符映射即可；類似地，還可以繼續擴充以支持更大的字符集，如全體ASCII字符。為了簡單而不失代表性，本文只實現了以上算法，進一步的擴展支持工作將在后續研究中完成。

FF1算法是一種對稱加密算法，其解密過程與加密過程是相同的，因此基于其的算法也是如此，這里就不再介紹算法的解密部分，而在接下來的具體實現方式描述以及之后的實驗評估部分也將略去對解密操作的說明。

3.3 簡單單機模式

簡單單機模式是3種模式中最為簡單、直接的系統實現方式，其思路是將存儲在Hadoop平臺上的數據先導出保存到本地，再使用實現的保形加密算法對存儲在本地文件中的數據進行加密操作，從而完成數據脫敏過程。根據存儲管理方式的不同，使用了對應的Hadoop編程接口以支持HDFS文件、HBase表及Hive表數據的導出。然后在單機上應用實現的算法對數據進行逐條加密。

簡單單機模式的優點是簡單、直觀，并且可以脫機處理（數據導出后不需要再連接大數據平臺），但缺點也很明顯——效率低，因為只使用了單機對數據進行串行式的逐條加密處理，既沒有利用大數據平臺分布式的特點，也沒有在加密方面進行并行處理。

3.4 ETL工具模式

為了提高加密的效率，可以利用ETL工具來實現流水線式處理以及并行度的提升。選用開源的ETL工具——Pentaho Data Integration（Kettle）[14]，將保形加密以轉換插件方式提供，從而直接支持Hadoop平臺上的多種數據格式。Kettle是一款跨平臺開源 ETL工具，它使得用戶可以直接通過使用可視化工具的拖拽來完成數據的導入、導出及基礎轉換操作，支持Cloudera版本（CDH）[15]、Hortonworks版本（HDP）[16]等多種Hadoop發行版本。所使用的Kettle的版本號是6.0.0.0-353。

保形加密插件的開發主要包含兩大部分，即加密算法和交互界面。加密算法即上述的算法，而交互界面的作用主要是與用戶進行交互，提供一些參數配置功能，包括明文列名、密文列名、密鑰配置（指定密鑰或隨機密鑰）、tweak配置（指定tweak值或隨機tweak值）及基數等。基于Kettle實現的保形加密系統主界面以及保形加密轉換插件配置界面如圖2所示，這也正是ETL工具模式的另一個優點——良好的用戶交互圖形界面。相對而言，其他兩種模式的系統實現僅能通過終端參數指定來進行簡單的交互。

ETL工具模式對保形加密的效率有兩方面的提升。第一個方面是“數據導出—加密脫敏—結果存儲”這條流水線的形成，即數據源源不斷地從Hadoop大數據平臺流出并進入保形加密模塊進行脫敏處理，然后再緊接著輸出到指定位置。第二個方面則是其支持并行處理：在Kettle的單機運行模式上，可以設置保形加密轉換步驟的并發數，從而利用多核心處理器的并發處理優勢；Kettle還可以組織成集群模式，通過將數據分發到集群的各個主機上，實現多主機并行處理的效果。

圖2 基于Kettle的ETL工具模式系統實現界面

3.5 Spark并行模式

為了進一步利用Hadoop平臺在分布式存儲及并行計算方面的優勢，可以直接基于并行計算框架實現保形加密操作。相較于MapReduce，Spark利用內存計算避免了低效的硬盤輸入/輸出操作，從而具有更高的計算效率。因此，基于 Spark實現的并行模式將為大數據規模的保形加密效率帶來實質性的提升。

具體地，使用Spark的Scala編程接口實現對Hadoop平臺上大數據的加密脫敏處理過程為：首先讀取Hadoop平臺上存儲的數據（HDFS文件、HBase表、Hive表等）形成Spark的數據抽象——彈性分布式數據集（resilient distributed dataset，RDD），然后再應用Spark提供的并行計算編程接口，在分布式集群上對所有RDD執行并行的加密操作。

在此種模式下，保形加密操作是以Spark作業的方式呈現的，通過將其提交到分布式計算平臺上執行來完成對數據的脫敏處理。因此，針對Spark的參數調優對于此模式的運行效率有一定影響。

4 實驗評估

為了評估所實現的保形加密大數據脫敏系統的性能，并比較第2節所提到的 3種模式的差別，在實際的Hadoop大數據平臺上開展了一系列實驗，本節將描述這些實驗內容及評估比較的結果。

4.1 實驗環境

采用的Hadoop平臺是由 3臺戴爾 PowerEdge R720服務器組成的小集群，采用的Hadoop版本是 CDH 5.4。在保形加密系統的簡單單機模式和ETL工具模式中連接Hadoop集群的主機是一臺聯想ThinkPad T440p筆記本電腦。服務器與筆記本電腦的CPU及內存的具體參數見表 1。

表1 CPU及內存參數

4.2 實驗分析

對第 2節所述的 3種模式實現的系統都開展了相應的實驗進行性能評估。列出的所有實驗數據均是在同樣的系統環境下10次獨立重復實驗的平均結果。

首先，測試了一些不同參數設置的影響。以ETL工具模式為例，測試了不同并發數、不同數據規模等場景下保形加密的性能。

不同并發數設置下ETL工具模式在Thinkpad筆記本電腦上單機執行時的保形加密性能比較結果如圖3所示，其中使用的數據規模是10M條（即107條）數據。由圖3可知，將并發數設置成計算機所具有的CPU核心數（本例中為4）時達到的性能最高——處理速度約為1.6萬條/s。

圖3 保形加密性能比較結果（不同并發數設置）

不同數據規模下ETL工具模式在Thinkpad筆記本電腦上單機執行的處理性能對比結果如圖4所示，其中，并發數設定為4，數據規模由最小的1萬（104）條一直增大到1億（108）條。圖中的x軸（數據條數）和y1軸（即左側的y軸，時間）均為對數尺度。由圖4可知，完成加密脫敏處理的時間隨數據規模的增大而基本呈線性增長趨勢，處理的速度在數據規模達到 106之后維持穩定。數據規模較小時處理速度較慢，其原因可能是初始連接Hadoop集群讀取數據到保形加密的流水線啟動期間執行相對較慢。

圖4 保形加密性能比較結果（不同規模設置）

同時，還開展了對不同類型數據（即基數設置不同）的加密性能評估比較，結果證明加密性能基本相同，即對純數字、純字母或數字—字母這3種類型的數據具有相同的加密性能，此處略去相關的結果。

類似地，對于簡單單機模式和Spark并行模式也評估了一些不同參數設置下的性能變化。由于篇幅的限制，這里不再一一給出。

然后，開展實驗來測評3種模式對相同規模數據進行加密脫敏處理的性能差別。實驗中其他參數設置均為最優（如ETL工具中保形加密的并發數、Spark作業提交的相關參數等）。3種模式在不同數據規模下的加密處理速度對比見表2。由表2可知，在這3種模式中，Spark并行模式的加密處理速度最快，而且隨著數據規模的增大，其處理速度還會有所提升，其主要原因是在數據規模較小時Spark的并行優勢還沒有得到充分發揮。相比較來看，另外兩種模式的加密處理速度在不同數據規模下基本維持穩定。總體來看，ETL工具模式的加密處理速度約為簡單單機模式的3倍，而 Spark并行模式的處理速度在大數據規模下（100M，即1億條數據）更能達到簡單單機模式的16倍之多。

為了更清晰地展示3種模式的加密效率差別，不同數據規模下3種模式的總執行時間對比如圖 5所示，圖例中“simple”表示簡單單機模式，“ETL”表示ETL工具模式，“Spark”表示Spark并行模式。

表2 3種模式加密處理速度對比

圖5 3種模式總執行時間比較

從這一結果中也能得出，基于保形加密的大數據脫敏系統性能可以滿足實際生產需要的結論。具體來說，對于108規模的數據（即1億條），使用ETL工具模式處理僅需要花費約105 min，而使用Spark并行模式更是只需要花費約20 min，而且這只是在一臺配備四核處理器的筆記本電腦單機ETL模式以及僅由3臺服務器組成的Spark集群下的測量結果。若在實際生產環境中采用集群模式的ETL或者更大規模的Spark集群，則必然能取得更高的加密脫敏效率。

5 結束語

針對大數據環境下的脫敏問題設計了一種面向Hadoop平臺的基于保形加密的解決方案，并完成了具體的系統實現工作。該系統支持Hadoop平臺下的多種數據存儲格式，如HDFS文件、HBase表、Hive表等，可以對純數字、純字母及數字—字母混合等多種類型的敏感數據完成保形加密的脫敏操作。給出了3種不同的實現方式，即簡單單機模式、ETL工具模式及 Spark并行模式，它們有著各自的優/缺點和適用場景。在實際的Hadoop平臺上，開展了一系列實驗來評測 3種實現方式的系統性能，結果驗證了系統在實際生產環境中的可行性，也對 3種模式的使用選擇有重要的指導意義。在后續研究工作中，將嘗試擴展算法使其支持更多種的數據類型，并深入測試ETL工具模式中使用集群工作模式的效果以及 Spark參數調優的具體影響。

[1]BLACK J,ROGAWAY P.Ciphers with arbitrary finite domains [M].Berlin Heidelberg:Springer,2002.

[2]SPIES T.Feistel finite set encryption mode[J/OL].NIST Proposed Encryption Mode,2008:1-10.（2008-01-24）[2016-07-01].https: //static.aminer.org/pdf/PDF/000/217/259/about_feistel_schemes_ with_six_or_more_rounds.pdf.

[3]BELLAREM,RISTENPARTT,ROGAWAYP,etal.Format-preserving encryption[C]//Selected Areas in Cryptography,March 4-9,2009, Berlin,Germany.Berlin Heidelberg:Springer,2009:295-312.

[4]BELLARE M,ROGAWAY P,SPIES T.The FFX mode ofoperation for format-preserving encryption[J].Unpublished Nist Proposal, 2010,136（9）:633.

[5]BRIER E,PEYRIN T,STERN J.BPS:a format-preserving encryption proposal[J/OL].NIST submission,2010:1-11.（2010-04-04） [2016-07-01].http://csrc.nist.gov/groups/ST/ toolkit/BCM/documents/proposedmodes/bps/bps-spec.pdf.

[6]DWORKINM.Recommendation forblock ciphermodesofoperation: methodsforformat-preservingencryption[J].NISTSpecialPublication, 2013（800）:38.

[7] 劉哲理,賈春福,李經緯.保留格式加密模型研究[J].通信學報,2011,32（6）:184-190. LIUZL,JIAC F,LIJW.Research on the format-preservingencryption modes[J].Journal on Communications,2011,32（6）:184-190.

[8] 劉哲理,賈春福,李經緯.保留格式加密技術研究[J].軟件學報,2012,23（1）:152-170. LIUZL,JIACF,LIJW.Research on the format-preservingencryption techniques[J].Journal of Software,2012,23（1）:152-170.

[9]李敏,賈春福,李經緯,等.變長編碼字符型數據的保留格式加密[J].吉林大學學報:工學版,2012,42（5）:1257-1261. LI M,JIA C F,LI J W,et al.Format-preserving encryption for variable-length encoding character data[J].Journal of Jilin University:Engineering and Technology Edition,2012,42（5）: 1257-1261.

[10]李經緯,賈春福,劉哲理,等.基于 k-分割 Feistel網絡的FPE方案[J].通信學報,2012,33（4）:62-68. LI J W,JIA C F,LIU Z L,et al.FPE scheme based on k-sp lits feistel network[J].Journal on Communications,2012,33（4）: 62-68.

[11]HP.HP security voltage[EB/OL].（2015-02-09）[2016-03-01]. https://saas.hpe.com/en-us/software/voltage-data-encryptionsecurity.

[12]Apache Software Foundation.Apache Hadoop[EB/OL].（2011-12-10）[2016-07-01].http://hadoop.apache.org/.

[13]Apache Software Foundation.Apache Spark[EB/OL].（2014-05-30）[2016-07-01].http://spark.apache.org/.

[14]Pentaho.Data integration-Kettle[EB/OL].（2009-05-14）[2016-07-01].http://community.pentaho.com/projects/data-integration/.

[15]Cloudera.Cloudera CDH[EB/OL].（2012-10-12）[2016-07-01]. http://www.cloudera.com/products/apache-hadoop/key-cdh-components.htm l.

[16]Hortonworks.HORTONW0RKS data platform （HDP）[EB/OL].（2012-11-30）[2016-07-01].http://hortonworks.com/products/ data-center/hdp/.

Implementation and evaluation of big data desensitization system based on format-preserving encryption

BIAN Chaoyi1,2，ZHU Shaomin1，ZHOU Tao1
1.Beijing Venus Information Security Technology Incorporated Company,Beijing 100193,China
2.Beijing University of Posts and Telecommunications,Beijing 100876,China

Data desensitization is a process that makes some special transformations on sensitive data in order to protect the secrecy and privacy from being acquired by malicious attackers.Format-preserving encryption is one of the techniques of data desensitization,which has the advantage of keeping data format unchanged so that the upper layer applications are not affected.Along with the coming of big data and the wide application of the Hadoop platform,data desensitization techniques for traditional relational database management systems cannot satisfy the need of production.A data desensitization system based on format-preserving encryption for Hadoop platform was implemented,which provided the encryption support for multiple data storage formats and data value types.Moreover, three different sorts of implementations were discussed,and a series of experiments were carried out to evaluate the performance.

big data,data desensitization,format-preserving encryption,system,evaluation

TP309.2

：A

10.11959/j.issn.1000-0801.2017059

卞超軼（1987-），男，北京啟明星辰信息安全技術有限公司高級研究員，啟明星辰博士后工作站——北京郵電大學博士后流動站聯合培養博士后，主要研究方向為大數據自身安全、大數據安全分析等。

朱少敏（1983-），男，北京啟明星辰信息安全技術有限公司前線技術專家團成員，主要研究方向為電力系統信息安全、多媒體信息處理等。

周濤（1979-），男，博士，北京啟明星辰信息安全技術有限公司教授級高級工程師，主要研究方向為大數據安全分析、事件關聯分析、入侵檢測等。

2016-10-20；

2017-02-24

電信科學2017年3期

電信科學的其它文章: 基于情感神經網絡的風電功率預測; 基于決策樹的企業信息系統故障自動診斷分析方法; “互聯網+”核電調試信息化應用; 智能光纖監測技術在電力光通信中的應用; 電力云資源池基礎架構的設計和實施; 基于大數據的電力信息網絡流量異常檢測機制