黃萍
摘 要:在對測試數據脫敏技術框架分類展開分析基礎上,本文結合電力測試數據脫敏需求提出了相應的脫敏技術框架建構思路和方法,并對框架部署和數據脫敏流程進行了探討,希望能夠為電力行業數據脫敏提供參考。
關鍵詞:測試數據;脫敏技術;元數據管理
中圖分類號:TP309;F832.33 文獻標識碼:A 文章編號:1671-2064(2019)04-0056-02
0 引言
在信息時代,企業數據資源成為了推動業務發展創新的重要動力。而電力企業擁有大量涉及核心商業機密和客戶隱私的敏感數據信息,還要加強數據保護管理,以免因數據泄露承擔過大損失。因此在電力測試系統中,需要完成測試數據脫敏技術框架的構建,實現數據脫敏處理,保證電力數據得到安全管理。
1 測試數據脫敏技術框架分類
所謂的數據脫敏,又被稱之為數據漂白、數據變形或去隱私化,需要采用既定脫敏方法實現數據處理,在符合規則前提下完成數據改造,保證數據能夠在開發、測試等環節中得到安全使用,同時保證數據集的真實性[1]。針對測試技術進行脫敏處理,需要將敏感性原始數據轉換為不敏感的脫敏數據。而脫敏技術框架對具體脫敏處理底層技術進行了承載,將決定數據脫敏效果。在脫敏技術框架下,底層技術將被實例化應用,使框架抽象設計得到最大限度利用。現階段,針對測試數據,主要應用的脫敏技術框架有兩種,一種是基于數據文件的脫敏框架ETL,另一種則是基于數據庫表的脫敏框架。其中,ETL由抽取(Extract)、變形(Transform)、裝載(Load)三個環節構成,具有較高通用性,在IBM OPTIM等主流商用工具中得到了應用,能夠從源數據表中完成數據抽取,得到特定格式原始數據文件。無論是否進行部分量數據抽取,都能使數據間關聯關系的完整性得到保證。對數據文件進行遍歷,利用外掛脫敏出口函數實現數據變形處理,可以得到特定格式的脫敏數據文件,在目標數據庫中實現裝載[2]。采用基于數據庫表的脫敏框架,可以省略從數據庫表抽取數據的環節,能夠直接進行源數據變形。因此在該框架下,數據庫表為處理對象,通過逐條讀取數據記錄,按照不同變形規則進行處理,然后在源數據庫標中對記錄進行更新,可以得到脫敏數據。在數據測試時,可以根據需求從源數據庫表中到處脫敏數據文件,在對應目標測試環境中裝載。
2 測試數據脫敏技術框架建構
2.1 電力數據脫敏需求分析
在智能電網建設得到不斷推進的背景下,大量敏感數據在電力行業得到了積累,給開發測試、業務分析等工作的開展帶來了困難。為加強數據安全管理,電力企業完成了信息資產分類分級保護機制的建立,用于加強敏感數據測試、傳輸和存儲管理。在電力數據測試環節,為防止敏感數據泄露,要求完成數據脫敏處理。因為電力系統中測試環境資源有限,無法對生產環境數據量進行完整模擬,所以只能實現部分功能性測試部署,難以實現性能層面測試。受數據質量影響,生產環境會出現運行緩慢問題。盡管能夠通過資源擴充方式解決環境資源問題,但是想要實現全量數據恢復,還要提高環境安全防護級別[3]。針對生產環境中的業務數據,不允許在測試環境中恢復,因此需要采用數據脫敏技術手段實現涉密數據脫敏處理,然后才能在測試環境中恢復生產環境數據。按照要求,電力測試數據脫敏需要完成電力生產敏感數據脫敏,利用標準化建模和自動化流程完成測試數據脫敏,保證數據安全性。現階段,由于缺乏系統性脫敏技術方案,只在少數系統中部署了數據脫敏模塊,在數據脫敏方面缺乏專業化工具和管理手段。針對高敏感數據,無法實現自動化的數據脫敏管理,在測試數據漂白方面無法對敏感數據進行有效屏蔽,因此難以滿足電力數據脫敏需求。
2.2 脫敏技術框架建構思路
結合電力測試數據脫敏需求可知,需要按照類型完成數據歸類處理,實現不同數據源類型的脫敏。從底層架構上來看,采用ETL脫敏得到的數據形式為文件,數據落地次數在1到2次之間,與數據源平臺耦合松散,對源數據無影響,但是對存儲空間要求較高[4]。采用基于數據庫表的脫敏技術框架,數據落地次數在0到1之間,與平臺耦合緊密,以數據記錄作為異常處理最小顆粒度,會給源數據帶來一定影響,但是無過高存儲空間要求。因此在實際進行脫敏技術框架構建時,可以在底層架構上實現兩種技術框架整合,達到優勢互補的目的,提高測試數據脫敏自動化水平,使框架能夠對不同脫敏需求進行靈活應對。建立該框架,電力測試系統可以根據不同目標完成不同大小測試數據子集的建立,從而使數據存儲空間得到減小,同時使數據脫敏效率得到提高。在數據抽取、脫敏過程中,數據的業務關聯不會遭到破壞。針對不同數據庫中的同類數據,可以實現歸檔處理,經過脫敏后可以保證數據一致性。
2.3 脫敏技術框架建構方法
在實際建構脫敏技術框架時,可以采用基于BS管理模式的多層框架結構,為測試數據提供統一元數據管理,為元數據的裝載、使用、維護等提供支持,增強脫敏工具的可擴展性,為多個數據庫數據脫敏提供便利。采用元數據驅動法,可以進行小容量子集的創建,使數據庫工作效率得到提高。從框架結構上來看,最底層為數據存儲層,向上依次為服務引擎層、業務引擎層、流程管理層、邏輯界面層,最上層為物理界面層。實現各層分離設計,能夠按照需求實現容量擴展,對數據進行集群化處理,使數據處理性能得到保證。針對海量電力測試數據,采取該架構可以完成統一數據脫敏管理平臺的建設,為各種業務的開展提供服務。從總體來看,數據存儲層需要面向文件內容管理和元數據庫,實現各業務系統數據分離式對接。利用服務引擎層,可以實現數據存取、格式轉換、緩存等操作,并實現適配器控制,使數據得到預處理,為后續數據脫敏奠定基礎。業務引擎層能夠對日志、元數據等進行控制,并且提供歸檔處理和脫敏處理引擎,能夠完成數據脫敏。按照脫敏規則,可以結合需求實現脫敏技術的應用和更新。實際采用的脫敏技術包含歸零、屏蔽、移動、加解密、代替等,并且設置有自定義脫敏算法。流程管理層可以實現歸檔模型、規則的定義,并且提供歸檔模型樹和列表,按照需要對脫敏得到的數據進行歸檔處理。邏輯界面層可以生成動態界面,提供個性化服務,并對用戶請求進行處理。采用技術框架進行數據脫敏,能夠為敏感性專有數據提供保護。通過屏蔽脫密,能夠得到高度仿真數據,并確保數據無法識別。在框架應用過程中,能夠從備份數據庫和電力生產系統中進行原始數據直接抽取,并且采用統一接口讀取數據,利用核心模塊實現數據脫敏算法調用,按照測試數據脫敏需求抽取子集。最后,按照需求進行脫敏數據歸檔,可以在目標測試環境中裝載數據。采用該種技術框架,能夠完成通用脫敏函數的配置,為各種脫敏算法的實現提供支持。通過對各種算法進行模塊化組合,可以完成數據高效處理。
3 測試數據脫敏技術框架實現
3.1 框架實踐部署
在框架實踐部署時,可以結合電力企業實際運行環境進行脫敏引擎節點部署。在數據庫節點部署上,可以進行Oracle數據庫的安裝,用于實現數據脫敏源和脫敏目標的存放,為數據脫敏處理提供工具資料庫。另外,也可以在云化集群系統中實現框架部署,為分布式數據脫敏提供支持,使框架結構具有較好擴展性。針對脫敏引擎節點,可以實現不同目標類型替換,如XML文件、關系型數據庫、自定義文件、文本文件等。考慮到電力測試數據量較大,需要采用多線程并行執行方式進行數據數據表處理,利用主鍵完成Hash分組,并進行partition鍵值的設置,確保各組數據量相等。以數據庫表為脫敏對象,可以采用動態SQL技術作為脫敏規則函數。通過完成SQL變換引擎、SQL智能分析引擎等數據脫敏引擎的配置,可以在不改變電力生產數據庫中原始數據的基礎上完成數據脫敏。相較于靜態SQL,動態SQL在程序運行時需要完成Access Path編譯,并且需要在每次執行時重復編譯,數據訪問速度有所降低,但是卻具有較強靈活性。采用參數標志符Parameter Markers,能夠利用Prepare完成編譯。根據宿主變量對緩存Access Path進行賦值,無需制定Prepare,因此能夠降低開銷。利用動態訪問和檢索方式,可以避免數據外泄。針對數據脫敏處理工具,需要完成多線程處理配置,使各線程負責相應Hash分組數據,有效降低脫敏數據處理時間。
3.2 數據脫敏流程
從數據脫敏流程來看,針對電力生產中采用的PMS、GIS和財務管控系統數據,需要實現數據脫敏,然后將得到的數據在測試系統中應用,避免電力用戶個人隱私數據泄漏時。首先,需要完成數據業務需求梳理,對需要脫敏的數據進行確認。結合電力生產實踐可知,需要對包含業務對象、基本表、分區狀況和索引表等在內的業務數據進行分析,實現數據模型。針對業務對象,需要梳理父子關系信息、脫敏規則、主外鍵信息等關聯關系和脫敏準則。對接口脫敏用戶的權限,需要進行評估,完成相關資源創建,然后實現連接配置,使數據源的可用性得到保證。針對脫敏規則和流程,還應實現人工配置,確定脫敏表、脫敏函數、脫敏流程控制、脫敏函數分級等信息。在元數據導入管理上,根據接口信息可以完成敏感信息導入設置。通過執行手工觸發配置和設定的時間調度,并且執行計劃任務,則能實現數據抽取,在目標測試環境中完成脫敏數據裝載。根據執行狀況,可以對脫敏任務進行修改、展示等操作。在脫敏處理中,針對SQL語句,系統會完成合規性和安全性檢查,直接拋棄不符合要求的語句,并結合脫敏規則進行SQL語句改寫,利用語句完成數據檢索查詢。得到的數據經過脫敏引擎,能夠完成實時脫敏處理。針對得到的測試數據報告,還要根據業務審計需求加強審計,在審計報表中完成時間段、制定用戶等內容的填寫。
4 結語
測試數據脫敏為復雜技術工作,還要從業務需求角度著手完成數據脫敏技術框架的構建。對于電力企業來講,在生產數據測試中,需要完成敏感數據脫敏處理,避免用戶個人隱私數據泄露。在實際進行脫敏技術框架構建時,需要采用元數據管理方法,實現脫敏技術框架多層分離設計,并采用動態SQL技術實現核心數據脫敏功能,從而實現對各種業務需求的靈活應對。
參考文獻
[1] 朱克,彭昌余.電力用戶信息脫敏研究[J].電腦知識與技術,2018,14(26):10-12.
[2] 冉冉,李峰,王欣柳等.一種面向隱私保護的電力大數據脫敏方案及應用研究[J].網絡空間安全,2018,9(01):105-113.
[3] 邢宇恒,張冰,毛一凡.數據脫敏在海量數據系統中的應用[J].電信科學,2017,33(S1):8-14.
[4] 焦偉,周曉聰,周期律.測試數據脫敏技術框架的研究與探討[J].中國金融電腦,2016(07):40-47.