徐敏
(云南電網(wǎng)有限責任公司,云南昆明 650217)
數(shù)字南方電網(wǎng)作為一家大型商業(yè)公司,擁有大量核心商業(yè)機密和國家安全機密的數(shù)據(jù),同時也有許多敏感數(shù)據(jù),包括用戶個人信息、位置以及一些重要設備名稱等[1]。如果沒有采取有效的保護措施,會導致這些重要的機密數(shù)據(jù)丟失或被破壞,不僅會給企業(yè)造成無法估量的嚴重后果,而且還會影響企業(yè)的良好形象[2]。伴隨著智能電網(wǎng)的迅速發(fā)展,對敏感數(shù)據(jù)的保護要求也越來越高,如何在數(shù)據(jù)交換、共享和使用過程中精確定位、充分脫敏,是當前實現(xiàn)數(shù)據(jù)安全使用的關鍵性問題。就當前存在的問題,有文獻提出采用傳統(tǒng)的“煙囪式”架構搭建數(shù)據(jù)的中間庫,但是該數(shù)據(jù)中間庫在數(shù)據(jù)使用監(jiān)管方面存在薄弱點,對數(shù)據(jù)脫敏存在數(shù)據(jù)安全隱患;大數(shù)據(jù)使用面向HBase 的脫敏技術,并結合權限算法完成脫敏任務[3]。然而該方法計算步驟復雜,需要耗費大量時間,大大降低了電力數(shù)據(jù)的傳輸速率,大數(shù)據(jù)脫敏效果較差。綜上所述,提出了基于K-means 聚類的電力大數(shù)據(jù)脫敏技術研究。該技術結合K-means 聚類算法檢測異常電力大數(shù)據(jù),實現(xiàn)數(shù)據(jù)高效脫敏。
采用目標函數(shù)最小化的方法,在初始聚類點處進行迭代選擇,對K-means 算法進行優(yōu)化,達到局部最優(yōu)聚類效果。在采用K-means 算法聚類時,要根據(jù)不同的聚類對象選擇組合,需要多次選擇不同的聚類對象,并據(jù)此進行聚類運算[4]。
在K-means 聚類分析結果的基礎上,對異常大數(shù)據(jù)進行檢測與計算,通過對電力系統(tǒng)大數(shù)據(jù)進行聚類,確定聚類中心的位置,比較各數(shù)據(jù)點到聚類中心的距離,判斷各數(shù)據(jù)點是否存在異常[5-7]。
假定在初始數(shù)據(jù)集中有樣本數(shù)據(jù),執(zhí)行K-means聚類算法,樣本數(shù)據(jù)的特征數(shù)據(jù)屬性為整數(shù)[8]。基于樣本數(shù)據(jù)的特征屬性,整個K-means 聚類過程產(chǎn)生聚類中心距離的平方和,公式為:
式(1)中,Aj表示第j個數(shù)據(jù)的中心點;Bi表示第i個聚類中心;λij表示聚類系數(shù)[9]。
基于計算得到的聚類中心距離平方和目標函數(shù)極值,將K-means 聚類算法應用于電力大數(shù)據(jù)異常檢測中,應用流程如圖1 所示。
在檢測過程中,首先要確定原始文本數(shù)據(jù),然后隨機選取聚類中心,最后用K-means聚類算法進行數(shù)值計算[10]。如果這個值是常數(shù),說明聚類算法在迭代過程中并不是最優(yōu)的,需要通過更新聚類中心來重復迭代過程[11]。K-means 聚類結果如圖2 所示。

圖2 K-means聚類結果
由圖2 可知,依據(jù)K-means 聚類分簇結果,對電力大數(shù)據(jù)進行分類處理,以此進行異常數(shù)據(jù)檢測[12]。
根據(jù)上述檢測結果,構建脫敏系統(tǒng),通過該系統(tǒng)實現(xiàn)數(shù)據(jù)高效脫敏。
電力大數(shù)據(jù)脫敏系統(tǒng)由四個層次構成。該系統(tǒng)分別通過各個層次的計算與存儲,發(fā)現(xiàn)敏感數(shù)據(jù)并對其進行脫敏處理,滿足終端用戶需求。
1)資源層:為系統(tǒng)提供計算、存儲等基本的物理資源,包括網(wǎng)絡資源,用于數(shù)據(jù)脫敏服務[13]。
2)數(shù)據(jù)層:負責對所有數(shù)據(jù)進行操作管理和安全管理,其中包括知識庫、規(guī)則庫和權限庫,利用機器學習形成模型庫對不同數(shù)據(jù)進行排除、管理的規(guī)則化脫敏策略,支持對敏感數(shù)據(jù)的權限管理[14]。
3)服務層:作為核心服務層,可提供數(shù)據(jù)脫敏引擎、規(guī)則化引擎和服務器引擎的支持,可發(fā)現(xiàn)結構復雜、較大的敏感數(shù)據(jù),并完成這些數(shù)據(jù)的脫敏操作。
4)應用層:負責將數(shù)據(jù)庫、文件和多媒體脫敏按數(shù)據(jù)類型提供給終端用戶,可根據(jù)業(yè)務需要,分為靜態(tài)脫敏、動態(tài)脫敏,以滿足不同測試和研發(fā)過程的需要。
在脫敏系統(tǒng)上的電力大數(shù)據(jù)脫敏步驟如下所示:
步驟一:敏感配置信息導入。根據(jù)具體的接口信息需求,將元數(shù)據(jù)管理系統(tǒng)接口在數(shù)據(jù)脫敏系統(tǒng)中提取預留,方便敏感配置信息的輸入[15]。
步驟二:敏感數(shù)據(jù)識別。識別全部數(shù)據(jù),從中選擇用戶想要訪問的信息,并對信息內容進行詳細分析。依據(jù)識別格式,結合處理技術,識別出敏感數(shù)據(jù)。
步驟三:敏感數(shù)據(jù)判斷。基于數(shù)據(jù)脫敏配置方法,在業(yè)務應用調用各種數(shù)據(jù)時,應根據(jù)業(yè)務用戶的數(shù)據(jù)進行權限和數(shù)據(jù)敏感性檢查,并判斷敏感數(shù)據(jù)的脫敏程度。如果用戶權限或數(shù)據(jù)觸發(fā)脫敏處理中敏感程度越高,則數(shù)據(jù)脫敏程度越低;如果用戶權限或數(shù)據(jù)敏感性較低,則觸發(fā)程度越高;如果未觸發(fā)數(shù)據(jù)解密過程,則數(shù)據(jù)直接呈現(xiàn)給業(yè)務用戶[16-17]。
步驟四:脫敏服務運行。針對脫敏服務,需從靜態(tài)和動態(tài)兩種方式展開,如下所示:
1)靜態(tài)數(shù)據(jù)脫敏
根據(jù)執(zhí)行策略,通過脫敏程序對低權限個體訪問的敏感數(shù)據(jù)進行脫敏處理。靜態(tài)數(shù)據(jù)脫敏機制如圖3 所示。

圖3 靜態(tài)數(shù)據(jù)脫敏機制
從圖3 可以看出,儲存同一個數(shù)據(jù)庫中全部脫敏靜態(tài)數(shù)據(jù),按不同權限級別對用戶訪問數(shù)據(jù)內容進行劃分。與分離組件相結合,獲得不同用戶的訪問請求,根據(jù)請求對敏感數(shù)據(jù)進行分類。高權限用戶可以獲得原始版本數(shù)據(jù);低權限用戶只能獲得敏感版本數(shù)據(jù)。
2)動態(tài)數(shù)據(jù)脫敏
結合替代查詢功能的代理數(shù)據(jù)庫實現(xiàn)動態(tài)數(shù)據(jù)脫敏,對代理數(shù)據(jù)庫查詢語句進行自動識別,重新寫入這些敏感字段,轉換為不包含敏感字段的語句。向代理數(shù)據(jù)庫傳遞轉換結果,對查詢結果進行重新計算和修改,最終按所需的統(tǒng)一格式打包發(fā)送給用戶,完成敏感信息的處理,圖4 為動態(tài)數(shù)據(jù)脫敏機制。

圖4 動態(tài)數(shù)據(jù)脫敏機制
從圖4 可以看出,脫敏系統(tǒng)中的響應改寫模塊和請求改寫模塊作為數(shù)據(jù)容器出口,對用戶與服務器之間所有數(shù)據(jù)的請求和響應進行檢測和處理,或者應用程序代碼,無需更改數(shù)據(jù)存儲,從而實現(xiàn)代理機制。
使用Linux 操作系統(tǒng),研究基于K-means 聚類的電力大數(shù)據(jù)脫敏技術的合理性,并進行試驗驗證分析。
數(shù)字南方電網(wǎng)以公司發(fā)展戰(zhàn)略為引領,以穩(wěn)定、靈活的一體化數(shù)字平臺為核心,構建以數(shù)據(jù)驅動的業(yè)務運作、管控和決策體系,一體化數(shù)字平臺如圖5所示。

圖5 一體化數(shù)字平臺
該公司為全面開展數(shù)據(jù)資產(chǎn)運營,推進數(shù)據(jù)供給,實現(xiàn)數(shù)據(jù)供給側和數(shù)據(jù)需求側對接。目前該公司xx 部門利用生產(chǎn)庫ADG 為原始數(shù)據(jù)端,通過OGGDSGDBLINK 等不同的方式抽取同步到下游自建“中間庫”,為應用開發(fā)測試提供數(shù)據(jù)服務。同一個源頭數(shù)據(jù)庫中存在多個中間庫,這些中間庫分別由所服務的項目組進行維護,在數(shù)據(jù)集成、應用方面實現(xiàn)統(tǒng)一的管理。然而,由于中間庫服務結束后,沒有后續(xù)管理,如果項目組未能及時申報退運相關中間庫,則中間庫的軟、硬件資源不能回收,其中所承載的業(yè)務數(shù)據(jù)不能及時清除、銷毀。
分別使用基于“煙囪式”架構脫敏技術、面向HBase 的大數(shù)據(jù)脫敏技術和基于K-means 聚類脫敏技術,對電力大數(shù)據(jù)進行脫敏處理,處理結果如圖6所示。

圖6 三種技術脫敏處理結果
由圖6 可知,使用基于“煙囪式”架構脫敏技術無法有效保護電力用戶的身份信息安全,身份證大部分數(shù)據(jù)已暴露;使用面向HBase 的大數(shù)據(jù)脫敏技術,用戶部分姓名完全暴露,身份數(shù)據(jù)部分暴露;使用基于K-means 聚類脫敏技術,用戶姓名和身份證號均能被脫敏處理,有效保證了用戶身份信息安全。
分別使用三種技術分析大數(shù)據(jù)安全性,對比結果如表1 所示。
由表1 可知,使用基于“煙囪式”架構脫敏技術和面向HBase 的大數(shù)據(jù)脫敏技術無法保證用戶身份信息安全,而使用基于K-means 聚類脫敏技術能夠使電力大數(shù)據(jù)高效脫敏,保證用戶身份安全。

表1 三種技術大數(shù)據(jù)安全性對比分析
該文將提出的基于K-means 聚類的電力大數(shù)據(jù)脫敏技術應用于數(shù)字南方電網(wǎng)。該技術能夠保障用戶之間數(shù)據(jù)透明,確保業(yè)務緊密關聯(lián),實現(xiàn)一個平臺上多數(shù)據(jù)源脫敏服務。在當今大數(shù)據(jù)時代,數(shù)據(jù)脫敏是企業(yè)進行數(shù)字治理所必需的一種安全機制。隨著數(shù)據(jù)脫敏技術的不斷發(fā)展,應以更高的精確度、最細的粒度以及更好的可用性來面對用戶。同時,大數(shù)據(jù)脫敏技術還需要具備更高的自動化能力,能夠進行良好的呈現(xiàn),具有較強的擴展性,以適應未來用戶對多領域數(shù)據(jù)交換、共享與整合需求。