項胤興 楊 里 陳伯建 李國才
1(國網福建省電力有限公司電力科學研究院 福建 福州 350007) 2(國網福建省電力有限公司 福建 福州 350001) 3(四川大學電氣工程學院 四川 成都 610065)
在對線損的分析和降損措施方法的研究中,針對用電信息的大數據挖掘將發揮非常大的作用[1]。但由于電力營銷、用電等數據涉及用戶隱私、商業秘密,對該數據的開放應用面臨著較大的隱私泄露風險。同時線損和降損措施分析需要對多個區域、多個層次的線損數據進行挖掘,需要各層次數據源的協調數據發布共享。這亦是電力企業眾多業務場景下電力數據開放和大規模商業應用亟待解決的問題。一方面,電力企業各個業務與部門積累了海量數據,數據種類與數量持續增加;另一方面,由于數據源分布式分布、數據異構產生的孤島現象使企業無暇進行針對性的數據挖掘與利用,無法更好地為企業創造巨大的社會和經濟效益。
近年來,為了促進電力數據創新應用和數據商業化的同時有效保護隱私和商業秘密,涌現出了大量研究成果和信息保護方案:
(1) 標志信息移除替換,分析數據中個體的標志變量信息,利用對原始隱私數據進行去標志處理,將標志隱藏在信息中或者利用人工假名進行標志變量替換。
(2) 降低數據精度,該方法通過控制標識數據精度的方式進行調控。
(3) 數據聚合,該方法利用群組或者總體信息進行聚合以減少隱私信息泄露。
(4) 匿名化,該方法通過加密技術處理數據以實現信息匿名化。
(5) 差分隱私算法[2],該算法其本質是一種利用隨機添加噪聲數據來實現隱私保護的方案,并且添加的噪聲數據不會妨礙此后的數據挖掘[3]。差分隱私保護技術對數據記錄的保護能夠無視攻擊者擁有的知識背景,是最具有應用前景的脫敏保護方法。
這些方法能夠將隱私數據發布的泄露風險降低到可以控制的范圍[4]。但在面臨區域電網級別的數據綜合應用時,由于數據的分布式分布,數據發布分享系統還須考慮對隱私模型、隱私保護參數協商和存儲、應用商識別數據追溯等安全問題。
目前解決協商、存儲和追溯等安全領域的前沿是區塊鏈技術。區塊鏈是按照時間順序的數據塊的鏈式結構,數據都組織在樹型的數據結構中,節點間通過下一級節點的散列值進行標記。區塊鏈通過去中心化的密碼學實現安全防篡改的分布式數據庫,它的特點是安全、智能、公開可驗證、可溯源、開放和透明。構成區塊鏈的技術包括密碼技術、分布式存儲、共識機制和智能合約。智能合約是運行于區塊鏈中用戶自定義的程序,合同參與方以自執行的方式高效地構建其間關系。區塊鏈技術在共享經濟[5]和電力系統交易中已多有應用。黃虹等[6]針對電力自由雙邊交易,提出基于聯盟鏈技術的電力交易方法以解決中心化電力交易模式中市場主體互信度不夠、數據安全性不高的問題。Kellaris等[7]針對隱私數據在連續發布或者監測場景的需求提出了解決方案。Zhang等[8]通過引入貝葉斯網絡來解決高維隱私數據發布上的低效率問題。
對此,本文針對線損綜合業務系統的線損和用戶用電數據挖掘的應用,在高維隱私數據聯合共享發布且隱私數據連續發布的應用的場景下,提出一種基于區塊鏈技術與隱私保護技術相結合、滿足多層次隱私需求的差分隱私數據集發布方案。即在區塊鏈中存儲共享數據塊的差分隱私技術參數、屬性加密數據、數據應用模型及狀態、數據的處理結果和處理交易的信息。通過對區塊鏈中的智能合約的設計,完成數據源協商數據脫敏數據交易的全過程。原始數據塊經過差分隱私脫敏后和數據應用模型及狀態打包通過可信任執行環境交由第三方進行數據挖掘計算,計算結果通過智能合約記錄到鏈中。該數據分發共享系統具有極高的安全性,解決了電力數據發布共享應用中分布式數據源和數據應用商群體之間協調工作的問題,并且通過區塊鏈的可追溯性可以進行正確的數據訪問責任。
基于區塊鏈的電力線損數據分析架構如圖1所示。

圖1 基于區塊鏈的電力數據應用架構
圖1中業務數據源是各個地市的線損業務管理系統,部署在企業內網。業務數據源分布在企業內網各個地區,以數據流的方式提供電網結構特征、設備物理參數、電網運行特征、用電結構特征等各種因素構成的多元指標體系,這些指標/屬性中大量包括用戶ID、地址等需要匿名處理的信息。大數據應用系統是各個獨立的具有針對性的數據模型挖掘應用,可以是企業內部不同地區的應用系統,也可以是承接數據處理和分析的第三方子系統。這些應用系統對業務系統有著不同的數據需求,系統以離線批處理方式或者是在線方式通過授權系統與區塊鏈發生交互,交互流程如圖2所示。

圖2 基于區塊鏈的電力線損數據應用流程
該方案與現有數據共享和發布機制不同的是區塊鏈建設在企業內部,在智能合約協助下,業務系統方流程為:(1) 公布數據定義及算法等模型上鏈。(2) 智能合約作為可信任的第三方將脫敏規則上鏈保存。(3) 智能合約將處理模型和狀態上鏈,并觸發應用方獲得數據下載模型和狀態,通過授權的通道獲得數據集,進行處理后,報告信息上鏈完成。(4) 數據源(業務)系統通過處理報告進行分析獲得線損因素,進一步進行線損管理。
在線損大數據挖掘分析中,各個地區的電網結構特征、設備物理參數、電網運行特征、用電結構特征等各種因素構成的多元指標體系具有相同的屬性和較高維度,并且每組數據包含不同的個體,多個業務系統數據源分別擁有一組局部關系數據集。在智能合約輔助下,需要對常見的數據包括名稱、地址、用戶ID等敏感數據進行脫敏操作,另外由于數據會進行修改,需要在數據安全的前提下盡可能減少數據的信息損失。由于線損數據是基于時間序列數據流,數據量非常大。因此本文的數據發布方案采用多種方案相結合,一方面采用數據匿名化技術對名稱、地址、用戶ID等信息進行處理;另一方面采用數據脫敏技術對時間戳格式進行處理。該處理流程能夠成功阻止身份被公開,又不會顯著影響數據分析挖掘的效果,如圖3所示。

圖3 基于差分隱私數據發布結構
假設有N個業務系統分別是S1,S2,…,SN,其所有的局部地區數據集為Dk,這些數據集具有相同的屬性:
χ=(X1,X2,…,Xd,t)
(1)
顯然Dk∩Dl=?,k≠l,其中t為時間戳。業務系統對隱私的保護水平可以被分割為m個層級,記為:

參考文獻[8]業務系統與智能合約在差分隱私條件下構建貝葉斯網絡Ν,然后分成以下5個階段。


(3) 智能合約利用收到的各個業務系統的邊際分布Pk(Xi,Πi)進行統計,計算每個候選屬性-父節點集合對中屬性與其候選父節點集合的互信息I(Xi,Πi)。并選取其中最大值為該屬性的父節點集合,這樣就確定了貝葉斯網絡Ν的結構。
(4) 業務系統在智能合約輔助下,先對時間戳進行第一層自適應概化,并且計算每個數學技巧父節點結合的帶噪聲的邊際分布Pk(Xi,Πi),并利用該邊際分布,計算屬性Xi在給定父節點集合Πi時的條件分布Pk(Xi,Πi),i=1,2,…,d。這個階段使用拉普拉斯機制在邊際分布中加入εu預算的噪聲,這樣在聯合發布階段,數據滿足了εu-差分隱私保護。
(5) 基于Pk(Xi,Πi),i=1,2,…,d,智能合約輔助計算數據集Dk近似的聯合分布:
基于差分隱私的組合性質,在智能合約計算屬性分組的邊際分布時,通過對原始數據引入多方拉普拉斯機制在屬性分組的邊際分布中加入噪聲,從而保證該階段的δ-差分隱私保護。在貝葉斯網絡N的結構初始化和更新階段,業務系統利用局部數據集合通過迭代為屬性的學習過程,滿足δ-差分隱私保護。
該過程對應用系統是透明的,這樣可以降低隱私泄露的風險。在本文應用場景中,區塊鏈智能合約作為可信的第三方,在應用程序的調用下操作賬本將涉及的隱私信息以安全的方式保留在鏈中,同時可以協調多個業務系統和應用商協同完成線損數據挖掘應用。
實驗驗證環境在實驗室中實現,運行平臺是Intel至強E5-1603,主頻2.8 GHz,內存16 GB。本文以聯盟鏈Hyper ledger Fabric為區塊鏈平臺以Docker方式進行部署,實現數據源系統和大數據應用系統的雙邊模擬交易保證去中心化。數據處理平臺采用Spark,配置為本地方式。實驗數據為帶時間戳的用電消費數據。為了測試隱私處理性能,實驗采用一個機器學習任務K-means分類,在整體生成數據集上訓練分類器。實驗中衡量分類數據的準確率,對每個任務多次重復運行,并記錄結果的平均值。
圖4給出了不同數目數據源業務系統提供數據對算法的影響。其中隱私預算為,推薦的差分隱私保護方案和沒有隱私保護下生成的數據訓練的二分類器的分類錯誤率。可見加入差分隱私保護后,分類器性能比未進行隱私保護的方案有一定程度下降,同時可以看出隨著業務系統數目的增加,性能比較穩定。

圖4 不同數目業務系統下的分類差錯率曲線
圖5給出了方案在不同隱私預算要求情況下的推薦方案的分類錯誤率,可見隨著隱私保護要求的加強,分類器性能逐漸變差。業務系統對隱私數據的分層處理也會影響最后分類器的錯誤率,圖中給出了分別為High和Low兩種情況下對系統分類錯誤率的影響。

圖5 不同隱私預算下系統方案性能曲線
實驗環境中區塊鏈合約設置能夠完成雙邊交易的協商功能,基本滿足系統響應要求。通過隱私保護和分類訓練結果表明該方案可以滿足差分隱私保護要求,對業務系統關鍵數據進行保護,同時也能夠保證應用系統數據挖掘和機器學習的要求。
本文提出一種基于區塊鏈技術與差分隱私保護技術相結合的非信任多方數據共享模型。實驗系統測試表明,通過對隱私數據共享策略和智能合約設計,該方案可以實現業務系統關鍵數據的分層隱私保護,滿足差分隱私保護要求,整個數據交易都將在區塊鏈中可追溯,達到了預期設計目標。該實驗方案驗證了該數據共享保護方案的可行性,下一步還將繼續優化和項目方協調進行生成環境試運行。本文提出的方法有助于實現企業隱私數據的共享利用,為隱私保護下的大數據挖掘提供新的技術解決思路。