999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于核熵成分分析的電力用戶核心大數據匿名化研究

2022-12-06 09:05:16李磊賀易周正陳璞詹鵬杜旭光
微型電腦應用 2022年11期
關鍵詞:用戶分析

李磊,賀易,周正,陳璞,詹鵬,杜旭光

(1.國網湖北省電力有限公司 信息通信公司,湖北,武漢 430077;2.北京國網信通埃森哲信息技術有限公司,北京 100031)

0 引言

隨著智能電網的快速發展,以大數據技術為基礎的電力系統已成為電力行業發展的關鍵,其運行產生的海量異構數據已成為數據分析和挖掘的關鍵[1-2]。其中,電力用戶的核心大數據由于實時性高、數據敏感度強等特點[3],迫切需要對其進行安全隱私保護。數據匿名化[4]通過對數據敏感部分特別處理,達到隱私保護的目的,現已成為大數據隱私保護的重要方式。目前常用的匿名化手段包括加密、模糊泛化、消去等,其中分組匿名化是最常用的數據匿名化技術[5-6]。

常用的分組匿名化有k-匿名化和l-多元化匿名化框架。這些匿名化算法均使用在小規模數據。針對這一問題,卞超軼等[7]基于分布式內存計算引擎Spark實現大數據匿名化,處理效率和匿名化隱蔽性得到極大提升,但存在數據丟失現象。為進一步提升電力用戶核心大數據匿名化的隱蔽性,本文在此基礎上,利用核熵成分分析的降維作用[8],提出一種新的分組數據匿名化算法,并通過具體事例分析,對其進行研究。

1 大數據匿名化算法設計與實現

1.1 算法描述

本文采用算法以分組匿名化為基礎。分組匿名化核心思想是構造匿名記錄組,使得在同一記錄組內,多條數據難以區分。采用的核熵成分分析方法通過核函數學習方法和信息熵結合,特征分解核矩陣,選擇對信息熵貢獻最大的特征向量的投影方法投影。

基于核熵成分分析方法的電力用戶核心大數據匿名化是通過核熵成分分析方法將用于識別個體身份的準標識符映射到高維空間,具體映射方法為設電力用戶核心大數據的準標識符為[x1,x2,…,xM]T,其中,M代表準標識符的個數。經非線性映射φ:xi→φ(xi),將數據映射到高維特征空間,即:

Φ(x)=[φ(x1),…,φ(xM)]

(1)

首先,選擇對二次Renyi熵貢獻值較大的l個特征值與特征向量,通過式(2)獲得新的高維空間準標識符數據,

(2)

其中,Dl為特征值,El為特征向量。

然后,在高維空間,將所涉及的準標識符數據的屬性全部模糊化,確保全部數據條目完全統一。接著依次選擇屬于準標識符的屬性提升公開信息循環,不斷劃分數據,保證k-匿名化需求,直至迭代不能滿足k-匿名化需求停止。準標識符屬性有2種,即數值屬性和類別屬性。其中,數值屬性是通過選擇中位數二分數據,類別屬性則依據具體類別數劃分。

1.2 算法運行方式

本文選擇Hadoop平臺對電力用戶核心大數據進行匿名化管理。Hadoop是基于一種分布式系統基礎架構設計的數據管理平臺。在Hadoop集群中,其中一個主控節點管理著集群的運行,并協調從結點來實現數據計算功能。Hadoop系統初始核心組件主要為MapReduce并行框架和HDFS分布式文件系統,經過發展,目前已經集成了HBase分布式數據管理系統、Sqoop關系數據交換工具以及各類數據處理工具,成為一個大型數據處理生態群[13-15],如圖1所示。

圖1 Hadoop生態系統

本文數值屬性劃分采用中位數的方式進行,為避免快速排序在確定中位數的時間復雜度,本文通過統計每種取值出現的次數定位中位數的方式。實現方法為采用一個隊列機理,然后繼續劃分子數據集,接著依照順序從隊列中取出迭代進行。

2 大數據匿名化系統實現

為驗證基于核熵成分分析的電力用戶核心大數據匿名化算法的有效性,通過具體事例進行分析。

2.1 事例概述

本事例選擇某省2018年9~10月的部分電力用戶核心數據作為實驗樣本,涉及年齡、郵編、婚姻狀態、性別和用電量。其中,核心數據的敏感信息為用電量,非敏感信息為年齡、郵編、婚姻狀態、性別。其中,非敏感信息泄露會導致電力用戶核心數據用電量泄露。事例中,2個為數值屬性,其余3個為類別屬性。在實驗過程中,數據集通過文本文件形式放在HDFS中。系統采用常用的數據集Adult進行。具體如表1所示。

表1 某省部分電力用戶核心數據

2.2 具體算法處理

通過核熵成分分析方式,將數值信息映射到高維空間,然后進行處理。處理方式如圖2所示,以郵編、年齡作為數值屬性數據集,采用核熵成分分析方法,達到2-匿名化要求。其中,(a)為數據分布情況,“☆”為數據條目,模糊化后用“*”表示。依照郵編屬性進行數據劃分,左側初始的“*”變化為“≤30K”,右側為“>30K”。然后再對數據子集選擇年齡屬性再次進行劃分,得到左下方數據初始“*”為“≤50”,左上方側為“>50”。對其右側數據子集依據年齡屬性再次進行劃分,如圖(b)。其中,右下方年齡屬性變化為“≤54”,右上方數據年齡屬性變化為“>54”。此時不能再進行任何劃分,獲得年齡屬性“>50”,郵編屬性為“≤30K”。

2.3 效果分析

(1) 隱蔽性分析

為了驗證電力用戶核心大數據的隱蔽性,本文通過隱私泄露進行分析,具體結果如圖3所示。對比數據為基于Spark的電力用戶核心大數據匿名化所得的結果。

對比圖3可知,相對于基于Spark的電力用戶大數據匿名化系統,基于核熵成分分析的電力用戶核心數據隱蔽性更佳,隱私泄露比例更少。這主要是由于核熵成分分析將信息量較大的主元數據映射到高維空間,在高維空間進行主元分析,可以有效規避對所有信息進行隱蔽產生的數據丟失現象,提高核心大數據的隱蔽性。

(2) 處理效率分析

為了分析電力用戶核心大數據匿名化系統進行處理的效率,體現大數據處理優勢,對原有的數據集進行復制3 000倍,并對復制數目的數值隨機修改。本文采用本算法系統和基于Spark的系統進行相同處理,并記錄其用時,每次數據集重復進行10次,具體結果如圖4所示。

(a)

圖3 隱蔽性對比分析

根據圖4可知,采用基于核熵成分分析的電力用戶核心大數據匿名化算法具有更高的處理效率。

3 總結

針對電力用戶核心大數據,本文引入了基于核熵成分分析的匿名化算法進行處理,結果顯示:

圖4 處理效率對比圖

(1) 將信息量較大的主元數據映射到高維空間,在高維空間進行主元分析的降維方法,可以很好地應用在電力用戶核心大數據匿名化研究中;

(2) 基于核熵成分分析的電力用戶核心大數據匿名化,具有更高的隱蔽性和更快的數據處理效率。

猜你喜歡
用戶分析
隱蔽失效適航要求符合性驗證分析
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
電力系統及其自動化發展趨勢分析
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
中西醫結合治療抑郁癥100例分析
主站蜘蛛池模板: 成人福利在线看| 国产裸舞福利在线视频合集| 欧美亚洲一区二区三区导航| 亚洲精品在线观看91| 国产亚洲视频在线观看| 色呦呦手机在线精品| 久久久久亚洲精品成人网 | 欧美视频在线播放观看免费福利资源 | 欧美97欧美综合色伦图| 成人小视频网| 国产免费一级精品视频| 免费激情网站| 91在线精品麻豆欧美在线| 99免费在线观看视频| 亚洲看片网| 极品私人尤物在线精品首页| 免费xxxxx在线观看网站| 久久99国产综合精品女同| 国产成人无码久久久久毛片| 欧美成人A视频| 高h视频在线| 亚洲中文字幕无码爆乳| 欧美精品亚洲日韩a| 欧美不卡视频一区发布| 成人精品免费视频| 欧洲在线免费视频| 极品国产一区二区三区| 久久久久免费精品国产| 国产精品不卡片视频免费观看| 第一区免费在线观看| 国产在线精品网址你懂的| 国产二级毛片| 国产男女免费完整版视频| 丰满少妇αⅴ无码区| AV无码一区二区三区四区| 无码国产偷倩在线播放老年人 | 91国内在线视频| 老汉色老汉首页a亚洲| 91无码国产视频| 国产91全国探花系列在线播放| 国产区免费| 国产精品思思热在线| 欧美a√在线| h网址在线观看| 视频二区国产精品职场同事| 永久毛片在线播| 国产精品极品美女自在线网站| 日韩在线中文| 一级在线毛片| 宅男噜噜噜66国产在线观看| 国产区福利小视频在线观看尤物| 人妻21p大胆| 亚洲丝袜第一页| 亚洲国模精品一区| 五月天综合婷婷| 一级香蕉视频在线观看| 国产91九色在线播放| 国产日韩欧美精品区性色| 国产成人a毛片在线| 青青久在线视频免费观看| 91色在线观看| 久久精品国产国语对白| 狠狠久久综合伊人不卡| 天堂在线www网亚洲| 日韩天堂视频| 精品视频在线观看你懂的一区| 欧美精品二区| 色综合热无码热国产| 亚洲欧美精品日韩欧美| 成人午夜精品一级毛片| 久久精品人妻中文视频| 九九九精品成人免费视频7| 亚洲a免费| 无码高潮喷水专区久久| 欧美在线国产| 久久国产亚洲偷自| 538精品在线观看| 无码 在线 在线| 本亚洲精品网站| 国产亚洲视频中文字幕视频| 久久天天躁狠狠躁夜夜2020一| 欧美日韩午夜视频在线观看|