999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據共享模式下個人檔案數據隱私泄露研究及仿真

2022-10-11 07:37:00鮮婭靜
電子設計工程 2022年19期
關鍵詞:策略分析質量

鮮婭靜

(西安醫學院,陜西西安 710021)

隨著大數據、檔案管理、人工智能等技術不斷發展,高質量、易敏感的個人檔案數據共享需求[1,2]也越來越迫切。數據共享技術是一把雙刃劍,一方面為人們的生活帶來了諸多便利,另一方面也導致個人檔案數據泄露的隱患不斷增加[3-4]。

為了有效應對數據共享中隱私泄露的問題,國內外眾多學者對去識別技術[5-6]進行了研究,并取得了豐碩成果。一種有效思路是將法律引入數據共享方案[7],即只有遵循協議或法律保護的數據才能共享。另一種方案是研究技術理論,如文獻[8]提出了一種基于GRUs 和深度上下文詞表示的去標識系統;文獻[9]提出一種基于約束聚類的k-匿名隱私保護方法。然而k-匿名隱私保護方法無法保證數據記錄的唯一性,這將嚴重影響數據質量。

為保護共享數據不受隱私侵犯,該文提出將受控的數據共享與數據去識別技術相結合,在提供高質量數據和可擴展性的同時,能夠應對受限訪問環境的隱私泄露問題。

1 受控數據共享技術

1.1 網關設計和威脅分析

該節著重分析網關,并使用數據流圖(Data-Flow Diagram,DFD)和威脅樹(Threat Tree,TT)[10]分析重新識別攻擊。

圖1 所示為數據共享網關的數據流圖。網關將請求發送到分析解決方案的接口,該接口運行在包含敏感信息的數據存儲的頂部。為簡潔起見,該文重點討論隱私問題,并假設系統已包含信息安全的相關措施,即假設持有敏感數據的所有系統都已安裝防火墻,遠程服務器之間的通信始終加密,并且每個用戶都要經過正確的身份驗證和授權。

圖1 數據共享網關的數據流圖

圖2 所示為數據共享中攻擊的威脅樹模型,可分為鏈接攻擊和直接泄露兩部分。鏈接攻擊核心為重識別數據技術,該技術要求對手將數據集的記錄與附加信息相關聯。該過程可遠程執行,并將包含識別信息的數據集上傳到數據分析平臺;或進行本地執行,將敏感研究數據下載到對手控制下的系統。當用戶從給定的記錄中簡單地識別出一個人時,就會發生直接泄露。這種威脅的典型例子是意外披露或內部好奇,該情況經常發生在研究人員沒有主動和故意實施攻擊的情況下。

圖2 數據共享中攻擊的威脅樹模型

1.2 實施和緩解策略

受控數據共享的主要目標是防止接收者執行鏈接攻擊。為此,必須反擊遠程和本地鏈接的攻擊向量,并關閉多個側通道。

如圖3 所示,數據共享網關通過使用遠程幀緩沖區(Remote Frame Buffer,RFB)協議[11],通過虛擬網絡計算(Virtual Network Computing,VNC)[12-13]公開其前端控制分析員和分析軟件之間的交互。VNC 客戶機接受用戶輸入,并將用戶輸入(即鼠標和鍵盤事件)傳輸到VNC 服務器。VNC 服務器將這些事件重定向到X 服務器,X 服務器還提供VNC 服務器公開的幀緩沖區。作為網關和分析軟件之間的橋梁,X 服務器的配置為以Web瀏覽器方式顯示分析平臺的界面。

圖3 受控數據共享環境

進一步,需要關閉各種潛在的威脅通道。首先,必須確保用戶在瀏覽器中的安全。用戶不能執行其他程序,瀏覽器只能與服務器通信,并且分析軟件不能用于訪問外部數據。其次,必須將VNC 服務器配置為不支持客戶端和服務器之間的復制和粘貼操作,以防止用戶傳輸結構化數據。接著,為了防止用戶通過模擬鼠標和鍵盤交互上傳大量數據,必須為這類操作設置速率限制。最后,應記錄用戶的鍵盤和鼠標交互過程,并在交互會話期間錄制包含屏幕內容的視頻,捕獲和存儲所有網絡信息。

2 數據去識別策略

受控數據共享環境可防止數據收件人執行鏈接攻擊。為了防止直接泄露,必須確保在數據主體身份方面引入足夠程度的不確定性。為此,該文開發了一種定制的數據去識別方法。

2.1 總體唯一性模型

如前文所述,該節引入某種程度的不確定性,即記錄是否對應于特定的個人。當總體唯一性(Population Uniques,PU)模型的數量(即數據集中具有總體內唯一特征的記錄)受到控制時,樣本唯一性(Sample Uniques,SU)的記錄(即數據集內唯一的記錄)也會引入不確定性。因此,只有數據集模型中唯一記錄的子集具有總體唯一性。樣本中的唯一記錄對應于總體中給定個體的概率為若|PU|=|SU|,則說明系統提供了足夠的保護。

令n表示數據集中要取消標識的記錄數,N表示從中提取記錄的總體大小,u表示數據集中的記錄組數。每個組由具有相同特征的記錄組成,si表示包含i個記錄組的數目。總體唯一性的估計如下:

其中,Γ(·)表示伽瑪函數,是階乘函數對實數的擴展。θ和α是以下二元非線性方程組的根:

2.2 算法過程

在評估給定的去識別策略時,首先將數據集利用泛化方案轉換成一組不可區分的記錄;其次,利用k-匿名隱私模型計算風險概況,并將其作為總體唯一性模型的輸入;再次,如果總體唯一性的數目不低于給定的閾值,則具有最低信息內容的記錄組被抑制;接著,針對修改后的數據集評估隱私模型;最后,重復此過程,直到達到閾值。

該算法計算了輸出數據集的質量,并繼續執行下一個策略。當處理完所有候選解后,輸出質量最高的解。然而,總體唯一性模型計算過程復雜且時效性較低。為了使這個過程在現實環境中可行,該文實施了一些優化策略,其一是減少候選策略的數量;其二是降低風險計算的復雜性,具體描述如下。

2.2.1 減少候選策略數量

該策略主要基于數據質量模型的通用剪枝策略來減少候選策略的數量。其基本思想是通過測量兩種類型的轉換所導致的數據質量降低,來考慮將數據通過屬性泛化和記錄抑制進行轉換。隨著泛化程度的提高,僅泛化數據所導致的質量下降單調增加。這可用于排除僅使用泛化生成的數據集質量已經低于當前已知最佳解決方案質量的所有直接和間接策略。

2.2.2 降低風險計算的復雜性

計算風險需要用牛頓法[14-15]求解一個二元非線性方程組。這個迭代解算器從一個初始猜測開始,然后通過反復計算目標函數及其四個偏導數,朝著根方向搜索可行解。

為降低風險計算的復雜性,首先修改了解算器計算對象函數以及單個方法調用中的導數。將函數分解成常用的塊,然后在不同的計算中進行融合和重用。例如,考慮以下兩個函數:

其中,p1(α,θ)是標函數f1(α,θ)(式(2))的第一項和,p2(α,θ)是標函數f2(α,θ)(式(3))的第一項和。由于這些函數可以在單個循環(循環融合)中進行計算,且p2(α,θ)的和可以通過p1(α,θ)的和乘以i得到。

然而,評估函數仍然需要多次迭代。由于這兩個函數都是有理函數的有限和,因此可以用Digamma函數ψ來代替,其為Gamma 函數的對數導數。則有如下遞推公式:

因此,p1(α,θ)可更新為:

推導過程有3 個重要步驟。首先,需確保索引變量i沒有因子。這可通過從總和中分解出α-1 來實現;其次,將索引變量從0 開始,而不是從1 開始;最后,將式(5)中描述的等式代入Digamma 函數ψ,并進行公式簡化。

同理,p2(α,θ)可推導如下:

可以看出,p1(α,θ)和p2(α,θ)共享Digamma 對相同輸入的評估,因此它們可以相互融合。

3 仿真與分析

該節利用健康數據去識別工具ARX 對所提方法進行仿真分析。仿真環境為四核3.1 GHz Intel core i5 CPU、運行64 位Linux 3.2.0 內核和64 位JVM的服務器。

3.1 數據集

仿真所用數據集均來自互聯網上的開源數據集,包括交通事故死亡分析報告數據集(FARS)、美國時間使用調查數據集(ATUS)、美國人口普查數據集(ADULT)、綜合健康訪談系列數據集(IHIS)和知識發現與數據挖掘數據集(KDD)。對于所有數據集,選擇8~9 個準標識符,其中包括傳統的人口統計數據(如年齡、性別),這些數據經常用于重新確認身份的攻擊,以及可能導致意外重新確認身份的其他屬性,如婚姻狀況和教育程度等。

3.2 結果節分析

表1 所示為不同數據集下,該文所提算法和使用k-匿名算法[16]時數據去識別的數據質量和執行時間統計結果。可以看出,隨著k值變化,數據質量有提升,約為9%。相比之下,使用該文所提的總體唯一性模型,得到的數據質量明顯高于使用k-匿名時的數據質量,質量提高約40%。

表1 不同數據集下各算法性能對比

對比執行時間可以看出,在某些情況下使用總體唯一性模型的時間較慢(如KDD、FARS、IHIS),而在其他情況下較快(如ADULT、ATUS)。分析原因在于所涉及的不同優化過程的相互作用。例如,減少候選策略數量方法的有效性隨著最優解的質量提高而減弱。因此,對總體唯一性模型的限制可能比k-匿名算法更多,導致尋找最優解的過程更加復雜。

圖4 所示為不同數據集下剪枝和無剪枝策略時間對比,可以看出,所提排除候選策略的方法刪減了大部分搜索空間,在ATUS 數據集下執行時間縮短了倍。圖5 所示為不同數據集下優化和無優化策略的時間對比,可以看出,在ADULT、KDD、FARS 數據集下效果不明顯,但在ATUS 數據集下其運行效率提升47 倍左右,IHIS 數據集下運行效率提升3 倍左右。

圖4 不同數據集下剪枝和無剪枝策略時間對比

圖5 不同數據集下優化和無優化策略時間對比

4 結論

為了有效應對數據共享中隱私泄露問題,對個人檔案數據隱私泄露問題進行了研究與分析,并提出一種將受控的數據共享與數據去識別技術相結合的模型。受控數據共享環境可防止數據收件人執行鏈接攻擊。為了防止直接泄露,必須確保在數據主體身份方面引入足夠程度的不確定性。為此,開發了一種定制的數據去識別方法。為保證該過程在現實環境中可行,實施了一些優化策略,其一是減少候選策略的數量,其二是降低風險計算的復雜性。

未來可將能耗、資源受限制等條件引入模型,進一步增強系統的實用性。

猜你喜歡
策略分析質量
“質量”知識鞏固
隱蔽失效適航要求符合性驗證分析
質量守恒定律考什么
例談未知角三角函數值的求解策略
我說你做講策略
做夢導致睡眠質量差嗎
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
電力系統及其自動化發展趨勢分析
質量投訴超六成
汽車觀察(2016年3期)2016-02-28 13:16:26
主站蜘蛛池模板: 日本亚洲欧美在线| 亚洲永久视频| a毛片免费在线观看| 国产日韩精品一区在线不卡| 亚洲黄网在线| 国产99在线| 欧美一级黄色影院| 青青操视频免费观看| 国产第一福利影院| 在线va视频| 久久情精品国产品免费| 亚洲成人黄色在线观看| 国产一区二区三区免费| 国产成人av一区二区三区| 久久综合亚洲鲁鲁九月天| 国产在线观看精品| 色天天综合久久久久综合片| 亚洲一区波多野结衣二区三区| av色爱 天堂网| 中文字幕免费在线视频| 国产后式a一视频| 精品国产污污免费网站| 国产无码性爱一区二区三区| 亚洲中文字幕国产av| 青青热久免费精品视频6| 国产视频久久久久| 亚洲va欧美ⅴa国产va影院| 制服丝袜无码每日更新| 国产精品极品美女自在线看免费一区二区| 亚亚洲乱码一二三四区| 国产天天色| 日本不卡免费高清视频| 亚洲大尺码专区影院| 亚洲第一福利视频导航| 亚洲精品大秀视频| 亚洲不卡网| 亚洲欧洲天堂色AV| 黄色网站不卡无码| 成年人国产视频| 国产欧美精品专区一区二区| 亚洲九九视频| 国产欧美网站| 少妇极品熟妇人妻专区视频| 亚洲人成人伊人成综合网无码| 91青青草视频在线观看的| 成人午夜网址| 99资源在线| 高清国产在线| 综合久久五月天| 97久久超碰极品视觉盛宴| 精品久久香蕉国产线看观看gif| 成人年鲁鲁在线观看视频| 一级毛片不卡片免费观看| 亚洲婷婷在线视频| Aⅴ无码专区在线观看| 精品国产香蕉在线播出| 亚洲综合在线最大成人| 国产精品高清国产三级囯产AV| 久久这里只有精品8| 欧美精品亚洲二区| 午夜不卡视频| 亚洲一区无码在线| 日韩 欧美 小说 综合网 另类| 国产一级毛片网站| 2021天堂在线亚洲精品专区| 亚洲欧美日韩精品专区| 四虎影视8848永久精品| 爽爽影院十八禁在线观看| 亚洲开心婷婷中文字幕| 亚洲91在线精品| 国产美女在线观看| 毛片在线播放网址| 中文国产成人精品久久一| 久久久成年黄色视频| 中文字幕波多野不卡一区| 国产高清在线观看| 制服丝袜 91视频| 五月天综合网亚洲综合天堂网| 一区二区三区在线不卡免费| 大陆精大陆国产国语精品1024| 91精品专区| 四虎永久在线视频|