999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

移動醫療中個性化l-多樣性匿名隱私保護模型*

2018-05-09 08:50:02黃麗韶羅恩韜
計算機與生活 2018年5期
關鍵詞:信息模型

李 文,黃麗韶,羅恩韜,2+

1.湖南科技學院 電子與信息工程學院,湖南 永州 425199

2.中南大學 信息科學與工程學院,長沙 410083

1 引言

隨著移動醫療技術的迅猛發展,醫療數據共享范圍的逐步擴大,以及數據挖掘技術、深度學習技術的不斷更新,醫療數據在不同醫院之間的共享越來越方便。數據、信息的挖掘和共享也創造出巨大的經濟價值和社會價值。但是,在數據發布和共享過程中存在一個不容忽視的問題,那就是醫療患者的隱私泄露。如果醫療機構在共享數據的時候沒有充分考慮數據隱私問題,那么非法用戶(攻擊者)就可以利用其他機構發布的數據進行串聯推測,甚至利用同一醫院不同時段發布的數據漏洞獲取到醫療患者隱私敏感信息,從而對患者隱私造成不可預測的泄漏風險。

以往醫療機構在共享或者發布醫療數據時,出于隱私保護的目的,會選擇將一部分個人識別信息去除,如姓名、地址和電話等,然而攻擊者仍然可以通過其他手段獲得用戶某些不敏感信息,利用這些信息與用戶的疾病診斷數據進行對應,從而獲得病人關于其所患疾病的隱私,這種攻擊也稱為鏈接攻擊[1]。

表1是一張醫療數據表,醫院在發布時并沒有顯式地給出病人的姓名。然而,假設攻擊者在網絡中得到表2所示的用戶所轄區選民投票表,那么攻擊者就可以通過將兩張表的共同屬性,例如郵編(430056),進行鏈接推導,從而推斷出病人的姓名(Kevin)及所患疾病“過度肥胖”。如果不法攻擊者將這些信息出賣給減肥中心,就直接導致病人(Kevin)的隱私信息泄露。

2 基于匿名原則的隱私保護

基于匿名原則的隱私保護,主要是在數據發布或者共享前,通過數據泛化、數據抑制[1-3]等技術手段對數據表中的相關屬性進行處理,不發布或限制發布某些數據,從而讓個人標識信息與敏感屬性失去關聯,達到隱私保護的目的[4-6]。

Table 1 Sheet of medical data表1 醫療數據表

Table 2 List of voter poll表2 選民投票表

2.1 k-匿名思想

在眾多基于匿名原則的隱私保護方法中,k-匿名思想因其在保護隱私信息的同時也保證數據可用性,成為數據發布中進行隱私保護的重要技術手段[7-12]。其核心思想是通過概括和隱匿技術,發布精度較低的數據,使得每條記錄至少與數據表中其他k-1條數據具有完全相同的準標識符屬性值,從而減少鏈接攻擊所導致的隱私泄漏。

定義1k-匿名(k-anonymity):給定數據表T{A1,A2,…,An},T的準標識符為QI,當且僅當T[QI]中每一個值序列在T[QI]中至少出現k次,稱表T滿足QI上的k-匿名。T[QI]表示表T的元組在QI上的投影。

2.2 k-匿名實質

k-匿名實質就是要求數據集中每一條記錄都要與至少k-1條記錄在準標識符上的投影相同,因此,個體所在記錄被確定的概率不超過1k。而泛化[13]是典型的實現匿名化隱私保護的技術手段,其實質是用一般化的值或區間來替代具體值,通過降低數據精度增加攻擊者獲取個體隱私信息的難度。

表3是經過泛化后的一張滿足k=2的匿名醫療數據表。

Table 3 Meeting 2-anonymous data sheet表3 滿足2-匿名數據表

2.3 k-匿名缺點

雖然k-匿名算法提高了發布信息的安全性,但是由于需要對數據表的某些屬性進行泛化和隱匿,損失了一部分數據的可用性。同時k-匿名算法在運算過程中,存在查詢結果不精確的缺點,尤其是在用戶稀少的場景下,將產生較大的匿名區域,從而增大通信開銷。

3 信息熵l-多樣性模型

經過泛化后的數據表滿足k-匿名,保證了某個用戶處于k個同類別的個體集合之中,使得擁有相同準標識符的用戶個體不可區分,從而達到一定的匿名性保護。然而,如果處于同一等價類中的k個元組在敏感屬性上的取值相同,則用戶個體記錄會受到同質性攻擊而造成屬性泄露,例如表3中第二個等價類。

為了解決同質性攻擊帶來的隱私泄露問題,文獻[13]提出了l-diversity模型,即l-多樣性模型,要求每個等價類至少含有l個表現良好(well-presented)的敏感屬性值,考慮了對敏感屬性的約束。如果數據表中每個等價類中含有l個不同的敏感屬性值,那么就稱該數據表滿足l-多樣性規則。文獻[7]還給出了一種信息熵l-多樣性規則。

定義2信息熵l-多樣性(entropyl-diversity):給定數據表T{A1,A2,…,An},準標識符屬性為QI{Ai,Ai+1,…,Aj},敏感屬性為SA,S={Si,Si+1,…,Sj}為敏感屬性值。表T滿足k-匿名,并且其等價類集合為E={E1,E2,…,En},當且僅當對每一個等價類Ei=1,2,…,n?E,都滿足式(1)時,則稱數據表T滿足信息熵l-多樣性。

其中,P(Ei,s)為等價類Ei中敏感屬性值s出現的頻率;為等價類Ei的信息熵,又稱信息熵多樣性,記作Entropy(Ei)。信息熵反映了屬性的分布情況,信息熵越大,意味著等價中敏感屬性值分布越均勻,推導出具體個體的難度也就越大。由式(1)可知,要想等價類滿足信息熵l-多樣性,那么等價類的信息熵至少為lg(l)。表4是匿名數據表中的一個等價類。

Table 4 Meeting 5-anonymous equivalence class表4 滿足5-匿名等價類

表4中等價類的信息熵l-多樣性計算結果如下:

從結果來看,對于該等價類來說,其信息熵多樣性為lg1.65,參數l的取值不能超過1.65,那么只能取1,考慮到l-多樣性的定義,也就是說等價類中至少有1個不同的敏感屬性值,對于實際發布的數據表而言,這種結論顯然意義不大。

并且該等價類中的敏感屬性,有4個是“流感”,對于很多病人來說,顯然這并不是敏感屬性,如果等價類中包含4個如“肺結核”這種敏感程度很高的敏感屬性,假設攻擊者知道某人處于該等價類中,那么攻擊者有很大把握推測該人有“肺氣腫”的疾病傾向特征,這對于病人來說是不可接受的。實際上,醫療信息中包含著大量的諸如“流感”或者“發燒”這些非敏感屬性值,這些屬性值的公開并不會侵犯到個體隱私。因此,信息熵l-多樣性模型沒有區分敏感屬性值,不能反映出這種情況下隱私泄露的風險。本文提出一種個性化信息熵l-多樣性模型來保護用戶的醫療數據隱私。

4 個性化信息熵l-多樣性模型

4.1 個性化信息熵

多樣性模型定義針對信息熵l-多樣性模型存在的不足,一方面需要提高等價類的信息熵值,另一方面需要區分敏感屬性值,降低敏感屬性強的信息泄露概率。

因此,可以將敏感屬性值分為強敏感值SV(sensitive value)和弱敏感值DV(don't care value),修改信息熵l-多樣性規則后得到新的個性化信息熵l-多樣性規則。

定義3個性化信息熵l-多樣性:給定數據表T{A1,A2,…,An},QI{Ai,Ai+1,…,Aj}為T的準標識符,SA為敏感屬性,S={Si,Si+1,…,Sj}為敏感屬性值集合,SV表示強敏感值,DV為弱敏感值,|SV|為強敏感值的個數,|DV|為弱敏感值的個數。表T滿足k-匿名,并且其等價類集合為E={E1,E2,…,En},當且僅當對每一個等價類Ei=0,1,…,n?E,都滿足式(2)時,則稱數據表T滿足個性化信息熵l-多樣性。

其中,P(Ei,SV)為強敏感屬性值在等價類中出現的頻率;為個性化等價類的信息熵多樣性。

由式(2)可知,需要計算等價類中強敏感屬性值的頻率P(Ei,SV),而不需要計算會降低P(Ei,SV)lgP(Ei,SV)值的弱敏感屬性值出現的頻率。用式(2)計算表4中等價類的信息熵,有DV={流感},SV={肺氣腫},|DV|=1,|SV|=1,SV在等價類中出現的概率為1/5,那么改進后的信息熵多樣性為:

根據計算結果,l的取值不超過2.282 8,則l為2,該等價類滿足2-多樣性。個性化信息熵l-多樣性相比較信息熵l-多樣性,提高了等價類信息熵,降低了從等價類中鏈接推導出隱私信息與身份信息的對應關系。

4.2 信息損失度量

基于k-匿名以及在其基礎上改進的匿名隱私保護模型在保護隱私信息的同時,不可避免地會產生信息損失,從而對數據精度造成影響,這就是匿名代價(anonymization cost)。匿名代價是在對原始數據進行泛化和抑制預處理操作時產生的,匿名代價度量是衡量數據匿名化后信息損失的指標,同時也可以判斷匿名后的數據集的優化程度。信息損失越小,數據精度越大,數據可用性越高。反之亦然。因此,在進行匿名化操作過程中,應盡量降低匿名代價。

本文采用基于泛化層級的方法度量匿名代價,而使用該方式度量匿名代價,則需要構建屬性的域泛化層級。處于域泛化層級中每一層包含的信息量是不同的。通常,對于同一屬性來說,處于泛化高層的數據比處于低層級數據所包含的信息量較少。計算公式如下:

其中,Prec表示數據精度,為原始數據表;RT為泛化后的數據表;N表示數據表中屬性個數;NA為數據集的記錄數;|DGHAi|為屬性Ai泛化層級結構的高度;h表示屬性Ai在泛化層級結構中處于的高度。

定義4域泛化層級(domain generalization hierar-chy):設A為數據表T的屬性,存在函數fh:h=0,1,…,n-1,使得,并且A=A0,|An|=1,那么屬性A在fh:h=0,1,…,n-1上的泛化域層級可表示為,記作 |DGHA|。

{Z0,Z1,Z2,Z3}展示的是Zip屬性自下而上的泛化過程,每一層表示該屬性的一個泛化域。隨著DGH一直往上,屬性的泛化程度越來越高,直到最后達到抑制的狀態,泛化過程描述如下:

5 實驗結果及分析

本實驗采用文獻[14]提出的Incognito算法完成匿名操作過程。Incognito算法的基本思想是采用全局重編碼技術,按照自底向上的寬度優先方式對原始數據集執行泛化操作,同時對泛化圖(generalization graph)進行必要的剪枝、迭代操作,使原始數據集逐步優化,從而達到匿名效果。本文方案主要考慮算法執行時間與數據表的信息損失。

5.1 實驗數據與實驗環境

實驗所采用的數據集為UCI中的Adult數據庫[15],該數據庫是用于k-匿名研究最常用的數據源。該數據庫共有32 206條數據,大小為5.5 MB,數據集共含有15個屬性。選取其中的8個屬性作為準標識符的屬性集,選取Disease屬性作為敏感屬性。表5描述了實驗數據集的結構。

實驗采用MySQL 5.5存儲數據;算法用Java語言實現;實驗運行環境是CPU為3.3 GHz Intel?Core i5處理器,4 GB RAM。

選取Disease作為實驗敏感屬性。Disease屬性含10個值,隨機產生疾病種類,用敏感權重來衡量敏感度,值越大,說明敏感度越高,見表6。實驗中將敏感權重低于0.5的疾病設為弱敏感屬性。

Table 5 Structure of adult data set表5 Adult數據集結構

Table 6 Weight of disease表6 Disease權重

5.2 時間復雜度分析

本文方案首先需要計算強敏感值|SV|和弱敏感值|DV|的個性化信息熵l-多樣性×,因此計算開銷是線性的,時間復雜度為O(n)。其次需要對信息損失度量進行計算,,計算過程中有兩次和的累乘運算,因此在該階段的計算開銷為O(n2)。最后需要對屬性進行域泛化層級處理,每次泛化的計算開銷為線性的,因此計算復雜度為O(n)。

5.3 執行時間分析

從圖1可知,隨著QI個數增加,3種模型的執行時間都會增加。這是因為隨著QI值增大,等價類中要求記錄更多的準標識符屬性,這就需要更多的泛化次數,這個過程也就需要算法執行更多次的循環,所以執行時間會增大。

同時,可以看到,隨著QI值增大,本文方案相比較信息熵l-多樣性模型執行時間更短一些。這是因為信息熵l-多樣性模型判斷等價類中強敏感屬性和弱敏感屬性需要更長的時間。

圖2描述的是QI記錄數目從0到1 000遞增時,3種匿名模型中數據精度隨k或l值的變化。橫坐標為記錄個數,縱坐標是執行不同算法的時間,可以看到本文方案在提高數據精度的同時,減少了算法的執行時間。

Fig.1 Comparison of execution time with the number of quasi identifiers圖1 準標識符個數變化執行時間比較

Fig.2 Comparison of execution time with the number of records圖2 記錄個數變化執行時間比較

5.4 精確度分析

圖3 描述的是QI記錄數目從1 000到3 500遞增時,3種匿名模型中數據精度隨k或l值的變化。橫坐標為記錄個數,縱坐標是匿名數據集的數據精度,可以發現隨著記錄個數的增加,本文方案的精度高于其他方案。

Fig.3 Comparison of data accuracy with the number of records圖3 記錄個數變化數據精度比較

5.5 信息損失分析

圖4 描述的是QI個數為0~8時,3種匿名模型中數據精度隨k或l值的變化。橫坐標為k、l值,縱坐標是匿名數據集的數據精度。

Fig.4 Comparison of data accuracy withk,lvalue圖4 數據精度隨k、l值比較

從圖4可知,隨著k、l值的增加,數據精度呈下降趨勢。這是因為隨著k、l值的增大,等價類中需要泛化的元組數也就越多,泛化層級越高,信息損失也越大,從而數據精度就會降低。同等情況下,個性化信息熵l-多樣性的信息損失高于信息熵l-多樣性。這是因為個性化信息熵l-多樣性對匿名約束性強于信息熵l-多樣性,需要對準標識符進行更高層級的泛化,所以信息損失相對多一些。

6 結束語

針對信息熵l-多樣性模型中沒有區分強弱敏感屬性的問題,本文提出了個性化信息熵l-多樣性模型并進行實驗。實驗結果表明,本文方案在執行時間和數據精度方面的表現優于信息熵l-多樣性模型與k-匿名模型,且有更好的隱私性,可以運用到移動醫療系統中來保護醫療用戶的隱私數據不被泄漏。

[1]Gong Qiyuan,Yang Min,Luo Junzhou.Data anonymization approach for incomplete microdata[J].Journal of Software,2013,24(12):2883-2896.

[2]Janpuangtong S,Shell D A.Helping novices avoid the hazards of data:leveraging ontologies to improve model generalization automatically with online data sources[J].AI Magazine,2016,37(2):19-32.

[3]Komishani E G,Abadi M,Deldar F.PPTD:preserving personalized privacy in trajectory data publishing by sensitive attribute generalization and trajectory local suppression[J].Knowledge-Based Systems,2016,94:43-59.

[4]Vu K,Zheng Rong,Gao Jie.Efficient algorithms forkanonymous location privacy in participatory sensing[C]//Proceedings of the 31st Annual IEEE International Conference on Computer Communications,Orlando,Mar 25-30,2012.Piscataway:IEEE,2012:2399-2407.

[5]LeFevre K,DeWitt D J,Ramakrishnan R.Incognito:efficient full-domaink-anonymity[C]//Proceedings of the 2005 ACM SIGMOD International Conference on Management of Data,Baltimore,Jun 14-16,2005.New York:ACM,2005:49-60.

[6]Rebollo-Monedero D,Forné J,Soriano M,et al.k-anonymous microaggregation with preservation of statistical dependence[J].Information Sciences,2016,342:1-23.

[7]Xin Tingting,Liu Guohua.Top-kqueries underK-anonymity privacy protection model[J].Journal of Frontiers of Computer Science and Technology,2011,5(8):751-759.

[8]Wang Danli,Liu Guohua,Song Jinling,et al.Problem of finding the optimal value on quasi-identifier fork-anonymity model[J].Journal of Frontiers of Computer Science and Technology,2010,4(11):1010-1018.

[9]Dai Jiazhu,Hua Liang.Method of anonymous area generation for sensitive location protection under road networks[J].Computer Science,2016,43(3):137-144.

[10]S?derstr?m-Anttila V,Miettinen A,Rotkirch A,et al.Shortand long-term health consequences and current satisfaction levels for altruistic anonymous,identity-release and known oocyte donors[J].Human Reproduction,2016,31(3):597-606.

[11]Moja L,Friz H P,Capobussi M,et al.Implementing an evidence-based computerized decision support system to improve patient care in a general hospital:the CODES study protocol for a randomized controlled trial[J].Implementation Science,2016,11(1):89.

[12]Fields L,Arntzen E,Nartey R K,et al.Effects of a meaningful,a discriminative,and a meaningless stimulus on equivalence class formation[J].Journal of the Experimental Analysis of Behavior,2012,97(2):163-181.

[13]Zhou Changli,Ma Chunguang,Yang Songtao.Research of LBS privacy preserving based on sensitive location diversity[J].Journal on Communications,2015,36(4):125-136.

[14]Zhang Xiaojian,Meng Xiaofeng.Differential privacy in data publication and analysis[J].Chinese Journal of Computers,2014,37(4):927-949.

[15]Blake E K C,Merz C J.UCI repository of machine learning databases[EB/OL].(1998).http://www.ics.uci.edu/~mlearn/MLRepository.html.

附中文參考文獻:

[1]龔奇源,楊明,羅軍舟.面向缺失數據的數據匿名方法[J].軟件學報,2013,24(12):2883-2896.

[7]辛婷婷,劉國華.K-匿名隱私保護模型下的Top-k查詢[J].計算機科學與探索,2011,5(8):751-759.

[8]王丹麗,劉國華,宋金玲,等.k-匿名模型中準標識符最佳值的求解問題[J].計算機科學與探索,2010,4(11):1010-1018.

[9]戴佳筑,華亮.路網環境下敏感位置匿名區域的生成方法[J].計算機科學,2016,43(3):137-144.

[13]周長利,馬春光,楊松濤.基于敏感位置多樣性的LBS位置隱私保護方法研究[J].通信學報,2015,36(4):125-136.

[14]張嘯劍,孟小峰.面向數據發布和分析的差分隱私保護[J].計算機學報,2014,37(4):927-949.

猜你喜歡
信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
一個相似模型的應用
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 久久精品国产在热久久2019| 精品一区二区三区水蜜桃| 久久狠狠色噜噜狠狠狠狠97视色| 日本少妇又色又爽又高潮| 91麻豆国产视频| 五月婷婷中文字幕| 免费无码网站| 欧美特黄一级大黄录像| 伊人激情综合网| 五月婷婷丁香色| 九九线精品视频在线观看| 亚洲成人一区在线| 美女内射视频WWW网站午夜| 久久久精品久久久久三级| 国产高清在线观看| 久久大香伊蕉在人线观看热2| 国产成人久视频免费| 国产精品v欧美| 亚洲欧美日韩天堂| 亚洲精品动漫在线观看| 一本大道香蕉久中文在线播放| 亚洲欧洲综合| 亚洲美女高潮久久久久久久| yjizz视频最新网站在线| 欧美、日韩、国产综合一区| 国产区网址| 国产精品30p| 中文字幕丝袜一区二区| 国产视频你懂得| 国产丰满大乳无码免费播放| 国产黑丝视频在线观看| 久久人午夜亚洲精品无码区| 成人精品区| 99在线观看视频免费| 国产自在线播放| 免费AV在线播放观看18禁强制| 国产丰满成熟女性性满足视频| 粉嫩国产白浆在线观看| 亚亚洲乱码一二三四区| 色老头综合网| 成年看免费观看视频拍拍| 日本一本正道综合久久dvd| 又黄又爽视频好爽视频| 精品無碼一區在線觀看 | 日韩欧美一区在线观看| 亚洲 欧美 日韩综合一区| 国产乱子伦视频在线播放| 亚洲色成人www在线观看| 亚洲IV视频免费在线光看| 狠狠色综合久久狠狠色综合| 国产高清在线丝袜精品一区| 久久性视频| 成人av手机在线观看| 久久国产黑丝袜视频| 99re经典视频在线| 欧美无遮挡国产欧美另类| 国产亚洲精品自在线| 亚洲—日韩aV在线| 真人免费一级毛片一区二区 | 青青青伊人色综合久久| 男人天堂亚洲天堂| 91久久国产综合精品| 91探花在线观看国产最新| 亚洲国语自产一区第二页| 99这里只有精品免费视频| 国产区91| 丰满人妻一区二区三区视频| 亚洲综合经典在线一区二区| 毛片基地美国正在播放亚洲 | A级毛片高清免费视频就| 美女啪啪无遮挡| 免费一级α片在线观看| 久久婷婷六月| 中文字幕一区二区视频| 黄色不卡视频| 91精品视频播放| 国产H片无码不卡在线视频| 成人毛片在线播放| 国产丝袜无码一区二区视频| 国产精品欧美日本韩免费一区二区三区不卡| 午夜精品影院| 欧美色图久久|