999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向醫療數據的隱私保護方法研究

2023-03-24 06:44:41徐云山賀丹嚴貞龍李永立丘振鋼楊秋鴻
電腦知識與技術 2023年4期

徐云山 賀丹 嚴貞龍 李永立 丘振鋼 楊秋鴻

關鍵詞: 隱私保護;匿名化;醫療數據;等價類;數據脫敏

1 引言

隨著大數據、云計算、人工智能等信息技術的飛速發展,為醫療信息系統的發展帶來了新的機遇[1]。電子病歷和醫療信息系統的出現,是信息化進程中重要的一個環節,電子病歷讓病歷的記錄和存儲更加方便,醫療信息系統為患者數據的管理和存儲帶來了便利。同時,醫療數據的日益累積,為醫療數據的管理帶來了較大的挑戰,尤其是隨著醫療數據共享和數據傳輸日益頻繁,醫療數據的隱私保護問題也日益突出[2-3]。在醫療數據的使用和傳輸過程中,不可避免地發生患者隱私泄露的情況,這為患者的正常生活帶來了較大影響,尤其是當患者不希望自身疾病信息被公之于眾時,因此保護醫療數據的隱私成為一個研究熱點[4-6]。國家也逐漸意識到信息安全的重要性,并于2020年12月14日發布了《信息安全技術健康醫療數據安全指南》,該安全指南對健康醫療數據進行了定義,提出了健康醫療數據分類體系,并對健康醫療數據的使用提出了一系列指南,該指南從2021年7月1日正式實施。國家在“十三五”規劃中也提出了加強醫療信息安全防護體系建設的要求,醫療數據的隱私保護問題已經成為醫療信息化發展過程中亟須解決的問題之一。

2 醫療數據隱私保護現狀

2.1 隱私保護問題描述

患者的醫療數據通常包括身份信息、診療信息、其他信息三部分,身份信息主要是用來標識患者的個人身份,主要包括:診療號、身份證號、社??ㄌ?、姓名、性別、年齡等信息;診療信息主要是記錄患者就診和治療的相關信息,主要包括:病史、心率、血壓、疾病、脈象、過敏史等信息;其他信息主要是與身份信息和診療信息無關的信息,主要包括:就診醫院、就診時間、就診醫生、工作單位等信息。通過患者的身份信息可以分成主標識符和非主標識符,其中主標識符是可以唯一確定患者身份的屬性,如診療號、身份證號、社??ㄌ柕龋侵鳂俗R符是不能唯一確定患者身份的屬性,如姓名、性別、年齡這些屬性不能確定患者身份,但是一旦將這些屬性與其他屬性進行結合就能推斷出患者的身份信息,例如將患者的姓名與患者的工作單位相結合,就有可能推斷出患者的身份信息。

在《信息安全技術健康醫療數據安全指南》中明確指出在醫療數據的獲取、收集、存儲、處理、傳輸、發布、銷毀等過程中要嚴格保護患者的隱私,不能隨意泄露患者的身份信息和診療信息,也不能通過身份信息、診療信息、其他信息之間的關聯性準確推斷出某條就診記錄是哪個就診人所有。就診信息中的疾病信息是關系到患者隱私的敏感信息,如果疾病信息被泄露,將對患者的基本生活和工作帶來非常大的負面影響,一些特殊的疾病(如癌癥、抑郁癥等)甚至會讓患者受到旁人的歧視和區別對待。表1是醫療數據的簡單實例。

2.2 隱私保護問題研究現狀

國內外學者針對醫療數據的隱私保護問題進行了廣泛研究,通過對已有研究成果進行分析和總結,根據研究方法的不同,可以將醫療數據的隱私保護方法分成匿名化、加密算法、身份認證、差分隱私等四類。文獻[7,8]提出了一種針對電子病歷的隱私保護模型,該模型中的主要使用差分隱私算法實現對電子病歷的隱私保護;文獻[9]提出了隨機k匿名化的隱私保護方法,采用聚類的方法將原始醫療數據劃分成幾個數據集,再將子數據集劃分成等價類;卲華西[10]提出了三種基于T-Closeness的分布式大數據脫敏算法,三種不同的分布式算法具有不同的應用場景,可以實現不同場景的數據脫敏。高志強[11]等人對差分隱私技術的研究進展進行了全面總結,并提出了在新的差分隱私模型下的數據收集方法和數據分析方法。從現有研究方法可知,當醫療數據發布時,一方面要按照國家相關政策保證患者的隱私信息,另一方面要確保隱私保護之后的數據能滿足實際的使用需求。當隱藏的信息過少時,從發布的數據很容易推斷出患者的隱私信息,甚至能唯一確定患者的身份;當隱藏的信息過多時,會造成醫療數據無法使用。因此,需要一種既滿足使用需求又滿足隱私保護的方法,在保護患者隱私的同時盡可能地提供更多的可用信息。

3 醫療數據隱私保護方法

針對現有醫療數據隱私保護方法中存在的問題,本文提出一種基于聚類的數據隱私保護方法,通過為非主標識符構建多層泛化樹的方法,并構造基于記錄的等價類,從而實現匿名保護方法。

3.1 泛化樹的構建方法

泛化是將屬性的具體取值轉化為一個取值范圍,也就是將一個具體的值換成包含該值的區間,或者將一個取值范圍較小的區間換成一個取值范圍較大的區間。為了實現匿名化,泛化的屬性將包含更少的信息。例如,社??ㄌ柺恰?0002345”,將其執行域泛化為“1000234*”。域泛化滿足每個域最多有一個直接泛化域,同時滿足每個域中最大屬性的屬性值是唯一的。社??ㄌ柕挠蚍夯僮魅鐖D1所示。值泛化是滿足在取值域中的每一個值,在泛化域中都有且只有一個泛化值與之對應,社保卡號的值泛化操作如圖2所示,將這些泛化值進行組合,就得到了一棵泛化樹。

泛化樹的具體定義方式為:針對屬性A,其取值范圍為域D,D 是一個有限集,將樹的節點集合表示為T={R, X1, X2, …, Xm, Y1, Y2, …, Yn},其中R表示的是泛化樹的根結點,Y1至Yn表示泛化樹一共有n 個葉子結點,X1至Xm表示泛化樹除了根節結點和葉子結點之外,一共有m 個中間結點。定義函數F 為集合T 到域D 的一個冪集映射,對于集合T 中的兩個結點u 和v,當結點u和結點v 為父子關系時,滿足:F(v)?F(u)。針對集合T中的根結點R 和葉子結點,滿足:(1) |F(Yi)|=1,其中i 屬于[1, n];(2) F(Y1)∪F(Y2)∪…F(Yn)=F(R);(3) F(R)?D。

現以患者的年齡為例,構造其對應的泛化樹,如圖3所示。

3.2 聚類

針對醫療數據,本文采用聚類的方法構造等價類,從而減少醫療數據的信息損失。首先,將原始醫療數據集的數據映射到歐幾里得空間,相似的醫療數據記錄被聚類到同一個類中,于是同一個類中的記錄構成一個等價類,同一個類中的記錄相似度非常高,不同類中的記錄相似度較低。在初次聚類時,根據經驗選取幾個聚類中心點,并根據醫療數據記錄與聚類中心的距離將數據記錄劃分到相應的類中。在進行記錄劃分時,需要計算兩條記錄的相似性,于是將兩條記錄在屬性A上的兩個屬性值a1和a2的相似性計算如下:

上式中Sim(a1,a2)表示屬性值a1和a2的相似度,d表示泛化樹的最大深度,p表示屬性值a1和a2在泛化樹上的最短路徑上中間結點的個數。Sim(a1,a2)的計算值越大,則以圖3中計算[21,40]和[41,60]的相似性為例,其中d 取值為4,因為泛化樹的最大深度為4,p 的取值為1,因為從[21,40]到[41,60]在泛化樹上的路徑為:[21,40]->[0,60]->[41,60],路徑上的結點個數為1,從而計算得到[21,40]與[41,60]的相似性為:Sim([21,40],[41,60])=-log(1/8)=0.903。同理,計算得到[21,40]與[81,100]的相似性為:Sim([21, 40], [81, 100]) =-log(3/8) =0.426。從計算結果可以看出,[21,40]與[41,60]更相似。

4 實驗

為了驗證本文醫療數據隱私保護方法的正確性,現通過實驗驗證本文方法的性能。本次實驗采用Windows10 操作系統,實驗設備的CPU 為Inter i5-7200U,用Python 3.9 開發程序、PyCharm 2021.2 為集成開發平臺,搭建完整的實驗環境。本實驗采用的數據為真實的醫療數據,主要屬性包括診療號、姓名、社??ㄌ?、性別、年齡、疾病、過敏史、脈搏、血壓、工作單位、就診時間、就診醫院等。

表2為醫療數據匿名化處理的結果,在該匿名化處理中以年齡作為準標識符。其中年齡在[21,30]之間的有4人,年齡在[31,40]之間的有3人,年齡在[41,50]之間的有3人。通過匿名化處理之后,每條記錄是很難推測出患者的真實身份,同時,數據具有較高的可用性,不影響后續的數據使用。

為了進一步驗證本文隱私保護方法的性能,選取不同數據量的醫療數據進行實驗。圖4展示了當匿名化參數k=3,相似性閾值Sim(a1,a2)=0.65時,數據量從0變換到20000時,匿名化處理所需時間。圖5展示了當數據量分別為1000、5000、10000,匿名化參數k=3,相似性閾值Sim(a1,a2)=0.65,年齡泛化等級分別為5、10、20、40時的匿名化處理時間。

從圖4中可以看到,隨著醫療數據量的增大,匿名化處理的時間也隨之增加,當數據量分別為3000、6000、9000、12000、15000、18000、20000時,匿名化處理所需時間分別為5.2s、17.3s、32.5s、45.6s、78.5s、114.5s、174.6s,這是因為隨著數據量的增加,聚類操作所需的迭代處理次數也隨之增加,從而匿名化處理時間增加。從圖5中可以看出,當年齡泛化等級相同時,隨著數據集的增大,匿名化處理所需時間也逐漸增加,當年齡泛化等級為5,數據量分別為1000、5000、10000 時,數據匿名化處理所需時間分別為1.1s、4.2s、10.7s,這時隨著數據量的增加,兩條記錄相似性的計算時間也增加,從而匿名化處理時間增長。此外,隨著年齡泛化等級的增加,同一數據量的匿名化處理時間并未發生較大的變化,例如,當數據量為10000,年齡泛化等級分別為5、10、20、40時,匿名化處理所需時間分別為10.7s、10.9s、11.2s、11.5s,這是因為使用不同的年齡泛化等級時,聚類次數并未發生明顯的變化,從而匿名化處理所需時間也沒有明顯增加。

5 結論

本文針對醫療數據在獲取、收集、存儲、處理、傳輸等過程中可能存在的患者隱私信息泄露問題,在充分考慮數據的安全性和數據的可用性的條件下,提出了一種基于聚類的數據匿名化方法,通過構建泛化樹,并將原始數據聚類成等價類,在保證數據可用性的同時,最大力度地保護了患者的隱私信息。通過實驗驗證了本文提出方法的正確性和可行性,在后續的研究中,將研究算法復雜度更低的方法,減小聚類所需時間,并進一步提高隱私保護效率。

主站蜘蛛池模板: 国产欧美一区二区三区视频在线观看| 精品自窥自偷在线看| 97精品久久久大香线焦| 呦系列视频一区二区三区| jizz亚洲高清在线观看| A级毛片高清免费视频就| 国产一区二区三区夜色| www.99精品视频在线播放| 女人18毛片一级毛片在线| 国产精品亚洲综合久久小说| 国产成人喷潮在线观看| 制服丝袜 91视频| 日本国产精品| 中文无码伦av中文字幕| 激情午夜婷婷| 日韩AV手机在线观看蜜芽| 免费毛片视频| 久久精品娱乐亚洲领先| 中文字幕在线一区二区在线| 久久a毛片| 中文字幕在线一区二区在线| 亚洲激情区| 国产日产欧美精品| 91香蕉国产亚洲一二三区| 婷婷六月综合网| 亚洲欧美另类日本| 国产成人亚洲精品蜜芽影院| 99在线观看国产| 国产人成在线视频| 国产欧美在线观看一区| 亚洲欧州色色免费AV| 丝袜亚洲综合| 高清无码不卡视频| 久久天天躁狠狠躁夜夜2020一| 国产精品丝袜视频| 久久精品这里只有精99品| 國產尤物AV尤物在線觀看| 久久久久久午夜精品| 亚洲福利视频一区二区| 欧美精品成人| 国产精品亚洲五月天高清| 午夜一区二区三区| 欧洲高清无码在线| 免费观看无遮挡www的小视频| 亚洲欧美综合精品久久成人网| 四虎永久免费地址| 人妻出轨无码中文一区二区| 国产国语一级毛片在线视频| 99激情网| 91精品国产情侣高潮露脸| 亚洲最大福利视频网| 狠狠色丁香婷婷| 伊人丁香五月天久久综合 | 久久精品亚洲专区| 日韩精品毛片人妻AV不卡| 夜夜操天天摸| 国产一区二区人大臿蕉香蕉| 黄片在线永久| 99热在线只有精品| 麻豆国产在线观看一区二区 | 亚洲免费黄色网| 一本色道久久88| 午夜在线不卡| 日本a级免费| 22sihu国产精品视频影视资讯| 国模粉嫩小泬视频在线观看| 久草青青在线视频| 无码区日韩专区免费系列| 亚洲国内精品自在自线官| 亚洲人成在线精品| 波多野结衣在线一区二区| 亚洲欧美一区二区三区图片| 免费在线成人网| 国产男人天堂| 曰AV在线无码| 91麻豆精品视频| 四虎永久在线精品国产免费| 波多野结衣亚洲一区| 亚洲国产天堂久久综合226114| 欧美成人午夜视频| 欧洲欧美人成免费全部视频| 国产欧美日韩免费|