999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向半結構化醫療數據隱私保護關鍵技術研究

2018-01-09 11:06:31王換換吳響魏裕陽
科技視界 2017年28期

王換換 吳響 魏裕陽

【摘 要】隱私保護是實現大數據價值的首要步驟和關鍵環節。目前,結構化數據隱私保護方法豐富,而醫療數據中常見的半結構化數據缺乏可靠的隱私保護模型及完善的平臺支撐。針對這一問題,本文將從數據結構轉化的角度入手,深入探索半結構化醫療數據的隱私保護方法及平臺構建。

【關鍵詞】隱私保護;半結構化;信息抽取

1 研究意義

醫療數據被充分共享的前提是保證數據的隱私安全。半結構化醫療數據是醫療大數據的重要組成部分,占有舉足輕重的地位。醫療過程中形成的半結構化信息隱私內容多樣,從中折射、反映、蘊含的資訊及信息具有巨大的應用價值,對于醫學研究、政府統計或是其他個人、機構的科研有重要意義。然而,由于半結構化數據的復雜性、靈活性以及其自描述形式,現存的隱私保護技術滿足不了半結構化醫療數據的隱私保護需求。

目前,數據共享中的隱私保護技術主要基于三類模型:k-匿名模型[1-2]、l-多樣性匿名模型[3-4]和t-closeness匿名模型。但大多數隱私保護技術都是針對結構化數據,對半結構化醫療數據共享的隱私保護并不理想。而綜合考慮技術、成本等問題,對半結構化醫療數據的隱私保護,應首先考慮使用成熟的結構化數據隱私保護方法,其關鍵是將半結構化醫療數據轉化結構化數據。半結構化醫療數據的隱私保護問題要綜合考慮到數據的異構性、復雜性、高維性等問題,明確中文醫學信息數據特點造成半結構化信息抽取困難的問題,充分利用國內外半結構化數據抽取技術及結構化數據集信息的指導作用,將結構特征與詞法、語義、表現形式等其他特征相結合,建立專門針對中文半結構化醫療數據特點的智能化信息處理模型及系統。

此外,考慮到結構化后的醫療數據具有高維度、高復雜度的特點,需要更加高效的計算技術,自動并行化是解決這一問題的有效途徑之一。Spark 是由伯克利大學開發的通用分布式內存計算平臺,而彈性分布式數據集(Resilient Distributed Dataset,RDD)是Spark 的最基本抽象,是對分布式內存的抽象使用,實現了以操作本地集合的方式操作分布式數據集的抽象實現,適合優化需要多次迭代操作的機器學習類算法。因此,半結構化醫療數據的隱私保護過程完成能夠使用spark并行計算,進行高效地資源分配。

2 研究內容

本文主要解決半結構化醫療數據共享中的信息抽取、隱私保護、并行化等關鍵技術問題,在保證半結構化醫療數據共享后隱私安全的情況下,提高半結構化數據的可用性,為臨床決策、科研提供數據資源的支持,構建面向半結構化醫療數據共享的BaaS隱私保護平臺。

(1)面向半結構化醫療數據的信息抽取技術及醫學術語知識庫的構建

建立服務于機器學習算法的中文醫學術語知識庫是信息抽取技術的基礎,利用統計學方法學習標記好的語料庫、獲取規則、建立類似UMLS的中文醫學術語知識庫。標注少量醫學病歷作為統計學方法的訓練集;探索適當的可用于醫學問題識別的統計學算法;構建一個可以表明人物及其相應醫學問題的信息表示方案;各部分研究間的關系可以構成一個信息抽取系統。

(2)隱私保護算法的自動并行化技術

引入Spark技術,Spark 使用基于內存計算的并行化計算模型——彈性分布式數據集(resilient distributed datasets,RDD),提供強大的分布式內存并行計算引擎,支持快速迭代計算,將機器學習應用到常規并行化策略上,能夠進一步提升訓練速度。首先采用合理智能算法以及不同訓練集對各個k-匿名算法進行測試訓練,檢測不同算法較為費時部分;其次測試該部分能否進行分布式計算法;最后Spark平臺進行分布式運算會涉及到通信開銷,智能算法訓練各k-匿名算法,給定各算法進行分布式所需要的數據集閾值。對k-匿名算法設計采用了并行化局部優化的迭代計算模式,有效提高匿名效率。

(3)構建面向半結構化醫療數據的分布式隱私保護BaaS平臺

構建面向結構化醫療數據的分布式隱私保護BaaS平臺,該平臺應具備上載結構化數據集和半結構化數據集、連接數據庫、醫學數據信息抽取模塊、隱私保護模塊、提供k-匿名算法的Rest-API。平臺內含自建中文臨床子語言語法規則及醫學術語知識庫,為信息抽取的精確性提供知識儲備及技術支持。隱私保護模塊能夠按需求進行全域k-匿名或局域k-匿名的選擇、具體實現k-匿名算法的選擇、隱私保護模型的選擇,同時該模塊具有是否使用分布式計算的選項。

3 研究方法

首先建立醫學術語知識庫及命名實體規則庫,對半結構化醫療數據進行信息抽取,測試抽取信息的準確性。對抽取后的結構化數據匿名,測試k-匿名算法的功能及其使用范圍。挖掘匿名前后數據所包含的信息,對比挖掘結果,對匿名后的數據集進行信息損失量的度量,給出k-匿名算法的評估標準。為節省處理數據的時間,準確找到各算法適合的分布式計算模塊,在k-匿名算法功能測試后,使用訓練集對各k-匿名算法的代碼模塊進行訓練,分析每個程序段的運行時間,探尋各個方法的運行時間、次數等統計信息,并采用深度貪婪算法迭代統計含子程序的代碼段的運行時間,找出算法最耗時模塊,對該模塊進行分布式處理,使其單線程計算變為并發式計算。

使用GATE程序對半結構化程序進行信息抽取,GATE的抽取信息的準確性高達97.58%,處理速度為31.5KB/s,完全可以滿足現有情況下的信息抽取要求。選擇匿名模型及匿名算法,利用匿名算法處理抽取后的結構化數據,完成匿名。如果選擇的匿名算法匿名后的數據集不符合要求,則重新選擇匿名算法進行匿名數據集,直到匿名后的數據集滿足隱私保護和數據可用性的雙重要求。同時,在匿名化之前,根據已訓練出的參數進行分布式需求判斷,如果分布式較為節省時間則采用分布式計算,如果因為分布式處理的通信開銷造成時間浪費,則采用單線程處理數據。

4 實施方案與研究步驟

第一步:關鍵詞提取,分詞處理是識別半結構化醫療數據的第一步

(1)自主收集和制作中文詞表;

(2)編寫針對中文特性的規則。

該方法不但可以準確地抽取出個人信息,而且因其包含的ICD-10詞庫可以把半結構化數據中包含的疾病、診斷、健康狀況信息轉化為結構化數據,方便對半結構化數據的挖掘,進一步提高了半結構化數據的價值。

第二步:半結構化醫療數據隱私保護處理

針對提取出的個人信息,例如住址、年齡、提問等信息,本文將采用k-匿名模型對其進行匿名化處理。考慮到k-匿名是把精確數據模糊化,因此,該方法匿名的數據集會產生一定的信息損失,對此本文采用IL評估方法對匿名表進行信息損失量的判斷。為了更好的進行隱私保護,在k-匿名模型的基礎上引入l-diversity模型、t-closeness模型對其進行匿名化操作。

第三步:Spark分布式并行化算法處理技術

k-匿名算法是需要多次對數據操作即多次訪問I/O端口,故可以通過減少k-匿名時的I/O操作較少匿名化時間,本文采用Spark平臺,把數據存儲在內存中,避免不斷從硬盤讀取數據,節省訪問I/O端口的通訊時間。考慮到Spark計算本身具有通信開銷,當數據量較小時,使用Spark分布式進行k-匿名算法可能會形成時間上的浪費。因此,本文使用不同大小的訓練集、不同屬性大小的訓練集和不同泛化規則的訓練集不斷進行訓練,找出來各k-匿名算法使用Spark平臺可以減少時間閾值[5]。在閾值之內的數據集,將會建議采用單線程計算以節省時間和資源,大于此閾值的數據集,將會合理的給出分布式計算意見。

第四步:構建面向半結構化數據的分布式隱私保護BaaS平臺

構建后端即服務BaaS平臺,通過Web Service技術構建Rest API,為開發者提供接口。在服務器端提供對底層系統的抽象,以實現對底層通用數據處理引擎的支持,并提供上傳結構化數據集和半結構化數據集、連接數據庫、醫學數據信息抽取模塊、隱私保護模塊、k-匿名算法等編程語言接口(API),從而滿足開發者的需求。

【參考文獻】

[1]Samarati P,Sweeney L.Protecting privacy when disclosing information:k-anonymity and its enforcement through generalization and suppression.SRI Computer Science Laboratory Technical Report SRI-CSL-98-04,1998.

[2]Samarati P.Protecting respondentsidentities in microdata release[J].IEEE Trans Knowl Data Eng,2001,13:1010-1027.

[3]Machanavajjhala A,Kifer D,Gehrke J,and Venkitasubramaniam M.1-diversity:Privacy beyond k-anonymity.ACM Trans KnowL Discov. Data 1.1.2007.

[4]Li N H,Li T C,Venkatasubramanian S.t-closeness:privacy beyond k-anonymity and 1-diversity[C] Proceedings of IEEE 23rd International Conference on Data Engineering, Istanbul,2007.106-1 15.

[5]李文,程華良,彭耀,等.基于Spark可視化大數據挖掘平臺[C].系統仿真技術及其應用.

主站蜘蛛池模板: 日韩精品专区免费无码aⅴ| 九九热这里只有国产精品| 欧美成在线视频| 鲁鲁鲁爽爽爽在线视频观看| 欧美精品导航| 免费激情网站| 黄色网页在线播放| 国产女人在线| 欧美午夜在线视频| 91麻豆精品视频| 国产成人艳妇AA视频在线| 亚洲精品视频在线观看视频| 亚洲精品男人天堂| 一区二区午夜| 无码中文字幕精品推荐| 天天操天天噜| a免费毛片在线播放| 亚洲全网成人资源在线观看| 国产区91| 蝴蝶伊人久久中文娱乐网| 欧美国产中文| 欧洲精品视频在线观看| 日韩精品一区二区三区免费在线观看| 国产区精品高清在线观看| 2018日日摸夜夜添狠狠躁| 国产成人亚洲日韩欧美电影| 欧美亚洲国产一区| 日韩成人免费网站| 精品1区2区3区| 亚洲国产欧美目韩成人综合| 高清久久精品亚洲日韩Av| 夜夜爽免费视频| 欧美另类图片视频无弹跳第一页| 亚洲午夜福利精品无码| 国产99免费视频| 三上悠亚一区二区| 亚洲天堂网视频| 九色在线观看视频| 婷婷综合在线观看丁香| 国产真实乱子伦视频播放| 日本欧美视频在线观看| 一区二区欧美日韩高清免费| 99久久亚洲综合精品TS| 米奇精品一区二区三区| 亚洲国产成人麻豆精品| 亚洲一级毛片在线播放| 免费视频在线2021入口| 久久精品66| 国产白浆视频| 国产精品黑色丝袜的老师| 国产无码在线调教| 老司机久久精品视频| 亚洲91精品视频| 亚洲男人的天堂久久香蕉网 | 毛片免费观看视频| 国产真实自在自线免费精品| 最新国产网站| 欧美一级一级做性视频| 国产精品无码一二三视频| 色网站免费在线观看| 69视频国产| 日韩成人午夜| 国产Av无码精品色午夜| 91视频99| 国产麻豆福利av在线播放| 尤物成AV人片在线观看| 成人一区在线| 一级做a爰片久久免费| 久久久久国产精品熟女影院| 欧美国产视频| 久久人妻xunleige无码| 国产欧美在线| 欧美性精品不卡在线观看| 免费日韩在线视频| 国产网友愉拍精品视频| 国产性爱网站| 毛片在线区| 日韩欧美高清视频| 一级爆乳无码av| 欧美成一级| 欧美成人日韩| 国产成年女人特黄特色毛片免|