卓建成 福建醫科大學附屬第一醫院
醫療信息系統中存有大量的病人信息,涉及病人大量的隱私,所以醫療信息系統要做好病人的隱私保護。醫療信息系統中的大量信息對于各種藥物的制備有一定的參考價值,但由于涉及個人隱私,不能提供給藥物制造商,使得藥物制造等方面受到阻礙。
數據挖掘隱私保護又叫知識隱藏,主要是針對數據挖掘過程中,造成的個人隱私和敏感信息泄露進行保護,以保護數據的可用性為前提的計算機技術。數據挖掘首先是將數據儲存在數據庫中,將數據進行預處理,轉變成適合分析和挖掘的數據格式存在較大的數據倉庫中,再用數據挖掘算法進行處理,得出的結果是隱私保護后的結果。數據預處理是將信息中的隱私信息進行刪除,在數據倉庫中,數據會經過算法清晰,使數據不具有敏感信息,可以直接的進行使用,最后得出的結果不具有任何敏感信息和隱私信息。
數據挖掘隱私保護針對不同的隱私、數據分布、技術階段有著不同的分類標準。針對隱私類型,保護數據挖掘過程中的敏感信息的樣模、規則等知識的方法,根據不同的數據挖掘算法。根據數據分布類型,有集中式數據集的數據挖掘隱私保護和分散式數據集的數據挖掘隱私保護,分散式數據集不同的記錄放在不同的地方,每一類的數據挖掘隱私保護使用技術各不相同。技術階段不同,有數據分布技術、數據變形技術、數據挖掘算法、數據或規則隱藏算法和隱私保護技術。
數據挖掘隱私保護主要是應用關聯規則挖掘技術(ARM),而關聯規則隱藏(ARH)是,針對關聯規則挖掘的隱私保護技術。關聯規則隱藏通常分為兩個部分,頻繁集挖掘部分和數據清洗部分。頻繁集挖掘部分應用的算法主要是使用Apriori算法和FP-Tree算法,Apriori算法是利用頻繁項集性質的知識,進行逐層搜索,利用調用數據集中所有的頻繁候選集進行數據挖掘。FP-Tree算法是不產生頻繁候選集的頻繁集挖掘算法,通過兩次整個數據集的遍歷,建立FP-Tree樹,第一次遍歷數據集時,將所有支持度大于或等于msup的數據項進行篩選。第二次遍歷數據集,創建根節點將數據在節點下創建分支,FP-Tree創建好得到樹狀數據,再進行頻繁集的挖掘[1]。
在醫療信息系統中,要想進行信息隱藏,就要先進行算法的調整。算法首先對隱藏的規則集根據前導和后續進行聚類,然后選擇生成類別最少的作為聚類方案。之后進行敏感規則的隱藏和隱私信息的清洗。例如:對數據集Ⅰ={a,b,c,d,e,f},進行計算,敏感度為0,則數據為非敏感數據,否則就為敏感數據。醫療信息系統中通過算法中,對信息進行篩選,能夠將隱藏在數據中的個人信息和敏感信息刪除,保證個人隱私的安全。篩選是其中的值由1變為0完成,也就是將帶有隱私信息的數據從數據集中刪除[2]。
算法流程主要是從關聯規則挖掘出規則集,從中選出敏感規則集,然后所有的數據項組成敏感項集,對每個敏感項的敏感度進行計算,按照敏感度的程度進行降序排列,相同敏感度的數據就按照數據長度進行升序排列,非敏感數據進行降序排列,敏感規則集進行聚類,每條規則需要的迭代步數,選擇最小值作為迭代值,在排列好的敏感數據中選擇一條,將該敏感項添加到數據中,在數據隱藏完成后計算每條規則需要的迭代步數,選擇最大值進行迭代,清洗數據,在排列好的敏感數據中選擇一條,將敏感項從數據中刪除,在迭代清洗后還有敏感信息則進行重復的敏感數據刪除。
通過數據挖掘的算法將醫療系統中的信息進行清洗,個人隱私保護主要是通過預定義的轉換,將隱私信息和敏感信息的數據篩選之后,提供給挖掘者,或通過挖掘工具進行數據挖掘,將個人信息隱藏,保證隱私權。通過數據交換進行數據擾亂,能夠保證統計的真實性,隱藏個人信息數據,這種數據交換是隨機化擾亂技術,數據隨機化處理數據在保護原有主體信息安全前提下,提供真實的不帶有隱私信息和敏感信息的數據。例如醫療信息管理系統進行數據挖掘任務,將隱私數據和敏感信息進行完全的剔除,保證病人的隱私信息不會泄露。在隱私和數據挖掘之間有著明確的平衡,在挖掘過程中對隱私的級別進行限定,不違反隱私規定前提下,進行數據挖掘。
醫療信息系統中的數據挖掘有著重要的意義,通過數據挖掘能夠將大量的醫療信息進行提取,有助于醫療事業的發展,數據挖掘隱私保護是醫療信息提取的前提,通過數據挖掘的算法將隱私和敏感信息消除,使醫療信息系統具有更多的功能,促進醫療事業的發展。
[1]吳超超,李偉春.基于隱私保護的數據挖掘技術與研究[J].科技資訊,2015,15:72-79
[2]于欣欣.數據挖掘與隱私保護[N].遼寧行政學院學報,2015,06:61-63.