劉 海,吳振強,彭長根,雷秀娟
1(陜西師范大學 計算機科學學院,陜西 西安 710119)
2(貴州省公共大數據重點實驗室(貴州大學),貴州 貴陽 550025)
基因數據是富含人類重要信息的生物大數據[1],并且是人類脫氧核糖核酸(deoxyribonucleic acid,簡稱DNA)序列的總稱.DNA是生物遺傳信息的攜帶者,與生物的繁殖、遺傳及變異密切相關.DNA序列包含 30億由4種核苷酸(腺嘌呤A、鳥嘌呤G、胸腺嘧啶T、胞嘧啶C)組成的堿基對,人類有99.9%共同的DNA序列,其中,大約有 5 000萬單核苷酸多態性(single nucleotide polymorphism,簡稱 SNP).SNP是最常見的 DNA變異,SNP是指個體DNA序列同一位置單個核苷酸變異所引起的多態性.SNP變異由單個堿基的轉換(C?T,在其互補鏈上則為 C?A)或顛換(C?A,G?T,C?G,A?T)所引起,一般所說的 SNP變異由堿基轉換所致.通常對于每個 SNP位點具有兩個不同核苷酸(稱為等位基因),一個是高頻率的主要等位基因,一個是低頻率的次要等位基因.等位基因是同源染色體上的相同位點控制同一性狀的不同形式的基因.位點是染色體上一個基因或標記的位置.SNP的連鎖不平衡(linkage disequilibrium,簡稱LD)是一種普遍存在的生物現象,指的是基因序列中任意兩個鄰近SNP之間的等位基因在多代遺傳中的非隨機組合現象.
隨著高通量基因測序技術的發展,測序成本大幅度降低,產生了海量高維的基因數據.基因數據廣泛用于科學研究、面向消費者服務和法律與司法鑒定等[2].例如,在全基因組關聯研究(genome-wide association studies,簡稱GWAS)中可以識別與SNP相關的疾病[3].但是,SNP攜帶個體健康的隱私敏感信息,并且可以唯一標識人類個體,基因數據使用不當會導致敏感信息泄露[4],例如,載脂蛋白 E(apolipoprotein E)基因的兩個 SNP(rs7412和rs429358)會增加患老年癡呆癥(Alzheimer’s disease)的風險.并且在連鎖不平衡下,可以從SNP相關的敏感信息推斷出其他SNP相關的敏感信息.因此,本文基于SNP連鎖不平衡相關系數,提出基因隱私保護模型:矩陣差分隱私(matrix differential privacy,簡稱MDP).該模型既可以保護基因數據和SNP連鎖不平衡的隱私,同時確保基因數據具有一定的效用.
由于 SNP可以唯一標識人類個體,并且關聯表型和血緣關系等隱私敏感信息.如果沒有適當地對基因數據進行隱私保護,將會阻礙科學研究的進步和發展,并給人類社會帶來巨大影響.例如,在基因組序列中只需 30~80個獨立的SNP位點就可以唯一重識別個體[5],進而導致其關聯的隱私敏感信息泄露.從GWAS中揭示個體的疾病狀態[6]可能會導致工作和保險中的基因歧視[7].考慮到具有血緣關系個體之間的基因數據非常相似,可以從GWAS中推斷個體的親戚及其相關的表型敏感信息[4].因此需要聯合法律法規和隱私保護技術來實現基因數據的隱私保護.目前國內尚未有專門的基因隱私保護法律法規,美國于 1996年頒布了 HIPAA(health insurance portability and accountability act)禁止基因歧視.
除了專門的基因隱私保護法律法規外,還需要隱私保護技術來實現基因數據的隱私保護.由于基因與人類的敏感信息密切相關,基因-疾病關聯分析中目前主要有 3類基因隱私保護方法,包括密碼學[8-11]、安全計算[12,13]和差分隱私[14-18].
為了從分布式基因數據中分析罕見疾病,Chen等人[8]提出隱私保護分布式協作框架 PRINCESS,并使用AES-GCM(advanced encryption standard in galois counter mode)加密所有基因數據,PRINCESS為了保護健康信息的隱私對加密數據執行安全的分布式計算.在使用 AES-GCM 加密基因數據時,由于密鑰分發通信代價高而使加解密受限,并且不可信用戶解密后通過分析基因數據導致患者隱私泄露.因此,為了防止不可信用戶解密后分析基因數據導致的隱私泄露,使用同態加密直接對密文進行計算.Ayday[9]使用Paillier密碼系統和Honey加密方法保護基因數據的隱私.為了發現罕見變異與疾病易感性的關系,基于懲罰似然的確切邏輯回歸(exact logistic regression)減少偏差的方法,Wang等人[10]在同態加密的確切邏輯回歸的基礎上提出HEALER框架,便于在 GWAS中安全地實現小抽樣的罕見疾病變異分析.為了實現查詢和結果的隱私保護,Shimizu等人[11]基于加法同態加密的不經意傳輸(oblivious transfer)隱藏序列查詢和感興趣的基因區域.由于同態加密基于有限域數學理論,計算效率非常低,并且在不可信用戶解密后同樣面臨隱私泄露的問題.
在人類基因序列之間,安全計算編輯距離(edit distance)在醫學的個人基因數據和公共健康領域呈現出許多有趣的應用.Wang等人[12]結合基因編輯距離近似算法和隱私集合差大小協議設計隱私編輯距離協議,并基于此,設計全基因組安全相似患者查詢系統GenSets.最近的工作表明,個體的微生物DNA序列與人類個體標識相符合,并且可以關聯基因數據集中敏感屬性的實際身份.目前,DNA隱私保護分析工具不滿足微生物測序研究的要求.為了解決微生物測序的隱私問題,Wagner等人[13]使用安全計算實現宏基因組分析.基因數據的安全計算中計算效率低,而且通信代價高.
從基因數據選擇到GWAS統計值的隱私保護,差分隱私[14]已經廣泛應用于基因數據.例如,在DNA數據選擇過程中,Zhao等人[15]利用連鎖不平衡對高維單體型降維到單體型塊,并通過對單體型塊的次要等位基因計數加噪音產生差分隱私實驗數據集,不但保護了患者的隱私,而且保證了 DNA數據的效用.在隱私保護數據選擇中僅僅通過對次要等位基因計數加噪音來實現差分隱私.由于隱私攻擊對參與 GWAS患者的隱私具有潛在的威脅,Cai等人[16]提出了差分隱私技術是一個有希望的研究方向,差分隱私通過注入隨機噪音到基因型頻率、基因型-疾病關聯性和基因型-基因型關聯性統計值.但并未考慮SNP的連鎖不平衡性質.假設GWAS的基因數據是不相關的,Tramèr等人[17]考慮更多合理的背景知識作為先驗分布,提出有界先驗差分隱私用于 GWAS中每個SNP列聯表的χ2-統計值達到效用與隱私的平衡.不過,同樣沒有考慮基因數據中SNP的連鎖不平衡性質.然而,在挖掘最重要的SNP的所有差分隱私方法中都具有準確度或計算效率的缺點,為此,Simmons和Berger[18]使用等位基因檢測統計值的輸入擾動和自適應邊界的方法來克服準確性問題.總的來說,在GWAS中的差分隱私保護研究僅僅考慮添加噪音到統計值,而沒有考慮 SNP的連鎖不平衡性質,并且沒有對原始基因數據進行隱私保護.
但是,基于GWAS中的統計值和SNP的連鎖不平衡,可以推斷出患者的隱私信息.因為SNP連鎖不平衡是同一染色體上相互鄰近的等位基因可能同時遺傳到后代.那么從一個 SNP位點的敏感信息可以推斷出其他SNP位點相關的敏感信息.例如,在SNP連鎖不平衡下,觀察到的SNP越多,基因隱私保護強度越低[4].現有的工作主要有兩方面的局限性:(1) 沒有從基因數據而僅僅是從GWAS中的統計值上實現患者的差分隱私;(2) 沒有考慮SNP連鎖不平衡下的基因數據隱私保護.另外,由于基因型數據只包含數值0、1和2,如果對基因數據直接使用差分隱私機制將導致基因數據效用災難,詳見第4.4節基因數據的效用分析.
為了解決此問題,本文提出基因數據和SNP連鎖不平衡的矩陣差分隱私保護模型.首先將單核苷酸多態性二倍體基因數據進行矩陣存儲,然后在連鎖不平衡下基于嚴格的差分隱私定義實現二倍體基因數據以及 SNP連鎖不平衡的不可區分性,最后運用模余運算進行二倍體基因數據的置換.矩陣差分隱私保護模型不僅滿足差分隱私,而且確保一定的基因數據效用.同時,矩陣差分隱私保護模型可以擴展到基因數據的其他應用領域.本文主要貢獻如下.
(1) 結合SNP二倍體基因數據的矩陣存儲、SNP連鎖不平衡下嚴格的差分隱私定義和模余運算,提出矩陣差分隱私保護模型作為基因隱私保護的新方法.
(2) 基于拉普拉斯機制和高斯機制,在 SNP連鎖不平衡相關系數下,設計矩陣差分隱私保護模型的算法,實現基因數據與SNP連鎖不平衡的隱私保護.
(3) 矩陣差分隱私保護模型確保基因數據效用在區間[R0,1]中,其中,R0表示當隱私預算最小時矩陣差分隱私下噪音矩陣中模3余0元素數量的百分比值.
本文第1節介紹基因背景知識以及矩陣計算、模余運算和差分隱私的預備知識.第2節提出矩陣差分隱私保護模型.第 3節對矩陣差分隱私進行理論分析.第 4節分別對矩陣差分隱私的隱私保護和基因數據效用進行實驗分析.第5節對全文進行總結.
首先介紹基因的背景知識.然后介紹矩陣計算、模余運算和差分隱私的預備知識.
盡管人類的DNA大部分是相同的,但是產生的變異大約有5 000萬,其中SNP是人類最常見的DNA變異.由于每個SNP位點的兩個核苷酸分別從父親和母親的基因中遺傳而來,因此可能是高頻率的主要等位基因,也可能是低頻率的次要等位基因.每個SNPgi具有次要等位基因的頻率為,對于一個個體的基因型SNP的次要等位基因頻率表示為m維向量.用B表示主要等位基因,b表示次要等位基因,B,b∈{A,C,G,T},并且編碼BB為0,Bb為1,bb為2.考慮SNP序列作為個體的基因數據,稱為二倍體基因型,其中,每個基因型取值屬于集合{0,1,2}.因此,單倍體基因型對應一條染色體,而二倍體基因型對應一組染色體.
在人類基因組序列中,每個序列可以表示為有序的SNP序列g1,g2,…,gm序列,其中,每個gi∈{0,1,2}.假設gi與gj相互連鎖不平衡,(B,b)和(D,d)分別是gi和gj的等位基因.假設(p1,1-p1)和(p2,1-p2)分別是(B,b)和(D,d)的等位基因概率.這里,等位基因頻率即是等位基因的概率.如果gi和gj相互獨立,那么個體在gi和gj的主要等位基因是B和D的概率為p1p2.然而,由于gi和gj的關聯性,因此連鎖不平衡系數為LD=P(BD)-P(B)P(D),其中,在連鎖不平衡下,P(BD)等于在 SNP位點i和j的等位基因B和D共同出現在群體中的頻率,并使用作為SNP連鎖不平衡的相關系數,當rij=1時,表示最強的SNP連鎖不平衡[4].
對于兩個n×m矩陣S=(sij)n×m和T=(tij)n×m,其中,1≤i≤n,1≤j≤m.S和T之間的加運算定義為(cij)n×m=(sij)n×m+(tij)n×m,其中,cij=sij+tij.另外,round(S)表示運用四舍五入規則將矩陣S中的元素取整的近似運算.
給定整數s、t、q和r,余數r=s-qt表示為r≡smodt(0 根據兩個相同的概率分布是不可區分的,對于個體數據的集合,差分隱私[14]確保一個攻擊者的能力是相同的,獨立于任何個體是否在數據集中.因此,在同樣大小的數據集之間,鄰近數據集僅只有一個不同.也就是說,兩個鄰近數據集X1和X2的漢明距離(Hamming distance)為d(X1,X2)=1.其中,差分隱私定義如下. 定義1(差分隱私).給定ε≥0,如果有任意兩個鄰近數據集X1和X2,對于擁有全背景知識的攻擊者,隨機機制M的任意輸出S?Range(M)使得 P r[M(X1) ∈S] ≤eεPr[M(X2)∈S]+δ,那么M是(ε,δ)-差分隱私. 其中,1-δ∈[0,1]是M滿足(ε,δ)-差分隱私的概率,并且,如果δ=0,那么M是ε-差分隱私. 為了實現差分隱私機制,需要計算查詢函數f的敏感度,查詢函數f:X→Rk的敏感度是 另外,差分隱私具有后處理(post-processing)和并行組合(parallel composition)[19]的性質. 性質1(后處理).隨機機制M:X→R關于數據集X是(ε,δ)-差分隱私,f:R→R′是一個隨機映射,那么f?M:X→R′是(ε,δ)-差分隱私. 性質 2(并行組合).隨機機制Mi滿足(εi,δ)-差分隱私,數據集Xi是X的子集,且,那么Mi的并行組合滿足(max{εi},δ)-差分隱私. 首先引入SNP連鎖不平衡下對基因數據的攻擊模型,接下來提出基因隱私保護模型:矩陣差分隱私. 因為通過 SNP可以識別個體及其相關的敏感信息.假設攻擊者已經觀察到隱藏的 SNP,并且攻擊者是honest-but-curious.攻擊者可以通過成對的SNP連鎖不平衡獲得敏感信息,例如相鄰兩個位點i和j的SNPgi和gj,它們之間存在SNP連鎖不平衡,如果gi與某種疾病易感性相關,那么gj也與該疾病相關. 在SNP連鎖不平衡下,由于基因數據的隱私保護需求,我們首先給出基因隱私保護模型——矩陣差分隱私,如圖1所示,該模型主要包括3部分.第1部分為編碼SNP二倍體基因數據并用矩陣存儲.第2部分為對已編碼的SNP二倍體基因數據進行隨機擾動,同時滿足基于SNP連鎖不平衡下的差分隱私.第3部分為使用模余運算置換隨機擾動的SNP基因數據.其中,各個部分的主要思想如下. 在第1部分,B表示主要等位基因,b表示次要等位基因,根據等位基因的頻率,將主要等位基因B編碼為0,次要等位基因b編碼為1,并且B,b∈{A,C,G,T},編碼基因型BB為0,Bb為1,bb為2.那么對于n個個體,每個個體有m個 SNP,用矩陣表示為X=(xij)n×m(1≤i≤n,1≤j≤m),且xij∈{0,1,2}表示第i個個體第j個位點的 SNP基因型. 第 2部分是對 SNP二倍體基因數據進行隨機擾動,并且滿足 SNP連鎖不平衡下的差分隱私.圖 2所示為SNP二倍體基因型數據隨機擾動的主要思想,根據SNP連鎖不平衡下的差分隱私擾動機制,將SNP二倍體基因型矩陣元素xij∈{0,1,2}分別以概率p1、p2和p3進行隨機擾動.這里,p1、p2和p3是SNP連鎖不平衡下差分隱私隨機噪音對應的概率. 如圖2所示,第3部分對隨機擾動的二倍體基因型數據進行模余運算,使其具有SNP二倍體基因型數據的語義,并根據等位基因頻率和基因型編碼置換為相應的基因型. Fig.1 The genomic privacy preserving framework for SNP linkage disequilibrium圖1 SNP連鎖不平衡下的基因隱私保護模型 Fig.2 The differential privacy perturbation mechanism for SNP linkage disequilibrium圖2 SNP連鎖不平衡下的差分隱私擾動機制 矩陣X=(xij)n×m表示n個個體的SNP,每個個體的DNA序列有m個SNP,其中,xij∈{0,1,2}表示個體i的SNPgj的隨機變量.特別地,Xi=(xi1,xi2,…,xim)表示個體i的SNP序列取值. 因為xij∈{0,1,2},所以查詢函數f的敏感度為Δf=2. 下面結合矩陣加運算、SNP連鎖不平衡下的差分隱私定義和模余運算,給出矩陣差分隱私的定義. 定義 2(矩陣差分隱私).給定ε≥0,任意兩個鄰近矩陣,對于具有全背景知識的攻擊者,M的任意輸出S=(sij)n×m?Range(M),使得.那么,隨機機制 另外,由于個體i的SNP序列值表示為向量Xi=(xi1,xi2,…,xim).類似地,下面我們來定義向量差分隱私. 定義3(向量差分隱私).給定ε≥0,任意兩個鄰近向量,對于具有全背景知識的攻擊者,M的任意輸出Si=(sij)1×m?Range(M),使得.那么,隨機機制 因此,向量差分隱私是矩陣差分隱私的特例.下面給出矩陣差分隱私的通用算法1.其中,概率分布π(Δfc/max可以是拉普拉斯分布和高斯分布,即噪音矩陣(yij)n×m是由拉普拉斯機制(Laplace mechanism,簡稱LM)和高斯機制(Gaussian mechanism,簡稱GM)[20]產生的.相應的常數c分別為1和.由于SNP二倍體基因型矩陣存儲(xij)n×m中元素xij∈{0,1,2},這里暫且將xij看作字符型,簡單地定義基因型xij的效用函數為u:xij→xij,也就是說,u(xij=0)=0,u(xij=1)=1和u(xij=2)=2,那么效用函數的敏感度為Δu=2,因此在指數機制下選取基因型值0、1和2的概率分別正比于1、eε/4和eε/2.因為SNP基因型矩陣及其對應的效用矩陣的元素都是0、1和2,所以通過指數機制選擇基因型值 0、1和 2的隨機性較差,那么在 SNP基因型數據的這種效用函數定義方式下,使用指數機制將導致基因型數據及其相關的敏感信息泄露,因此本文沒有考慮指數機制(exponential mechanism,簡稱EM)[20]. 算法1.在SNP連鎖不平衡下的矩陣差分隱私. 下面從理論上分析矩陣差分隱私的性質. 定理1.矩陣差分隱私是差分隱私. 為了分析矩陣差分隱私的效用,因為S= (sij)n×m?Range(M),本文使用度量矩陣差分隱私機制的效用[18]. 定理 2.矩陣差分隱私的效用在[R0,1]區間,R0表示隱私預算ε最小時矩陣差分隱私下噪音矩陣中模 3余 0元素數量的百分比值. 證明:首先考慮3種極端的情況. (1) 當噪音矩陣Y=(yij)n×m的所有元素滿足round(yij) mod 3=0時,round((yij)n×m)的所有元素都模 3同余 0.因此,在(xij)n×m與(sij)n×m?Range(M)之間的所有 SNP二倍體基因型數據相同.因此,矩陣差分隱私機制的最大效用為1. (2) 當噪音矩陣Y=(yij)n×m的所有元素滿足round(yij) mod 3≡1時,(0+1) mod 3≡1,(1+1) mod 3≡2和(2+1) mod 3≡0.因此,(xij)n×m與(sij)n×m?Range(M)之間的所有 SNP二倍體基因型取值都不相同,此時矩陣差分隱私機制的效用是0. (3) 當噪音矩陣Y=(yij)n×m的所有元素滿足round(yij) mod 3≡2時,(0+2) mod 3≡2,(1+2) mod 3≡0和(2+2) mod 3≡1.因此,(xij)n×m與(sij)n×m?Range(M)之間的所有 SNP二倍體基因型取值也都不相同,此時矩陣差分隱私機制的效用是0. 上述證明中考慮(2)和(3)兩種極端情況,使矩陣差分隱私下基因數據的效用為 0.然而,由于噪音的隨機性,矩陣差分隱私下基因數據的最小效用是大于0的,詳見第4.4節基因數據的效用分析.下面考慮第4種情況. (4) 在矩陣差分隱私中,由于隱私預算ε越小,鄰近基因數據矩陣的不可區分性越好,進而矩陣差分隱私保護越強,那么基因數據的效用達到最低.在矩陣差分隱私中基因數據的效用與模 3余 0的噪音數量的百分比值是一致的.也就是說,如果隱私預算ε最小,矩陣差分隱私產生模 3余 0的噪音數量百分比值為R0(1>R0>0),那么基因數據的最小效用為R0.反之,隱私預算ε越大,基因數據效用可達到百分比值1. 綜上,由于噪音的隨機性,矩陣差分隱私機制的效用屬于區間[R0,1]. □ 定理3.考慮連鎖不平衡、矩陣加運算和模余運算的計算復雜度分別為O(n×m2)、O(n×m)和O(n×m).矩陣差分隱私的計算復雜度如下:(1) 當n=m時,矩陣差分隱私的計算復雜度為O(n3);(2) 當n>m時,矩陣差分隱私的計算復雜度為O(nm2);(3) 當n 證明:在矩陣差分隱私中,產生隨機噪音是有效的,忽略其計算復雜度,而計算連鎖不平衡、矩陣加運算和模余運算分別需要8n×(m2-m)、n×m和n×m次運算,考慮3種情況. (1) 當n=m時,矩陣差分隱私的計算復雜度為O(n3). (2) 當n>m時,矩陣差分隱私的計算復雜度為O(nm2). (3) 當n 總之,矩陣差分隱私滿足差分隱私的定義,同時具有效用屬于區間[R0,1],其中,R0是矩陣差分隱私下隱私預算最小時噪音矩陣中模3余0元素數量的百分比值,并且矩陣差分隱私的計算復雜度是多項式時間的. 本文在矩陣差分隱私下選擇拉普拉斯分布和高斯分布來進行實驗分析.首先進行噪音分析,然后與拉普拉斯機制和高斯機制比較分析矩陣差分隱私保護模型的隱私和效用.在所有的實驗分析中,考慮SNP二倍體基因型數據的特點,初始化SNP連鎖不平衡的相關系數為rij=1和敏感度Δf=2.另外,分別初始化隱私預算ε=0.001和概率值δ=0.01. 國際人類基因組單體型圖計劃(Int’l Hapmap Project)的數據是公開可用的[21],本文使用2010年5月發布的階段III的165個CEU(utah residents with northern and Western European ancestry from the CEPH collection)群體的22號染色體的基因型和頻率數據集.在實驗分析之前,基于頻率數據集預處理基因型數據集,將 SNP二倍體基因型數據編碼為0、1和2.在CEU基因型數據集中,將丟失的數據’NN’用0代替.本文分別選擇500、1 000和1 500個SNP位點進行實驗分析. Fig.3 The percentage of noises matrix entries module 3 satisfying the residue to be 0 for matrix differential privacy圖3 矩陣差分隱私下噪音矩陣模3余0的元素數量的百分比值 為了評估基因隱私保護模型的隱私,對于擁有全背景知識的攻擊者,本文定義標準化期望估計誤差作為隱私度量.因為元素xij在矩陣差分隱私下的隨機擾動元素為sij,因此,定義基因數據的隱私度量為 通過比較,我們來分析矩陣差分隱私與拉普拉斯機制、高斯機制的標準化期望估計誤差.如圖 4和圖 5所示,矩陣差分隱私、拉普拉斯機制和高斯機制的標準化期望估計誤差都隨隱私預算的增大而減小.主要原因是,隱私預算越大,拉普拉斯分布和高斯分布的方差越小,矩陣差分隱私產生模3余0的噪音越多.因此拉普拉斯機制和高斯機制直接添加噪音到 SNP基因型數據會導致效用災難,而矩陣差分隱私通過噪音模余運算提高了SNP基因型數據的效用,見第4.4節矩陣差分隱私的效用分析.由此,矩陣差分隱私實現了基因數據的隱私保護,不過,隱私保護強度顯然低于拉普拉斯機制和高斯機制.另外,由圖4和圖5可知,隨著隱私預算的增加,高斯機制的標準化期望誤差較拉普拉斯機制要大,為了更好地權衡隱私和效用,可以選擇拉普拉斯機制實現矩陣差分隱私. Fig.4 The normalized expected estimation error for matrix differential privacy圖4 矩陣差分隱私下的標準化期望估計誤差 Fig.5 The normalized expected estimation error for Laplace mechanism and Gaussian mechanism圖5 拉普拉斯機制和高斯機制下的標準化期望估計誤差 因此,根據SNP連鎖不平衡下差分隱私的不可區分性,矩陣差分隱私實現了SNP基因型數據和SNP連鎖不平衡的隱私保護. 盡管矩陣差分隱私可以實現SNP基因型數據的隱私保護,考慮到SNP基因型數據的分析,因此還需要分析SNP基因型數據的效用.在矩陣差分隱私中,對于原始的 SNP基因型數據(xij)n×m和擾動后的 SNP基因型數據(sij)n×m,根據作為效用度量方法實驗分析基因數據的效用. 如圖6所示,隨著隱私預算的增加,矩陣差分隱私保護模型下的基因數據效用遞增,并且增長到100%保持不變.這是因為,隨著隱私預算增大,拉普拉斯分布和高斯分布的方差變小,矩陣差分隱私產生模3余0的噪音就更多.當隱私預算較小時,基于拉普拉斯機制的矩陣差分隱私可以實現更好的基因數據效用,以此保證較好的計算不可區分性,進而實現更好的差分隱私保護.例如,當ε=7時,基于拉普拉斯機制的基因數據效用可以達到80%,而基于高斯機制的基因數據效用為40%,這與圖3中拉普拉斯機制和高斯機制產生噪音矩陣的四舍五入近似值模3余0的噪音數量的百分比值是一致的.而圖7中隨著隱私預算的增加,基因組數據的效用保持0不變.這是因為,拉普拉斯機制和高斯機制直接添加噪音到基因數據,破壞了基因數據效用,導致基因數據效用災難.由此可知,矩陣差分隱私比拉普拉斯機制和高斯機制更適合于基因數據的隱私保護. Fig.6 The genome data utility for matrix differential privacy圖6 矩陣差分隱私下的基因數據效用 Fig.7 The genome data utility for Laplace mechanism and Gaussian mechanism圖7 拉普拉斯機制和高斯機制下的基因數據效用 因此,矩陣差分隱私相比于拉普拉斯機制和高斯機制更適合于基因數據的隱私保護,保證了基因數據和SNP連鎖不平衡的隱私保護與基因數據效用之間的權衡.在表1中,通過比較分析,總結矩陣差分隱私與拉普拉斯機制、高斯機制的相關性質.其中,最小效用R0表示矩陣差分隱私在最小隱私預算下所有模3余0的噪音數量的百分比值. Table 1 The comparison among matrix differential privacy,Laplace mechansim and Gaussian mechanism表1 矩陣差分隱私與拉普拉斯機制、高斯機制的比較 為了保護SNP連鎖不平衡下基因關聯的敏感信息,本文提出了矩陣差分隱私保護模型.該模型滿足差分隱私,同時保證基因數據效用在[R0,1]區間,其中,R0是矩陣差分隱私在隱私預算最小時噪音矩陣中模3余0的噪音數量的百分比值,并且矩陣差分隱私是多項式時間計算有效的. 對于基因數據,基因隱私保護模型在連鎖不平衡下保證隱私是可行的.通過結合矩陣加運算、SNP連鎖不平衡下差分隱私的定義和模余運算,提出了向量差分隱私和矩陣差分隱私,并且向量差分隱私是矩陣差分隱私的特例.根據矩陣差分隱私的性質,為了疾病標記發現,基因隱私保護模型可以用于 DNA數據集的差分隱私選擇[15];在 GWAS中,矩陣差分隱私也可以對基于隱私編輯距離相似患者查詢提供隱私保護[12];矩陣差分隱私阻止從GWAS統計值中識別特定的個體[16];并且,矩陣差分隱私可以實現隱私保護罕見疾病變異分析[8];矩陣差分隱私在基因組串搜索中是有效的隱私保護方法[11].更進一步說,在矩陣差分隱私下可以實現宏基因組分析[13].因此,矩陣差分隱私可以推廣到基因數據收集、搜索和序列配對等應用的隱私保護中. 在矩陣差分隱私中,可以通過行劃分、列劃分或者其他快速矩陣計算方法[22]降低其計算復雜度,進而提高計算效率.另外,考慮高階的SNP連鎖不平衡,Samani等人[23]表明了對隱藏SNP的個體基因數據具有更強的推斷攻擊.Tramèr等人[17]考慮有界先驗知識的差分隱私,并應用于GWAS.通過孟德爾定律、基因變異之間的統計關系和基因與表型之間的統計關系,在個體的基因組或表型被觀察到的情況下,Humbert等人[4]詳述了重構攻擊推斷該個體的親戚的基因組.相比較考慮攻擊者的背景知識,本文僅考慮了SNP連鎖不平衡下基因隱私保護.在下一步的工作中,研究SNP連鎖不平衡下具有先驗知識的基因隱私保護模型,除了考慮成對SNP連鎖不平衡外,還需要考慮高階的SNP連鎖不平衡,并考慮攻擊者更多的先驗知識,包括可利用的基因數據、個體的血緣關系以及重組規則等.1.4 差分隱私

2 基因隱私保護模型
2.1 攻擊模型
2.2 矩陣差分隱私保護模型


2.3 矩陣差分隱私




3 矩陣差分隱私的分析


4 實驗分析
4.1 數據集
4.2 噪音分析

4.3 隱私分析



4.4 效用分析



5 結 論