, , ,
(徐州醫科大學 醫學信息學院,江蘇 徐州 221006)
DNA模體識別(motif finding)作為生物序列分析的基礎研究方法之一,對研究基因的表達調控機制、發現DNA功能位點有著重要意義[1-2]。但是,DNA數據蘊含豐富的隱私信息,這些隱私信息的泄露問題成為了DNA序列分析發展的瓶頸之一[3-5]。與此同時,Homer等人也通過實驗證實:基因序列分析研究中確實存在極高的隱私泄露風險[6]。該結論導致多個知名生物數據平臺暫停DNA數據共享服務,嚴重阻礙DNA序列分析研究的發展,隱私泄露已經成為了 DNA序列分析技術發展中亟待解決的關鍵性問題。
目前,國外學者對DNA序列分析的隱私保護研究主要集中在差分隱私保護技術上,并取得了一些成果[7-11]。差分隱私技術設定了一個嚴格的攻擊模型,能夠對隱私泄露風險進行嚴謹、定量化的推導與證明。而差分隱私模型的特性是能夠在攻擊者已掌握除某一條 DNA 序列之外的所有數據信息時,仍然保證該 DNA 序列隱私信息的安全性。但是,由于DNA數據的高度敏感性,往往容易造成差分隱私對DNA序列分析結果的過度加噪,從而導致分析結果失去應有價值。因此,在進行差分隱私DNA序列分析研究時,分析方法既要保證結果安全性又要保證結果的高可用性。
對此,Uhler等人[7]將差分隱私加噪融入到DNA序列分析過程中,并提出差分隱私MAFs(Minor allele frequencies)、差分隱私卡方檢驗、差分隱私p-values等數據發布方法,且從理論和實驗兩個方面證明了這些方法的可行性。其后,Simmons等人[11]對已有研究成果進行改進,并針對人口分層因素影響差分隱私DNA序列分析方法精確度的問題,提出了PrivSTRAT算法和PrivLMM算法,該研究成果引起國內外學術界廣泛關注。
而在模體識別領域,Chen等人[12]指出利用差分隱私可以有效地解決DNA模體識別的隱私泄露問題,并成功提出了一種基于n-gram的差分隱私保護方法(以下簡稱N-gram算法),該方法一種單純追求效率的識別方法,在處理較大數據集時需要消耗較多隱私預算,無法保證識別結果的精確度。對此,作者在文獻[13]提出一種高精度的方法DP-CFMF (differential privacy-closed frequent motif finding),該方法在利用閉頻繁模式的概念對識別模體中的冗余度進行約減,并減少了隱私預算分配過程,從而在保證DNA隱私安全的同時提高了模體識別的精確度。但是,國內外尚未有數據共享平臺支撐DNA模體的安全識別和研究工作。因而,建立一個DNA模體識別安全共享平臺成為了模體識別研究領域中亟待解決的問題。
基于以上研究,本文設計并實現了一種差分隱私DNA模體識別安全共享平臺。該平臺通過客戶端實現數據源選擇、算法選擇、隱私預算設置、結果評估及圖形化結果等功能,并利用多種差分隱私模體識別方法實現不同需求的DNA模體安全識別任務。此外,該平臺允許用戶自主上傳、共享DNA數據集,并對上傳的數據集進行差分隱私模體識別,在實現DNA數據安全共享的同時,為DNA模體識別領域研究人員的科研工作提供了有力支撐。
差分隱私模體識別平臺主要由平臺運行端、DNA數據庫服務器端及客戶端三部分組成(圖1所示為平臺總體結構圖)。用戶通過客戶端對模體識別過程中的DNA數據庫連接、隱私預算配置、算法參數配置及結果顯示方式等相關信息進行配置,信息配置包含任務開啟、結果顯示、DNA數據導入導出和DNA數據上傳及共享等指令,并通過多元網絡將指令傳輸給平臺運行端;平臺運行端在收到任務執行指令后,讀取隱私預算配置信息、數據源選擇信息、數據規約信息,并執行DNA模體識別操作;最后,平臺運行端將處理完成后的結果通過多元網絡呈現給客戶端,并提供結果集展示、本地存儲、結果質量評估及圖形化展示等功能。
圖1 平臺總體結構圖
差分隱私模體識別平臺主要由平臺運行端、DNA數據庫服務器端及客戶端三部分組成(圖1所示為平臺總體結構圖)。用戶通過客戶端對模體識別過程中的DNA數據庫連接、隱私預算配置、算法參數配置及結果顯示方式等相關信息進行配置,信息配置包含任務開啟、結果顯示、DNA數據導入導出和DNA數據上傳及共享等指令,并通過多元網絡將指令傳輸給平臺運行端;平臺運行端在收到任務執行指令后,讀取隱私預算配置信息、數據源選擇信息、數據規約信息,并執行DNA模體識別操作;最后,平臺運行端將處理完成后的結果通過多元網絡呈現給客戶端,并提供結果集展示、本地存儲、結果質量評估及圖形化展示等功能。平臺各子程序具備的功能見表1。
表1 各程序具備功能
主程序進行平臺初始化和各子程序的調用,多元網絡通信子程序負責客戶端的配置信息及數據庫的上傳。而平臺端在收到客戶端的任務開始指令后,將調用服務器內置DNA數據庫或者用戶上傳的數據庫,并對其進行差分隱私模體識別,最后將識別結果和數據可用性評估通過客戶端圖形化界面顯示給用戶。平臺軟件流程圖如圖2所示。
圖2 平臺軟件流程圖
差分隱私是一種基于數據失真的隱私保護模型,該模型通過向查詢結果中添加適當噪音實現數據分析與共享的隱私保護。差分隱私模型建立在嚴格的數學推導之上,能夠在攻擊者擁有最大背景知識情況下保護數據中的個人隱私信息。該模型的原理為:在任一數據集中添加或刪除一條數據,這一操作不會影響數據分析的結果。差分隱私模型的具體定義如下:
定義1:給定兩個數據集D和D',這兩個數據集之間最多相差一條數據,即兄弟數據集。同時,給定一個具有隱私保護的算法A,range(A)是算法A分析結果的取值范圍,若算法A在給定的兩個數據集D和D'上的任一分析結果O(其中O∈range(A))滿足下列不等式,則算法A滿足ε-差分隱私。
|Pr[A(D)=O]|≤eε×|Pr[A(D')=O]|
上述不等式中,查詢結果的概率Pr[·]取決于算法A的隨機性,也代表著數據集中個人隱私泄露的風險。而隱私預算參數ε表示對數據集的隱私保護程度。一般來說,ε越小,數據集的隱私保護程度越高。
為實現差分隱私模型,一般方法是向算法分析的結果中添加噪聲,噪聲添加技術主要分為拉普拉斯機制和指數機制,而基于不同噪聲機制且滿足差分隱私的數據分析算法所需噪音大小與算法的全局敏感性密切相關。
定義2:對于任意函數f:D→Rd,該函數f的全局敏感性Δf可以表示為:
由定義1可知,兩個數據集D和D'為兄弟數據集,即兩個數據集最多相差一條數據。R表示通過函數f,數據集D能夠映射的實數空間,d表示映射結果的維度,p表示全局敏感度Δf是利用Lp進行度量距離,而本文涉及到的算法均使用L1度量距離。
為使DNA模體識別方法滿足差分隱私模型,本文使用的噪音機制均為拉普拉斯機制,該機制主要通過拉普拉斯分布產生的隨機算子擾動真實DNA模體識別頻率來實現差分隱私保護。
定義3:對于任一函數f:D→d,如果算法A的分析結果滿足以下等式,則可以認為算法A滿足ε-差分隱私。
A(D)=f(D)+
在定義3中,任一拉普拉斯變量Lapi(Δf/ε)(1≤i≤d)相互獨立。由等式可知,拉普拉斯機制添加的噪音量與Δf成正比,與ε成反比。換而言之,算法A全局敏感性越大,需要添加的噪音量越大。
在平臺運行端內置多種差分隱私模體識別方法,除了經典的N-gram算法、Simple算法外,還包括自主設計的基于差分隱私保護模型的DNA閉頻繁模體識別算法——DP-CFMF,其原理通過構建閉頻繁擾動探索樹,利用閉頻繁模體模型對擾動探索樹進行剪枝,該步驟能夠減少模體結果集冗余的同時,減少隱私預算的消耗;而且,利用探索樹結構能夠提高內存使用和模體搜索的效率,并能夠快速有效地分配隱私預算;此外,該方法采用最優線性無偏估計對加噪支持度計數進行一致性約束處理,提高數據的可用性。該方法主要包括模式分解單元、構建閉頻繁擾動樹單元、識別模體單元和一致性約束后置處理單元,其具體流程如下:
1)模式分解單元:利用nmax參數對DNA原始數據集進行模式分解,獲得數據集中長度為nmax-1和nmax模體及其支持度計數;
2)構建閉頻繁擾動樹單元:利用長度為nmax-1和nmax模體構建探索樹,利用閉頻繁模體等價關系進行剪枝,然后對每一個模體的支持度計數添加相應的拉普拉斯噪聲,獲得由剪枝后nmax-1模體和nmax模體組成的閉頻繁擾動探索樹;
3)一致性約束后置處理單元:利用最優線性無偏估計方法對擾動探索樹的每一個節點的支持度計數進行一致性約束后置處理,獲得滿足樹的一致性約束的支持度計數;
4)識別模體單元:在N-gram模型的基礎上利用馬爾可夫假設方法進行預測所有nmax+1模體的支持度計數,不斷迭代獲取長度在[nmax,Lu]之間的模體,求解每個模體的聯合支持度計數,獲得長度在[nmax,Lu]之間的頻繁模體。
相比于N-gram方法來說,DP-CFMF具有較高的精確度,且其需要使用到的隱私預算較少,可以滿足多數情況下的隱私保護;而N-gram算法具有較高的效率,但其處理較大數據集時需要消耗大量的隱私預算,甚至可能超出隱私預算上限,從而導致識別過程異常,因此N-gram適用于較小DNA數據集的安全識別。在使用該平臺時,用戶可以根據自己不同的情況做出相應的選擇。
本文將真實數據集Upstream數據作為內置數據源對平臺算法性能進行測試,該數據集包含487760條DNA序列。測試時,在客戶端配置差分隱私保護預算、模體識別參數、圖像化顯示等信息。實驗所使用的軟硬件環境為:4G內存,平臺端運行環境為Linux,算法開發語言為Python,客戶端運行環境為Window10,客戶端開發語言為C#,數據庫為SQL sever 2008。圖3是在不同隱私預算下對Upstream數據集執行平臺算法測試,其他參數默認值見文獻[13]。由圖可知,兩種方法均可以完成在Upstream數據集上的差分隱私模體識別,且具有良好的精確度。此外DP-CFMF精確度要高于N-gram方法,更適合于高精度要求的任務,而N-gram方法相對來說精確度略低,比較適合處理效率要求較高的任務。
圖3 Upstream數據集在不同epsilon下的精確度對比
為測試研究人員在共享DNA數據庫場景下的算法運行效果,本文在客戶端中將真實數據集Washington數據設置為待共享數據集,該數據集共包含14126條數據。實驗中,客戶端通過互聯網將Washington數據集傳輸到服務器端。數據共享到服務器端后,本文對Washington集進行了不同隱私預算的模體識別測試,測試結果如圖4所示,DP-CFMF和N-gram算法的精確度均可達到70%以上。由此可知,通過該平臺可以較好地實驗DNA數據的安全共享。
圖4 Washington數據集在不同epsilon下的精確度對比
在客戶端總體功能測試中,本文主要對安全共享平臺進行了參數設置、數據共享、模體識別質量評估等功能的測試。通過測試可知,客戶端能夠實現內置DNA數據進行選擇、規約數據大小、描述共享數據集、設置差分隱私模體識別參數、選擇結果反饋方式等操作,并將相關指令發送給平臺端。平臺端對于客戶端的請求均做出了響應,并進行了相應操作后將結果反饋給客戶端。測試結果表明:平臺端和客戶端各子程序模塊均能成功運行,能滿足設計需求。
本文描述了差分隱私DNA模體識別安全共享平臺設計與實現,該平臺利用C/S架構,允許用戶在客戶端進行隱私預算及算法參數配置、選擇DNA數據庫、上傳及共享DNA數據集、結果保存方式等操作,并通過多元網絡將指令傳入平臺端。平臺端接收到客戶端端指令后,讀取、導入用戶所選擇的數據源,利用差分隱私DNA模體識別方法對DNA數據進行識別,然后將結果通過客戶端的客戶端圖形化展示給用戶。測試結果證明,該平臺提供的差分隱私模體識別方法能夠有效實現DNA數據的安全識別,并能滿足用戶多種需求。同時,平臺提供的自主上傳數據和隱私預算配置等功能幫助生物學研究人員開展定制化研究工作,為生物序列的安全共享與研究提供有力支撐。