翟志剛 謝莉莉
摘? ?要:大數據環境下安全問題面臨著新的形勢和新的矛盾,其中隱私保護是關鍵的問題之一,如何在大數據環境下兼顧共享和隱私保護是不得不考慮的問題。文章分析了大數據環境下隱私保護問題面臨的新困難,指出隱私保護問題實際上就是數據共享問題,初次共享可以通過授權控制,但是數據的過度共享無法單單通過授權來控制。研究新的使用控制模型,提出通過授權、職責和條件來控制非授權的數據過度共享。在此基礎上提出了職責后使用的控制模型,通過職責操作和條件約束來控制信息數據的過度共享,并給出了該模型的形式化描述。
關鍵詞:大數據;隱私保護;使用控制;職責
1 引言
信息技術與經濟社會的交匯融合引發了數據量的迅猛增長,數據已經成為國家的基礎性戰略資源,大數據正日益對全球生產、流通、分配、消費活動、經濟運行機制、社會生活方式和國家治理能力產生重要影響[1]。在未來社會發展中,數據資源的重要性將會超過土地資源[2]。運用大數據推動政府治理體系和治理能力現代化,實現高質量的發展是必然趨勢。
大數據技術的發展帶來了極大便利的同時,也面臨著許多新的安全問題。為此,全國信息安全標準化技術委員會從2017年開始發布《大數據安全標準化白皮書》,在2018版[3]中特別指出,數據安全和個人信息保護是大數據的應用和發展中面臨的重大挑戰。在大數據時代,實現大數據安全與隱私保護,較以往其它安全問題更為棘手[4]。大數據背景下很多的應用平臺不但是數據的存儲者,還是數據的管理者,很難單純通過技術手段限制平臺對用戶信息的使用。因此,大數據環境下更容易暴露隱私數據,“棱鏡門”“劍橋分析”事件即為典型案例。同時,數據的可用性和安全性是一對天然的矛盾,有時候為了數據分析的方便,用戶不得不主動或被動的放棄部分隱私保護的權利。
“隱私”作為一個概念的提出可以追溯到19世紀,在社會科學領域有廣泛研究,但是跟“大數據”的概念一樣,很難給“隱私”確定一個明確的定義,一般是指用戶認為是自身敏感的且不愿意公開的信息。這里的用戶可以是個人,也可以是某個組織。
2018年5月,號稱史上最嚴的數據保護條例《通用數據保護條例》(GDPR)正式生效,歐盟個人信息保護進入新的歷史階段[5],需要注意的是GDPR從“個人數據”“數據主體”等概念設定了個人隱私保護要求。而我國《中華人民共和國網絡安全法》(以下簡稱網絡安全法)和《民法通則》中是基于“個人信息”進行了表述。“個人數據”和“個人信息”的區別有專門研究[6],本文對“數據”和“信息”的表述不做嚴格區分,也不對其內涵和外延進行深入分析,只要是個人或組織所擁有的數據或信息,均為本文研究涵蓋范圍,文中所列“信息”和“數據”的概念視作相同。
學術界從不同角度對大數據環境下的隱私保護進行了廣泛的研究。劉雅輝等人[7]從數據層、應用層以及數據展示層敘述了個人隱私保護所使用的技術 ;黃劉生等人[8]從密碼學的角度,綜述了近年來提出的適用于大數據隱私保護技術的研究進展;曹珍富等人[9]指出解決大數據安全與隱私最徹底的方法是通過加密來實現。但是,孟小峰等人[10]在分析了大數據管理中存在的隱私風險和隱私管理關鍵技術后,指出了大數據的大規模性與高速性帶來的實時性分析,使得傳統的加密和密碼學技術面臨極大的瓶頸;李昊等人[11]從訪問控制角度,對大數據安全問題進行了研究;從管理角度,王利明[12]深刻分析了數據共享與個人信息保護的矛盾;劉佳等人[13]從法律法規和標準角度對個人信息保護進行了研究;孫舒揚[14]指出了大數據應用中的個人信息使用存在的幾個關鍵問題。
本文分析了大數據環境下隱私保護技術所面臨的新特點和難點,將大數據環境下隱私保護問題歸結為控制非授權數據的共享問題,初次共享可以通過授權控制,但是過度共享無法單單通過授權控制,提出了過度共享問題可以通過職責操作和條件約束來控制,依托使用控制模型建立職責后使用控制模型,給出它的形式化描述。
2 大數據環境下隱私保護的難點
傳統的信息安全有三要素:機密性、完整性和可用性。機密性保證信息不被非授權訪問,完整性保證信息不被非授權修改,可用性保證系統可用。機密性解決的是信息不能隨便“讀”的問題,非授權不能讀取;完整性解決的是信息不能隨便“寫”的問題,無論是有意還是無意,都不能非授權寫;如果一個系統既不能讀也不能寫,那么可以說這個系統是完全安全的,但是這樣的系統就沒有了意義,所以還要有可用性來保證系統的可用。機密性、完整性和可用性缺一不可、不可分割,三者都取最優是無解的,只能根據不同的應用場景,分析系統需求,選取最佳平衡。
大數據環境下關于機密性所面臨的新特點和新安全威脅主要體現在兩方面。
一是間接信息泄露。大數據時代個人信息無處不在,無論是工作還是生活,登記的個人信息都已進入網絡。同時,政府或社會組織的數據或信息也同樣面臨泄露的風險,甚至超過個人信息泄露的風險。分析信息泄露事件,除了非法訪問破壞機密性而導致信息泄露外,大數據時代隨著數據挖掘、機器學習、人工智能等技術的發展,使得大數據的綜合聯機分析能力越來越強,更容易通過關聯分析挖掘出更多的關聯信息,這也是大數據的關鍵特征之一,但是大數據的這一特征同時增加了信息泄露的風險。所以,在大數據時代,對于隱私保護問題,除了控制對數據的非法訪問,更重要的是控制因數據挖掘分析而間接導致的信息泄露。
二是數據過度共享。大數據時代,數據是重要的戰略資源,但是數據的使用價值只有在流通、共享和應用的過程中才能體現,沒有共享的數據只有價值而無使用價值。數據共享包括信息數據的收集和傳輸行為,數據共享實際上是數據控制范圍的擴張,數據收集者如果再次將收集到的數據共享出去,將可能導致數據的廣泛傳播。《網絡安全法》第四十一條規定:“網絡運營者收集、使用的個人信息,應當遵循合法、正當、必要的原則,公開收集使用規則,明示收集使用信息的目的、方式和范圍,并且經過被收集者同意。網絡運營者不得收集與其提供的服務無關的個人信息,不得違反法律、行政法規的規定和雙方的約定收集、使用個人信息,并應當依照法律、行政法規的規定和用戶約定,處理其保存的個人信息。”按照上述規定,數據收集者在收集信息數據時應當獲得信息數據擁有者的同意。但是數據收集主體在收集到相關信息數據以后,在利用這些信息數據的同時,可能會將其再次共享,再次共享時是否應當征得信息數據擁有者的同意。信息數據擁有者是否就是該信息數據的原始擁有者,有無權力轉授權。這些都是大數據時代新的隱私保護難點。分析機密性可以看出,數據泄露可以看作是非授權的數據共享,數據的過度共享同樣可以看作是非授權的數據共享。
大數據環境下關于完整性面臨的安全威脅主要是基于訪問控制進行的研究[11],本文不做贅述。但是可以認為對原授權操作數據的進一步寫操作,是產生了新的數據,該新數據沒有原始擁有者,可以認為執行主體是其當前的擁有者,該新數據產生以后被其數據擁有者同時共享出去。
大數據環境下關于可用性面臨的安全威脅同樣可以歸結為非授權共享的問題,可用性的控制主要是通過應用場景或時間段來控制。比如某用戶將自己的個人信息授權給某APP采集使用,但是僅限于在該APP內使用,若該APP將用戶信息轉授權給其他APP則違背了事先約定的條件約束,授權應該被收回。
實際上,大數據環境下信息數據的流動都可以歸結為數據共享的授權行為,初次信息數據收集,可以歸結為數據的擁有者將數據共享給了數據的收集者。數據收集者獲得數據授權后,通過分析得到的增值數據可以視為在原授權基礎上的屬性擴展,視作新數據并對外共享。數據收集者將獲得的數據對外共享,可以視為非授權過度共享,過度共享可以是一次,也可是多次。
從這個角度,無論是“信息”還是“數據”, “個人”還是“組織”,均可以是被動研究的對象,本文統一命名為“客體”,屬于被操作的對象。執行操作的對象有可能是平臺、個人、組織,有可能是有意或是無意的,本文統一命名為“主體”。主體對客體執行的命令,稱之為“權力”,比如“讀”“新增”“刪除”“修改”等。一個主體、一個客體和該主體對該客體的權力組成了一個權限,權限組成權限集合。這里主客體并不是一成不變,某個場景下主體A對客體B執行操作C,另外的場景下可能主體A變為客體被訪問操作。
由此,隱私保護的問題可以歸結為非授權的數據共享問題,數據共享分為初次共享和過度共享。數據的收集行為反過來考慮也就是數據擁有者對數據收集者的共享行為,視為初次共享。過度共享則是數據收集者對收集的數據再次共享的過程。如何保護隱私,也就是如何控制非授權數據共享的問題。例如,數據擁有者將該數據的某權力授權給數據收集者后,如何控制該數據收集者不能隨意將該權力非授權的共享出去。顯然,數據的初次共享可以通過授權的方式解決,但是數據的過度共享已無法單單通過授權的方式解決。
3 后職責使用控制模型的定義及安全策略形式化描述
除了授權,實際上還可以通過兩種方式控制權力的流動也就是非授權的數據過度共享。一是基于操作,如果數據收集者收集到數據后執行了某種不應執行的操作,則撤銷該數據共享的權限。或者應該執行某種操作而未執行該操作,同樣撤銷該數據共享的權限;二是基于場景,如果超出了某使用場景,也撤銷該數據共享權限。再加上初次共享的授權控制行為,控制數據共享的先決條件可以歸結為授權(Authorization)、職責(oBligation)和條件(Condition),在此基礎上研究訪問控制模型更應該基于使用控制模型(UCONABC)[15,16],而有關的形式化描述定義,可參考文獻[17]。
在此基礎上,本文提出一種職責后使用的控制模型,主要通過職責謂詞和條件謂詞來控制數據的過度共享。例如某主體s獲得某客體o的某權力r之后,如果執行了某種操作action,則該權限p(s,o,r)被撤銷收回。或者發現某應用場景條件c已改變,則該權限p(s,o,r)同樣被撤銷。
屬性更新操作根據使用進程的階段包括preupdate(attribute)、onupdate(attribute)和postupdate(attribute),分別表示使用進程前執行的屬性更新、使用進程執行過程中的屬性更新和使用進程執行結束后的屬性更新,屬性值包括主體屬性、客體屬性和系統屬性。
職責操作是諸如點擊按鈕、打開窗口等操作,用ob(sb,ob)表示,ob表示職責操作的名稱,sb指職責主體,ob指職責客體。
首先,用戶提出了使用請求,此時檢驗授權謂詞、條件謂詞和職責操作是否都滿足,都滿足的情況下才會授予相關的權限。如果有屬性更新,則更新相關屬性值。使用決策在檢驗時如果發現有授權謂詞、條件謂詞和職責操作任意一個不滿足,執行拒絕請求操作。只有允許請求成立,系統狀態才會轉入使用中階段,這個階段如果有屬性更新,則隨時更新屬性值。同上,如果使用中階段發現授權謂詞、條件謂詞和職責操作有任意一個不滿足,則撤銷請求的操作執行,并且檢測是否有屬性更新。用戶自己提出終止使用決策,則使用進程自動終止。正常使用決策終止,系統狀態自動進入終止請求階段。同樣,若有屬性更新,更新相關屬性值。
UCONABC模型可以分為24個子模型,本文只研究基于職責操作的數據過度共享控制,也就是在使用決策執行過程中和使用決策執行以后對權限的控制,所以只給出職責中和職責后子模型的基本描述。
3.1 職責中子模型
職責中分布式使用控制子模型安全策略的描述。
3.2 職責后子模型
職責后分布式使用控制子模型安全策略的描述。
這時候系統狀態已經轉入post階段,必須在滿足某些謂詞的前提下執行一些職責操作,若有屬性更新則更新主客體屬性集和系統屬性集,最后正式終止這次使用進程。
postB子模型的定義主要是針對數據收集者獲得數據權限以后的過度共享。比如網上下載的電影必須在24小時內刪除,這里刪除的職責操作就顯的尤為重要,如果沒有執行這個刪除的職責操作,則認為用戶可能傳播該視頻,這就違反了最初使用控制的初衷。另外,屬性更新的操作也顯的非常重要,因為如果主體最后真的沒有執行這個職責的操作,那么必須更新相應的主客體屬性值和系統屬性值,更新這些屬性集以后,下次主體再執行此次使用請求,系統將均予以拒絕。本文用一個例子來表達此子模型的表達能力。
4 結束語
本文將大數據環境下的數據流動歸結為數據的共享問題,將隱私保護問題歸結為如何控制非授權的數據共享,通過職責操作和條件約束來控制數據共享的過度授權,提出職責后使用控制模型并給出其形式化的描述。
大數據環境下,更重視數據利用還是更重視隱私保護是相互矛盾的。從長期來看,應該尋找多種價值目標的最佳結合點,達到一個平衡。隱私保護必須加大力度,但是大數據的價值大部分來源于數據共享,不允許數據共享,大數據將無從談起。如果只強調隱私保護而采取過于嚴苛的措施,則可能不切實際。
基金項目:
江蘇省教育科學十三五規劃2016年度資助專項課題:基于大數據時代的高校學生精準資助工作探究(項目編號:X-a/2016/08)。
參考文獻
[1] 國務院關于印發促進大數據發展行動綱要的通知.[EB/OL].2015-09-05/2019-08-05.http://www.gov.cn/zhengce/content/2015-09/05/content_10137.
[2] 未來數據資源比土地更值錢[N].新華日報, 2019-04-11(2).
[3] 大數據安全標準化白皮書.[EB/OL].2018-04-16/2019-08-05.http://www.cesi.ac.cn/201804/3789.html.
[4] 馮登國,張敏,李昊.大數據安全與隱私保護[J].計算機學報,2014,37(1):246-258.
[5] 劉玉琢.歐盟個人信息保護對我國的啟示[J].網絡空間安全,2018,9(7):42-46.
[6] 王春暉. GDPR個人數據權與《網絡安全法》個人信息權之比較[J]. 中國信息安全,2018,(7):41-44.
[7] 劉雅輝,張鐵贏,靳小龍.大數據時代的個人隱私保護[J].計算機研究與發展,2015,52(1):1-19.
[8] 黃劉生,田苗苗,黃河.大數據隱私保護密碼技術研究綜述[J].軟件學報,2015,26(4):945-959.
[9] 曹珍富,董曉蕾,周俊等.大數據安全與隱私保護研究進展[J].計算機研究與發展,2016.,53(10):2137-2151.
[10] 孟小峰,張嘯劍.大數據隱私管理[J].計算機研究與發展,2015,52(2):265-281.
[11] 李昊,張敏,馮登國等.大數據訪問控制研究[J].計算機學報,2017,40(1):72-91.
[12] 王利明.數據共享與個人信息保護[J].新華文摘,2019,11:17-20.
[13] 劉佳,張琳.個人客戶信息保護的法律法規及標準綜述[J].網絡空間安全,2018,9(10):34-38.
[14] 孫舒揚.大數據應用中的個人信息利用問題研究[J].網絡空間安全,2018,9(12):80-84.
[15] PARK.J, SANDHU R. The UCONABC usage control model[J]. ACM Transactions on Information and System Security, 2004, 7(1):128-174.
[16] ZHANG Xinwen. Formal model and analysis of usage control[D]. Virginia: George Mason University, 2006.
[17] Xie Lili, Zhai Zhigang. Formal Specification of Concurrent Enforcement UCON Model with CTL Logic[A]. In:International Conference on Artificial Intelligence and Security(ICAIS 2019)[C]. Berlin: Springer, LNCS vol(11633) 2019:627-641.