吳振豪 高健博 李青山 陳 鐘
(北京大學高可信軟件技術教育部重點實驗室 北京 100871)
(北京大學信息科學技術學院計算機科學技術系 北京 100871)
近年來,爆炸式增長的數據量助力數字經濟快速發展,社會各界也對數字經濟寄予厚望.在2020年新冠疫情席卷全球的大背景下,我國數字經濟依然保持強勁增長,在疫情中逆勢崛起,已然達到39.2萬億元規模,占GDP比重達38.6%,比2019年占比(36.3%)同比提升近2.4個百分點[1].
在數字經濟快速發展的背景下,數據安全的問題日益凸顯.美國聯邦調查局(Federal Bureau of Investigation, FBI)在2020年的網絡犯罪報告中指出,2020年接到投訴791 790起,平均每天超過2 169起,損失金額超過41億美元,這表明總投訴比2019年增加了69%[2].中國互聯網應急中心(National Internet Emergency Center, CNCERT/CC)在2020年全年監測中發現政務公開、招考公示等平臺未脫敏展示公民個人信息事件107起(涉及未脫敏個人信息近10萬條),個人信息非法售賣事件203起,聯網數據安全事件3 000余起[3].數據安全問題已經成為數字經濟快速發展中的一大擔憂,保護大數據環境下的數據安全需要依賴系統的數據安全治理.
本文以加強數據安全治理為主要目標,從數據安全的基本概念、數據生命周期、數據安全技術、數據安全技術應用出發,整理先進數據安全技術中表達的數據安全理念,理性看待數據安全技術的作用,思考數據安全治理在技術上的可行性,研究數據安全治理的技術路線.
根據《中華人民共和國數據安全法》中第3條規定,數據安全是通過采取必要措施,確保數據處于有效保護和合法利用的狀態,以及具備保障持續安全狀態的能力.數字經濟發展中使用的數據是事實或觀察的結果,是對客觀事物的邏輯歸納,反映了公民的實際信息和我國的實際社會情況.因此,數據安全治理具有極高的戰略意義.保護數據安全,不僅僅是保護數據本身的安全和使用過程的安全,更是保護數據相應實體的安全,對于保護我國公民的人身安全具有重大作用.
數據安全重要的戰略意義、深遠的影響以及嚴峻的形勢促使各國政府積極采取措施保障國家數據安全.為了積極推進數據安全治理,我國除了《中華人民共和國數據安全法》之外,還推出了《中華人民共和國網絡安全法》《中華人民共和國個人信息保護法》這2部基本大法.此外還有其他更為細致的條款和辦法,如《國家網絡空間安全戰略》《個人信息和重要數據出境安全評估辦法(征求意見稿)》《數據安全管理辦法》《中華人民共和國密碼法》《網絡安全審查辦法》等.在國外,歐盟頒布了《通用數據保護條例》《聯盟機構個人數據處理保護條例》《非個人數據自由流動條例》以及《歐盟數據戰略》等,并聲明數據保護是增強公民賦權和歐盟實現數字化轉型的基礎.美國提出了《加州消費者隱私法案》《數據保護法》《國家安全和個人數據保護法提案》以及《聯邦數據戰略與2020年行動計劃》.此外,其他國家和地區性組織也紛紛推出了數據安全保護的相關法律、計劃以及條例.
可是,法律條例的實施并不能完全代表數據安全得到了有效的治理.一方面,前述與數據泄露相關的例子本就是違法行為,盡管有防護系統和安全條例,數據泄露事件仍然不斷發生,社會和企業也在呼求更好的數據防護措施.另一方面,數據和技術的不良使用仍然在影響大家的生活,違規的數據獲取、不合理的數據操作、虛假的數據反饋不斷給民眾和社會造成困擾.因此,數據安全治理的落實還需要全面的技術體系來保障數據在各方、各層面、各領域流轉過程中的安全性,使得公民、國家、企業的正當、合法利益不會受到各種惡意行為的侵害.
數據生命周期反映了數據的階段性變化及其規律.根據使用目的的不同,可以發展具有不同側重的數據生命周期,如云數據的數據生命周期[4].但目前少有針對數據安全治理的數據生命周期,本文從數據安全治理的角度,提出了一個新的數據生命周期,如圖1所示.該數據生命周期以全過程監管為主,將數據流轉的各個階段歸結為數據準備階段、數據存儲階段、數據使用階段和數據銷毀階段.

圖1 數據安全治理的數據生命周期
數據準備階段是數據可用的前提,包括數據生成、數據篩選和數據匯集,能夠解決數據來源分散、數據需求多樣化的問題.其中,數據生成是產生新數據的行為,無論是在軟件服務的基礎上產生原始數據,還是在現有數據的基礎上產生新的數據,都屬于數據生成過程.數據篩選是根據數據可用性對數據進行選擇,未通過篩選的數據是當前服務所不需要的無用數據,理論上應當進行銷毀.數據匯集是更換數據存儲位置的過程,如大量個體用戶的本地數據上傳到云端服務器.
數據使用階段則包括數據分析、大規模計算和數據合作,該階段是發揮數據價值的主要階段.數據分析的主要功能是了解數據中的信息,挖掘數據的價值,形成可用的自動化分析方法,如大數據模型或機器學習模型.大規模計算是數據分析成果的大范圍應用,需部署、運行數據分析成果,提供穩定、便捷、有效的數字服務.數據合作是利用不同數據主體的數據去完成單獨數據主體難以完成或完成度不高的數據任務.
數據存儲階段是重要的中轉階段,將數據保存在特定的存儲容器中(如關系型或非關系型數據庫),并隨時為被調用做好準備.數據長期處于該階段中,因此該階段要尤其注意保護數據的安全,防止數據泄露事件的發生.
數據銷毀階段是所有數據的最終歸宿,任何階段、過程中的數據可以隨時進入數據銷毀階段.銷毀后的數據不再以任何形式可用,如果數據擁有者要求數據使用者銷毀數據,那么數據使用者須給出銷毀成功的信息,數據使用者不可瞞報、漏報數據銷毀的情況.
全過程監管對數據準備、數據存儲、數據使用和數據銷毀中的過程進行全面的監控管理,能檢查數據相關操作是否符合規定,利于落實數據安全相關法律法規,是數據安全治理的核心,有助于提高數據安全的整體水平.
根據數據安全治理的數據生命周期,可以發展如圖2所示的相關技術.在圖2中,數據存儲階段和數據銷毀階段被放到了一起,因為執行數據存儲和數據銷毀的通常是同一方.此外,圖2中還涉及了系統防護安全技術,這在數據生命周期中沒有提及.系統防護安全技術是現階段數據安全保護的常用技術,可以為數據生命周期中各過程提供基本的安全環境.另外,圖2中的技術可以根據使用目的自由組合,并非全部應用了圖2中的技術才能保障數據安全.

圖2 數據安全治理中的技術
全過程監管安全技術的作用是對數據生命周期中的各個過程進行監控管理,可以對數據的流轉過程進行溯源,合理地驗證各參與方的行為,全局管理數據安全治理形勢.
數據溯源包含了系統和應用層面詳細、準確、完整的數據操作歷史[5],可以了解數據的產生及演變過程,為所有監管工作提供幫助.零知識證明[6]允許進行數據操作的各方在不提供具體數據內容的情況下向監管方證明已經獲得了用戶的許可并采取了數據保護操作,避免直接查探數據可能引起的隱私泄露問題.零知識證明常與區塊鏈一起使用.區塊鏈是去中心化的分布式賬本,能夠在分布式環境下不依賴可信第三方進行數據的存儲、傳輸和驗證,實現系統狀態的一致性[7].區塊鏈的防篡改特性可以保證記錄內容的可信性.態勢感知能夠綜合利用安全大數據來對數據流動的整體情況進行分析、展示和預警[8].將態勢感知用于數據安全治理,利于發現數據安全治理中的薄弱環節,評估數據安全事件發生的可能性,預測未來的數據安全狀況.
數據使用階段是當前數據安全的薄弱環節,但為了保證能夠充分發揮數據的價值,該階段的安全性在生產環境中難以引起重視.數據使用中可能產生的安全問題主要是計算的不可信問題以及對原數據的竊取行為.計算的不可信問題是潛在的惡意攻擊導致人們難以相信計算結果.對原數據的竊取行為是計算方能夠通過內存攻擊等手段竊取數據內容.因此,不需要直接接觸原始數據就可以完成數據計算的相關技術是對抗這2個問題的有效方法.
圖2中聯邦學習、同態加密、安全多方計算和可信執行環境的共同特點就是:數據使用方不需要直接接觸原始數據就可以完成數據的使用.聯邦學習用于解決數據孤島問題[9],可以在節點不上傳數據的情況下完成對節點數據的學習.同態加密[10]可以在密文上進行加法和乘法運算,將計算結果解密后等同于直接在原文上的計算結果.安全多方計算[11]能夠在去中心化的分布式計算任務中保證多方輸入隱私性和輸出結果正確性.同態加密和安全多方計算都是“密文計算”的重要技術.可信執行環境[12]是一種基于硬件的安全方案,它運行在一個獨立的環境中且與操作系統并行運行,能夠確保運行在其中的程序和數據不被可信執行環境外的程序讀取和破壞,因此若在可信執行環境中執行數據計算,任何人無法知曉數據原文.
數據分類分級基于對數據的有效理解和分析,對數據進行類別和密級的劃分,進而可以對數據采取差異化的操作,利于協調數據保護和數據可用之間的關系.
數據存儲技術主要是為了保護數據不被惡意訪問、篡改和竊取.因為數據存儲階段是數據最重要的集散地,所以該階段是數據安全的必爭之地,對數據安全也有更高的要求.圖2中該階段的技術是從防止非常規訪問、實現密態操作和加強存儲過程審計3個方面來提升安全性.
數據分類分級、數據安全隔離和訪問控制技術是防止非常規訪問的重要力量.在該階段,數據分類分級可以指導不同類別、級別數據的差異化存儲,規范數據存儲行為,提高非常規訪問的門檻.數據安全隔離主要用于數據防泄密,是針對數據分類分級中密級較高數據的技術手段,通過磁盤、網絡等多重隔離手段保證密級數據在安全區域內可控,外發審核可記錄、可查詢.訪問控制技術[13]是數據分類分級理念的體現,可以通過角色和策略組來控制用戶的訪問權限,但常見的訪問控制粒度較粗,常常會泄露意料之外的數據.細粒度的訪問控制技術可以實現某個字段、某個值的訪問控制,真正落實分類分級的相關理念.
密態操作可以讓數據以密文形式進行存儲,防范越權訪問、數據泄露等意外發生后明文數據泄露的問題.同態加密和可搜索加密是密態數據存儲的重要技術.同態加密保證了數據即使以加密的形式存儲也不會影響數據存儲必須提供的功能(如檢索、查詢).可搜索加密[14]也能夠提供安全的加密方法和在密文上直接檢索的功能,在發出搜索請求之后,服務器可以根據加密文檔是否與查詢關鍵詞有關聯來返回搜索結果.同態加密和可搜索加密雖然都允許服務器以密文的形式保存數據,但兩者存在不同.可搜索加密是返回包含目標內容的文檔,同態加密是返回想要的目標內容,因此同態加密比可搜索加密更為細粒度,但同態加密的計算速度不如可搜索加密快.
數據完整性、數據安全審計和數據信托都具備針對數據存儲的審計能力.數據完整性可以保證托管在別處的數據是完整的、未被惡意行為篡改的,且支持在不檢索整個數據的情況下進行審計[15].數據安全審計是為了防止合法人員做非法的事情,如數據開發人員利用職權進行信息篡改、違規刪除記錄等.數據安全審計可以檢查數據操作行為、監控數據相關權限變化以及對偏離正常行為的操作告警.數據信托[16]衍生于傳統的信托行業,可以在數據主體與數據控制人之間創設出信托法律關系,數據控制人基于數據主體的信任對數據享有更大的管理運用權限,同時也承擔更嚴格的法律信義義務.數據信托可以解決3個問題:數據的授權使用問題、數據的收益分配問題和數據使用糾紛中的舉證問題.也就是說,數據信托也會具備相應的審計制度來校驗數據的使用和收益分配.
對數據銷毀來說,最重要的是保證數據確實按照用戶的要求被銷毀,防止瞞報、漏報的情況.因此,數據完整性、數據安全審計、數據信托的相關技術也可以用于數據銷毀.
數據準備安全技術的核心是保護數據隱私.其中數據匿名化和數據脫敏以模糊處理和刪除敏感信息的方式防止隱私泄露,但這2種技術容易不可量化地降低數據的可用性.差分隱私技術[17]主要用來防范差分攻擊,使整體結果不因有限個體的變化而發生改變,因此也就無法根據整體結果推測出個體樣本包含的隱私信息.差分隱私具有隱私預算的概念,能夠可量化地衡量隱私保護程度和數據可用程度,但差分隱私技術只能作用在整個數據,難以滿足客戶端的隱私保護需求,其變種——本地化差分隱私——則可以在客戶端直接應用[17].本地化差分隱私技術是對數據進行擾動后再上傳數據,令某算法對任意2條不同的數據計算后得到的結果差異處于某個極小的范圍,從而滿足差分隱私條件.本地化差分隱私不需要額外的第三方,也不需要數據字典等工具,支持動態保護隱私.
在數據準備階段,零知識證明可以驗證本地數據的價值,從而通過數據篩選.因為零知識證明不需要提供具體數據信息,所以可以滿足篩選需求下的隱私保護.數據加密傳輸已經是廣泛應用的技術,如HTTPS和虛擬專用網絡(virtual private network, VPN)技術.數據加密傳輸保證了數據在傳輸過程中是密文狀態,防止第三方在截獲數據后窺探數據隱私.數據分類分級能夠指導不同的數據采用不同的處理方式,對數據隱私保護也非常有利.
系統防護安全技術的主要目的是保護所有數據應用系統的安全,是信息安全中的常用技術,主要用于保護計算機硬件、軟件、數據等不因偶然意外和故意的惡意攻擊而遭到破壞和泄露.系統防護安全技術是數據安全治理的底層技術,對于優化數據治理環境有重大意義.
防火墻、入侵檢測、入侵防御、惡意代碼檢測主要用于抵御故意的惡意攻擊.防火墻可以限制網絡數據的出入行為,入侵檢測可以有針對性地檢測惡意行為,2項技術都依靠大量的規則.入侵防御在入侵檢測的基礎上添加了防御機制,能夠及時中斷、調整或隔離一些不正常或是具有傷害性的行為.惡意代碼檢測主要針對蠕蟲、后門、僵尸網絡等惡意軟件,需要建立惡意代碼特征庫來提高檢測成功率.
容災備份可以保障系統在遭遇意外情況時也能正常運行,解決的是系統可用性的問題.如果系統遭到物理破壞(如自然災害)或者嚴重的惡意攻擊而無法正常提供服務,就可以將服務入口切換到備份服務器上,保證服務的正常運行.
隱私保護是當前數據使用中的一個強烈需求,也是各國推行數據安全治理相關法律、法規的關注重點.
近年來,國際上有多部法律出臺,要求商業公司在采集數據時,必須做好隱私保護工作.如歐盟的《通用數據保護條例》(General Data Protection Regulation, GDPR),美國的《加州消費者隱私法案》,我國的《中華人民共和國網絡安全法》,都對數據安全與隱私保護相關問題進行了嚴格的規范與引導.Google因為違反歐盟GDPR法規被處罰5 000萬歐元;Facebook因為泄露了8 700萬用戶的信息,需要支付50億美元的天價罰單.
隱私保護的相關法規都認為流通的數據應當經過脫敏處理,歐洲主要稱呼為匿名化處理[18].《中華人民共和國網絡安全法》第42條規定:“未經被收集者同意,不得向他人提供個人信息.但是,經過處理無法識別特定個人且不能復原的除外”[19].歐盟的GDPR規定“匿名化是指將個人數據移除可識別個人信息的部分,通過數據匿名化后,數據主體不會再被識別.匿名化數據不屬于個人數據,因此無須適用條例的相關要求”[20].美國則規定“數據控制者通過改變或刪除數據集中的個人可識別信息,使數據使用人難以識別數據主體身份”[21].
根據這些法律法規的要求,隱私保護概念下的數據安全治理的首要目標是如何去除數據中的隱私信息,且不影響數據處理行為.根據圖1中的數據生命周期和圖2中的數據安全技術可以發現,數據準備階段的差分隱私、數據匿名化和數據脫敏技術是數據安全治理的關鍵技術,全過程監管中的相應技術則是監控數據中隱私信息是否被去除的有力手段.
在去除隱私信息方面,數據匿名化和數據脫敏都已經有一定的應用基礎,國外的數據掩蔽工具Informatica ETL中的脫敏模塊,國內的世平SIMP-SDM、安華DBMasker等都可以滿足一定的脫敏需求.差分隱私也能滿足去除隱私信息的需求,尤其是本地化差分隱私,直接在采集端就可以應用.Google利用本地化差分隱私從Chrome瀏覽器采集用戶數據,Apple使用本地化差分隱私優化emoji表情的推薦.
《中共中央 國務院關于構建更加完善的要素市場化配置體制機制的意見》中將數據與土地、勞動力、資本、技術一起看成了生產要素,并且強調“加快要素價格市場化改革”.也就是說,數據不再僅是具備表面淺層統計意義的數字信息,而是成為重要的生產資料和要素,數據的權屬問題需要盡快界定清楚,以便對數據的收益進行研究.
數據權屬的研究需要建立數據權利的概念.GDPR賦予了用戶知情權、訪問權、修正權、刪除權、限制處理權、可攜帶權、拒絕權等權利,保證了用戶對相關數據訪問、控制、修改和刪除的能力.從數據作為生產要素的角度出發,數據權屬還應當賦予用戶收益權的概念,如果個人信息涉及商業利益,那么個人可以向信息利用者請求支付報酬.法國《數據處理、數據檔案及個人自由法》規定:任何自然人均依法有權反對信息控制者在未對其付費的情況下,為行銷目的,特別是為商業目標,在當前的或進一步的信息處理中使用與其相關的信息.
因此,若在數據權屬的概念下進行數據安全治理,前文在隱私保護概念下的數據安全治理就存在不足.需要從讓數據使用者不知道數據屬于誰,變成讓數據使用者無法讀取數據中的隱私信息.否則,數據所有者與其數據之間的關系將斷開,無法確定數據所屬,也無從保護數據所有者在數據上的各項權利,遑論從數據上獲得相應收益.
雖然數據安全治理在數據權屬概念和隱私保護概念下的執行方式有所不同,但圖2所示的數據安全保護技術仍然可用,尤其是數據存儲/數據銷毀安全技術和數據使用安全技術的應用范圍被大大擴大.數據使用安全技術的核心是數據使用方不需要直接接觸原始數據就能完成數據的使用,實現了計算和數據的分離.既不會消除數據的權屬信息,也不會在操作過程中侵犯數據隱私,適合在數據權屬概念下的數據安全治理中使用.
數據存儲安全技術的核心是防止數據被惡意訪問、篡改和竊取.其中:數據分類分級、數據安全隔離和訪問控制確保了數據不會被惡意訪問;可搜索加密和同態加密能使數據以密文形式存儲,即使數據泄露也不會影響數據安全;數據信托、數據完整性和數據安全審計可以對數據的存儲情況進行審計.在這些技術的組合作用下,數據權屬和數據隱私的侵犯將會變得困難.因此,發展、應用數據存儲階段的安全技術,可以對保護數據權屬和數據隱私起到關鍵作用.
全過程監管技術在數據權屬概念下的數據安全治理中有著比在隱私保護概念下的數據安全治理中更大的作用,需要對數據使用階段、數據存儲階段、數據銷毀階段都進行監管,確保數據權屬法律、精神和理念的有效落實.
值得注意的是,在數據權屬概念下的數據安全治理中,數據信托有著比較大的發揮空間.在具體執行數據信托時,產生數據的一方作為委托方需要將自己的數據交給數據信托機構和其他各方的數據進行統一管理,信托機構作為被委托方利用收到的所有數據創造收益,并將收益的一部分分享給委托方.如果委托方陷入數據使用糾紛,還可以向數據信托機構索要自身數據的所有使用記錄,解決舉證困難.在實施數據信托方案時,對數據信托機構的信用有著很高的要求,也就是說,將會對數據信托機構執行嚴格的監管,這有利于通過數據信托保護委托方的各項數據權利.
1) 明確數據安全治理的治理理念
數據安全治理的治理理念對如何推進數據安全治理有著重要的意義.正如本文所述,隱私保護概念下的數據安全治理和數據權屬概念下的數據安全治理存在著較大的差異,這些差異會影響數據安全治理的應用范圍、治理方向、執行策略和相關安全技術的研究方向.因此,需要盡快明確數據安全治理的治理理念.
2) 加強數據安全保護知識普及
無論要推行怎樣的數據安全治理,讓公民具備數據安全保護的相關知識都是必須的.加強數據安全保護知識的普及,可以讓公民更好地認識數據生命周期,理解數據的運轉方式,鑒別違背法律法規的數據操作,有利于形成良好的數據安全治理環境,對推進數據安全治理有著重要的積極意義.
3) 加強數據安全技術發展
數據安全技術能夠為數據安全治理提供可行性保障.數據安全技術和數據安全治理理念是相互依存、相互促進的,數據安全治理理念可以為數據安全技術的發展指明方向,數據安全技術的進步可以促進數據安全治理理念的提升.缺少了數據安全技術的數據安全治理就像是只用一條腿走路.因此,有必要繼續加強數據安全技術的發展.目前,許多數據安全技術對數據安全治理能夠提供理論支撐,如區塊鏈、聯邦學習、同態加密、安全多方計算、數據信托等都可以滿足以前難以想象的需求.但是,這些技術離實際應用或者大規模應用還有很長的路要走,如同態加密和安全多方計算的運算效率需要大幅提高,數據信托在法律層面和實施層面的完備性也需要進一步的探索.
近年來,數據對社會發展的重要性已經逐步被人們所認識,數據安全保護的必要性也已經為人們所接受,數據安全治理將成為保護公民、國家、企業安全的重要手段.本文從數據安全的基本概念入手,立足于數據生命周期,總結數據安全保護技術,分別分析隱私保護概念下和數據權屬概念下的數據安全治理中數據安全技術的可行性,最后從數據安全技術的角度對如何推進數據安全治理進行了思考.大力發展數據安全治理,可以保護公民的切身利益,提高國家的治理水平,明確企業的發展方向,利于構建和諧健康的社會秩序.