近年來,我國公共數據開放在制度建設、平臺建設、數據供給、生態應用等方面取得了一定的成績,但數據開放過程中還存在一些風險和問題,使得我國公共數據開放明顯不足。公共數據開放不足的問題在較大程度上受制于數據開放與數據安全之間的平衡困境。隱私計算“原始數據不出庫、數據可用不可見”“數據使用可控可計量”“計算分布式、監管有中心”的特征,天然契合公共數據開放業務需求,可幫助數據提供方、公共數據開放平臺管理方以及數據使用方等主體在不同場景中發揮價值,助推公共數據開放邁入新階段。
一、我國公共數據開放水平逐步提升
近年來,我國已開始全面部署和推行公共數據開放制度,省市地方政府公共數據開放平臺數量逐年增長,全國范圍內正加速形成適用于激發公共數據要素價值的基礎環境。在制度建設方面,與公共數據開放相關的法律法規、實施細則、標準規范等陸續出臺,制度體系不斷完善。2022年12月,《中共中央國務院關于構建數據基礎制度更好發揮數據要素作用的意見》強調,對各級黨政機關、企事業單位依法履職或提供公共服務過程中產生的公共數據,加強匯聚共享和開放開發。《“數據要素×”三年行動計劃(2024—2026年)》(國數政策〔2023〕11號)明確指出,打造安全可信流通環境,深化隱私計算、可信數據空間、區塊鏈等技術應用,充分依托已有設施,探索建設重點行業和領域數據流通平臺,促進數據合規高效流通使用。2024年10月,中共中央辦公廳、國務院辦公廳印發《關于加快公共數據資源開發利用的意見》,指出要破除公共數據流通使用的體制性障礙、機制性梗阻,激發共享開放動力,優化公共數據資源配置,釋放市場創新活力,充分發揮數據要素放大、疊加、倍增效應,為不斷做強做優做大數字經濟、構筑國家競爭新優勢提供堅實支撐。在平臺建設方面,各地公共數據開放平臺的功能逐漸擴展和優化,運營維護能力不斷提升。截至2024年7月,我國已有243個省級和城市的地方政府上線了數據開放平臺,開放的有效數據集超過了37萬個,最近八年來增長了44倍。在數據供給方面,目前全國開放數據集數量從2017年的8000多個增加到2023年的34萬多個,各地平臺無條件開放的可下載數據集的容量從2019年的15億增長到2023年超480億,開放數據的數量與質量穩步提升。在生態應用方面,企業、公眾等社會主體越來越多地參與利用開放數據。目前,全國17個省(市)、10個副省級城市開展了公共數據授權運營實踐,形成了一定數量的應用成果。例如廈門市的數據安全屋、上海市的安全沙箱、青島市的數字實驗室等。
與國外對比,我國公共數據開放起步較晚,制度體系還需進一步完善。2000年,德國通過實施《信息自由法》等系列法律,明確政府數據的公開性和透明化原則,界定個人和政府數據安全有關問題。2003年11月,歐盟發布《公共部門的信息再利用指令》,認為有必要為公共部門信息再利用構建一個總體框架,形成公平、均衡和非歧視性的環境。2009年,美國奧巴馬政府頒布《開放政府指令》,全球開始掀起政府數據開放浪潮。隨后,美國頒布《透明和開放的政府備忘錄》《開放數據政策》《開放政府數據法案》,將政府數據開放逐步合法化;頒布《隱私保護指令》,強調開放數據過程中要注意對個人隱私權的保護。2016年10月,法國頒布《“數字共和國”法案》,強調政府數據開放和數據安全。
從社會大眾對公共數據開放的需求來看,我國各級政府、公共機構對公共數據的供給明顯不足,加上尚待完善的制度體系,不愿、不敢、不會開放的情況依然較為普遍,大部分公共數據沒有充分發揮數據資源作為“生產要素、無形資產和社會財富”的應有作用。
二、我國數據開放存在的問題和風險
目前,我國公共數據開放不足的問題在較大程度上受制于數據開放與數據安全之間的平衡困境。在開放過程中存在的各類安全隱患增加了數據管理平臺所承擔的風險,降低了數據提供部門開放數據的意愿和動力,導致數據供給部門在數據數量、數據質量、開放范圍等方面較為保守,未能充分滿足社會對公共數據開放利用的需求。
(一)數據提供方不愿、不敢、不會開放數據
第一,不愿開放。一方面是認識的問題,一些政府部門和公共機構尚未意識到數據開放的價值;另一方面是“衙門”思想的問題,一些政府部門和公共機構把自己掌握和獲取的數據,作為自己利益和權力的一部分,造成不同部門之間甚至同一部門不同機構之間都難以實現數據開放。第二,不敢開放。主要是由于我國目前尚缺乏嚴格規范數據開放的法規制度,相關人員擔心政府數據開放會引起信息安全問題,擔心數據泄密和失控,對數據開放具有恐懼感。第三,不會開放。公共數據開放是一個高度專業化的工作,需要分級分類、收放結合、科學把握。但目前我國尚未出臺相關法律對數據開放的基本原則、數據格式、質量標準、可用性、操作性等做出規范要求,導致政府部門和公共機構數據開放能力不強、水平不高、質量不佳,嚴重制約了大數據作為基礎性戰略資源的開發應用和價值釋放。
(二)數據管理平臺風險加劇
一方面是數據匯聚與存儲的風險。當前我國公共數據開放主要采用“部門數據供給—數據資源匯集—數據平臺開放”的形式,數據供給過程中存在數據泄露、數據篡改、數據被重新識別等隱患。數據平臺作為數據存儲方存在被惡意攻擊、數據泄露等安全隱患,平臺的安全防護面臨較大壓力。另一方面是數據流通與利用的風險。數據提供到數據平臺后,平臺對部分數據缺乏監測與控制,無法對數據利用過程及結果進行追蹤,難以監管數據應用的合規性與正當性,且現行脫敏技術手段并不能解決所有的隱私問題,在數據利用過程中仍有通過數據拼湊還原個體數據的可能,使個人信息面臨泄露風險。目前我國尚未制定統一的公共數據分類分級標準,各地方各部門對數據安全的管控手段主要還是以嚴格控制數據出域和嚴格制定數據獲取條件為主,因此間接導致了數據供給不足和數據獲取門檻過高等問題。
(三)數據使用方效益不佳
總體來看,市場和社會對公共數據的需求尚未得到充分滿足,主要表現為開放數據數量不多、容量較低、質量不高。在已開放數據中普遍存在字段少、條數少、顆粒度較粗等問題。此外,在已開放數據中還存在高缺失、低容量、碎片化等低質量數據,數據利用價值較低。數據開放不足造成了利用端的成果數量不多、質量不高等問題。
三、隱私計算推進公共數據安全開放邁入新階段
隱私計算“原始數據不出庫、數據可用不可見”“數據用法可控可計量”“計算分布式、監管有中心”的特征,天然契合公共數據開放業務需求,可幫助數據提供方、公共數據開放平臺管理方以及數據使用方等主體在不同業務場景中發揮價值,推進公共數據開放邁入新階段。
(一)特征優勢顯著,契合數據開放需求
一是原始數據不出庫、數據可用不可見。目前,國內隱私計算廠商的產品多采用聯邦學習和多方安全計算兩種技術路線的結合體。聯邦學習可實現多個數據持有方主體在其原始數據無需出本地數據庫的前提下進行多方協作建模,即“原始數據不出庫”。多方安全計算通過密碼學技術實現原始數據對人和機器的不可見,但原始數據的價值被計算獲得,即“數據可用不可見”。二是數據使用可控可計量。隱私計算是在多方數據共同參與協作下完成,最終的計算結果(服務)需獲得計算方同意才能使用。數據按算法使用,服務按次數調用,可做到“數據使用可控可計量”。三是計算分布式、監管有中心。從隱私計算產品架構設計來看,實現了“計算分布式、監管有中心”。監管方可以通過部署一個中心管控節點(平臺)做到對參與計算各方全局的控制,包括計算方準入控制和計算規則及指令下發等,但監管方無需參與計算。
(二)集中資源邏輯,減輕數據存儲壓力
在隱私計算技術“原始數據不出庫、數據可用不可見”的新型數據流通模式下,公共數據資源可實現“邏輯集中、物理分散”,即公共數據目錄要集中匯集至平臺,而公共數據資源可分散存儲在各數據提供方本地。通過統一的公共數據目錄,數據使用方可根據相關需求開發利用有關數據資源,使用時可申請通過隱私計算方式進行獲取。這種新型數據匯集模式具有三方面的優勢:一是可以有效降低公共數據安全風險;二是可以最大限度匯集全社會可開放數據;三是可以極大減輕公共數據監管方的數據存儲壓力。
(三)升級平臺功能,保障數據安全開放
在《網絡安全法》《數據安全法》《個人信息保護法》的驅動下,公共數據開放平臺將進行增強數據安全能力的功能升級。傳統的數據安全技術多以保障平臺內部數據靜態安全為主,即數據不被越權訪問、不被違規獲取等,重點以數據加密、數據脫敏、數據識別等技術為主。隱私計算技術“計算分布式、監管有中心”的特征可以有效保障數據流通過程中的安全性。
(四)優化供給方式,提高數據使用效益
供給方式的優化重點體現在對有條件開放數據的方式上,傳統API接口盡管在一定程度上保障了數據的安全性和及時性,但當參數發生變化時,API接口改造成本較高,而且數據提供方對不同API接口的管理和維護成本也較高。通過隱私計算方式進行數據供給,可在很大程度上保障公共數據的安全性、自主性和靈活性。隱私計算平臺“數據用法可控可計量”的特征,可實現對數據用法用量的管控授權,即數據提供方可對不同權限的用戶提供字段和顆粒度不同的數據,而且可以指定數據用途、使用時間、使用次數等。數據使用方在獲得數據及隱私計算服務申請授權后,可直接在隱私計算平臺進行開發利用,有效提升數據開發利用的敏捷性,降低開發利用成本。
(作者單位:國家信息中心)