熊贇,朱揚勇
1. 復旦大學計算機科學技術學院,上?!?01203;2. 上海市數據科學重點實驗室,上海 201203
20世紀60年代國際科學理事會的國際科技數據委員會(CODATA)推動了科學數據開放①www.codata.org,但開放程度有限,并且大多集中于各自領域,如地震科學、水利科學、天文學等[1-3]。隨著數據資源的戰略性和商業價值越來越突顯[4],數據資源的開放共享變得越來越困難,目前為止,尚未形成完全開放的數據共享局面。20世紀60年代,數據庫管理系統(database management system, DBMS)的研制成功[5,6]使數據脫離了具體的應用程序,由DBMS統一管理,這種數據資源管理模式是封閉的、內部授權的、有限的。而在數據開放的環境中,應用程序和用戶對數據的訪問和使用是開放的、不可預知的、無限的,數據的結構形式也是靈活、復雜多樣的。在數據自治開放模式中,數據由數據擁有者在法律框架下自行確權和管理、自行制定開放規則(即數據自治),然后將數據開放給使用者,包括上傳數據到應用軟件使用數據或下載數據到使用者的設備中。其中面臨的問題首先是讓數據使用者看得見有哪些數據,其次是如何合理組織數據以方便應用軟件使用、計量和管控[7,8]。
然而,現有的數據資源管理技術(數據庫管理系統、文件系統)和應用軟件技術針對處于封閉不開放狀態的數據,聚焦于盡量保護系統數據不受外界侵害,即針對數據安全風險和隱私威脅進行研發,主要解決途徑包括密碼技術、噪音擾亂技術、訪問控制和軟件行為監控機制[9-13]?!?br>