郭曉峰 喬曉東
北京萬方數據股份有限公司 北京 100038
當前大數據時代,數據資源極大豐富,成為人人趨之若鶩的“金礦”。但由于數據資源的管理缺乏有效的技術手段,在數據資源的交易、利用等方面也出現了大量混亂現象,如數據資產交易領域非法交易猖獗,數據利用領域無視數據的權利而隨意復制傳播、非法使用等現象司空見慣。探究這些亂象的根本原因,是數據的知識產權界定以及數據的安全隱私保護等缺乏有效的法律依據,同時技術上也缺乏有效的手段對于數據的合法交易、利用提供便利的基礎設施,促進合法的數據交易,并保護正當的數據利用。如能夠對數據資源進行清晰的確權,對數據交易及數據利用進行管理及追溯,為數據的合法來源提供證據等。
回顧20世紀90年代互聯網發展之初,網絡中的數字資源呈現爆發式增長,但由于在網絡環境下缺乏有效的數字資源管理機制,同樣產生了大量混亂現象,死鏈頻發、盜版猖獗。在互聯網環境下,如何才能對數字資源進行有效的管理,并對數字資源的版權提供保護手段?這些問題催生了數字對象管理理論及相關技術系統,自此,基于數字對象標識符和元數據的數字資源注冊與管理作為一種有效的技術手段被普遍采用,并成為數字圖書館、數字出版、科學數據管理、版權管理等領域成熟的內容管理方案,Handle/DOI系統就是成功的范例。
參考上述領域的成功案例,對于數據資源的管理與交易同樣可以基于數字對象管理理論及相關技術系統,建立有效的數據資源注冊機制,對于數據資源的基本情況及其權利歸屬等重要屬性進行清晰的登記,并對其屬性的變更情況進行及時的記錄與追蹤,同時提供便利的方式使大眾能隨時獲得數據資源的登記信息,便于數據資源的需求方發現數據資源并對其進行合法的獲取與利用。
本文將按照上述研究思路,在介紹數字對象標識技術及其應用的基礎上,結合國家重點研發計劃“科技成果與數據資源產權交易技術”的具體研究案例,提出基于數字對象標識技術促進數據資源交易的應用解決方案,并對本方案的優勢進行比較和分析,形成研究結論。
數字對象標識理論與技術誕生于1990年的第一代數字圖書館發展浪潮之中,是數字對象架構(DOA,Digital Object Architecture)的關鍵組成部分,而DOA理論為第一代數字圖書館提供了體系結構,其中數字對象標識能夠為數字對象(DO)提供命名與安全訪問機制。DOA由TCP/IP的聯合發明人、互聯網之父Robert Kahn博士提出,同時他帶領國家創新研究所(CNRI, Corporation for National Research Initiatives)研發了數字對象標識技術系統——Handle系統[1],于1995年正式運行,以全球分布式系統架構支撐數字對象標識的分配、 安全管理及廣泛利用。在Handle系統由CNRI運行近20年、為全球提供了10億規模的Handle標識注冊及管理服務之后,2014年,在聯合國國際電信聯盟(ITU)的監管下,CNRI聯合多個國家相關機構于瑞士日內瓦正式成立非營利性國際組織DONA(Digital Object Numbering Authority Foundation),負責Handle系統的全球化運營與發展,在治理結構和技術設施兩個層面上創造性地實現了全世界各國聯合自治的模式,為下一代網絡信息管理提供基礎設施。我國也是DONA最早的發起成員及理事會成員之一。
在數字內容管理及版權保護等應用領域,數字對象標識技術得到了廣泛應用。DOI系統[2]基于Handle系統提供的唯一標識注冊、解析和管理能力,利用數字對象唯一標識和標準化的元數據對各類數字資源進行注冊、管理,利用標識符解析到數字資源的網絡訪問地址及其他相關信息,實現數字資源的唯一識別、永久鏈接,并促進數字資源在互聯網環境下的版權保護、發現和利用,以及系統間的信息交換和互操作。1998年DOI系統首先在數字出版行業開始應用,隨后歐洲也從2003年開始實施科研數據的DOI注冊、解析并基于DOI提供數據集的引用、復用等服務,至今全世界范圍內已有1億多篇文獻及2000余萬個科學數據集注冊了DOI。2012年DOI系統發布為ISO標準[3],成為通用性的數字資源標識國際標準,并于2018年發布為中國國家標準[4]。在我國,中國科學技術信息研究所和萬方數據公司于2007年開始運行中文DOI服務[5],為期刊論文、科學數據等學術研究資源提供DOI注冊、解析及其他增值服務。中文DOI服務是亞洲第一個DOI服務,目前服務規模在全球居第二位,共注冊DOI 3293萬余個,涵蓋期刊論文、學位論文、科學數據、圖書、會議論文、預印本等資源類別。
2009年由EU DAT(歐洲數據基礎設施) 項目成立的EPIC(歐洲永久標識聯盟)基于Handle系統為歐洲科學研究社區提供科學數據的永久標識(PID) 服務[6]。同時多個著名的數字圖書館、數字內容管理系統,如DSpace、Fedora等都內置了Handle系統,為數字內容提供唯一標識注冊、解析功能。在數字資源的版權保護及更廣義的數字權益管理領域,需要在數字資源的全生命周期中對其進行有效(持久、一致)的識別和確認,2012年由歐盟出版商協會組建的Linked Content Coalition(LCC)開發了唯一標識規范,指出可解析的唯一標識及持久的數字內容注冊管理均是必要的基礎設施,元數據必須以標準格式發布等。
我國相關領域對數字對象標識標準體系也予以了高度關注。2012年新聞出版領域發布了非等效采用DOI國際標準的新聞出版數字資源唯一標識行業標準《CY/T 82-2012 新聞出版數字資源唯一標識符》(PDRI)[7]。科技資源領域,2016年發布了《GB/T 32843- 2016 科技平臺 科技資源標識》(STRI)國家標準[8],指導各類科技資源的統一標識以及科技資源的編目、注冊、發布、查詢、維護和管理。
2017年底,科技部下達了“科技成果與數據資源產權交易技術”重點研發計劃的研發任務,萬方數據公司承擔了該計劃中“基于標識的服務數據資源管理技術體系研究”工作,主要基于Handle標識,并結合重點研發計劃的研究成果《服務數據資源確權標識標準》及《服務數據資源權利描述標準》,研究形成“服務數據標識注冊、解析與追蹤解決方案”,并開發實現“服務數據標識注冊、解析與追蹤系統”,實驗、驗證服務數據資源管理的輕型技術體系,在提供促進服務數據資源交易的基礎設施方面開展了創新性研究。
服務數據標識注冊、解析與交易追蹤解決方案的整體流程如圖1所示。在技術路線方面主要采用標識+元數據的基本技術方法,在第一次登記時利用基本元數據及權利描述元數據記錄數據資源基本屬性、權利狀態的同時賦予其確權標識,實現數據資源的登記、認證。每次交易,實質上是數據資源的權利轉移過程,仍然需要利用權利描述元數據記錄權利所屬狀態的變更情況。在標識體系方面,經過充分調研采用具有互操作性的全局性唯一標識體系——Handle標識體系,在標識注冊的同時,實現確權標識與數據資源屬性信息的綁定;利用唯一標識系統的解析功能及標識與屬性的綁定關系,實現通過標識動態獲取資源多維度屬性信息,并可以持久鏈接到數據資源本身。同樣利用解析功能和每次交易的登記信息,實現基于標識對數據資源的交易和權利變更過程的永久追溯。在元數據方面,主要包括服務數據資源基本屬性、權利狀態、交易信息等內容的描述,并采用XML等標準化語言進行描述。

圖1 解決方案整體流程
方案通過服務數據的首次登記、交易登記、交易追蹤等業務流程,實現服務數據交易的規范化管理,促進服務數據的發現、交易與利用。具體描述如下:
(1)服務數據首次登記
服務數據的原始擁有方上傳服務數據的基本元數據及權利描述元數據,系統基于Handle系統為該項服務數據分配確權標識,并將數據資源的基本屬性、權利狀態存儲在系統中,實現確權標識與數據資源屬性信息的綁定,完成數據資源的首次登記與權利確認。
(2)服務數據交易登記
每次交易實質上都是服務數據的權利轉移過程,因此需要利用權利描述元數據記錄權利所屬狀態的變更情況。由數據交易方提交服務數據交易后的權利狀態,由系統在該確權標識對應的數據記錄中增加此次交易后的權利狀態信息,實現數據資源權利變化更新登記與權利確認。
(3)服務數據交易追蹤
利用Handle系統的解析功能,使用全網統一的解析格式,實現通過確權標識(Handle)動態獲取數據資源最新的基本屬性、權利狀態變更全流程信息,從而實現對服務數據交易的追蹤。
(4)服務數據的發現及交易促進
利用系統登記的服務數據基本屬性、權利狀態等信息,可以通過這些信息的集中發布、檢索、推送等促進服務數據的發現、交易;另外,通過確權標識的解析,也可以實現服務數據本身或其相關信息的持久鏈接,并可動態獲取服務數據相關信息,促進服務數據基本屬性、權利狀態的發現、獲取及系統間的互操作。
本項目研究成果形成的方案具有創新性,在資源管理方面,首次研究形成基于標識的服務數據資源注冊登記、解析及交易追蹤全流程管理方法及技術解決方案,實現利用標識動態獲取數據資源的最新登記狀態、權利狀態及交易信息等,并可直接從標識永久鏈接到資源本身,起到在網絡環境下對資源進行確認的作用,同時促進資源本身的訪問與利用。
本方案形成了一種輕型解決方案,基于成熟的、全球通用的數字對象標識基礎設施進行二次開發,在減小開發工作量的同時,保證了服務數據標識注冊、解析與交易追蹤系統在互操作性、擴展性、分布式部署等方面滿足性能要求;并且具備安全認證、防截取、防假冒,保證滿足安全要求。