李雨柔
(黑龍江大學,黑龍江 哈爾濱 150080)
近年來,開放獲取資源的快速發展不僅為研究人員和作者提供了自由和豐富的資源,而且提高了數據的循環利用價值,在一定程度上也提高了資源的透明度,促進了科學研究和社會進步。但是,在將資源進行開放的過程中也不可避免地產生了一系列問題,尤其是關于資源開放能不能持續發展下去的問題。筆者從區塊鏈的角度研究開放獲取科學數據資源的建設和管理,針對科學數據開放獲取所面臨的問題提出建議,以期使科學數據開放獲取能夠得到持續性的發展。
科學數據和其他學術研究論文或其他形式的學術成果一樣,屬于信息資源的一種,科學研究數據不僅僅是科研成果的顯性表達,同時也是科學研究過程中不可或缺的要素之一[1]。伴隨著科學的不斷發展及技術水平的提高,各領域產生的數據也在不斷地增加。大數據時代下科學數據早已成為最基本且具有較大價值的科學資源類型之一,在不同學科領域都發揮著巨大的作用。
有研究結果顯示,雖然隨著科學研究活動的增加和深入,每年都會產生很多的科學數據資源,但是這些數據資源不會永存,大概有80%的科學數據在出版以后的20年內就會消失。這種情況給科學研究造成了比較大的損失,使得科研工作者可能需要重復進行科學研究才能夠獲得其所需要的科學數據。因此,對科學數據資源進行正確的獲取及管理至關重要。在過去十年里,各種數據管理正朝著開放獲取的方向發展,隨著這一趨勢的發展,國內外許多國家對科學數據進行了開放訪問,訪問者能夠相對容易地訪問并且使用開放的科學數據資源。就國內而言,我們國家也已經通過科學數據共享建成了包括社會科學、自然科學等很多學科共存的數據資源系統[2]。總之,無論在國內還是國外,科學數據共享與開放都逐漸成為一種趨勢,因此,加強對這些信息資源的開放獲取的管理研究具有一定的現實意義。
開放獲取運動的展開為全球范圍內科學數據開放和整合提供了有利的基礎,相應地也促進了科學研究的向前發展。但是與此同時,在科學數據開放獲取這一過程中,也面臨著一些挑戰,從而無法避免地帶來了一些負面影響。
隨著科學數據開放獲取的不斷發展,隨之而來的還有一些侵權行為的產生,極大地影響了數據開放獲取的健康持續發展。雖然,在“布達佩斯開放獲取計劃”中曾經指出“在互聯網公共領域里可以被免費獲取,并且允許任何用戶下載、傳輸等”[3],但是為了保護自身的合法權益,許多資源貢獻者會選擇只貢獻一部分或者拒絕貢獻原始成就來保護自己的知識產權。因此,在開放數據資源獲取過程中的版權問題能否在運行中始終得到妥善處理,是保證開放數據能否可持續發展的重要環節[4]。
近年來,開放獲取科學數據資源建設面臨的另一個重要挑戰是數據分布零散。由于不同平臺的收集、整理的標準不統一或平臺通信技術的先進性有限等,使得系統與系統之間的通信受到影響,或者分享出的數據不能得到有效的利用,而產生很多零散分布的數據,在一定程度上影響了數據資源的進一步開放共享、獲取與利用。而在當下,能夠一定程度上緩解信息孤島問題的主要方法即運用信息技術把不同平臺、不同格式的信息資源連接到一起,但是整合不同平臺、不同格式的資源具有相當大的難度,目前的效果并不十分理想,這限制了開放數據資源的獲取與共享。
區塊鏈是一種將信息存儲在分布式節點上,防止人為篡改的技術。這項技術的理論原理是基于加密算法,并結合數據庫等多種傳輸技術,對數據進行記錄、存儲及傳輸[5,6]。由于區塊鏈技術本身具有的不可篡改、去中心化等諸多特性,很多領域都在探索將區塊鏈技術運用到自身業務中,圖書館的很多業務工作也不例外,比如在知識庫建設過程中便可以利用區塊鏈技術,特別是涉及數據的版權保護、數據的共建共享等方面,能夠充分體現區塊鏈的特殊優勢。因此,筆者將主要從區塊鏈技術的角度,針對上述科學數據管理面臨的版權保護不足和開放共享程度不足的問題進行可行性分析。
目前,科學數據通常由機構知識庫存儲著,其建設在我國通常是由圖書館和信息中心的科研機構協調管理。在這些傳統的機構式圖書館項目中,圖書館、學者和用戶之間的關系不僅僅是服務與被服務之間的關系,更是數據提供與數據交流之間的關系[7]。區塊鏈技術的典型特征之一就是去中心化,而區塊鏈的這一特性對于解決在建設科學數據過程中的非結構化數據的采集和處理問題具有一定的優勢,使用區塊鏈技術能夠增加這些相關組織的自主性。同時,在這個系統中的全部節點可以在一個相對安全可靠的環境里自由地進行數據的交換、記錄等操作,一定程度上也減少了因數據格式或平臺系統差異帶來的數據零散分布的問題,從而提高數據利用效果。
許多前人的研究和實踐表明,數據獲取的便利性與用戶的參與、理解和體驗密切相關。機構知識庫的構建者通常需要綜合考慮數據安全和各方利益,需要在數據采集和數據安全之間取得平衡。如果只考慮數據的安全而因此限制了對數據的開放存取,它不僅會違反開放建設的初衷,同時也會大大減少用戶的期望,而且也違背了辦公廳下發的一系列文件所傳達的促進數據開放獲取的精神。如果只考慮數據獲取的便利性,而沒有安全可靠的技術或機制來保障數據所有者的利益和意愿,必然會使數據所有者不愿意貢獻自己的數據,尤其是一些有價值的數據。因此,從兼顧數據的開放與安全來看,科學數據開放的權限更適合交于數據上傳者,由他們來決定數據的開放程度,包括全部開放或者部分加密等,同時應用區塊鏈技術的加密算法和分布式處理,這不僅可以澄清數據授權的范圍和保護主人的隱私數據,而且也能夠確保用戶訪問、下載和分析各種數據無須訪問原始數據。
科學數據作為一種信息資源,在現今大數據時代已經成為一種資產,但是它與其他普通資產不同,因為它的傳播速度快,并且它的傳播主體通常也會變化得比較快,數據所有權不明確已成為數據流通的一大障礙[8],由于科學數據資產的特殊性,目前迫切需要一種具有針對性的機制來有效地確保科學數據資產的所有權。區塊鏈的鏈條結構具有可追溯性,可以直觀、完整地記錄包括作者從最初的產生思路到實驗數據的獲得、再到形成作品初稿到形成最終成果的一系列的完整過程,做到開放科學數據的同時保證了數據安全和數據版權,進而促進學者或機構科學數據的開放及獲取。
鑒于區塊鏈技術在科學數據開放共享運用的優勢,筆者提出基于區塊鏈技術的科學數據開放獲取管理流程設計思路。
設計的核心原理即基于智能合同和加密技術,具體的環節包括:①審核數據。對科學數據進行審核,主要從格式和內容方面對數據上傳者上傳的數據進行審核,比如審核數據資源的內容和格式是不是和數據庫的標準一致、是否符合元數據處理的標準等。②對數據進行加密并保存。通過特殊的密鑰將審核通過的數據資源進行加密處理,然后將這些加密后的科學數據存儲在區塊鏈的各個塊中。③公開數據。把已經存儲在塊中的科學數據,公開發布在系統中。④身份認證數據。利用區塊鏈的共識機制對科學數據進行價值認證和質量判斷。⑤數據的傳播和分享。在系統平臺上傳播和共享通過用戶身份驗證的數據。這些數據經過平臺認證后,會有時間標記,包括完整的來源和權限,可以在網絡上安全地點對點傳播和共享。傳播和共享范圍也比較靈活,可以在小組內部小范圍共享,或者單位之間共享,并對共享資源進行評估,如評分、表揚和推薦。
區塊鏈技術的日益成熟為科學數據開放獲取的持續發展提供了一定的技術支撐。筆者將區塊鏈技術的特性與科學數據開放獲取過程中的難點相結合,將技術的不同特性與其針對的問題進行結合,設計出科學數據開放獲取的管理流程。但是區塊鏈技術畢竟還是一種正在發展中的技術,在其實踐應用過程中也會存在一些問題。比如,隨著信息技術和密碼學的不斷發展,區塊鏈中采用的非對稱加密算法在不久的將來會很容易被破解等。但畢竟區塊鏈技術目前還是能夠在一定程度上推動科學數據的開放獲取建設,因此要充分認識到區塊鏈技術的優勢,合理有效地將其運用到相關業務中。