趙麗梅
(黑龍江大學信息管理學院;黑龍江大學信息資源管理研究中心,黑龍江哈爾濱 150080)
科學數(shù)據是大數(shù)據時代重要的學術資源,不僅是科學研究的基礎,而且是國家創(chuàng)新系統(tǒng)以及科學研究過程中最重要的因素之一,在科學研究和知識創(chuàng)新中具有重要的戰(zhàn)略驅動作用,需要通過具體的開發(fā)利用才能彰顯出其價值。由于蘊藏多種科學理論的科學數(shù)據零零散散地分布存檔于各種學術情境中,不僅需要將其公開存取,更需要進行深度解讀和整合利用,踐行科學大數(shù)據和科學深度數(shù)據時代所要求的研究理念[1]。但是由于科學數(shù)據行業(yè)體系發(fā)展不夠成熟、監(jiān)管體系以及管理服務不夠完善等原因,科學數(shù)據質量參差不齊,科研人員在對科學數(shù)據進行利用時所面臨的風險和不確定性越來越高,對于即將使用的數(shù)據無法完全信任科學數(shù)據的質量,影響最終的科學研究效率,導致多種科研資源的浪費。而科學數(shù)據質量是科學研究的重要基礎保障之一,但是面對看似十分規(guī)整的科學數(shù)據產品,如果不通過精細的溯源、專業(yè)的深度解讀,很難甄別其真?zhèn)位蛘咴u判其質量高低,因此科學數(shù)據溯源作為科學數(shù)據質量與安全管理的重要手段,將為科學數(shù)據管理行業(yè)提供基本保障,并能夠降低科學數(shù)據利用中的風險,提高數(shù)據驅動創(chuàng)新研究的效率[2]。
區(qū)塊鏈的核心理念在于集成存檔數(shù)據,實行分布式存取以及節(jié)點之間無障礙傳輸與共享,降低參與主體之間信息非對稱的共識機制和多體協(xié)同治理的激勵約束機制,利用加密算法實現(xiàn)安全保障的創(chuàng)新舉措[3]。對于科學數(shù)據溯源而言,具有很強的應用契合度。本文將科學數(shù)據溯源置于區(qū)塊鏈的系統(tǒng)框架中,探討區(qū)塊鏈視域下的科學數(shù)據溯源議題,旨在尋求高效適合的科學數(shù)據溯源方案,促進科學數(shù)據管理與利用的順利開展。
科學數(shù)據作為重要的科學研究戰(zhàn)略資料,其真實性和可靠性能夠強化科研人員對其利用的信念以及降低研究的風險。科學數(shù)據溯源是管控其真實性和可靠性的重要渠道之一,因此成為業(yè)界人員的重要研究對象和實踐議題。
科學數(shù)據溯源是大數(shù)據時代科學研究活動的“辯章學術、考鏡源流”,即實現(xiàn)對科學數(shù)據的源頭與發(fā)展過程進行仔細考證的宗旨。根據王芳等[4]的梳理分析,目前有關科學數(shù)據溯源的研究多是技術維度的分析,更確切地說是通過技術來踐行科學數(shù)據管理思想的研究范式,諸如融合大數(shù)據理念和相關技術(包括區(qū)塊鏈技術)進行科學數(shù)據平臺和共享管理系統(tǒng)的開發(fā),是科學數(shù)據溯源體系基礎設施架構和內容建設,從主體間際關系的視角對科學數(shù)據溯源活動的探討相對較少。本文擬以區(qū)塊鏈信息對稱理念為思想框架,融合溯源內容和流動鏈條以及主體間際關系優(yōu)化的視角來探討科學數(shù)據溯源問題,意圖完善現(xiàn)有的理論范疇。
根據科學數(shù)據的流動鏈條,科學數(shù)據溯源是將科學數(shù)據生產、利用、流轉與再生產等多個控制環(huán)節(jié)進行信息記錄并賦予潛在用戶存取權限,對科學數(shù)據進行多方向(正向、逆向和不定向)、多維度(整體共享、部分利用)的追蹤管理,實現(xiàn)科學數(shù)據來源可查詢、去向可追蹤以及數(shù)據質量可保障的目標,即科學數(shù)據溯源是對科學數(shù)據對象本身以及基于科學數(shù)據的生產、利用、流轉與再生產(二次開發(fā))等過程所產生數(shù)據的一切溯源活動[5],見圖1。

圖1 科學數(shù)據溯源中的數(shù)據流
從圖1 可以看出,科學數(shù)據溯源不僅包括對科學數(shù)據本身的溯源,而且也包括對科學數(shù)據作用主體信息及其通過科學數(shù)據而產生的各類關系信息的溯源,這些主體信息以及關系信息也是追蹤科學數(shù)據流向的重要內容。一方面可以保障基于科學數(shù)據的科學研究的有效性,通過科學數(shù)據平臺實現(xiàn)科學數(shù)據質量監(jiān)管和問題數(shù)據的有效召回,潛在的數(shù)據用戶可以通過查看溯源信息掌握數(shù)據質量的控制環(huán)節(jié),保障自身數(shù)據利用的安全可靠,降低科學研究中的不確定性,保障科學數(shù)據用戶的權益。另一方面也可以維護科學數(shù)據生產主體的利益,特別是科學數(shù)據經過多次利用流轉之后形成新的再生科學數(shù)據產品時,不僅應該保障科學數(shù)據二次開發(fā)主體的利益,而且也應該維護科學數(shù)據原初生產主體對再生科學數(shù)據產品利用與流轉等環(huán)節(jié)的追蹤和知情權利。因此以科學數(shù)據為介體而形成的主體間際關系是科學數(shù)據溯源的重要途徑。
從微觀層面來講,科學數(shù)據溯源體系能夠為科學數(shù)據用戶提供相對穩(wěn)妥的科學數(shù)據集合和科學數(shù)據獲取渠道,節(jié)省科學數(shù)據用戶的存取成本,對于科學數(shù)據生產者而言,完善的科學數(shù)據溯源體系能夠為其管控科學數(shù)據后續(xù)的流通渠道提供便利措施。從宏觀層面來講,科學數(shù)據溯源是科學數(shù)據協(xié)同治理的關鍵環(huán)節(jié),不僅能夠保障科學數(shù)據共享活動中利益相關者的權利,而且能夠規(guī)范其所承擔的責任[6]。
隨著《國家科學數(shù)據管理辦法》的頒布,科學數(shù)據的開放和共享已經是大勢所趨,未來的科學數(shù)據管理不僅僅是鼓勵更多的科研主體共享數(shù)據,而是需要對共享或開放的數(shù)據進行質量管理,降低科學數(shù)據流動過程中的不確定性。
科學數(shù)據的不確定性貫穿于科學數(shù)據生產、流轉、應用以及二次開發(fā)等各個階段[7]。由于目前共享或開放的科學數(shù)據質量控制管理權限仍然集中在建設方或服務方,二者作為科學數(shù)據流動鏈條上的重要利益相關者以及科學數(shù)據質量控制管理主體,出于自身利益的考慮,存在著隨意篡改科學數(shù)據的可能性,這樣無法從源頭上把握科學數(shù)據的質量[8]。另外,如果科學數(shù)據質量控制管理權限僅僅集中在一種利益相關者手中,一旦所處平臺受到攻擊而數(shù)據被篡改,則將出現(xiàn)科學數(shù)據的真實性難以辨別的負面境況,加大科學數(shù)據利用的不確定性和風險[9]。
從源頭上把握科學數(shù)據的質量,不僅能夠做到對科學數(shù)據的供應予以監(jiān)管,提升科學數(shù)據供應市場的信譽,而且從長遠來講,還能最大化保證科學數(shù)據用戶的權益。而為了保證科學數(shù)據原始生產主體的權益以及為了維持科學數(shù)據開發(fā)利用的可持續(xù)性,必須讓科學數(shù)據生產主體有權利而且能夠追蹤科學數(shù)據利用、流轉以及科學數(shù)據二次開發(fā)的整個進程,以防止科學數(shù)據在被利用、流轉以及再生的過程中,其他數(shù)據管理或利用主體存在數(shù)據利用不端或被誤導利用的境況,實現(xiàn)科學數(shù)據溯源的雙向監(jiān)督。但是這種監(jiān)督存在信息不對稱、監(jiān)管不及時的現(xiàn)象,當科學數(shù)據出現(xiàn)質量問題時,這些參與主體雖然能夠彼此驗證,但是往往無法快速地在有效的時間內確認具體的責任主體,為了防止問題科學數(shù)據繼續(xù)流轉,只能從總體上聲明科學數(shù)據的問題,損害的是真正遵守規(guī)則的參與主體。
因此科學數(shù)據溯源不僅僅應該涉及數(shù)據初始生產環(huán)節(jié)中數(shù)據采集或者建設情境、數(shù)據處理的過程以及相應的實施主體,還需要延伸到科學數(shù)據的利用、流轉以及二次開發(fā)過程。基于區(qū)塊鏈的科學數(shù)據溯源可以保證整個科學數(shù)據流動鏈條上的信息相對開放,各個環(huán)節(jié)的運營系統(tǒng)協(xié)同運行,有助于建立多方共同信任體系和隱私保護體系,消除科學數(shù)據生產、流轉、利用以及二次開發(fā)鏈條中的信息孤島現(xiàn)象,提升已然共享的科學數(shù)據的真實性和公信力,發(fā)揮科學數(shù)據溯源體系的價值,實現(xiàn)科學數(shù)據溯源的真正目的[10]。
采用區(qū)塊鏈的方式進行科學數(shù)據溯源,主要源于區(qū)塊鏈能夠保證所溯源科學數(shù)據及其利用與再生信息的完整性、真實性、連續(xù)性[11]。區(qū)塊鏈作為公共記錄手段的分布式賬本系統(tǒng),能夠對參與主體的操作權限,進而能夠保證科學數(shù)據、所涉及的主體信息以及主體關系信息的原始性、完整性和真實性[12]。
區(qū)塊鏈有助于優(yōu)化乃至打破多科學數(shù)據主體之間的信息非對稱態(tài)勢,降低主體信息交互的成本,優(yōu)化主體之間的信任關系。在科學數(shù)據供應、流轉、利用以及二次開發(fā)的過程中,涉及到的是多元化的科學數(shù)據主體,其瓶頸是面向多主體的信息協(xié)同以及科學數(shù)據供應和流轉的科學數(shù)據追溯,需要對科學數(shù)據進行跨主體的流轉與互操作。對于科學數(shù)據生產主體、科學數(shù)據二次開發(fā)主體以及科學數(shù)據利用主體之間的數(shù)據獨立存儲體系,彼此之間無法建立可強制執(zhí)行的信任,形成數(shù)據孤島,導致科學數(shù)據產品的溯源信息無法交互與共享。區(qū)塊鏈通過建立科學數(shù)據溯源多主體之間的信息實時傳輸系統(tǒng),能夠優(yōu)化改善乃至打破科學數(shù)據供應和流轉以及利用過程中各個主體之間的信息非對稱態(tài)勢。通過自身分布式的架構體系,科學數(shù)據的所有溯源信息存儲在每一個參與主體節(jié)點上,相應的共識協(xié)議、激勵機制使參與主體節(jié)點之間形成一個彼此驗證的網絡,做到多主體信息對稱和多主體彼此監(jiān)督并實時訪問的溯源數(shù)據共享體系[13]。區(qū)塊鏈對于主體信息以及主體關系信息的共享,將科學數(shù)據主體之間復雜的信息交互問題,轉化為科學數(shù)據流動鏈條上的管理問題,實現(xiàn)科學數(shù)據全生命周期的信息存取,有效解決主體信息之間的信息非對稱問題,降低主體信息交互的成本和信任建立的難度以及主體關系建構過程中的不確定性[14]。
基于區(qū)塊鏈的科學數(shù)據溯源有利于認定科研主體的學術優(yōu)先權,以維護科研主體的學術權利[15]。科學數(shù)據是科研主體為了實現(xiàn)相應的科研目標,對所屬科研領域的相關科研成果的研發(fā)進程進行規(guī)劃、設計、實施與分析總結而獲取的數(shù)據集合,科研主體對于科學數(shù)據的生產與維護往往投入了大量的智力勞動,因此科學數(shù)據是主體科研成果及其知識產權體系的基礎構成要素之一,是科研主體維護其學術權利的重要依據。有關此方面我國已經開啟了相應的實踐行動,2021 年1 月27 日正式發(fā)布的開放數(shù)據聯(lián)盟鏈ODC(Open Data Chain)解決的核心問題就是科研真實性和成果歸屬的認定與評判。傳統(tǒng)意義上的科研領域學術優(yōu)先權往往是通過被同行認可的公開發(fā)表的最終科研成果予以確認;對于基于區(qū)塊鏈的科學數(shù)據溯源活動而言,其共識機制能夠令學術共同體快速認知科學數(shù)據的生產主體,并能夠有效率地認定科學數(shù)據對于最終科研成果的決定性,可為科學研究提供相應的證據鏈條。因此基于區(qū)塊鏈的科學數(shù)據溯源一方面可從基礎數(shù)據資料層面上確定科研成果的學術優(yōu)先權的歸屬,有利于彌補科研成果發(fā)表遲滯所帶來的認定時差,另一方面可為學術糾紛中責任主體的認定提供基礎依據,更有利于激勵科研人員沒有后顧之憂地從事科研活動[16]。
基于區(qū)塊鏈的科學數(shù)據溯源是以科學數(shù)據對象為基礎節(jié)點對數(shù)據進行全息式的溯源和追蹤。從內容存儲角度看,溯源內容包括基礎數(shù)據對象和再生數(shù)據對象:其中基礎數(shù)據對象包括科學數(shù)據對象本身和描述科學數(shù)據對象的數(shù)據,即科學數(shù)據元數(shù)據(基于數(shù)據對象屬性來確定科學數(shù)據溯源的描述框架);再生數(shù)據對象包括科學數(shù)據生產、利用和流轉以及二次開發(fā)過程所產生的過程數(shù)據、溯源結果數(shù)據以及溯源過程中所觀測到的主體數(shù)據及其關系數(shù)據,這些數(shù)據作為科學數(shù)據對象本身的再生數(shù)據和溯源進程監(jiān)控數(shù)據也是科學數(shù)據溯源內容的重要組成部分[5]。其中科學數(shù)據對象及其元數(shù)據是溯源活動的基礎內容,溯源過程數(shù)據是溯源最終數(shù)據流向的依據,結果數(shù)據是對科學數(shù)據溯源活動的存檔記錄,可以為未來的科學數(shù)據溯源活動提供可借鑒的經驗藍本,主體數(shù)據和主體關系數(shù)據是科學數(shù)據確權以及維護主體權益的證據信息,基于區(qū)塊鏈的科學數(shù)據溯源內容結構如圖2 所示。

圖2 基于區(qū)塊鏈的科學數(shù)據溯源內容結構
根據科學數(shù)據溯源的內容,基于區(qū)塊鏈的科學數(shù)據溯源平臺以科學數(shù)據對象為核心,以數(shù)據生產、數(shù)據利用和流轉、數(shù)據二次開發(fā)等過程為依據,通過對其生產主體、利用主體、流轉主體(如數(shù)據供應商)、二次開發(fā)主體等信息進行前向溯源和后續(xù)追蹤存儲,將每一次溯源記錄與所對應的科學數(shù)據對象綁定在一起,形成復雜多元化的溯源數(shù)據集合,作為科學數(shù)據管理及其質量保障的基礎依據。因此基于區(qū)塊鏈的科學數(shù)據溯源活動是匯聚多主體資源及其共同智慧的平臺系統(tǒng),數(shù)據的真實性和統(tǒng)一性是平臺運行的基本前提,以滿足科學研究活動的剛性需求和科學數(shù)據溯源活動的有效性,避免用戶利益的損失和平臺公信力的下降[17]。
基于區(qū)塊鏈的科學數(shù)據溯源活動,其整個運行體系是開放的,不限于特定的主體或者特定的科研項目,有相關科學數(shù)據需求的其他主體都可以參與,共建基于區(qū)塊鏈的可信科學數(shù)據生態(tài)系統(tǒng)。但是該溯源系統(tǒng)平臺不是主體匿名隨意進出的數(shù)據場域,而是要核驗主體的身份與數(shù)據使用意圖,即對參與方的身份真實性和意圖合理性進行驗證。用戶主體的隱私信息以及數(shù)據利用痕跡可以記錄在區(qū)塊鏈中,但是只有科學數(shù)據供應主體有權利掌握科學數(shù)據用戶的利用痕跡信息,其他主體無權獲取科學數(shù)據用戶主體的相關信息,即只有在利用他人所生產的科學數(shù)據的情況下,數(shù)據用戶主體有責任和義務呈報自身的數(shù)據利用痕跡,但是只允許對科學數(shù)據用戶主體的總體情況信息進行存取,即知道有人利用數(shù)據,但是沒有權利獲取利用主體以及如何利用等相關信息,只有在發(fā)生糾紛才能從系統(tǒng)中調用詳細的利用信息;對于科學數(shù)據的二次開發(fā)主體而言,需要通過區(qū)塊鏈向用戶主體提供數(shù)據初始生產主體的信息[18]。
區(qū)塊鏈的運行模式包括三種:公有鏈、私有鏈和聯(lián)盟鏈。公有鏈不對訪問權限予以要求,整個鏈內的信息是公開透明的,參與主體的任何信息訪問和存取行為都是有跡可循的,主體之間形成沒有信任機制的信任關系,其代價是犧牲了主體的信息隱私權利;私有鏈對主體的訪問權限予以嚴格控制,根據情境所需有選擇性地予以開放,因此適合于一定范疇、并能夠對信息進行修改和控制其開放規(guī)則的系統(tǒng)環(huán)境;聯(lián)盟鏈采用多個主體共同參與管理的運行模式,在該運行模式中,各個參與主體對于節(jié)點的控制具有嚴格的分工,任何節(jié)點都有其特定的管理主體,以規(guī)范數(shù)據在特定主體之間進行讀寫和存取,主體需要經過授權才能參與網絡的管理行為[19]。
在科學數(shù)據溯源活動的實施過程中,只有參與主體之間存在一定的信任前提和利益約束,才能保證科學數(shù)據溯源活動的可持續(xù)性。本部分基于聯(lián)盟鏈和私有鏈的運行特征,提出融合私有鏈和聯(lián)盟鏈來實施科學數(shù)據溯源活動的運行模式。該運行模式首先是基于聯(lián)盟鏈的科學數(shù)據溯源運行模式,科學數(shù)據的生產主體、利用主體、流轉主體以及二次開發(fā)主體需要系統(tǒng)內部的授權才能加入或退出網絡,在網絡內部不僅科學數(shù)據的存在信息、供應信息、利用信息、二次開發(fā)信息都是公開的,而且科學數(shù)據供需雙方基于數(shù)據發(fā)生的一切聯(lián)系信息也是對稱的,需要成員主體共同協(xié)商維護,即科學數(shù)據流動的整個鏈條信息都是可以溯源的,對于科學數(shù)據流動鏈條的每個環(huán)節(jié)的用戶特別是最終用戶而言,能夠通過網絡內部的公開信息和對稱信息來溯源預利用的科學數(shù)據的來源和流向,從而強化其對科學數(shù)據質量的正向信念,因此參與主體之間的信任前提得以滿足[20]。其次該聯(lián)盟鏈內部也需要配置私有鏈的運行模式,因為私有鏈的開放范疇有限,需要對科學數(shù)據溯源活動的參與主體權限進行認證與限制,在融合兩種鏈的科學數(shù)據溯源運行模式中,科學數(shù)據原初生產主體可以對任何科學數(shù)據溯源記錄或相應的參與主體采用私有鏈的認證方式和管理模式,即使其在聯(lián)盟鏈中已經得以確認,但是作為聯(lián)盟成員的獨立個體也有權利拒絕為其提供數(shù)據或者采取不合作的方式,這一切取決于科學數(shù)據需求主體的信用等級是否符合數(shù)據供應主體的預期[21]。
之所以在聯(lián)盟鏈中進一步采用私有鏈的方式對科學數(shù)據的利用、流轉以及二次開發(fā)進行權限認證,就是為了賦予科學數(shù)據原初生產主體對科學數(shù)據的后續(xù)作用進程的控制權限。否則如果科學數(shù)據的原初生產者對科學數(shù)據的后續(xù)使用進程沒有任何控制權限,不僅無法保證科學數(shù)據后續(xù)利用和開發(fā)的安全性,也無法對科學數(shù)據生產者獲取后續(xù)進程所帶來的剩余盈余提供保障,這樣會對科學數(shù)據生產者的積極性帶來負面影響,導致科學數(shù)據生產者延遲發(fā)布科學數(shù)據以最大限度地獲取科學數(shù)據的價值。因此科學數(shù)據溯源平臺應該采用私有鏈和聯(lián)盟鏈融合的方式進行科學數(shù)據溯源及相應的管理活動,保障主體權利的同時促進長效激勵機制的產生,以滿足參與主體之間的利益約束。
科學數(shù)據溯源作為科學數(shù)據質量與安全管理的重要手段,不僅能為科學數(shù)據管理行業(yè)提供基本保障,而且能夠降低科學數(shù)據利用中的風險,提升科學數(shù)據驅動創(chuàng)新研究的效率。為了避免溯源手段存在信息非對稱、監(jiān)管不及時的現(xiàn)象,保證科學數(shù)據溯源參與主體的權益,以區(qū)塊鏈為視角對科學數(shù)據溯源的運行理念進行探討,能夠將科學數(shù)據主體之間的信息非對稱降到最低:一方面區(qū)塊鏈作為一種共識機制,能夠實現(xiàn)高效的科學數(shù)據溯源活動,提升已然共享的科學數(shù)據的真實性和公信力,發(fā)揮科學數(shù)據溯源的價值,實現(xiàn)科學數(shù)據溯源的真正目的——促進科學數(shù)據管理與利用的順利開展,另一方面作為協(xié)同治理的激勵約束機制,通過融合私有鏈和聯(lián)盟鏈的科學數(shù)據溯源運行模式,能夠保障科學數(shù)據溯源參與主體信任關系的建立與利益約束的實現(xiàn),從而從長遠戰(zhàn)略上維護科學數(shù)據溯源參與主體的權益,以實現(xiàn)科學數(shù)據管理與共享的可持續(xù)性。