田 稷
(浙江大學圖書館,杭州,310027)
隨著信息技術的發展和時代的進步,開放科學日益成為科技與社會創新的基礎、促進科研人員合作與交流的重要環境。開放科學的重要基礎包括科技論文開放獲取與科學數據開放共享。數據出版作為科學數據開放共享非常重要的新模式,近年成為出版界、圖書館界、政府相關機構、研究人員關注的熱點。由于數據成果并不包括在當前的學術評價體系中、數據共享缺乏原生動力、數據出版增量迅猛引發評議瓶頸等,科學數據出版目前仍存在許多需要克服和解決的問題和挑戰。
本文提出一種科學數據混合出版新模式:采用混合評議對規模化的出版數據進行質量審核;采取免費或有條件使用數據的靈活機制來提升學術交流效率,促進數據交換與共享;將集成出版模式、數據倉儲出版模式和數據期刊獨立出版模式的功能融合到同一平臺,以提高作者的參與度和認可度,并為數據期刊提供優質的稿件來源。最后探討了高校圖書館在科學數據混合出版中可以發揮的重要作用。
科學數據出版目前并無統一的定義。有研究認為,科學數據出版是遵循規范的質量管理和控制流程前提下的正式的科學數據發布。廣義的數據出版可包括任何數據上傳到網絡并支持開放獲取的行為,但一般更被認可的,是指包含數據提交、同行評議、數據發布和永久存儲、數據引用、影響力評價等具有完整生命周期的學術數據發布行為。
目前國內外對科學數據出版及其模式的研究與實踐尚處于初級階段。在研究方面,國外文獻主要集中在數據出版的技術、安全、隱私保護等方面,如范登·愛因登(Van den Eynden)等介紹了社會科學研究數據自出版系統ReShare,期刊可選擇同行評審員訪問已發布數據集,通過同行評議實行期刊發表;侯賽尼· K(Al-Hussaeni K)等研究了數據出版中不同級別的隱私保護技術;賴利(Reilly S)等研究了集中出版模式中生成或重用原始數據的研究人員,提供交流機制的出版商,以及提供并保存支持學術交流和已發表記錄的證據的“圖書館與數據”人員的角色與利益;亞森(Yaseen S)等研究如何在數據出版中的隱私安全和應用中取得折衷的技術等。國內文獻主要涉及不同模式的比較研究,如黃國彬根據科學數據產生情形,將科學數據出版分為集成出版和獨立出版兩種模式,得出獨立出版模式的質量審核更為完善的結論,并討論不同的出版模式的不同費用標準和承擔主體;梁子裕在分析評價數據論文出版、獨立出版、合作出版等三種國外科學數據出版模式的優缺點的基礎之上,提出對我國數據出版模式的借鑒與優化策略;張靜蓓等將科學數據出版分為數據獨立出版、數據論文出版、合作出版和期刊自行出版四種模式,分析每種模式的數據出版流程,研究其引用策略。
在實踐方面,科學數據出版主要分成如下三種模式。
集成出版:學術論文公開發表在傳統期刊或開放獲取期刊上,支撐該論文的數據則提交給期刊認可的知識庫,這是目前大多數期刊對發表需要數據支撐的論文時采用的模式。如《自然》()、《科學》()、PLoS等推薦或者強制要求科研人員將論文所涉數據提交到指定知識庫或公共知識庫中。
數據期刊獨立出版:與開放獲取期刊類似,只是用數據代替了論文。如中國科學院的《中國科學數據》,是目前中國唯一的專門面向多學科領域的數據學術期刊。整個出版設計與傳統期刊類似,有正式的刊號及具體的期號,經同行評議后正式發表和公開。
數據倉儲獨立出版:數據也是獨立存在,但并不要求同行評審及強制全部公開,如Figshare和ResearchGate。它們接收作者上傳數據、圖表、多媒體、海報、論文(包括預印本)和文件等,可以存儲暫時不想公開的數據。Figshare強調體現數據的優先發布,平臺提供瀏覽、下載和引用統計等功能。
以上三種模式中,集成出版的數據僅是期刊論文的支撐,量少且并不一定完整;數據期刊獨立出版的數據均通過同行評審,質量高,但能夠出版的數據非常有限。這兩種出版模式能接納數據的量都很少,存在數據孤島和創新孤島,不利于實現大規模的數據開放與共享。數據倉儲獨立出版模式實現了以存儲和公開為主要目的的廣義的數據出版,可以實現大范圍的數據共享,但平臺“重存儲,輕利用”,對數據的審核側重于技術質量和元數據的全面性、準確性,并不審核數據的科學質量。這樣,優質數據淹沒在海量數據中,難以辨識和獲取;而且作者可能提供完全免費的數據,也可能僅存儲而不公開,存在作者與用戶激勵和平臺認可度等問題,對平臺的可持續發展和深度利用帶來困擾。針對這些問題,本文以數據倉儲獨立出版模式為基礎,將上面三種出版模式功能結合在一起,提出一種能將高質量、高價值數據從海量數據中顯現出來,促進數據的利用和共享的科學數據混合出版模式。
科學數據混合出版模式,是將所有能支撐學術論文的數據、獨立的研究數據或成果等作為出版對象,用戶、圖書館館員或同行評議專家均可對通過規范審查的數據進行有償或無償的質量審核,基于免費、收費、交換或合作署名等機制共享與利用數據,通過數據倉儲平臺公開或數據期刊獨立公開的形式出版數據。即所謂混合,是在質量評議、收費機制和出版形態等方面多種機制的混合,力爭打造一個良好的數據出版生態環境。混合出版模式的流程如圖1所示。

圖1 科學數據混合出版流程圖
作者向數據出版平臺提交其研究過程或成果數據。簡單易操作等良好的用戶體驗是影響作者選擇平臺的重要因素。出版平臺需要提供專門的提交模板,作者只需在模板上按規定格式填充相關內容即可。除常規的題名、作者、學科分類選項、文檔類型(數據集、圖表等)、描述、基金、參考文獻鏈接、許可等選項外,混合出版模式的數據提交模板還包括質量評議選項、數據公開條件(免費、收費或交換)選項、研究要素公開選項。
平臺根據規定格式,審核作者提交的內容是否符合規范,如數據類型和格式是否符合要求,數據描述等必要選項是否完整等。由平臺管理方和系統完成規范審核,并不對數據的科學性和質量進行評定。
通過規范審核的數據在平臺上公開發布,未通過審核的返回作者修改。
出版平臺一旦發表某一數據,所有訪問數據的用戶都可以直接對之進行網絡評議、打分、討論等互動與交流。混合出版模式采用三種方式對數據進行質量評議,具體包括用戶評議、圖書館員評議和同行專家評議。
用戶評議:類似豆瓣點評和淘寶買家評價,平臺設置評議選項,用戶可以對數據的各種要素進行打分和評價,包括內容質量、應用價值等。此處的用戶包含所有訪問數據的人,可以是同行,也可以是跨學科使用的研究者。
圖書館員評議:圖書館員利用其專業素養,實現:(1)對用戶評議的內容進行整理;(2)利用數據的下載量、引用量和Altmetrics指數等,形成計量學意義上的數據影響力評價;(3)通過對數據的描述文檔進行分析,對數據的創新性進行評議。在這些基礎上形成評議結論,作為同行專家選擇數據并進行評議的重要參考。
同行專家評議:由平臺構建開放性的網絡同行評議專家庫,同行專家自愿加入。同行專家主要對數據的科學性和內容質量進行評議,然后形成供用戶和數據期刊選擇優質數據的重要參考意見。
為激勵更多人參與評議,評議行為可以是收費方式,也可以是免費方式。對于收費評議,評議費用可由數據作者提供、用戶(包括個人或數據期刊)提供和平臺提供等。
科學數據利用主要涉及數據下載和數據引用。此外,用戶可能不僅僅對數據本身感興趣,還對實驗流程、方法、材料、經驗教訓等科學數據研究要素感興趣,由此將催生對數據研究要素的需求和利用。
數據可以在平臺永久保存,實現自出版;數據期刊可以基于數據評議結果選擇合適的對象進行正式出版。
相對當前主要的數據出版模式,數據混合出版模式具有如下創新特征和優勢:
任何出版都意味著對出版對象的內容質量給以一定程度的認可,傳統出版采用同行評議方式來實現。雖然數據出版并不需要強制進行同行評議,但同行評議仍然是保證出版質量的最佳方式。但對于集成出版模式和數據倉儲獨立出版模式,數據質量審核存在缺乏評議標準、評議時間成本高昂(如評議一份數學或物理數據需要6—8個小時)、目前科學共同體尚未給數據同行評議專家以相應的社會及學術認可而嚴重影響評議者的積極性等困難,特別對于數據倉儲獨立出版模式,最大的困難在于提交給平臺的數據數量和增長速度遠遠大于傳統出版,數據同行評議的專家嚴重缺乏,無法實現對規模化的數據進行質量審核。
混合出版模式的一個重要特征和優勢就在于它采用混合評議方式實現規模化的出版數據質量審核。數據用戶根據自己對數據的利用情況給以質量評議;圖書館員基于用戶評議結果,或者直接基于數據的下載量、引用量等計量學指標表現,選擇數據并對之進行更深入的創新性和影響力評價,形成評價結論;同行專家參考圖書館員評議或數據的計量學指標表現,有目的地選擇數據進行評價,然后形成可供用戶選擇或數據期刊選擇優質數據的推薦意見。由于包括作者與讀者的所有用戶和圖書館員都可參與質量評議,平臺的同行專家庫對所有同行專家開放,這種具有社交網絡屬性的評議方式時效性高、參評人員數量有保障、評議完全透明和公開,混合評議將在很大程度解決數據出版的質量評議瓶頸問題。
由于目前科學數據出版平臺大多是由公共資金支持建設與運維,社會資金運營的出版平臺所收取的費用也僅是數據存儲與管理費用,不能像傳統出版那樣從成熟的產業鏈中獲得穩定利潤來支付同行評議專家勞動報酬,這樣的資金運作方式不能長遠支持對科學數據的同行評議。
混合評議將通過收費與免費相結合的評議方式來解決此問題。用戶、圖書館員和同行專家都可以自愿提供對數據的免費評議,但合理的收費機制將激勵更多的人參與。如渴望得到質量評議的作者可以主動提供費用,吸引他人對自己公開的數據進行質量評議;用戶可以提供評議費用,讓他人幫助自己盡快在海量數據中找到想要的優質數據;數據期刊可以提供評議費用,讓大家幫助選擇和審核自己期刊想組稿發表的數據;平臺管理方也可以有意提供評議費用,吸引更多人評價更多的數據,從而進一步提升平臺的學術價值和影響力,費用來源可以是平臺廣告費、政府或社會機構支持等。這樣的混合評議收費機制在極大提升出版數據的評議比例的同時,也為長遠解決數據出版中的質量評議費用問題提供有效方案。
雖然出版的科學數據很多是公共資助項目的產物,但也必須認可不同科研人員的不同勞動與智慧,開放科學并不應該總是向所有人員全部無償開放。如果一刀切地要求作者都無償共享數據,那么部分人可能會選擇不發表或有保留地發表。筆者曾就此對浙江大學4個學院10位不同專業的老師進行了訪談調查,他們都愿意在合適的平臺上公開自己長期研究積累的各種數據。其中2人愿意無條件公開,8人表示主要是希望讓人知道這些數據的存在,以及存在何處,5人希望是有條件的共享,如數據交換、合作署名,或者收取一定費用。另一方面,他們表示,如果可以基于別人的數據進行研究,也愿意通過類似喜馬拉雅平臺的知識付費方式滿足自己的數據需求。
當前主流的數據出版模式中,平臺對數據作者免費或收取一定費用,數據利用方一般并不付費,這種單向收費方式不利于數據的完全開放與利用。為了鼓勵更多的人共享與利用數據,促進數據的交換和研究人員之間的合作,混合出版模式采取靈活機制來多樣性鼓勵大家利用數據。數據的下載既可以是免費的,也可以是收費的,收費與否及收費多少由作者或傳播者自行確定。數據引用則分兩種情況,一種是傳統意義上的引用,另一種是借用作者的數據進行自己的研究。對于傳統意義的引用,應該是完全免費;但對于將別人出版的科學數據作為自己研究的一部分,用戶應根據原數據作者或傳播者的要求進行免費或收費引用,或者通過數據交換或共同署名的方式進行引用。
開放科學環境下,科研人員擔心各種開放模式帶來的變化有可能影響到對他們的學術認可與評價。混合出版模式融合了數據倉儲出版和數據期刊出版功能,平臺可以根據混合評議及數據利用的綜合表現,向數據期刊推薦數據。數據期刊選擇表現優秀的數據,進行同行評議或直接在數據期刊上正式發表,這個過程讓作者得到了學術共同體的認可。而對于未能在數據期刊上發表的數據,平臺不僅提供永久的公開與保存,而且由于有用戶評議和圖書館評議機制的保障,高質量數據的可發現性將得以大幅度提升,進而提高平臺的社會認可度。學術認可度與社會認可度的提升將吸引更多作者將自己的研究成果公開到平臺上出版,以及更多的用戶關注和利用平臺數據。
開放科學為圖書館事業的發展帶來了新的挑戰和要求,也帶來了新興機遇。圖書館深度參與科學數據出版,是未來高校圖書館的發展趨勢之一。
館員的職業素養為圖書館參與科學數據出版打下了堅實的基礎。開放科學環境下,出版商、圖書館、集成商和作者將在信息的創造和傳播過程中進一步融合,圖書館館員在科學數據的描述、組織、選擇、評價、服務等過程中都可以發揮重要作用,如制定數據規范與標準、質量評議、數據分析與服務、永久存儲與管理等:
元數據是推進科學數據共享、實現數據出版、支持數據的可發現和利用的重要基礎。目前的數據倉儲獨立出版平臺(如圖文數據共享(Figshare))上數據的元數據只是按都柏林核心(Dublin Core,DC)元數據標準創建后,由作者進行核查和修改,這樣簡單的元數據并不能很好地支持對數據的深度揭示與利用。另一方面,科學數據有實驗數據、測量數據、統計數據、觀察數據、調查數據等,各個學科特點不盡相同,數據種類和格式存在多樣性和復雜性,給數據出版的平臺設計和數據的共享與利用帶來挑戰。而且相對學術論文而言,科學數據缺乏獨立性,為了使數據更易于獲取、互連和可發現,需要高質量的元數據來幫助理解和使用。高校圖書館在元數據標準制定與數據標引方面具有極其豐富的經驗和專業的人才隊伍,館員可以制定更為專業和科學的元數據標準,借助工具和技術,實現對大規模數據的有效標引。
由于混合出版模式中數據質量評議的開放性和眾包性,數據出版平臺將匯集各種反饋意見和積淀各種利用數據。高校圖書館近年引進了大量具有一定學科背景的高學歷館員,可以利用他們的專業知識和職業素養對這些信息進行梳理與挖掘,基于用戶利用信息進行質量評議;可根據數據的關注度、下載量、引用量等的統計分析出數據的受眾面、影響力等,構建相應的質量評價等級標準,對數據進行分類分級;可以利用科技查新等技能深入分析數據描述文檔,對數據內容的創新性給以評價,為數據的后續利用提供指導性意見。而且,可以借鑒文獻傳遞機制,以聯盟的形式制定統一的評議標準,讓眾多圖書館及館員參與,從而實現數據質量評議的標準化和規模化。
科學數據混合出版模式不僅實現數據的公開與長期保存,更關注如何進行有效的利用。高校圖書館可以借助其服務師生和科研人員的專業知識與技能,在科學數據利用與服務方面發揮重要作用。如引導師生積極出版自己的科研數據,幫助查找和使用研究數據;幫助研究人員發現與尋找合作對象,促進科研合作與交流、學科交叉與科學創新。
科學數據蘊含巨大的應用價值,圖書館館員可以開展針對科學數據的多種增值服務。如根據研究人員、課題組或學科需求,檢索收集專題數據并按主題或學科進行二次分類、標引等,形成特定數據集,幫助用戶在海量數據集中專注跟蹤了解自己的研究領域;對特定數據集進行數據挖掘與可視化關聯分析,幫助用戶對數據進行深層利用,使其隱藏的重要價值得以顯現;幫助交叉學科項目收集、整理數據,形成相應的交叉學科數據利用平臺;跟蹤收集與整理失敗數據,形成極具利用價值的失敗數據檢索與利用平臺等等。
科學數據將與傳統文獻一樣,成為人類發展歷程中非常重要的知識類型。圖書館一直擔負著人類知識積淀與傳承的重要歷史使命,必然將這一新型知識納入圖書館統一收藏、管理、揭示與應用。目前科學數據出版平臺的承建主體和運維經費來源多種多樣,有的承建主體是政府或行業學會、協會等(如《中國科學數據》),也有承建主體是社會資本支持的商業機構(如圖文數據共享);出版數據的學科領域、要求、標準等也各不相同,在平臺連續性、永久性、標準統一性等多方面都存在問題。解決這些問題,需要數據出版平臺最終從多元化向歸核化轉變。而科學數據混合出版模式由于有圖書館的多重參與,無論平臺的承建主體是誰、運維經費來源何處,由圖書館永久保存數據,將可以最大程度地保障科學數據出版的完整性、連續性、公共性和服務性。
過去兩年產生了全球迄今為止50%的數據,但僅有2%的數據得到了分析。科學數據混合出版模式采用開放性的混合評議機制,大大提升數據的質量評議比例,將更多的高質量數據從海量數據中突顯出來,為用戶選擇和使用數據提供了有效參考;設置免費、收費、數據交換與共同署名等靈活多樣的激勵機制,可以提升數據出版內生動力,實現平臺運維的自主造血,從而打造一個能長效運行的數據出版生態環境,積極推進開放科學環境下數據出版的健康長遠發展。混合出版模式集聚了當前主流數據出版模式的優點,克服了它們的弊端。文章尚未對混合數據出版模式中涉及到的法律與隱私,收費的實現方法及其可能帶來的其他問題,圖書館評議與打分標準、專家評議標準,科學數據的增值服務中包含的知識產權問題,圖書館如何實現永久保存等問題進行深層次的探討,有待今后進一步研究。但無論如何,作為數據出版體系中一個重要角色,高校圖書館需要未雨綢繆并積極參與,才能為其在數據時代的轉型升級贏得更強的競爭力。
注 釋
[1][11]黃國彬,王舒,屈亞杰.科學數據出版模式比較研究[J].大學圖書館學報,2018,36(1):34-40+33
[2]何琳,常穎聰.國內外科學數據出版研究進展[J].圖書情報工作,2014,58(5):104-110
[3]Eynden V,Corti L.Advancing research data publishing practices for the social sciences: from archive activity to empowering researchers[J].,2017,18(2):113-121
[4]Al-Hussaeni K,Fung B C M,Iqbal F,et al.Differentially private multidimensional data publishing[J].,2018,56(3):717-752
[5]Reilly S,Schallier W,et al.Report on integration of data and publication [EB/OL].[2019-10-07].https://zenodo.org/record/8307#.XZqkmWZ5vIU
[6]Yaseen S,Abbas S M A,Anjum A,et al.Improved Generalization for Secure Data Publishing[J].,2018,6:27156-27165
[7]梁子裕.國外科研數據出版模式研究[J].出版發行研究,2017(3):82-85
[8]張靜蓓,任樹懷.科研數據出版模式、流程及引用策略研究[J].圖書情報工作,2015,59(9):21-27
[9]《中國科學數據》編輯部.中國科學數據[EB/OL].[2019-03-04].http://www.csdata.org/
[12]Figshare[EB/OL].https:// figshare.com/
[13][14]劉鳳紅,張恬.開放科學背景下新興學術論文出版類型:研究要素出版[J].中國科技期刊研究,2017,28(02):138-144
[15]屈寶強,王凱.數據出版視角下的科學數據同行評議[J].圖書館雜志,2017,36(10):71-77
[16]frontier[EB/OL].[2019-04-04].https://www.frontiersin.org/
[17]BahlaiCA,BartlettLJ,et al.Open Science Isn't Always Open to All Scientists[J].American Scientist,2019,107(2):78-82
[18]國際科學編輯.中國相關機構明確力挺論文開放獲取、支持S計劃[EB/OL].[2019-10-08].http://m.sohu.com/a/281258891_100191228
[19]科塔學術.Figshare 數據知識庫[EB/OL].[2019-08-08].https://www.sciping.com/18605.html
[20]Purohit S,Chappell A.Effective Tooling for Linked Data Publishing in Scientific Research[C].2016 IEEE Tenth International Conference on Semantic Computing(ICSC),2016:24-31
[21]Smith M.Communicating with data : new roles for scientists,publishers and librarians[J].,2011,24(3): 203-205
[22]Paige.「上云」不是終點,釋放數據價值才是數字經濟時代的「加油站」[EB/OL].[2019-10-07].https://www.geek-share.com/detail/2780650703.html