雷秋雨,馬建玲(1.中國科學院大學;.中國科學院蘭州文獻情報中心)
?
學術期刊數據出版政策研究綜述——以JCR中進化生物學領域期刊為例
雷秋雨1,2,馬建玲2(1.中國科學院大學;2.中國科學院蘭州文獻情報中心)
摘要:文章選取JCR中收錄的46種進化生物學核心期刊,對其數據出版政策進行詳細調研。細分了這46種學術期刊是否有數據出版政策以及數據出版政策的強弱,并在此基礎上從數據的存繳方式、數據質量控制、數據格式、存儲位置、開放性與權益等多個方面對數據出版政策進行了分析與研究,最后提出了該領域學術期刊數據出版政策制定與執行中存在的問題以及需要發展與完善的地方。
關鍵詞:進化生物學;學術期刊;數據出版政策;研究數據
研究數據出版是指將科學研究中產生的數據(集)公開發布,以便于數據使用者自由獲取,這種做法是開放科學運動的組成部分,[1]數據出版的目的也在于將數據作為重要科研產出進行評估。[2]科學論文的質量取決于底層原始數據的質量,為了提高論文同行評審的嚴謹度并促進數據復用,許多期刊要求作者在論文發表前,先將數據注冊或提交到數據倉儲中,或要求在文獻發表之前公開其數據。[3]數據存檔﹑共享的相關政策規定,促進了科學數據的開放訪問,便于科學家對研究結果進行驗證,并基于相關數據探索新的分析方法。[4]實現共享,不僅能使科學數據在應用過程中增值,也是提高科技創新能力的重要支撐。[5]因此,將出版研究數據正式納入學術出版體系是開放科學實踐的重要舉措。
在線發布研究數據并非新概念,在國外,生物多樣性﹑地球科學﹑生物醫藥等領域的學術期刊早在多年前就要求作者在投稿時必須提交相關研究數據的規定。特別是生物多樣性領域,早在1985年Robert F. Boruch and David S.Cordrag[6]就表示希望科研人員能將與研究相關的信息(RRI)公開發布,1995年KATHERINE W. McCAIN[7]對自然學科﹑醫學和工程學的近850種學術期刊數據共享政策做過調查,發現有至少132種期刊要求將基因序列﹑結構等數據,在論文發表之前注冊于公共數據倉儲。隨著數據出版的快速發展,學術期刊的數據出版政策也在發生重大變化,涉及期刊﹑出版社﹑數據倉儲﹑作者等多個角色,政策范圍包括存繳方式﹑數據質量控制﹑數據格式﹑存儲位置﹑開放性與權益等多個方面。本文將以生物學領域的核心期刊為例,全面研究學術期刊數據出版政策的特征與發展變化。之所以選擇進化生物學領域,一是由于該領域在數據共享政策規定方面發展較為成熟,二是可避免多學科領域調查﹑統計與總結的復雜性。
本文的調查研究分為三個步驟:(1)以進化生物學為學科主題,檢索到JCR中共收錄了該領域的46種學術期刊,以這46種期刊為樣本,在每種期刊的“Author’s Guidelines”部分進行詳細調查,對期刊是否要求作者提交支撐性數據﹑補充材料文件等方面的論述做出統計;(2)依據統計結果,進一步調查期刊要求作者提交何種數據﹑如何提交﹑何時提交于何處,以及數據的開放性規定等,將這些學術期刊的數據出版政策分為:無數據出版政策﹑弱數據出版政策﹑強數據出版政策三個等級;(3)根據統計出來的政策強弱等級,選取具有代表性的學術期刊,詳細介紹其政策規定。
目前,學術期刊出版商在制定數據出版政策時,對數據提交方式給出了兩種建議:(1)要求在提交論文時將相關數據注冊到外部公共數據倉儲;(2)建議將相關數據作為補充材料文件(Supplement material files)同論文一起在線發布。這46種期刊的調研顯示,明確規定作者需要提交支撐性數據或補充材料文件的期刊有37種,占80.4%;完全沒有相關規定或論述的期刊有9種,占19.6%。在有數據出版政策的37種期刊中,按政策強弱細分,本文將每種期刊的“Author’s Guidelines”論述中出現“鼓勵作者提交”﹑“作者可選擇提交”這些字眼定義為弱數據出版政策,論述中出現“作者必須提交”﹑“作為文章出版的條件”﹑“在文章出版前獲得數據登錄號”等字眼定義為強數據出版政策。比照上述標準,在37種期刊中,10種期刊具有弱數據出版政策,占27%;27種期刊有強數據出版政策,占73%。

表1 JCR中收錄的46種進化生物學學術期刊數據出版政策類型分布
3.1數據類型與數據存繳方式
上述46種學術期刊在制定各自的數據出版政策時,會對提交何種研究數據,如何﹑何時提交于何處等做出詳細規定。有數據出版政策的37種期刊明確規定出的數據類型有遺傳學數據﹑基因組學數據﹑序列數據﹑晶體學數據﹑補充材料文件,以及論文中可能使用到的軟件﹑新技術和新工具等。數據存繳方式可選:(1)提交于公共數據倉儲;(2)先提交給期刊編輯部,經編輯部審核之后再代替作者將數據上傳到公共數據倉儲;(3)將數據打包為補充材料文件上傳到期刊網頁或其他外部倉儲(機構知識庫),同時要提供數據URL地址。論文中涉及的軟件﹑新技術與新工具,期刊要求作者將其存繳于公共軟件倉儲。
3.2數據存儲位置
有數據出版政策的37種期刊,每種期刊的政策都是依據該期刊自身特點及其各方利益相關者要求而制定的,并無統一標準規定。就數據存儲位置而言,有些期刊會為每種數據列出建議數據倉儲清單,有些只要求作者將研究數據注冊于經認可的公共數據倉儲。經統計,在這37種期刊里,有18種期刊同時明確規定了數據的存儲位置,將DNA﹑RNA﹑蛋白質序列數據﹑微陣列數據﹑核苷酸﹑氨基酸序列數據存儲于Genbank﹑European Nucleotide Archive(ENA)﹑DDBJ﹑Protein DataBank﹑GEO和ArrayExpress;將系統發育數據﹑比對數據提交于TreeBASE和Dryad。其余期刊都表示要求作者將研究數據提交到公共數據倉儲(Dryad)或作為補充材料文件在線發布。整體來說,Genbank﹑GEO﹑ArrayExpress﹑TreeBASE和Dryad,是進化生物學領域最認可的5個公共數據倉儲,絕大部分期刊在要求作者提交數據時會建議上述5個公共數據倉儲的一種或幾種。以這37種期刊中影響因子最高(IF:15.353)的[8]為例,該期刊所屬Elsevier,對作者在存繳數據時的存儲位置有非常詳細的規定。
有些期刊影響因子雖然不高,數據出版政策卻很完善,比如Libertas Acad出版集團的[9](IF:1.169),除了對進化生物學領域的常規數據存儲位置有詳細規定,它還提到作者如果在論文中使用了新技術﹑新工具或使用了新的軟件﹑計算模型等,則將其轉化為生物標記語言,存儲于BioModels Database。Nature出版集團的也規定,如果論文中介紹了新的模擬﹑分析方法,則要求作者將相關的軟件公開發布,建議將軟件編碼存繳于Dryad。除此之外,所有的期刊都規定人體工程數據﹑瀕危物種位置信息應當保密,不得公開發布。[10]建議作者在找不到合適的公共數據倉儲的前提下,可以將數據存儲于研究單位的機構知識庫,比如英屬哥倫比亞大學的circle﹑斯坦福大學的芯片數據庫SMD(Stanford Microarray Database);或存儲到資助者機構知識庫。在論文發表時向期刊提供數據存儲位置鏈接即可。

表2 Trends In Ecology & Evolution要求提交的數據類型與規定的數據倉儲
3.3數據發布與引用
數據妥善存繳之后,需要建立某種機制來實現數據與期刊論文雙向鏈接。比如Wiley-Blackwell旗下的12種期刊﹑Royal Soc的2種期刊以及Nature的Heredity[11]都要求作者在論文正式發表之前,需要獲得已存儲數據的登錄號或DOI,期刊規定論文正文的參考文獻前需包含一段“數據可獲取”(Data Accessibility)描述區域,這一區域應當包括的細節信息有數據集名稱﹑數據倉儲名稱﹑數據編號﹑DOI鏈接﹑數據URL地址等。如果無法將相關數據存儲于外部公共數據倉儲,也可將其作為在線可讀的補充材料文件上傳于“數據獲取”區域。牛津大學出版社的期刊則要求作者在論文正式發表前獲得數據的DOI,并且在論文題目的下方列出數據存儲位置與URL鏈接。
研究數據正式發布以后就意味著用戶必須以規范的格式在文章的參考文獻部分對數據進行引用。收錄著大量研究數據的公共數據倉儲一般會提供數據的推薦引用格式。以Dryad[12]為例,它會給每個數據文件分配一個DOI,規定作者在引用Dryad中的數據時必須同時對原論文進行引用,這樣便于第三方對論文和數據之間的鏈接進行索引。Dryad給出的數據引用格式示例:
3.4數據質量控制
出版數據,將其納入正式的學術出版體系,就意味著研究數據會像論文一樣,在出版前經過嚴格的同行評議,就數據的可信任度取得保證。Nature出版集團就規定對數據進行評議的編委組里必須包括至少一名數據標準審核專家,保證對作者提交數據的質量與可重用性進行評估,來確保實驗數據的嚴謹性與其描述的完整性。[13]Elsevier也要求期刊編輯在評議數據時注重時效性﹑做到在評議階段對數據的保密,同時在數據的客觀性﹑來源的真實性等方面做出初步評估。[14]許多期刊本身并不對數據進行測管,而是委托數據倉儲代行職責。Dryad就明確表示會協助期刊對所收錄的數據﹑元數據的真實性與可靠性進行嚴格評議。[15]
3.5數據格式
期刊對直接提交于公共數據倉儲的數據格式沒有明確的規定,有的期刊會直接要求作者將所有支撐性數據打包作為補充材料文件在線提交,期刊會對補充材料文件的格式與大小做出規定。在有明確數據出版政策的37種期刊里,有4家出版集團的11種期刊對此作出了規定。

表3 期刊規定的數據格式例舉
除了上述期刊的具體規定外,Springer出版集團出于文件存儲格式穩定性的考慮,建議作者將所有文本材料都轉化為PDF格式;出版商Biomed Central就對化學結構文件以MOL﹑PDB格式提交;地理數據文件以KML格式提交做出了規定。Elsevier和牛津大學出版社都要求作者將數據存繳于外部數據倉儲,在無法找到合適的數據倉儲的前提下,二者都要求作者在論文中包含一個小章節——“補充材料區域”,在該區域只允許上傳與論文直接相關﹑可在線獲取的補充材料。每篇文章的補充材料章節最多可容納5個文件,每個文件格式上限2MB,并且文件盡可能地壓縮至最小,以便于讀者能夠快速地下載到文件。
3.6數據存繳時間與數據的開放性
37種有數據出版政策的期刊所屬12家出版商,每個出版商都對何時存繳數據﹑論文發表之后數據的開放性有不同規定。

表4 37種期刊數據的存繳時間與開放性規定
除了上表中學術期刊的數據提交時間﹑數據開放性政策外,牛津大學出版社的Genome Biology and Evolution[16]對數據的存繳時間有更進一步的規定:作者如果利用已存繳的數據進行后續研究,需要對數據進行更新;如果是基于克隆的大片段基因項目(Large-insert clone-based projects),要求2KB或更大的DNA序列組件數據應當在產生后的24小時之內存儲于公共核苷酸數據庫,序列追蹤數據應當于產生后的一周內存繳于NCBI追蹤庫或Ensembl追蹤服務器;如果是全基因組鳥槍法測序項目(Whole genome shotgun projects),要求序列追蹤數據應當于產生后的一周內存繳于追蹤存檔(NCBI追蹤庫或Ensembl追蹤服務器)中。全基因組件數據應當在滿足了整套質量評價標準之后盡快存儲于公共核苷酸序列數據庫。期刊規定所有這些已存繳的數據都應當無限制地公開可獲取。
統觀JCR中進化生物學領域有明確數據出版政策的37種核心期刊,他們制定的數據出版政策范圍涵蓋了存繳方式﹑數據質量控制﹑數據格式﹑存儲位置﹑開放性與權益等多個方面,在細節規定上也不乏共同之處。從最初要求作者公開與論文相關的研究資料至今,學術期刊的數據出版政策也日趨完善。但在以下方面仍須改善和不斷發展。
(1)數據質量控制需要一套客觀的評議標準。從要求作者提交數據到期刊正式發布數據,并非數據出版政策整個流程的簡單循環。在對這37種期刊的調查過程中發現,期刊都提到會對數據進行同行評議,但目前還沒有期刊詳細提出由誰﹑如何﹑以何種標準評審數據,很多情況下論文的評審專家并不一定擅長于對數據進行審核。在這種情況下,數據是否真的具備較高的可信任度值得商榷。自然出版集團的數據期刊Scientific Data,在“作者說明”這一部分就明確陳述,會有專門的數據標準審核專家對作者提交的數據進行評審。由專人對數據進行評議是一個值得肯定的發展趨勢。
(2)期刊在規定數據存儲位置時的政策力度。關于數據存儲位置,進化生物學領域已經有了比較成熟的實踐流程,但是數據出版尚在發展中,很多期刊在數據出版政策制定方面還在探索階段,數據存儲位置方面,有些期刊的政策規定并不十分嚴明。比如建議作者根據個人意愿可以選擇將數據存儲于個人主頁或所在機構網絡服務器中,在論文正式發表前只需要提供數據的相關鏈接。在沒有專業策管的情況下,這些數據鏈接地址的穩定性不能保障,數據可能丟失或無法使用。另外,憑作者意愿存于機構知識庫的數據,其質量與完整性也無法保證。所以期刊在制定數據存儲位置規定時,應該給讀者放出強有力的政策導向信號,規定作者必須將數據存繳于專業數據倉儲進行管理。Biomed Central旗下期刊[17]就明確指出,出于對網絡環境穩定性的擔憂,不允許作者將數據鏈接至個人或所在機構主頁。
(3)加強對研究者共享研究數據的回報機制建設。KATHERINE W. McCAIN[7]在其1995年的研究中把期刊喻為研究數據共享政策的“守門人”(Gatekeeper),可見期刊在數據共享政策導向方面的重要地位。在對這37種期刊進行調查分析的過程中,特別留意了在數據出版方面比較積極的出版商Elsevier,選取了期刊Trends In Ecology & Evolution,[8]其2015年1月份第一期中共有12篇論文,但是沒有任何一篇論文的作者提交相關數據或在線補充材料文件。很多情況下,學術期刊拿出了一套數據共享機制,但研究人員卻不一定有動力共享他們手中的數據。所以,期刊出版商在鞏固其數據出版政策的同時也應該適當配合研究人員的訴求,將數據出版政策真正落到實處。
[參考文獻]
[1]Data Publishing[EB/OL].[2015-03-07].http: //en.wikipedia.org/wiki/Data_publishing.
[2]Callaghan S,et al.(2012).Making data a first class scientific output:Data citation and publication by NERCs environmental data centers[J].International Journal of Digital Curation,2012,7(1):107-113.
[3]何琳,常穎聰.國內外科學數據出版研究進展[J].圖書情報工作,2013(3):104-109.
[4]黃如花,邱春艷.國外開放科學數據研究綜述[J].情報資料工作,2013(4):24-30.
[5]司莉,邢文明.國外科學數據管理與共享政策調查及對我國的啟示[J].情報資料工作,2013 (1):61-66.
[6]Robert F.Boruch and David S.Cordrag.Professional Codes and Guidelines in Data Sharing[EB/OL].[2015-03-06].http://www.nap.edu/openbook.php?record_id= 2033&page=199.
[7]KATHERINE W McCain. Mandating Sharing:Journal PoliciesintheNatural Sciences[EB/OL].[2015-02-07].http://scx.sagepub.com/content/16/4/403.full.pdf+html
[8]Trends In Ecology & Evolution[EB/OL].[2015-03-26].http://www.sciencedirect.com/science/journal/0169 5347.
[9]Evolutionary Bioinformatics[EB/OL].[2015-04-16].http://www.la-press.com/journal-evolutionary-bioinformatics-j17.
[10]Molecular Ecology Resources[EB/OL].[2015-03- 27].http://onlinelibrary.wiley.com/journal/10.1111/(ISSN)1755-0998.
[11]Heredity[EB/OL].[2015-03-07].http://www.nature.com/hdy/index.html.
[12]Using data[EB/OL].[2015-02-16].http://datadryad. org/pages/faq#using.
[13]Scientificdata principles[EB/OL].[2015-02-10]. http://www.nature.com/sdata/about/principles.
[14]DutiesofReviewers[EB/OL].[2015-02-10].http: //www.elsevier.com/about/publishing-guidelines/publishing-ethics.
[15]Keyfeatures[EB/OL].[2015-03-11].http://datadryad. org/pages/repository.
[16]Genome Biology and Evolution[EB/OL].[2014-12-26].http://gbe.oxfordjournals.org.
[17]EvoDevo[EB/OL].[2015-03-06].http://www. evodevojournal.com.
動態·資料
寧夏圖書館舉辦親子創意美工創作比賽
2015年12月20日,寧夏圖書館攜手米谷少兒美術培訓中心舉辦“心靈手巧,變廢為寶”親子創意美工創作比賽活動,讓小讀者們通過對生活中的廢品再利用提高動手能力,學會觀察生活,發現生活亮點,培養孩子們的環保意識,提倡低碳生活。共有15組家庭參加了活動。
比賽中,孩子們互相交流,分享各自的想法,充分運用自己的創造思維能力,利用生活中的廢品,現場制作出一件件鮮活的作品。廢舊的瓶瓶罐罐通過重新創作后,變成了多功能的存錢罐、糖果盒、筆筒、小汽車、卡通花盆、插花花瓶、藝術燈罩、機器人、小鳥的家、瓶子娃娃……就連小藥瓶也變成了漂亮的風鈴。比賽不僅充分挖掘了廢舊材料的再利用價值,也讓孩子們體會到了創作的快樂。此次活動以親子互動的方式進行,在激發孩子們的創新思維、創意靈感和創作積極性的同時,更增進了父母與孩子的感情。
(茍素心)
A Research Review on Data Publishing Policies in Academic Journals
——A Case Study on the Journals of Evolutionary Biology Subject in JCR
Lei Qiu-yu,Ma Jian-ling
Abstract:Taking 46 evolutionary biology core journals indexed in JCR as data samples, this paper makes a detailed survey on their data publishing policies and analyses these policies from data storage, storage location, quality control, data format and openness, etc. In the end, itpoints outsome problems and puts forwardcorresponding countermeasures.
Keywords:Evolutionary Biology; Academic Journals;Data Publishing Policy; Academic Data
[收稿日期]2015-03-13[責任編輯]劉丹
[作者簡介]雷秋雨(1991-),女,中國科學院蘭州文獻情報中心2013級碩士研究生,研究方向:數據出版、數據管理;馬建玲(1969-),女,碩士研究生導師,中國科學院蘭州文獻情報中心研究館員,研究方向:信息資源建設與組織。
中圖分類號:G250.252
文獻標志碼:A
文章編號:1005-8214(2016)01-0030-05