杜偉 張靜
[摘 要] 分析數據出版遇到的挑戰,介紹用知識螺旋模型出版數據的簡單過程,并探討數據存儲庫如何采集高質量數據。
[關鍵詞] 科學研究數據 數據出版 數據獲取
[中圖分類號] G237 [文獻標識碼] A [文章編號] 1009-5853 (2013) 06-0086-04
[Abstract] Analyze the issues faced by data publication,introduce the simple data publication process based on the knowledge spiral model,and expound how data repositories collect and store high-quality scientific research data.
[Key words] Research data Data publication Data acquiring
不僅 “大科學”有所謂的海量數據現象,所有學科都有產生大量原生數據和派生數據的趨勢。在科學技術飛速發展的今天,科學研究數據的作用越來越大,在數據發揮核心作用的所有研究中,對數據可驗證性的期望不斷增加[1],而且為了進行進一步的研究,對現有數據集進行重組或重新利用的需求也在不斷增加[2]。世界范圍內的科學數據共享勢在必行,要實現共享就要做好科學數據的出版工作。國內對此也有研究,王萍等提出基于網格技術的科學數據存儲與共享[3]。但是,目前數據出版還處于發展階段,數據文獻的狀況在各研究領域和各個學科有著很大差別。
1 數據出版中的問題
和傳統的文字出版物相比,數據出版更具有挑戰性。每當人們談及學期論文或畢業論文時,考慮的幾乎都是文字出版物的類型,比如期刊論文、書籍等,很少會想到數據。而數據出版作為新生事物,在以下諸多方面都面臨著亟待解決的問題。
1.1 文件格式
文字出版物的格式,如TXT、HTML、RTF、Word、OpenOffice、PDF、LaTeX等,已經被全世界所有學科的研究人員廣泛使用。
科學研究數據也有幾種格式,如XML、電子表格、二進制格式等,要根據某一領域的需要選擇所需要的格式。個別格式用標準工具不能打開,需要安裝專門的分析和可視化軟件。
1.2 內容特征
科學研究數據比純文字研究論文的目的性更強。研究論文具有主觀性特征,因為寫論文的目的就是傳播知識。為此,作者建立了具有邏輯性和引導性的結構,突出重要方面,解釋數據,使用表格、數字和圖片來進行具體陳述。
而數據文件往往直接或間接由計算機或儀器產生。一般情況下,對文件有嚴格的標準要求,并由計算機輸出和進行優化處理。因此,數據文件客觀而清晰,一般情況下不需要人工檢查。
1.3 科學質量保障
文字性出版物的科學質量保障,一般以同行評審方式來實現。對一篇論文來說,編輯主要審閱作者的主張、邏輯性及對其他出版物的引用。同行評審即審閱人,其往往是同一領域的專家,要對主題有深刻理解。此外,由于論文是為了讓讀者閱讀,所以要對其進行優化,并且還對頁碼有限制。
比較而言,數據是龐大的,而且數據存儲方式不可能優化到使讀者都容易接受的程度。所以,多數情況下,數據的科學質量保障不能做到完全使人滿意,而且一般都要依賴于計算機的幫助。怎樣對數據進行科學質量保障還不是很明確。此外,數據的科學質量保障在很大程度上還要看數據類型及其所屬的研究領域。而除了原始數據本身,還需要對元數據進行審核。總之,科學數據的審閱人員必須具有相應的能力和軟件工具使用技能才可能進行質量控制。由于上述困難,對數據質量的控制往往不是靠同行評審,而是靠作者自己。
1.4 版式質量保障和技術質量保障
文字性出版物的版式質量保障主要集中在處理文字、排版和結構方面。一般來說,這個過程審閱人不需要對內容有更深的理解。它是科學出版物質量保障的一小部分內容。
對于數據文件,應該稱為技術質量保障。這個過程要對數據進行驗證,確保數據從源頭到目標位置的無差錯傳輸。在此過程中,評審員要檢查數據是否完整,是否有異常。
1.5 瀏覽和檢索
研究論文直接包含檢索詞,而且有明確的元數據,分類和索引過程相對簡單。數據庫支持所有前面提到的文本文件格式。
如果數據文件格式不能被搜索引擎識別,或者數據本身非常大,那么數據文件的索引就必須限制在給定的元數據中,因此,數據文件的元數據是瀏覽和檢索的關鍵。
1.6 存儲地址
純文字文獻,即使是綜合出版物也可以保存為單個文獻,并存儲在倉儲中。因此,倉儲可作為長期存放地址,直接滿足用戶獲取論文的需求。
數據文件處理時,面對的往往是千兆字節或萬兆字節的龐大數據文件。文件的大小帶來存儲空間、帶寬、備份系統及成本方面的問題。通常情況下,文本庫不能滿足管理龐大數據文件的需要。數據文件允許鏈接到外部資源,但伴隨著打不開鏈接及同步發展等問題[4]。
2 數據出版過程
2.1 知識獲取
知識獲取是全人類特別是研究人員不可或缺的。知識以隱性知識和顯性知識兩種形式存在。這兩種形式通過社會化、內部化、外部化及其融合進行轉化。就出版物而言,有內部化和外部化兩個相關轉化。內部化描述從顯性知識到隱性知識的轉化。外部化是用顯性知識表達隱性知識的過程。對研究人員來說,可以把閱讀出版物和觀看演示從而接受各種信息并從中學習稱為內部化。外部化指個人的信息傳播,例如會議中的演示或出版學術論文等。
從公眾角度來看,一些研究人員的內部化狀態和其他研究人員的外部化狀態可以相互產生作用。這種情況出現在某一研究人員的需求正好是其他研究人員提供的信息產品的場合。
Nonaka等強調知識創新的關鍵在于隱性知識的調用和轉化,并提出著名的知識螺旋模型。知識的獲取被比喻成旋轉的螺旋。假設在每一個繞組中,研究人員首先處于內部化狀態,在此狀態下,他必須學習,如通過讀書或聽報告(和其他人員的外部化輸出相對應);然后轉移到外部化狀態,在這種狀態下,研究人員寫文章或作演示[5]。
2.2 數據出版周期
Andreas Hense等根據上面提到的螺旋單繞組,得到一個簡化的數據出版過程,即:內部化——搜索和瀏覽、審核和學習、實驗;外部化——解釋和注釋數據、執行質量保障、出版和展示數據(如圖1所示)[6]。
圖1 數據出版周期
2.2.1 搜索和瀏覽
新的研究往往開始于對相關數據的檢索和瀏覽。研究人員的出發點和工具取決于研究人員的研究領域和個人習慣。使用特定數據庫,最明顯的取舍標準是數據庫收錄條目的質量和數量,這直接決定數據庫的質量。研究人員是否給數據存儲庫提交研究成果,取決于存儲庫是否有吸引力,而存儲庫是否有吸引力很明顯取決于其質量,如功能、設計、性能、穩定性、易用性等,但同時也受使用參數、可接受性和社會聲譽等因素的影響。
2.2.2 審核和學習
獲取數據后,研究人員審核數據及處理數據,包括熟悉及學習數據的各種活動。這是內部化階段的基本程序,因為在這一階段有一個明顯的隱性知識向顯性知識轉化的過程。
2.2.3 實 驗
研究人員在此活動中,把新學到的知識應用于新的研究。這可以通過開展新型實驗或從不同角度處理數據來完成。因此,研究人員可能會獲得新數據,并展開新研究。
2.2.4 解釋和注釋數據
這項活動涉及數據公布的準備工作,因此是外部化階段的首個活動。由于數據文件非常簡單,研究人員需要對這些數據進行解釋或注釋,以吸引其他科研人員。這個工作可通過編寫一個數據文件來完成,要強調有意義的部分。為了將來使用或者在存儲庫中能夠檢索,必須增加元數據。
2.2.5 執行質量保障
質量保障最簡單的方式是由作者自己執行,但眾所周知,作者很難發現自己的錯誤。更高級的方式是同行評審,一個或多個研究人員審查文章和數據,如果不能達到格式或科學的質量標準,可以拒絕接受。這種方法被多數存儲庫和科技期刊采用。對于要出版的數據文件來說,可以延伸為對數據及其元數據的質量控制。
2.2.6 出版和展示數據
數據文件及其元數據和附加文件的質量得到保證后,就要出版或者存儲這些數據。“出版”指存儲在一個公眾共享并可長期利用的空間,并分配一個可長期使用的標識符號,如DOI或URN等。而“展示”指的是上傳到搜索引擎或存儲庫目錄中,并能夠被檢索。數據出版后想改變數據雖然說在技術上是可行的,但常用的做法是這些數據會被鎖定(具有不變性),只能再發布新版本的修正數據。此項活動結束后,另一個研究人員可以開始新的數據出版周期,再次從“搜索”和“瀏覽”開始。
3 數據存儲庫如何采集高質量數據
數據存儲庫怎樣才能獲取高質量的研究數據?首先存儲庫要對研究人員有吸引力,包括在內部化和外部化階段都應如此。只有存儲庫能吸引足夠的研究人員提交高質量的研究數據,才會有越來越多的研究人員利用這些數據集。存儲庫是否有吸引力有賴于下面3個因素:聲譽,如果一個存儲庫擁有研究數據質量高的聲譽,其出版的數據將獲得很高的知名度,對研究者來說就具有很高價值。可靠性,如果存儲庫的運營得到機構資助并有著悠久的傳統,研究人員會相信它們的數據存儲是安全和長期的。過程,如果提交數據的過程和質量保障過程有據可查,并且用戶界面友好,并能降低數據提交者的工作量,研究人員就會產生信任。
根據前面提到的數據出版周期,高質量的數據采集主要發生在外部化階段,所以下面主要介紹“解釋和注釋數據”“執行質量保障”“出版和展示數據”三個環節的工作。
3.1 解釋和注釋數據
首先要考慮研究人員是否愿意公開自己的研究數據。有些研究人員對數據公開的意義還不是很明確,但不久的將來,在以數據為中心的學科,對其研究人員的評價將不僅通過他們的文字出版物也要通過數據出版物以及相應的引文來進行[6]。
很多研究人員往往不知道在哪里可以永久存儲數據,數據出版對他們來說是困難和昂貴的。著名的澳大利亞研究協作服務(Australian Research Collaboration Service, ARCS)項目提供了成功的案例。該項目旨在給澳大利亞研究人員提供數據存儲、傳輸、訪問和共享的工具和服務。其中 “數據組織” 服務提供免費的數據存儲功能,數據還可以共享。這項服務旨在盡快把數據存儲在“數據組織”中以優化協作,減少數據冗余,并避免滯后傳輸增加的步驟。“數據組織”還有一個顯著特點即操作系統集成,并可在其他網站上進行數據備份[7]。太陽能、地球物理及相關的環境數據可存儲在“世界數據中心系統”(World Data Center System,為WDC)。這些學科的研究人員可以進入該數據中心。中心分布在世界各地,提交的數據可長期存檔[8]。
除了數據存儲以外,還要用元數據對原始數據進行注釋。為了避免出現錯誤,應盡可能早地捕獲元數據,即在原始數據收割時就加入元數據。
3.2 執行質量保障
科學數據的質量保障有科學質量保障和技術質量保障之分。其中技術質量保障程序通過技術規范,如可接受的文件格式或具體的XML架構來執行。技術質量保障是一個系統化的程序。科學質量保障需要計算機支持,特別是批量或大量數據的處理。原始數據的質量保障一般主要靠作者自己。這個過程中作者可借助軟件工具,例如檢查數據工具、可視化數據工具及數據的異常提示工具等。
由德國研究基金會(German Research Foundation,DFG)資助的研究項目“環境數據公布”(Publication of Environmental Data),在實施過程中開發了獨立的審查氣象數據的軟件包。該軟件包根據用戶參數對異常數據和其他偏差進行檢測,然后經過分析撰寫XML報告。這個報告和數據一起提交到可長期存放的存儲庫中,這就是保障科學質量的措施[9]。
核查元數據是科學質量保障的另一個重要組成部分。上述研究項目也涉及這個問題。一個基于萬維網的軟件從相關長期存放庫中讀取現有元數據,并以一系列主題分化的形式呈現元數據,用戶可以逐步跟進,其功能類似于一個軟件安裝向導。
3.3 出版與展示數據
數據的出版過程即數據的存儲和識別,數據的展示過程即在存儲庫儲存后用搜索引擎可以查詢。澳大利亞“國家數據服務”(Australian National Data Service,ANDS )旨在幫助研究人員發布、挖掘、訪問和利用研究數據。有些特殊服務如“發布我的數據(Publish My Data)”服務,幫助研究員用元數據出版研究數據;“注冊我的數據(Register My Data)”服務,協助研究人員和研究機構宣傳他們的研究數據;“識別我的數據(Identify My Data)”服務,給研究人員的數據提供永久標識符[10-11]。
科學是無國界的。這也正是幾個國家機構于2010年1月聯合建立國際性的DataCite的原因。DataCite是一個不以盈利為目的的機構,如果組織注冊研究數據集,就將分配到一個永久標識符。這將減少基礎設施成本,更好地整合國家基礎設施和先進的搜索功能,以改善研究人員的數據集意識。
4 小 結
科學數據出版在我國還是一個嶄新的研究領域。我國科學數據出版和共享在實踐中還存在許多問題。針對科學數據重復生成、投入大,科研單位輕視科學數據的出版和管理,科學數據流失嚴重,科學數據獲取困難等問題,本文介紹了一個簡單的數據出版過程,并指出數據存儲庫是科學數據存儲和獲取的一種重要方式。
注 釋
[1]Steve Androulakis, Ashley M Buckle, Ian Atkinson, et al. Archer — e-research tools for research data management[J]. The International Journal of Digital Curation,2009(1):22-33
[2]Plale B, Gannon D, Alameda J. Active management of scientific data[J]. Internet Computing, IEEE, 2005,9(1):27-34
[3]王萍,趙丹陽,王玉超. 基于網格技術的科學數據存儲與共享[J].圖書情報工作,2011(13):63-66
[4]Andrew Treloar, David Groenewegen, Cathrine Harboe-Ree. The Data Curation Continuum: Managing Data Objects in Institutional Repositories[J/OL]. [ 2012-10-20]. http://www.dlib.org/dlib/september07/treloar/09treloar.html
[5]Nonaka Ikujiro, Toyama Ryoko, Noboru Konno. SECI, Ba and Leadership: a Unified Model of Dynamic Knowledge Creation[J].Long Range Planning,2000,33(1):5-34
[6]Andreas Hense, Florian Quadt. Acquiring High Quality Research Data[J/OL]. [ 2012-11-20].http://www.dlib.org/dlib/january11/hense/01hense.html
[7]ARCS. Data Services Overview[EB/OL]. [2012-12-01].http://www.arcs.org.au/index.php/services/data-services
[8]ICSU. World Data System[EB/OL]. [2012-03-01].http://www.icsu-wds.org/
[9]Andreas N Hense. Publication of Environmental Data[EB/OL]. [2012-12-08].http://misc.jisc.ac.uk/vre/projects/publication-environmental-data
[10]Adrian Burton, Andrew Treloar. Publish my data: A composition of services from ANDS and ARCS[C].In 2009 Fifth IEEE International Conference on e-Science. United Kingdom: Oxford, 2009 :164-170
[11]Stefanie Kethers, Xiaobin Shen, Andrew E, et al. Discovering Australia's Research Data[C/OL].[2012-10-01].http://andrew.treloar.net/research/publications/jcdl2010/jcdl158-kethers.pdf
(收稿日期:2013-03-23)