李詩恬
(上海體育學院圖書館,上海200438)
計算機和網絡技術已經成為信息時代開展科研活動必不可少的基礎,科研過程信息化導致科學數據數字化程度不斷提高,科學數據的格式日趨多樣化。機構庫(IR)是收錄、存儲和開發學術機構科研產出的機制,它為科研人員學術交流與知識共享提供新的平臺[1]。
當代科學研究正在向數據密集型轉變,以數字形式存在的科研數據逐漸成為學術交流的基本元素[2],隨著科研工作網絡化、科學數據數字化,機構庫對科研成果和科學數據的長期存儲和開放獲取工作顯得格外重要。機構庫自2002 年誕生以來,迅速在全球范圍內得到了推廣[3],機構庫的建設也成為各國圖情領域研究和關注的新熱點。西方發達國家對機構知識庫建設尤為重視,發展的速度、規模、質量一直處于領先地位。機構庫被引入我國至今一直備受圖情等領域學者的關注,近年來我國部分大學和科研機構對機構庫的建設進行了實踐,逐步建設了一批機構庫,但是與西方發達國家之間還存在著巨大的差距。截至2020 年7月,開放存取知識庫名錄(The Direct of Open Ac?cess Repositories,OpenDOAR)在冊機構庫為5389個,美國、英國和日本的機構庫數量占了近三分之一,我國大陸地區注冊的機構庫數量為57個[4]。以中國科學院為代表的機構在機構庫的建設方面取得不錯的成績,但是我國機構庫的普及發展仍然不容樂觀,用戶參與度不高、法律問題、服務模式等問題成為機構庫向前發展的攔路虎。
機構庫的用戶主要是資源提供者和資源獲取者。資源的提供者希望通過機構庫使自己的學術成就為人所知,進而提高自己在相關科研領域的學術聲譽。目前機構庫大都以機構為主線,沒有突出學者這一機構庫的主角[5]。機構庫的建設機構往往將機構的利益凌駕于資源提供者的利益之上,忽略了他們對于學術聲譽和學術地位的追求。國內科研機構、高校各種職稱考核,均以商業數據庫中的數據為依據[6],資源提供者在機構庫發布的科研成果對其獲取實際利益并沒有直接關系,直接導致機構內部學者向機構庫提交資源的意愿下降,引發機構庫資源匱乏的危機,資源的獲取者從機構庫中難以找到滿足科研需求的資源,訪問機構庫的頻率下降,這樣就導致了機構庫用戶參與度低的惡性循環。
資源版權問題是機構庫建設過程中最為復雜的問題之一。根據OpenDOAR 網站的調查統計,全球機構庫存儲的資源類型較為繁雜,版權歸屬較為混亂(如圖1)。機構庫中資源并非所有版權都歸機構庫所有,機構庫、版權所有者、用戶之間的權利關系錯綜復雜,資源提供者向機構庫提交的各種資源既包括公開發表的論文、著作,也有私人教學材料,機構庫對發表資源進行存放并沒有經過任何授權,用戶獲取資源也沒有任何可以明確版權關系和法律關系的文件,使得兩者都要承擔較大的法律風險。
當前,國內外機構庫主要有3種資源提交服務模式:分布式、半分布式、集中式。分布式模式完全由資源提供者上傳管理資源;半分布模式將資源提交給機構庫所在專門機構,再由這些機構上傳到機構庫;集中模式直接由機構內部幫助上傳并管理資源[7]。這些模式都是建立在資源提供者自愿提交的基礎之上,提供者通過軟件或者機構庫建設機構提交到機構庫[8]。建立在提供者自我意愿基礎之上的模式,無法保證資源來源的充足性,尤其當機構庫不能保證其學術利益的情況下,資源提供者主動貢獻自己擁有的資源的意愿更低。機構庫中的資源多數是以靜態的方式存在,機構庫的管理機構對機構庫中存放的各種數據開發不足,難以提供個性化和更深層次的數據服務。

圖1 版權歸屬示意
數據監管(Data Curation)是一種在科研、教育中,對數據進行全生命周期的持續性管理的活動,通過這項活動可以增加數據的價值,提高數據的質量,讓數據更易被發現和檢索,提高數據長期復用率[9]。針對日益興起的數據監管服務,普渡大學開發了Data Curation Profile Toolkit(DCPT),DCP描述的是數據集合的概況,目的是為了解研究人員的特定數據需求,促進圖書館員和其他人員進行數據方面的合作。研究人員提供和開放上游數據的可能性形成了DCP 與相關的工具包(data cu?ration profile toolkit,DCPT)。DCPT 可提供一系列服務來支持數據監管記錄,方便了圖書館員與研究人員的溝通,為更好地監管科研成果、為科學數據或者數字文件進行動態管理和存儲提供了便利[10],其通過標準化的流程對目標科學數據進行特征描述,與數據生產者緊密結合共同對科學數據進行監管,可以為機構庫在數據監管服務方面提供新的啟示。
DCPT 是普渡大學于2010 年構建的用于圖書館館員和科研人員討論科研數據的工具集,是幫助圖書館員和其他專業信息人員進行數據訪談,確定科研人員數據管理、共享和監管需求的工具。它實質上是一個訪談提綱,旨在捕獲科研人員在其數據生命周期中創建或管理的特定數據集的信息,探索科研人員及其實驗室當前如何管理和使用數據,以及未來打算如何處置數據,最終的成果是形成數據監管檔案(Data Curation Profile,DCP)。
DCP 是用數據生產者的語言描述自己對數據監管需求的文件,數據監管者可以了解目標數據集全生命周期的發展和科研人員的管理活動[11]。
DCPT是數據監管的輔助工具,并非具體實施數據監管的系統軟件,其目標是構建數據監管者和數據生產者之間的協作橋梁,從數據生產者角度來描述數據和數據監管的需求,為數據監管提供方向指導從而促進數據共享。
2.1.1 多學科數據的標準化描述隨著E-Science 的發展、跨學科交流和跨機構的分布協同研究的趨勢日益明顯,解決學科之間、機構之間數據結構和表現差異成為推動科研合作數據監管者的任務之一。DCPT 通過標準化的流程對目標數據集進行探索,并將最終數據探索結果形成DCP。DCP 是由各學科科研數據的共同擁有的屬性構成的集合,它可以實現對多學科數據進行統一的描述,減小跨學科研究之間數據理解的差異,有益于實現多學科研究之間數據的共享和復用。
2.1.2 科學數據全生命周期的展示
不同階段的科學數據緊密相連直接反映了科研工作的進展,為后續科研人員提供相關數據處理方法指導,利用這些數據可以對已有的科研成果進行重現性驗證,保證科研成果的可靠性。在DCPT 中將科學數據的生命周期分為原始、處理、分析、完成4個階段,并且提供對生命周期的拓展,強調對科學數據各個階段的詳細狀態進行紀錄,為科學數據全生命周期的監管提供方向。
2.1.3 以數據生產者為出發點
科學數據主要來源于科研人員或者科研團隊,他們對自己生產的數據有著更加透徹的了解。DCPT 為數據生產者和數據監管者提供了溝通渠道,了解數據生產者在數據監管方面的需求,讓數據監管者從數據生產者角度出發,了解他們對于數據監管的需求和建議。
2.1.4 沖破科學數據共享的阻礙
科學數據共享可以充分體現科學數據的價值,但是由于所有權問題、訪問和存儲條件等問題,科學數據的全面開放共享并沒有實現。DCPT試圖通過明晰數據所有權,告知數據存儲和訪問條件的方式來跨越科學數據共享過程的桎梏。
DCPT 由4 個部分構成,每個部分承擔著不同的任務,缺一不可、緊密相連。
用戶使用指導:用戶使用指導是DCPT 的“快照”,以整個工具及其他組成因素的使用和構成為核心,將DCPT的使用生命周期劃分為不同的階段和模塊進行描述,為新用戶提供迅速掌握和使用該工具的系統說明,同時也為經驗豐富的用戶提供結構和流程優化的藍圖。
訪談表格:訪談表格是一種填空式的調查問卷,涉及目標數據集的描述、版權、共享等主要問題,由采訪者在訪談開始之前發放給數據生產者或者數據提供者,在整個訪談過程中采訪者根據數據生產者在表格中的信息反饋,確定所需要進一步了解的細節信息,它與訪談手冊在功能和內容上相互補充。
訪談手冊:訪談手冊包含了在訪談過程中可能涉及的各方面與目標數據集相關的問題,采訪者了解數據生產者在訪談表格中反饋信息之后,提出相應的問題、獲取相應的信息。它監管訪談中既可以作為無訪談經驗監管人員的臺本,也可以為經驗豐富的監管人員提供線索性的指導[12]。
DCP 模版:DCP 是為最終形成的數據描述文件提供一個框架,將對數據監管各種信息按不同的章節進行匯總,每個章節對所需信息做了簡要的定義,數據監管人員從訪談表格和訪談手冊提取相關信息。
數據監管人員通過DCPT 向數據生產者獲取目標數據集的相關信息,形成數據集描述文件。整個過程涉及主題選取、科研數據集確定、了解數據集基本現狀等多個環節,這些環節可以劃分為4個階段。
準備階段:DCPT要和那些確定有數據且對自己的數據集有一定監管期望和需求的研究人員合作使用[13]。數據監管主要面向的是科學數據,選定目標數據集是使用DCPT的前提條件,數據的發展階段、數據的狀態以及目前已經采取的管理方法,關系到后續訪談的進行,在準備階段通過檢索與目標數據有關的出版物、科研項目介紹了解數據的狀態和數據產生的背景信息,分析目標數據集所在的學科領域中數據監管存在的問題和進展程度,進而為正式訪談提供方向和重點。數據監管者應當盡量選取處在成熟階段的科學研究項目作為目標,盡量避免數據集相關信息與已經生成的DCP發生沖突,影響DCP的可靠性和真實性。
訪談階段:訪談階段是一個交互的過程,采訪者了解目標數據集的信息,數據生產者表達數據監管的需求,整個過程以目標數據集為核心,以訪談表格和訪談手冊為工具對所需信息進行充分采集。
完成DCP 階段:本階段需要對準備階段和訪談階段獲取的信息進行重新組織,按照DCP 模板中的章節和模塊填入相關的信息,最終形成一份關于目標數據的草案,草案經過數據生產者正式確認之后形成正式的DCP。
出版和共享階段:DCP 可以通過多種形式進行發布,相關機構可以出版相關的紙質文檔,也可以通過網絡平臺共享。普渡大學通過DCPT 官網對最新的DCP 文件進行發布,讓其他用戶能夠便捷的獲取,Wiki 平臺也為獲取DCP 并對其進行評價提供了便利[14]。
建設機構庫的主要目的是開放存取本機構內部的科研成果。開發DCPT 是為了描述需要監管的科學數據,從而促進科學數據的共享、增加科學數據的價值。DCPT 和機構庫有很好的契合點,DCPT可以為機構庫進行數據監管提供指導,使機構庫更好地實現開放存取。
圖書館和檔案館是傳統文獻和資料保管的場所,也是機構庫建設的主要力量,然而隨著E-Sci?ence 和E-Research 的發展,傳統的文獻管理服務已經受到了挑戰,創新機構庫的建設變得更加重要。DCPT的應用效果和使用DCPT人員經驗有著直接關系,圖書館和檔案館的工作人員長期從事與信息管理相關的工作,對信息管理的流程有著深刻的了解,能夠準確地了解目標數據集的信息和數據生產者對數據監管的要求。圖書館和檔案館作為傳統的數據管理中心,對數據管理有著系統成熟的流程和合理規范的規章制度,科學數據監管是傳統數據管理的一種新模式,傳統的管理流程和規章制度有大量值得借鑒之處。
計算機技術和網絡技術是機構庫建設的技術基礎。據OpenDOAR 統計,截至2020 年DSpace 占據全球機構庫系統軟件使用市場的40%。DSpace等系統軟件性能完善,功能齊全,實現了知識資源的“收集——保存——發布”的一般過程,并可以進行拓展,能較好地滿足機構庫建設需求[15]。機構庫系統軟件的應用為DCP的監管要求提供了軟件保障。隨著互聯網和多媒體技術的發展,機構庫的建設機構可以構建網絡平臺,DCPT的流程完全可以在網絡平臺上進行。
建設機構庫是為了存儲本機構的研究成果、管理數字資源,長期保存數字資源、教學資源保管、圖書期刊資源收藏。科學數據是科學研究的驅動力和創新的重要來源,其重要性日益受到各學科領域關注,隨著計算機和網絡技術的發展,科研數據狀態也在不斷變化,機構庫不能滿足研究人員對于數據服務的需求,機構庫的建設機構基于Data Curation 提出新的建設思路勢在必行,DCPT能夠為機構庫進行數據監管提供思路(如圖2)。

圖2 DCPT工作流程
機構庫中存放的資源是由機構內部科研人員自愿提交,這種方式的主動權完全掌握在科研人員手中,科研人員在提交數據資源過程中需要考慮數據格式、數據大小等問題,這些問題進一步增加了數據提交的復雜度,影響科研人員提交數據資源的積極性,這對機構庫資源內容建設十分不利。數據監管者使用DCPT 需要主動去檢索需要收錄、監管的數據,數據監管者需要關注本機構內的科研人員的科研進展,確定目標科研項目之后需要主動和相關研究人員溝通科研數據收集的問題。數據監管者主動搜集數據資源的方式,通過溝通交流可以使科研人員機構庫的數據監管工作更加人性化,提高科研人員在機構庫建設中的參與度,保證機構庫建設工作的可持續發展[16]。
機構庫中包含多學科數據資源,每個學科各具特點,導致各個學科的科學數據包含的屬性也各不相同,每個學科對數據都有一套描述方式,在機構庫中難以做到統一和標準化的描述和管理,對科學數據開放存取有較大阻礙。統一多學科科學數據描述需要建立新的元數據標準,通過統一的元數據標準可以加強數據的共享性,促進科學數據跨學科流動。DCPT 最終的成果是關于數據監管的描述文件(DCP),DCP將各個學科的數據劃分成13 個大的模塊分別進行描述,其中包括數據集摘要、數據集生命周期、數據集共享、數據集訪問、數據集轉換等,這些可以作為元數據標準的參考模型,幫助機構庫更好的完成多學科的數據監管活動。科學數據編目工作可以方便科研人員迅速檢索到需要的數據,并通過分類找到大批關聯數據,這樣既方便了對科學數據集有序管理,也可以提高科研人員的檢索效率。DCPT 將每個科學數據集都建立了獨立的DCP,每個獨立的DCP 文件分配一個唯一DOI,這樣結合元數據標準就可以完成對科學數據的編目工作。
數據監管人員的對多學科數據進行科學有效的管理,幫助用戶便捷地發現和獲取相關的數據信息。由于數據監管人員專業知識的局限性,并不能對所有學科的特點進行深入的了解,導致在科學數據的處理和管理方面存在許多不完善的地方。特定學科關于數據存儲的格式不盡相同,對數據支持的軟件和出版方式也不一樣,數據監管者需要全盤考慮所有相關影響因素,在精力上較難實現[17]。DCPT這種模式勾勒了一種雙向管理機制,數據監管的主體不再由數據監管者一方擔當,數據生產者也參與到數據監管的過程中,為數據監管者提供所需的數據信息。機構庫對科學數據的收集和管理是一個拋棄的過程,對科學數據的收集集中在數據生命周期的末端這部分數據,科研過程中其他階段的數據被忽視。科研失敗的數據中包含失敗的原因,對科研工作成功開展具有方向性作用,各個階段對于推演科研成果進行再創新起到的作用不可忽視。利用DCPT 可以對各階段數據進行紀錄,實現數據全生命周期管理。
信息孤島現象廣泛存在于當前機構庫的建設過程中,每一個機構庫是一個數據和信息的集合點,但是各個機構庫之間的聯系是割裂和孤立的,阻礙了各個機構之間的數據共享和交流。單一機構的數據資源有限,難以保證機構庫內容的豐富性和多樣性。各機構之間確立合作協議建立跨機構合作聯盟,跨機構合作既可以突出本機構強勢學科,提高機構、機構內部科研人員學術聲譽,彌補弱勢學科數據短缺的問題。DCP將某一個科研成果相關數據所有者信息和版權所有者進行了紀錄,建設機構可以根據DCP 與各個機構確立合作協議和版權共享協議,構建機構庫網絡體系,實現機構庫之間數據資源共享,解決機構庫信息孤島問題。
科學數據的價值來源于共享和復用。科研人員在訪問機構庫數據時無法了解其他相關使用者使用方法和方向,對數據存在的疑問無法反饋和交流,一定程度上限制了用戶復用數據。DCPT形成最終DCP 之前需要數據生產者的反饋和確認,并對反饋作出相應的修改,DCP 也可以通過Wiki平臺進行訪問和討論,建立起長效的反饋機制將大大提高用戶復用數據,促進機構庫內數據資源共享。
隨著科學的發展,各個學科之間的界限越來越模糊,跨學科交流成為科研領域一種不可忽視的趨勢,與此同時E-Science 的發展促進了分布式和協同式科研工作的開展,學科之間的交融、科研機構之間的協作必然伴隨著數據的交互,但是各學科科研數據和各機構的數據特點存在著明顯的差異,造成科學數據和成果共享困難。機構庫面臨新的發展形勢,數據共享和開發獲取的職能愈發重要,DCPT對機構庫在數據監管、服務模式、數據描述等多方面的創新有著重要的借鑒作用,將有益于機構庫長期可持續發展。