都平平 彭 琳 李雨珂 耿彩芳 李 真 劉計萍
2016 年起,開放存取知識庫聯盟COAR(Confederation of Open Access Repositories)啟動了研究項目“下一代機構知識庫”(Next Generation Repositories),項目核心思想是將機構知識庫(IR)提升到能面向研究、開放并有助于創新,同時方便機構知識系統中各類學術資源群的統一集體管理[1]。傳統的機構知識庫首先是對研究最終成果(論文、論著、專利等)的管理,這些成果屬于“白色資源”的范疇,其次是對發布在網絡上(論壇、學術博客、微信群等)資源的管理,這些資源屬于“類白色資源”的范疇。但科學研究過程中的數據采集和管理并未全面納入IR 的管理范疇。隨著開放科學運動的深入,研究過程中數據集的采集和長期保存正在成為學科學術實踐的一部分。這些數據資源屬于“灰色資源”的范疇。灰色文獻(grey literature)一般指非公開出版的文獻,介于白色文獻(正式出版發行)與黑色文獻(不公開出版并具有隱秘性)之間的文獻,是很難通過常規的出版流通途徑和一般的查詢方法接觸到的文獻[2]。傳統的機構知識資源管理運行正在開始新的升級探索——它在原有的白色資源、類白色資源的基礎上,增加了包含研究數據管理(RDM)在內的灰色資源管理,甚至擴大到黑色資源的管理。隨著開放科學、開放數據運動的發展,數據資源成為重要的現代戰略資源,其重要程度將越來越凸顯,直面數據建設和開放共享問題已經成為學界關注熱點。圖書館一直是高校IR 建設的主體,IR 中開放數據資源建設和管理也是高校圖書館迫切需要解決的問題。新媒體聯盟的地平線報告將科學數據管理視為學術研究型圖書館必須適應的一種趨勢[3]。在高校圖書館的開放資源建設探索中,資源的建設策略與再利用模式一直都是研究重點[4]。在當前建設“雙一流”高校和“雙一流”學科的背景下,如何對機構科研數據進行有效的管理和利用,實現高校科研數據的開放共享是當前高校科研數據管理面臨的一個重要挑戰。本文基于下一代IR 的建設目標,探索灰色資源,尤其是灰色科研數據資源的采集、存儲、共享和復用策略,為高校圖書館建設和管理下一代IR 中灰色數據資源提供思路和方法。
Clifford A. Lynch[5]從大學的角度為IR 做了如下定義,他認為:“大學中的IR 是大學為其員工提供的一套服務,用于管理和傳播大學的各個部門及其成員創作的數字化產品”。而SPARC 的Richard K.Johoson[6]則認為,IR 是一個數字化資源集合,捕獲并保存單個或多個團體中的智力產品。中國科學院文獻情報中心[7]是我國較早研究IR 并開展實踐的單位,其對IR 的定義是:“機構知識庫是研究機構實施知識管理的工具,是機構有效管理其知識資產的工具,也是機構知識能力建設的重要機制。”在這個定義中,IR 的范圍從機構的“知識產品”擴展到了“知識資產”。從使用者的角度上看,IR 是一個機構建立的,以網絡為依托及傳播途徑,以收集、整理、保存、檢索、提供利用為目的,以本機構成員在工作過程中所創建的各種數字化產品為內容的知識庫。綜上所述:IR 應是把機構內部各種系統、各個團隊、各個成員、各個類型散存的各類知識成果記錄、集成、再組織、展現,它展現機構成果,復用成果,盤活機構知識資產,為團隊及其成員提供學習、科研服務支持。
傳統IR 的資源建設模式,主要收集的是公開發表的論文、著作、專利、報告等。2016 年COAR 啟動的“下一代機構知識庫”項目,核心是將其提升到能面向研究(研究過程和研究成果)、開放(規范的開放適應和復用)并有助于創新(依據前人的成果開展進一步的研究創新),同時便于學術群體集體管理(涵蓋機構產生的各類知識)。但在我國,高校IR 的資源內容以公開發表的期刊論文等白色文獻為主, 資源類型一般不超過10種;而以波士頓大學為代表的國外高校IR,包含大量會議材料、數據庫、軟件、樂譜、法律備忘錄等形式,資源類型多達 28 種[8]。2018 年,龔亦農[9]等對我國 IR 建設現狀摸底調查顯示,我國IR 總數為472 個,IR 收錄成果類型集中在3 類學術論文(期刊論文、會議論文、學位論文)和專利,其他類型成果(包括圖書)的實際收錄比例極小[9]。蔡思明選取75 所“211 工程”高校圖書館進行調研發現,各校自建數據庫大多停留在文獻資源組織和整合的淺層面上,缺乏關鍵技術的應用去揭示資源的內部聯系[10]。根據本課題組對我國42 所雙一流高校圖書館所建機構知識庫的調研,目前,我國許多高校建設的IR 大部分是相對獨立的一種“重組型”靜態數據庫,其功能大部分僅限于本校所公開學術研究成果的收集、整理、長期保存和檢索利用,對隱性資源(灰色和黑色文獻)挖掘和保存不足。
相比之下,國外高校和研究機構重視灰色資源的建設。在當前開放科學、開放研究的背景下,國外高校和研究所尤其重視灰色數據資源的建設,他們對灰色研究數據資源的管理方式經歷了從IR 到數據存儲管理中心再到數據監管發布中心的演變[10-11]。最初的國外高校IR 或機構倉儲,也是僅限于保存研究論文、報告或少部分灰色文獻(主要是內部出版物:內刊、報道、會議紀要等)等成果數據,隨著公眾和科學界對研究數據管理和共享的重視和需求越來越高,國外高校圖書館通過升級與優化傳統機構知識庫服務功能(如明尼蘇達大學UDC、康奈爾大學eCommons)或者構建獨立的數據服務平臺(如伊利諾伊大學厄巴納香檳分校Illinois Data Bank、密歇根大學 Deep Blue Data、普渡大學PURR)兩種方式來實現科研數據長期保存與共享[12]。
1.機構知識庫資源類型界定與特點分析。傳統IR主要涵蓋資源類型為白色資源(公開發表的學術成果),但在實際研究中產生的資源類型涵蓋了多種文獻類型。根據信息來源和共享性可分為白色資源、灰色資源和黑色資源。隨著計算機技術和信息技術的發展,網絡資源及富媒體電子資源的產生,資源逐步向數字化、信息化發展,形成了多元化的資源、信息、知識格局,資源的類型更為廣泛,從信息來源和共享性(公開性)角度,可將學術資源分為學術研究成果(多為白色資源)、學術研究過程數據(機構灰色資源)和學術活動軌跡及成果(類白色資源或類灰色資源)。表1 總結了IR 的主要資源,資源類型及特點。

表1 機構知識庫主要資源、資源類型及特點
2.傳統機構知識庫與下一代機構知識庫的關系。圖1 總結了傳統IR 和“下一代”IR 關聯關系。下一代IR要收集的機構成果范圍更廣,從白色資源向灰色資源發展,包括在研究過程中產生的灰色數據資源,也包括從網絡上可以直接收集到類白色資源的網絡資源。吳建中[1]總結了下一代IR 的特點:首先,IR 的重點從存儲走向加值,加大資源利用。所以,下一代IR 中資源建設不僅僅是資源獲取和管理,還包括資源關聯和復用。其次,資源開放獲取只是手段,目的是要推動科研工作和創新。在推動開放獲取的同時,要把研究數據管理融入IR。第三是IR 之間要合作,要增強IR 之間的關聯度和協作創新,共同推進數據開放共享。劉建國等[13]指出,重點學科是高校學科建設的優勢所在,這些資源的收集和組織水平很大程度上代表著該校教學水平。當前,“雙一流”高校和“雙一流”學科建設強調學科建設向世界一流水平看齊,高校應關注科學數據管理等新興內容。

圖1 傳統IR 和“下一代”IR 關聯關系
本文研究的灰色數據資源指的是研究過程中形成的有價值的知識資源。表2(見下頁)從研究項目的生命周期角度歸納了下一代IR 所包含的資源,包括立項報告、專利申請報告、研究數據、科研數據、討論文檔、記錄文案、研究報告、實驗照片及圖譜、結題報告、成果匯編等。科研課題的立項報告和專利申請文件往往包含著科研人員最新的研究探索結果,包含最新的研究文獻,是本研究重要的學術參考文獻,這是高校灰色文獻最多的一類資源[14]。

表2 下一代機構知識庫的研究過程全流程資源構成
1.灰色數據資源的采集方式。龔亦農等[9]的調查顯示,我國IR 收集的成果類型受數據采集加工自動化程度的影響較大。期刊論文、會議論文和專利比較容易通過商業數據庫批量自動采集,所以這些成果是我國IR收集的主要成果類型,而高校項目課題組在研究過程中產生的科學數據、研究數據目前沒有可自動采集的信息源,完全依賴自存儲,在IR 中收集這些資源的實踐難度較大。灰色文獻的收集方法包括采購、捐贈、呈繳、交換、現場收集、索取、網絡檢索獲取、復制、資源共享等[15]。高校的灰色數據資源主要流通于各單位內部,具有機密性和限制公開性。極少數研究人員掌握數據的擁有權,這些數據資源含有大量的行業內部研究信息與可持續研究開發和利用的潛在功能。對于這些資源,高校圖書館很難通過正常渠道收集,只能通過特殊手段,如通過行政手段征集獲得。在當前我國建設“雙一流”高校、“雙一流”學科的背景下,高校圖書館的灰色數據資源采集應優先面向“雙一流”學科的特色館藏建設。
據本課題組調查,目前我國高校有部分IR 中存儲科研項目信息。例如:武漢大學機構知識庫成果類型中包括科研項目,讀者可按發表年份、語種、有無全文、機構單位檢索瀏覽本校師生的科研項目的元數據信息,包括項目負責人、項目編號、項目類別。這些元數據信息可通過科研處的信息導入到IR 中,對于圖書館來說采集起來比較容易。難點是課題組研究過程數據的收集,這些數據要通過科研人員自存儲的方式進行。目前,國內外研究資助機構都陸續推出了資助項目提交數據管理方案,資助項目提交研究數據的要求。一些科技期刊也推出了提交論文附屬數據的要求[16]。這些都是有利于鼓勵和要求科研人員向單位的IR 提交研究數據的外部條件。高校也可制定相關的數據提交要求,提高IR 中自存儲研究數據的比例。
2.灰色數據資源保存方式。Rodrigues[17]指出,機構知識庫、主題倉儲庫和集中式數據倉儲庫是保存科研數據的最佳選擇。司莉等[18]總結了高校研究數據的特點,包括:①科研活動通常每個項目參加的人數少,每個科研項目產生的數據集較少;②數據通常就保存在項目組成員的個人計算機里,缺乏統一標準與分享機制;③缺乏項目結題后對數據開放分享重用和長期保存。基于這樣的“小科學研究”的特點[19],IR 是保存機構中科研人員研究數據最好的平臺。Palmer[20]總結了利用IR 保存科研數據的意義,包括更全面地評估研究的影響力、提升研究者及所在機構的知名度、支持高校的學術出版、贏得更多的科研資助等。Cragin 等[21]對美國伊利諾大學香檳分校和普渡大學研究人員的調查發現,IR 是研究人員提交科研數據的第一選擇,他們認為圖書館員能協助他們解決各種問題,科研數據在IR 中能得到妥善處理和利用,同時IR 能幫助他們擴大和外界的學術交流。文獻顯示,國外高校圖書館建設本校研究數據資源有兩種途徑,一個是利用機構知識庫收集,另一個是單獨建設研究數據平臺。在我國,武漢大學圖書館、復旦大學圖書館和北京大學圖書館相繼推出了研究數據平臺,但沒有融入IR。如果將來這些數據平臺可以和IR 進行融合,就會更全面地揭示研究者研究項目的成果,更全面地評估研究的影響力。
吳建中[1]指出,下一代機構知識庫的數據管理面臨三方面的挑戰。首先就是研究人員參與不足;其次是上級機構沒有制定相關政策;第三是存儲與保存基礎設施薄弱。盡管有開放科學、開放數據運動的宣傳,但科研人員數據復用實踐仍然很不普遍,他們有各種各樣的顧慮不愿意把自己手中的數據開放共享,比如濫用和侵權風險,來自組織的壓力,害怕喪失學術優勢[22]。其結果是科研人員難以獲取或者無法復用共享數據,呈現出對數據復用價值的高度認可與低水平數據復用實踐之間的矛盾。因此,高校圖書館首先要打消科研人員對數據共享的顧慮和擔心,做好數據資源共享的宣傳和培訓。第二,圖書館開展灰色數據資源利用規劃時,要取得上級機構的支持,學校的相關政策是IR 數據管理的保障。第三,研究過程灰色數據資源的管理目標就是要保證學術研究記錄的完整性、連續性和真實性,保證數據以可存儲、可訪問、可共享和可理解的形式呈現給用戶復用[23,24]。龔曉陽等[25]總結了下一代IR 與傳統IR 的技術優勢,包括:①注重互操作性,支持資源交互和資源同步傳輸;②注重資源發現,支持批量發現和導航發現;③支持收集學術活動信息;④支持對資源唯一標識符的識別,實現定向識別目標網頁實體。為保證數據管理的有效性,國際上已經開發了一系列標準和方案, 如數據類型和格式標準、元數據方案以及數據監護需求調查模板等,其目的是通過對科學數據的持續監護實現數據的發現、互操作和復用。
數據復用(Data Reuse),有時也譯為“數據重用”“數據再利用”,指的是為了新的研究目的對數據的二次使用。本文根據下一代機構知識庫的建設目標,提出以下灰色數據資源的開放共享與復用策略。
1.營造開放數據的文化氛圍,關注技術手段,促進數據開放共享。高校圖書館一直都是機構知識庫建設的主題,積極宣傳推進文獻資源開放獲取。在推動灰色數據資源開放共享和復用時,圖書館應積極宣傳開放科學開放數據的理念,宣傳國際科學數據管理比較認同FAIR 數據管理原則和評價數據管理FAIR 程度的指標[26],推動各方的了解、支持和參與數據開放和共享復用。針對機構知識庫的局限性,國際上很多一流高校圖書館也在積極探索升級完善IR。比如美國明尼蘇達大學的研究數據庫就是大學機構知識庫的子集,具有自定義元數據模式與提交工作流的功能。該數據庫為用戶提供靈活的數據訪問方式,滿足科研項目資助者對項目數據存儲和保存的要求[27]。我國高校圖書館也在嘗試拓展IR 數據共享的功能。例如:西安交通大學圖書館建設的IR[28],研究了IR 與學校不同信息平臺及相關數據庫平臺的數據共享集成和再利用,突破IR 信息孤島瓶頸,使得IR 為學校教學和科研提供數據支撐及科研成果管理的拓展應用奠定基礎。
2.規范出版授權許可協議。濫用數據和侵權風險是阻礙學者開放數據、共享數據的主要障礙之一。高校圖書館應幫助學者提高版權意識和協議能力。國外部分高校(如美國MIT、哈佛大學等)為本校學者提供協議模板的做法值得我國高校圖書館借鑒[29]。同時應宣傳科學數據管理的FAIR 原則并不是要求所有數據無條件開放共享,FAIR 原則倡導“盡可能地開放,并在必要時封閉(as open as possible,as closed as necessary)”[30]的數據管理路徑。提倡數據的擁有者盡可能最大限度地開放他們的數據,共享數據利用復用。但對于敏感數據,如健康數據或者涉及安全的數據就應該限制數據的訪問和共享。同時,高校圖書館要宣傳知識共享許可協議(Creative Commons license),即 CC 協議[31],允許他人傳播作品的公共版權許可。CC 協議的限制條件,包括署名(BY)、禁止商用(NC)、禁止修改(ND)和相同方式分享(SA)四種條款的單項或者組合,CC0 協議相當于放棄以上四種權利的CC 協議授權,數據使用者完全沒有任何限制。對于存儲在IR 中的研究數據,要有訪問使用的許可協議,對數據開放共享程度做出說明。例如:中國科學院高能物理研究所IR 提供數據集檢索[32],用戶點擊下載數據集的時候,可見到“關于請求全文的合理使用聲明”,用戶需提供姓名、所在機構、個人電子郵箱、請求理由等信息,待作者授權通過后才可以下載數據集。
3.加強校際合作與交流,促進資源開放共享。雖然我國IR 數量越來越多,但各個IR 仍然處于孤島狀態,沒有建立起IR 之間的有效關聯,IR 的資源難以被利用與共享檢索。下一代機構知識庫的建設目標要通過IR合作,建立各個IR 之間的關聯和協作,共同分享本地資源。龔亦農等的調查發現,聯盟是推進我國IR 建設的主力。IR 聯盟除了統籌規劃組織管理外,還為成員提供IR 托管服務,幫助構建IR 門戶,構建OA 政策。所以,在促進下一代IR 灰色數據資源開放共享的進程中,IR 聯盟還將發揮重要作用。
本文對下一代機構知識庫中灰色資源進行了梳理,重點對灰色數據資源的類型和特點進行了分析,明確下一代IR 中灰色數據資源管理范圍、采集存儲策略、共享方式及復用策略,并對灰色資源的關聯組織進行了規劃,分析了灰色資源的數據共享及數據復用策略,并提出促進高校灰色數據資源建設的手段。首先,在高校營造開放數據的文化氛圍、關注技術手段促進數據開放共享;其次,規范出版授權許可協議;再次,加強校際合作與交流,促進資源開放共享,為下一代IR中灰色數據資源建設和使用提供思路和方法。本文僅限于在理論上的分析,缺乏實際案例分析,對高校圖書館采集和復用灰色數據資源缺乏可操作性的指導,這是本文的局限性也是將來的研究方向。