張瀟月 劉金亞 趙昆華



關鍵詞: 開放科研數據; 數據重用實踐; 用戶畫像; 數據社群; 數據重用服務; 生物學領域
DOI:10.3969 / j.issn.1008-0821.2024.06.003
〔中圖分類號〕G316; G250 73 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2024) 06-0033-12
科研數據重用是指科研人員對科研數據在原始意圖以外再次使用的活動[1-2] 。2021 年11 月, 聯合國教科文組織(UNESCO)審議通過的《開放科學建議書》, 其序言部分強調了數據重用與開放科學的相互促進關系, 即開放科學提升了科學界和社會公眾參與科研過程和獲取研究成果的可能, 有助于減少數據的收集、創建、轉讓和重用成本; 同時,數據重用的實際效果也是衡量開放數據運動成效的一項重要標準。數據重用能夠開展更廣泛研究, 讓更多主體加入研究過程, 使成果獲得更大范圍傳播, 增強科學研究的有效轉換性和社會影響力[3] 。
數據重用也是開放科研數據的重要原則之一。基于科研活動產出的數據在開放共享過程中應當遵循可發現(Findable)、可訪問(Accessible)、可互操作(Interoperable)和可重用(Reusable)的FAIR 原則,已成為國際開放科研數據學界和業界的基本共識。可見, 數據重用是數據可發現、可訪問、可互操作的最終目的[4] 。通過進行多源數據融合、數據二次加工與語義分析等多種方式的重用, 可更有效地豐富科研基礎材料, 提高科學實驗效益, 同時促進理論驅動型和數據驅動型研究的深入發展, 真正促進開放科學理念的落地實施。
盡管我國在國家層面形成了良好的數據重用制度環境, 例如《科學數據管理辦法》的發布實施[5] 、《科學數據引用》國家標準的實施[6] 和《國家科技資源共享服務平臺優化調整名單的通知》中明確要求依托單位為科學研究、技術進步和社會發展提供高質量的科技資源共享和重用服務[7] , 且目前多個學科領域支持數據重用的基礎設施也已初步完成建設, 并面向激發創新提供多樣化應用服務[8-9] 。但科研數據重用在實踐層面仍然面臨新問題和新挑戰, 影響了數據重用的深入推進和科研人員的實際受益[10] 。2022 年, 由Digital Science 等機構聯合發布的《2022 年開放數據狀況》(The State of OpenData 2022)報告指出, 促進科學目標的實現, 不能只關注技術進步, 改變實踐行為同樣重要[11] 。因此,關注數據重用實踐行為有助于實現科學進步。
雖然數據共享和重用理念已經得到了較多科研人員的認可和支持, 但數據重用實踐的普遍性在不同學科之間存在較大差異, 例如在生命科學、天文學、空間科學、地球科學等開放基礎較好的學科,數據重用發生頻率相對較高; 但在數學、農業科學、經濟學及人文社科類等學科, 研究人員仍需要努力尋找可以重用的數據[11] 。因此, 為促進數據重用實踐在不同學科之間的均衡與可持續發展, 有必要對數據重用基礎較為成熟的領域進行深入識別, 總結歸納其發展經驗與不足, 從而為優化我國數據重用實踐服務體系提供參考借鑒。
考慮到學科的差異性, 本研究調研了2019 年我國20 個國家科學數據中心的學科布局[7] , 遴選了依托機構數量最多、具有較高科研數據開放程度、配備較成熟數據基礎設施和重用規則體系[12-13] 的生物學領域作為特定研究學科; 同時考慮到科研人員是主導和影響數據重用實踐發展的核心主體, 因此應當遴選生物學領域的科研人員作為特定研究對象。綜合上述遴選規則, 本研究選取了在我國生物學領域具有較大研究規模、數據總量和影響力的中國科學院相關學科研究人員作為具體研究案例, 并通過調研問卷和群體畫像的方式, 全面深入分析當下科研數據重用實踐面臨的障礙, 使研究結果與建議具有一定代表性, 能夠助力以圖書館和數據中心等為代表的信息服務機構提供更好數據重用服務。
1 文獻綜述
通過梳理分析國內外有關數據重用實踐的相關主題文獻, 發現已有研究成果大致基于兩種視角展開: 一是從科研人員的用戶視角出發, 探討用戶個體與群體對于數據重用在態度感知方面的內在因素和在文化環境方面的外在因素。二是從服務機構的社群培育視角出發, 分析數據重用實踐社群的保障機制、培育方式和創新服務實踐。
1.1 用戶視角: 數據重用的內在驅動力與外在影響因素分析
部分研究成果論述了影響科研人員數據重用實踐的內在因素, 主要驗證了科研用戶個體的數據重用積極/ 消極態度與數據重用行為的關聯關系。例如, 李曉等[14] 的分析結果表明, 科研人員對數據重用實踐的態度是影響其重用意愿的一項重要因素。Federer L M 等[15] 關注到了影響科研人員的數據重用感知的因素, 發現科研人員對相關基礎設施和支持措施的易用與實用程度的感知能夠有效提升其參與數據重用實踐的積極性, 從而影響特定領域數據的訪問率和重用度。也有部分研究從用戶對數據重用的目的出發, 分析用戶的態度在不同類型重用實踐中的影響。Enke N 等[16] 研究發現, 生物多樣性領域的科學家重用他人數據的需求, 有些是為了擴展其自身的數據集將其研究置于更廣泛的背景中, 有些是為了通過額外數據來支持和評估自身研究建立的模型。盡管科研人員重用科研數據的目的各異, 但其關于數據重用的態度對其行為意愿和具體實踐均有較大影響。
還有部分文獻研究了影響科研人員數據重用實踐的外在環境因素, 從“用戶群體—實踐” 的互動角度, 揭示了科研人員的數據重用行為是否會由于其所在社群的學科文化、規則機制等外在環境不同而產生感知差異。如Tenopir C 等[17] 研究表明,科研人員所接受到的學科文化不同, 其數據重用行為也會存在較大差異, 如天文學領域重用數據易獲取程度比社會科學領域高將近26%。具體到數據實踐對用戶的影響, Holub P 等[18] 建議通過FAIRhealth原則擴展FAIR 原則在藥物領域的標準, 以增強該領域數據和生物材料的重用, 包括數據質量的可重用性、內容的可理解性、過程的透明性和非碎片性以及隱私保護性。另有Zimmerman A[19] 對生態學領域學者的研究表明, 科研人員也會間接受到其關聯領域的規則與標準的影響, 建議針對科研人員共享和存儲科研數據等實踐實施激勵機制, 以提升數據重用的普遍性。
1.2 服務者視角: 數據重用社群運營的評估和提升路徑研究
國內外文獻中有較多研究基于數據重用服務者的視角, 詳細論述了基礎設施和配套機制對于有效保障、吸引科研用戶參與數據重用實踐的重要性。Pasquetto I V 等[20] 研究表明, 數據重用依賴于基礎設施的建設。宋秀芬等[21] 認為, 依賴于強制性政策引導的手段推動數據重用實踐的作用范圍有限,需要通過激勵機制等措施擴大數據重用的實踐范圍。Tedersoo L 等[22] 認為, 缺乏激勵、缺乏標準的元數據收集和訪問機制等因素, 阻礙了研究人員的數據重用行為。Cheruvelil K S 等[23] 在生態學領域開展的研究也表明, 有限資源(如資金、數據)所造成的高度競爭文化會降低數據開放意愿, 進而會限制研究人員的數據重用實踐, 建議學術界應承認出版物之外的數據(作為學術成果的)貢獻。同時有研究非常認可麻省理工學院(MIT)圖書館開展特定數據重用的培訓形式, 建議相關機構提供專題型數據重用實踐服務[24] 。
為進一步推動數據重用的實踐活動, 也有部分研究開始關注服務機構如何借助數據社群(DataCommunity) “運營” 的理念, 提升數據重用實踐。其中, Cooper D M 等[25] 認為, 數據社群是一個由研究人員組成的流動和非正式網絡(群組), 并具備自下而上發展、為數據共享減輕技術阻礙和具備社群規則(Community Norms)的三大基本特征。基于上述特征, Cooper D M 等[25] 認為, 數據社群概念可作為實現數據開放共享FAIR 化的重要力量和促進STEM 領域數據共享的一項新模式。蔚海燕[26] 將“數據” “社區” 作為學科化服務研究中的關鍵詞, 在研究中以杜克大學創立的信息共享空間“The Edge” 為例, 鼓勵國內圖書館界以社群化形式探索開展數據密集型科研支持服務實踐。
近年來的已有研究為推動科研人員開展數據重用實踐和服務機構提供數據重用支持提供良好借鑒。但目前對于促進數據重用實踐可持續發展的研究, 仍停留在“自上而下” 的相關政策與基礎設施的完善建議層面, 對學科化數據重用實踐服務需求的研究相對較少, 且大多聚焦在“數據管理” “開放數據” 等較為獨立發展的服務理念, 較少整合“數字學術” “開放數據” 等整體學術發展趨勢, 以覆蓋完整的科研生命周期。因此, 有必要在數據開放基礎較成熟的研究領域, 按照“需求識別—機制分析—服務方案制定” 的整體研究邏輯, 對數據重用參與群體進行分類研究, 以進一步識別同一領域中不同類型數據重用群體的行為差異所反應出的需求差異, 并根據研究結果展開細化分析, 提出相應服務建議, 以促進我國科研人員對數據重用實踐的持續參與。
2 研究問題與研究設計
2.1 研究問題
基于上述研究背景和已有成果分析, 本文的主要研究問題是: 基于我國生物學領域的現狀, 以科研人員的態度和感知為切入點, 需通過哪些服務培育該領域數據重用實踐, 進而提升我國生物學領域科研人員數據重用的積極性? 基于該核心問題, 本文設計以下兩組問題:
RQ1: 不同崗位狀態、是否具備重用經驗的科研人員在對待科研數據重用問題的態度和感知方面是否存在差異? 若存在, 則具體差異情況如何?
RQ2: 態度和感知特征如何塑造我國生物學領域科研數據社群的數據重用行為特征? 信息服務機構應如何回應不同類型用戶在持續參與數據重用實踐中的訴求?
2.2 構念提煉與調查問卷設計
通過文獻檢索與綜述方式, 提煉論文核心構念。以“Open Science” “Open Data” “Open ResearchData” 作為背景關鍵詞, 分別與數據重用相關的行為關鍵詞“Data Reuse” “Research Data Reuse” “Sci?entific Data Reuse” “Secondary Data Analysis” “Sec?ondary Use of Data” “Secondary Use of Scientific Da?ta” 組合, 通過Web of Science 對英文學術論文進行檢索, 通過Bing 搜索引擎檢索其他類型英文文獻。以“開放科學” “開放數據” “開放科研數據”
作為環境關鍵詞, 以“數據” “科學數據” “科研數據” 作為核心術語關鍵詞, 以“重用” “再利用”
“二次使用” 作為行為關鍵詞, 以關鍵詞組配方式在中國知網檢索, 得出核心文獻集。通過人工閱讀該文獻集中的文獻, 共提煉出4 個構念(Constructs)。具體的提煉過程, 詳見上節文獻綜述部分, 可參照本研究前期發表成果[27] 。
本文在研究工具的選擇與考量方面采取了調查問卷方式。因為數據重用實證研究具備一定的研究基礎, 相關影響因素的識別也具備初探式成果, 但現有文獻缺少群體層面的一手調研資料。因此, 若希望了解用戶的重用態度和感知在群體層面的分布,則需在定性研究基礎上, 進一步開展定量化的測量研究。問卷是收集有關社會現象和人們社會行為各種資料的工具, 其用途是測量人們的行為、態度和社會特征[28] 。這與本文研究問題中主要探討的變量特性相契合。另外, 問卷中的封閉式問題可以很容易把人們的觀點、看法定量化[29] , 因此采用問卷調研, 能夠更好地測量群體層面上用戶的特點,從而為用戶畫像奠定基礎。
本文簡述所識別構念的具體含義及典型參考來源, 與所對應的數據重用行為影響因素調查問卷測量項, 如表1 所示, 共有22 項量表題(李克特五點量表)、兩項多選題, 另通過填空題方式測量科研人員實際重用次數。
3 數據分析結果
3.1 調查問卷的發放與回收
本研究針對中國科學院生物學領域的科研人員(包括碩士和博士研究生以及其他專職科研人員)于2019 年9 月—11 月通過兩個主要渠道發放調查問卷: 微信和電子郵件。一是通過微信平臺以滾雪球抽樣的方式向生物學領域的碩博生群體發放問卷, 成功回收了有效問卷211 份。二是手動收集了中國科學院生物學領域科研人員的郵箱地址, 并發放問卷, 成功回收了有效問卷90 份, 共計回收301份有效問卷。
本文首先統計了調查對象的人口統計學特征,如表2 所示, 而后計算出各測量項的均值、中位數和標準差。X1~X4 測量項的均值均小于取值范圍的中位數(取值范圍1~5, 中位數為3), 表明我國生物學領域科研人員認為科研數據重用活動在科研實踐中的普遍程度較低, 有待進一步提升其對科研數據重用活動態度的積極程度。另外, 總體上, 科研人員對重用數據所涉及相關規則的熟悉程度較低(5項中僅有兩項中位數為3, 其余均小于3), 并認為目前數據重用活動支持服務的實用程度有待提升(15項測量結果的中位數均小于取值范圍的中位數3)。
3.2 不同用戶組別的組間差異分析
針對子問題1, 本節進一步分析用戶在態度、感知層面的組間差異, 從而為針對性提供建議奠定基礎。組間差異分析包括兩部分: 一是不同崗位狀態科研用戶對重用態度和感知的差異。二是有無重用經驗的科研用戶在數據重用態度和感知因素方面的差異。通過數據分組, 并在每個測量項上進行方差分析, 匯總組間差異明顯的具體測量項至表3。以下兩小節分別詳述。
3.2.1 不同崗位狀態在數據重用態度和感知中的差異
本研究采用方差分析, 探究不同崗位狀態(專職科研人員、碩博生兩類群體)科研人員對數據重用實踐的態度和感知方面的差異, 結果顯著的測量項指標如表3 右數第二列所示。計算方式如下: 組間差異=專職科研人員在該項的得分均值-碩博生群體在該項的得分均值。
由表3 可知, 專職科研人員組別僅在X5、X6、X25 這3 個測量項上的表現優于碩博生組別。即專職科研人員對數據重用在本領域的普遍程度(X5、X6)的感知要優于碩博生組別, 并且專職科研人員實際重用科研數據的次數(X25)明顯大于碩博生組別。而在其余與態度、感知規則熟悉程度、感知支持措施實用程度相關的測量項中, 專職科研人員的自我報告得分均輕微落后于學生群體。
該結果說明, 專職科研人員群體并未如意料中的因為重用數據經驗較為充足而更加熟悉科研數據重用的流程、環節與規則, 所以不應對某一群體的科研數據管理基礎做出預判。因此, 科研數據管理培訓應當面向專職科研人員和碩博生等不同崗位狀態人群, 設置不同層次的培訓服務, 必要時應更好地發揮“嵌入式”服務的作用。近期Nature 子刊《Sci?entific Data》發表的一篇文章也得出類似研究結論。該文作者通過調研發現, 科研人員在重用共享的數據時存在許多障礙, 例如, 在申請機構批準、選擇數據使用協議和操作數據訪問應用程序等環節遇到多種“摩擦” (Friction)。這種“摩擦” 使得評估數據集的潛在效用成為一個令人沮喪和耗時的過程, 導致許多原本能夠通過重用來增加數據集價值的研究人員會因此放棄[37] 。所以, 對應到本文調研結果中, 生物學領域不同崗位狀態用戶之所以對相關社群文化基礎、環節流程感知較弱, 也需要探究對現有數據重用流程相關服務進行簡化優化的實施路徑。
3.2.2 有無重用經驗在數據重用態度和感知中的差異
本文將“有重用經驗” 和“無重用經驗” 分別進行標注。逐一對測量項進行方差分析, 其中結果顯著的測量項指標及組間差異情況如表3(最右列)所示。
由表3(最右列)可知, 除X6 指標外, 其余3個顯著的測量項中, 有重用經驗的人員不如無重用經驗人員對于數據重用的態度積極, 感知指標結果更不敏銳。其原因可能在于, 部分科研人員在重用過程中的某些實踐環節(諸如開放自身數據、檢索數據集、理解重用許可要求等方面)遇到多種阻礙,影響其繼續開展重用實踐的積極性。因此, 需要進一步細分不同科研用戶群體, 深入其重用過程中的具體環節, 探索更有針對性、協同性的支持措施。
3 3 層次聚類與用戶群體特征畫像
由3.1、3.2 節的分析可知, 在我國生物學領域中, 無論是碩博生還是研究人員群體均需要科研數據管理培訓, 以便規范自身的數據重用行為。但現有科研數據管理服務尚存提升空間。因此, 探究不同用戶群體更加個性化的需求, 以畫像方式細分用戶群組, 有利于更有針對性地提升我國生物學領域科研人員在科研數據重用實踐過程中的體驗。
重用實踐中的開放與重用文化建構對數據重用實踐培育具有重要意義。已有研究對各類潛變量在我國科研人員科研數據重用行為方面影響的探究已較為充分[14] 。為更好地發揮“自上而下” 和“自下而上” 兩種數據社群培育路徑的協同作用, 本部分則著重關注“態度” “感知社群文化基礎” (“自下而上” 路徑)和“感知規則熟悉程度” (“自上而下”路徑)這三方面內容, 以探究當前我國生物學領域數據重用文化培育的相關阻礙。因此, 本部分以個案為依據, 選取與科研人員的態度、社群文化基礎、規則熟悉程度這3 個潛變量相關的測量項(X1 ~X11)進行層次聚類分析, 以發現科研人員的數據重用行為特征的類別。
根據預期聚類結果的范圍, 分析層次聚類結果。在聚類結果中, 存在兩個異常個案(Case)(S-7 和S-156 號, 二者中有兩組連續5 項以上的題目選項相同, 綜合答題時間較短), 將二者排除后重新聚類。根據預計聚類數量范圍, 選取距離15 作為劃分類別依據, 共得到6 大類科研人員群體。根據聚類結果, 統計出每組內的個案數量以及在11個影響因素中的平均值, 并計算出每個測量項的加權平均值, 方便后續對結果進行組間比較與特征歸納。對聚類出的6 個組別在態度、社群文化基礎、規則熟悉程度這三方面的測量項得分與加權平均值進行比較, 統計出各組內具備重用經驗人員的數量。歸納各類別科研人員的特征并對其進行命名,結果如表4 所示。
根據有無重用經驗將科研人員分為“參與者”與“潛在參與者” 兩大類。再結合這些組別在三大類潛變量測量項中的差異, 對其進行具體命名。以下詳述六類用戶的特征。
1) 參與者大類中具體畫像類別說明
“初步探索型參與者”: 該類科研人員對數據重用活動積極作用的認可度(態度)較低, 對現有重用規則不熟悉, 但卻認為當前數據重用活動在其研究領域中較為普遍, 取得了一定程度的發展。同時, 該類別中的絕大部分成員具備重用數據經驗,所形成的態度很可能與其重用經驗有很大的關系,但從其自身對數據重用規則的了解程度來看, 該類人員對重用實踐的滿意度、參與度較低。
“邊緣觀望型參與者”: 該類科研人員對數據重用活動價值認可度也相對較低, 但認為當前有關數據重用的社群文化已有一些基礎, 且自身對數據重用規則也較為熟悉, 這可能與該類用戶參與重用實踐占比較高, 無形中了解到一些重用相關規則有關。
“被動型參與者”: 對數據重用活動的態度與“初步探索型參與者” 處于類似低位, 但其在社群文化基礎感知以及規則熟悉程度方面均較高, 且該類用戶參與重用實踐的比例略高于“邊緣觀望型參與者”, 因此更可能是由于具體研究范式中數據重用是其重要環節, 客觀上需被動參與, 但并未深入反思重用價值。
2) 潛在參與者中具體畫像類別說明
“期待型潛在參與者”: 該類科研用戶對數據重用價值的認可度和感知規則熟悉程度較高, 但認為當前社群中對于重用實踐的文化和氛圍還尚未形成,且其目前的研究活動中較少涉及數據重用的機會。
“徘徊型潛在參與者”: 與“期待型” 相似, 該類用戶對數據重用價值認可度更高、相關規則也較為熟悉, 但目前重用實踐參與機會更少。
“搖擺型潛在參與者”: 這類用戶在對數據重用價值認可度、感知社群文化基礎和感知規則熟悉程度方面均屬中等偏低。但由于該類用戶的規模體量最大, 且目前相關影響因素項的感知水平較低, 因此是后續進行服務設計時需要重點關注的一類對象。
4 研究建議
依據上述對中國科學院生物學領域科研人員的調研結果, 本研究將從圖書館和數據中心等信息服務機構開展科研數據管理服務的角度, 首先以用戶畫像結果中某一組別表現較差的影響因素(得分在“中” 及以下)作為首要參考依據; 其次, 依此類推分析該組用戶在實際數據重用過程中的具體特征;最終提供具有針對性和可實施性的服務建議。總體上, 本研究建議信息服務機構提供“層次化” 和“梯度化” 的數據社群培育支持服務, 從而在“自下而上” 的數據社群培育路徑方面進行更有效地服務設計。
4.1 “層次化”的數據社群培育路徑
4.1.1 針對我國生物學領域科研數據重用“實際參與者”
初步探索型參與者在態度和感知規則熟悉程度方面得分較低, 具體重用實踐培育服務方式可包括:①高校圖書館聯系相關院系, 共同組織開展科研數據重用實踐工作坊, 著重從技能提升方面開展數據重用的小規模手把手教學, 從數據清洗處理等質量控制角度、數據可視化與內容報告合規使用等角度設計服務; ②由專業的學科館員建立相關的數據管理交流討論群, 便于第一時間解決科研人員在數據重用活動中遇到的問題。
邊緣觀望者在態度方面的得分為中低, 具體服務方式可考慮: ①圖書館或數據中心開展配套的數據監管服務, 如定期推送領域相關數據資源列表、或整理采用以數據驅動方式得出結論的文章, 進一步增強科研用戶重用開放數據的意識; ②在信息素養教育類課程、學科數據分析類課程中, 介紹或引導學生參與開放數據的重用活動。
被動型參與者在態度方面的得分低, 但感知社群文化基礎和規則熟悉程度較高, 該類科研用戶呈現出“任務驅動” 的特點。雖然對數據重用的積極作用認可度低, 但是認為當前學科領域中數據重用實踐較為普遍, 并對其中的規則較為熟悉。因此可通過政策上額外的激勵措施, 使科研人員能夠切實體會到數據開放或重用的實際益處。例如, 科研評價時增設開放數據、數據重用相關的評價細目。
4.1.2 針對我國生物學領域科研數據重用“潛在參與者”
期待型潛在參與者的感知社群文化基礎較低,服務方式可著重布局如下方面: ①通過與專業學(協)會合作, 舉辦開放數據大賽, 提升數據重用活動在科研群體中的影響力; ②高校圖書館、學(協)會等機構可牽頭開展整合學科領域團隊的活動。如搭建相關的數據交流平臺, 或在相關的數據管理社區創建專欄, 促進科研社群進行在線討論。
徘徊型潛在參與者同樣感知社群文化基礎較低, 且對已有重用規則的熟悉程度為一般。服務方式可著重布局如下方面: ①加強學科/ 數據館員與一線科研人員的聯系, 如建立線上線下咨詢的專門通道, 便于及時詢問與解決用戶疑問, 提升服務響應能力; ②整合網絡資源, 形成較為系統化的學習資源列表, 可根據學科分類細化數據重用資源的監管服務, 形成自助式查詢入口, 以幫助參與意愿較高的科研人員快速了解、規范開展科研數據重用活動。
搖擺型潛在參與者在態度、感知社群文化基礎和規則熟悉程度方面均偏低。可主要采取如下優化服務: ①以云盤的方式提供數據存儲服務, 幫助科研用戶解決在科研過程中的固有存儲需求; ②在數據存儲平臺上集成數據管理功能, 從而達到“用戶引流” 的效果。鼓勵用戶探索與使用相關數據管理功能, 采取向導方式更好地引導科研人員規范地開展數據重用工作; ③數據中心、圖書館也要通過線上線下的各種渠道, 推送開放數據重用的系列文章, 并且在開展宣傳的同時給出開展數據重用完整流程的指導文檔列表, 便于用戶“按圖索驥” 地進行系統式學習。
4.2 “梯度化”的數據重用實踐服務
4.2.1 初級階段: 以數據發現、重用教育為主的多場景、即期科研數據實踐輔助服務
分析結果發現, 有重用經驗的組別除對數據知識庫使用規則較為熟悉外, 在開放個人數據集的態度、發現已有數據集、使用已有數據集的要求方面,均落后于非重用過他人數據的組別。因此, 在數據重用實踐服務的初級階段, 可由圖書館、數據中心發布和維護定期更新的重用數據資源列表, 呼吁其所屬高校或科研機構, 將數據集檢索、數據重用要求等方面知識納入通識的信息素養教育課程內容大綱, 面向已有重用經驗的科研群體也要制定基礎數據重用知識的方案; 有條件的機構也可先行探索開設相關課程資源, 并通過開放教育資源的形式進行共享或通過專題研討會的形式開展交流。同時, 各類型信息服務機構可以增強生物學領域不同崗位狀態科研人員的數據重用能力為目標, 設計提供培訓型、指南型、最佳實踐工具箱, 或直接為開展一對一參考咨詢提供實踐輔助服務, 以實現自下而上的數據重用文化構建。
4.2.2 中級階段: 以擴大體驗、有序供給為主的多輪、短期科研數據重用沉浸式體驗服務
分析結果發現, 當前我國生物學領域科研數據重用活動中占比最大的用戶群體為搖擺型參與者(258, 85. 71%)。因此, 在促進數據重用實踐服務的中級階段, 要以解決其最迫切的存儲需求為主,同時拓展提供數據采集、加工、挖掘、應用等不同階段的配套服務, 使更多“搖擺者” 在科研生命周期的各環節中都能隨時了解和參與到數據重用實踐中。圖書館或數據中心為其所屬機構提供數據重用相關課件素材時, 要兼顧不同學科的數據類型、內容復雜程度、用戶數據分析能力等維度, 從而更加有效地吸引“搖擺者” 的參與; 針對科研數據重用過程中用戶擔心的權益問題, 信息服務機構可聯合相關知識產權組織機構, 共同收集最佳實踐案例或編制具有梯度層次的重用權益指南, 從而為“搖擺者” 提供可自查、易應用的權益指導; 嘗試通過多媒體資源形式進行項目設置, 增加數據重用實踐的趣味性和互動性, 更好地吸引“搖擺者” 的參與。
4.2.3 高級階段: 以增加記憶點的數據重用社群文化構建為主的中長期項目服務
分析結果發現, 專職科研人員有更多的數據重用經驗, 但其在態度、感知規則熟悉程度和感知服務支持措施有效性等方面的自我報告得分均略低于碩博生組別。這表明, 當前我國生物學領域社群文化基礎較弱, 后續對于科研數據重用的宣傳可以從提升科研用戶的記憶點、提供多樣化的服務方式以及加強科研數據管理機構對用戶社群數據重用的支持程度等方面展開, 例如, 有效利用圖書館網站、數據中心平臺、微信公眾號等各類社交媒體[38] ,每周組織專業團隊舉辦開放咨詢日活動等; 同時可以采用迭代設計[39] 的方式來創新科研數據重用實踐服務。首先面向承擔更加復雜數據重用任務的團隊開展調研, 以識別科研用戶不同的需求層次以及在權益管理方面的“痛點”, 形成原型化的科研數據服務產品, 包括但不限于相關培訓資源、相關服務平臺、沉浸式案例參與工作坊; 隨后對相關科研數據服務原型產品的應用效果開展后續多輪反饋收集, 從而進一步優化現有服務并開發新服務, 保持用戶社群的長期有效記憶。
5 結論
數據重用的最終目標是促進形成數據可持續流動的生態系統。基于實證結果, 筆者建議對數據重用實踐建構的典型路徑進行內容擴充, 即在“自上而下” 的環境規范基礎上(如: 政策、基礎設施、規范化流程、包含貢獻確認在內的激勵措施等內容), 更應注意“自下而上” 的數據流動(如數據開放端和監管端的質量控制, 數據重用端的合規使用與循環開放等服務方式), 從而形成由數據資源和數據工具的應用所帶來的一整套社會、技術、行為、文化方面的內容體系(也即數據文化)[40-41] 。目前, 國內的部分科研院所已開始探索數據發現、專題服務、數據分析等集成功能, 從而進一步完善科研人員在重用實踐中的體驗[42] , 這類集成化生態建構, 是一種有益的服務實踐探索。
數據重用文化的培育對營造良好數據生態至關重要, 它是推行政策制度和開展實踐行動的重要保障。在我國現有數據環境下, 需根據用戶群體“由簡至難” 的層次化重用需求, 提供包括但不限于開發課程資源、提供工具系統、制定科研績效評定激勵措施、收集最佳實踐案例、編制數據重用實踐案例講解手冊[43] 、開展數據敘事的小型工作坊等相關服務, 同時也可借用當前發展迅速的人工智能技術, 配置有關數據重用權益管理方面自助問答服務, 使得具體學科中的宣傳教育、工具服務、政策機制與社群中的重用文化氛圍相互促進發展。
本研究不足在于, 目前僅通過某一學科領域實踐討論數據重用文化建構的培育路徑, 在結論普適性方面尚需探索。未來研究可關注對相似學科領域的對比性分析, 深入探索我國實踐情境下數據重用文化建構體系。
致謝:感謝中國科學院文獻情報中心顧立平研究員、梁永霞編審在本文寫作過程中給予的相關建設性意見。