張瀟月,宋秀芳,顧立平,劉金亞,陳新蘭
(1.中國科學院文獻情報中心,北京 100190;2.中國科學院大學經濟與管理學院圖書情報與檔案管理系,北京 100190)
科研數據重用,是指科研人員對科研數據集進行原始意圖以外二次使用的活動[1-2]。信息管理領域學者對其的定義更強調可追溯程度,即通過正式學術交流渠道對科研數據進行開放與獲取,如數據知識庫[3]。科研數據重用行為有助于科研人員更好地實踐開放科研數據的理念,提升科研人員和科研社群整體的科研效率[4]。
數據重用與開放共享之間是相互依賴與促進的關系,有助于形成二者相互推動的循環生態。該生態能夠鼓勵科研人員將數據重用所產生的新型研究發現以開放共享的形式反饋至科研社群中,提升科研人員對開放科研數據理念的認同與持續參與。例如,在英國開放數據運動中,便促進二次分析定性數據成為一種主流的研究方法[5]。
作者們前期圍繞開放科研數據環境下,科研人員科研數據重用主題的研究進行綜述,研究結果表明,該主題的發展遵循以下發展路徑(圖1)。簡而言之,開放科研數據的發展初期,需要發展基礎設施,否則科研數據無法得到有效地存儲和傳播。由于需要明確行為規范,并且存在數據權益的利益相關者,需要政策甚至法律法規來界定權責機制,因此,為了進一步將相關的流程固定并優化,便開始進行數據引用和重用流程方面的完善工作,并且以科研數據開放和重用為中心的數據社群逐漸形成[6]。數據重用實踐中,科研人員是推動開放科研數據的戰略核心。如果“回歸本質”思考,開放科研數據發展推動的核心是人,啟動與最終受益的是科研社群的發展和壯大。

圖1 開放科研數據環境下科研數據重用主題發展路徑
科研人員在開放科研數據運動中起到關鍵作用,他們既是科研數據的生產者又是使用者,既是實現者又是受益者。因此,從這個角度上來說,有必要探究以科研人員為核心,以數據基礎設施、利益相關方、數據政策以及數據流動過程為組成要素的相互促進的循環體系。進一步而言,科研數據流動以科研人員的使用(重用)需求為導向,受科研活動中競爭與合作機制的影響。Adner等[7]認為,生態系統視角可用來理解同時以合作和競爭為特征的伙伴間的相互依賴關系。有學者在管理學[8]、開放政府數據領域[9]運用該視角探索梳理實踐框架。本研究亦采用該視角探究科研數據重用環節,將數據重用生態系統定義為:通過不斷完善現有科研數據交流網絡,提供良好的環境支持,從而形成數據資源輸入(開放共享的科研數據)與產出(數據重用成果)間相互促進狀態的場域。
科研人員是開放科研數據利益相關方中的核心角色[10],在科研數據重用過程中發揮重要作用。有學者認為,清晰理解數據重用定義能夠促進相關人員對數據重用的討論,并提升參與感[11]。科研人員作為科研數據的生產者與重用者,對開放科研數據重用行為的理解與實施,直接決定了開放科研數據的實際效果。愛思唯爾調查顯示,所有相關方應盡量縮小科研數據開放共享、數據重用活動政策與實踐之間的鴻溝,確保科研人員應用這些指導原則與標準[12]。上述結果說明,利益相關方已逐步認識到科研人員在落實開放科研數據政策理念中的關鍵作用。
當前,眾多學者利用行為學理論來驗證科研人員自身的態度和感知對其數據重用行為的影響,諸如技術接受和使用統一理論(Unified Theory of Ac‐ceptance and Use of Technology,UTAUT)、理性行為理論(Theory of Reasoned Action,TRA)[13]、計劃行為理論(Theory of Planned Behavior,TPB)[14]等。例如,Curty等[15]基于UTAUT理論編碼了13位社會科學家的訪談內容,構建了科學家數據重用意圖和行為的影響因素模型,其認為感知有用性、感知風險、感知努力程度、社會影響以及促進條件通過影響數據重用意圖,影響科研人員的數據重用行為。這說明科研人員自身的意圖和感知對其數據重用行為具有較大影響。隨后,Curty等[13]以TRA理論為基礎,探索影響科學家數據共享與重用行為的態度和規范要素,研究結果發現,感知效率和感知重要程度作為態度的重要組成部分,對科研人員的數據重用行為具有較大的正向影響,這說明科研人員的態度同樣是科研數據重用行為的影響因素。Kim等[16]以TPB理論和制度理論為基礎,對科學家的科研數據重用行為意愿開展多層次分析,研究結果顯示,數據知識庫的實用程度(availability)、感知有用程度、感知顧慮以及內部資源的實用程度顯著影響數據重用行為意愿,并建議科研社群可從教育/培訓科研人員、給予內外部支持方面,促進科研人員開展數據重用活動。這說明相關學者注意到通過多種支持途徑提升科研人員對科研數據重用活動益處的感知,并采取相關措施降低感知風險。
科研數據重用行為影響因素存在學科差異。英國數字監管中心(Digital Curation Center,DCC)對藝術人文、社會科學、生物科學、物理科學等領域的科研人員開展數據共享和重用的態度調查時,發現學科間的差異體現在技術和行為水平方面[17]。有學者指出,應注意產生大數據和長尾數據的學科,在數據重用條件、成本與數據重用行為方面的異同[18]。本研究受其啟發:科研人員對數據重用行為的態度和感知、對數據重用行為的影響,亦可能存在學科差異。因此,本文欲探究科研數據重用行為的影響因素與機制,可首先選取具有代表性的某一學科領域。
對比國內外研究發現,我國當前對數據重用行為影響因素的研究尚處于起步階段,鮮有涉及具體學科領域。從世界范圍來看,生物學領域具有較為深厚的數據重用基礎與機制,數據基礎設施完善且擁有開放數據的文化基礎,科研數據重用的流程和機制較為成熟。無論在數據的可發現性,還是在共享科研數據方面,生物學領域均居各學科之首。并且該領域已經建立起較為完善的數據共享規范[19]。在我國,生物學領域也具備較為成熟的數據開放共享基礎。我國2019年發布的《國家科技資源共享服務平臺優化調整名單的通知》中,涉及生物學領域眾多科學數據中心和國家生物種質與實驗材料資源庫[20]。相關政策的出臺也在進一步規范和促進生物學領域科研數據的開放共享,如《中國科學院戰略生物資源服務計劃數據管理及標準規范》[21-22]。因此,本文選取我國生物學領域科研人員作為調查對象,以生態系統視角探究該領域科研數據重用行為的影響因素,比較具有實踐與調查的可行性。
本文立足生態系統視角,關注科研數據重用文化氛圍的形成。如上文所述,在以科研人員的科研數據重用活動為核心的生態系統中,科研人員既受到現有基礎設施和政策環境的影響,又使得基礎設施方和政策提供方調整服務,以更好地滿足其數據重用的需要。簡而言之,科研人員及其所處的開放科研數據環境之間是相互作用的。
班杜拉提出的社會認知理論(Social Cognitive Theory,SCT),根據“三方互惠決定論”(triadic reciprocal determinism)的原因解釋心理現象。從這一互動的因果模型可知,人的能動性是其內部因素(以認知、情感和生物事件形式出現)、行為模式和環境影響三者彼此相互作用的產物[23]。該理論較為符合本研究的背景,亦能夠促進更好地實現本文的研究目的,即從科研人員視角理解其科研數據重用需求與重用行為。因此,本文基于社會認知理論中的三方互惠決定論來制定理論模型。Middleton等[24]的研究表明,已有大量研究將社會認知理論應用于信息科學(information science)的研究領域中,特別是在信息搜尋行為(與使用)和知識共享方面。我國圖書館學、情報學領域學者亦應用社會認知理論(以及其中的自我效能理論)開展相關研究[25-27],主題涉及信息使用、搜尋和共享行為。這說明使用社會認知理論研究科研人員的科研數據重用行為,具備可行性和擴展應用領域的價值。
本研究以“open science”“open data”“open re‐search data”作為背景關鍵詞,分別與數據重用相關的行為關鍵詞“data reuse”“research data reuse”“scientific data reuse”“secondary data analysis”“sec‐ondary use of data”“secondary use of scientific data”進行組合,通過Web of Science(WoS)對英文學術論文進行檢索,通過Bing搜索引擎檢索其他類型英文文獻。以“開放科學”“開放數據”“開放科研數據”作為環境關鍵詞,以“數據”“科學數據”“科研數據”作為核心術語關鍵詞,以“重用”“再利用”“二次使用”作為行為關鍵詞,在中國知網組合進行中文論文檢索,最終得出核心文獻集。
根據該文獻集,共提煉出4個構念(con‐struct),即科研人員對科研數據重用(research data reuse,RDR)生態系統的態度(attitude,ATT)、感知社群文化基礎(perceived community culture foundation,PCCF)、感知規則熟悉程度(perceived reuse regulation proficiency,PRRP)以及感知支持措施實用程度(erceived reuse support usability,PR‐SU)。其具體含義及典型參考來源,如表1所示。

表1 本研究中構念的含義及對現有研究的參考
2.3.1 科研人員對科研數據重用生態系統的態度
科研人員對數據重用生態系統的態度影響其重用行為。Yoon等[34]對社會科學家數據重用行為開展問卷調查時,發現科研人員的態度正向影響著科研人員數據重用的行為意圖。Joo等[35]對健康領域科研人員的調查顯示,科研人員的態度影響其數據重用行為的意圖。參考理性行為理論的觀點,行為意向在很大程度上能夠代表行為。有學者認為,如果行為意向能夠被準確的測量,那么行為意向是大多數社會行為的精準預測指標[36]。據此,提出假設1:
H1:科研人員對RDR生態系統的態度正向影響其實際RDR行為。
科研人員對數據重用生態系統的態度正向影響感知規則的熟悉程度。He等[37]研究發現,科研人員傾向于引用同團隊人員生產的數據集,并且認為其中一個原因可能是這些數據更易于理解和可信。同課題組所產生的數據集能夠較好地進行獲取,數據的上下文信息更易獲得,且數據集的透明度較高。在這種情況下,科研人員更易于確認評價數據集質量標準,也就客觀上促進其對數據重用規則的了解。Faniel等[38]研究發現,社會科學家對數據重用滿意度的判斷是基于數據質量,如數據的完整性和數據可信度。滿意度是積極態度的重要表現,其受到科研人員對相關質量判斷標準的影響。在這種積極重用態度的推動下,科研人員更愿意去熟悉數據重用所涉及的環節與規則。這說明科研人員對重用數據集行為本身的態度,能夠影響其對數據重用相關規則的熟悉程度。據此,提出假設2:
H2:科研人員對RDR生態系統的態度正向影響其對RDR生態系統的感知規則熟悉程度。
2.3.2 感知社群文化基礎
感知社群文化基礎正向影響科研人員對科研數據重用生態系統的態度。Yoon等[34]研究發現,現有社群或學科規范正向影響社會科學家對科研數據重用的態度。而現有的社群和學科規范,實際上,是作為科研人員開展數據重用活動的社群文化基礎而存在的。Melero等[39]指出,數據開放和重用領域的一個關鍵問題是如何鼓勵和獎勵科研人員參與數據的共享和管理工作。但該問題通常與研究的內在習慣相關,而這些習慣的形成需要一個文化方面的轉變,從而來創建一個數據共享生態系統。這說明社群的文化基礎,對科研人員了解和參與科研數據重用活動的態度具有重要影響的。據此,提出假設3:
H3:科研人員對RDR生態系統的感知社群文化基礎正向影響其對RDR生態系統的態度。
科研人員對科研數據重用生態系統的感知社群文化基礎正向影響科研人員的數據重用行為。Zim‐merman[29]對生態學領域科研人員的調查顯示,本地化情境知識對生態學家的數據重用行為具有重要影響。科研人員融入社群的社會化過程(social pro‐cesses)在判斷數據可重用價值中發揮重要作用。這說明社群文化影響科研人員對科研數據價值的判斷,進而影響其數據重用行為。研究結果表明,雖然眾多科研人員高度認同透明、開放和可再生性是科學的特征,并且該特征成為眾多的學科規范,但是由于缺乏合理學術獎勵制度的激勵,造成了開放實踐與理想的脫節[40]。這說明科研人員對現有科研社群實踐情況的感知會影響其科研數據開放共享的行為。這種感知同樣也可類比至科研數據重用行為。據此,提出假設4:
H4:科研人員對RDR生態系統的感知社群文化基礎正向影響其RDR行為。
2.3.3 感知規則熟悉程度
科研人員對科研數據重用生態系統的感知規則熟悉程度正向影響科研數據重用行為。Faniel等[1]對地震工程領域科研人員的調查表明,數據的相關性、科研人員對數據的理解與信任程度是其判斷同行數據可重用程度的重要標準。這說明科研人員在判斷數據可重用性時,有相應的準則和標準,并在各判斷項目的具體準則下重用相關數據。謝艷秋等[41]認為,在數據共享發展具有一定基礎的情況下,科研人員對研究成果的開放意識與接受程度等因素在科研數據共享過程中起到重要作用。本研究認為,這類影響因素可類比至數據重用活動,即科研人員對數據重用的開放意識與接受程度對其重用行為具有重要影響,而這種接受程度的一個重要體現在于對重用規則的熟悉程度。據此,提出假設5:
H5:科研人員對RDR生態系統的感知規則熟悉程度正向影響其RDR行為。
2.3.4 感知支持措施實用程度
感知數據支持措施實用程度正向影響其感知重用規則熟悉程度。感知數據支持措施實用程度包括:數據基礎設施支持服務、感知數據重用培訓服務以及相關政策指南內容的實用程度。Hsu等[33]研究表明,缺乏元數據標準與資源、工作流文檔阻礙了該領域數據資源的發現、共享與重用,因為這種情況將會使得科研人員在數據的獲取與理解方面投入更多額外的時間與精力;而數據重用支持措施可從多環節為數據重用奠定良好的基礎,如提供較完善的元數據標準、數據重用許可聲明等,進而增加科研人員對科研數據重用規則的熟悉程度。Tenopir等[42]研究認為,美國國家科學基金會(National Sci‐ence Foundation,NSF)資助項目,如DataNET(包括DataONE),會把科研人員的注意力吸引到使科學家更容易應用合理的數據管理原則方面。這說明資助機構已經開始通過數據基礎設施提升數據共享和數據重用方面的易用程度,以增加用戶對科研數據共享和數據重用實用程度的感知。據此,提出假設6:
H6:科研人員對RDR生態系統的感知支持措施實用程度正向影響其對數據重用生態系統的感知規則熟悉程度。
感知支持措施實用程度正向影響科研人員對數據重用生態系統的態度。Federer等[43]研究發現,盡管眾多科研人員認為數據共享和數據重用很重要,但他們認為自身的專業程度較低,并且其認為準備可供分享的數據耗費大量的工作。這說明研究人員需進行相關的支持活動,以降低他們開放共享和重用科研數據時所耗費的精力,促進重用行為。Roche等[44]從數據質量的角度,調查了生態學和進化領域期刊中強制公共數據存檔政策(mandate public data archiving)的落實效果,強調發揮關鍵指南的作用,可提升科研數據重用的潛在可能,即可以通過靈活的支持措施轉變科研人員對數據共享的態度。據此,提出假設7:
H7:科研人員對RDR生態系統的感知支持措施實用程度正向影響其對RDR生態系統的態度。
科研人員對數據重用生態系統的感知支持措施實用程度正向影響其數據重用行為。Davis等[30]在人們對計算機系統使用接受程度的研究中發現,科研人員對該技術的感知有用性和感知易用性能夠通過影響科研人員的態度最終影響對該技術的實際接受意圖。Kim等[45]對STEM(science,technology,en‐gineering,and mathematics)學科研究人員的調查表明,數據知識庫的感知可獲取程度對科研人員的數據共享行為具有較大影響。Enke等[32]研究發現,由于技術阻礙(如缺乏適當的數據知識庫和引用機制)和社群方面的(sociological)阻礙(如時間、資金),科研人員不愿共享生物多樣性數據。Poisot等[46]認為,在生態學領域中,借鑒來自公開共享存檔中的數據,可促進生態學研究轉型,并認為一個較具有前景的方式是鼓勵和促進系統化地檢索,以及結構化和專門化的生態學數據知識庫。這體現出數據知識庫服務對促進科研人員科研數據重用行為的可能性。據此,提出假設8:
H8:科研人員對RDR生態系統的感知支持措施實用程度正向影響科研人員的RDR行為。
綜上,本文構建的我國科研人員科研數據重用行為影響因素理論模型如圖2所示。

圖2 我國科研人員對科研數據重用行為影響因素理論模型
本研究旨在初步探索在開放科研數據環境下,科研數據重用生態系統形成的影響因素,既需要采取定量研究了解生態系統視角下各潛變量之間的影響路徑,亦需要通過定性研究探索變量之間相互影響的具體情境條件與細節,從而達到從多層面探索科研數據重用行為影響因素的目的[47-48]。進一步而言,一方面,本文期望提出理論模型,并通過一定測量工具驗證模型中的影響因素與路徑;另一方面,由于目前數據重用活動影響機制的構建主要基于國外研究,亦需通過相關訪談,了解和補充已有理論模型,或對理論模型結果中與研究假設不相符的內容進行解釋。在此基礎上,才能夠更有針對性地為我國利益相關方在本土開展數據重用的促進服務提供更符合實際情況的建議。
由于需要采取定量與定性研究,并在特定的時間段內獲取兩類數據,因此,本文參考混合方法研究中的聚斂式設計(convergent design)——通過文獻綜述確定研究假設,獨立收集定量與定性數據,在群體和個體層面獲取研究假設驗證程度的數據。本文采用偏最小二乘法的結構方程模型(partial least squares structural equation modeling,PLS-SEM)分析定量數據;定性研究部分對問卷中開放式問題與科研人員的半結構化訪談結果進行分析。最終,在結果分析部分通過匯總表格開展結果比較(com‐parison of results)[49],對定量與定性結果間開展雙向理解[50],進而得出研究結論,研究路徑如圖3所示。

圖3 本研究所使用混合方法研究路徑圖
3.1.1 問卷設計
調查問卷由卷首語、填寫說明、各潛變量的測量項以及受訪者信息組成。卷首語部分說明本次調查問卷的核心概念,以確保受訪對象對研究問題所涉及內涵和外延理解一致。問卷中測量項的設計均參考相應量表與文獻中關于科研數據重用行為(re‐sarch data reuse behavior,RDRB)的影響因素,如表2所示。問卷共包含24個測量項,視測量內容采用李克特五點式量表與多選題方式,并將科研人員對開放科研數據原因、放棄重用他人數據原因和常用存儲位置這3個題項額外設置為開放式問題。調查問卷于2019年7月15—17日面向15名科研人員進行預調研,根據結果反饋調整相應測量項的表述,以便于受訪對象理解。

表2 問卷調查的潛變量及其測量項參考來源
3.1.2調查問卷發放與數據收集
本研究以中國科學院生物學領域科研人員(崗位狀態在碩士研究生及以上)為調查對象,通過電子郵件向中國科學院28個生物學領域研究所的2245名助教/研究實習員及以上崗位狀態科研人員定向發放(共獲得90份有效調查問卷),通過社交媒體面向中科院生物學領域的碩博士研究生進行滾雪球式發放(共回收211份有效調查問卷),發放周期為2019年9月10日—11月10日。剔除無效的調查問卷后,共回收301份有效調查問卷,大于測量項的10倍以上[54],符合PLS-SEM分析的樣本數量要求。受訪對象的人口統計特征分布如表3所示,其中,學科領域劃分參照中華人民共和國國家標準《學科分類與代碼》(GB/T 13745-2009)[55]和國家科技圖書文獻中心生物學領域科技詞表[56]。

表3 受訪對象的人口統計特征
訪談對象的選取主要根據其來源機構的性質、重用他人數據的程度以及研究經驗,通過咨詢生物學領域學科館員,選取10位來自中國科學院6個相關研究所的受訪對象,其中5名男性、5名女性。受訪對象研究范圍兼顧基礎與應用研究,涵蓋碩士研究生到教授的多個崗位狀態。并根據各潛變量及其測量項的內容,制定半結構化訪談提綱,具體如表4所示。

表4 半結構化訪談提綱
訪談時間跨度為5個月①訪談時間為2019年9月17日—2020年2月19日。,訪談方式為面對面訪談或線上訪談。采用半結構化大綱,訪談時間為20~60分鐘不等。征得訪談對象同意后,對訪談過程進行錄音,并在后期整理為文字版。根據匿名保密原則,本文僅引述受訪對象的觀點(后續用I1~I10分別表示這10位受訪對象)。
本研究同時涉及反映型和形成型測量模型,且樣本數量較小,因此,采用偏最小二乘法的結構方程模型進行數據分析,該方法對樣本數據正態分布要求的較低,適用于本研究。數據分析的工具為SmartPLS 3.2.8版本[57]。
結構方程模型由測量模型與結構模型組成,前者表示測量變量對潛變量的反映程度,后者表示潛變量間的因果關系。具體分析過程:首先,通過檢驗測量模型,評價理論模型與所采集數據間的擬合程度,而后對結構模型各構念之間的關系進行檢驗。
4.1.1 測量模型具有穩定性
測量模型可分為反映型測量模型和形成型測量模型。“科研數據重用行為(RDRB)”這一潛變量需由其測量變量共同表示,為形成型測量指標(formative indicator)。其余潛變量的效果由其相對應的測量變量體現,為反映型測量指標(reflective indicator)[58-59]。
通過驗證性因子分析(Confirmatory Factor Anal‐ysis,CFA)檢驗測量模型的信效度[60]。不同類型的測量模型在信效度評價的具體指標上有所差異,對反映型指標信度與效度分析具體結果如表5所示。反映型測量模型的信度主要分為內部一致性測量和各顯變量的信度。內部一致性考察一組測量項是否測量了相同的潛變量[61],主要通過組合信度(composite reliability,CR)評價,建議值為0.5[62]。各測量變量的信度,主要表現每個題目能夠反映潛變量的程度,通過各測量項的因子負荷(factor loading)判定,其建議值為0.55[63]。由表5可知,在本研究的測量模型中,各潛變量的組合信度均大于0.5,且各測量變量的因子負荷均大于0.55,說明該反映型測量模型具有較高的信度。
反映型測量模型的效度分析主要包括聚斂效度和區別效度兩方面。聚斂效度表示一個潛變量能夠被一組觀察變量有效估計的程度,以平均變異萃取量(average variance extracted,AVE)和組合信度作為判定指標,建議值均為0.5。由表5可知,各潛變量的AVE值和CR值均大于0.5,說明其具有較好的聚斂效度。區別效度表示不同構念間能夠有效分離的程度,可通過比較兩個潛變量的AVE值是否大于其相關系數的平方進行判定[64]。由表6可知,各潛變量間的相關系數均小于AVE值的平方根。因此,該反映型測量模型具有較高的區別效度。

表5 測量模型的信度與效度分析

表6 AVE平方根及潛變量相關系數
形成型指標的評估主要從因子對構念貢獻的絕對指標、共線性和指標顯著性三個方面判定[65],結果如表7和表8所示。Petter等[66]認為,形成型模型中的方差膨脹因子(variance inflation factor,VIF)相對于內部一致性和信度而言更為重要,測量變量所反映的是構念的不同方面,多重共線性是反映型構念測量項(需要關注)的一個問題,故可選用VIF進行評價。VIF的評價閾值為10,由表7可知,測量項RDRB1的值小于10,但后兩個測量項的VIF值均大于10,這說明后兩個測量項存在共線性問題。在科研實踐中,RDRB2與RDRB3具有正相關關系,但這兩個測量項是科研人員數據重用行為是否規范的表現,因此,對其保留。從外部權重來看,僅有RDRB1測量項符合判定要求。但Bollen[60]認為,形成性測量模型中測量變量對潛變量的因子負荷反映了形成性指標對潛變量的影響。在本研究中后兩個測量項對潛變量貢獻程度(因子負荷)同樣較高,故將其保留。

表7 形成型指標評估

表8 形成型指標外部權重
4.1.2 結構模型具有預測相關性
1)假設檢驗結果
結構方程模型分析的第二步為結構模型的分析,研究結果支持了本文提出的8個研究假設中的5個。通過使用SmartPLS中的自助法(bootsrap‐ping)得到各潛變量間關系的T統計量、路徑系數、P值及假設檢驗結果如表9所示。

表9 結構模型假設檢驗結果
科研人員對數據重用生態系統的態度正向影響其對數據重用規則的熟悉程度(β=0.183,P=0.007),未對數據重用行為產生顯著影響。感知社群文化基礎正向影響其數據重用行為(β=0.183,P=0.019),對數據重用生態系統態度具有負向顯著影響。科研人員的感知規則熟悉程度負向影響數據重用行為。科研人員感知支持措施實用程度正向影響重用規則熟悉程度(β=0.365,P=0.000)、科研人員對數據重用生態系統的態度(β=0.409,P=0.000)以及數據重用行為(β=0.122,P=0.003)。結構模型檢驗結果如圖4所示。

圖4 結構模型假設檢驗結果
使用可解釋變異量R2(R-square)做進一步分析。若R2>0.19[67],則說明模型解釋力可接受,即某一潛變量是引起另一潛變量變動的主要原因;科研人員對感知社群文化基礎和感知重用支持措施實用程度對其態度的解釋能力R2=0.208,解釋力尚可;科研人員對數據重用生態系統的態度和感知支持措施實用程度對感知重用規則熟悉程度的解釋能力R2=0.226,解釋能力較強;科研人員對數據重用生態系統的感知和態度對其重用行為的解釋能力R2=0.09,解釋力不足,有待提升。這說明科研人員對科研數據重用生態系統的態度和感知對科研數據重用行為具有一定影響,但不是主要影響因素。同時,也說明未來在研究科研數據重用行為影響因素時,需考慮科研人員對數據重用生態系統的態度與感知的作用。模型中其他潛變量間,即PCCF和PRSU對ATT的解釋力,以及ATT和PRSU對PRRP的解釋力均尚可。因此,總體來看,該模型具有一定的解釋力,但有待提升。通過blindfolding方式求得Q2,當Q2≥0時,模型具有預測相關性[68],且Q2越大表示預測相關性越強。本研究中,Q2(0.054)>0,說明科研人員對數據重用生態系統的態度和感知對其重用行為具有預測相關性。
2)中介效果檢驗
結構模型的潛變量中,自變量不僅對因變量產生直接效果,也會通過中介變量對其產生間接效果,可通過PLS-SEM中的bootstrap方法檢驗[69]。通過總間接效果判斷是否存在中介效果,如表10所示。科研人員的態度(ATT)和感知支持措施實用程度(PRSU)對數據重用行為(RDRB)的間接效果顯著,因此認為存在中介效果。感知社群文化基礎(PCCF)對數據重用行為的間接效果不明顯。

表10 模型中介效果檢驗
4.2.1 調查問卷開放式問題結果
調查問卷中,開放式問答旨在了解科研人員對數據重用生態系統所持態度,以及其對現有社群文化基礎的感知情況。由于開放式問答題需視相應題目的回答情況有選擇地填寫,因此,下述三項開放式題目回答人員數量不同。
共有50位受訪者對“放棄使用他人已有數據集的原因”做出有效回答,分類后的結果如圖5所示。擔心產生權益問題(21)、數據本身的質量(10)、數據獲取與重新整理耗費大量努力(8)以及擔心誤用他人數據(7)成為科研人員放棄使用現有數據集的主要原因。由此可見,數據權益問題成為開放科研數據背景下,數據重用不可忽視的一項問題。

圖5 受訪對象放棄重用現有數據集的原因
共有125位受訪對象說明“開放共享研究數據供他人使用的原因”,其中重用過他人數據的有71人。由于回答有時涉及多重原因,拆分后得到161條結果,具體原因分布如圖6所示。由圖6可知,前5名從高到低依次為:①節約研究成本,充分發揮數據價值。包括由于實驗材料和環境的特殊性,研究數據的獲得條件較高,因此,希望充分發揮數據價值;②促進科研發展。包括跨學科交流、合作、數據開放與數據重用者研究成果相互促進;③增強學術可見度與影響力;④增強研究可信度。包括能夠得到同行的認可、作為研究成果的支撐材料;⑤數據是學術共同體/公眾的共同財富。

圖6 受訪對象開放共享科研數據的原因
共有25位受訪者回答“常用科研數據存儲位置”,清洗后得到29條結果。其中,14位受訪者回答了選擇這些存儲位置的原因,清洗后得到18條結果,如圖7所示。科研數據常用存儲位置的回答可分為明確的存儲位置與較為模糊的存儲位置兩類:①明確的科研數據存儲位置中,專業的數據知識庫占比62.07%。其中,NCBI(National Center for Bio‐technology Information)子庫的回答最多(41.38%)。有4條回答涉及中國科學院北京基因組研究所的BIGD(BIG Data Center)子庫,占比13.79%。值得注意的是,有4條(13.79%)結果涉及百度網盤、科研團隊服務器以及研究人員個人電腦。這說明部分科研人員或小型科研群體的長尾數據托管也值得重視。②模糊的存儲位置,側面反映了科研人員對其選擇的標準,即持久可獲取、學術期刊指定的位置、考慮數據的長期可獲取程度以及便于數據共享的網站。前兩項原因屬于感知社群文化基礎的影響,后兩項原因屬于后續在支持措施中能夠加以引導或提供服務的內容。由于該部分內容所含數據較少,在此僅作為參考。

圖7 受訪對象科研數據常用存儲位置及原因
4.2.2 半結構化訪談結果
1)態度
科研人員開放科研數據的動力主要源自數據資源的充分利用(I8~I10)、支撐科研成果、擴大學術影響(I6)以及啟發自身研究(I8)等方面。數據重用的目的與程度存在差異,更傾向于從研究設計和方法角度參考。某些研究領域,如“分子生物學”中,序列比對和同源性分析是重要分析過程(I10)。
科研人員重用他人已開放數據的顧慮主要集中在對自身研究的風險評估、對數據所有者和數據所反映對象的權益保護(I6)以及在利用他人數據時對結果的分析與解讀(I10)。該結果與問卷調查中開放式問題結果相似,這說明科研人員著重關注數據質量、權益問題以及自身數據管理與分析技能的提升。
2)感知社群文化基礎
感知社群文化基礎對科研人員的影響主要體現在數據發現、數據出版的方式與要求上。生物學領域的科研人員關注科研數據質量,對開放共享數據集的質量評價標準主要集中在統計、生物學和科研意義三個層面上(I6、I8~I10)。目前,數據質量控制的關鍵主體為期刊、基礎設施平臺和科研人員,訪談對象指出“數據的質量控制環節主要以科研人員自身、同行評議為主(I6)”。國內外在數據出版同行評議環節對數據質量控制的探討較多[70-71],后期則更應關注科研人員自身對數據質量控制相關技能的掌握情況。
數據發現平臺的引用機制對數據貢獻認可具有重要影響。科研人員主要通過論文補充材料了解相關數據,在引用方式上,傾向于引用文章(I8、I10);以生物數據分析為主的團隊,傾向于在文章中提及所使用數據集的注冊號,在文末引用與該數據集關聯的文章(I6)。微生物領域的科研人員(I9)逐步開始采用數據引用方式,形式為“標注注冊登記號+文末引用數據集”。
3)感知規則熟悉程度
該部分著重了解訪談對象對數據發現與數據存儲方面規則的熟悉程度。科研人員選擇數據發現平臺時,著重關注數據知識庫的權威性、資源是否全面以及其特定數據處理功能。例如,訪談對象5指出“傾向于使用(NCBI)的原因:首先,其體量比較大;其次,是功能比較強大,有些可以在線進行一些可視化的內容”。訪談結果與問卷開放式問題在科研數據存儲位置的選擇標準上較為相似:相較領域公認,以期刊要求或推薦作為主要參考標準(I5、I6、I8~I10)。調查問卷的開放式結果中,科研人員也將平臺中數據的長期可獲取程度作為衡量指標,這說明數據基礎設施方通過采取與高質量期刊合作、長期穩定的運營以及數據覆蓋量的不斷更新與增長等措施,能夠提升科研人員對該平臺的認可。
4)感知支持措施實用程度
科研人員對數據重用支持措施的需求,主要體現于數據發現、加工分析與可視化階段。例如,“對他人科研數據的加工處理、對發表渠道權威性的關注與了解數據知識庫的實用性”(I1)。另一訪談對象指出,“在大型項目中需從事交叉學科的工作,大家傾向于先彌補一些專業知識,而對于像諸如可視化這方面的工作沒有很了解”(I2)。由此可見,數據重用生態系統的支持措施需從科研數據生命周期的各環節部署,而非僅集中在數據發現與重用階段。
本文采用獨立地定量與定性數據收集和分析過程,并在本節對兩者所揭示的現象進行合并闡述(表11)。從總體上看,科研人員對科研數據重用生態系統的態度與感知(感知社群文化基礎、感知規則熟悉程度以及感知支持措施實用程度)對其重用行為具有重要影響。
由表11可知,在得到支持的研究假設中,感知社群文化和感知支持措施是影響科研人員科研數據重用行為的主要因素,并且以感知社群文化基礎影響最大。因此,利益相關方的支持措施:首先,可關注促進科研社群形成認可數據重用生態系統理念的社群文化;其次,通過促進科研人員對科研數據重用活動中各環節規則的全面認識和熟悉,降低其在開展重用工作時的顧慮,進而逐步樹立其對數據重用的積極態度。

表11 定量與定性研究結果匯總分析
未獲得支持的研究假設中,主要有以下兩個方面原因:①開放科研數據的存儲位置是數據重用重要的來源,決定了科研數據重用的后續進程。因此,認識開放科研數據與數據重用過程是相互促進的生態系統非常重要。目前,科研人員對數據存儲位置環節的選擇,主要是在期刊的要求/推薦下,完成的一項出版活動,并未對該生態系統具有較清晰的理解。②科研人員因為對數據質量控制和權益管理方面技能的缺乏,導致其產生一系列顧慮,不利于順利開展數據重用活動。
綜上,數據發現與數據出版過程是科研人員感知社群文化基礎形成的重要環節,在數據社群層面上,開展數據質量控制和權益管理是利益相關方提供支持措施的兩個切入點。
實證研究結果表明,從生態系統視角探索科研人員的數據重用行為,可為利益相關方促進開放科研數據可持續發展提供新思路。基于上述研究結果,本研究提出如下三條建議。
數據發現所使用的平臺與數據出版過程中所建議的存儲位置有較大聯系。目前,我國生物學領域也在積極推進國家級科學數據中心建設[20],促進將我國科研經費資助項目所產生的科研數據存儲在本土的數據知識庫中。同時,亦可從數據出版環節反向增加科研人員數據發現平臺來源的選擇。除了數據中心自身外,圖書館在此過程中,能夠積極輔助國內大型數據中心完成相關國際化認證,并推廣該認證內容。例如,可制作資源列表通過社交媒體平臺,宣傳經眾多期刊認證的國內數據知識庫。
數據重用生態系統建設需建立協作網絡,以更全面了解當前數據重用實踐進展、協調其中關鍵問題的解決方案與具體實施步驟,評估與改進協作效果[72]。定量調查結果顯示(見第4.1節),感知支持措施實用程度是科研人員數據重用行為的重要影響因素,其涉及眾多利益相關方;定性研究進一步表明,利益相關方對數據重用活動的支持需在數據生命周期各環節相互配合與協調(見第4.2.2節),且在不同環節與互動中,其角色的主次與支持的連貫程度較為重要。因此,需要利益相關方進行對話與協作。
根據生物學領域科研人員在研究過程中的需求特點,提供數據和政策層面的服務。數據重用與其應用情境密切相關[73]。生物學領域數據種類與使用情境眾多,有學者指出,對生物系統的描述中,受制于不同分析類型(如基因組測序、蛋白質-蛋白質相互作用測定、代謝物濃度的測量)原始材料(source material)多樣化的報告格式,很難作為連貫的研究單元進行分享。而目前眾多數據知識庫是為了特定類型的數據而設計的,因此,需將復雜數據集碎片化。并提出ISA commons框架方案以增強數據層面的互操作性[74]。由此可見,眾利益相關方在基礎設施與數據實體層面的協作是科研數據重用的基礎。Duke等[75]將數據共享與重用中所涉及的倫理問題聚焦至數據引用和確定合著者的層面。這說明構建數據重用生態系統所需的協作,既包括基礎設施層面,又包括眾利益相關方共同管理與協調的政策、規范等,以保證數據生成者與數據重用者的權益。
數據中心在建立和整合領域數據知識庫的基礎上,關注國際主流知識庫元數據層面互操作性。加快我國數據知識庫的國際化認證進程,使得本土數據庫能夠出現在眾多領域期刊推薦的存儲位置中。并基于現有數據資源,開展眾多激勵措施,鼓勵科研人員對開放科研數據資源的使用,如構建官方公眾號、定期推送平臺內新增數據集的信息。開展相應的開放數據大賽,吸引更多科研人員參與重用數據或進一步促進其開放自身研究過程中生成的科研數據。
資助機構重視開放科研數據觀念在科研人員中的傳播,提升科研人員對開放科研數據和數據重用活動的參與。在科研人員申請科研項目和結項階段,需明確科研數據開放的范圍與重用許可等事項。同時,與科研評價方合作,提升將科研數據集作為科研成果的認可程度。
學術圖書館可進一步探索自身在知識產權研究方面的服務,幫助更好地平衡科研人員和眾多利益相關方的權益問題。學術圖書館與所在科研機構或高校合作,引導在課堂教學方面提供數據重用的介紹,并能夠在實際數據分析課程重用已有數據時,提供必要的指導;幫助未來的青年科研人員,了解科研數據重用的益處,并提供相關技能培訓;幫助所在機構科研人員或課題組,進行數據管理方面的學科數據管理服務;提供或與數據中心合作,提供相應基礎設施幫助存儲大型和長尾科研數據集;通過設立數據館員崗位,更加聚焦開放科研數據環境下的諸多科研數據管理服務,特別是在數據質量控制與權益管理方面。
本研究建議高等教育機構在開展相應的教學實踐活動時,引導學生開展重用已有科研數據的探索。鼓勵機構內科研人員將非涉密數據存儲至特定數據知識庫中,促進已有數據的可發現程度,從而幫助進一步提升科研人員的學術可見度,并對此過程中的各環節及其規則進行說明。可與所在高校圖書館、數據中心就具體實施內容開展合作。