魏銀珍,鄧仲華,楊改貞△(.黃岡師范學院計算機學院;.武漢大學信息管理學院)
信息技術的發展及其在科學研究領域的廣泛應用加速了科學數據的產生,形成了以數據驅動計算的“大科學”,使得科學研究范式開始向數據密集型科研范式轉變,數據已經不僅僅是科學研究的產出品,更是開展科學研究的基礎性資源。因此,科學數據的共享和重復利用已經不再局限于某個領域或某個學科,而是幾乎涉及到了所有的領域和學科。在國外,科學數據多被稱為Research Data或Scientific Data,兩者在本質上并無顯著差異,均指科研活動中原始的數據。在國內,科學數據也稱科研數據,是科技創新的基礎性資源,本研究中的科學數據是指人們在科學研究活動中為特定的研究目的而創建的原始數據,包括觀測數據、調查數據、實驗和仿真數據,具有可訪問、可重復利用、高可靠性等特點,有潛在的研究價值和經濟價值。
Karast等認為數據重用是指沒有收集數據的人使用數據;[1]Zimmerman認為數據重用是指數據的二次使用,這些數據不由其原始目的定義,而是旨在解決新問題;[2]King指出數據重用包括對已有研究結果的再現,有助于新知識的發現;[3]Fienberg等指出數據共享和重用的目的是讓研究再現、增加創新的可能性、提升數據的價值。[4]本研究將數據重用定義為為研究新問題而搜集使用已有的(他人創建的)數據,并將“數據重用”“使用他人的數據”“二手數據”和“數據再利用”視為同義詞。數據重用過程包括數據發現、數據選擇、數據獲取與理解、數據使用等階段。
本研究采用綜合理論框架,將計劃行為理論(Theory of Planned Behavior,TPB) 與技術接受模型(Technology Acceptance Model,TAM)進行整合。TPB是一種社會心理學理論,它將個體行為與行為的態度、主觀規范以及行為控制相聯系。[5,6]在TPB中,對行為的態度、主觀規范和行為控制是由個人的態度信念、規范信念和控制信念決定的。本研究使用TPB理論有如下考慮:① 科研人員對待數據重用行為的態度即科研人員對重用他人數據全面的評估;② 科研人員對數據重用的主觀規范,即科研人員的社會近他者對其數據重用行為的期望;③ 感知行為控制(或資源促進條件等)即數據資源庫或機構的支持。TPB使用意圖作為實際行為的代理,解釋了態度、主觀規范和感知行為控制如何影響科研人員個體參與數據重用行為的意圖。
盡管TPB提供了一個理解人類行為如何受到態度、主觀規范和感知行為控制等因素影響的基本理論框架,但是并沒有揭示影響態度、規范和感知行為控制的特定信念。由于“數據重用的態度”可能受到多種態度信念的影響,故本研究采用TAM來解釋科研人員對數據使用的特定認知。TAM認為效用和效率預期可以解釋人們采用某一技術的意圖,如感知有用性和感知易用性。在數據重用意愿研究中,TAM提供了兩個重要的研究構念,即數據重用的感知有用性和感知的努力(與感知的易用性對應),因此將TAM與TPB整合是可行的。為了更好地提供TAM中數據重用的效率預期,本研究將TAM中的“感知易用性”構念改為“感知努力”。同時,本研究還將數據重用中的風險認知整合到模型中,以更好地解釋科研人員對數據重用的態度。感知風險主要指數據重用中的潛在風險,如侵犯版權、無法發表其科研成果等。文章基于TPB和TAM,為理解和解釋科研人員數據重用意愿提供理論模型,該模型考慮了態度、主觀規范和行為控制,提出了特定的態度信念,這些信念表達了科研人員對數據重用的態度從而改變他們的行為意圖。文章的研究假設和模型均基于上述理論框架。
2.2.1 研究假設
(1)假設H1:感知有用性正向影響科研人員對數據重用的態度。感知有用性(Perceived Usefulness,PU)是指科研人員相信他們通過使用其他科研人員的數據而受益的程度。在TAM中,PU是決定一個人是否使用信息系統的構念之一,被理解為一個人認為使用某個系統會增加相關的工作績效的程度。[7]科研人員重用數據的決定主要基于所預期的好處和現成的數據符合其研究需要的觀點。[8]Pienta等認為提高科研產出的效率是數據重用的動力之一。[9]數據重用者意識到利用現有數據可以提高其研究效率,因此,如果數據與研究主題相關且能夠解決研究問題,那么,科研人員將愿意利用現有數據進行研究。
(2)假設H2:感知風險負向影響科研人員對數據重用的態度。感知數據重用的風險(Perceived Risk ofDataReuse,PR)是指科研人員認為數據重用會涉及潛在風險的程度,如使用他人的數據會降低研究發表機會,或因使用他人數據造成侵犯版權行為。Yoon指出在社會科學領域中,科研人員對數據重用表示擔憂,由于數據重用者在嘗試發表重用現有數據的文章時遇到困難。[10]另外,數據表示不當、信息本身在傳遞過程中丟失、上下文信息的缺失也是數據重用者所擔心的問題。[11]感知風險的因素包括數據重用中涉及的潛在風險,Wu等擴展了TAM模型,使其包含了感知風險構念,[12]這些潛在的風險可能會導致科研人員對重復利用其他科研人員的數據持消極態度。
(3)假設H3:感知努力對科研人員重用數據的態度具有負向影響。假設H4:感知努力對科研人員重用數據的意愿具有負向影響。感知努力(Perceived Effort,PE)是指科研人員認為數據重用需要時間和精力以獲取其他科研人員的數據且處理該數據使之符合當前要求需要的程度。在TAM模型中,Davis使用“易用性”作為模型構件,指用戶認為使用系統將花費很少力氣的程度。[7]本研究使用“感知努力”而不是“感知易用性”,是為了強調數據重用過程中所期望的努力程度。數據重用文獻研究顯示,當數據重用者花費較少的時間和精力獲取和處理數據時,他們對重用數據的滿意度會提高。[13]
(4)假設H5:數據重用的主觀規范對科研人員重用其他科研人員數據的態度具有正向影響。假設H6:數據重用的主觀規范對科研人員重用其他科研人員數據的意愿具有正向影響。數據重用的主觀規范(Subjective Norm of Data Reuse,SN)是指科研人員認為數據重用在其所在的研究社區實踐中普遍存在或者被接受的程度。早期針對特定學科和跨學科的數據重用的研究表明,數據重用實踐具有多樣性和學科特征,[14,15]缺乏數據重用規范會對科研人員的數據重用行為產生不利影響。[16]由此,SN會對科研人員對數據重用的態度產生正面影響,提高科研人員對數據重用的意愿。
(5)假設H7:對數據重用的態度正向影響科研人員重用數據的意愿。對數據重用的態度(Attitude,A)是指科研人員認為數據重用有好處的程度。TPB理論表明個體對某種行為所持有的態度極大地影響其對該行為的意愿。
(6)假設H8:數據資源的可用性對科研人員重用數據的感知努力具有負向影響。假設H9:數據資源的可用性對科研人員重用數據的意愿具有正向影響。數據資源的可用性(Availability of Data Repository,ADR)是影響科研人員數據重用的重要因素,數據資源的基礎設施和促進利用的條件被認為是TPB中的外部行為控制因素。[17]數據資源可以降低感知努力,并影響科研人員關于數據重用的實際行為,科學數據資源在數據重用中發揮著重要作用,其不僅提供簡單的數據訪問,還通過提供增值服務來確保當前和未來數據使用。[18]數據資源的功能、聲譽和結構有助于科研人員決定是否信任并重用數據,良好的功能、較高的社會聲譽以及以用戶為本的數據資源結構的設計將促進科研人員從存儲庫中重用數據。[19]因此,數據資源的高可用性將減少科研人員的感知努力,并促進其數據重用的意愿。
(7)假設H10:感知數據質量對重用數據的意愿具有正向影響。假設H11:感知數據質量對感知努力具有負向影響。數據質量可以從技術屬性和科學屬性兩個方面來理解,技術屬性包括元數據、文檔、文件格式等,科學屬性包括適當的收集方法、有效性、可靠性。數據重用與否需要考慮的信任情境包括:數據重用者明確需要數據重用,但又缺乏確保數據質量的標準,并且數據重用者意識到使用不當的數據可能對研究造成的潛在危害。2.2.2 理論模型構建
基于上述概念,本研究構建了科研人員數據重用意愿影響因素研究模型(見圖1),以測量數據重用的感知有用性、感知風險、感知努力以及這些感知因素認知對數據重用態度的影響。

圖1 研究模型與數據重用意愿假設
本研究采用調查問卷方法對科研人員的數據重用情況進行評估。調查問卷主要通過電子郵件和社交網絡發放,共回收239份問卷,其中有效問卷222份。各個理論變量的測量問項使用了從“非常不贊同”到“非常贊同”的7分李克特量表,采用結構方程模型方法分析各個變量之間的影響路徑和強度。
(1)樣本選擇。本研究對研究樣本所在機構和學科背景以及科研用戶的經驗等方面進行了控制。樣本主要來源于“985”“211”研究型高校和重點科研院所,年齡低于25歲者不列入本次研究范疇,從未進行過數據重用的科研用戶不列入本研究范圍。
(2)理論變量的測量。表1為8個理論變量所屬的27個測量項目。

表1 測量項目列表
研究樣本中有139名男性(63%)和83名女性(37%);平均年齡為37歲,其中25-34歲共112人(50%),35-44歲共73人(33%),45-54歲共33人(15%),55-64歲和65歲以上的分別為3人和1人(共 2%)。
在學歷方面,被調查者學歷均為本科以上,其中博士81人(37%),碩士94人(42%),本科47人(21%)。
從工作年限來看,10年以上的66人(30%),5-10年的36人(16%),3-5年的42人(19%),3年以下的78人(35%)。
所調查的樣本人群中共有正高級職稱20人、副高級職稱64人、中級職稱39人、初級職稱22人、其他(在讀博士和在讀碩士)77人;從學科背景來看,有68人屬于人文社會學科、137人屬于理工類學科、17人屬于農林醫學類學科;數據重用經歷調查中,有77人經常重用數據(35%),70人偶爾重用數據(32%),很少重用數據的有41人(19%),選擇“幾乎不”的有18人(8%)。
在實際數據分析之前,需要對測量模型的信度和效度進行評價。
(1)通常使用Cronbachα系數、組合信度(CR)和平均方差萃取量(AVE)值作為信度評價指標,測量模型的評價結果見表2。所有測量項目的Cronbachα系數均在0.831(數據資源的可用性)到0.958(感知數據質量)之間,超過了0.70的可接受值;CR值從0.897(數據資源的可用性)到0.971(重用數據意愿),也都高于0.70的可接受閾值;AVE值從0.701(感知風險)到0.960(感知數據質量),所有的值都在可接受閾值0.50以上。

表2 測量模型信度評價結果
(2)模型效度的檢驗測量包括收斂效度和區分效度,本研究采用理論變量的平均方差萃取量AVE的平方根與理論變量之間的相關系數的比較關系來評價測量模型的收斂效度和區分效度。如果AVE的平方根的值高于不同理論項目之間的相關系數的值,則表明測量具有較好的收斂效度和區分效度。從表3可以看出,AVE的平方根(對角線粗體數字)大于不同理論變量的項目之間的相關性(下三角非粗體數字)。AVE平方根的范圍從0.838(感知風險)到0.958(對數據重用的態度),均大于不同理論變量的項目之間的相關系數。測量模型評估結果表明,每個理論變量的測量結果可靠、有效,可用于結構模型評估的進一步分析。

表3 效度評價結果
本文使用偏最小二乘法結構方程進行模型的路徑分析?;赟martPLS2.0,采用Bootstrapping算法,設置1,000的隨機抽樣,計算結果見表4。其中,T值在1.96(p=0.05)以上均對應顯著性水平為p=0.05,T值在2.58以上均對應顯著性水平為p=0.01,表示路徑關系顯著。

表4 路徑分析結果
綜上,數據重用意愿的影響因素按照影響效應大小依次為對數據重用的態度、主觀規范和感知數據質量,其路徑系數分別為0.531、0.228和0.111,均在0.05概率水平下顯著,同時未發現感知努力和數據資源的可用性對數據重用意愿有直接影響。在影響科研人員對數據重用態度的諸因素中,按照影響效益大小依次為感知有用性、感知努力、感知風險和主觀規范,路徑系數為依次為0.421(p<0.01)、-0.208 (p<0.01)、-0.138 (p<0.05)、0.141 (p<0.05)。研究結果還發現,雖然數據資源的可用性對數據重用意愿沒有顯著影響(路徑系數0.031,p>0.05),但其通過感知努力間接影響數據重用態度,最終影響數據重用意愿,沒有發現感知努力對科研人員的數據重用意愿有任何重要影響(路徑系數為0.026,p>0.05)。在結構模型中,數據重用的態度、主觀規范和感知因素一起解釋了科研人員數據重用意圖總變異的60.4%(R2=0.604)。圖2顯示該模型擬合檢驗結果,表5總結了研究假設的檢驗結果。

圖2 路徑模型分析結果

表5 假設檢驗結果
本研究融合TPB理論和TAM模型提出了影響科研人員數據重用因素的整體理論概念模型,同時,基于扎根理論得出科研人員數據重用的態度和意愿也受到外部環境的影響。
(1)從描述性統計數據來看,科研人員數據重用意愿的均值達到4.99,說明科研人員有較高的數據重用預期。在影響數據重用意愿的因素中,感知數據質量的均值達到5.595,說明規范的數據管理和可靠準確的數據是科研人員愿意利用數據的前提,同時感知風險因素的均值也達到了4.99,說明科研人員在數據重用過程中最為擔心的是重用數據可能會帶來的侵犯版權行為、對數據理解不夠透徹、研究成果發布受阻等問題。
(2)依影響效應強度排列,直接影響科研人員數據重用意愿的因素依次為對數據重用的態度、主觀規范和感知數據質量,其路徑回歸系數分別為0.562、0.248、0.097。
(3)依影響效應強度排列,對數據重用的態度的影響因素依次為感知有用性、感知努力、感知風險和主觀規范,其中感知有用性和主觀規范是正向的影響,其回歸系數分別是0.408和0.123,感知努力和感知風險為負向的影響,回歸系數分別是-0.223和-0.169??蒲腥藛T之所以考慮重用他人的數據,是因為他們認為這樣做可以提高其研究效率、提升其研究能力。同時,科研人員對數據重用的積極態度正面影響其重用數據的意愿,那么對其進行教育和宣傳將是促進數據重用的第一步,這就要求學術界在降低潛在數據重用風險的同時,引導科研人員正確使用數據。
(4)感知數據質量和數據資源的可用性對感知努力有負向的影響,其路徑回歸系數分別為-0.388和-0.217。盡管未發現數據存儲庫的可用性與數據重用意圖存在顯著關系,但它通過其對感知努力的影響間接地影響數據重用態度,進而影響數據重用意愿。這一發現表明數據資源的可用性可以降低獲得數據所做的努力,數據重用過程中較低的努力預期可以增加科研人員數據重用的態度,此外,對數據重用過程中所付出的精力、時間成本的認知對科研人員對數據重用的態度有較大的負面影響。因而,可通過科學數據共享平臺提供相應的支持來減少科研人員重用數據過程中所作出的努力。
(5)本研究發現既有社區和學科數據重用規范對數據重用態度和數據重用意愿均有顯著的積極影響。當科研人員認為數據重用被學術社區和學術界所倡導和接受時,他們更有可能擁有強大的數據重用規范并對數據重用抱有積極的態度。因此,學術界需要一種更好、更強的數據重用的規范,以促成科研人員更加活躍的數據重用行為。到目前為止,很少有研究定義科學界各個領域中數據重用的規范具體是什么,但是有些領域有更積極的數據重用文化,如地球系統科學、農業科學、社會科學等。即便在特定領域內,數據重用的主觀規范也可能根據所完成的研究類型而有所不同,在實際數據重用的不同水平上反映出不同的規范。無論是否有強大的數據重用規范,進一步探索各學科中的數據重用行為都將有助于更好地理解主觀規范在數據重用中的影響,有助于更好地理解和幫助科研社區創建數據重用文化。