科研數據不僅是科學研究的重要資源,也是科研活動的重要產出,推動著科學研究的開展,因此研究科研人員的數據收集、保存、管理、開放和共享活動非常重要,特別是數據共享研究對減少科研人員的重復勞動、提高科研效率意義重大。本文通過梳理相關文獻,借助扎根理論歸納科研數據共享的影響因素,分析影響因素與科研數據共享活動之間的關聯關系,探索影響因素在數據生命周期、利益相關者以及數據治理視角下的關聯,以推動科研數據的共享與開放,促進科研數據的可持續發展。
本文主要采用文獻調研和內容分析法進行數據分析,以中國知網以及Web of Science兩大數據庫作為主要文獻來源,同時以網絡資源作為文獻來源補充。首先對64篇相關文獻中影響科研數據共享的因素進行剖析,并對原始資料進行初始概念化;其次為使研究樣本數的確定遵循理論飽和原則[1],即新收集的樣本在分析后不再產生新的概念,本文選擇三分之一的文獻資源進行理論抽樣,對數據進行編碼分析,最終達到理論飽和,終止樣本收集。
本文旨在探討影響科研人員進行科研數據共享時的因素及其對共享產生的作用,對其進行梳理并剖析。定性研究方法扎根理論能夠使分析層層遞進,研究過程更加透徹和清晰,研究結論更加科學。筆者首先選擇有關科研數據共享的影響因素或挑戰的文獻進行閱讀和分析,獲取影響科研數據共享行為和意愿的原始資料;其次進行初始編碼(開放性編碼),通過對文獻資料的整理和分析形成初始概念,并逐步范疇化,形成概念類屬,即影響科研數據共享的具體因素;再次在初始編碼的基礎上,發現概念類屬(具體因素)之間的各種聯系,形成主軸編碼;然后進行選擇性編碼,分析核心范疇,建立各范疇之間的關系;最后根據已有的編碼結果整合科研數據共享影響因素及其與共享活動之間的關系。
本文以扎根理論編碼的原則為基礎,以科研數據共享的影響因素為主體,對收集的文獻資料進行內容分析,剔除相關度不高的內容,共獲得371條語句。對原始語句進行初始概念化,在獲得初始概念后發現部分存在重復和交叉的概念,因此對重復和交叉的概念合并和刪除,最后共獲得68個初始概念。對初始概念不斷比較以及進一步合并和歸納,共獲得32個概念類屬(初始編碼)作為主軸編碼的基礎,見表1所示。

表1 文獻調研資料初始編碼示例
通過對371條語句的分析、篩選和歸納,所提取的初始概念涵蓋范圍廣,內容多樣。比如,對張靜蓓等[2]提到的“美國國家科學基金會(NSF)和美國國家癌癥研究所(NCI)也要求他們所資助的項目必須提交數據管理計劃(DMP)”進行深入剖析,首先分析出該句主要強調的內容是“提交數據管理計劃”,因此數據管理計劃可作為初始概念;其次對原句其他部分進行分析可知,NSF和NCI是屬于科研基金資助機構,根據語句內容可判斷該機構內部規定需要提交DMP,因此該初始概念可歸納為科研基金資助機構政策。由于初始概念較分散,經過分析和歸納形成的初始編碼也較零散,但初始編碼中感知利益和感知危險包含的初始概念最多。表1中將學術優先權、互利互惠、社會評價(聲譽、知名度)、提升科研水平、學術認可等11種初始概念歸為感知利益。感知危險與感知利益是兩個相對的概念,感知利益是科研人員在進行數據共享行為后獲得的對自己有形或無形的激勵,而感知危險則是科研人員在開展數據共享后感覺到對自己造成威脅的各種不利情況。本文將出版機會的減少和丟失、商業化機會、科研成果被竊取、數據錯用或誤解、個人經驗教訓(個人經歷)、學術競爭力、信任危機、利益受損、職業保護等初始概念歸納為感知危險。在編碼中初始概念是基礎,因此本文對相關原始語句進行逐字逐句的詳細分析,提煉出初始概念,并對初始概念進行范疇化,從而形成32個初始編碼,為主軸編碼的開展提供基礎。
從初始編碼的結果可知,目前所得到的范疇之間的聯系并不明確,需要進行更深層次的分析和歸納。主軸編碼的目的是為了發現和建立各概念類屬(范疇)之間的聯系,從而說明所分析的資料各個部分之間存在有機關聯[3]。因此,本文基于已有文獻中對影響因素研究的認識以及結合科研數據本身的特征,對開放式編碼過程中所獲得的32個初始編碼進行深入分析、概括和歸納,討論它們之間的聯系,形成五個主范疇,分別是制度因素、技術因素、組織因素、個人因素與資源因素。主范疇、對應的副范疇及其內涵如表2所示。
在選擇性編碼階段,經反復比較、歸納和分析主軸編碼階段形成的主范疇,可揭示出主范疇的典型關系結構,并基于此挖掘出具有統領性的核心范疇,開發故事線[4-5]。主范疇的典型關系結構如表3所示。由表3發現主軸編碼階段形成的五個主范疇均影響科研數據的共享,因此本文的核心范疇為“科研數據共享的影響因素”。此外,為遵循扎根理論的理論飽和原則,對用來進行理論飽和度檢驗的三分之一文獻調研資料進行分析,未發現新的概念和范疇,因此可認為以上構建的理論是飽和的。
基于編碼分析過程以及對國內外相關文獻的分析可知,多數研究成果都是圍繞影響數據共享的制度因素和個人因素。制度因素主要有資助機構政策和期刊政策,如美國國立衛生研究院(NIH)[6]規定研究人員在2003年10月1日或之后提交的50萬美元以上的資金項目申請需要遵守數據共享政策,提供一份包括共享最終研究數據為研究目的或者說明為何不可能共享數據的計劃。目前許多學科領域中的期刊要求作者通過將數據存儲在存儲庫中或者根據請求自由提供數據,從而與其他研究人員共享他們的數據,并且將共享原始數據集作為出版的要求[7-8]。以計劃行為理論為基礎,對影響數據共享的個人因素的研究成果主要包括共享意愿、共享態度、感知利益、感知危險、感知努力以及主觀規范等方面。計劃行為理論指出意愿是影響行為最直接的因素,而態度又直接影響意愿,已有研究中將共享意愿和共享態度分別定義為科研人員對科學數據共享的主觀意愿強烈程度以及對這一行為的積極評價或支持的程度[9-10]。吳丹等[11]、傅天珍等[12]在研究中提到學術優先權、物質獎勵以及社會評價這類利己行為和減少重復勞動、時間和精力的利他行為將使研究人員更愿意共享數據。目前已有研究成果[7][13]指出,數據共享后帶來的蝴蝶效應,可能會引起數據不受控制,從而失去潛在的商業化機會,或者導致某些敏感數據被共享,研究人員的科研成果被搶先報道。可見感知利益指科研人員共享數據可以通過致謝、引用等提供獎勵的程度,相反感知風險是可以讓科研人員對共享數據可能帶來的風險感知[7][14]。科研人員指出共享數據需要花費的時間和精力的程度即感知努力,主觀規范則是科研人員在決策是否執行共享行為時感知到的社會壓力[15-16]。除此之外,數據安全也是科研人員在共享數據過程中比較關注的,如隱私、知識產權、敏感數據等都是與數據安全緊密相關的。其他影響因素盡管目前的研究并不是很多,但在科研數據共享過程中從不同角度對科研人員的共享行為產生影響,因此仍然需要綜合考慮這些因素。
若以科研人員為參考依據,個人因素是影響科研數據共享的內部因素,而制度因素、技術因素、組織因素和資源因素則是影響科研數據共享的外部因素。由上述編碼分析可知,科研數據共享是在內外部因素共同作用與制約下實現的,是一個系統的過程。因此借助管理學系統論,以系統的層次性、整體性等觀點,列舉出若干影響因素,勾勒出影響因素之間的關系以及因素與科研數據共享之間的作用[17],如圖1所示。
由圖1可知,扎根理論形成五個主范疇:個人因素、資源因素、組織因素、制度因素以及技術因素,它們共同影響科研數據共享并且發揮著不同作用,同時五大影響因素之間互相關聯和推動。
(1)科研數據共享影響因素中,資源是最重要并且最基礎的,資源因素涵蓋了數據質量、價值、安全、所有權、格式、標準、描述以及融合等,因此它在科研數據共享過程中發揮著基礎作用。

圖1 科研數據共享影響因素之間的相互關系
(2)個人因素包括共享意愿、共享態度、感知利益、數據素養、感知危險、感知努力、職業義務、主觀規范、感知需求,共享態度對共享意愿產生直接影響;感知利益、感知危險、感知努力、感知需求和職業義務對共享態度產生直接影響,對共享意愿產生間接影響;主觀規范和數據素養對共享意愿產生直接影響,并且在科研數據共享過程中,科研人員是最重要的主體因素,因此個人因素發揮著主導作用。
(3)若有良好的共享組織文化、結構、氛圍以及組織激勵,將會支持科研數據的共享,因此組織因素可發揮支持作用。
(4)制度因素則在科研數據環境中發揮推動作用,各種政策、法律法規的制定有利于科研數據共享。
(5)技術因素發揮保障作用,先進的基礎設施、合理的技術平臺都能保障共享活動順利開展。
科研數據共享時影響因素之間也相互影響,如在產生科研數據過程中,科研人員可以影響數據的準確性和完整性以及對數據的描述,因此個人因素是影響資源因素的。由于各項制度的制定、組織文化和組織氛圍的熏陶以及數據共享平臺、技術的創新等都會影響科研人員的意愿,推動或制約科研數據共享,可見制度因素、組織因素和技術因素在科研數據共享中也從外部影響著個人因素。制度因素是客觀性因素,它不僅對數據安全和數據所有權的界定有指導,而且引導組織文化的形成,對資源因素和組織因素都產生影響。總之,科研數據共享影響因素不僅內外部結合共同對共享產生作用,同時因素之間也相互影響。
近年來,已有部分科研數據共享影響因素相關的研究成果,但是從宏觀上來看,成體系且深入探討的研究并不多。本文在歸納影響科研數據共享諸因素的基礎上,結合系統論構建影響因素與科研數據共享以及因素之間相互關系,同時深入剖析在科研數據共享中影響因素與科研數據生命周期、利益相關者以及數據治理之間的相互關系。
在科研第四范式環境下,科研數據向數據密集型發展,出現數據爆炸現象,因此科研數據管理的作用越來越突出。而數據生命周期理論是科研數據管理過程中的重要理論基礎,“生命周期”不同于“生命期”,它指經過數據管理、長期保存、實現資源發現以及再利用的數據加工環境,是自產生到消亡的循環過程[18],與數據相關的研究應遵循這一理論。本文將科研數據生命周期階段概括為數據收集和獲取階段、數據分析階段、數據保存和管理階段以及數據發布和共享階段,可見科研數據共享是數據生命周期中的一個重要環節,同時是數據管理的最終目的,有利于科研數據的再利用。因此,從數據生命周期理論的視角出發研究科研數據共享的影響因素,將更易于了解數據生命周期不同階段涉及到的共享因素。本文基于數據生命周期的不同階段對影響因素的影響范圍進行深入剖析。
(1)盡管在數據生命周期中最后一階段才進行數據發布和共享,但不排除在其他階段發生數據共享行為。結合扎根理論的編碼分析和技術接受模型可知,共享者的行為由共享態度(感知危險、感知利益等因素綜合決定)產生共享意愿,進而產生共享行為,因此個人因素中最核心的因素即共享者自身的態度。在數據生命周期的各個階段,感知利益、感知需求、主觀規范和職業義務會促進研究人員形成積極的共享態度;而感知努力和感知危險可能會對研究人員產生負面作用,形成消極的共享態度,從而導致研究人員不愿意共享;同時數據素養在研究人員共享的過程中發揮的是輔助作用,所以個人因素在科研數據共享時將貫穿數據生命周期的各個階段。
(2)在數據生命周期中,數據是最基礎的也是最關鍵的,因此在綜合考慮的基礎上,資源因素亦會在數據生命周期的各個階段影響科研數據的共享。
(3)在組織結構的影響下,研究人員的共享行為最可能發生在數據生命周期的最后環節——數據發布和共享階段,積極的共享文化和共享氛圍將推動研究人員在該階段共享數據,規避風險的文化則將阻礙共享的開展,因此組織因素主要影響數據生命周期中的數據發布和共享階段。
(4)而資助機構要求被資助的研究人員提供一份數據管理計劃或者數據共享計劃,出版商要求研究人員在投稿時附上相應的原始數據或原始代碼等,可見制度因素在數據生命周期的最后環節發揮重要作用。
(5)技術因素在科研數據共享時主要在數據保存/管理、數據發布/共享兩個環節產生影響:在數據保存/管理階段,元數據標準和本體論兩因素會對科研數據共享產生重要影響,數據共享平臺和數據管理機制則在數據發布/共享階段影響科研數據的共享,而共享技術在兩個環節中均對科研數據共享產生影響。
在科研數據共享的過程中不可避免的涵蓋各方利益者的參與、協調和支撐,并且利益主體又是隨著共享的過程而不斷變化的。目前對科研數據利益相關者的研究可分為兩個方面:一方面強調利益相關者在科研數據發展中的責任和義務[19-20];另一方面對科研數據的具體利益相關者關系進行分類和界定研究。高校的科研數據管理政策中明確利益相關者主要有學校、科研部門、信息技術部門、科研人員、圖書館[21]。郝世博等[22]把科研數據共享管理的主體保障歸納為科研人員、科研機構、科研資助機構、國際組織及國家政府機構、數據中心、學術出版機構、高校及專業圖書館等。關于利益相關者的界定并不一致,本文結合科研數據發展的階段性特征,將科研數據共享的主要利益者劃分為科研人員、科研機構、科研資助機構、企業資助機構、數據中心、學術出版機構、高校以及圖書館。從利益相關者的視角研究科研數據共享的影響因素可掌握在開展數據共享活動時各利益方受到不同因素的影響。
由于科研人員始終貫穿于數據管理全過程,并且在科研數據共享的過程中發揮著重要作用,因此,科研人員這一利益者的共享行為將重點受個人因素影響。包括科研人員在內的各類利益相關者在數據共享開展時離不開數據這一資源,因此資源是影響因素之一;其次科研基金資助機構政策、期刊投稿政策等制度的頒發和實施將促使各類利益相關者更愿意開展數據共享活動;而科研資助機構、科研機構、學術出版機構、數據中心、企業資助機構、高校和圖書館這些利益者作為獨立的組織也會受組織中的文化、氛圍、結構和激勵機制的影響,同時科研人員作為組織中的一員也將受組織因素的影響;技術因素不僅對科研人員在開展數據共享時形成保障作用同樣也對其他利益者發揮作用。可見各類利益相關者在開展科研數據共享活動時,資源因素、組織因素、制度因素和技術因素都會從外部影響他們的共享行為,個人因素則重點影響科研人員的共享行為。
隨著大數據對社會各行各業的愈發滲入,“數據治理”在企業、政府、銀行等以數據為核心的領域越來越受到重視,數據治理的重要性不言而喻。同樣的,科研數據治理也逐漸成為學界的關注點。數據治理貫穿于數據獲取、數據共享、數據重用以及數據加值中[23],因此從數據治理的視角出發探討影響科研數據共享的因素將有助于數據治理的開展,同時推動數據再利用的高效發展。
數據治理主要圍繞數據展開的,是對科研數據的準確性、完整性以及可用性的管理,經過前期的文獻調研和分析可知,數據質量包括了數據的準確性和完整性,同時數據治理要素還包括數據標準、隱私/安全[24],因此,影響科研數據共享的資源因素在數據治理中首當其沖。除此之外,Loshin D[25]提出與數據治理相關的五個核心概念之一即監測元數據的一致性,上述研究中將元數據標準歸為技術因素,因此,數據治理與影響科研數據共享的技術因素亦緊密聯系。當科研人員開展科研數據共享活動時,應該關注個人因素、資源因素、組織因素、制度因素和技術因素帶來的影響,尤其注重將數據治理理念運用到資源因素和技術因素中,保障數據質量、數據標準以及元數據標準等達到共享要求,進而推動科研數據管理與共享活動的可持續發展,提升科研數據共享過程的效率,促進科研數據的再利用。
總之,從數據生命周期、利益相關者以及數據治理視角對科研數據共享影響因素的剖析可知,在科研數據共享中影響因素與數據生命周期、利益相關者、數據治理是緊密聯系的,掌握數據生命周期不同階段中影響數據共享的因素、各個利益相關者在共享中受到影響的因素以及數據治理理念在影響數據共享因素中的作用,對今后共享活動的開展具有重要意義,開展共享活動時可在數據生命周期的各個階段充分發揮促進因素的作用,減少阻礙因素的影響,各利益相關者充分挖掘影響開展共享的積極因素,趨利避害,將數據治理理念融入影響數據共享的資源因素和技術因素中,從而共同推動科研數據共享的高效開展,達到數據的充分再利用、挖掘數據的價值以及滿足數據的可持續性發展要求。
共享科研數據是實現數據價值和數據再利用的關鍵,同時,科研數據在共享過程中挑戰與機遇并存,本文以文獻調研法和內容分析法為基礎梳理已有文獻中影響科研數據共享的因素,進而用扎根理論方法對影響科研數據共享的因素層層剖析,歸納出影響科研數據共享的五大因素:個人因素、組織因素、資源因素、制度因素與技術因素。筆者基于這五種因素,結合系統論構建了科研數據共享影響因素之間的相互關系。同時在扎根理論編碼的基礎上,深度剖析并厘清數據生命周期和利益相關者以及數據治理與影響因素之間的關系,更好地掌握各因素發揮的作用,提高共享效率,滿足數據可持續發展要求。上述研究也為今后開展數據共享活動帶來啟示。
(1)個人因素方面。個人因素在科研數據共享過程中發揮主導作用,因此可從感知利益、感知努力和感知危險三個主要方面進行改善,如給予更多的鼓勵、學術認可、聲譽等有利于共享者自身發展的推動,并且采取相應措施保證共享者各方利益不受挫。此外采取團隊合作進行數據收集、整理和共享,減少資金、時間和精力的消耗。
(2)組織因素方面。已有研究表明組織結構的不合理導致數據無法進行共享,因此需要調整組織結構,協調組織中各部門,至上而下明確分工,協同合作;并且摒棄傳統的規避風險文化,通過相關教育使組織中各成員意識到共享的重要性和價值;同時發揮組織中領導的作用,營造數據共享文化氛圍,帶領成員積極響應“自由、開放、合作、共享”理念,并且設置組織激勵機制以鼓勵成員主動共享數據。
(3)資源因素方面。資源是數據共享的基礎,研究人員不僅需要規定好數據所有權、數據標準、數據格式、數據描述以保證數據能夠以可機讀形式進行共享,同時要考慮數據融合的特點以及保證數據的安全和質量,推動數據能夠及時共享。
(4)制度因素方面。無論什么性質的活動開展均離不開制度的推動,在仍存在不愿共享和不敢共享現象的階段更需要政策制定的推動。首先國家可推行相應的共享政策鼓勵開展數據共享,其次倡導更多的資助機構、出版商以及企業等要求科研人員提供相應的科研數據、原始代碼以便佐證已開展的研究。如美國聯邦政府早在1990年啟動了以“完全、開放、無償”為科學數據共享計劃這一基本國策[26],不僅保障科研項目的開展,同時促進社會經濟發展以及提高社會效益。國外PLoS One、Nature等著名期刊要求作者在發表論文的同時提交論文中所涉及的數據或者將它們提交到指定的倉庫中。可見制度因素在社會經濟領域和科研學術領域中不可或缺。
(5)技術因素方面。數據共享離不開相應技術的支持,可完善元數據標準和本體論,鼓勵更多機構搭建數據共享平臺和改善對數據共享的控制,以更先進的技術保障數據共享的開展。目前我國為實現社會經濟可持續發展以及推動地球系統科學的研究,建設國家首批認可的地球系統科學數據共享服務平臺,集成和整合國內外多種渠道產生的數據[27]。此外作為國內著名高校,復旦大學建設了國內首家綜合性的社會科學數據平臺,該平臺在哈佛大學Dataverse的基礎上進行漢化和二次開發,于2013年6月順利推出Dataverse中文版3.3版本,采用DDI元數據規范,分級別分層次控制數據的訪問權限,實現數據共享[28]。數據共享平臺的建設使得各種類型數據由分散至整合,為科研人員提供有效的數據服務,推動科研過程。
綜上所述,在科研數據共享過程中同時存在起促進作用與阻礙作用的科研數據共享影響因素。從數據生命周期、利益相關者以及數據治理三個視角分析其與科研數據共享影響因素之間的關聯關系,對科研數據共享影響因素的多角度分析恰好順應了互聯網時代聯結一切的理念,無疑在學術界和圖書館界開展科研數據管理活動帶來諸多啟發。